AI视频角色总是变脸？一套角色设定卡解决

显示全部楼层 · 2026-4-15 18:16:19

为什么单张图能过，视频就"换人"？一个老手的避坑指南（转：https://mp.weixin.qq.com/s/aN0DlTyN4nceQHYHNHQRqQ）

先说个现实：很多人做 AI 视频，发现单张图没问题，一生成视频就"换人"——不是换脸就是五官跑偏。问题往往不在模型，而在你的设定卡没做对"防伪认证"，先看效果。

可以看看单独生成一张照片：

这个是角色卡设置之后：

单张图 vs 视频：根本是两套玩法

单张图的逻辑很简单：画一张好看就行。不满意？重抽三次，总能出一张满意的。

视频完全不同。它要连续几十帧、上百帧，每一帧都得是同一个人。模型一旦拿不准，就会"合理脑补"——颧骨突然高了，鼻子变直了，甚至整张脸切换成模板人。我见过太多案例：开头还能认，中间开始歪，后三分之一直接换人。

核心问题：你没给模型"身份证"

多人写设定卡，就一句多角度角色形象照。这就像只给门卫一张空户口本——他根本不知道长啥样。

我的经验是：给模型的要是一张带像素级细节的人脸身份证。具体分三块：

第一块：静态特征（脸的框架）

别用"圆脸""高鼻梁"这种模糊词。要变成可量化的描述：

下颌线：是清晰的V字线，还是柔和的U字弧度？下巴是尖的、方的，还是短圆型？

颧骨：高颧骨（太阳穴到颧点距离）、中等、低平。要不要加一点力度感？

鼻梁鼻翼：鼻梁（从眉心到鼻尖的凸起度）、鼻翼宽度（是否包裹鼻孔）

嘴唇：上唇厚度、下唇厚度、嘴角自然下垂角度

这些不是为了"画得像"，而是告诉模型：这是"钢架结构"，后面表情怎么变都得在这上面生长。

第二块：动态特征（角度与动作）

视频里角色会动，你的设定卡就得覆盖这些姿态：

动作	关键锚点	常见翻车点
正面交谈	眼距比例、眉毛起伏、嘴唇中线	模型把双眼画成单眼皮
45°侧脸	颧骨侧影、耳朵相对位置、发际线弧度	耳朵"飞"到脸颊外
正面回眸	后脑勺轮廓、颈部肌肉线条、衣领衔接	颈部变成断层

我现在的习惯是：所有动作角度都控制在±15°内。比如你要"45°侧脸"，设定卡里就明确写"左耳可见，耳垂与脸颊夹角约45°"。角度太夸张（比如90°全侧脸），模型很容易崩。

第三块：表情特征（面部肌肉的运动逻辑）

视频里角色要笑要哭要生气，但表情不是"换张脸"，是同一张脸的肌肉变化。

克制的微笑：眼角轻微上提（鱼尾纹浅）、苹果肌适度鼓起。重点：嘴角上扬不超过15°。龇牙咧嘴会让上唇过度拉伸， cheeks 被拉薄，模型会错误地"重新设计"上半张脸。

轻微生气：眉头内侧上提（形成川字纹）、眼轮匝肌微收缩（眼睛眯一点）。别画"狮子吼"——那种夸张变形会让模型把这种状态当成"常态"。

我试过直接给六张基础图：正面 neutral、正侧 neutral、45° neutral、微笑、轻微皱眉、转头正侧。模型拿到这些，能复现出80%的常见表情。

容易被忽略的致命细节：画面不能有文字

这是个血泪教训。曾经我为了示例效果，在设定图角落加了"test prompt"。生成的视频里——角色偶尔会浮现模糊的"t"或"e"轮廓（虽然不识别为文字，但模型记住了这个形状）。

设定卡的图：纯人像，纯背景。连阴影都别太复杂，避免模型学偏。

最后说说"工程思维"

很多人以为做 AI 视频是 creative 工作，其实是 engineering 工作。

你要做的不是画一张神图，而是给模型一个鲁棒性足够强的特征空间。就像盖房子，单张图是效果图，设定卡是施工图——钢筋水泥的规格、电路走向、防水节点，全得写清楚。

所以每次生成前，我都会自问：

1. 这张设定图能覆盖视频里60%的常见角度吗？

2. 表情特征是否覆盖了角色90%的情绪变化？

3. 如果去掉所有美学修饰，只剩骨骼结构，模型还能认出她吗？

能回答"能"，视频基本不会崩。不能，就回去补细节。

一点心得：AI 做单图，你负责审美；AI 做视频，你负责"防伪"。前者靠灵感，后者靠工程思维。

提示词： 3:2 横版角色设定卡/转面板 (turnaround sheet / modelsheet)，纯白干净棚拍背景。以参考图人物为唯一身份锚点:脸型轮廓 (下颔线、额骨、下巴形状)、眼型、眉形、鼻梁与鼻翼、嘴唇厚薄与嘴角形状、年龄气质必须严格一致;发际线与发型尽量一致。只允许同一个角色，禁止换脸、禁止五官漂移。版式 (单张合成图，干净网格，统一光影影与色彩):左侧 (约 60%宽度):两张大图上下排列: 1)全身正视站姿 (中性站姿，手臂自然下垂)2)全身 90°侧视站姿(中性站姿) 右侧 (约 40%宽度): 2X3 网格六张头部小图: 1)头部正面(neutral) 2) 头部背面(back of head，用于发型与头型一致性)3)头部左 45°(neutral)4)头部右 45°(neutral) 5) 表情特写:开心/愉悦(happy，笑但克制不夸张) 6) 表情特写:生气/愤怒 (angry，眉眼紧张但不夸张变形)质感与画质:高端写实棚拍/电影级人像质感眼睛清晰锐利对焦，真实皮肤微观质感 (毛孔与细纹，不磨皮不塑料)，全图各分区曝光与色彩致，8K 细节，轻胶片颗粒，超干净白底，脚下干净柔和投影。强约束:画面内不允许任何可读文字 (不要FRONT/SIDE 等标签)，不要字幕、不要logo、不要 UI 叠层、不要水印块:不要卡通二次元;不要多余人物;不要畸形手指/多肢体/脸崩;六张小图必须是同一张脸同-发际线。

AI视频角色总是变脸？一套角色设定卡解决

浏览过的版块