AI视频角色总是变脸?一套角色设定卡解决

[复制链接]
查看32 | 回复0 | 4 天前 | 显示全部楼层 |阅读模式
为什么单张图能过,视频就"换人"?一个老手的避坑指南(转:https://mp.weixin.qq.com/s/aN0DlTyN4nceQHYHNHQRqQ
先说个现实:很多人做 AI 视频,发现单张图没问题,一生成视频就"换人"——不是换脸就是五官跑偏。问题往往不在模型,而在你的设定卡没做对"防伪认证",先看效果。
可以看看单独生成一张照片:

这个是角色卡设置之后:
单张图 vs 视频:根本是两套玩法
单张图的逻辑很简单:画一张好看就行。不满意?重抽三次,总能出一张满意的。
视频完全不同。它要连续几十帧、上百帧,每一帧都得是同一个人。模型一旦拿不准,就会"合理脑补"——颧骨突然高了,鼻子变直了,甚至整张脸切换成模板人。我见过太多案例:开头还能认,中间开始歪,后三分之一直接换人。
核心问题:你没给模型"身份证"
多人写设定卡,就一句多角度角色形象照。这就像只给门卫一张空户口本——他根本不知道长啥样。
我的经验是:给模型的要是一张带像素级细节的人脸身份证。具体分三块:
第一块:静态特征(脸的框架)

别用"圆脸""高鼻梁"这种模糊词。要变成可量化的描述:
下颌线:是清晰的V字线,还是柔和的U字弧度?下巴是尖的、方的,还是短圆型?
颧骨:高颧骨(太阳穴到颧点距离)、中等、低平。要不要加一点力度感?
鼻梁鼻翼:鼻梁(从眉心到鼻尖的凸起度)、鼻翼宽度(是否包裹鼻孔)
嘴唇:上唇厚度、下唇厚度、嘴角自然下垂角度
这些不是为了"画得像",而是告诉模型:这是"钢架结构",后面表情怎么变都得在这上面生长。
第二块:动态特征(角度与动作)
视频里角色会动,你的设定卡就得覆盖这些姿态:
动作
关键锚点
常见翻车点
正面交谈
眼距比例、眉毛起伏、嘴唇中线
模型把双眼画成单眼皮
45°侧脸
颧骨侧影、耳朵相对位置、发际线弧度
耳朵"飞"到脸颊外
正面回眸
后脑勺轮廓、颈部肌肉线条、衣领衔接
颈部变成断层
我现在的习惯是:所有动作角度都控制在±15°内。比如你要"45°侧脸",设定卡里就明确写"左耳可见,耳垂与脸颊夹角约45°"。角度太夸张(比如90°全侧脸),模型很容易崩。
第三块:表情特征(面部肌肉的运动逻辑)

视频里角色要笑要哭要生气,但表情不是"换张脸",是同一张脸的肌肉变化。
克制的微笑:眼角轻微上提(鱼尾纹浅)、苹果肌适度鼓起。重点:嘴角上扬不超过15°。龇牙咧嘴会让上唇过度拉伸, cheeks 被拉薄,模型会错误地"重新设计"上半张脸。
轻微生气:眉头内侧上提(形成川字纹)、眼轮匝肌微收缩(眼睛眯一点)。别画"狮子吼"——那种夸张变形会让模型把这种状态当成"常态"。
我试过直接给六张基础图:正面 neutral、正侧 neutral、45° neutral、微笑、轻微皱眉、转头正侧。模型拿到这些,能复现出80%的常见表情。
容易被忽略的致命细节:画面不能有文字
这是个血泪教训。曾经我为了示例效果,在设定图角落加了"test prompt"。生成的视频里——角色偶尔会浮现模糊的"t"或"e"轮廓(虽然不识别为文字,但模型记住了这个形状)。
设定卡的图:纯人像,纯背景。连阴影都别太复杂,避免模型学偏。
最后说说"工程思维"
很多人以为做 AI 视频是 creative 工作,其实是 engineering 工作。
你要做的不是画一张神图,而是给模型一个鲁棒性足够强的特征空间。就像盖房子,单张图是效果图,设定卡是施工图——钢筋水泥的规格、电路走向、防水节点,全得写清楚。
所以每次生成前,我都会自问:
1. 这张设定图能覆盖视频里60%的常见角度吗?
2. 表情特征是否覆盖了角色90%的情绪变化?
3. 如果去掉所有美学修饰,只剩骨骼结构,模型还能认出她吗?
能回答"能",视频基本不会崩。不能,就回去补细节。
一点心得:AI 做单图,你负责审美;AI 做视频,你负责"防伪"。前者靠灵感,后者靠工程思维。

提示词: 3:2 横版角色设定卡/转面板 (turnaround sheet / modelsheet),纯白干净棚拍背景。以参考图人物为唯一身份锚点:脸型轮廓 (下颔线、额骨、下巴形状)、眼型、眉形、鼻梁与鼻翼、嘴唇厚薄与嘴角形状、年龄气质必须严格一致;发际线与发型尽量一致。只允许同一个角色,禁止换脸、禁止五官漂移。版式 (单张合成图,干净网格,统一光影影与色彩):左侧 (约 60%宽度):两张大图上下排列: 1)全身正视站姿 (中性站姿,手臂自然下垂)2)全身 90°侧视站姿(中性站姿) 右侧 (约 40%宽度): 2X3 网格六张头部小图: 1)头部正面(neutral) 2) 头部背面(back of head,用于发型与头型一致性)3)头部左 45°(neutral)4)头部右 45°(neutral) 5) 表情特写:开心/愉悦(happy,笑但克制不夸张) 6) 表情特写:生气/愤怒 (angry,眉眼紧张但不夸张变形)质感与画质:高端写实棚拍/电影级人像质感眼睛清晰锐利对焦,真实皮肤微观质感 (毛孔与细纹,不磨皮不塑料),全图各分区曝光与色彩致,8K 细节,轻胶片颗粒,超干净白底,脚下干净柔和投影。 强约束:画面内不允许任何可读文字 (不要FRONT/SIDE 等标签),不要字幕、不要logo、不要 UI 叠层、不要水印块:不要卡通二次元;不要多余人物;不要畸形手指/多肢体/脸崩;六张小图必须是同一张脸同-发际线。



fff2687ee65c26eafcd4357a3506cea4.png
140885d15807d3b4858790cc82dab85d.png
0bef0b7fd7429c0823797a4c8ed1d0c9.jpeg
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 加入同学会

本版积分规则