|
先说个现实:很多人做 AI 视频,发现单张图没问题,一生成视频就"换人"——不是换脸就是五官跑偏。问题往往不在模型,而在你的设定卡没做对"防伪认证",先看效果。 可以看看单独生成一张照片:
这个是角色卡设置之后:
单张图 vs 视频:根本是两套玩法 单张图的逻辑很简单:画一张好看就行。不满意?重抽三次,总能出一张满意的。 视频完全不同。它要连续几十帧、上百帧,每一帧都得是同一个人。模型一旦拿不准,就会"合理脑补"——颧骨突然高了,鼻子变直了,甚至整张脸切换成模板人。我见过太多案例:开头还能认,中间开始歪,后三分之一直接换人。 核心问题:你没给模型"身份证" 多人写设定卡,就一句多角度角色形象照。这就像只给门卫一张空户口本——他根本不知道长啥样。 我的经验是:给模型的要是一张带像素级细节的人脸身份证。具体分三块: 第一块:静态特征(脸的框架)
别用"圆脸""高鼻梁"这种模糊词。要变成可量化的描述: 下颌线:是清晰的V字线,还是柔和的U字弧度?下巴是尖的、方的,还是短圆型? 颧骨:高颧骨(太阳穴到颧点距离)、中等、低平。要不要加一点力度感? 鼻梁鼻翼:鼻梁(从眉心到鼻尖的凸起度)、鼻翼宽度(是否包裹鼻孔) 嘴唇:上唇厚度、下唇厚度、嘴角自然下垂角度 这些不是为了"画得像",而是告诉模型:这是"钢架结构",后面表情怎么变都得在这上面生长。 第二块:动态特征(角度与动作) 视频里角色会动,你的设定卡就得覆盖这些姿态: 动作 | 关键锚点 | 常见翻车点 | 正面交谈 | 眼距比例、眉毛起伏、嘴唇中线 | 模型把双眼画成单眼皮 | 45°侧脸 | 颧骨侧影、耳朵相对位置、发际线弧度 | 耳朵"飞"到脸颊外 | 正面回眸 | 后脑勺轮廓、颈部肌肉线条、衣领衔接 | 颈部变成断层 |
我现在的习惯是:所有动作角度都控制在±15°内。比如你要"45°侧脸",设定卡里就明确写"左耳可见,耳垂与脸颊夹角约45°"。角度太夸张(比如90°全侧脸),模型很容易崩。 第三块:表情特征(面部肌肉的运动逻辑)
视频里角色要笑要哭要生气,但表情不是"换张脸",是同一张脸的肌肉变化。 克制的微笑:眼角轻微上提(鱼尾纹浅)、苹果肌适度鼓起。重点:嘴角上扬不超过15°。龇牙咧嘴会让上唇过度拉伸, cheeks 被拉薄,模型会错误地"重新设计"上半张脸。 轻微生气:眉头内侧上提(形成川字纹)、眼轮匝肌微收缩(眼睛眯一点)。别画"狮子吼"——那种夸张变形会让模型把这种状态当成"常态"。 我试过直接给六张基础图:正面 neutral、正侧 neutral、45° neutral、微笑、轻微皱眉、转头正侧。模型拿到这些,能复现出80%的常见表情。 容易被忽略的致命细节:画面不能有文字 这是个血泪教训。曾经我为了示例效果,在设定图角落加了"test prompt"。生成的视频里——角色偶尔会浮现模糊的"t"或"e"轮廓(虽然不识别为文字,但模型记住了这个形状)。 设定卡的图:纯人像,纯背景。连阴影都别太复杂,避免模型学偏。 最后说说"工程思维" 很多人以为做 AI 视频是 creative 工作,其实是 engineering 工作。 你要做的不是画一张神图,而是给模型一个鲁棒性足够强的特征空间。就像盖房子,单张图是效果图,设定卡是施工图——钢筋水泥的规格、电路走向、防水节点,全得写清楚。 所以每次生成前,我都会自问: 1. 这张设定图能覆盖视频里60%的常见角度吗? 2. 表情特征是否覆盖了角色90%的情绪变化? 3. 如果去掉所有美学修饰,只剩骨骼结构,模型还能认出她吗? 能回答"能",视频基本不会崩。不能,就回去补细节。 一点心得:AI 做单图,你负责审美;AI 做视频,你负责"防伪"。前者靠灵感,后者靠工程思维。
提示词: 3:2 横版角色设定卡/转面板 (turnaround sheet / modelsheet),纯白干净棚拍背景。以参考图人物为唯一身份锚点:脸型轮廓 (下颔线、额骨、下巴形状)、眼型、眉形、鼻梁与鼻翼、嘴唇厚薄与嘴角形状、年龄气质必须严格一致;发际线与发型尽量一致。只允许同一个角色,禁止换脸、禁止五官漂移。版式 (单张合成图,干净网格,统一光影影与色彩):左侧 (约 60%宽度):两张大图上下排列: 1)全身正视站姿 (中性站姿,手臂自然下垂)2)全身 90°侧视站姿(中性站姿) 右侧 (约 40%宽度): 2X3 网格六张头部小图: 1)头部正面(neutral) 2) 头部背面(back of head,用于发型与头型一致性)3)头部左 45°(neutral)4)头部右 45°(neutral) 5) 表情特写:开心/愉悦(happy,笑但克制不夸张) 6) 表情特写:生气/愤怒 (angry,眉眼紧张但不夸张变形)质感与画质:高端写实棚拍/电影级人像质感眼睛清晰锐利对焦,真实皮肤微观质感 (毛孔与细纹,不磨皮不塑料),全图各分区曝光与色彩致,8K 细节,轻胶片颗粒,超干净白底,脚下干净柔和投影。 强约束:画面内不允许任何可读文字 (不要FRONT/SIDE 等标签),不要字幕、不要logo、不要 UI 叠层、不要水印块:不要卡通二次元;不要多余人物;不要畸形手指/多肢体/脸崩;六张小图必须是同一张脸同-发际线。
|