一、 综合排序结论:各大模型普遍认为,在BC90这种结合了“极强短视频网感”与“硬核金融量化逻辑”的极限批量测试中,豆包和DeepSeek构成了无可争议的第一双雄座次,ChatGPT稳居其后作为强力通用保障;而Codex由于极端的“偏科”(代码生成强、营销极弱),在纯营销赛道无悬念垫底。
二、 核心观点深度提炼:技术与流量的博弈纵观所有AI模型的预测报告,可以将针对《概率的朋友》新书BC90测评的观点提炼为以下三大核心冲突与生态共识: 冲突一:流量网感与专业硬核的“天平两端”
大模型一致指出,本书的营销文案存在天然的平衡门槛。一方面,要吸引小白并达成“卖课/卖书转化”,需要极强的短视频爆款节奏、黄金3秒钩子和下沉市场的情绪煽动(豆包、ChatGPT长于此);另一方面,量化交易与技术分析(如MACD、多因子回测、概率思维)需要极强的学术准确性,严防胡编乱造的“AI幻觉”(DeepSeek、Kimi长于此)。这场测评本质上是“极致的流量网感”与“极致的专业逻辑”的激烈对决。 冲突二:工业化批量生成的“衰减魔咒”
BC90测试的最大难点在于“一次性出9篇”。多数大模型在批量生成时,后半段极易陷入“AI模板化”、“同质化”或“逻辑漂移”的陷阱(如文心、元宝)。因此,长上下文保持能力与严格的指令遵循度成为了划分梯队的关键。Kimi、DeepSeek以及ChatGPT凭借强大的架构,被公认为能够保证9篇文案角度各异、质量不衰减的“内容工业流水线”。 共识三:场景错配与生态局限
在针对特殊模型(如Manus、Codex)的评价上,各家观点高度统一。Codex写量化代码是神,写口播文案则是“强人所难”;Manus作为前沿Agent,具备多轮规划和自主修正的“逆袭潜力”,但由于其思考链路冗长,在“秒级速度输出纯文案”的单一拉力赛中并不占优。同时,海外模型(ChatGPT、Gemini)受限于其中文互联网语料密度,容易带有“MBA式翻译腔”,在接地气的“割肉、韭菜”等股民痛点表达上逊于国内顶流大模型。
三、 各AI模型独立观点概括总结
1. 通义千问(Qwen)观点千问侧重于从中文语境、批量稳定性及金融合规性进行综合评估。它认为测评的核心胜负手在于“爆款网感”与“专业逻辑”的平衡。因此,它高度看好背靠抖音生态的豆包(最像真人写的爆款)和作为“理科王者”的DeepSeek(保证内容不出错);同时它指出海外模型的中文“水土不服”与Codex的完全错位是难以逾越的鸿沟。
2. 豆包(Doubao)观点豆包作为身处抖音母体生态的模型,其观点极具实战与流量导向。它将网感和口播节奏视作短视频的第一生命,自信在速度(预估12-18秒)和钩子设计上能斩获第一。它同时认可ChatGPT在金融专业度上的统治力以及DeepSeek在知识型文案上的表现,并一针见血地指出长文模型(如Kimi)语气过于书面、不抓人。
3. DeepSeek观点DeepSeek站在严密逻辑与极高指令遵循度的“技术流”视角进行解构。它认为BC90的核心本质是应对百万Token级窗口下的差异化复杂指令。它预测自己将凭借“超长上下文不遗忘”和“对多因子量化概念的精准理解”夺冠。在它看来,豆包更适合碎片化创作,在一次性处理9篇高强度、结构化文案时极易出现后半段疲软和套路重复。
4. Manus观点Manus以“Agent(智能体)”的闭环规划思维切入测评。它在评估中给予文案创意与金融背景极高的权重。Manus强调,这场测试不仅是文本比拼,更是“创作流程的模拟”。它认为自己能通过内部多轮校验确保9篇文案的绝对差异化和高质量。尽管由于Agent链路过长会导致速度垫底,但在最终内容的质量一致性上具有颠覆性的逆袭可能。
5. 文心一言观点文心一言倾向于将模型划分为“网感原生派”与“传统逻辑派”。它认为在短视频赛道上,“抖音原生”的豆包和“中文营销性价比之王”的DeepSeek处于第一梯队。它同时指出,传统国内大模型在面对高强度批量营销创作时,容易受限于合规红线或陷入死板的“AI模板套路”,导致后几篇文案严重同质化。
6. ChatGPT观点ChatGPT将BC90测评定义为一场“工业化内容生产的质量控制赛”,而非纯文学比拼。它坚信自己凭借世界顶级的结构感、指令遵循和模板复用效率,能够输出最稳、最不崩车的全能文案。它理性地承认,自己的弱点在于过于像“高级广告公司”,缺少下沉市场所需的“土味爆款感”;而豆包则拥有无法比拟的原生短视频情绪爆发力。
7. Gemini观点Gemini的评估视角更加国际化与跨模态化。它认为《概率的朋友》需要用国际化的量化视野来拔高专业高度,但在具体的中国短视频落地生态里,海外模型普遍面临着对中国散户“追涨杀跌、割肉”等细腻情绪拿捏不准的窘境。基于此,它特别将Manus列为第一,极度看好其Agent级别的全局大纲规划能力对“去同质化”的贡献。
|