AIGC文案能力测评-BC90

显示全部楼层 · 2026-5-17 15:57:20

提示词：

二、
根据附件内容，用Word输出一篇文档，分为一下三个部分
一、把所有大模型的排序汇总在一起，再做一个排序
二、提炼所有大模型的观点，汇集成一篇文章
三、每个大模型的观点，分别概括总结，各自为一段

一、
我在做一个AI大模型的能力测评，主要用于为《概率的朋友-9天入门ai股票量化交易与技术分析》的营销短视频生成文案，发布在抖音和视频号上。这个测评的AI包括了：ChatGPT、Gmini、Manus、Codex、豆包、千问、DeepSeek、元宝、文心一言、Kimi。公正公平，分成A“精写”（一次生成1篇）与B“批量写”（一次生成9篇），C写文案，D写脚本，四大分类（可组合），再配合时间秒，最重要的测评是BC90测评（一次写9篇90秒的文案），可以先从这个测评开始。测评之前，请你先帮我预测一下，这个BC90测评比赛的结果，10个AI，从高到低排序。

桥博士 · 2026-5-17 16:00:33

诸多任务中，文心一言一直帮不上忙，这一次，罕见地简单明了。
当然，我不太认同文心一言对Codex的嘲讽，文心有点狭隘了，Codex的能力我是见识过的，应该能名列前茅的

桥博士 · 2026-5-17 16:32:01

一、

综合排序结论：各大模型普遍认为，在BC90这种结合了“极强短视频网感”与“硬核金融量化逻辑”的极限批量测试中，豆包和DeepSeek构成了无可争议的第一双雄座次，ChatGPT稳居其后作为强力通用保障；而Codex由于极端的“偏科”（代码生成强、营销极弱），在纯营销赛道无悬念垫底。

二、核心观点深度提炼：技术与流量的博弈

纵观所有AI模型的预测报告，可以将针对《概率的朋友》新书BC90测评的观点提炼为以下三大核心冲突与生态共识：

冲突一：流量网感与专业硬核的“天平两端”
大模型一致指出，本书的营销文案存在天然的平衡门槛。一方面，要吸引小白并达成“卖课/卖书转化”，需要极强的短视频爆款节奏、黄金3秒钩子和下沉市场的情绪煽动（豆包、ChatGPT长于此）；另一方面，量化交易与技术分析（如MACD、多因子回测、概率思维）需要极强的学术准确性，严防胡编乱造的“AI幻觉”（DeepSeek、Kimi长于此）。这场测评本质上是“极致的流量网感”与“极致的专业逻辑”的激烈对决。
冲突二：工业化批量生成的“衰减魔咒”
BC90测试的最大难点在于“一次性出9篇”。多数大模型在批量生成时，后半段极易陷入“AI模板化”、“同质化”或“逻辑漂移”的陷阱（如文心、元宝）。因此，长上下文保持能力与严格的指令遵循度成为了划分梯队的关键。Kimi、DeepSeek以及ChatGPT凭借强大的架构，被公认为能够保证9篇文案角度各异、质量不衰减的“内容工业流水线”。
共识三：场景错配与生态局限
在针对特殊模型（如Manus、Codex）的评价上，各家观点高度统一。Codex写量化代码是神，写口播文案则是“强人所难”；Manus作为前沿Agent，具备多轮规划和自主修正的“逆袭潜力”，但由于其思考链路冗长，在“秒级速度输出纯文案”的单一拉力赛中并不占优。同时，海外模型（ChatGPT、Gemini）受限于其中文互联网语料密度，容易带有“MBA式翻译腔”，在接地气的“割肉、韭菜”等股民痛点表达上逊于国内顶流大模型。

三、各AI模型独立观点概括总结

1. 通义千问（Qwen）观点

千问侧重于从中文语境、批量稳定性及金融合规性进行综合评估。它认为测评的核心胜负手在于“爆款网感”与“专业逻辑”的平衡。因此，它高度看好背靠抖音生态的豆包（最像真人写的爆款）和作为“理科王者”的DeepSeek（保证内容不出错）；同时它指出海外模型的中文“水土不服”与Codex的完全错位是难以逾越的鸿沟。

2. 豆包（Doubao）观点

豆包作为身处抖音母体生态的模型，其观点极具实战与流量导向。它将网感和口播节奏视作短视频的第一生命，自信在速度（预估12-18秒）和钩子设计上能斩获第一。它同时认可ChatGPT在金融专业度上的统治力以及DeepSeek在知识型文案上的表现，并一针见血地指出长文模型（如Kimi）语气过于书面、不抓人。

3. DeepSeek观点

DeepSeek站在严密逻辑与极高指令遵循度的“技术流”视角进行解构。它认为BC90的核心本质是应对百万Token级窗口下的差异化复杂指令。它预测自己将凭借“超长上下文不遗忘”和“对多因子量化概念的精准理解”夺冠。在它看来，豆包更适合碎片化创作，在一次性处理9篇高强度、结构化文案时极易出现后半段疲软和套路重复。

4. Manus观点

Manus以“Agent（智能体）”的闭环规划思维切入测评。它在评估中给予文案创意与金融背景极高的权重。Manus强调，这场测试不仅是文本比拼，更是“创作流程的模拟”。它认为自己能通过内部多轮校验确保9篇文案的绝对差异化和高质量。尽管由于Agent链路过长会导致速度垫底，但在最终内容的质量一致性上具有颠覆性的逆袭可能。

5. 文心一言观点

文心一言倾向于将模型划分为“网感原生派”与“传统逻辑派”。它认为在短视频赛道上，“抖音原生”的豆包和“中文营销性价比之王”的DeepSeek处于第一梯队。它同时指出，传统国内大模型在面对高强度批量营销创作时，容易受限于合规红线或陷入死板的“AI模板套路”，导致后几篇文案严重同质化。

6. ChatGPT观点

ChatGPT将BC90测评定义为一场“工业化内容生产的质量控制赛”，而非纯文学比拼。它坚信自己凭借世界顶级的结构感、指令遵循和模板复用效率，能够输出最稳、最不崩车的全能文案。它理性地承认，自己的弱点在于过于像“高级广告公司”，缺少下沉市场所需的“土味爆款感”；而豆包则拥有无法比拟的原生短视频情绪爆发力。

7. Gemini观点

Gemini的评估视角更加国际化与跨模态化。它认为《概率的朋友》需要用国际化的量化视野来拔高专业高度，但在具体的中国短视频落地生态里，海外模型普遍面临着对中国散户“追涨杀跌、割肉”等细腻情绪拿捏不准的窘境。基于此，它特别将Manus列为第一，极度看好其Agent级别的全局大纲规划能力对“去同质化”的贡献。

AIGC文案能力测评-BC90

文心一言的逻辑

Gemini总结

浏览过的版块