可以杠杆炒股的软件大模型预训练成本有多高？李开复：一次约三四百万美元

WeWork中国大中华区副总裁全斌参加“场景城市，从空间到场景的跃升与蝶变”主题对话，以下为发言实录：

截至2024年8月31日，绝大多数服饰服装上市公司已完成2024年度半年报告的披露，对此我们挑选了23家具有代表性的上市公司进行业绩比对分析。在各项财务指标中，销售毛利率、销售净利率作为两项较为核心的盈利能力考核指标，倍受市场投资者关注。

近期，国内大模型行业传出头部六家公司中有几家放弃预训练、转向推理端的消息。

10月16日，大模型创业公司零一万物创始人李开复表示，不会放弃预训练，但这是个技术活，需要懂芯片、推理、模型、算法。“如果一家公司能拥有这么多优秀的人才，能够跨领域合作，相信中国可以做出世界排名前十的预训练通用模型，但由于成本比较高，未来可能会有越来越少的大模型公司做预训练。”李开复称。

对于国内头部企业的现状，李开复表示，据其所知，目前国内头部六家大模型企业融资额度都是够的，一次预训练成本约三四百万美元，这个规模头部企业付得起。

LMSYS榜单测评结果

此次零一万物推出新旗舰大模型Yi-Lightning 闪电模型，在海外（全球性大模型评测榜单）盲测竞技场总榜上位列第六，仅次于OpenAI的GPT-4o、o1系列，Google的Gemini 1.5 pro系列，与马斯克xAI旗下Grok-2打平。

值得一提的是，此次盲测中，GPT推出的ChatGPT-4o-latest 最新版排名第一，Yi-Lightning超过了今年5月版的ChatGPT-4o-2024-05-13。这在李开复看来，说明了零一万物的预训练能力落后于OpenAI五个月的时间。此次预训练零一万物用了2000张GPU，训练了一个半月，花费了三百多万美元，但成本约为Grok的1%-2%。

李开复披露，Yi-Lightning旗舰模型性能提升基于AI Infra能力提升推理速度，同时采用 Mixture of Experts（MoE）混合专家模型架构。

MoE 模型由多个专家网络（Experts）构成，可以根据任务的难度动态选择激活哪些专家网络，平衡推理成本和模型性能。

此前李开复强调过不做亏钱的To B业务，但此次零一万物披露了包括To B服务在内的产品矩阵。对此，李开复在采访中解释称，如果继续沿袭AI1.0时代的系统集成型AI，即直接卖模型给客户，很难有利润。零一万物做的AI2.0数字人解决方案更专注用户痛点需求与盈利点，同时已跑通了AI伴侣、IP形象、办公会议等场景。其他To B业务首要任务也是寻找少数能够按使用情况收费的方法，而非通过项目定制，确定能得到比较高利润率的订单才会去做。

对于B端与C端的布局，李开复表示，一家大模型公司同时去做To B和To C很辛苦，需要多元化的管理方式，因为两个团队的基因不同，做事方法与衡量KPI也不同。To B领域，零一万物目前主要聚焦国内市场，如餐饮领域的数字人方案；To C领域主要布局海外，因为在国内To C产品的流量是一个很大的成本问题，在当下较为挑战的环境下需要谨慎判断。

李开复认为，OpenAI是一家很厉害的公司，已发布的OpenAI o1虽然隐藏了所有中间的思考状态，但o1将此前预训练中的Scaling 趋势扩展到推理，对行业形成认知改变，让行业认识到预训练之外，后训练SFT（Supervised Fine-Tun-ing，监督微调）与强化训练都非常重要，“相信很多中美公司都在向o1 方向狂奔。”李开复称。

举报第一财经广告合作，请点击这里此内容为第一财经原创，著作权归第一财经所有。未经第一财经书面授权，不得以任何方式加以使用，包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部：021-22002972或021-22002335；banquan@yicai.com。文章作者