大模型们背后的“小算盘”

蔠夜 · 发表于 2023-5-7 13:29:13

图片来源 @视觉中国
文 | 光子星球，作者 | 吴坤谚，编辑 | 王潘
厄尔尼诺指数快速增加，史上最热夏天即将到来，但比气候更 " 火热 " 的是科技互联网行业的大模型淘金潮。
今年年初，各方大佬下场创业打响了淘金热的第一枪，紧接着的是 3 月开始的大厂扎堆布局，连高校与国家队都争取跑步入场，淘金热愈演愈烈。5 月 6 日，我们又迎来了一位玩家入场，科大讯飞发布旗下认知大模型星火。
兴许是大众与业界对于密集发布的大模型有些 " 脱敏 "，讯飞星火发布的消息未能引起行业的热烈反响。如今的局面其实并不意外，因为商业社会的发展总是需要新的故事。早在今年 2 月，ChatGPT 的出圈就为 AI 板块的科大讯飞狠狠地拉了一波股价，GPT 概念股至今仍广为投资者所关注。
据了解，" 星火认知大模型 " 是纯文本模型，仅支持文本内容的输入和输出，多模态交互需要自升级产品星火 Pro 获取。而通过 TTS（从文本到语音）实现语音提问功能可以说是意外之喜，也是科大讯飞有别于一众大厂的特点之一。
此外，本次发布会与此前各家大模型发布会最大的不同在于，科大讯飞 CEO 刘庆峰为大家 " 画了一张带有时间线的大饼 "：6 月 9 日前，讯飞星火大模型将突破开放式问答，实现对话能力和数学能力的再升级；8 月 15 日前代码能力会上大台阶，多模态交互能力再升级，在 10 月 24 日前，星火大模型将对标 ChatGPT，在中文能力上超过 ChatGPT，在英文能力上与 ChatGPT 相当。
这是一个管理预期的故事。
回顾近十年的商业新故事，其中既有智能手机、新能源、云计算等光环（aura）加身的神话，也不乏元宇宙、NFT 这类被祛魅后步入暗夜的案例。每一个故事在开始之时都宣称将开启一个新时代、新纪元，宏大的叙事为其披上克里斯玛的外衣，等待其进入商业场景后被市场验证。
反观科大讯飞，大模型是它不得不抓住的光环。
大模型是 AI 赛道重新洗牌的机会已是共识。而且自科大讯飞近年来的业务发展路线看，其引以为傲的语音识别赛道受困于创新者窘境，视觉领域也有 AI 四小龙后来居上，尝试拓展的智慧医疗、智慧金融业务的表现也只是不够出彩，在 2022 年整体营收中占比均不足 3%。
回归大模型本身，随着迄今为止人类历史上用户增长速度最快的 ChatGPT 不得不关闭付费渠道，一场属于科技互联网的 " 西进运动 " 俨然开始进入中场。
现在我们离 GPT 还有多远？
LLM（大语言模型）、Token ( 文本单位 ) 、参数，为 4 月内几乎未曾间断的大模型发布会所吸引的 VC 们一面接收这场宝贵的知识爆炸，一面摇身一变成为 AI 领域的深耕者。按本山大叔的话来说，就是 " 聪明的智商又占领高地了 "。
先行的创业者们早早通过自身过硬的攒局能力拉来了数轮融资，后来的创业者们也在抓紧忽悠风投上车，勇立时代潮头一起吃肉喝汤。
只是直到目前，无论是最早发布的大模型文心一言还是后续开放测试或在发布会上实机演示的大模型都距离 ChatGPT 存在一定距离，包括 5 月 6 日发布的科大讯飞星火。
星火发布会上，刘庆峰现场演示星火的能力并提出了评测大模型的覆盖 7 大类 481 个细分任务类型。尽管真机实测勇气可嘉，测试内容出错较少且响应快速，整体的情感理解与逻辑线也都在线，但整体测试类别还是以简单的文字生成为主。这一块基本属于科大讯飞的传统艺能，并不能看出自去年 12 月起至今近 6 个月的数据投喂成果。
换句话说，目前的生成内容还无法看出星火达到了智能涌现的标准。不过考虑到科大讯飞的数据要素来源主要在于教育、医疗、汽车等细分领域，目前的表现也就不难理解了。
本次发布会上科大讯飞还展示了星火搭载下的学习机、虚拟人、汽车座舱域智能办公演示，这既是亮点也是槽点。亮点在于星火大模型在诞生之初就已经找到了明确的商业化落地路径，其中教育硬件与办公硬件也是科大讯飞过去两年内的营收主力；槽点在于这几条路径相对于大模型而言显得过于狭窄，可能是星火在测试时所表现出的能力还尚未达到赋能千行百业的水平。
不过，学霸未尝就是未来混得最好的。在大模型竞争剧烈的当下，率先占领垂直领域应用的高地并进入自我造血反哺大模型训练的良性循环，未尝不是一条可行的路径。
更值得注意的是，刘庆峰在发布会结束后透露，星火大模型的算力硬件主要由华为提供，当前并未受到限制。
由此我们也不难看出，一是自身是否有算力储备在大模型训练中也许没那么重要，尤其是并不是所有人都将大模型定位于 " 通用 " 级别的时候。相反，数据要素的重要性更加凸显，这在当初百度、阿里等坐拥多领域高质量语料的头部大厂发布大模型时尚不明显，如今科大讯飞在教育领域的演示成果与泛领域演示成果的鲜明对比足以说明数据的重要性。
二是" 送水人 " 式的 " 技术商人 " 路径在大模型井喷的当下切实可行。一方面送水人可以通过租售算力甚至训练方法，在获利的同时解决算力冗余，另一方面收水人也可以节约大模型训练的成本，杜绝内卷和重复基础设施建设，让大模型相对不再那么 " 重资产 "。
在刘庆峰的规划中，星火将在 10 月 24 日达到中文能力超越 ChatGPT，英文语料能力相当。且不论对标的是 GPT3.5 还是 GPT4，我们不妨以此时间为节点，到时候再审视国内大模型与 OpenAI 的差距，是越来越小还是越来越大。
祛魅大模型
讯飞星火的发布从一方面也可以看做是从李开复理解的 AI 1.0 演进为 AI 2.0，是从 NPL（自然语言处理）、CV（计算机视觉）到海量数据喂养下具备跨领域知识与智能交互能力的大模型。这是在李开复万字演讲中广为流传的 "AI 2.0" 范式。
有能力者做通用大模型，稍有欠缺者如科大讯飞，也要根据自有业务线如医疗、教育等场景做规模稍小的大模型。这是一个足够宏大的叙事，尤其是在国内多位大佬呼吁将所有应用接入大模型重做一遍的话术，充满了即刻为一项技术突破迅速找到场景进行商业化落地的渴望。
如今的火热场景我们并不陌生，近年来，我们为了便于传播与理解，往往会以序列号化的话术来形容技术范式的迭代演进。意义建构理论的学者认为，这是将信息的寻求与使用视作一种沟通实践模型，帮助人进行信息接收的做法。
从互联网泡沫后提出的 Web1.0 和 Web2.0 到通信领域的 4G 和 5G，以及 AI 领域，序列号给人以最直白的观感，为我们带来无限的想象空间，这个视角下的技术可以在草蛇灰线之中无限升维演进。越是这样带有技术革命色彩的故事，越是能吸引关注与投资，越具备商业化落地的可能性。
只是能否落地却是未知数，就像大模型涌现现象的发生概率只有 0% 和 100%。
在资深机器学习与应用开发者杨军看来，市场上的 " 百模大战 " 与投资圈的狂热是在巨量资源投入后，广谱性质的压强效应所致，但是在这之中不可避免泡沫的存在。" 我不太认可在介绍 ChatGPT 相关技术时引入的春秋笔法或过于 PR 的味道，总觉得这会把一个原本正常该由技术驱动的事物的演进节奏变得混乱了。关键的技术需要回归到客观层面理解，才更有利于这个方向的健康发展。"
春秋笔法对新生事物的揠苗助长在 AIGC 前一轮 Web3 风口中随处可见，尤其是结合了 VR、AR 后诞生的元宇宙赛道。科技互联网从业者必须铭记的案例是 Facebook 更名 Meta，梭哈元宇宙后的窘境。反观国内，一直以来商业化都是我们的强项，反之也遭到不少缺乏研发耐心、忽略底层技术的诟病。
杨军透露：" 我知道的一些这个行业里比较资深的模型从业人士，似乎很多都因为背负了投资方的压力，更多考虑的是商业变现，而不是底层技术的创新和突破。"
在商业化变现前，大模型需要填满的洞有多深？
由英伟达给出的 GPT3 训练数据，参数规模为 1750 亿，训练语料为 30 亿 tokens，那么训练一个周期需要 26 天，采用租赁方式以 8 卡 A100 训练的成本超 256 万美元 / 月，即使忽略人力成本，硬件成本最低也需要大约 2 亿人民币一年。杨军称，这已经是很保守的估计，系统故障、策略调整等因素也未曾考虑，人力成本更是在技术创新领域的大头，如果希望提高效率，以并行方式实验探索，那么硬件成本还需追加一倍。
5 年时间，25~30 亿不计回报的总投入，这是客观技术视角下做好一个 GPT4 前两代的大模型所需要的准备。这笔研发投入已经接近于半导体了。
杨军对此忧虑颇多，尤其是在风投方面。" 在我有限的阅历里，看到了不少风投一开始说支持情怀，随着时间推移，会对变现和寻求接盘退出越来越饥渴，最终以各种方式干预到项目执行层面。不确定性较强的技术攻关遭遇的问题，需要行业层面来克服 "。
在技术革命后的第一次格局重构中，狂热者往往被浪潮无情裹挟，重重拍在浅滩上。好比去年吸收了数千亿美元的 Web3，其大本营新加坡如今已有不少从业者租不起房，吃不起饭。
我们对大模型的畅想究竟是像 APUS 李涛所言 " 争夺下一代操作系统的话语权 "，还是针对某个具体场景和领域的赋能，亦或是在浪潮之中寻求资金、博取热度，无论哪种都需要让大模型褪去克里斯玛，客观地看待与探求。
大模型也可以小而美
在众人一拥而上的时候，相对冷清的路径反而更有可能成功。
比如在星火上被验证的 " 送水人 " 路径，除华为外，字节旗下火山引擎、腾讯云等玩家已在 4 月这个节点对外明确了自身 " 送水人 " 的角色，通过提供算法优化、算力、数据飞轮等技术栈服务来做淘金热中的服务商。路径明晰竞对少的同时还可以一定程度上 " 分摊 " 大模型的训练成本。
这条商业路径早在淘金运动中便已验证，但成功故事的背后是淘金运动的 " 内卷 " 特性，才会诞生服务的需求空间，同时 " 送水人 " 还需要在这种上游配套式或衍生周边式服务中占据垄断地位。" 送水人 " 亚默尔原本只是平平无奇的淘金者之一，直到他第一时间抓住了淘金者对水的需求并通过开挖水渠的方式打造了一个专属于他自己的饮用水生产线。
在如今的大模型中局，时间问题无需考虑，也不存在有谁能在某项服务中能占据垄断地位。那么讨论的重点便在于其提供的服务。
大模型的服务需求则可以用 AI 三要素来概括，分别是算力、算法与数据，其中算力是相对最缺乏竞争力的领域。因为算力在淘金者的视角下仅仅只是成本，而在送水人的视角下却是商品，单纯提供算力难免会陷入价格战的怪圈，反过来掣肘自己的大模型训练。
算法与数据则与此相反，两者均可以提高大模型的训练效率，甚至直接影响训练成果。只是长远看来，这两项服务的前景也不甚乐观。
算法方面，OpenAI 就是最好的例子，被开发者戏称为 "CloseAI" 的原因之一便是其坚持闭源。大模型训练中的策略、算法是可以作为企业护城河的核心资产，" 送水人 " 开放给外界使用的程度将直接关联自家大模型的竞争强度，数据方面也是如此。反之，购买大模型服务的企业也会要求算法与数据的安全，争取在 " 安全线 " 之下有限的互帮互助。
目前看来，" 送水人 " 们除非退出通用大模型的竞争，否则送水的动作也很可能只是在成本控制上的锦上添花，真正的 " 送水人 " 还得是英伟达。这也意味着，我们需要另寻更切实的路径。
日前，OpenAI 关闭付费渠道已在业内引起不小的讨论，最有可能的原因是 GPT4 在接入微软全栈应用后算力吃紧，只能暂时放弃 C 端增长来稳住大金主。而 OpenAI 联合创始人兼 CEO Sam Altman 更是公开表示 OpenAI 已接近 LLM 的极限，认为 LLM 的规模不再是衡量模型质量的重要指标，未来将有更多的方式来提升模型的能力和效用。
换句话说，大模型中场之际，OpenAI 在否决了一昧追求规模的路径同时为行业指出了大模型的迭代新路，即通过优化训练策略、全局调度以减少投入成本，同时将笨重的大模型转向小而美的方向发展。
杨军对此颇有研究，并对此介绍了部分海外已经开始的创新案例。
关注系统优化并结合模型训练策略进行全链路训练优化的公司 MosaicML 提出，通过将参数降低至 300 亿同时将 Token 数提升至 61 亿，以 256 张 40GB 的 A100 为资源训练一个周期，只需要 36 天即可得到与 GPT3 相同质量的训练结果，而成本仅需要 88 万美元，几乎是 GPT3 原始训练成本的三分之一。除了训练策略的优化外，通过对 CPU 主存 + 磁盘外存 +GPU 显存的使用进行全局调度优化，让低端显卡 serve 大模型成为可能。
" 一款 AI 框架解决的其实是上层的业务模型需求到底层计算硬件执行的映射问题，在性能足够的情况下，仅拼性能就可能陷入了‘技术有深度但竞争呈红海’的战场。"
为了避免这样的竞争，不少大模型在推出时便在宣传上做了一定的区分，关键在于是否存在 " 通用 " 二字。这其中有源自 NPL 基底并在数个领域直接落地的星火、根植办公场景的金山 "WPS AI"、立足于问答社区生态的知乎 " 知海图 AI" 等，其共同点在于针对具体场景，以对行业的纵深理解与数据支撑为基础，以大模型的 " 涌现 " 能力为跳板，实际上却是披着通用大模型外衣的中小模型。
送水人也可以参考这样的 " 技术商人 " 的思维。在杨军看来，与其参与无谓的 hardcore" 内卷 "，不如去思考自己的技术点在可以在完整商业链中发挥什么功能，完成什么闭环，通过能力与方向的差异化发掘更多价值。
保持一个啃硬骨头的决心，开阔技术商业化的视野，是大模型玩家们的必修课。相对追求规模，我们与海外在小而美方向上的研究反而在时间节点上更相近，这也意味着更大的机会。无论是预算与资源相对紧张的创业公司还是有底气随时掏出数千张 A 卡的大厂，都需要认识到这点。
更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

账号		自动登录	找回密码
密码			立即注册

大模型们背后的“小算盘”

本帖子中包含更多资源