小米大模型，不搞“ChatGPT”

寻找林正英 · 发表于 2023-6-13 10:01:33

深燃（shenrancaijing）原创
作者 | 金玙璠贺树龙
编辑 | 贺树龙
ChatGPT上线半年后，一场大模型追逐战继续在太平洋两岸上演。
由OpenAI、微软和英伟达组成的联盟，正在太平洋东岸玩命狂奔。今年3月以来，中国科技公司紧急跟进，百度、阿里、商汤、科大讯飞相继推出“类ChatGPT”产品，腾讯、华为、京东公开表示正在跟进大模型，都想抓住这个比互联网时代还“大十倍”的机会。
“百模大战”当前，作为国内大型科技企业的小米，却显得格外冷静。
小米掌门人雷军说，小米正在研发一些技术和产品，等打磨好了再给大家演示。小米集团总裁卢伟冰称，小米目前拥有超过1200人的AI团队，会积极拥抱大模型，与业务深度结合，但不会像OpenAI一样去做通用大模型。
这些信息都加深了外界的疑问：小米会加入“百模大战”吗？
小米集团AI实验室主任王斌博士告诉深燃，小米自己会去自研通用大模型，但不会单独发布一款类ChatGPT产品，“也不会发布一个PPT，或者演示几个例子，就说我们有大模型了”，而是自研大模型最终会由产品带出来。
这是继小米官宣大模型团队后，首度对外披露大模型的路线和进展。今年4月14日，小米宣布大模型团队由栾剑带队，向王斌汇报。王斌曾在中科院从事了20多年NLP（自然语言处理）相关的研究和开发工作，2018年加入小米，2019年起负责AI实验室。AI实验室是小米AI战略的核心部门。
曾经做过对话大模型的小米，在通用预训练语言大模型上，是少有的理智派。王斌透露，目前专职大模型团队30多人，不会马上极速扩张；这个团队的目标还是通用语言大模型，第一步的目标基座模型参数在几百亿，然后会视前期爬坡结果，再决定下一步投入。
“从研发出大模型到落地还有很长的一段距离，是否能找到合适的重要场景是很多大模型公司的痛点。”在王斌看来，小米的优势是有足够多的现成的大模型落地场景，包括小爱同学、loT、自动驾驶、机器人等等，丰富的应用场景也能够反哺大模型的能力。
小米不缺场景，但要训练出大模型，数据、算力、人才的积累缺一不可。王斌说，小米在人才上有一定储备，算力和数据量方面的挑战较大。一方面，算力需要克服系统级的挑战，且要做到训练成本可控；另一方面，高质量数据的获得、清洗，都要花费不少时间和成本。
在新一轮AI大模型浪潮中，小米AI团队为什么不发布“类ChatGPT产品”？小米是怎么判断大模型的技术路线、技术难度的？日前，深燃总编辑贺树龙和小米技术委员会AI实验室主任王斌进行了一场对话。以下是核心内容：

小米大模型：团队30人，不发“类ChatGPT”

深燃：4月14日，小米任命栾剑为大模型团队负责人，向你汇报。能否介绍下小米大模型团队是怎么诞生的？
王斌：大模型团队是4月份宣布的，但在这之前已经开始运作。
去年11月30日，OpenAI发布ChatGPT后，我们一堆人快速注册账号，在上面开始玩。ChatGPT确实很颠覆，我们做了这么多年AI，它的很多能力超出了我们研发人员的预期。
很快，我们就组织了多个内部大模型交流群，讨论大模型的技术，以及它对机器翻译、人机对话、智能问答、客服会产生哪些颠覆性的影响。早期参加研讨的很多人，后来都成了专职大模型团队的重要成员。
深燃：小米大模型团队会不会来得有点晚？
王斌：对于大模型，我们属于理智派。
在ChatGPT诞生之前，小米内部做过大模型相关的研发和应用，主要是预训练＋下游任务监督微调的方式来做人机对话，模型的参数在几十亿级别。当然，这类模型并非现在所说的通用大模型。
我们非常清楚，通用大模型的研发和应用是一个长期的工作，不是早晚的问题。我们是按照自己的时间规划和步骤在走，当时觉得时间点到了，就做了团队发布。
深燃：大模型团队有多少人？有继续扩张的计划吗？
王斌：主力团队目前有30多人。我们目前是先按照人才、数据、模型、算力、评测、产品这几个方面去筹备，等到了一定阶段再逐步调整或扩张。
我们目前不会马上扩大人数，比如一下招到100人。因为在积累能力爬坡阶段，可能招这么多人都不知道怎么安排，反而是一种浪费。
随着大模型相关信息的不断公开，资本和人才的不断涌入，大模型领域的发展非常快，大家的看法变化也很大。前不久ChatGPT刚出来时，大家觉得，实现类似的大模型基本不可能，但是慢慢地，很多人觉得可能性很大，还有一些人认为，不需要那么大规模的模型就可以满足很多产品的需求。大家的投资力度，差异也特别大。有些人可能觉得团队至少要几百人，有些人认为不需要。

来源 / 视觉中国
深燃：接下来有没有一些阶段性的规划，什么时候对内测试和对外发布？
王斌：跟其他公司不太一样，小米天生带着产品的属性，我相信小米大模型出来的时候，是由产品带着出来。
我们内部有可能会在Q3之前测试。不过，这也不是一个必然的节点。
深燃：也就是说，小米不会发布一个类ChatGPT产品？
王斌：对，我们不会发布一个PPT，或者演示一下我们有大模型了。应用场景丰富是我们最大的优势。小米大模型会跟场景结合得更紧密，肯定是围绕产品的节奏去做相应的发布规划。
深燃：除了人力之外，小米做大模型在算力方面的成本大概是多少？
王斌：我们属于中等规模的投入，会视前期爬坡的结果，再决定下一步投入。
我们的基本判断是，适用于小米产品和业务的模型，参数可能在几百亿，会比千亿规模低，用于训练的机器的投入大概是几千万人民币级别。
深燃：之前小米做的几十亿参数级别的模型，现在怎么样了？
王斌：去年发布的ChatGPT是大模型的一种，叫通用预训练语言大模型。但大模型本身很早就出现了，大家有不同的路线、做法。
我们较早就开始跟进大模型，当时做的是一个对话专用模型，大概是28亿到30亿的参数。它是在预训练基座模型的基础上，通过对话数据的微调来实现的，并不是现在的通用大模型，而是专用于人机对话，比如，可以提高小爱同学对话的流畅度、多样性，让它可以聊下去。后来这个模型上线到小爱，进行了小规模上线测试。
所以，小爱同学里已经用到了AIGC，只不过，我们在产品层面，没有全部使用这个大模型，而是利用传统模型和对话大模型的互补性，将两个混合使用。
小米的通用大模型在落地产品时，很可能也是这种混合模式。传统模型处理得非常好的问题，就交给传统模型。大模型就解决它擅长的问题，例如一些小概率事件或是长尾对话。
现在出来的通用大模型，在对话水平上，明显高于之前的对话专用大模型，所以这部分团队也全都转到通用大模型上了。这个团队跑通过整个对话大模型的训练过程，爬过一些坑，加上数据的积累，有一定优势。

小米大模型：场景占优势，数据是难题

深燃：这段时间以来的技术进展非常迅猛，国内大模型在密集发布，会因为进展慢而焦虑吗？
王斌：我曾经有一段时间比较焦虑，因为老不下场做就会有点慌，你就会想，“别人怎么进展这么快，一下子就做出来了？”现在我们下场去做了，也就不焦虑了。
据说，中国现在是“百模大战”，已经发布了80多个大模型，有些提供了内测，有些只是PPT发布。有些模型的效果还是不错的，光从发布的水平看，我们现有的自研大模型的水平，看上去也不比很多模型差。但我们不急于做对外发布。第一，对于小米这样的公司来说，没有太大意义。第二，我们还是希望围绕产品，把自研模型做得更好一些，再一同发布。
深燃：你认为国内公司的大模型有机会赶上OpenAI吗？差距有多大？他们喜欢用三个月、六个月来形容。
王斌：目前来看，OpenAI肯定是走得非常靠前的，它投入时间早，在人才、数据、算力、工程、产品等方面都有非常强的积累。从国内的情况看，我感觉目前和OpenAI还是有一定差距，有人说是三个月、六个月，也有人说是一年、两年。时间上，真不好说。
因为怎么评价大模型，本身就是个挺难的问题。现在出现了各种大模型的排行榜，但目前都没有得到大家的一致认可。没有真正的评价标准，那么谈三个月、六个月赶上，也就是个拍脑袋的说法。
至于国内有没有可能追上OpenAI，我早期比较悲观，觉得几乎不可能，但随着各种开源方案、各种团队和资本的涌入，我的判断更乐观一些。我认为，国内有机会跟OpenAI缩小距离，去接近甚至在很多场景超过它。
大模型看上去不像芯片有那么高的门槛，通过人才、数据、算力等的不断积累和优化，是有可能不断缩小差距的。
深燃：国内哪些类型的公司搞大模型更有优势？小米的机会在哪里？
王斌：不管大公司还是中小的创业公司，都有各自的生存空间。大模型是一个生态，并非一家独大就能通吃，生态上的所有公司，包括做算力的、做数据的、做应用的，还有真正做大模型的公司，都有各自的机会。
像小米做大模型，有应用场景的优势。我们认为，大模型跟场景的结合会是一个巨大的机会。
因为如果只是发布大模型，没人用，那不一定能通过滚动快速发展起来。而我们可以马上落地到场景，通过不断迭代，在这些场景充分发挥出大模型的威力。
虽然我们目前只整合了一支30多人的主力团队，但实际上外围还有非常多的人。整个AI实验室，有NLP背景且在做具体应用的，就有一百多人，包括知识图谱、机器翻译、人机对话、智能客服、智能问答。他们都是具有大模型基础思维以及相关技术的人员，正在从各自应用的角度推动对大模型的探索。

王斌
深燃：小米在NLP研究上的积累，对大模型的价值有多大？
王斌：这在业界存在两种说法。一种说法是，我们这些人可能没活干了，AI革了自己的命，特别是做NLP的人可能就没饭碗了。还有一种说法是，毕竟大模型是从NLP干出来的，做NLP的人有先天优势。
这两种说法都有一定道理，但毕竟涉及到我的饭碗，我更倾向于后一种说法。
大模型原本在各个领域都有探索，包括视觉、语音、NLP。但为什么是在NLP这个领域首先突破，我相信这里面有本质的原因。我理解至少有两点：第一是语言数据的丰富性和易获得性，第二，语言数据背后隐含着非常丰富的反应人类思考过程的知识。
所以我相信，在NLP领域有多年积累的人，对大模型的理解和改造能力有一定的先天优势。小米大模型团队的成员，很多原来是做NLP方向的。国内做大模型非常不错的几家创业公司，也是从NLP领域出来的。
深燃：小米攻克大模型目前的难点有哪些？怎么克服？
王斌：首先我还是想说，大模型本身有非常巨大的挑战。
一项巨大的挑战是技术的不确定性。我们看过一些报道，甚至OpenAI团队自己也不十分清楚大模型背后的真正原理，如果再做一次，对是否能够出现同样的“涌现”结果也没有把握。我相信这一点上OpenAI讲的是实话，由于技术上有非常大的不确定性，所以有投入不能保证一定能训练出满足预期的大模型。
高质量数据的积累也是一项挑战。大家一般认为，大模型需要极大规模高质量的训练数据。网络上公开得到的数据，质量总体比较差，所以数据的获取、清洗，都是比较大的挑战。
另外的挑战当然是算力。首先，并不是说有这么多卡就能够训出来，怎么能够用好这些卡本身就是一个系统级的挑战。其次，因为在训练过程中可能会犯错，可能钱烧没了，什么都烧不出来，所以要看你有没有能力用可控的成本把大模型训练出来。
实事求是地说，目前数据和算力的挑战还是比较大的，尤其是大规模的高质量数据。经过前面一段时间的爬坡，我们现在基本有把握，只要数据到位，利用现有的算力，我们大概能知道多少天能够训出一个还可以的基座模型。
深燃：现在大模型训练的成本降低了吗？
王斌：一方面，试错的成本比以前低了。因为大模型训练是可能走弯路、会失败的，但是随着各种信息的公开，现在可能能很快找到训练的正确方向。另一方面，很多云计算、芯片等公司，还有很多创业公司，都在提供更低成本的大模型训练和推理服务。随着整个生态进一步发展，我相信训练的成本会不断降低。

大模型怎么影响小米业务？

深燃：能否详细介绍下你负责的小米AI实验室？
王斌：在2016年“阿尔法狗(AlphaGo)”横空出世后，雷总第一时间推动了AI团队的建设。AI实验室于2016年正式成立，我从2019年开始负责。
原来AI实验室隶属于人工智能部。后来人工智能部合并到集团技术委员会，现在AI实验室是技术委员会的直属部门。
AI实验室现在的团队规模在350人左右，下属六个方向，分别是机器学习、自然语言处理（NLP）、计算机视觉、声学、语音和知识图谱。
大模型出来后，AI实验室设立了专职大模型团队，我们现在的重点是语言大模型，但也在关注跨模态大模型。
深燃：卢总（小米集团总裁卢伟冰）说小米AI团队目前超过1200人。除了AI实验室，小米内部还有哪些部门跟AI强关联？
王斌：AI实验室之外，还有小爱同学团队，这两个团队都在技术委员会下面。
技术委员会之外，还有很多部门都有比较大的AI团队，包括汽车部的自动驾驶部，手机的相机部、软件部，此外，在互联网业务部做的用户增长、广告推荐，都跟AI相关。
总之，AI相关的团队有些在业务部门，有些在技术委员会，总数大概1200人，如果再考虑一些小团队，这个数字我个人觉得还更大一些。
深燃：小米AI实验室在小米AI战略里是什么角色？
王斌：AI实验室是集团层面的AI技术研发和输出部门。通俗地说，我们是面向全公司输出AI技术。
我们曾经把AI实验室比喻成集团层面AI技术的“试验田”和“弹药库”。因为AI发展迅速，AI实验室会研发一些中长期的前沿技术，围绕小米业务做储备，在集团需要的时候输出“弹药”。
在AI技术层面，我们在公司里肯定是储备最齐全的，在行业里也是非常有实力的。
深燃：小米AI实验室有哪些重要的研究成果？
王斌：我们AI实验室的理念更强调技术和场景的结合，目前还没有把发表论文当作OKR。所以，我从中科院（中国科学院）来到小米后，自己感觉最大的成就不是某个单点的技术的进展，而是技术和产品的巧妙融合。
小米是一家To C的公司，我们的AI能力输出暂时不直接对外输出，而是通过公司的产品输出。我们的成果非常多，包括小米手机中的很多拍照和相册处理算法，小爱同学中涉及的语音、NLP等算法，小米商城的推荐、搜索、客服系统中的AI算法。
我举个例子，我们在手机上开发了离线翻译功能，比如出国后，很多情况下网络没有那么好，这时候打开小米手机的翻译功能，不用走云端，离线状态下，实时性、隐私性和翻译效果都比较好。这个功能的实现和应用都不算容易，我们做了很多很多翻译效果和性能的优化工作。
在小米内部，并不是我们自己的技术，就会优先用，内部技术也要和外部技术去公平去PK，只有胜出才能活下来，应用到产品。

深燃：以ChatGPT为代表的大模型技术，会对小米的哪些业务带来影响？
王斌：大模型最强的能力，简单来说就是它更理解人，它显然能优化人机交互的方式。小米的小爱同学、手机操作系统MIUI、汽车的座舱、IoT、机器人，都是应用大模型的典型场景。
深燃：能不能以小爱同学举例说说。
王斌：应用到小爱同学上，能同时做到两件事。一类是让不可能变成可能，相当于有了新的功能。比如，我让小爱制定一个出行计划或者订餐等等。原来的技术能力没有达到，用户稍微换一种说法，它就乱套了。但有了大模型的支持，它对人的话语的理解更深了，这样就可以完成复杂任务，这类应用就有可行性了。
还有一类是对原来功能的增强，相当于锦上添花。因为人类表达的跳跃性、多样性，原来在小爱同学人机交互的过程中，最大的问题就是遇到小概率事件，我们叫Corner Case，通常会采用保守策略，让小爱说，“我回答不了”，“我还在学习”。这种托底回答也能把对话进行下去，但体验不好。但大模型技术能把对话进行得更长，而且大幅度提高用户满意度。
深燃：大模型对智能家居的影响大吗？
王斌：按照我的个人理解，大模型至少能在交互能力上，提高智能家居的使用体验。
现在虽然有很多设备号称“智能”，但表现上经常像“智障”导致使用率不高。比如说，打开空调或者调控空调温度，如果说法跟标准指令不一样，就可能就无法控制IoT设备。
但大模型来了以后，对人类语言的理解更深了，很多情况下表达方式各种各样，大模型能把用户的表达翻译成机器能听得懂的指令。这会带动更多人使用智能设备，让整个生态能更快成长起来。
深燃：除了现有业务的提升，还有哪些事情是以前小米做不到，但有了大模型以后有可能去做的？
王斌：我们会让大模型和这些业务做深度的协同，当然，除此之外，我们也在寻找更多可能性。
我们团队写了很多文章在公司内部推广大模型，包括大模型的概念和技术发展，教大家怎么用ChatGPT来解决业务问题。雷总已经要求每个部门都要学习大模型，要求大家具有基本的大模型思维，思考怎么跟业务结合。
*题图来源于受访者。

账号		自动登录	找回密码
密码			立即注册

小米大模型，不搞“ChatGPT”

本帖子中包含更多资源