|
|
( [+ Y8 c2 u" u( B s
( m' q# J+ j! u3 G0 e新智元报道
. q% y2 S |1 ~$ E. M5 K编辑:编辑部% s# P, u2 l) ?/ V
【新智元导读】2月20日,复旦大学邱锡鹏团队推出中国版ChatGPT「MOSS」。发布当晚,服务器被挤爆。2月21日,复旦MOSS团队致歉,称模型还不成熟。
8 K5 L4 K; O, T1 b" B& ?5 R, b今天,MOSS又火了。不仅登顶知乎热榜,收获近千万流量,还引来诸多媒体竞相报道。
" ?0 K, l( `! l) B4 Q2 d! c6 C! ?# d* P
0 W/ O9 r7 z% I, E' L. F ^; {6 L# ~7 b" G3 d
不过,这次出圈的,不是陪刘培强流浪的MOSS,而是复旦大学研发的中国版ChatGPT。1 w3 `- @6 S1 W
, `* o- Q7 T; v5 t& x+ {9 N
国内首个对话式大型语言模型4 k7 [9 U5 i/ k4 ^7 f9 m9 y
ChatGPT自发布以来,已经收获了全球巨大关注。尤其是在春节后,ChatGPT突然走红,许多网友开始期待中国版聊天机器人的诞生。' v/ N% A8 C; t2 m4 `1 X( h2 u. n
现在,这个愿望得以实现。复旦大学自然语言处理实验室表示,国内第一个对话式大型语言模型「MOSS」已由邱锡鹏教授团队发布至公开平台,邀公众参与内测。; u9 j0 k \7 |& H7 t. a0 Y% N
/ w7 K+ z' P; W8 m
6 `" @1 b# U( O! vMOSS可以执行一系列任务,如对话生成、编程、事实问答等。官网称,MOSS为生成的语言模型打开所有技术路径,以理解人类意图并具有对话能力。+ x5 p# w% j9 |: B4 T
MOSS的出现为国内学术界和业界提供了重要经验,并有助于进一步探索和应用大型语言模型。" z2 \/ |# D* d) Q* y
团队负责人邱锡鹏表示:「尽管MOSS仍有很大的改进空间,但其推出证明,国内科研团队有能力在开发ChatGPT产品的道路上克服重要的技术挑战。」
' D3 M- K* y: q4 b7 s3 ?$ h6 Z% S7 A6 M! z) I, r5 ~; J g8 J# A. Z
1 h5 j+ Y$ c7 x# z# ]% T
据悉,MOSS研发项目得到了上海人工智能实验室的大力支持。后期,该项目将会通过开源方式,和行业人士与社区分享。# H4 S; n3 o" _2 ~4 a
开源代码,打造MaaS生态8 G" z& F; e, H# K, N4 f
MOSS的回答语言流畅、逻辑清晰且观点正确。科研团队在演示时,用英文输入多个指令,展示了MOSS多轮交互、表格生成、代码生成和解释能力。/ c. j; [. h% e7 J: f( Q
「告诉我5部科幻电影。」「生成一张展示这5部电影和导演的表格。」「增加一列表格,显示这些电影上映的时间。」在这个包含表格生成的多轮交互中,MOSS都顺利完成了任务。
: T7 R8 `) z! @0 u+ n9 {, X# L
: G: F* l# j% v) Q5 G- H
- T' g1 f+ w) k# a% B然而,MOSS与ChatGPT最大的不同,在于其开源属性。
2 n! j" W6 _7 d' w由于ChatGPT并未开源,其技术解决方案的细节尚未披露,研究人员对此有很多猜测。一些专家认为,ChatGPT是一个复杂的组合系统,无法通过单一的生成语言模型实现。- T+ s" k% ~7 O+ g: r0 r2 q o
作为自然语言处理专家,邱锡鹏近年来一直致力于研究具有多任务学习能力的一般模型。为了探索ChatGPT的技术路线并获得LLM研究的一手经验,他带领团队加快了MOSS的开发。
9 Z+ I! d9 ~5 m# B9 d& W# C' d7 X2 b5 @5 P9 f
$ c& K8 ^ G. g4 q% _. ]( n7 Z
MOSS开发的基本步骤与ChatGPT相同,包括两个阶段:自然语言模型的基座训练和理解人类意图的对话能力训练。' f8 |0 g: L) X( x- A d4 x
在对话能力培训阶段,OpenAI收集了至少数十万条人工指令,要求各行各业的专业标注员编写指令回复,然后将其输入模型库,以帮助ChatGPT逐步理解各种指令。
5 u) t7 g1 n: U6 i" I% `9 ^复旦团队采用不同的技术路线,通过允许MOSS与人类和其他对话模式互动,并在短时间内高效完成对话能力培训,从而显著提高学习效率和研发效率。) f) G* `+ p. ]. V+ {1 p& R
为了提高研发效率,MOSS团队选择开源代码。对此,MOSS模型的官方公告表示:
1 S6 p( Y0 R& A: x3 @
& Q# b; B; H& H4 G8 A9 Y预训练大语言模型的研发门槛很高,需要大量算力、训练语料和人工标注。在我国产业界,只有大型机构才有实力开发大模型。 MOSS开源后,可有效降低预训练语言模型的研发和应用门槛,让中小企业在其基础上开发出智能客服、智能家居、人工智能律师等各种垂直类产品。
( f# P; P( p7 T% J: S8 L推出伊始便开源代码,虽然可以提高数据收集和研发效率,但也不得不称为一个冒险的举动。然而,这也为未来企业的发展提供了一个新的思路:MaaS(基础模型服务)。
, C5 c+ F% u/ N* b7 L5 O# _在未来,企业或许不需要在大模型领域「卷生卷死」,有了类似于MOSS的高质量LLM,企业只需对已经完备的模型进行微调,就能获得所需的品质良好的垂类产品。
) q" C! a8 x. ^( ~4 S) i' Z4 D
5 e. A8 ~% L& D取名MOSS,致敬《流浪地球》
4 y0 o5 T8 D5 ^" L随着MOSS的推出,互联网上出现了怀疑的声音:为什么要叫MOSS?! \& y6 m$ W, U3 P: ]
* z, S" O6 a+ M, H9 S# P5 q. m, }1 H- S v5 i& {) A7 l+ z
面对「蹭热度」的质疑,MOSS团队发公告予以澄清。公告称:
& a" I7 D0 j4 K2 |4 w0 T. c! T, `+ K. r0 T) i; w0 F
尽管我们的对话模型和《流浪地球》中MOSS的能力不能相提并论,但就像过去NLP领域的其它优秀模型一样,作者们都希望使用自己喜欢的影视角色名称命名自己的模型,我们在训练完成第一代模型的时候,正值流浪地球2热映,片中MOSS给团队每个人都留下了深刻的印象,因此便使用了这样一个名称来指代我们的模型,以表示我们对最前沿AI模型的不懈追求。
( |- S. ~% B2 N6 J6 L* g3 G6 z事实上,用大IP给科研项目命名并不是什么新鲜事。ChatGPT基础技术之一的Transformer,其名称来源于大热电影《变形金刚》(Transformer)。
?! w! \3 P. N网友评价
3 w) e8 ~5 h/ EMOSS一上线,官网都快被挤爆了,小编也只能乖乖排队等内测资格啦。1 z4 U; ^; u" _+ X) V0 t
5 K3 c" ]8 X, w( {% e
) U; N1 S+ R$ V1 Z
体验地址:https://moss.fastnlp.top/
1 l* A7 x& m6 x' p5 D项目地址:https://txsun1997.github.io/blogs/moss.html. l7 E: ^+ w# T% I
不过,根据网上记者的对话以及知乎答友们的评价,咱也能来仔细瞅瞅MOSS了。7 }8 M" \ {* a0 d: [
文风很AI,但未来可期, l% ~: ^' [' s0 B0 \
基于目前已知的信息,「段小草」对Moss的特点进行了总结:- d' m/ a3 X/ n
1. 上下文的能力是有的,但不确定能保留多少,毕竟展示出来的上下文对话都不是太长;* v0 x8 m* S. p8 Q2 G
2. 文风很 AI,不过生成的内容不算长。即使是分 1、2、3、4 点回答的时候,句子也比较短。ChatGPT 一般会生成更长的展开。6 `9 T/ X. t ]2 C. w0 S; E
3. 文章中也专门展示了英文能力,但还不确定训练集中不同语言语料的效果。. g& A4 q4 {% P
4. 吸取 ChatGPT 和 NewBing 翻车的教训,在上线初期就套上了足够的道德枷锁。
+ B9 h6 y9 J, @6 k最后,「段小草」表示:「希望能尽快体验到产品,也期待看到更多产业落地。」
4 i4 f c6 y) B. F% N4 n7 tMOSS回答:- h# i* h% E$ w' ^$ s% }8 r
1 o8 |$ s( ]! l5 [* Z7 W
; P' x W& c( b# U) [9 i; EChatGPT回答:# B" {2 N% B! d* u8 u. M6 x% l
1 d9 B: u6 [" E4 J. B! s4 Y% c) }: h
回答地址:https://www.zhihu.com/question/585248111/answer/2903132579
0 F" g* d% ~! w; z- ?) b给国内AI开了个好头
" f1 v6 K. v8 K# Q5 x的确,MOSS的发布对国内AI的发展肯定大有益处。
! E# Z1 u% \9 D) `" J# E$ S& \知友「极智视界」表示,在AI领域,技术源于美国而盛行于世界,例如框架类的pytorch、tensorflow,目标检测算法YOLO以及造就ChatGPT的transformer。我们「对标」国外的技术,虽然赶超美国可能做不到,但是「对标」的过程一定会让国内的AI有一个快速的发展。
# n+ K( X% T+ L) S& A0 ~- m$ P1 K2 f; D R3 I3 h" U) i
$ a* {, I5 \/ a! ^- k3 T
回答地址:https://www.zhihu.com/question/585248111/answer/2903303710
6 k6 \% X: y6 P% V5 T「极智视界」还提到,国内首个类ChatGPT模型MOSS的发布既符合预期但也有些意外。
9 M+ j, I8 \* q1 h( d5 D1 n符合预期是因为近段时间以来也一直有国内版ChatGPT摩拳擦掌的消息,所以迟早都会来的;意外的是在当前这种强大的利益驱动下,研究机构居然还走到了大厂的前头。" V( }( H$ N8 K* B/ @, D
但总的来说这是一个令业界比较振奋的消息,咱们终于可以用上咱们自己的AI问答系统了。' ~7 B6 |- V8 M2 x& V9 h* Y9 ?
高校的重点还是理论探索
& M" a l$ u0 b# L3 L: D& ^/ ~知友「卜寒兮」表示,想研发出类ChatGPT的产品,需要一个团队能撬动各个方面的资源,还要有过硬的技术做支撑。* N( n- k/ y% ^9 f' e
以ChatGPT为例,单单想要研发出一个成规模的LLM模型,就需要以下四个方面:
/ o S% B3 t) y" q
0 _' L7 @' p6 b+ K0 p5 D% @5 e
# @+ ?+ p' Y6 w; F8 v2 }- 8 @5 X6 m0 s& A% m* B, N
海量数据的语料库:ChatGPT背后的模型的GPT-3、GPT-3.5系列,初代的GPT-3是2020年发布的,这个模型有1750亿个参数,训练它所使用的语料库包含45TB的数据、约3000亿个单词7 k& j1 t& U+ x
" ?0 o, O6 F; ^) r$ b' O Y - {3 t7 m0 `7 o( L8 [8 {1 y
大量的人力:毕竟ChatGPT成功的背后是时薪不到2美刀的血汗工厂
6 s3 n8 ~8 f) w) ~. T+ }) H( |8 z0 c) u' ~5 k! r0 v
6 k7 S4 [: g$ m* |5 v/ ?算力的支撑:训练chatGPT这样规模的LLM模型需要目前世界上最强大的GPU来满足算力要求而像NVIDIA Tesla A100这种最新的AI超级计算机芯片已经禁止对国内出售了。国内除了几家互联网大厂,很少有公司有实力能长期投入大量资金在算力上,更不要提校内的科研团队了,靠点科研经费可远远不够。
2 ]4 E* }: | I) D4 z1 `2 B" {3 y6 v R" c! C
- % |* x/ W4 P+ m! O2 |+ R% i( U3 ?
技术上的壁垒:GPT-3的初代版本在2020年就出现了,而到2022年11月首次推出ChatGPT产品,这期间花了三四年的时间迭代不同的版本。这是一个长期的过程,意味着花大量的时间找到关键的训练tricks,反复调参,在不同的训练集上反复训练、微调,并且还有找到合适的训练方法,才能迭代出一个优秀的版本8 E7 r* E1 Z$ }4 [
7 J2 i, ~7 T) `' p! A# \, e/ q 4 {7 _* c; w: d# p/ J7 q( {( K
4 Q1 G& D, W* r
1 A- c% s( m% r u0 B5 r, {- S8 V7 L
回答地址:https://www.zhihu.com/question/585248111/answer/2903161180
) e" q3 x9 g6 c: I3 H目前来看,还真的只有大公司才有能力做得出来。对于高校的科研团队,其优势在于技术和方法上的创新,所以还是要在这方面做更多功夫,为将来有一天该方向的发展做技术储备。
9 ~( i% E7 p6 f D: s# s. U
- i8 R6 N8 e) t: C! ~5 r复旦MOSS团队:还不成熟
E( T8 ]) a2 O Q0 C2月20日,就在MOSS模型公布的当晚,不少测试的网友发现,MOSS已经显示服务器流量过载,只能第二天再重试。0 i) D% r9 H1 t$ e! ^
2月21日,复旦团队在MOSS官网发布公告称:首先非常感谢大家的关注!MOSS还是一个非常不成熟的模型,距离ChatGPT还有很长的路需要走。8 I# W. }' Y( d) B! g% G; Z
z6 D1 B% Q x3 A1 h
6 @" L( Z! a6 }: z5 _' M
* d3 g) g% |, E3 w
我们一个学术研究的实验室无法做出和ChatGPT能力相近的模型,MOSS只是想在百亿规模参数上探索和验证 ChatGPT的技术路线,并且实现各种对话能力。 我们最初的想法只是想将MOSS进行内测,以便我们可以进一步优化,没有想到会引起这么大的关注,我们的计算资源不足以支持如此大的访问量,并且作为学术团队我们也没有相关的工程经验,给大家造成非常不好的体验和第一印象,在此向大家致以真诚的歉意。 在 MOSS完成初步的验证之后,我们会将MOSS的经验、代码、模型参数开源出来供大家参考。中国版ChatGPT的诞生还需要中国全体AI从业者的努力,也更需要不断。和人交互以提高能力。 + V7 C, S3 q" ~8 n" U9 b
参考资料:
0 S" A ?, @% E- X3 Ohttps://txsun1997.github.io/blogs/moss.html8 W, w% R. |2 H% E. Y# P
https://www.zhihu.com/question/585248111" l3 Y6 B0 t1 ^+ i- }" m& i( S
https://m.weibo.cn/status/4871507265982631?wm=3333_2001&from=10D2293010&sourcetype=weixin&featurecode=newtitle/ g! R( g& D: x* M# n: R% I0 ]9 H
特别鸣谢:(授权转载)
5 _' z+ r% W% W7 y, [5 V! F# ~& C「段小草」https://www.zhihu.com/question/585248111/answer/2903132579
' [1 _+ q$ C& {2 G( a「极智视界」https://www.zhihu.com/question/585248111/answer/2903303710
# q9 o V# {5 f- C「卜寒兮」https://www.zhihu.com/question/585248111/answer/2903161180 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|