|
|
编辑部 发自 凹非寺
' }9 i( }3 }% X& G1 d2 Y 量子位 | 公众号 QbitAI& ^9 H$ I( l% Q" i4 C
GPT-4发布一天之后,压力全部给到百度这边。
. x$ ~: r. {. u1 r2 E 就在刚刚,百度交卷。
* S# H7 J* x/ M' U# T( Z9 C/ t 文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。1 O7 a7 q! a# Z4 o9 \
在一片静寂的氛围里,李彦宏小步登场,语气里带着点紧张:
6 ]+ Z4 J8 D7 F7 j& l( c 大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高(笑)。
- o4 K, x4 i5 N 十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。
+ G" l$ Q2 u3 S
, T/ u) x2 f3 m$ _- k# _ 此前,有人狂转meme图把百度比作GPT-4旁边的垃圾箱。# x7 k( x6 T4 N
9 c, L/ e1 k j
也有人鼓吹百度是全村的希望。$ V9 }# z9 G% H
而在发布会进行的同时,百度港股市值大幅下跌,相关话题还冲上了微博热搜。
7 [# c) b5 z5 ?% H; F8 j
2 E5 v2 p( o( W 但直播弹幕中也有网友点赞:$ J- Z4 b4 g; v0 M; Y, l
6 l2 S, s9 W/ d2 Z& M
那么这个中国版ChatGPT到底实力如何?5 I& ]8 Z+ p; c3 p( j% w
咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。
) r+ Y( e8 }! n4 V 文心一言 vs GPT-4
: v- e' M/ c, b6 z* @7 S 和GPT-4一样,文心一言是一个多模态大模型。: W4 [5 {9 b( f6 w9 F4 ~
李彦宏开场就展示了文心一言具备的5种能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。
1 v6 l9 O8 H$ w% Z m; C 文心一言甚至还现场秀了一口接地气的四川话,现场网友发出一片笑声。, e; B- Q( M1 Z' Y1 {
其他能力如何?我们具体展开来看。# I# D; {; C2 a. H/ h9 i( P
文学创作
3 \: D# G: g3 l( a1 t 在文学创作上,李彦宏一开场就搬出了《三体》作者刘慈欣坐镇。
% \2 W8 M0 E6 i- D! x" w 先让文心一言介绍一下大刘,“毕竟我也是刘慈欣老乡嘛”:
, U, ~; ~; y7 i/ S6 W* ]
$ L* E1 u0 t1 ]1 b 看起来没什么问题。同样的问题问问GPT-4呢?
3 T# ^1 q( x5 [9 e+ w X+ i5 \ 3 T/ c- R) n% @0 F8 @ j# L
嗯???直接把刘慈欣的老家挪到了湖北省洪湖市。湖北人狂喜(doge)) M- N6 ^2 }. k# g% C
随后,李彦宏又展示了从哲学的角度对这段文章进行续写的demo:5 _* Y6 v) F1 y. G) z4 N, [
0 |0 K$ U( O: m2 a 看起来中规中矩,比较理性。老样子,我们也来与GPT-4进行一波对比:$ k8 P$ c7 {. p/ P( e! s3 {& x) A
& m# {. w! `4 [: Q' n/ I 这波你是想看GPT-4续写的《三体》,还是文心一言的?
7 ?3 L% q$ F6 ]/ a0 _ 再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点?& i% ^ X e7 z$ f: e' S
* j5 j3 D; ^- G' g' Y 也没什么问题。
# S/ D0 U; d0 C4 T5 m 就是看起来展示的速度有点快,比李彦宏的语速还要快上那么一点点(手动狗头)。
) }6 f" t# I& T# ^- H/ B. n0 p
8 j( f! Q0 e ?8 Q. O* b 商业文案创作0 Y8 E. c& C: Q0 ^
接下来,李彦宏又展示了一下文心一言在商业文案创作上的能力。
% c! {( M3 S! A5 X) L 比如给新公司起个名字。
1 N+ w# J+ r: H5 k- e$ J ; V. b F p0 Y+ e3 i2 U
并且这个名字它还不是瞎起的:% T! @+ d7 l$ g2 ~8 A9 D; p
( o4 U! A& L% S" w0 |: T 再来看看GPT-4起名的效果?1 F1 z. l$ [( }0 l# H+ ~! b
3 N& ?" e3 ?& }" K 看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。
5 c( W2 i' G1 J% ]& n6 @2 h( f 至于写个公司成立的新闻稿?对文心一言来说似乎也不成问题:
) t% c6 Q. `. m) d! p+ n
# y& Z* [: K9 _" T% v 数理逻辑推算
1 Z" i) }. B( G8 P1 y L9 R 数学能力,是考验生成式大模型的一大难题。ChatGPT刚上线时,也翻了不少车。" z: F3 [6 Y% t; ?& _* p. x
不过在现场,文心一言处理的数学问题不算复杂,是小学数学竞赛常见的鸡兔同笼问题。* X* W7 x4 O1 d# S% l
" A8 { y6 P8 B% K5 z9 t3 I 彩蛋是,李彦宏现场展示的第一题,引得文心一言说出了《狂飙》里高启盛的经典台词:这题出得不对。
& ?5 t* c9 \6 D* e' ], t) Q, S
5 ?4 E( Y# _* m5 D, Y 修改一下题目,OK,再扔给文心一言试试:
$ b o6 y9 H! ], O! b# |5 {
N' S. Z* u! g3 Q8 Y 看起来,答案还算是有理有据,一步步逻辑推理出来的那种。( `) I* _8 f: q9 m2 Y
李彦宏表示,这些题“不敢说百分之一百能做对,但至少体现了文心一言的思考历程”。
( |8 o! S& s, T: d 中文理解
Y# b9 i N" v. a) q1 L 接下来,李彦宏着重展示了一下文心一言对中文的理解能力,并特意强调:: k' p1 v: w0 @/ E- Q6 ~
文心一言对中国文化的了解,理应超出任何一个预训练大模型。
! ]( S& ^0 f) a: F' i 一上来就是一个成语,“洛阳纸贵。到底有多贵?”
) @; F7 E. w, r/ }) D) V ) R* H: o# s* ^) ~" R% L
这是文心一言的效果展示:/ P6 b- G# E- O3 d) ]2 w% C
! r/ n6 |% K6 b( Z 还解释了一下这个成语背后的经济学原理:
7 |; h! Y# P# K- [: d' a# Q
8 [; b9 h- v G2 B, W# `" \, R 那么,将这个问题抛给GPT-4呢?首先问问它,知不知道洛阳纸贵是什么意思:
+ |2 k3 w# A. A7 w: o
3 a" ~3 i/ ~1 y 接下来,再问问他对应的经济学理论是什么:
9 h4 j* k8 D! u9 u" U6 I
- Y2 `1 a: e7 [( Y H0 w 这波看起来,GPT-4的中文理解似乎也不输文心一言啊。
: P: U, ~) x" P9 n' ~* [3 r0 e+ F 那么,再来看看二者写藏头诗的能力?
" ?9 \4 \3 y* N" b1 O. t 首先是文心一言的效果展示:7 s/ a& v4 ~- c, C0 Y
2 T# Z. Z3 H: o: ]) e 接下来,我们再看看GPT-4怎么说:
( ~) x8 Q- E0 w% n( j- z
8 E8 `' w1 t& o# C% u 诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。
0 j3 K! L9 @" X% { 这波文化理解上,属实是文心一言“小胜一筹”了。3 e8 X! l6 K5 \
不过在英文上,李彦宏也承认,虽然文心一言也能处理,但能力是显著不如中文的。+ D+ | X% h, e& B: k6 g
这也和百度目前能用到的训练数据有关。
~# ~. D4 G+ s 多模态生成; G9 {, o$ {" _! ^
最后,李彦宏还简单展示了一下文心一言多模态生成的能力。
. C) {, a, A1 T9 n. \ 首先来看看,为即将到来的2023世界智能交通大会创作海报——) T( e/ u6 m9 T7 Z c, ]: K2 s
, n. a% `8 Y8 O% L* l. a4 G3 g
而除了前文展示过的文字转四川话能力,文心一言还能文字转视频。
. Q. g- C# w- s8 i' r6 I) d 李彦宏一句指令“将以上内容生成视频”,很快啊,不到几秒钟,文心一言就把字幕和视频做好了:* }) j2 V8 N9 j" ?% ^* @/ T6 U
/ I, v7 \# k: u1 b, J3 H* \
有些遗憾的是,在ChatGPT被频频称赞的编程方面,文心一言并没有现场展示相关能力。& M3 c8 d7 w# v# [1 ]( y$ U
但王海峰透露,文心一言的训练数据中同样包括代码。
- C7 Z! R& l' M Z' H# T+ ^8 J# H 文心一言如何“跑通”?
9 A5 m7 q( t/ m( a5 V/ D3 }1 e- d 正如ChatGPT脱胎于OpenAI的GPT系列,百度这次推出的文心一言(ERNIE Bot),背后也正是基于文心大模型技术打造。* _: _7 l7 o4 v2 F) b
据王海峰介绍,文心一言主要脱胎于两大模型:
2 B$ i% ^! c( W% Y) j 百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。
$ Y! [7 ]; _: O1 l 在此基础上,主要采用了六项核心技术。' F; w& G( A, q" K I1 G
其中三个是广为人知的大模型技术,包括有监督精调、人类反馈强化学习(RLHF)和提示构建。; z" |# z9 l T# r$ O( q
p.s. 人类反馈强化学习也是ChatGPT的关键技术。1 g5 u9 b+ E& a: A8 z* E# r' [
另外三个,则是“百度比较有特色”的技术,包括知识增强、检索增强和对话增强技术。
) O- L. g, F" I! c4 N * p9 |8 c" q8 E" M2 Q' S0 F4 i# m
首先来看与ChatGPT类似的技术:有监督精调、RLHF和提示构建。% k6 n' G: }1 F6 F
有监督精调,尤其指中文方面的数据精调。百度基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。( T: C9 A5 K$ l2 }' F7 P
# H4 {% S, C4 L: p2 C 至于人类反馈的强化学习(RLHF)和提示构建,操作上也与ChatGPT大差不差。
# j% X- Z5 t; b) o4 R6 P ' N+ V( A L8 F2 S% E, @
随后是百度提出的、用于进一步改善模型效果的技术。
p& m9 C, t* O, h: } 知识增强,包括知识内化和知识外用两个部分。其中,知识内化即将知识“渗透”进模型参数中;知识外用指的是模型可以直接使用外部的知识。
9 B- V9 ~# y; d" t/ U
& m8 r" a: X$ i% _* c 检索增强,则与百度搜索引擎积累的检索技术有关。+ s* Z6 L T! y3 E
百度将把检索技术和生成技术结合起来,先对内容进行检索后,将比较有用的部分用于生成,再整合输出结果:
# F; L( V( F# j, x, k* J0 I6 C
7 j& T1 t! [- y! M) K) [2 ^$ M0 M 最后是对话增强部分,包括之前百度积累的记忆机制、上下文理解和对话规划等技术:
1 m' M1 E. G, x6 {, o
8 i& ~- V$ \' r( f9 @# _" O& l8 z8 I- E 概括来看,文心一言表现出的能力,被李彦宏称为“智能涌现”:
0 t+ M) J1 v6 f& |3 N 当参数达到千亿量级,训练语料达到足够多的情况下,这种现象就会发生。
' l8 T5 H" t9 M7 \) L0 {# V6 K 目前,百度拥有的AI技术可以分为四个部分,芯片(昆仑芯)、框架(飞桨)、模型(文心)和应用。
4 P$ x5 a Y$ i F 之所以软硬件都要布局,百度称,是为了降低成本:
" R/ v- L' v. z6 e5 o 生成式AI需求的算力非常高,费用相当昂贵。- g) r5 O- i" h6 E
因此,如果在四层架构之间相互进行协同优化,就能让它的效率比别人更高,从而显著降低成本。
3 x/ T) G, D+ G& i+ K! z7 I 李彦宏认为,这也正是百度的优势所在:
; k" C" ~# c. m6 Z+ P, X) x$ y5 v 四层都有领先产品的公司,绝无仅有。
# O! e `' C9 q & n7 @% |$ d: A8 r, v& D$ y0 F
这次文心大模型背后的硬件算力,也是通过百度智能云提供服务。
; \1 P) _( T2 E" s( }+ w 目前,文心一言已经接入百度搜索,目的在于提升搜索资源效率。
* T9 I9 j* o/ Z- n4 t 同时,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。+ i% l8 T; L' g9 V4 D
0 S+ Q+ q; e' e M8 c) f. F
网友:看来还不用提前退休: n; P& j2 N+ {" t
截至发稿,百度港股股价在一波明显下跌之后,有所回弹。
0 t& d+ e4 I3 q7 ?) e' { 5 |* O3 v! S2 j3 Q; \% k
发布会结束,网友反应最多的是“提前录制有点败好感”:
/ n. D9 z7 T( [0 m$ s # b; X9 h$ H X! S3 R3 w
# F5 L7 P* x5 n
对于这一点,李彦宏的解释是,给出的问题都比较长,为了节约现场时间,所以才用了提前录制的形式。
# {6 N; t8 v3 [1 s 还有不少网友对文心一言展示出的能力不太满意。有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”:
' c2 F5 |$ C9 M" l " M1 @! [: z3 S0 ~) C/ e; x
离GPT-4还差了20个老胡。
2 K9 L$ u k1 b2 f5 T; c. V 4 q7 o( C! F/ G& X" Z4 Z
还有网友感觉,文心一言的发布会像极了毕业答辩的自己(doge):
6 `" X0 z ]9 d. P1 c) I. \4 I
+ p% g. B% j$ A/ R 不过也有网友表示,希望能给国产产品一点时间一点耐心。
% y" @# M( T4 z; ^' L- t4 D | ; h9 D9 g3 c/ q- Y" q; Y: j2 |/ T
发布会末尾,王海峰宣布,文心一言将从今天开始对外进行测试,包括个人用户和企业用户。0 m/ w" J. z. y; u( W# k3 t
是骡子是马,相信接下来,会得到更多验证。3 E8 D1 D( X' `4 X8 P; p
One More Thing
8 m, r- @: @* i& U9 t 对了,有网友表示,已经拿到了文心一言的内测资格:
: I3 F3 n" x! g; b3 H$ `- g 你好,感谢您体验文心一言,体验地址:
) u4 a, v/ J3 D( |9 }9 G2 X& r4 n5 L6 Q https://yiyan.baidu.com/welcome,希望您在体验当中给予更多意见,文心一言邀请码:KFCVME50RMB,2023年3月16日24:00前有效。
- i4 V$ l, A* Y- N8 s3 u 嗯,万物疯狂星期四(手动狗头)。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|