京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 935|回复: 0

文心一言 VS GPT-4实测!百度背水一战交卷

[复制链接]

1647

主题

726

回帖

6767

积分

论坛元老

积分
6767
发表于 2023-3-17 10:34:34 | 显示全部楼层 |阅读模式 来自 安徽
编辑部 发自 凹非寺
' }9 i( }3 }% X& G1 d2 Y             量子位 | 公众号 QbitAI& ^9 H$ I( l% Q" i4 C
             GPT-4发布一天之后,压力全部给到百度这边。
. x$ ~: r. {. u1 r2 E             就在刚刚,百度交卷。
* S# H7 J* x/ M' U# T( Z9 C/ t             文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。1 O7 a7 q! a# Z4 o9 \
             在一片静寂的氛围里,李彦宏小步登场,语气里带着点紧张:
6 ]+ Z4 J8 D7 F7 j& l( c             大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高(笑)。
- o4 K, x4 i5 N             十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。
+ G" l$ Q2 u3 S                          
, T/ u) x2 f3 m$ _- k# _             此前,有人狂转meme图把百度比作GPT-4旁边的垃圾箱。# x7 k( x6 T4 N
                          9 c, L/ e1 k  j
             也有人鼓吹百度是全村的希望。$ V9 }# z9 G% H
             而在发布会进行的同时,百度港股市值大幅下跌,相关话题还冲上了微博热搜。
7 [# c) b5 z5 ?% H; F8 j                          
2 E5 v2 p( o( W             但直播弹幕中也有网友点赞:$ J- Z4 b4 g; v0 M; Y, l
                          6 l2 S, s9 W/ d2 Z& M
             那么这个中国版ChatGPT到底实力如何?5 I& ]8 Z+ p; c3 p( j% w
             咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。
) r+ Y( e8 }! n4 V             文心一言 vs GPT-4
: v- e' M/ c, b6 z* @7 S             和GPT-4一样,文心一言是一个多模态大模型: W4 [5 {9 b( f6 w9 F4 ~
             李彦宏开场就展示了文心一言具备的5种能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成
1 v6 l9 O8 H$ w% Z  m; C             文心一言甚至还现场秀了一口接地气的四川话,现场网友发出一片笑声。, e; B- Q( M1 Z' Y1 {
             其他能力如何?我们具体展开来看。# I# D; {; C2 a. H/ h9 i( P
             文学创作
3 \: D# G: g3 l( a1 t             在文学创作上,李彦宏一开场就搬出了《三体》作者刘慈欣坐镇。
% \2 W8 M0 E6 i- D! x" w             先让文心一言介绍一下大刘,“毕竟我也是刘慈欣老乡嘛”:
, U, ~; ~; y7 i/ S6 W* ]                          
$ L* E1 u0 t1 ]1 b             看起来没什么问题。同样的问题问问GPT-4呢?
3 T# ^1 q( x5 [9 e+ w  X+ i5 \                          3 T/ c- R) n% @0 F8 @  j# L
             嗯???直接把刘慈欣的老家挪到了湖北省洪湖市。湖北人狂喜(doge)) M- N6 ^2 }. k# g% C
             随后,李彦宏又展示了从哲学的角度对这段文章进行续写的demo:5 _* Y6 v) F1 y. G) z4 N, [
                          
0 |0 K$ U( O: m2 a             看起来中规中矩,比较理性。老样子,我们也来与GPT-4进行一波对比:$ k8 P$ c7 {. p/ P( e! s3 {& x) A
                          
& m# {. w! `4 [: Q' n/ I             这波你是想看GPT-4续写的《三体》,还是文心一言的?
7 ?3 L% q$ F6 ]/ a0 _             再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点?& i% ^  X  e7 z$ f: e' S
                          
* j5 j3 D; ^- G' g' Y             也没什么问题。
# S/ D0 U; d0 C4 T5 m             就是看起来展示的速度有点快,比李彦宏的语速还要快上那么一点点(手动狗头)。
) }6 f" t# I& T# ^- H/ B. n0 p                          
8 j( f! Q0 e  ?8 Q. O* b             商业文案创作0 Y8 E. c& C: Q0 ^
             接下来,李彦宏又展示了一下文心一言在商业文案创作上的能力。
% c! {( M3 S! A5 X) L             比如给新公司起个名字。
1 N+ w# J+ r: H5 k- e$ J                          ; V. b  F  p0 Y+ e3 i2 U
             并且这个名字它还不是瞎起的:% T! @+ d7 l$ g2 ~8 A9 D; p
                          
( o4 U! A& L% S" w0 |: T             再来看看GPT-4起名的效果?1 F1 z. l$ [( }0 l# H+ ~! b
                          
3 N& ?" e3 ?& }" K             看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。
5 c( W2 i' G1 J% ]& n6 @2 h( f             至于写个公司成立的新闻稿?对文心一言来说似乎也不成问题:
) t% c6 Q. `. m) d! p+ n                          
# y& Z* [: K9 _" T% v             数理逻辑推算
1 Z" i) }. B( G8 P1 y  L9 R             数学能力,是考验生成式大模型的一大难题。ChatGPT刚上线时,也翻了不少车。" z: F3 [6 Y% t; ?& _* p. x
             不过在现场,文心一言处理的数学问题不算复杂,是小学数学竞赛常见的鸡兔同笼问题。* X* W7 x4 O1 d# S% l
                          
" A8 {  y6 P8 B% K5 z9 t3 I             彩蛋是,李彦宏现场展示的第一题,引得文心一言说出了《狂飙》里高启盛的经典台词:这题出得不对。
& ?5 t* c9 \6 D* e' ], t) Q, S                          
5 ?4 E( Y# _* m5 D, Y             修改一下题目,OK,再扔给文心一言试试:
$ b  o6 y9 H! ], O! b# |5 {                          
  N' S. Z* u! g3 Q8 Y             看起来,答案还算是有理有据,一步步逻辑推理出来的那种。( `) I* _8 f: q9 m2 Y
             李彦宏表示,这些题“不敢说百分之一百能做对,但至少体现了文心一言的思考历程”。
( |8 o! S& s, T: d             中文理解
  Y# b9 i  N" v. a) q1 L             接下来,李彦宏着重展示了一下文心一言对中文的理解能力,并特意强调:: k' p1 v: w0 @/ E- Q6 ~
             文心一言对中国文化的了解,理应超出任何一个预训练大模型。
! ]( S& ^0 f) a: F' i             一上来就是一个成语,“洛阳纸贵。到底有多贵?”
) @; F7 E. w, r/ }) D) V                          ) R* H: o# s* ^) ~" R% L
             这是文心一言的效果展示:/ P6 b- G# E- O3 d) ]2 w% C
                          
! r/ n6 |% K6 b( Z             还解释了一下这个成语背后的经济学原理:
7 |; h! Y# P# K- [: d' a# Q                          
8 [; b9 h- v  G2 B, W# `" \, R             那么,将这个问题抛给GPT-4呢?首先问问它,知不知道洛阳纸贵是什么意思:
+ |2 k3 w# A. A7 w: o                          
3 a" ~3 i/ ~1 y             接下来,再问问他对应的经济学理论是什么:
9 h4 j* k8 D! u9 u" U6 I                          
- Y2 `1 a: e7 [( Y  H0 w             这波看起来,GPT-4的中文理解似乎也不输文心一言啊。
: P: U, ~) x" P9 n' ~* [3 r0 e+ F             那么,再来看看二者写藏头诗的能力?
" ?9 \4 \3 y* N" b1 O. t             首先是文心一言的效果展示:7 s/ a& v4 ~- c, C0 Y
                          
2 T# Z. Z3 H: o: ]) e             接下来,我们再看看GPT-4怎么说:
( ~) x8 Q- E0 w% n( j- z                          
8 E8 `' w1 t& o# C% u             诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。
0 j3 K! L9 @" X% {             这波文化理解上,属实是文心一言“小胜一筹”了。3 e8 X! l6 K5 \
             不过在英文上,李彦宏也承认,虽然文心一言也能处理,但能力是显著不如中文的。+ D+ |  X% h, e& B: k6 g
             这也和百度目前能用到的训练数据有关。
  ~# ~. D4 G+ s             多模态生成; G9 {, o$ {" _! ^
             最后,李彦宏还简单展示了一下文心一言多模态生成的能力。
. C) {, a, A1 T9 n. \             首先来看看,为即将到来的2023世界智能交通大会创作海报——) T( e/ u6 m9 T7 Z  c, ]: K2 s
                          , n. a% `8 Y8 O% L* l. a4 G3 g
             而除了前文展示过的文字转四川话能力,文心一言还能文字转视频
. Q. g- C# w- s8 i' r6 I) d             李彦宏一句指令“将以上内容生成视频”,很快啊,不到几秒钟,文心一言就把字幕和视频做好了:* }) j2 V8 N9 j" ?% ^* @/ T6 U
                          / I, v7 \# k: u1 b, J3 H* \
             有些遗憾的是,在ChatGPT被频频称赞的编程方面,文心一言并没有现场展示相关能力。& M3 c8 d7 w# v# [1 ]( y$ U
             但王海峰透露,文心一言的训练数据中同样包括代码。
- C7 Z! R& l' M  Z' H# T+ ^8 J# H             文心一言如何“跑通”?
9 A5 m7 q( t/ m( a5 V/ D3 }1 e- d             正如ChatGPT脱胎于OpenAI的GPT系列,百度这次推出的文心一言(ERNIE Bot),背后也正是基于文心大模型技术打造。* _: _7 l7 o4 v2 F) b
             据王海峰介绍,文心一言主要脱胎于两大模型:
2 B$ i% ^! c( W% Y) j             百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。
$ Y! [7 ]; _: O1 l             在此基础上,主要采用了六项核心技术' F; w& G( A, q" K  I1 G
             其中三个是广为人知的大模型技术,包括有监督精调、人类反馈强化学习(RLHF)和提示构建。; z" |# z9 l  T# r$ O( q
             p.s. 人类反馈强化学习也是ChatGPT的关键技术。1 g5 u9 b+ E& a: A8 z* E# r' [
             另外三个,则是“百度比较有特色”的技术,包括知识增强、检索增强和对话增强技术。
) O- L. g, F" I! c4 N                          * p9 |8 c" q8 E" M2 Q' S0 F4 i# m
             首先来看与ChatGPT类似的技术:有监督精调、RLHF和提示构建。% k6 n' G: }1 F6 F
             有监督精调,尤其指中文方面的数据精调。百度基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。( T: C9 A5 K$ l2 }' F7 P
                          
# H4 {% S, C4 L: p2 C             至于人类反馈的强化学习(RLHF)和提示构建,操作上也与ChatGPT大差不差。
# j% X- Z5 t; b) o4 R6 P                          ' N+ V( A  L8 F2 S% E, @
             随后是百度提出的、用于进一步改善模型效果的技术。
  p& m9 C, t* O, h: }             知识增强,包括知识内化和知识外用两个部分。其中,知识内化即将知识“渗透”进模型参数中;知识外用指的是模型可以直接使用外部的知识。
9 B- V9 ~# y; d" t/ U                          
& m8 r" a: X$ i% _* c             检索增强,则与百度搜索引擎积累的检索技术有关。+ s* Z6 L  T! y3 E
             百度将把检索技术和生成技术结合起来,先对内容进行检索后,将比较有用的部分用于生成,再整合输出结果:
# F; L( V( F# j, x, k* J0 I6 C                          
7 j& T1 t! [- y! M) K) [2 ^$ M0 M             最后是对话增强部分,包括之前百度积累的记忆机制、上下文理解和对话规划等技术:
1 m' M1 E. G, x6 {, o                          
8 i& ~- V$ \' r( f9 @# _" O& l8 z8 I- E             概括来看,文心一言表现出的能力,被李彦宏称为“智能涌现”:
0 t+ M) J1 v6 f& |3 N             当参数达到千亿量级,训练语料达到足够多的情况下,这种现象就会发生。
' l8 T5 H" t9 M7 \) L0 {# V6 K             目前,百度拥有的AI技术可以分为四个部分,芯片(昆仑芯)、框架(飞桨)、模型(文心)和应用。
4 P$ x5 a  Y$ i  F             之所以软硬件都要布局,百度称,是为了降低成本
" R/ v- L' v. z6 e5 o             生成式AI需求的算力非常高,费用相当昂贵。- g) r5 O- i" h6 E
             因此,如果在四层架构之间相互进行协同优化,就能让它的效率比别人更高,从而显著降低成本。
3 x/ T) G, D+ G& i+ K! z7 I             李彦宏认为,这也正是百度的优势所在:
; k" C" ~# c. m6 Z+ P, X) x$ y5 v             四层都有领先产品的公司,绝无仅有。
# O! e  `' C9 q                          & n7 @% |$ d: A8 r, v& D$ y0 F
             这次文心大模型背后的硬件算力,也是通过百度智能云提供服务。
; \1 P) _( T2 E" s( }+ w             目前,文心一言已经接入百度搜索,目的在于提升搜索资源效率。
* T9 I9 j* o/ Z- n4 t             同时,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。+ i% l8 T; L' g9 V4 D
                          0 S+ Q+ q; e' e  M8 c) f. F
             网友:看来还不用提前退休: n; P& j2 N+ {" t
             截至发稿,百度港股股价在一波明显下跌之后,有所回弹。
0 t& d+ e4 I3 q7 ?) e' {                          5 |* O3 v! S2 j3 Q; \% k
             发布会结束,网友反应最多的是“提前录制有点败好感”:
/ n. D9 z7 T( [0 m$ s                          # b; X9 h$ H  X! S3 R3 w
                          # F5 L7 P* x5 n
             对于这一点,李彦宏的解释是,给出的问题都比较长,为了节约现场时间,所以才用了提前录制的形式。
# {6 N; t8 v3 [1 s             还有不少网友对文心一言展示出的能力不太满意。有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”:
' c2 F5 |$ C9 M" l                          " M1 @! [: z3 S0 ~) C/ e; x
             离GPT-4还差了20个老胡。
2 K9 L$ u  k1 b2 f5 T; c. V                          4 q7 o( C! F/ G& X" Z4 Z
             还有网友感觉,文心一言的发布会像极了毕业答辩的自己(doge):
6 `" X0 z  ]9 d. P1 c) I. \4 I                          
+ p% g. B% j$ A/ R             不过也有网友表示,希望能给国产产品一点时间一点耐心。
% y" @# M( T4 z; ^' L- t4 D  |                          ; h9 D9 g3 c/ q- Y" q; Y: j2 |/ T
             发布会末尾,王海峰宣布,文心一言将从今天开始对外进行测试,包括个人用户和企业用户。0 m/ w" J. z. y; u( W# k3 t
             是骡子是马,相信接下来,会得到更多验证。3 E8 D1 D( X' `4 X8 P; p
             One More Thing
8 m, r- @: @* i& U9 t             对了,有网友表示,已经拿到了文心一言的内测资格:
: I3 F3 n" x! g; b3 H$ `- g             你好,感谢您体验文心一言,体验地址:
) u4 a, v/ J3 D( |9 }9 G2 X& r4 n5 L6 Q             https://yiyan.baidu.com/welcome,希望您在体验当中给予更多意见,文心一言邀请码:KFCVME50RMB,2023年3月16日24:00前有效。
- i4 V$ l, A* Y- N8 s3 u             嗯,万物疯狂星期四(手动狗头)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-3-19 09:04 , Processed in 0.036264 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表