京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 971|回复: 0

文心一言 VS GPT-4实测!百度背水一战交卷

[复制链接]

1647

主题

726

回帖

6767

积分

论坛元老

积分
6767
发表于 2023-3-17 10:34:34 | 显示全部楼层 |阅读模式 来自 安徽
编辑部 发自 凹非寺# ?3 S+ E' v* L" {) [; z$ x
             量子位 | 公众号 QbitAI
9 f( J. _; X& d6 `2 C1 k             GPT-4发布一天之后,压力全部给到百度这边。
6 v3 c( ]' }' ^/ e             就在刚刚,百度交卷。
' ^0 w- v; }# A4 q* Q5 P$ r             文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。
2 o+ M' J6 j% ]% L# R             在一片静寂的氛围里,李彦宏小步登场,语气里带着点紧张:$ t& U+ p. N$ Q, o2 t5 t) D
             大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高(笑)。
7 X& r& @6 d+ c, z, p, \             十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。
- {$ ~1 ]* _. K9 S7 {                          8 {" q" Q+ K5 N5 H
             此前,有人狂转meme图把百度比作GPT-4旁边的垃圾箱。
* V1 \0 w6 Y+ `: m0 X6 A0 z* b                          
! I, {7 m+ V8 L5 L5 \  |             也有人鼓吹百度是全村的希望。
# y3 F" }, i* O3 q& a/ i' B% M             而在发布会进行的同时,百度港股市值大幅下跌,相关话题还冲上了微博热搜。) W" o- C) n" |' ]( O9 [' I; L
                          
" F, g9 l# L5 n  M1 u. b# f- J             但直播弹幕中也有网友点赞:
% o: V' L- [9 w% D/ b- j5 Y' }                          
. P+ B1 d9 {; m: l% ~             那么这个中国版ChatGPT到底实力如何?
- {, B# t* \$ S* C& ]" |% M% p             咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。
: N  a, L5 \, v; v. U5 d' Q             文心一言 vs GPT-4! @6 H+ j, z8 y5 U" W1 C
             和GPT-4一样,文心一言是一个多模态大模型7 G; i+ r( s' D9 }! j7 M) v
             李彦宏开场就展示了文心一言具备的5种能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成
7 r/ d# _) [4 `& N             文心一言甚至还现场秀了一口接地气的四川话,现场网友发出一片笑声。
* F* L" ?: o$ M2 z             其他能力如何?我们具体展开来看。
, l8 r1 a; K7 r             文学创作" I# a3 t, S7 Y4 Z- M: l  p! m  v
             在文学创作上,李彦宏一开场就搬出了《三体》作者刘慈欣坐镇。
% T# c( `" N8 q# ^% L             先让文心一言介绍一下大刘,“毕竟我也是刘慈欣老乡嘛”:
( R  ^# ]) N2 r, S( [( m, W                          
, S* U9 s0 ~- T" K             看起来没什么问题。同样的问题问问GPT-4呢?2 t& G6 [+ M* Y1 s
                          + w* b0 i* x; S8 Y' G8 h+ j
             嗯???直接把刘慈欣的老家挪到了湖北省洪湖市。湖北人狂喜(doge)* f/ `1 E# }6 }1 @' ~9 F
             随后,李彦宏又展示了从哲学的角度对这段文章进行续写的demo:# a6 w6 }/ b  u& l
                          : h6 C/ F( S$ Z. r# ]" S6 M1 j
             看起来中规中矩,比较理性。老样子,我们也来与GPT-4进行一波对比:
( q7 t% H! ?( X+ v+ c                          8 q/ k& v+ G/ M8 A5 C
             这波你是想看GPT-4续写的《三体》,还是文心一言的?
, s0 e3 v1 B( X* G! j$ H             再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点?2 c8 `( ]4 _6 T/ c/ n& k; f# m
                          
  a* l. i( S1 R             也没什么问题。
9 {, e+ O3 ~7 P" i% a: N5 K             就是看起来展示的速度有点快,比李彦宏的语速还要快上那么一点点(手动狗头)。
4 B" {; o2 m: g                          ( V5 v; |+ b' l4 {" p
             商业文案创作& h$ y3 |5 s" x3 f" }! I6 w
             接下来,李彦宏又展示了一下文心一言在商业文案创作上的能力。
. n/ v. P/ @! s: Z0 n             比如给新公司起个名字。
7 G' @4 ]3 U/ N+ V                          / o9 X. H( v$ M; B& y) t
             并且这个名字它还不是瞎起的:# S/ H& Y- J9 R1 {& P7 w! U# w
                          % L! k" T, u* n, B
             再来看看GPT-4起名的效果?9 ]9 a5 t" x& r
                          " t; Y! F" {$ i
             看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。3 w1 ^0 o" B4 h4 ~
             至于写个公司成立的新闻稿?对文心一言来说似乎也不成问题:
1 W& B' H' I+ [. _+ c                          
( }4 Z; C  X( ~9 i             数理逻辑推算
: R3 P5 k: L5 V) K             数学能力,是考验生成式大模型的一大难题。ChatGPT刚上线时,也翻了不少车。& w2 l# r: n- x3 J$ M$ Z) B
             不过在现场,文心一言处理的数学问题不算复杂,是小学数学竞赛常见的鸡兔同笼问题。
* ^8 T' ]0 I' u                          7 D0 h8 q( K# c2 E3 z
             彩蛋是,李彦宏现场展示的第一题,引得文心一言说出了《狂飙》里高启盛的经典台词:这题出得不对。! B* r$ g- f" J( e  M4 S4 I5 l
                          / S4 ~( A9 S7 [2 v$ I) U
             修改一下题目,OK,再扔给文心一言试试:3 ?: U6 c! k% {* S- V
                          
6 `7 U  d& c/ U6 P+ W6 P             看起来,答案还算是有理有据,一步步逻辑推理出来的那种。
: r* ^6 E+ n! K6 F+ D: k             李彦宏表示,这些题“不敢说百分之一百能做对,但至少体现了文心一言的思考历程”。
& r$ N. _: a9 u             中文理解- b- _. T8 [, N  r# t. s- V
             接下来,李彦宏着重展示了一下文心一言对中文的理解能力,并特意强调:& d0 {7 k( G* p; J% ?, v/ `
             文心一言对中国文化的了解,理应超出任何一个预训练大模型。4 F! q# H) y- s# o& }$ v! O$ l- U5 P7 ]
             一上来就是一个成语,“洛阳纸贵。到底有多贵?”3 A$ Z9 ^0 f* h1 l- @
                          
* `! {- g" F, S" w: q7 X, E             这是文心一言的效果展示:0 d& Y* Z" H2 [: }- p
                          
% W1 p# _' h# ^# |" M             还解释了一下这个成语背后的经济学原理:
: G9 h# N' X3 j+ ]                          
5 g4 b# ^8 T, P/ Q2 e) q             那么,将这个问题抛给GPT-4呢?首先问问它,知不知道洛阳纸贵是什么意思:  |$ i8 U: A7 |( N: Z! g2 K8 T
                          $ Q7 x5 h" @6 j: E
             接下来,再问问他对应的经济学理论是什么:
4 F$ g. I9 u) f( Q$ P* _                          9 q6 f0 |+ C! N6 s) h
             这波看起来,GPT-4的中文理解似乎也不输文心一言啊。4 j- _6 G) A" F* P1 c
             那么,再来看看二者写藏头诗的能力?" _8 `% c4 h$ |0 ]8 R! i
             首先是文心一言的效果展示:9 h2 \# d# p$ t, e
                          
6 Q2 P: @( P2 @  g             接下来,我们再看看GPT-4怎么说:& i. c. F$ r+ g" e) Q7 W; V
                          
/ g& z2 @& N) v& A             诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。9 a+ e0 i+ u. E7 X
             这波文化理解上,属实是文心一言“小胜一筹”了。
' j. `/ u' D% E) i: x0 f             不过在英文上,李彦宏也承认,虽然文心一言也能处理,但能力是显著不如中文的。6 N: _2 L& B! S+ N& k$ @4 P- ]$ R
             这也和百度目前能用到的训练数据有关。
: s$ \, j3 S# @$ q' R9 x             多模态生成$ U. P6 l7 k+ j, M$ Q* u$ t
             最后,李彦宏还简单展示了一下文心一言多模态生成的能力。
) B0 m* z+ C1 D/ S2 B7 {$ Y* T             首先来看看,为即将到来的2023世界智能交通大会创作海报——
3 v6 e' G+ e6 J  l                          5 C$ X2 \, {: b
             而除了前文展示过的文字转四川话能力,文心一言还能文字转视频  y8 g% ?7 U$ T' r
             李彦宏一句指令“将以上内容生成视频”,很快啊,不到几秒钟,文心一言就把字幕和视频做好了:
4 r  b) v6 d& s' B" O                          
. Q  |1 f5 t& m0 ]             有些遗憾的是,在ChatGPT被频频称赞的编程方面,文心一言并没有现场展示相关能力。2 B$ |4 s- b2 K( H
             但王海峰透露,文心一言的训练数据中同样包括代码。% i( R( n  h4 g" N
             文心一言如何“跑通”?) k9 W' ]! X1 h* V* u$ v- t% V/ G
             正如ChatGPT脱胎于OpenAI的GPT系列,百度这次推出的文心一言(ERNIE Bot),背后也正是基于文心大模型技术打造。5 t# ]5 _/ ~3 N3 V0 S
             据王海峰介绍,文心一言主要脱胎于两大模型:
9 w' k3 n& k/ s* k; v7 _             百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。, e0 n6 P: L& O/ Q
             在此基础上,主要采用了六项核心技术; s' M, q& W( C8 h9 T2 Z
             其中三个是广为人知的大模型技术,包括有监督精调、人类反馈强化学习(RLHF)和提示构建。
: q, G0 L. `' @4 {9 K$ B             p.s. 人类反馈强化学习也是ChatGPT的关键技术。0 {* {: |* H1 z! n* t
             另外三个,则是“百度比较有特色”的技术,包括知识增强、检索增强和对话增强技术。4 }& ?6 }  e7 k  o
                          
9 C0 U1 i- @0 ]             首先来看与ChatGPT类似的技术:有监督精调、RLHF和提示构建。/ o6 Y7 R' N+ m' l
             有监督精调,尤其指中文方面的数据精调。百度基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。6 H1 N4 ^! G! \! h+ N
                          : d2 ?. }  i5 _
             至于人类反馈的强化学习(RLHF)和提示构建,操作上也与ChatGPT大差不差。$ j# r2 i' c  P4 r
                          . s( D+ n) ?+ |: E: L
             随后是百度提出的、用于进一步改善模型效果的技术。. @) c; W* X0 t
             知识增强,包括知识内化和知识外用两个部分。其中,知识内化即将知识“渗透”进模型参数中;知识外用指的是模型可以直接使用外部的知识。
4 t& O9 R2 P! S                          4 Y/ {; |* z& J
             检索增强,则与百度搜索引擎积累的检索技术有关。4 _( |2 q4 H1 r( O) M( b. d7 ?, @
             百度将把检索技术和生成技术结合起来,先对内容进行检索后,将比较有用的部分用于生成,再整合输出结果:
% v3 |( k3 b& ^: j. v/ {* T                          
( s4 E* c& _0 M" }  v0 W! n" s             最后是对话增强部分,包括之前百度积累的记忆机制、上下文理解和对话规划等技术:+ [$ J. i- s8 ~! f1 N
                          
( |5 H9 K/ _1 L2 e" T3 M* C+ H6 k             概括来看,文心一言表现出的能力,被李彦宏称为“智能涌现”:2 }& }/ L% z  o; g3 x1 @# R
             当参数达到千亿量级,训练语料达到足够多的情况下,这种现象就会发生。; k% J* Q  E/ G* E: Y
             目前,百度拥有的AI技术可以分为四个部分,芯片(昆仑芯)、框架(飞桨)、模型(文心)和应用。
, a7 z5 A! _) N' G1 I/ y             之所以软硬件都要布局,百度称,是为了降低成本
5 W5 w; E7 \% v- B9 _             生成式AI需求的算力非常高,费用相当昂贵。) R3 N2 M  B' V1 L# `1 f
             因此,如果在四层架构之间相互进行协同优化,就能让它的效率比别人更高,从而显著降低成本。' B6 V& X7 v) ^3 |# R0 {7 x
             李彦宏认为,这也正是百度的优势所在:
. O! G' U* T* B             四层都有领先产品的公司,绝无仅有。
% x" `- b: n  ^- |8 i                          & n% t* M/ v6 Q# ]' W' y; y% B
             这次文心大模型背后的硬件算力,也是通过百度智能云提供服务。
. ?7 `+ `4 x7 K: J6 H1 [             目前,文心一言已经接入百度搜索,目的在于提升搜索资源效率。/ a1 O9 Q, Q' k6 A! ^
             同时,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。* h3 ]1 s5 z7 b& w0 ?) u! h, [" F
                          & X+ F+ |4 X" Z+ V6 B( ]) c
             网友:看来还不用提前退休# y, s$ U$ H& u$ ^+ w
             截至发稿,百度港股股价在一波明显下跌之后,有所回弹。$ i' m6 N6 w, D3 m
                          
8 X  l: F7 M& M1 d$ q9 Z             发布会结束,网友反应最多的是“提前录制有点败好感”:
  R/ E. C# s3 O. i2 l' C! c                          
; r- u/ L6 C- O; T$ ?8 V: F) P                          
  e/ \1 j7 k: F( o# g             对于这一点,李彦宏的解释是,给出的问题都比较长,为了节约现场时间,所以才用了提前录制的形式。
0 B" X* v+ a: s% R# U6 W             还有不少网友对文心一言展示出的能力不太满意。有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”:
" T; J* L; j! Q9 a! h% u. E                          9 n. ]! e, E) d; \# i9 \* y
             离GPT-4还差了20个老胡。) I- Y4 A$ W( h: U
                          ' N: Z+ V# V2 n5 I2 {
             还有网友感觉,文心一言的发布会像极了毕业答辩的自己(doge):
; T. Q4 [3 v5 [0 I# g                          
4 L1 c/ V( `6 w  `- d0 t) w0 p             不过也有网友表示,希望能给国产产品一点时间一点耐心。
; V; o: u/ Y" ~9 a! X" T& e5 r$ u- T                          " e" r# D- O- b2 R9 V; W
             发布会末尾,王海峰宣布,文心一言将从今天开始对外进行测试,包括个人用户和企业用户。
2 o* K* l" c8 x: A. |             是骡子是马,相信接下来,会得到更多验证。# t1 _' F) f, J7 D3 h4 x+ T
             One More Thing
1 ]. n8 K/ m4 g& s. ^2 G. L8 V             对了,有网友表示,已经拿到了文心一言的内测资格:
: G  l8 \2 z, ?# J             你好,感谢您体验文心一言,体验地址:  H8 P: b' {% w
             https://yiyan.baidu.com/welcome,希望您在体验当中给予更多意见,文心一言邀请码:KFCVME50RMB,2023年3月16日24:00前有效。! \* S/ y1 z: }, y3 c
             嗯,万物疯狂星期四(手动狗头)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-21 02:23 , Processed in 0.036952 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表