京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 936|回复: 0

文心一言 VS GPT-4实测!百度背水一战交卷

[复制链接]

1647

主题

726

回帖

6767

积分

论坛元老

积分
6767
发表于 2023-3-17 10:34:34 | 显示全部楼层 |阅读模式 来自 安徽
编辑部 发自 凹非寺
2 Q# e7 M& n: I% m             量子位 | 公众号 QbitAI7 r9 p) r/ _# O
             GPT-4发布一天之后,压力全部给到百度这边。) }' Q! V% W  U# s' Y
             就在刚刚,百度交卷。
/ A  N) Z' d+ B/ l7 `             文心一言,百度全新一代知识增强大语言模型,正式在百度总部“挥手点江山”会议室里发布。# H. p. T1 Q  E" V( ?' P. N1 ]
             在一片静寂的氛围里,李彦宏小步登场,语气里带着点紧张:6 q5 Y) Z# p! r( C' F) G) _
             大家的期望值,是我们对标ChatGPT,对标GPT-4,这个门槛有点高(笑)。  d. f) R( [  A
             十月怀胎,我们就带大家来看看这个AI大模型文心一言长什么样。8 a5 c/ A5 \' l3 S
                          
8 F6 L8 G  W& B% M5 I+ ~/ C( Y! U             此前,有人狂转meme图把百度比作GPT-4旁边的垃圾箱。7 t) [& S% A7 L3 i: A% u) [; R
                          % d; c. d3 Z4 r; j3 g
             也有人鼓吹百度是全村的希望。
: z! O" n' o! B) B+ R             而在发布会进行的同时,百度港股市值大幅下跌,相关话题还冲上了微博热搜。
5 i% s9 r6 J* R% y/ h. j6 w3 @" ^; D) @                          
$ x- A6 U! d; @1 w: I  ~4 I. q  ?# F             但直播弹幕中也有网友点赞:5 J7 i' Z. o% d1 G, v
                          / M- Z7 t1 p  a# z
             那么这个中国版ChatGPT到底实力如何?
0 p+ K. E7 ?. A5 ^  }; M1 }             咱们就用百度发布会演示的预录制Demo,对比一下崭新出炉的GPT-4,先凭实力说话。7 L7 i" r  k8 V  ?! X, R
             文心一言 vs GPT-4
. l+ \2 F& }3 i- E: {             和GPT-4一样,文心一言是一个多模态大模型
* r( I4 D% E  \* Z, `             李彦宏开场就展示了文心一言具备的5种能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成- ~0 ?# H1 c. ]# D2 k' i
             文心一言甚至还现场秀了一口接地气的四川话,现场网友发出一片笑声。
$ B# b3 V) W9 d5 K8 q* m5 D$ `             其他能力如何?我们具体展开来看。
4 [/ S  I8 C3 {0 t" J6 `             文学创作
0 l4 ~0 A* N7 R6 C+ U             在文学创作上,李彦宏一开场就搬出了《三体》作者刘慈欣坐镇。5 S' |' U& P* z$ V* m
             先让文心一言介绍一下大刘,“毕竟我也是刘慈欣老乡嘛”:' `. b( J# A" V# A, g" G
                          
' O- z. e8 m  w' R/ N' U1 F: p             看起来没什么问题。同样的问题问问GPT-4呢?
, V& {. j% j( i. O0 G9 e+ k                          3 J2 r5 v0 H2 A- Y2 e! t% z: w5 H
             嗯???直接把刘慈欣的老家挪到了湖北省洪湖市。湖北人狂喜(doge)
- h1 H  A0 Z% P8 Z             随后,李彦宏又展示了从哲学的角度对这段文章进行续写的demo:$ x: U; W1 v- ]7 P
                          5 f5 X. k9 [7 P  r
             看起来中规中矩,比较理性。老样子,我们也来与GPT-4进行一波对比:
% z, r& W6 V$ m. q: C- p; q                          
# A# P+ p5 h+ s/ X! b" n! k: ~$ r8 d             这波你是想看GPT-4续写的《三体》,还是文心一言的?
, u2 `9 H9 _0 ^0 j8 I# d             再来看看《三体》电视剧中扮演史强和汪淼的老搭档,于和伟和张鲁一,有什么共同点?; ]3 D: _0 }" h+ P
                          1 A) {9 z/ N; u: Q
             也没什么问题。
8 B2 V6 r" ~( a! {; v% R6 @; T             就是看起来展示的速度有点快,比李彦宏的语速还要快上那么一点点(手动狗头)。% A: Q& M5 d! I2 ~6 Y
                          & u  c6 q" n6 v: ^  [4 ?" ]/ P
             商业文案创作+ [1 g  Q, n: T( {+ a: Y8 |4 y1 f
             接下来,李彦宏又展示了一下文心一言在商业文案创作上的能力。
+ P7 N8 Y# ^- @) h0 ~! N             比如给新公司起个名字。
5 ^0 v/ C! M! Y+ x+ R                          . V" i  l9 ]4 K
             并且这个名字它还不是瞎起的:
' R# |# O& }+ N& X, l5 [                          ' F) h# m* {+ K3 ~6 L! p
             再来看看GPT-4起名的效果?
2 _% F5 K9 d9 v+ K8 x6 K+ \4 g4 ?) C                          
/ Y" y  u' [5 |0 I8 y% q             看起来,GPT-4对中文的掌控能力相比之下还是少了一点精髓。2 _  k9 i+ M8 q; p$ J6 |
             至于写个公司成立的新闻稿?对文心一言来说似乎也不成问题:  ]+ K8 v+ c: e% }) Y& m  M1 F
                          . j/ z9 z/ r9 r5 y
             数理逻辑推算5 }9 A! H- {$ n( ]
             数学能力,是考验生成式大模型的一大难题。ChatGPT刚上线时,也翻了不少车。  m2 z9 e# [# t# m; E  U0 d9 d$ n
             不过在现场,文心一言处理的数学问题不算复杂,是小学数学竞赛常见的鸡兔同笼问题。
9 o0 M0 F; A6 R: k                          
$ }4 c: [- j+ O5 w$ @             彩蛋是,李彦宏现场展示的第一题,引得文心一言说出了《狂飙》里高启盛的经典台词:这题出得不对。
9 {7 k: K6 L1 S- E  K                          # W4 }. m2 T, G& d# I8 \6 g
             修改一下题目,OK,再扔给文心一言试试:
# S) r# f  @7 _) {; E                          
+ p) c% i0 k) ]  f; f             看起来,答案还算是有理有据,一步步逻辑推理出来的那种。, d: i9 A9 f5 [0 q2 U
             李彦宏表示,这些题“不敢说百分之一百能做对,但至少体现了文心一言的思考历程”。
: W" Z/ V+ K+ ~# ?; J( P. b             中文理解
# u( i1 p+ @0 x  w; z/ ]  }             接下来,李彦宏着重展示了一下文心一言对中文的理解能力,并特意强调:0 Z, a4 c, q. ]# u3 ?4 |  G  }3 f
             文心一言对中国文化的了解,理应超出任何一个预训练大模型。/ i" B: M4 A! T  Z- Z+ E! p
             一上来就是一个成语,“洛阳纸贵。到底有多贵?”- @4 }: k: w' x" ~
                          ) ~) w) Y5 o6 R% F& ~- l4 D" F! \
             这是文心一言的效果展示:0 R( v6 b& q4 g0 B( P% g! O
                          ; u) U3 g* J! J  ^/ q3 X
             还解释了一下这个成语背后的经济学原理:3 p, n. f# W7 X, l2 L+ u* r
                          
4 p  g9 {' y9 L7 b             那么,将这个问题抛给GPT-4呢?首先问问它,知不知道洛阳纸贵是什么意思:3 @9 z7 n9 y. O# Q* ]- l3 X. K7 g
                          8 q: ]0 [* S  z+ c" q5 j) o
             接下来,再问问他对应的经济学理论是什么:
2 b2 e5 z2 C3 l- D) e                          ( U8 ]( {. L! k& ~
             这波看起来,GPT-4的中文理解似乎也不输文心一言啊。1 {! v8 T4 R) h
             那么,再来看看二者写藏头诗的能力?& q4 A* i- i, ~; }' ^# k
             首先是文心一言的效果展示:
+ }2 Y' W: d$ [1 |                          5 t$ ~) a4 f: z' d: W& w
             接下来,我们再看看GPT-4怎么说:
8 _1 A$ C5 [# s1 R) R( r                          . S5 Z8 A6 P5 ^2 G; ]0 f) }  V
             诶,看起来反而是GPT-4没有真正理解“藏头诗”的含义。, @/ w1 E* X+ V
             这波文化理解上,属实是文心一言“小胜一筹”了。& a  K7 K) Y* i, V$ {5 f# ]) U
             不过在英文上,李彦宏也承认,虽然文心一言也能处理,但能力是显著不如中文的。
6 D# d9 c7 A- d& g, w/ h             这也和百度目前能用到的训练数据有关。
' ]1 ?5 Y' j7 ?, F             多模态生成* u) O7 Y) Z* Q& T
             最后,李彦宏还简单展示了一下文心一言多模态生成的能力。/ X1 A3 \2 v5 i( O8 n4 z" Y
             首先来看看,为即将到来的2023世界智能交通大会创作海报——
+ ~- r5 M# ~% K" u! z0 q2 f                          
# @8 R# A+ g" ~9 C7 C2 T             而除了前文展示过的文字转四川话能力,文心一言还能文字转视频
8 J# s7 ~& G: G# y0 r- r5 u             李彦宏一句指令“将以上内容生成视频”,很快啊,不到几秒钟,文心一言就把字幕和视频做好了:
; ^& `5 I' m& A* B/ j8 d                          
9 K$ V) g5 \2 U; S0 Y& R             有些遗憾的是,在ChatGPT被频频称赞的编程方面,文心一言并没有现场展示相关能力。
8 H( f! M( `- r7 p             但王海峰透露,文心一言的训练数据中同样包括代码。
2 j. w+ R0 e& {: ?, h- D             文心一言如何“跑通”?& J0 b; s- J7 c. V  [7 J$ v; D
             正如ChatGPT脱胎于OpenAI的GPT系列,百度这次推出的文心一言(ERNIE Bot),背后也正是基于文心大模型技术打造。' m% s$ j& Z; J9 ?
             据王海峰介绍,文心一言主要脱胎于两大模型:5 y+ U) y; |! W* u8 ^
             百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。
- m: @$ x1 @' X6 I- x8 X; O             在此基础上,主要采用了六项核心技术
* A! c# d3 F1 w1 G             其中三个是广为人知的大模型技术,包括有监督精调、人类反馈强化学习(RLHF)和提示构建。
& g+ M  c/ O8 R. {) P             p.s. 人类反馈强化学习也是ChatGPT的关键技术。
: ]& U2 q  W& i3 E. A8 H2 u             另外三个,则是“百度比较有特色”的技术,包括知识增强、检索增强和对话增强技术。
) B/ b9 v3 D, m' ?7 q; Q7 I1 W; _                          ; l* n1 ^$ X7 T% O
             首先来看与ChatGPT类似的技术:有监督精调、RLHF和提示构建。" |" |8 D4 j4 N' L: U
             有监督精调,尤其指中文方面的数据精调。百度基于对中国语言文化和中国应用场景的理解,筛选了特定的数据来训练模型。
: v8 r" V8 W& \8 G( w8 N6 b                          ' `& v4 U, n5 I2 _  W0 \: w4 u2 K* y
             至于人类反馈的强化学习(RLHF)和提示构建,操作上也与ChatGPT大差不差。2 x7 A7 ~, `0 E6 t6 B0 A
                          ) W0 k  ?* Y& }* ~# n3 |
             随后是百度提出的、用于进一步改善模型效果的技术。
0 o, n" m& ]* ^9 \) V9 ~& c             知识增强,包括知识内化和知识外用两个部分。其中,知识内化即将知识“渗透”进模型参数中;知识外用指的是模型可以直接使用外部的知识。
3 I  h5 x5 F1 J                          
$ y) j; y) b% H1 ?9 s3 F  H             检索增强,则与百度搜索引擎积累的检索技术有关。& a6 R7 q( o$ Y
             百度将把检索技术和生成技术结合起来,先对内容进行检索后,将比较有用的部分用于生成,再整合输出结果:7 g7 c1 H  d  K$ o9 H
                          5 O" e7 F. k, _' k8 L
             最后是对话增强部分,包括之前百度积累的记忆机制、上下文理解和对话规划等技术:
  e4 d1 E5 V# a- G                          
% _" S: V" g, E+ ^             概括来看,文心一言表现出的能力,被李彦宏称为“智能涌现”:
, I# c' v2 g5 P             当参数达到千亿量级,训练语料达到足够多的情况下,这种现象就会发生。
3 ~/ Y1 o1 h- s  u9 V  L& G0 Q             目前,百度拥有的AI技术可以分为四个部分,芯片(昆仑芯)、框架(飞桨)、模型(文心)和应用。
* |  u) e/ o7 j5 l: r' a+ Q: l             之所以软硬件都要布局,百度称,是为了降低成本
) O5 ]! T( X0 f) n$ ~" Q             生成式AI需求的算力非常高,费用相当昂贵。
9 @7 _7 U9 v5 U6 v             因此,如果在四层架构之间相互进行协同优化,就能让它的效率比别人更高,从而显著降低成本。0 F- T5 T& k' n
             李彦宏认为,这也正是百度的优势所在:- N; P( h/ R( Q3 i: T, M
             四层都有领先产品的公司,绝无仅有。
4 v; k4 M  b- p3 o. K6 g: y                          9 S% i! B  g0 [& x
             这次文心大模型背后的硬件算力,也是通过百度智能云提供服务。2 p0 ~, q0 k' Y: d: C- V& D& K
             目前,文心一言已经接入百度搜索,目的在于提升搜索资源效率。# J& _, x  L3 ]  ?
             同时,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。- a$ m# \: n4 q4 o, [( m
                          7 R2 l/ i* b) x+ A' {! f
             网友:看来还不用提前退休
0 c' _: s* v% I$ R             截至发稿,百度港股股价在一波明显下跌之后,有所回弹。3 W6 Q, d9 q9 n7 V3 r7 |5 B) R
                          8 P0 `: |% Z4 Q" N. Q
             发布会结束,网友反应最多的是“提前录制有点败好感”:
# d# `4 @  a, X3 r/ j2 Y) j8 }                          ( ^9 \2 p" h$ z" X
                          ( Y& V  C3 d: d  ^" T- ]
             对于这一点,李彦宏的解释是,给出的问题都比较长,为了节约现场时间,所以才用了提前录制的形式。8 |; {( C5 Z& G7 n0 R
             还有不少网友对文心一言展示出的能力不太满意。有人调侃,看完之后感觉“提前退休的日子看起来还可以缓一缓”:  m' [* e1 o, }: P
                          ! h1 N/ U1 [& a0 n" k
             离GPT-4还差了20个老胡。
: ?8 W% h: z' H: J; X% |                          1 F) y3 z0 d$ l4 a4 Z
             还有网友感觉,文心一言的发布会像极了毕业答辩的自己(doge):/ Z; U1 v5 ?6 n  e
                          
: U" g% C1 s, Z& `1 G0 C             不过也有网友表示,希望能给国产产品一点时间一点耐心。) [2 _, M  `3 K/ F, B! N$ a" b# ?
                          0 q+ P1 _+ o) P. b
             发布会末尾,王海峰宣布,文心一言将从今天开始对外进行测试,包括个人用户和企业用户。
! W% z; r1 J3 o. _/ P4 z) G             是骡子是马,相信接下来,会得到更多验证。3 Z2 ]. E% Q1 [: R, O7 y9 v
             One More Thing
0 D9 U) J0 U- f% C; b7 Y             对了,有网友表示,已经拿到了文心一言的内测资格:9 {, \2 y: C0 |2 ]2 }
             你好,感谢您体验文心一言,体验地址:
  `: R$ ~2 e$ g4 I9 q4 H             https://yiyan.baidu.com/welcome,希望您在体验当中给予更多意见,文心一言邀请码:KFCVME50RMB,2023年3月16日24:00前有效。
, @; ]9 O/ V2 i             嗯,万物疯狂星期四(手动狗头)。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-3-19 10:39 , Processed in 0.040283 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表