|
|
; T/ o3 x2 B8 ^" T, U( n
- T) i) n; K1 J+ y国内的大模型还在路上,需要给他们成长的时间。4 X5 e% s/ r( }3 [+ u5 v. W
来源|多知网; |5 T* d. m/ u) d+ P8 c% c- N9 }
作者 |王上
1 k) f% w5 a5 w图片来源 | 言之画6 ^$ s) h; `/ s
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。", F. m7 b- b& s, W
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。/ m% |- {* o, P4 w5 L
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。6 t' V' P+ b6 N7 [
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。+ j3 b8 E' @; ?5 a9 P( F
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。7 B5 F y$ h4 I1 ]$ S- m* o
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
4 o* h: A! ~- Z5 R* D) L3 f通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
% s+ P" J7 e) O8 x2 n: z0 X. |01/ k; g J% C, J' s
" 作为出卷人 ":题目正常、不算偏怪难3 e9 s1 Q- | u% j8 l' X0 J: ~
; s- ?, f4 X8 Q- u! [ m/ d( q. i万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
. ~* b5 V7 L3 _% b; t7 z( l/ [* r, @# f* y9 `- L. E4 @
( ?% Q' q& O J5 ?; ^9 r, ~3 P
& Q1 Q& B0 h5 d* X0 `9 u
& ]7 _& t, \7 f" g6 w1 k2 d( u. p
$ S! K" k% E8 ~. q1 Y) B3 r
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。$ C k1 x) o7 ^% m5 M; g% \
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。4 c% l l' A% y( Y
来看他们下面的作答情况——) d; l4 l# U! j" R4 ?
02
4 d H1 p) A7 \0 w! f. ]翻译题目+ `, G" Z$ G$ n7 y% ~% G0 l- a
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
6 K6 T5 `8 m7 ^" U; k
4 d* ~% f3 ^% N1 h" T" u; P1 [# `4 U- P* G2 M5 S
) W; f; @4 M# d6 U! y' ?+ G6 |8 R
: l& T4 k$ j, B+ J& ~) l, h4 S8 d7 [# n& @; c
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。- c2 _) E* f" ^1 E
来看通义千问出的这道翻译题目:
& T N- r# ?; I) \' t6 D, F! \, U( U* \% g6 s
+ [2 M6 l* R+ Q7 ^6 T% g
9 Q) f% P2 Z- q9 S# U9 B$ j$ \# k7 K, N% s& [2 w( G
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
1 M2 c3 C" j4 d% t要么跟通义千问换一个问法吧,回答如下:. {0 S# t1 z. V* [- l
8 Z1 c9 n) J/ [
# t/ I5 b w4 y/ }6 A5 {5 ~- y) s* Q/ i7 X# ^# o3 R5 `! @6 l& m
越来越离谱了。。
" z% J. t( R: L. t( p$ r( w( k8 Y3 v5 n; W( p. n3 [ E
% |! s7 y& o j+ c9 M# W8 M
9 y# ^* d. b \
. ?. V. ]* W: U1 x0 T3 {6 w/ n4 {1 Z& Q6 a9 t! {9 u
通义千问多轮对话的能力堪忧……* E* n0 h7 Y7 K4 l+ O
03
( C+ w" o, g, U数学题目
|+ e! D$ w0 W! M$ B来看初中的数学题:
8 }# q6 ?6 {0 M; h1 j# s3 f. C2 p/ |- i% F% w7 U/ z. h3 K
) s; m( n7 h2 s- N
2 @/ }" ]4 m9 U2 I0 t, e7 n
" n, r/ X p; J% @1 U. f9 V1 j+ D' k( ]: M9 z9 ]
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
# r) j3 q E& T4 a2 W! G这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
O6 y+ r8 a; \ K3 N# ?通义千问出的初中数学题目:
( m9 g% a3 b9 k7 }( a4 \2 w, f) Q# T
+ I# J7 D& L3 r
! b4 Q& R1 J+ F- h, t- o# R; |$ q- I4 K" n
) A9 x8 p3 R. k7 X- R
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
$ E* A+ ?7 w& u! `* R有点不死心,再次问了文心一言:
6 f/ l. P' q A8 G% m# C- r7 S" K h$ s; C6 e8 e; r
% C$ f- i. @ e; v! W' m
f8 l( X7 U* v2 g8 |7 \ D9 i我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。2 m- p$ p# g/ z- \+ F
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:; q- B6 b7 s9 I+ Z( \
/ n4 ]5 @0 \+ Q1 t5 N2 W9 X2 W0 C6 f
! J3 Y" m+ c+ Q/ ~1 u这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~# Y5 P% D: q1 b2 b- B. ^
045 O1 ^7 b6 b( H
写作题目1 f. M. K1 b o
来看文心一言出的写作题目,双方的作答情况:
- @6 I" g: [) f# I$ t
7 _ m* S* u0 U3 _: P" ^* b9 S+ k; U4 Q+ v1 @$ R2 z: X# j, m
( c3 {7 s+ q3 F, ^7 q3 Q7 @
5 N2 P: j5 Y; T+ g7 R* u! O& J6 K K. I0 T
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。7 l5 g: Z4 a, M% P! v0 H6 q$ d$ p' x
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
' u, {8 d, R( B r& S8 |来看通义千问出的作文题目,双方的作答情况:
# x8 ~4 Z2 B& R0 r! |! y5 r
! q3 I8 N+ ^6 C! U( C, f' e5 \) a) @% C& N$ v. D7 j+ D$ F" g: r
5 }# \/ n' [; C1 a4 U: }4 _
# e( }3 Z* K1 h4 [0 T) L. o) N/ S. K% Y& `4 {3 K0 a
: O& e% ^! t" e
$ p! a1 ]0 y: F
8 G3 E9 j$ \; c1 r6 q/ t9 T
: ]9 \8 f& u2 v `( a4 J3 E$ d. o
7 C! Y; P( T. h& z; f/ x( V- i3 D9 I9 \7 E
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。; ]: p f( F* }! ^% t, l
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。0 }# a; {) z; e3 A
05' Z; f6 x: n+ K
代码生成
+ O+ M* h0 H0 w( o4 s/ v9 e5 A来看代码生成的相关题目:
+ s" ^( S5 W1 @ C* l2 `
- g. ]0 D- k: b0 ]$ w) ^( ]
( {% s7 I* P" p V4 n+ `! k) [. W- O! ~% _ G/ A6 x
% \; R, h7 [6 H9 `. b
0 k$ Z& L& P& ^1 F3 p点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~1 l% ~( t2 n% p
再来看通义千问出的这道代码生成题目,二者作答情况:
( x' b: ~( z: @, }$ m, B2 [6 k% ~# C! W/ g V2 O
3 _) @$ B" ~0 G, G
! F" x" J( y6 n1 {: S
: c; B' f2 c0 J- U
# S4 F) g. p( r, l$ f) J7 z点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
& h2 {4 w1 t( d) M8 C06+ l0 L# Z( Q7 y* {( j
心理辅导+ B9 L! ^, i( R
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
% {/ V1 y6 M+ N0 H' G I4 B3 Y! g# a& ~8 m
3 ~# d6 s, C) r4 H5 T8 N
& ~; J; x% C4 T; T" V! [* p/ S% e0 N$ s( W L; e/ }7 J4 H w9 b
. w5 |% } a* g" i' V! H3 o
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
; E4 `+ ?2 P3 x1 ^5 T& c& S最后一道题目,由通义千问提出的问题,看看双方的解答:
. E7 C" s+ h" W% l' Z8 `7 ]' h8 p8 f/ L c' l' S) l( p$ H* n
B" I) m% X5 Z$ Z0 Q0 i3 {
8 p0 ~. c7 O. O
7 S1 H6 u$ j) m3 U, o# W( K
, Q5 S+ w3 K7 S. p% m' _3 X! N- M- e+ {$ Q3 i# {0 `
' o0 T/ H7 z; e. k# u
8 [3 Y. n8 G0 t9 S" i7 K4 p9 O" T3 J* K. {& C' j
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。. H/ V, K( _: [! j- o* `0 ^
07- a: n0 c0 d: b. Q7 M- M, ]; N: Z
总结
7 m6 k% ^6 Q# J5 J6 y% p在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
7 L" Y7 o- t$ g: U. g6 V针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
; b+ p: U1 R0 I( ^9 W* o3 h在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
8 l! Q: u: c, @4 y% r在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
0 P$ _* p0 @1 \. C; M7 E在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。' ^/ R8 w6 Q' {( @1 `
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。# x! s9 r7 N7 {( v
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
! [9 K$ Q! i w; R$ V6 ?从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。' h) E. {2 i* B. f
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。, j! }4 i+ {5 [( {* V
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
* Q: J* G3 m. E) y( W% Q+ ~这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。& K! T3 T" r# C; j* Q
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。5 S" z0 q# ~8 C1 G7 q3 b
END, Z( ]2 [% @5 C+ F1 x3 `
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|