|
|
* H$ }! ]* K6 s- `* M
0 r2 N$ j' e+ J; q国内的大模型还在路上,需要给他们成长的时间。
0 u" `+ C. J% v来源|多知网
6 G* [" R9 x2 V% A# i z" u/ m作者 |王上
+ D& V2 L3 N. Z; s- d图片来源 | 言之画
7 L" H! w! Z8 N比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"! Z1 p% C; f& T7 W0 e9 l; z
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
- u' B6 j' s% _4 K/ D! t' H1 q未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。3 G% E" d8 c j, e7 @
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
6 ]; \" Y5 l R( G6 V% m$ x3 M R那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。+ _, i7 P9 p+ c$ m+ ?, W+ S
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
; l% P G2 I$ b) q+ h- f通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
" ?, F5 e9 S+ U% N( J01
' ]" H) T5 k' n3 w, F- K " 作为出卷人 ":题目正常、不算偏怪难
; p' ?: s1 \. t9 b' `) ~- f; j; @& G( l: k$ q# n( O) X& O
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
6 [# G- V& T Z
% m# ^9 X7 e. Y; s' Y# H+ J' J T+ D8 q3 }( I8 d* [: Y
- b4 K+ }4 T$ x6 ~
6 d: w% E/ p% r% i6 D6 u9 Q; ~. G: v4 H2 R
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。5 h) N1 O, T! t
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
! r8 B% Z, d0 y4 @4 K来看他们下面的作答情况——0 k* q+ I1 x% ?" n* x" ^
02
4 G3 h# G6 L/ J7 K! W$ w翻译题目# L8 R: L7 f% P' g. S8 u* A5 [
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
/ V. d2 X( _% _! n! e& R( ]% C0 q0 \
; S/ {/ _5 Z; W' i# e
]9 n& l: k* P, ^* P
8 \9 C9 z3 Y* c) I) ?
8 F, i; x. z. j
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。8 m0 B( c2 E, b8 y; G7 F
来看通义千问出的这道翻译题目:
& ^6 h: L4 a- r: r- c8 t2 T
7 Q$ q, A0 Y! V8 W/ m/ J
$ R7 J4 Q# R1 ~, ^! G
4 \* [8 b8 I3 o- R+ t4 S- J% G0 _* M" F' G4 c; p# N
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
% F' |( r( B3 o要么跟通义千问换一个问法吧,回答如下:
6 Z9 z1 l, a d7 p, Z3 n3 L# l/ n4 O
3 t2 Z- Z" ?( w7 C. o0 a
4 m# g( E2 c+ s+ H越来越离谱了。。# i% R8 @2 F" w/ Y% C% b% n. @$ B
$ k: c' ~8 N' k7 `3 C5 `
2 {3 _( D" m% G4 `) ?3 n' T0 A& o t
' f t) v6 m3 m/ e- _# Z
/ X2 X y4 O3 E! _ ~
通义千问多轮对话的能力堪忧……/ H3 e1 h+ W/ [( y" ^! A
032 Q$ Y) v' ? j& F# q! X; N
数学题目6 Z/ L# r1 n" j
来看初中的数学题:( J6 F6 Z0 g8 q3 O; }
0 K6 l2 k( L$ m+ c$ G% ? T0 L; Q& \" E1 t
+ }# n# k, T/ E8 H+ G6 S7 \% \
5 M3 R8 f/ Y0 \0 s# `
4 q7 V" |2 w2 W" a. T- K, ?点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
; e/ ^; T' x& ^这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。. A' i; U5 D0 o
通义千问出的初中数学题目:
& {4 {6 E: ~) w! t n
* s% c# S* q3 U1 A! L% m: p$ e1 f L- Y7 s( r0 D) R: _4 O/ d
* E0 c# `; x% Y; [ G+ f( [5 A
: n8 T- U; D* m# V- N) B
7 ^, o; l6 t4 `1 q' E3 X9 U点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
! ?0 Y& N/ W5 C3 }) o, I" J! }7 o- g有点不死心,再次问了文心一言:
) T2 w5 x' p& `) }8 T/ ~. g# ~& Y* t }3 s7 `7 @% ~& j) H; Y
. ?$ M1 U" i: g; A* g* V
3 u6 v8 w8 f8 h3 z: I! U8 ] e) U
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。0 Y, l* j3 d* c, m
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
$ k, \1 T+ j7 k% I5 _4 e3 j% W g( X9 B8 Y9 M
5 w2 u+ _& D$ N9 Q: `. t, P0 f- K3 W% g- x
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~4 O2 ~$ K/ h ]' D; l
04
( P4 J0 {2 l' h9 D写作题目
$ T9 P* d* o, k" U8 A: r来看文心一言出的写作题目,双方的作答情况:
- d5 f3 \5 e: S% R2 w
8 U6 y; M$ G4 ^# o! @1 |
5 L2 G; i/ R, R0 O2 d
3 D4 t- P- o0 R+ D, B1 b
1 k1 ]3 c* o& e# F; }1 P5 O3 w5 U8 h5 a0 ^( {/ |" H. Z
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
+ \ b! b5 N; Y再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
) Z3 W- A# i3 V) O来看通义千问出的作文题目,双方的作答情况:9 w; v& i7 s6 D: k7 t6 x
/ w/ |% B$ w1 y4 V
6 C2 ]+ n0 `. v8 B, c0 t0 n/ m8 ]+ X
" t3 t# q- f+ J+ b/ b/ j) k. e% n# y8 Q4 f
% c) T8 ], E+ s& X" C& T% Z" H! u
# f% g) s9 w: `7 W- C. q! V; Q/ E$ D& A) F2 `- I
# I0 {+ F* T6 [) N7 Q
4 Q N2 ^! i0 S8 W
7 Q z. `( Z/ X1 S; W2 H点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
3 L8 o% E" @* v# E1 n对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
6 D: b, u2 a" O. m w+ @7 p05
$ d* I5 a& g! m& F) r代码生成% u1 M/ H: x+ |! U6 q( z, z
来看代码生成的相关题目:
) r8 a8 X O$ H! w9 w/ r. P& z2 E% e: b
# j+ }) X0 T8 [( @) x' s
$ B3 y/ V( V2 I/ S. v3 y' p
1 Q. c1 ?; S! c; Z% b7 @. \; p' ^, _+ E5 j ~
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
; F( z0 Z! O3 {1 W& W( B' X9 T再来看通义千问出的这道代码生成题目,二者作答情况:
& m* E7 T/ \8 B3 \ b( K
9 ^# K. m! P7 C: W/ h# D7 y7 F( ^% d# x: t' y& l$ l
: w n* c7 M0 z6 x, e# ~) N# }. O
$ ~9 u) `' a0 A* Z
4 O) l1 S. L. k& O2 @) E# H! u点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"8 i0 o1 ?/ v6 E) Y; [& C" Q, E
06, Q4 Z2 {1 ^ `
心理辅导
6 g1 h2 ^' U3 ~" r/ J最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:8 U* p4 j( q4 c$ t0 i- @8 W* w
3 D3 g( i. i# l# P4 v! k8 u) {, s
' @2 ~+ z1 J9 u2 e7 D! l, s
! v! w$ s/ K7 x0 i4 u6 K h5 @; }; o; a& x6 o9 E4 ^
5 t {. S! k- {$ M& N* o
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
" k5 K7 C" h" l4 l/ v& N最后一道题目,由通义千问提出的问题,看看双方的解答:
7 c% k/ y. V2 l, a2 Q# S; E' T
, I# ^; s; |. v* }: E
) a ?, {' {) c: V: K; ]4 x9 P; i$ u. d' B
r, i# m: G& N( E, l
; ?' T8 y. H; F5 M. H! U; r! D
5 T9 B' _' q V+ Z' z
" d. H0 @) T7 I; l5 q# ]# c2 @! y6 I/ x9 B1 G# |2 M) |
/ O& g/ @& U, {, C8 H
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。& F2 I+ t7 R6 j+ j
07
& F& i6 Y- {% y/ \, R+ S总结8 l) h; q- q4 z. b) K
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。& P' _9 Z/ m, O
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。: W9 v' F y+ f1 L2 V) }7 v
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。; t% o& u5 I, Y; s9 p7 u
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。5 m/ x/ X) K! P3 W" w. ?( x: l3 P
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。! }% a& Y B& M6 r
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。' ], V$ r' P& ]" x7 v9 c6 y
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
6 t, g8 e+ M- q6 ?# X从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。4 B6 w7 I& H& \/ j# B
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。 ^6 _, S [6 ^' _1 {
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。) `. J* ]# N) {$ s
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
0 i* @& v& a9 v5 ?( o2 v盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
# X! J) P, S2 N0 sEND8 D( K$ E/ j5 C- x# V1 ~. G" z
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|