|
|
0 G" @- w7 ?- R( W8 q9 n! @/ F. {: |) g2 @7 E% w% q- P( p8 t
国内的大模型还在路上,需要给他们成长的时间。& D \ a( S8 x5 m% T* s+ g/ `
来源|多知网
4 r- X+ |! n: M& i: j. ~$ _作者 |王上% P* l- ^* p6 m% \; z
图片来源 | 言之画
f3 x; A1 N; \" J; V比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
N5 q4 S! J8 W$ t& f今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。0 H6 Z/ o; @, M8 w
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
8 X9 ?) J% O+ a; @( W在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。 S7 n1 ^" w" b5 I7 J9 F
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。% l2 Z( m* r: S% m% ?2 c5 n
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
0 G+ x$ V- l, @4 E通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
7 G3 @$ x# e. K3 c: `3 [01 N) R! i7 z6 U2 a3 z) E
" 作为出卷人 ":题目正常、不算偏怪难' M' U( `5 i% F* o1 h. Q# t/ X
0 G; I1 k4 G7 A1 e
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
& W! S& A5 x, j$ B( R2 C9 V7 F7 c- P6 p8 Y0 i& N
( ?7 h7 e0 A( w* l4 C5 f9 b
9 l$ c1 _1 U8 P4 M; n$ s
1 R# d7 V5 m/ _( E' |1 }/ e' G; H; R
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
9 u& { ]0 w3 }- P7 P5 c4 q对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
, R- S) U& M0 o2 c3 T来看他们下面的作答情况——" f6 ~! G, y7 ~" h7 Z2 k) x
02
$ Y% ]/ e, Z0 q( }翻译题目" r j0 R: R4 S! C
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
8 c9 ?' e) o4 p5 N- t, E) h' L1 N7 I1 {$ V: V
8 x( U1 H% G" T7 b6 b
" h3 m& A& J$ ~9 G
' I3 N/ H5 ~5 ?7 R! [7 O# [. o8 U0 a+ ^5 v) @ T) g
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。! ?. q- } J0 Y5 Z' w! q% r
来看通义千问出的这道翻译题目:
. ^! `4 S0 e' U/ F5 s6 _' i
+ I( C) K' Q4 x( u% `1 p) o }1 ] a' B; J2 ?0 ?' j; s
+ u' n5 U- Q$ ~0 q% L, C+ Q
2 V8 K; ~( l M+ B0 R& J点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
% X: v6 A5 ?8 a' N0 L' W要么跟通义千问换一个问法吧,回答如下:
7 N e' y, w& p d+ f7 N4 K7 S% | T
/ w! F* n6 [ f; X
% c: q; T' e0 z越来越离谱了。。! [" Q0 x$ H% B9 X* m' _9 ~
5 m! P7 @4 z) u& q: j
& D4 U6 Z- n0 N% _
" e+ F( P2 [( {" h( f0 Y: ]+ v8 x \" B) t8 ~
, G, E2 R# W7 t9 f. d# c通义千问多轮对话的能力堪忧……
( x( p% E2 }7 |030 }% t) \. W- H$ c) k
数学题目/ z8 h2 Q; y, \( B/ X0 C3 _2 y
来看初中的数学题:
& {9 z7 x A5 M8 V9 u6 o& ?* W( K# m* E/ M- K( {
) }+ P+ n' R y4 P
9 _8 \ A% N2 [/ I$ f( m4 m& F) X
- @* x8 |! l- A( n3 u/ h% f8 i' f0 H( _% J" ^( k4 G) \
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?: d. D/ K$ O9 `2 `( `% G! N& I9 e; B
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。, W" ^$ b4 ]7 D4 e! _! U2 W
通义千问出的初中数学题目:
, j8 y. f5 q" M$ j' k) p/ I+ C; w2 v P% G; b3 Y
& y/ c2 g: J, }& B& I
9 v, Z* L9 G# T' \- [& u6 X
) y% S9 Z! B6 l: g$ j
/ {: z/ A3 p# l8 x点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
' D. R2 O# D9 _2 [0 R7 \8 D x有点不死心,再次问了文心一言:
4 y {% m5 K7 m, G, u3 r3 c4 K& a' I/ g1 R& z: S
# U4 r1 V/ w p. |" F) a. e+ p& N. m Q2 c
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。8 V" w7 I) ?1 m6 G& ]5 i& V4 T
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:; ^5 E1 `: |+ n* v
4 J" }6 y! C) D% Z
& y& S" j+ K! |" W& |4 U0 V) s+ |1 A+ L0 P
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
% s, W! R9 M& W& N04
[& u$ i! V9 x0 r! Z写作题目8 s" c4 o2 _. Q' z7 @
来看文心一言出的写作题目,双方的作答情况:
, U! t+ Q& ?" f! _
, S8 a* p! n* | o
+ L9 u7 m3 r% g- V- _7 }
3 `! H: }, i2 K3 H2 T$ M5 h4 x" p6 o/ ~! x1 S5 y
# O! ?( e+ s) t; \点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。) v1 R: c* I8 O1 R- k) Q8 s
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
+ F2 n( U' B7 P9 A& w8 T4 `9 P8 h: \来看通义千问出的作文题目,双方的作答情况: S% U; M, r: J5 A7 |* v* m
; B9 o# i, ^/ Q
. s' S+ \: H# i$ ?
! u% \" x) v c- |% ?: v4 A( \/ L: U) }% C0 Q r7 w% H
: ?2 l- p, J) |: [' j9 I, J) H0 G2 V% K; g$ J% T+ Z
; b( [8 \- q6 g, F
' p5 [% q3 }: r& \
9 r: [1 x' E9 [, H% K* x x9 l2 I
2 f& P& x, t0 y+ ^+ b1 ~& g; E" Z
, E2 I+ q, O4 o" _0 ?8 Y点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。, d3 p! w* B7 p
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
- h7 r- b ^3 z$ t! e% [ O7 u050 _. f8 O& q2 ? q. V5 x W* Z
代码生成/ [5 U+ ~( R2 `
来看代码生成的相关题目:3 J) y8 T2 K: ^/ L. R
) q8 ?. O/ o! b
2 _3 C0 t6 c4 ~# C# _/ }, L, G. \- A( s" S2 S
& N0 L8 |/ |3 P M, } u4 \7 O
9 @- b: n1 f, k
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~- k* f: B" [7 L
再来看通义千问出的这道代码生成题目,二者作答情况:8 ]: R1 x: {, s! a
0 S. q: V$ s, w8 f3 K X7 K$ j: s/ X. M; {; L
! m" O0 i' M: v* i9 v# C+ O. G; X; u: |! s- w) U r
5 V; D( {8 Q( c- U
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"% h" _$ b/ p2 d! z4 }1 S9 p: v
06+ e; }' k3 r& z ?) y# j$ r3 [. Y
心理辅导3 }2 z) W- [ }) @9 g5 P
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:+ X% Y; L n/ ]" ^2 |4 Q
D* {/ C9 q# B0 B7 Y
0 G5 Z* u0 |. @3 Q% q! l9 w
6 `3 o6 H+ u7 t
0 a7 F3 n% i6 Q& F9 B# f' h) ?2 m$ E( X5 V/ _- R+ t" a/ R
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。9 \8 `. {: x/ `/ L$ @
最后一道题目,由通义千问提出的问题,看看双方的解答:
' x* v' c6 ], _+ P- Y9 J! P3 s! g; e: W! ?! ?
0 {2 K2 Z% y$ V3 b, F+ ?; G W) u
3 y; L% |2 f6 o" }) s, M( \
# G4 ~7 c' v4 S$ O; ^7 V7 |; h. f' g. R
5 T# K- ] D" B% i) p
: P9 X$ y* W) V( t9 g7 D
& k* l9 N& ]3 i3 [& j H
8 ` K7 t8 ^* C; E4 }7 u- _: ?, S点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
5 w$ v6 J/ H. E078 O+ G" u# x3 v( B: n- _$ l
总结2 c* n6 r+ g$ l% }0 P' D
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。- z! ?" P7 w8 Y2 X$ \" }# o. S0 b
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。% z/ ~& k8 |% o) v( m
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
: f+ V. X( N' N2 y& J4 p6 j在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。: ` A' l' \! s7 v' a* y
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。/ B- A9 r$ e( k w" v8 ?- \6 D
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。! \# \- a( ] @+ M0 m3 S% ~+ B
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
# T# c& P3 x/ G% l' q) T从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
! C5 a9 h; U, y# e# N% s从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。5 [# ^1 \( @ g
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
; s' g6 w; ?) v W9 a这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
5 U7 Z% d6 | E0 j F8 r1 ?盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
% L, z/ T6 d$ m: MEND
0 Q8 J/ D% M" ?8 A本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|