|
7 ?0 p5 f0 u! [$ d* p
4 U8 z% x: m0 v+ B: N# n: V3 e国内的大模型还在路上,需要给他们成长的时间。
* w) C9 u) C& n/ F- @) j' ~) z来源|多知网8 [2 K1 u, E+ E7 z; ?
作者 |王上
% [% a& s* v- H图片来源 | 言之画
; \) b$ E: Q. E- n比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"; O8 v% Y8 _8 f) |3 G9 e+ ~
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。% l: [0 _ o3 e7 j- |' z& t
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。- U0 k$ S& l: ~: U8 r: x
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。3 ]6 A8 {7 _' [& x6 c. H
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
1 w" w+ y" }) u7 I4 T' H6 M我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。/ X" ]( `. F9 c
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
6 F5 ?2 m8 B/ d- k01
5 E2 B3 l U9 H " 作为出卷人 ":题目正常、不算偏怪难/ ?) {+ `) h4 Y; J8 Y- d
" ~# Q H: \" p" o# z2 ^ M" V万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:: r- v, |& T- l
8 x' ^# Q0 ], ^( d: n! B4 [) ]" j! B' Q m! j; z( ~
3 v: z' P* p7 g8 f- D
; V3 f, n! A8 l0 i2 i8 E w4 x+ _1 {* m2 D9 T9 b7 r
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。 @9 G9 n( | F% v+ g
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
9 `; B% N& }, ]3 H. p2 a- W来看他们下面的作答情况——
5 U2 x0 K* X' F4 M* t8 k4 q- b/ W025 O7 A3 ~" e) O$ R/ I
翻译题目( z. |' x% j0 a" y" l H
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
2 H1 F6 E0 s* F2 p" T/ F
( h) h+ J- @$ W
3 w+ f# V2 o% d4 ?# {, i( _; T9 ]9 W/ X
) ]5 V! t, `5 F0 G6 `
& e/ H# M2 t: C点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
; c. m* R0 z# b来看通义千问出的这道翻译题目:, b' f) `" @5 G. l% z$ P
0 @! W8 L6 K3 C7 l% N; I
0 @: \ F4 e t% N8 w
8 }7 f9 b) Z! l3 ]. c: v; ]
7 \4 W/ s: L2 G点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。" Q+ E4 M1 x# Z8 i+ v! r4 o
要么跟通义千问换一个问法吧,回答如下:
7 C3 r% g! `* H: L9 Y" y- @& c, X% m7 Y/ M+ Y! y
- }& d6 d! B- |6 d* q
) E5 n! O9 j8 D' u越来越离谱了。。" A8 V3 H! A6 _$ ~/ A
0 o/ \8 c- q: U1 t8 F' b
9 u L# G& E6 U0 S8 W+ Q- {& ~2 l
9 f- ]6 F. s4 N7 K4 F: I1 q d) B3 B8 Z: b
9 ?( g2 n' L2 }. i+ K7 J0 X. ?通义千问多轮对话的能力堪忧……+ S' h- m# O- r ?' f
03& \8 }$ w# L6 v# B* B
数学题目
) A' T: C9 D& }来看初中的数学题:
7 h' d( H) u: s6 c' R: I4 q" y' r/ z4 q9 l
H' a5 J% g/ S N/ ~: e
' e# @2 `* m( ^4 B0 K+ } I9 m2 d, R8 z
: J8 {9 [: q, Z+ f+ T点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
. Y/ Q& `# ^9 S3 S这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
8 S8 R% j2 \- |* p- d2 t通义千问出的初中数学题目:
2 E* U) f" o8 L4 d
% M# L1 S/ y+ w6 F ?7 ^( |5 h, |9 V
7 v5 j; r, M/ w2 j9 P
- M! n4 C( n2 C. J T$ d6 k' J1 q
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
9 t5 P7 b. _* Y% O5 {有点不死心,再次问了文心一言:
* i+ d A) \$ |+ H7 {/ j9 _% D' B" J7 i
5 }4 N; c* c5 Y4 L: X- c
8 G9 ~8 z" |( ~6 \3 w: S我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
! U) J# x8 x0 Y9 [# b5 E还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:! Y/ b' p* i2 r, K2 [ ?! `" M
# ?; t; g; s% l3 r) K' B
7 V% ~7 n7 P1 D: k9 a+ s+ Y4 s, O4 |# n$ X: p6 }, u
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~: q7 }/ M: G" O3 G0 ?1 x
04
0 M+ s3 d8 V" D3 z写作题目
, y6 T/ y9 V4 {来看文心一言出的写作题目,双方的作答情况:: s( M* A/ i) O# R# E3 t p0 L
! a6 W. b( p( @! l# c# w, _/ w* d* }$ ^1 q8 }# i
5 [1 t9 |4 a7 E7 W1 D# H+ \
, A* W! C6 q& U7 W5 R. S. `, I
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。! U% V% n j' f" n
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
1 i: T& R6 i6 A3 S2 z( k来看通义千问出的作文题目,双方的作答情况:
' z. ]/ e" o8 X
7 W7 v3 E. @% m0 p+ W+ E5 R7 J
# Y' t9 V; b. U* a9 V- N( q3 ~) Y3 W5 v0 w* L% ^
2 \* ~8 b# `9 B
# a2 {! x0 v$ x) X9 s4 G# t% C
8 ?8 o6 W% R9 \. {, z! r4 `0 j" E( A$ M
* J; u6 {7 h' F r9 p1 H; ]8 T& l3 [+ n
& x* z5 j5 a, J8 y+ C) _$ T
( J9 u9 h( s' g8 S8 Q7 ?点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
3 U* B, u) L; q: Y. Z& t对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。/ M8 y: [, V( l( s/ H
050 M2 ~: D( b: l: W0 d4 v( X
代码生成1 r) ~$ C% r+ j k: v; \
来看代码生成的相关题目:
5 }1 g& L$ n3 o: f) p" g2 C" T5 m
& L( Z/ @- x1 a1 E% C1 f; x7 @5 k' ^) w# T
4 X3 j: A& n9 G ~+ d5 W' c; h. L- |8 H0 c
# [" B( B! M0 s6 G, V
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~& C) b5 p1 Q$ C% C% r2 x+ [1 _
再来看通义千问出的这道代码生成题目,二者作答情况:; p! V5 L1 A: V( V2 T1 |/ Q
, d! u$ n* ]2 z; x8 X# R( a
3 x' P, k: H$ l! L+ y: t3 H8 ?+ B
0 O/ s5 y8 S: \2 }
# k0 @; b' @8 y7 f1 k
8 M2 n3 H8 B1 t$ Q6 m% ^点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
$ Z! F1 `, ?" T/ [! V06
1 b. [, B7 [) X' a5 a: b/ p9 u心理辅导
% o) q) ^( f: b$ ]最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:& T$ x! w# j& C. x& T }
3 v" f( f; }3 S" T
0 {# x. U- B0 j# i' q' z3 t
' F& }5 t9 e! x, a6 M0 _
9 I6 L7 N1 l m3 B, ^7 I+ F" H& v6 F* R6 J
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
6 X+ `' Y0 w e) |! J. g/ N9 [9 L最后一道题目,由通义千问提出的问题,看看双方的解答:
8 t5 u a5 C/ U; L
7 e: U+ K5 H6 c5 {& E( b( m' Y* U, [; W
$ q, ^, b1 i: ?8 J4 ^5 E+ L7 |/ g Z5 k$ V0 q
2 |( E, }. j; g# m* L; v
3 h( ?- R. J3 C) d1 i6 E1 l2 G
( X. G5 |7 v- g' r- J( Z4 n: O& i1 T$ B, R8 w% ~
5 {; p) P, k. H0 A' O6 Z点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。* C Y1 r1 v* {, O; x
07
. Y& p% B# _; _( i+ J! I总结
9 y8 j- N: j5 }4 l$ x在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
% X% e( J$ _6 B$ }5 D5 F针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。7 Z0 H% L$ }9 t% u3 E
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
9 b5 H0 z9 U0 j* {3 @, R在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
# T3 q5 @0 U* @/ J/ B在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
3 J8 ]( j+ g& i6 S9 A在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
! |# B3 T4 ^- C/ \* s% R从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。3 b; F& C- }; V7 L! L
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。, w1 K8 ]; J) W, E+ m% K
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。! Q' q- c: t, j/ n5 z
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。. @1 {8 P4 S8 q+ Q9 N8 S1 _: g
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
0 K% @5 `3 ^4 l9 {$ d盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
5 k2 J; \, B9 nEND
3 _* @% Q" V' G4 s: W1 q0 O本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|