|
|
; T6 A# G9 u4 G8 j
n2 G& f7 z% o, y! R( p; R; z
国内的大模型还在路上,需要给他们成长的时间。9 h1 n; @5 Z' f# a$ `
来源|多知网
& h! Q0 K9 l3 ?$ V$ X0 g作者 |王上1 r2 g( d: y6 H
图片来源 | 言之画
! ?+ E' Y1 t7 L. {4 _" s比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
4 w6 y6 d# v5 l) |, \7 x' M今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
7 ]% u P6 a+ U6 a$ \" B. f未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。. |! U( r0 A: o* Q3 d8 i
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
# s8 m, ~# @' M; {, A, | ^那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。4 h7 S$ l4 ?6 k' X, r% s
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。* t' @2 }; l1 ~
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
, _ I! j8 [ j9 K01
1 _( ~) \) q5 B3 M4 O9 ]9 @ " 作为出卷人 ":题目正常、不算偏怪难
" X6 n: H' R' i, E6 s7 [( P" X( y: |2 a' A* \5 {; x
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
, l B3 O( S2 b8 ?2 ] h2 L# |, `* e
+ { z/ T! m& I- B2 z& V
0 D, H8 ~ c( y
0 W6 s. P8 H) |( u n
9 @; @0 i5 g6 ?* g% {; H点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
" s. u1 E7 u0 V' U4 D* i ?1 @! L对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。) N! {: O y% X& q- M
来看他们下面的作答情况——- u* u* e D3 T' K
02* R; [5 Y! I4 B" W3 u' z
翻译题目
1 l7 g' M, G* d8 x9 v$ F; p S第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
- s, y, ^3 V3 Q- J5 o% }+ l: m3 d3 h. x
% Y1 A! y+ N* f1 H y2 H7 c- p+ g& e6 U
/ @8 Z, p4 J$ R0 s& Z+ A9 S# y! A1 Q5 a) }; M7 _
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
9 K; J' }; V3 b T! j( _1 l来看通义千问出的这道翻译题目:0 A: U: C) d& ^5 y+ S' z. q9 N
t8 o( m* i* ` y/ m% N: z) F2 q6 m9 d$ i
0 d6 ?( U7 K9 j, u! j& T& E
+ n0 K% D3 A$ c* D6 t: V/ `5 D点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
7 H- N" b' ?" ^1 C要么跟通义千问换一个问法吧,回答如下:3 P1 z% f- c5 R- w" a: U
5 n& J8 q! P4 O( o+ D: g
% h5 M% g) V9 T1 I5 J" v
" i1 L$ w3 O4 C7 Y: L越来越离谱了。。
5 L. n5 r' q. `% j. w6 i0 }4 c2 C q8 ~2 q
" J+ h5 m% }& m) T6 Y, Q9 N% t; y+ ^$ S4 q) z3 `& a' }
4 J5 e4 Z) }3 G5 G5 a$ g. S4 C/ g: R+ L* Y0 I! P$ X8 _5 Q+ k
通义千问多轮对话的能力堪忧……2 M; X, Q s1 W3 _5 Z
03
+ z: r3 U' c6 ~* ^9 a8 d数学题目& W. m+ D/ S( H7 Q+ z
来看初中的数学题:
" Z; b" a( @4 p, u6 U$ u- {! p8 d, |; \5 O& b$ V
% N3 K1 w+ ]+ j) ^" Z2 R
4 Q1 d$ x8 P7 h! |6 O( o/ ~
) B& i9 t0 B4 g/ E6 l
( d6 z- z' v# z2 C& ^点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?0 ~: W0 E1 a2 B) n* J3 P( {6 ^
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
% |" Y% l- u; C2 v p通义千问出的初中数学题目:
7 F3 G+ f4 B0 Y) _4 {0 {( A! H
( [1 ?& f: H! O" }" q/ X" w& \- K( j1 b) r m, x6 Y u! C1 J
; A. k. F2 `8 `0 x3 W$ I8 V `: U
" Z# }% l. r( g2 Y s$ @, J+ ~5 u& i1 [
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
* g+ j0 M% t, U有点不死心,再次问了文心一言:. X8 D3 D$ |. S1 q' [
& O2 F0 s" B% E! p4 Q! H- |/ l( H6 n$ t3 Z
, _/ Z8 S* k# N4 M+ x: h1 j0 r
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
5 d( P, s/ X7 F还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
5 M0 g8 O) x) }9 }
! Z6 g2 }6 ^6 e. u
" \+ }" k- f& _" p- h) y; H7 D
2 n! F: B$ }, f& n/ A4 ] c这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
8 G" g5 V! D. w04
' K2 w0 F5 b p3 F, q写作题目" \5 c4 i4 U7 G6 S& a3 P3 T+ Q
来看文心一言出的写作题目,双方的作答情况:. l. [0 u6 E" ~4 G& i9 n I9 L s
& _/ Z- E) t9 O/ x
! e4 G0 L2 D: |5 f B% \' p: L G3 A5 D8 M# `2 u* n" s
# H) n# p" D0 {& i; Z" _
' v9 l( k% N v- |& p0 Q点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。3 m7 s* ` y' n1 l, q# N
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?3 n+ _6 c# q% I. ]$ w8 C! W
来看通义千问出的作文题目,双方的作答情况:$ ^# ]3 P" C( j/ a0 Q9 }
# B- Z8 T* H O# O* y/ Q9 G8 f% X2 t8 H# f4 o6 |( }) @" \
2 R# M' T% H7 [% H
) t: [6 ^1 @4 | D8 s% V1 l+ J" Y$ S. A; ~2 g0 T3 V
* n% o( u* G5 x( C7 n; z; X
& O1 a: n% u9 `, _0 o2 F; H8 c0 p' h0 A* T* y% A9 {
7 s, u6 N" H$ I9 W* d
# A: G9 Z3 t6 v4 W, R
! G0 z- Y: s8 i3 X6 h点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
8 z$ b5 I2 L+ ^" _5 h, D( ~; U对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
! Y: h8 D/ d2 Z# D! d- l! c05& o% O5 m* i7 V$ q: p4 Y8 E
代码生成
! @* U$ u W9 q. M1 z来看代码生成的相关题目:
+ g7 u+ B/ d# x; e1 O8 _' X4 ?
! @! x. c( I3 x9 C. Y. @! {& {/ z* e. N
6 L% e3 u3 w3 a/ {5 }# j7 ]4 G! Q6 Y
5 z0 H; K. U/ y$ k4 d/ D- n点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~" G1 q* o7 }0 }& `
再来看通义千问出的这道代码生成题目,二者作答情况:
! T: W+ B, C) n1 g. u0 d0 x. F) q" ^0 @* T
8 g0 w; J% ]6 X; Y
0 ]# t7 `2 O( J2 i' X6 q+ ?9 h! c/ f) l: S7 B: [( i/ A" n
0 ]$ ]9 [6 z; R( H. g点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
/ ]8 t N, b8 o' d06
; B: e r+ y/ R8 U" Q% ]( \# h& @心理辅导% R% K' I+ I5 q. Z/ X: U$ f
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
+ ?$ W' [- V+ e6 I2 h2 W" G" h
J+ j8 a/ D0 H% e, `, S: N1 `, y$ A1 L5 ~, M d
3 L0 _- t% {1 {3 d
' T& @* u! T4 O! [" D2 o6 a, j
; o6 W9 d8 n' x. p7 y a9 y3 |' M点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。8 z9 i G) W6 x) A2 H
最后一道题目,由通义千问提出的问题,看看双方的解答:
; D6 f! s7 [3 }0 R S1 D z" E3 g1 t C2 `$ d) H' y- m2 Y
" G5 C# \ C. \6 _ M+ z7 R8 P/ C2 d* _/ N0 ^* S' h, Y
& Z: l- E" [; c; i# p4 L8 d" Z: H5 J6 H4 j+ R
% B- Q0 r; |! n( i& y6 u
3 R& w2 y% l+ R: A/ i* g/ E/ ~1 a& l
- {$ ?! L5 ^: `" O3 N# h# F
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
# }5 V3 r8 o- h; z$ A1 T07. w) s/ g1 z6 v& {& m/ Y) \8 o" I2 k
总结) T v/ ^4 l4 ~- D
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。4 n% Z# Y5 J. X7 a1 s. }
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
4 V! |9 I; z9 E5 n, E2 G在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。6 j3 }- H% h4 ^
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
( w) C+ z; N0 _8 }7 P' U在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
$ A2 f A* V7 z7 F; K# V2 ~$ G u在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
& ^ c7 _6 Y* x$ ~( ~8 R/ _从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。& [; r# K" Z& L8 U8 q) _
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
$ w$ `, H! ^8 S, j! [从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
. l% y* D8 u. x. N* |4 |( w. m文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。5 a- Z6 _5 N* B1 ?
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
9 x$ o, V4 z2 Z2 I1 W盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
& d3 r$ ]5 C# A1 _: p2 U; zEND
- g. i0 ^8 @5 O4 x! P本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|