|
|
7 J- x; t& m) h" n
6 L) U; n( ^5 J$ D
国内的大模型还在路上,需要给他们成长的时间。. S8 M: N# f) H$ h( `; l, {3 [0 e
来源|多知网
: R6 Y2 t ^/ Y9 s' e! d2 J作者 |王上
0 |3 h7 Z5 K' h' D; l图片来源 | 言之画
" L/ H/ C/ n, h9 y u* {比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
& b1 |) @$ t1 A+ j6 O今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
( s; w; W* Z. L; L! S未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。' o" }4 C+ C& I4 t4 g
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。4 _& N4 `# e" ~0 f0 Z( [; S) s& Z
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。0 L" R" ^; X9 z% B& b/ W- ?$ `
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。9 t! W# L/ R8 o. @9 S0 D: i
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
7 _+ u# ^& t4 r0 k6 v01
}2 ~9 q" W7 \7 Q5 b( Q " 作为出卷人 ":题目正常、不算偏怪难8 @7 z: Y& _- P
% ^2 y M7 O7 N7 ~+ K" x" k
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
# u' Y# g9 Q+ T3 M* e$ A' I. W/ r5 p3 B) c5 B! p
4 f+ M5 F* Q* a$ i% Y
7 m% m6 T+ u- [( j0 C0 ?
# f& k( a9 [% y3 k) l' n
: d2 ]+ R0 Z% J" K/ B- A/ H8 z点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。# V: ~1 @. C: Q# C, ]9 Q3 D. @/ v
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。! X. v/ i& F* O, J
来看他们下面的作答情况——
0 g# ?. R0 A, x/ ~) }5 i02! j4 L1 M2 a, [# A4 N
翻译题目
( q9 ]3 ` n. A. ]7 W% [ h第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
% v! t/ |) O' Q+ \
Q3 I7 K0 K7 n, p% F( b& a/ v* i1 C
( U5 h# S+ d3 \+ e" v5 y% p
+ ~: ~+ | D2 S$ q4 \# L+ I" I7 Q/ ^
. y) e r8 ~# J. w# Y3 z
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
; D2 m" B9 q8 k( j9 y来看通义千问出的这道翻译题目:
( B1 ~$ T% R2 z, q8 P2 ]) ]. R0 u; ^8 t: d4 X
1 L! p; O# R+ i" z6 C2 I$ N
) y6 p$ g: Y7 K: D/ ^. j
9 f/ Z% H. r+ x3 n6 s2 {; p" T) R点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
: _% \; ]6 m5 `9 U. E" |4 n J要么跟通义千问换一个问法吧,回答如下:
$ N+ L6 G0 s- W+ i2 m
5 X% h0 O0 J, U' X" v# K1 f
# F) c1 T; x3 u9 G4 L% K* d& Y* g Q1 z
越来越离谱了。。: H' ^# y1 |$ Q; y5 b+ Y, \4 ~+ ^
& K: \9 D x( `) E1 a3 K7 n6 M6 z$ y+ P# r1 L
- X! T0 t, C3 Q; u' x! K0 y3 ^
& C0 z/ f- l% v z% C/ D
' Y4 c0 U. r8 j' b C通义千问多轮对话的能力堪忧……
+ a; X! H" H: V' X. _+ }03
6 ]* {6 b/ ]9 s3 c5 |+ s数学题目
9 r9 R0 B$ |& h, G来看初中的数学题:
) [- u* a' o/ y. p
% R4 g0 L: L6 R3 X% H$ y1 |6 }% c$ F1 i }; t% @3 q* }
, L( @, S" `+ `( Z# p2 V/ p7 b$ B4 @* i7 _) H3 x, k2 E; l4 R$ V) g
1 E/ i h1 r; g8 H# E( m0 g( t/ J点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?3 _ q- V0 }3 c, o0 w2 [3 l E
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。- x* _2 K8 u' ^; Q
通义千问出的初中数学题目:# Y) U2 @9 }) J5 {! i
, y. p; b0 `1 k [
- l& k. |7 E5 j1 m* K1 ]$ [. m9 Q; L& `+ D; W2 G8 u
% ]6 v( p+ r7 F+ m: S1 F( X
$ T; B( p" x: d点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
/ Q1 g9 O4 Y1 x" b) O T2 ?8 D有点不死心,再次问了文心一言:1 i; c% p Q/ i: ` r( r' g# u m
/ O' K5 m Y0 W8 v
) _$ W' U+ h! {
* t1 }5 ^5 ~/ M" O我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
4 f3 Y/ Q& L4 u还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:" m$ U( e, r) {: R% A# | d1 v
v: L8 J5 V1 n# C; J: a
* k5 V" j3 `+ K& g+ r( u5 ], ?. f* H: R" o9 q5 j
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
1 A+ \' h9 ~7 n' B7 k04' f' \+ }0 S( W# n( [. r
写作题目& w' @) ^7 R) w& d7 \
来看文心一言出的写作题目,双方的作答情况:' Y# X& Z# ~, A! m) F
' ]% ^9 T, @0 ~! H+ N+ ^) }' e3 |; T* j
4 |6 j3 I }3 n2 L8 z3 f5 o4 [7 B2 x: t8 g
% Z$ t" ~4 R: e+ s9 o4 f
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。' i7 S- [0 ^8 `( g5 p* X+ l, `
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
: U/ T0 S$ S, V! d来看通义千问出的作文题目,双方的作答情况:& a$ c' z9 p+ ^) J. G
$ z9 G/ x" A/ f9 [
! X) Q- C* T1 @+ c; n! C
- ]$ g. ^7 l2 p/ w: L! A, o( Y/ q
" y% U( \3 [5 Y2 Y' \+ I
" [& V. x" G. y7 y& \& c" `
6 Y9 }0 I2 Q( M }: G9 w" }; B; k' O
3 T$ z; q3 S) Y" k3 u# P1 I
! F9 ^/ b- N( e. m
. y! q% b- o- F6 T, V# X7 L4 o* a; y- c
3 ?. U! b; s- ]1 d. v点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
D3 F# H4 F! [对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
4 c2 X3 b0 u+ M: R05- e! Z8 L- Y/ J$ r+ Y8 i
代码生成
& {( @0 N) a! o* d- g来看代码生成的相关题目:4 v; J& n! R3 y1 T
" _" u0 A- F/ M$ L* q4 r) \" a5 e( i* C) I1 X* w3 A
+ P# O& l, W2 ]
, d; \2 ]# X/ e4 K/ c7 U$ I: w: a0 Y: D. {7 Z/ y
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~8 i1 F; |7 Z" l- q O
再来看通义千问出的这道代码生成题目,二者作答情况:
' m) g- S" T5 a. C/ Y2 H8 b" g+ a, c- q
! ]6 { i2 h$ h. v! p
/ s& r' `+ U# c; T, ~3 h
N0 X5 H; `' b: ?! @6 N# }0 {! W+ d. N: m
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
* I7 W- x9 U. Y; s8 m; \- u4 j06
" ^' X! W9 A, h. h" E$ Z6 z% ]心理辅导
, W1 T* I+ S5 y" b最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
& @* M" z, L0 b: b* ~* x/ `( a8 ^) c1 g
3 z# J5 X) ~% O/ J" s4 e5 c- t: s4 w
6 F" U" r, A- t6 U6 `0 |/ T; l8 a
, v; X& ?( z* z: @. @7 m点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。' ]% Y% M' |. I9 _( l( j
最后一道题目,由通义千问提出的问题,看看双方的解答:" ^' g( z. p" P: v) k7 k$ F
1 Z) a" K/ J1 V0 a5 Q8 u6 X4 ^
+ r; l- `. E* v0 y
' u5 }- J: a% J6 L1 M7 P* R
2 ]0 S8 N1 I0 F# k
; N4 f! Q" t; t% B x
$ {4 U9 l9 N" r L/ S
; L, p7 ^/ _8 X$ Q% u6 @+ ]! g9 F$ \" d* ~+ g
" ^4 U/ p7 v4 y- q. @/ Z; p
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
( ]4 _2 T, b& ?6 y075 F% A; e0 s2 i( }( p* H
总结1 E6 m! x& G" f- ^9 Y0 I
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。1 C. Y1 g R) j3 b
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
0 u! q8 l& b' v! c; g, ]在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。0 M d/ @, B2 ^3 e5 J7 H( x0 E
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。: Y4 Y5 N: S4 o9 n; g1 E, V
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。) y! d k m( Z# S+ R3 F) c5 k
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
/ U5 f6 X! Q% ?7 H从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
: O% t( @0 }) B9 A, G6 q4 K从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
! L$ {4 F$ e0 k) R从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。8 N: G: D0 b. h1 N1 ]8 q% G
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。" N! s b. P0 T1 W
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
R6 v, ]; i3 W( @盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。1 z/ E; F! w6 p. I# L+ e
END
1 t& |, v) U+ `% `9 Q' G2 x1 |1 H本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|