|
|
+ b S; v0 J3 n0 f Q- ]
+ p( [! C. ?" j7 p
国内的大模型还在路上,需要给他们成长的时间。
$ ]; T" l3 m1 ~3 ~) A3 W1 l来源|多知网* P% D1 v+ @9 D" @6 a
作者 |王上4 n; O P- [8 c# C" f W0 f
图片来源 | 言之画9 T/ y0 {, }+ E) c. P
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
( F* j$ V% ^1 u. @今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
6 k9 }1 w" c. j未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
: T) P: _/ U$ u6 i5 Z在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
, T& B9 V. C% M/ I: w, W2 p5 \那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。. [: s$ K$ g7 F2 p' f# J
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
+ l$ Y2 t4 A& c) }$ ]通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。! J0 S2 U$ C; P. p) d. q
014 @: O+ U1 j' M# @* C3 w
" 作为出卷人 ":题目正常、不算偏怪难2 L7 z1 R. G8 z' }/ ~- j) M9 @
. i- d+ [% |6 } k
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
; w+ ?: ^9 T$ s4 k# |
0 C0 g: l/ q: M3 i3 \; K
0 A1 z M* n, h7 l* D% l9 G3 {$ d( u6 }. [
1 H& b$ ?2 I/ a: @. ~6 g, h! {7 P$ A) D, ^1 p% _
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。! X3 P9 i/ c; Y8 G# u" k; m* S
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
) [3 U2 B: r# z$ I7 {% R来看他们下面的作答情况——4 [. k" Y9 ^- q9 h6 y, R0 C( m
02
' P/ }: z9 [- c7 n翻译题目; |- K* e3 C2 n
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
) b6 M6 p5 q" N' Z- A: [+ C
4 x# ?2 S* O( N1 y H8 c7 a! \$ N$ a8 u
& V6 e3 D/ A. |) Z2 E
& G* `, M$ O# y. I1 Y: U9 N1 t8 v
5 a ]2 b5 ` g' d' ]" {% O$ l$ W点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。/ N! x, B, X8 p1 _* _
来看通义千问出的这道翻译题目:
7 d4 h/ @( H& v% C- b( h3 c# P: f+ z% K. ^. b( x) R$ m @/ Z
- R! R U& k0 e. z( e5 i0 D
* P6 {/ f7 q, m7 S( b
9 E/ O# t) J0 r
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
: K5 t3 @- S% s. }: h! [( }要么跟通义千问换一个问法吧,回答如下:0 i3 z$ I+ d6 I1 U7 [1 _
6 G9 p6 g4 a+ q* D8 K4 e8 K0 o7 d+ g
: V/ Z, j1 Q: {5 I6 V! y# h
4 D! x8 l" L* b% c1 h& |越来越离谱了。。; W$ ~3 L3 g; d( w6 r5 @
- E) m1 F: `% \2 L9 Z# V$ `- K R% {' R# F
# a6 O- s. W9 p V
+ S6 s: y+ r/ u( ^8 M
) Y! j& A' ^7 \' |) E通义千问多轮对话的能力堪忧……4 }% I9 D" n- z- d
03
1 S( C- a0 p: w数学题目
7 V% j# v. {; R$ U0 a1 K0 O5 K来看初中的数学题:' u: j0 s; e; P& i
% W" B! y0 I4 V( E
6 l2 v, W6 [8 T4 R3 x" \" U3 A1 {& ]" M
2 s7 P& w9 k; f: I) j, T* ^- s* m; [5 A- k+ n. r" f2 H& g
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?# B. g; z, z+ z8 o7 S
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。! T$ D4 p$ V' q/ J2 Y& {$ N
通义千问出的初中数学题目:* P3 O, k* H2 o3 P5 G' x4 U+ V
5 z* Y) [% q% C, B8 u+ N. h7 b
1 B) I' J5 w7 m( N1 _! [
, |0 Y. V8 w' o7 d
( I7 p) w2 Y8 J
8 |" I* \" N+ n& ^% y点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
2 u+ B+ q) ?5 B1 H6 M有点不死心,再次问了文心一言:( I7 P. i# \% H: c0 o8 z
& D8 w# M3 `% K# g3 U
% J' |7 ?7 y9 Y' c G; m1 N) O" P
, m$ y2 R$ U& L7 f我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。$ X' C' o( Y& D2 B
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
5 E% v+ r& y& C0 w
! U" x/ |& _6 |# i& L5 m# \: O3 r: C) `# K8 f
2 V, b# N4 T& d6 s& Y$ k& A
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~) u2 n* u2 G i# C' ~# |, ~ D
044 B% R3 [! j$ @; D$ Q7 n6 j
写作题目. j) p0 C+ C; ^$ Q
来看文心一言出的写作题目,双方的作答情况:
. M; @8 l4 j, `7 ~8 x# g1 N
0 g# ~) u: l R" q- }7 j3 A1 U) P3 E x
5 @4 B7 d' D: x9 W! G
& l( M/ q: {( H5 D Y, Y& ?7 v9 n: W8 E
# `: c1 c5 W4 a: B点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
, [$ _! ]' U% P( }1 W再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?/ I# @% W P$ a) r# Y3 |
来看通义千问出的作文题目,双方的作答情况:
5 E! d. A4 _6 N! y( j# t: ^$ d" J! s% F9 Z/ s
! s# H+ v: t: H) t" @
3 f$ X8 I V4 ^+ b! X, m7 e' M4 |- f! _
8 @9 K7 ^+ v7 P: W& O3 F8 L2 r
+ t! p r3 `5 M+ w; W& g% T3 N1 G, v
" @. q# a) O7 ^! M( [& j
5 C2 _0 \! z" w4 Y0 _ `, x! |& _2 O2 Y- B+ D( i2 o
1 W5 B( E8 [% {# T" c点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。( G3 R9 @% ~/ p. i; p" Q% a# W
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。- {' z) a; h5 ^' t7 h
05
) h( G- Z \, N' k( z代码生成
2 b& |6 W" o: V* U来看代码生成的相关题目:
- Z U* _, q" O5 Q& ?2 o7 E
# W7 \3 a2 |7 ?/ k% O) h6 F, a3 _" g
, s: A: W# q0 R1 x. E' |$ l7 e) S; j6 ?
% ?4 Y2 v& _1 N8 Q3 y5 c% S$ p. ~3 H
' S9 S% E9 S8 j9 `6 X& i, O" A( h点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~7 c! U3 y: `2 m1 D @% y/ d( e
再来看通义千问出的这道代码生成题目,二者作答情况:' e; ]5 P# ]. w( O5 q# m
' `3 _+ V$ I# t9 m& _! k6 C/ H( H/ B4 B/ u$ ?8 n
1 b& b0 q/ J6 E0 q- L# b6 |. {4 |9 H& f. w- O
; c4 E g8 D; L7 u/ p
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
2 }+ ]# o' V, ]6 P$ J% `% p06
9 x) a$ Z, G- d$ Q1 N7 X心理辅导1 W5 R& J' E% a2 |* |7 X
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:/ n8 g* h8 }4 N; p. g/ g- X! G
. ^* K9 k$ n& _5 t5 }2 g3 t7 T: F3 @
' x. X5 b6 \4 R$ y- T1 s# s% C
% O; G9 J2 t. q
" s- l/ {' E7 y8 i' Q8 w% w; P点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。* f0 A2 J7 @& f0 E* {3 o
最后一道题目,由通义千问提出的问题,看看双方的解答:1 d* d' P S! x# |+ G
7 }- Z2 l" K9 A, [
! U0 y/ V7 S3 z+ y2 l. g, D
8 Z3 L1 z; ?* v; t4 [6 x. z4 W9 y3 t: t' X; r8 B6 S0 l
/ d+ }% P" p6 I0 H* b6 C: X9 D
" D% M1 N1 T9 W% h" A
9 n/ |8 X" S* [ B. S4 n
! V/ k, A0 S, G' c6 n4 \5 T8 Y& l, K0 I' o$ |3 ^! J
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。/ B+ A6 \0 _9 K q6 V* T4 `
07
1 p& l% x) T* P, W总结
, h, t. c0 ?/ P4 \+ ]在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
, ~/ n0 ~8 Z( l/ _针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。& n2 w, Y ~! r/ ~3 k$ k
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。+ l+ e- J# |# G1 t
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。$ S4 q% ~* V* ?1 ^' I! Z: W
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。! m$ u* u1 ~7 G' c2 `5 ]
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
5 u: i/ b1 u; h1 W7 Q从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
; ^- Z* V# t6 c( A7 `从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。0 p! |) W# v& j1 @
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。" p- U* J0 y' U" D2 h
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
6 U+ p2 F, U) o$ S# s7 R这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
6 w, d0 P; ~+ J! L& T盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。% Y' K3 [& o1 E4 }& O6 s
END. n. f- s2 D" n( ]; [
本文作者:王上 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|