京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 839|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

$ s  P# Q+ N  [) z7 |9 z- }% o1 \
$ m: e# b6 J9 k8 X! V国内的大模型还在路上,需要给他们成长的时间。$ V, s8 ]+ s0 C
来源|多知网
& i0 }$ Z/ a5 w作者 |王上6 A6 n$ l9 o$ H6 |$ \
图片来源 | 言之画( Y6 P& \% B9 i0 l& B
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"4 l# \$ S& m  D* @
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
4 |: B9 W# ?. _# j# q$ R; v未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。) a1 @: X' A9 |
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
7 X1 D' P( D7 I. V+ Q* h那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
5 c! J4 s9 |# J4 p5 E1 S4 z& d. m我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。- A3 L: F' `& }  s! L
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。4 [1 x- `) R+ ?
01
1 c! P: j6 S+ h " 作为出卷人 ":题目正常、不算偏怪难
( Z) E7 }% i9 ^" {0 v9 I
5 ?! F, A5 j1 |& @* M) \* [# x, I万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
) [% ^+ Z8 P9 {' A& v2 T. D; D* m5 U8 S  `% @0 n5 p7 h

5 i, l7 w! r' n$ s; {1 h5 l$ M- \, p$ V: @  C; t" ~+ W
2 g' z1 U* b$ P

' V3 g6 l5 u) a6 b( y# U' |点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
" ]7 W' D+ X4 p( ^  ^" Y2 B对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
+ D3 {: A2 r) Z+ N3 Y# z来看他们下面的作答情况——6 u3 M0 \8 T$ n9 c) w+ @; K
02) i% ]2 \' [; y! b
翻译题目
- c9 \$ R: Q# E' N5 s第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:; D/ b& z% W# H; ]  U
, q' F) W$ s$ G( i

% S* k& L/ {7 ]2 m
9 ~! O1 a$ T/ A: Z" g0 ?% F* {& b+ t5 x5 g1 @9 v
5 Y  w. U  n& e. p
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。7 }7 Z4 ]1 }  T7 O- }( P0 {
来看通义千问出的这道翻译题目:
" m: o8 L" n3 N/ P# V8 V4 u* M! E3 y' V) d1 F4 J6 V
& H& U! t* U/ U5 L

& u7 N/ B+ }8 C" Q# B1 ]0 Q2 A
+ O6 S$ y* m9 M4 O1 `2 {- c$ ~点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
7 d$ R  C8 J4 f. T, Z9 J要么跟通义千问换一个问法吧,回答如下:
) ?' |+ g" l7 c- u" i9 k+ Z  V6 K! S& z

* S$ a- u4 s- _- H
2 ]9 t" s1 s& h( b% ]越来越离谱了。。
" Z' ]+ h- Y# w1 Z$ E0 m* H+ M
* L$ v! A, ]; c3 Z" \! ]: e
+ \; ~% Q- j: B8 ]
; Y  _% E' T5 J2 g% b/ x) I# r3 F! T1 h% f+ o: K* s& ~

( f* S) Z5 D6 c* f9 A9 `4 O通义千问多轮对话的能力堪忧……
& J; T) Q3 Y1 L03
, a- m; u2 O; \, G! D6 o+ j数学题目: k) q0 a* s: \  Y5 z
来看初中的数学题:" q; A9 Q" i2 |5 e: K
0 |7 ~$ Y! K% j0 c; q  F
$ P: \% ^1 u% R- l9 N

- X# _+ R/ k& P8 b6 U% w6 |& Y4 c6 [# b6 X1 j
, p! C0 q& O9 ~/ w8 b) a
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
% N) @( _' b# z# X% l+ c这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
$ V' D2 D+ q- G! h( e+ w* X; ?* W$ E通义千问出的初中数学题目:
. J8 e2 E* I% m) B3 r& S7 Q, x8 d3 M2 K+ _7 `$ A2 B

( N. A7 C, X9 f! H+ b. b4 j' g5 b7 P7 }" o8 ]6 z9 y8 e
& O/ o  q2 P3 y! j, A( r' o; x
6 G' e) n. T( u
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
' Q% r0 l, f9 Z. V; e2 F有点不死心,再次问了文心一言:7 f7 m, i/ q1 ?0 \3 w+ E* J# B
0 D' [& Z* S- [' }  J

. f: F: g. S/ f1 m& V
1 a/ N7 U% g1 L, L我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。; n" O7 z' V) P6 E7 w. d
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:: [) W/ }" b& S8 g% w( ]: z5 u# H
0 f4 ], @; x8 X$ D

  I; Q, a0 ]4 ~
9 J) s4 t6 X4 @1 C9 S这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~6 [. P: B/ U! |9 R& D4 F; `+ n
04
4 F0 L) w1 Q4 t' Z- V1 E写作题目
7 G5 ?! @0 [4 T# U5 v6 `; S$ Q来看文心一言出的写作题目,双方的作答情况:. B; F) q0 \$ ?+ {% ~, l9 ~
/ R4 z& L' p: v1 ^

; g' J" E' j1 S: j5 S! x" K  o: Z1 t

9 N5 F! ]) `- [& k4 S. P
) n" n; N* p9 h点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。8 F/ t. ^/ J" K) B5 i
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?! m  b$ z$ n8 F5 Q
来看通义千问出的作文题目,双方的作答情况:
. N$ D1 _* u% N4 s% ~/ E& g
5 t! B! c8 }+ A
: S3 K- A' b9 O6 L- J4 R* t5 g2 \) P% T* M
8 }5 ]! a# ^8 I) ~' S

/ ]7 [* n' k4 ?+ }, o4 @: G) v; J4 G' `8 I& [2 v: o

6 c+ J% v- q" k3 p/ x. X1 K7 N6 j% g1 _# s! j8 c3 K) Q4 ^
$ ?) s  `( T% E$ d- \& n

; v: u) y/ V7 Z7 Q* W% o: P; k2 U* s( |+ M
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
. E3 V+ h% X- i8 I: p0 |对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。5 n' C2 d5 P1 a6 Y$ ~# l8 E
05) `: t, J# f4 T. z9 i1 `
代码生成
3 l$ a7 \, D- M, Y- r来看代码生成的相关题目:
: H  f+ ~- P/ p; A7 H+ B) _& B
0 ^3 c5 Q2 N" g7 j4 J# l0 c$ b1 p! J) ?6 z: t
+ k  `9 B6 r6 W5 W+ Q

( r! f2 k& [8 R& f+ s* K/ a
7 J2 d; s9 }, K- D# l( `点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~3 }* {! b! r; E7 p& M7 k; c0 t
再来看通义千问出的这道代码生成题目,二者作答情况:
. [2 p: ?+ N- @0 n" K. Z3 l6 J7 E( `: J  x
+ ?$ y/ Y/ \  [% N! H
& z! M% U! N# b% N) k! f' C0 e
1 G# b9 \! l* p, a! C' t
4 L" U" |$ q2 a. ]6 Z* D/ n" C. ^
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
; W& T' R, k! u3 S' A& T/ o0 I06
# g6 b2 m5 s/ V+ X3 a4 v2 z心理辅导1 _! y% d1 z: f. Y6 ]5 T8 Q
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:2 X6 X" i" Q6 ]- B8 z' ?

; E$ z9 V% A) K/ f+ {. ?+ U2 I' b  q2 L: A) K

0 e$ J' |2 Y  P5 n/ f. s7 a; `  v" d* Y9 r) o) B! c; J, o
* o* n6 H. Y+ V' @' ^1 b
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。" m2 Y4 X8 d0 A) J. O
最后一道题目,由通义千问提出的问题,看看双方的解答:
/ P( \* l7 B5 ~) o+ V! z
/ a- G8 i6 E/ v. p( ]9 B
5 @* c3 ?. V/ y( E# X4 G4 j9 X6 I9 C7 n0 a, g" d
( I5 o0 O; \0 L  f) _3 ^) ~
; U/ k$ k* g* c" n

& W) ?0 F; l& L  D2 @2 I
# ?+ T, I' G: L8 t9 x1 m  @* n( \2 D$ S) w& F9 O

. p/ c5 `! s! c0 m/ n点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
. M, ~$ M) Q2 X: w: d5 m07
5 p4 U) S* K$ F  @8 K总结% b" G( m8 Q6 h, O' v( \
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。) @+ n/ s' z! r6 `$ l5 l  ^
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
* f# A# L- A8 h在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。4 [- S! S$ y2 s+ \/ U$ C* G
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
1 J9 i3 k8 D1 I, G在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
0 l3 Z$ v) a3 Q9 S  P4 l  C7 t/ h  g在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
" \; K4 ?3 C% A3 U! g& |从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。( y9 b0 d* J' `% V1 I% N
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
6 w/ G( l! e; U' o; M6 N$ _从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。7 u- e6 P% y9 v
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。# u; u# b& w+ u: f: P5 g
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
/ [8 j# _0 r; {7 T4 Q# a$ ^  O盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
8 q. n4 [) F6 t3 K  iEND1 l4 d+ r& H2 T# E
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-26 21:46 , Processed in 0.143419 second(s), 23 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表