京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 738|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

  z* h) L0 j3 L& E+ G+ Z9 q
1 X1 W3 d6 t$ w+ K  A0 v国内的大模型还在路上,需要给他们成长的时间。- f4 w) [' U; B  \( ?! w$ e
来源|多知网( }; [9 U# c/ Z
作者 |王上) T" h( H8 `, u
图片来源 | 言之画
/ A0 m( |8 @. M- ~+ E比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
( E8 m# m3 |# k今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
* U. l' {! E* I! D8 k  g: }5 G' s未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
" G! A$ w6 D) ^在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
! [: ^4 |( M0 L2 b: n那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
9 N. P! A+ l4 @5 [* ]. P: a) k我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
* ]8 t$ l, w1 G# @通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
5 F5 ~5 O; i, C01
' R8 z. R8 y6 u " 作为出卷人 ":题目正常、不算偏怪难% p5 Z# w  t" X* W- R
" p$ I! N+ I) |, v3 `5 W6 N  E
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
4 h: m5 @5 M( U) k) \, {& ]% R7 A5 u8 L  A5 x0 y# c4 K! F4 ^
% N* R/ ]& R+ j4 d# ~

5 i6 Z5 |4 I) @, I; ~6 j
1 e& T! k5 R1 Z% B7 R2 h4 w) t/ o7 m8 s
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。2 A" G0 \- i- p4 M2 N# @6 X
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
4 i3 c! m3 q6 {' m: ~* T来看他们下面的作答情况——
5 \# v% r) ]0 _7 ?, A9 f' J, g  [02' T+ }1 q* t6 C
翻译题目
) n6 ]2 E' }  S9 z5 r3 k0 ?第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:" H* @, I5 ^. j$ Y: v5 }1 M& R
3 i/ b8 G- i% ]
3 q+ A7 S! p; ?( d
- m9 X: v% g3 W
$ d4 z6 n0 }9 p8 @8 M
8 o/ o7 v; R$ g8 `
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
  E& T  S" d  c% J  y  u7 b来看通义千问出的这道翻译题目:
9 D! n  d8 t) u" @
! ?4 D" q  t- w6 w( ], t/ ]
& r6 N7 ?& ^: V) ]5 n3 c
: x, V, F) O, X* W4 _0 k4 S
0 ?5 N* P/ n% C# P6 O+ b) E$ H点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。) y) `9 d# P* `* T' e
要么跟通义千问换一个问法吧,回答如下:
0 M) E7 T4 j' P
, h* q" e( E2 C) z1 ?3 N+ w1 a5 h8 F, _* j! F3 w* l
# t' B7 H! U2 [; M& v- S- u& g) m* F. _
越来越离谱了。。  ~  I6 N- v: w- N

$ }- b7 @3 V+ E$ X" U
7 m( e0 b9 r( }0 N2 t$ J  M
8 @( h7 @/ f; ~, ~! `% X; R6 p& o0 P" \% a* E! f
- L0 ?2 x  \$ O
通义千问多轮对话的能力堪忧……
+ }1 o0 _! f. D% C( [- d( g032 x. _  Z9 C: T. N
数学题目
8 ]- q# V* G* p- @7 z来看初中的数学题:# ?9 n/ ~1 C, H; m& a$ \% d

3 _  v; w/ R% Q& x6 |7 l5 ~2 Y" _0 j" V6 R9 ?% p& q
3 `( ^) o  v4 u; v+ A
/ K6 a* n. ?4 ]

( O3 [2 |- h- r, B, c" Y3 g3 |点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?/ `8 e7 q. J. B! _2 M
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。: C" k# G6 Y6 h/ {, ?
通义千问出的初中数学题目:
" g+ D4 G7 {+ u! Q* U3 v1 t5 f
) }8 p+ L# Y" k8 v. a) C% C4 \3 o- M6 P) g5 l- c, E. z/ A
, z* r1 Q( H1 F" S; r  g" B
, o1 U! T9 i% c
  v( N; _8 h8 k# P
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
% c; O$ o! k/ |# r! B- G3 b有点不死心,再次问了文心一言:  i3 g" f) Q% \! G

2 `! B7 m& j2 F% ?  ]8 Y; v* h: ^* A3 h- X3 L8 q
" ]2 C0 g. g& r+ |( i  Z& i
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。) w" e5 [4 u4 ~% G# O
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:: X8 m& j6 u  q3 D7 B
# [! T! j  b' V* p

- s* U2 c- K8 o7 W+ w/ E0 O/ C# o; y, e6 u, f6 D
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~% n* o6 E' B2 J5 e1 l; l$ E
048 v2 X8 H9 U, {0 |7 }7 q7 c8 O
写作题目! g( J9 S; k; \
来看文心一言出的写作题目,双方的作答情况:( u* v5 L7 t1 B' y- Y

! w/ @4 w/ M, M1 x1 j; A$ Z3 o
- s4 ^1 a8 M" v3 g+ L3 [: h" ]3 b* H3 Z  ~$ }, X, j6 F# a. t! V6 R

" ?- X& g3 c# Q  O# e1 G. m1 ~- E/ J, P/ R2 F
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。4 R) A. R8 a. B& ^
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?2 z' L7 q, `" _0 F/ Q: t; n5 a: v
来看通义千问出的作文题目,双方的作答情况:
6 n* x" D" g  R; o+ Y- \) ~3 F' P9 X/ K! e
* z+ h7 `6 j) r  e, L- l5 w

1 B+ B8 Y, Q+ k; M, H5 h5 j$ b
5 b% U% s5 n5 O$ l5 [! Y& m$ S( M- O" _

9 X* b7 J% h3 y0 W( q$ |- ^' g- V: @; t# N- v0 p  |) t$ C& \* u

3 k" K2 z4 g, k) o
' Z' H, ?# E  H. N% Z8 X/ t' k
: z# x$ A4 V* _0 [
5 {7 [  o; @5 U8 \% v% h* I点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
/ q  k9 H, U6 r& S对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
/ |, V6 s1 Y& H  D% M# Z5 w$ n05
7 k1 Y3 o* F# u, g) r. Z: c代码生成) |! h$ U  ^$ J
来看代码生成的相关题目:2 b2 F4 K& h/ I

9 q7 m# o# ^3 T
+ a" E- F3 F7 `: |; R6 f2 K6 |! f0 v3 y. p8 q

% T7 R/ f+ c0 K* A3 u- L' D( Q7 f0 F$ Z5 ^8 z. {
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~0 j7 o& Q. J4 X) Y4 U0 ~
再来看通义千问出的这道代码生成题目,二者作答情况:& k- R  U+ T/ q2 P  S/ ]
: x. Z/ W; o# K
2 E# G# H+ s" w) U5 y7 W6 h5 o
% d6 h; _* m5 F) D& w% G' O& S% P
1 B3 Y# Q8 R% @1 h6 Q7 ~7 _6 E
# N7 y! F! z) A! b8 y9 T, P
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
( n0 z2 Z0 f5 F5 P, ^; l6 z. E06
0 _. o' H# y0 {; |+ D心理辅导
0 E3 x) F& s! W3 ~: D最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
. Y6 U1 S: |% ]/ h' B5 |4 w) t- Z3 O$ ?4 Y6 n& [2 N

/ F; x3 [2 n" f% J8 m' k& I
0 A+ S. j3 {& h% z3 l: d1 Z
/ `5 f: z. S8 B3 i
9 Z+ T2 l8 j9 m$ G" }点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。: J' Z% v% q* [% v  x5 n
最后一道题目,由通义千问提出的问题,看看双方的解答:  M3 T/ {7 E* b. U% e- G3 P7 \
7 i- l$ w1 l- z% W9 o
) E: l2 v* W  n) q
! U) A% P) F  E0 x' k
+ D# t" g* `7 I' ]5 ]

/ Z7 w7 C9 b( O% W. M" y4 l6 ?7 z% x0 m2 E7 I0 L: `; ^$ g1 E" \+ c

$ h. Q# B) ~1 P
4 q+ H9 @" v/ r0 S* h* c' U! F3 Y0 K, F( h/ Z
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。+ ?0 y6 v8 U- q+ }4 [& B$ K! \: R6 p2 i# N
07# F8 ]* r( f  }* d  M3 Z
总结4 }9 q$ M. t+ j- P
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
/ }* }; ]2 C' P4 |* J- z& h针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。( c8 [' W/ a; @& ~( S
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
) J% G1 a7 {; y% k) j  n在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。, @/ g5 [2 S+ E" G
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。8 H1 z4 {( k" q9 k- S
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
- c4 G: b' C' ]. p  U% ~* O# o+ q从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。0 K) z6 G9 \; J) d
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。# j! H+ y& c# L; @; p
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。& W6 `, M" K4 v. d) @$ y& b
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
4 H1 H. y- o) X" e6 u+ e  b这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
( J) g: Z5 ^% c5 ~) s盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。7 f  p5 o3 C0 j4 X5 U6 K$ @. n
END
+ F/ B' B* q. H; u" z1 Y本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-27 13:37 , Processed in 0.039794 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表