京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 834|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
4 O4 O9 s7 U. a9 N) x; `

7 T) ]2 p8 T3 T8 Y  w& e国内的大模型还在路上,需要给他们成长的时间。; X' P, N6 z- w2 T4 g( q' C: M  A
来源|多知网
( H' @5 @4 }, _* ]# s2 u6 ^作者 |王上  b# ~: Z7 Q- B2 V% D) O+ x3 X% h7 ~
图片来源 | 言之画4 E3 `( A0 W2 z
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
( Y. ]) I# C) @: O. V今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。) q1 w' y7 p* S$ E: P" [
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。8 z8 x& g6 q- @, u! W
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。. E) W! H; f, s0 V, H
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
2 z& G1 L$ a) s. m( ~我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
, T/ U' c% t  u  L0 t% U通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。9 Z1 ~  p- j* v; Y9 ]
01- x* U, ^9 q9 `: X2 F, l
" 作为出卷人 ":题目正常、不算偏怪难
2 A3 n; |& d  U" x7 G
+ }* W0 e$ P7 U* B万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:" B7 {  x/ a" z% p- k$ @
9 N; l/ Q! O% |- |3 b8 l4 E

0 z2 U9 U9 D9 T( c  j- h: o" k% F' Q( [
; d/ ^. R7 G0 v) s! `$ w

9 f- W: I4 u& R  ?# M' ?% E+ x点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
- C$ Q6 u( Q3 _& j$ a6 B对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
3 H+ @0 _, |4 O, a0 s4 u7 m8 J来看他们下面的作答情况——! }" `; p% U) a7 g
02( n+ r1 M! z* h% f% a
翻译题目
- Y0 ]. x) z  w第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:; Z1 p$ m3 j* Q! U% ]5 t
* F1 o4 d" O% f. j) Y
  O: P- z. O$ l5 j6 w4 W3 n

' S# U" O! @! Q" p5 ]) Y! e
- t' i, ]; y. H3 ]
- `; D& L' p: I0 d5 \点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
) ]  n: p! x4 D: _4 X) G来看通义千问出的这道翻译题目:0 ]2 t5 ?, s( |# R4 i) \# Y& e
# d7 f4 }3 G! g# p0 [
  A7 E" V% D$ l9 r, D5 `- q0 N
/ T# q! v' ~' W5 Y$ \

4 y3 e2 R. P8 m- E8 p0 M% Y* e点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。5 H, h$ {- ]- `3 O0 K2 A, ^# K5 L
要么跟通义千问换一个问法吧,回答如下:! j+ d( W" E  y8 T. E; y

) J8 P+ {* S- l" _
' R. Q$ J! u) A/ Z' m6 L) q: n/ X  i: n
0 E. b) m" p: P; E- C& n. @9 I越来越离谱了。。5 e, i+ x3 d0 H# Y0 K
; s8 J( Q+ j; _9 V6 u

3 I( y0 o8 X3 o% [, p0 h. u. c0 h' O0 Q: M6 Q
+ P1 a- W6 F9 b0 m& _( V/ h

) o, S4 p" X$ ~1 G9 S通义千问多轮对话的能力堪忧……% z, B0 B) Y+ g; l& l
03, u7 S5 g* K6 T, E. z. f
数学题目
2 b" {' g  i- c7 R来看初中的数学题:
$ S0 U! |& _& d' t8 i7 }  Z7 t0 c0 h1 k# o7 Q. q* y. W- V% |4 S

, e; s: J1 j; S1 b
+ U( Z* J7 ]: z, l' C8 _0 b
& e% c3 ]. F8 F+ m0 k& p& W) y) Z
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
) m8 F2 b; ~! i' r' V9 F这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。- ?9 [4 t0 k1 L$ y
通义千问出的初中数学题目:
! s& H% W4 H$ ]$ t
/ T! b, w' j' N8 R  T; G
- ?# {) T; ~# N! ?% V, q% H
' t0 q% h) f; E+ l0 B
' a2 e6 D9 ^+ {+ i5 _7 y. |) x/ M$ P
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
: v9 _7 _. c9 k" a( C. }& M5 U: k有点不死心,再次问了文心一言:3 T+ U; x# x2 A7 A1 p# z
$ b1 x2 |0 {( P$ `9 |6 }' Y
5 Q. L# D$ n# C: \

( K3 `% ?0 Z% N  O" u7 {  q4 g我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。1 h- X2 W: p/ ^  [! @, ?0 w
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
3 u$ Y' x2 j  r8 C
+ E" F! ~/ d1 x4 R& a
5 A+ ^$ ^$ N3 y0 n1 f+ }. H* X. c* Z  L, P
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
- v6 K9 o6 U! O8 M9 F4 g/ E4 |7 x04
; k6 H" q# Q# j1 j! x3 ^写作题目& F& |' t" q8 l0 \& N2 E
来看文心一言出的写作题目,双方的作答情况:
. N; I# M  A) B9 k& t
0 E% t. c  P$ X% F
+ h! g) a" N( r4 x/ H9 F) G# v7 y1 v9 H3 H, I

2 s9 T' I3 C/ y
% W  o2 W4 n) @! \: D, U+ E点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。2 m+ O- O# X: t
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?' [2 e/ J% Q, l. l
来看通义千问出的作文题目,双方的作答情况:
# Z7 [- ?0 J5 d# j4 C: j+ `7 \, W  {! h% l( j0 `  E8 ^8 \/ T

# g9 L' q1 \1 K! a. X9 i# [7 V- r0 C$ ~* P  u+ @
7 r6 C9 j' w, k. K9 N% [

: E7 g* l1 s1 M' n) p' V% K9 h# d; t3 I# _# `$ w

4 M* A/ h) {; ?- P: d2 i3 k, ]+ z" o! s+ g) X1 w% o
" V9 a  g& M, F4 X1 s' F
$ Q# H8 b9 L: e9 ^  ]3 s/ _! P
% P( h* M1 w7 r7 E* S% W
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。' g8 D' W6 P) Z2 M& J
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。6 a4 _- [- f( a6 I8 q
05* a1 j) y4 i, j8 E* a4 x9 n. M8 k1 V
代码生成
- N* O3 A" m) c% }来看代码生成的相关题目:1 F  b9 ?  d6 ], W+ @
, }# ]1 p1 r9 M+ ?( D/ b1 O
; Q% M1 s9 B0 h: s$ ]6 n1 A
4 V4 y: E9 o0 y) F( A$ Q& _& O) ]* I

  @! K  \9 {8 z& r4 ?) l0 x( F" o$ J# B$ S0 ?
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~* m2 U9 ?1 i# W% Z6 Z0 v* ?# O: ?
再来看通义千问出的这道代码生成题目,二者作答情况:# Z, t+ d& E9 W- H8 I5 u3 ^

  e1 ?8 h) b: y. Q' u) H+ }$ ~7 @# z5 ^
. s/ V. T1 m5 t- J$ p4 ^7 S# P& E

& \- z, ?5 z3 j' E( v% N
5 D* f- l1 ^& E0 v点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
, Q, v; @4 ~  Q  o( [06* p* P8 U, w8 I, r3 ~
心理辅导0 }& ^; w0 X5 i: h
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
0 |; A8 I0 y( J- o4 P0 G7 @2 M. q& [+ I9 B$ y! G  |8 a

; I4 r1 ?- q- ^% h; w/ o1 \
  f. v. j3 b* W' ^0 F8 H' p3 R: ?' f# X7 M3 V2 {) H; Q
( M/ b& ^- {' Z( }, `% o
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
0 [1 u% z0 V5 I9 w最后一道题目,由通义千问提出的问题,看看双方的解答:  Y* B/ P5 I0 i2 x' I% j

$ w* i4 x: r' y& z* {1 a; e3 o! Q: G1 f) v" l( ^4 P) w0 @

& Z; d' S( i, q3 u
# r4 Y1 F( j: `# X  G7 d
" D2 W0 P8 `5 T: B4 `; @
9 E6 J: a9 R3 q
/ v  I/ |( g) I7 C6 t" Y, A. R/ p& x! ^% Y: \
- X( _+ U1 e* h" [0 o+ g
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
! p3 s& n1 P2 a- P6 z07- Q: b7 c7 M4 j8 f. _& c  v
总结
) x( A& `6 l3 Z% q+ l+ {* p  v8 [在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
; ]/ [2 z5 Y4 m& Z6 r针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。- o; f9 |# P0 W+ j- C  j4 X" C: A
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。
' D8 T/ N& [1 v* x. w在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
, l8 y% u1 w2 q! M; W" o在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。0 F# T; C0 y" M& N& j: f% R
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
- ^5 |) Q6 y2 T# n% w从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
% q5 O; O- e& K  c" i$ e1 F& s从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。) Z: R3 u' M5 c# I8 o7 a
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
/ R: q3 K$ x0 V, v文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
( j+ V1 o1 U5 E! }5 h这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
0 Q9 G0 {% Y# t; f& f8 O; K" G盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。3 F9 T' l9 Z1 D% Y4 |' x( a& R' c/ o
END  M% Y* W1 w  r) t0 M1 O1 q
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-26 19:26 , Processed in 0.085525 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表