京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 835|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
% v+ \& @3 Q8 g% `# `
+ [1 \7 s% l0 b& G$ `
国内的大模型还在路上,需要给他们成长的时间。8 Z/ r/ ~0 I. h% }. Z* q
来源|多知网) g: U% V9 c! A1 f3 Q
作者 |王上7 y# q5 i  X# d  e; `5 _  G+ F3 A, C
图片来源 | 言之画
4 ]% r) `; B9 x, Z比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"& P( N( |# o- T5 `5 ~1 N
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。0 s5 r* V' b& w9 z3 w
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
" j: k# w: n% _) G$ j& d& b# E( O在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
4 x' J' t- C' l0 `2 W8 b8 S; n那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。3 D3 }$ \6 X$ _' Q
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。3 J6 _* ^& i3 w# \, I2 n' g+ u, a* k
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。( c7 F, F: q) O9 g
01$ F  `: R8 i/ X2 e
" 作为出卷人 ":题目正常、不算偏怪难, j" V- ]- x* m% t& O
8 T) A+ b! B4 w  v0 G) ]/ N/ {
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
6 V4 T6 \3 h0 _4 \# L
; U$ a: I" O" `1 K' |
! w2 A5 M0 Y  I
$ i0 X* s5 k6 Q( |; P: q* i- ~4 w9 N9 A1 U

( D$ J4 Q, c1 p点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。* ?4 d& j& F5 a# `
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
- W# T; u, G5 i来看他们下面的作答情况——( m7 K2 {( Q/ ~7 Q
02* a" ^6 G, C0 O# h3 I% k- U, X
翻译题目
1 [  p1 H9 V9 _( F( x* x8 y# n第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:2 b# I4 L, L- r7 P$ u; q
2 h1 O+ [( R) P5 ~/ u
2 g+ m6 e* z* J7 @; Y/ d5 E0 x$ X

2 h4 P; o1 @0 l# r+ ]& X6 R" h- C8 I1 [( V+ V  t
1 y  e) S% U) H; o  k3 }+ C; e5 Y
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
- k$ [$ o( t4 [; E  O来看通义千问出的这道翻译题目:4 c$ X1 _, O( X. U9 z& h
; {+ I; X3 u7 Z! }# J0 \* v

& N8 V7 G5 k3 U& b5 ]8 E& Q  Z8 u3 ^  r  Z0 }

# H- p8 J4 F9 r3 n- w! g+ `$ w点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
! s" m7 |6 n0 J8 A4 o9 G3 ?要么跟通义千问换一个问法吧,回答如下:
7 q; M$ l7 s& W$ [9 {0 O1 t3 h* j" Y/ A5 y$ W: Y

2 u# J% S2 y# w( d7 p2 C' ^& y. g3 J' X2 v/ K# A3 B. }2 E% `& g
越来越离谱了。。
# |1 b6 }2 W+ O( z9 g0 Y2 H% Q6 T5 w3 d7 h8 p4 z+ J
9 M) A: H" G, S* e6 Y* L

3 J8 k2 ^) Y- x- r% }% _. s: j1 z4 K" m( w+ x; h  v% G
% q( q6 k4 v9 G" l1 L/ r
通义千问多轮对话的能力堪忧……
! v: I; f+ F# k* p7 e, h) s' x033 |5 n$ _3 X" t, c- Z, |
数学题目
& ]$ G! j5 {6 J# u; S) `) l来看初中的数学题:5 f2 k3 e, V9 k; E

1 Y% Z7 {. W3 C5 n$ W  ?; o# C. v  J3 l0 [
! y* R4 M4 z' Y- q7 ], Y
# ?7 N% q3 T5 t/ w7 M) H: A$ C5 B
2 n, w' k# {1 P) }. U- t
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
$ X  ?: E" b- J) k* ]# v9 K0 N这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。; A$ u) d# z& x6 X; d6 J
通义千问出的初中数学题目:8 [4 e  }1 f! x0 M0 {% Y

* A' P. c. H1 v/ L8 p4 M$ i3 J- K" m: p5 l4 t- t0 ~6 k0 e1 o5 \
( j  q& B* ^% h1 P, Z7 Z* F) u$ }& F

' u) t) q! d* N3 }! y
' j+ t% w2 I5 z点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。& W+ w& G- @5 A) B4 i9 T
有点不死心,再次问了文心一言:
) E! L0 g: M1 e* w" C; c, I% _$ d
) z# D' e6 I& N. P
3 o6 [! w  j  Z, m# z8 f9 {
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
$ ~' J. V/ g, g' Q0 [( i还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:" @+ T* A9 y& u5 _% [( c% N# F3 r
9 T$ r# M* y" ]9 ]2 Z( {
& _% @* z% S9 S3 H

& @0 u# c  D6 q, l+ B. G# J: r, }" a这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
3 x. ^- D, j* ?4 V/ n) b$ N5 V043 ]+ K4 u* v' O$ A- X* @# y
写作题目; @$ j. f7 |! g( W% y
来看文心一言出的写作题目,双方的作答情况:
' E& m% K; M, z
" D- A6 c* w7 S
; r2 @. y$ v  T  y& F% v7 \  F# g9 i% N0 g

, q+ `9 T" x( R9 D5 b$ Y0 R4 F) n$ O7 x. N2 W) W
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。# B  ?/ x- M5 |7 s; L# e
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
% `0 E7 j- ^- E来看通义千问出的作文题目,双方的作答情况:
' b% [  k1 Y, g$ I
& V4 p. K& O& I" R/ w* e6 @, p1 y  o3 A* {
' X! J9 Q6 Q( [9 N4 ~: B1 `

& w0 f+ M& c+ I0 R; U  z: @9 N' E6 ]8 n; [, E) Z
; {: ~* f( v! G9 M

# R3 e# F# l) P6 J
0 a/ E+ d4 W8 J7 s2 B8 V
7 u8 }3 S: |: v! ?, n; m  F0 A0 o. x& Q2 u1 p
" s3 V9 e. J. r- O& ?
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
& m7 {& d8 r8 H  b4 _" I3 m! N+ c# q对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。% Q0 y9 B% X% D% \# d: M8 {% H
05; u2 X' e1 h) V0 j
代码生成% L3 |; C8 T8 e% A/ g
来看代码生成的相关题目:- Q: e( P; h- k- W8 q. T

  V+ E+ H" Z! r  [/ _( P' X/ P7 J) l9 B# a. D. N6 G

+ n1 I; P0 i8 R/ K3 L! ]
6 W. Q' [. z9 p4 W1 m; x
: O, B2 T1 [; `) }) D! ]点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~9 t6 h4 p3 ^, W+ a% u' @; x  k
再来看通义千问出的这道代码生成题目,二者作答情况:
2 f- l" w2 e( v  a- l% X) {( Q6 H2 n$ U
7 L* B$ N% Q; c" u

2 S0 l& i3 U( O6 g$ E6 O5 G
0 E4 m: O' F0 N$ A& v9 M
, {: |/ M; A8 H; j" D; ]/ B0 \点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
+ D5 _9 d$ R" K/ h; S& H" o& @06
1 M" c. h: ~- J5 C心理辅导
. S* ?- Q: Y5 _9 q, c7 t8 s1 m3 m最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:' S- e, z2 Y; Y, G4 t0 y2 t

2 `3 M4 f$ i) f7 f$ w& Z6 N8 A! g# }' \9 X) }0 S: ?" W
# @6 O4 n& D& K$ n: V
9 a' Z& }# `! j0 `
3 |5 G. H1 ^5 @7 {3 O* x5 X
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。: ]: x, |. G4 |
最后一道题目,由通义千问提出的问题,看看双方的解答:
+ V( ]  [* s) S% g' U. [( ~8 h7 v! Z8 `1 K4 L6 g
+ n6 g2 C5 {5 C# @( d9 \
3 d7 t4 h! ?- B/ K. g% l) n
& ^. A2 Y  G' G2 z, H% Z
$ R/ A, e' F. X: f" w' d

/ E4 S) N* I+ t
/ ^; a9 p" y, p# {! P
7 v2 M! R$ d- W6 E5 y
4 W- j& [4 t% q! f; L( ^3 V2 M% s点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。) H" U' P' h: T1 D9 C
07) @+ a& t6 k# E2 k
总结1 u3 i3 @" Y& i/ W
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。! T% G/ d" ?' Z% X
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。( i$ W; ^% `2 u7 o. d" _" t% E
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。5 I6 I) v2 v3 j! i( \
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
: |% V3 J; }$ U) s# x0 M( @在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。2 L1 F# x% W# ]
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。; O5 E- k/ K! g" v+ |
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。: l* A1 T9 ]' _. r# y' [# C* u* e
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。2 f+ U) ?% Z# p! U
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。) z7 k% j3 t$ X3 t. v8 |9 @0 P9 s( }
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
  L/ Q. G$ s* o0 ]- W. H这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
; I+ I  [: C4 \9 h" V盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
2 \9 }9 n+ i- LEND
; c1 S8 ]- N7 C7 D0 g7 K本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-26 20:30 , Processed in 0.071197 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表