京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 736|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
4 O! p$ O) K# A' N  L  ^# W# c

6 E, x( m0 B1 P. }$ |$ _国内的大模型还在路上,需要给他们成长的时间。
6 D% C$ e( V1 q9 @# O4 u来源|多知网! b+ I* ^9 Y$ ]6 p  S
作者 |王上, P3 r- s8 e; C4 h- h0 i1 S5 @
图片来源 | 言之画) M$ k9 k8 |* j  B* P% ^
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"; O0 ], `3 F' b) S5 q! i
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。8 p) B3 T$ h1 c9 Z: c- r7 x
未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
* n, O) ]% |* f0 i' t在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
) M4 ~! ^" M2 m. Y6 d那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。) A0 E) E5 t8 S. x- j7 U6 V
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
* C1 Q4 T, t6 g* y  `通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
. T. B' }# A& \) O; o. b- S! I4 A01
2 ]7 H$ @; h  A; [ " 作为出卷人 ":题目正常、不算偏怪难( H  s1 E( v& G7 |1 D7 u& A

- Q6 @6 W; U9 \万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:" O# Z) e# H1 L

2 c3 M% l" }! J$ e* o' a! }
! r5 E0 s$ @% H4 ?% o2 R5 g/ m/ V- }2 _
0 y7 a6 Y. j4 t0 H1 T1 l" S

, o' \7 h/ W2 R  K点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。( Z' H; B% L: {8 Q( Y
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。" H- _: _! _2 {
来看他们下面的作答情况——
4 y: X( p# q" ~% [: _4 f% E02
# }6 B& [) L1 T翻译题目% v' k$ Z, y' V0 n8 G
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:4 p; L7 }. c  {* R' r7 n
5 I& F7 G8 @0 F) W+ W
5 ?9 y, _1 K' _; B7 T& J

* r5 A7 a% H  _( G# b0 U0 k: I2 E) S) F* n  {- e* u" p
% G$ H5 o3 {4 Z3 x8 ~
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。# K( w4 g7 |* ?2 o# D9 _( c9 z
来看通义千问出的这道翻译题目:
( p; ], d$ X1 \5 Y: m7 \0 U7 r6 |) q5 a% R8 F6 Y9 B* f. ~

$ T7 |' Y" @4 w( R4 a% |) D! Y0 @6 M

" Z7 E- F  T- ]  r点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。: z! i3 R3 f/ y+ v. N+ s; m* ]  s
要么跟通义千问换一个问法吧,回答如下:% O' m( V7 [9 s6 k9 u

$ j: y7 r( _: d* k( E# A; t/ \
, @; a) e  O! a% ?* X9 a) c" v, Q+ ?% c0 I5 F) T
越来越离谱了。。
0 j4 e% Q- q' e; Z/ O' T4 N. u$ V

( Y9 W& d- z( q7 t6 @- d, [
) v8 ~3 d6 {" g0 `7 e
- x8 i7 K' m3 ^, @( y
3 V, }! n2 \3 i$ R2 _+ O  Y# u通义千问多轮对话的能力堪忧……
5 B, N6 E( ^) s! g8 {1 c* u; J034 G) q5 n5 l5 c8 t: ?& {
数学题目
0 c7 x9 x" {3 X来看初中的数学题:
+ }( [( g6 ^4 k7 i. ?( h& h0 J8 R+ p2 p

% b( ?9 G5 L  r2 ?3 s% F: N8 s' u
1 A; |4 Y- ^2 A& x1 Z# R8 g$ H  V/ `" O- c
/ H& }7 m# O& D
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?1 s0 L. u& ^" A" T- A. K
这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。8 _7 |, ?% b0 F; K+ [. F
通义千问出的初中数学题目:2 c  v# b8 Y9 u1 c$ e! T7 d

( [/ d- V3 [! y" U' D1 I7 B
% x  a3 \+ P/ v9 O  \
  Q8 r0 h& A- J+ g
# X" X; F, {& Y6 ^! L3 Y, U' ^& K2 B$ \5 ~0 p
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。: C: _  P$ u0 K# r! p! }  F" L( t; ?
有点不死心,再次问了文心一言:- d' ^9 o0 d9 J) R
8 S8 I$ |* O9 W4 @7 ]6 `
6 Q) Q9 T* L) s$ [8 h

$ \5 E! `( j3 S" \: p9 H3 `我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
7 G* W) f: X0 ?. Z( U% n还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:+ G2 g% J5 q- l; N; |+ J
4 W  U* P5 _, b) x6 R$ V) Z
3 y/ d) J0 `; j) y$ S

' q1 u9 {2 a) M这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~9 s7 ~4 P3 K* V8 _8 T. I9 ~
04& S4 X$ x" a( X2 i
写作题目
$ u5 X0 W+ ^8 U4 }来看文心一言出的写作题目,双方的作答情况:
5 K) ^9 p* }1 _& W7 m/ N  r! r
8 I1 C1 X8 P# h& Q: u# u2 b- x- R! f$ W

2 @; `, p0 F$ r
+ V4 q/ V* ]4 L) n; G! s( `" x
4 O( S4 C9 C) v点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
% j* P1 O1 R9 N7 D  l; C再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
  w" f: M+ A4 t3 I来看通义千问出的作文题目,双方的作答情况:
$ f6 F- X  o* n' q5 k* h' g; H/ ~* ~! e

& J1 B! d1 V8 l
/ F) b% A. d0 U8 e6 A
% W% I; Q7 H" x# c- P- S: j/ g7 c4 G) @: H
! x% P) h( r- o- c$ L- b

% g; W% U  ?. f9 a( E% e1 Z: V. P' @8 n' Q9 l
' P! Z9 s7 {+ C" i8 J

& z# _5 q  D! R- Q1 z1 w/ t( ^
7 R. c, ^# p4 N& f& A: g点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
5 @9 U8 Z8 a4 N! B3 x  l6 A: @对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
" j. z7 n; U. L$ z5 h' X05
7 [8 w8 r, K* [7 R. j, g5 N+ M' \& t代码生成
+ L8 Y  |& s5 C7 r( }3 `7 _" Y; M来看代码生成的相关题目:; i: J" d$ x2 i- [
3 _, E3 |' N, O% I

6 J9 _! D7 C5 g( x( f3 Y. C- o. H% K: P. N: P
& j. \( g  e+ @! r+ Y/ ?; r/ G
9 Z4 @$ W( m9 W
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~) P" o$ l% S( f  M
再来看通义千问出的这道代码生成题目,二者作答情况:1 @7 u- w6 R& H8 _7 o& @5 _

3 k1 i& ?" v  K+ r2 d3 T* ?9 q( {0 L
9 @; ?' a  I$ q& V# j
: H: t- U7 M2 L7 A8 _& y8 ]

: }8 m. B, b4 G' h" s) [点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
) `$ d( f# A3 c7 j0 c06! N' z; P& |* m8 k  v4 p% l9 s
心理辅导
2 ?4 g/ D7 q- e1 ~% \7 z( l最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
4 Z4 C" Q! |5 X+ U) B; j
8 u; D+ ~4 w* M7 Y  T$ p* i  ]3 y+ K% Q
8 a. p7 x* M3 o3 \) U! u, h

7 L7 V, Z  ~% }" j+ s# q
& H! H( B( C* x" V2 v点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
# G' x9 A/ H4 O0 E最后一道题目,由通义千问提出的问题,看看双方的解答:# ]; g4 h& K8 Z0 Z; n! I
1 B: Q: D. }" i/ g( Z( e. [$ }8 F8 ~! t
, v$ z- y2 E% v" O* T4 B+ o+ E- G

9 B: \# j( A: f0 W/ c5 U7 {+ q# [/ a  u6 k  Q9 T

- F! f! O4 j1 e8 H) Z7 S
% L5 [: k- V6 w/ U4 [5 u+ m9 {% L# [4 }( A
& O8 [$ y4 z) z2 G+ @" X

9 d8 W9 u1 }5 |9 u; l9 r' k* b点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
6 k( F7 a7 z1 G2 d2 M  _07
) P- {3 {% M. P) `总结' k. q, [  i4 b/ g* N. i, K4 B6 Q
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
, t! n( X4 j* y! E% p针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
2 h3 z4 M# W* q在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。, {1 ?4 G' J1 W* s+ d/ ^# p
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。( f( N2 Z# }" S: z8 j+ t- d2 m: Z
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。" m: U! S; N  i& C/ S2 F! `( {0 Z
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。! w% v& W  U( W! R- s
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
) C+ f9 i  E0 O- |6 H从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
0 _2 {- l2 O) ]' F$ C从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。0 P+ t  x2 p' Y3 T* c
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。3 u. \" U, _, Z; s  ^) u
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。1 i3 l5 o: g! t. C/ q1 a# d
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
7 ^( C8 y3 _! d! T# cEND
! \, g7 c7 b' z* |; Y- J  O: f9 Z本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-27 10:41 , Processed in 0.042466 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表