京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 795|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

, a# V1 {. S# v6 G& h, e1 c5 [0 h6 z( R! S
国内的大模型还在路上,需要给他们成长的时间。2 q0 Y1 `# o9 F( _7 c7 s
来源|多知网& B% C( ^3 Q: {) T  B6 z9 O
作者 |王上
6 m6 _+ P0 R, C, u' _0 |; R5 V图片来源 | 言之画
6 `7 S) W# K, Y' J* W2 U比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
% y6 z8 ]1 g& ^' X今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
) {: Q! @4 Q- M未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
$ g& h" |/ f: |- H1 c9 i在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。" d3 f4 M1 j" f
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。5 T1 M4 u- k* F' \& {
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。; X% m2 i* f; t1 ^( k7 E
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
* W0 |! _4 x0 e5 x9 A017 y4 n; G4 U7 ^
" 作为出卷人 ":题目正常、不算偏怪难8 @4 I; H! I( p
" B6 @: Q$ _, F0 `) H
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
  o* b" {2 c: [5 V4 q
5 L8 v) L8 q) W+ ~8 G$ i
' M" h6 C3 r% \4 I) }1 H" W7 N' Y7 h5 G3 z  r% ?* g
  L: K% ~  K: v! P

- u8 \/ R: w5 m8 @% J* F点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
# {0 V) R6 t& K对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。6 Q" R8 O* \# r, n$ Z% }3 r& n
来看他们下面的作答情况——
9 Q" I  i% Y5 s$ J( {9 A02
1 l! [% X! G2 O9 [3 ?) f2 U翻译题目1 T& P5 O7 D- T8 l
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:# T. }4 \9 @3 p
% |5 j8 c3 ]& C+ c8 }! g" i. G

1 {- A: w% w3 x( x
+ F9 K5 l% q# M+ S; M5 I/ k6 K, i9 @7 C9 |, o; J+ O
1 _3 S' K1 R' }* a" U
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
8 G4 [9 n* U" c2 l* \来看通义千问出的这道翻译题目:! d3 A- K1 v: i+ k

: l) c: s2 U7 P- F! C
) k' F) v+ C% V8 I$ U5 G  ]: K( v+ u: D- i

# \7 J' k: Y5 ~点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。& g% P  {2 l. E/ E; W( Z
要么跟通义千问换一个问法吧,回答如下:
, [' C. [0 N8 o
; i, S* a  q9 E$ `) _) f5 ^' f0 M* B
& @, g3 }0 s- |# b/ J
( K% L! r3 V4 E越来越离谱了。。7 |0 z8 e* G4 M$ k' \# d9 Y
, J8 S& G4 A( O$ w8 ^! m4 V# _% Q

3 O$ `1 r6 p5 }& J- K: w) F3 K( ]& K  {( Q  h

6 X( T5 O2 ?+ T7 N' E
! B& |5 C) t6 x0 Z3 N, `4 A6 o6 U3 R; t通义千问多轮对话的能力堪忧……
3 z1 I1 f. z" k03
% L# p1 R- I4 A( q7 F; k* m3 t数学题目4 v  v, ^' Y6 }0 z% b6 A( |7 t  @
来看初中的数学题:. X4 _  O! H: Q  U$ ~2 l0 u( c
8 q' ^$ s( h/ K; f$ U, p! ^
. L" ^4 ~6 O: f' e% ]& \
1 ^. q1 f$ P/ B6 }6 p0 p8 [0 Q" J
" m1 G& t  m" p+ q4 e3 C

; _" \* e  y" O点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
% x4 X2 f; F3 e- K/ ]0 `( A这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。* n( M3 I, L+ x- M4 C6 x
通义千问出的初中数学题目:+ B+ \7 @" }3 a* h8 f0 q; K  W
1 c! F: v+ p( M4 o/ k

6 p6 t4 |, z+ b$ e' T
: P9 B. h* K5 k& w$ D' H
- A8 ~& d( A6 g9 l6 }7 L0 R& d% ~3 w
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。
# ?2 B5 k* v8 y3 F  m# J: N8 z$ I有点不死心,再次问了文心一言:  H/ a8 J; I) O' i
* |& P$ r) N) `2 _

) w" J& a3 L% P: C0 T/ I0 r, ?9 y6 u
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
7 A- I2 F- {1 a! E1 V' L$ R- S6 E6 a4 h还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:+ P8 O# T# Q0 D7 X. n

0 w% W- {1 F- z
2 T0 z3 ?4 s* k# s' P
- j. e  L$ A+ N0 V: q这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
( S& \$ D* s8 w* `8 L0 [- t9 U04$ ^5 X) E& L: I
写作题目- ~* W  p- i( a' v4 I
来看文心一言出的写作题目,双方的作答情况:
7 V% p: P6 e' E# A  e
. y* p0 {# R( t4 g4 q+ S! a
9 a: h' m; h8 s( g" }( w. T$ H$ `1 W1 L9 V

; J  E" B9 O* \- h7 q$ M2 |/ M* O; C% b: I3 m9 E
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。( V2 ^7 K& b' n& n* W& Q/ g" H% N
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
. J$ w9 p( ?& N" O$ p. ^/ C/ Y7 b来看通义千问出的作文题目,双方的作答情况:% N0 e5 @; ]; o; P! c1 W9 y& v7 D
" ^( k4 {1 @. {* C% Q
) }7 i; s! C  j# D. B2 s  m/ b
) P* s0 I. o) P& s) l

4 {9 Y/ e7 a7 ?+ y7 ?
7 u0 P  H, N: X
5 O  Z$ n4 @; ?* N
7 T5 R+ N: r2 U: e9 r
- M" k( v. M: V+ f1 v5 {$ v" Q  F0 |' h& p9 ^, }+ A
; ]/ z0 B) k+ W' h- s; z: A2 H* X; q
. ?7 y: ]2 h" j: f- T
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。  d& C: M, Z# [: H/ {. f4 E! N
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。' f% K* l  p, D
05
( u& H7 y5 S- ?1 B$ C! O代码生成
9 o* j7 |% l7 s9 B  H2 n来看代码生成的相关题目:. Z, J/ R( }, S0 {

5 @& n3 }! Z1 e8 ]0 r5 q# k# r3 k1 [" f7 a
: b* {  V( x8 |! O' h- S' |

2 j' _. d- H% b
8 T/ }2 A* K4 K9 [/ ?6 v7 m) e点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~8 C0 g! x* Y  z- u8 \4 V, [
再来看通义千问出的这道代码生成题目,二者作答情况:1 W) X5 i* j1 H9 P9 [: e( e
7 k1 B% L) J5 D0 k
% T! A3 ]3 G" O6 M

2 x' \- l$ [% h# V; S0 r: X( X# j9 _0 R6 J* \4 x! F0 D$ F

. b" Z' c3 B3 j. W" L. A% c点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
7 X( Y2 \3 ^, t% A% ]8 @06( u  z/ r- G: E3 |
心理辅导
# l( g. \) z. |最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
; c  W# t) o8 z8 @( \4 b
! e$ X- Y& h+ V8 b- h( U1 K* s
2 x) s* ^. {+ p/ H8 L% T/ D/ Z' G. M2 \& q) \2 t0 N2 ^) g1 t

' X* ^3 R* ]5 o( [- z; O$ c8 r; Y; T- ?. X1 ]! p
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。) ~# K/ c; I) f9 q
最后一道题目,由通义千问提出的问题,看看双方的解答:
# U" b3 h1 k$ Z
- k+ m$ S% U' G" G
8 C$ W# h9 q# l. Q6 s" ^2 i, A7 b

5 L6 f* U$ P1 {7 Z) W( ]/ V  j6 ~" j& D* g4 g* }; t
, Q  l3 e* C/ e. [) R' e, Y
0 f8 B" n$ T/ q' n+ U7 n+ A

& A2 g- z# U$ K6 }9 `+ K3 j, w. g5 h! L3 k; W' D& N3 A3 D7 }3 U
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。/ B) I: u8 Z" I8 \1 L
078 f2 [1 T0 [# e
总结
( Z) ~- T0 t$ }% h$ Y! c  A5 D/ g在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。! z; Z, s0 ^& v7 M8 f8 u& d
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。0 d! ?) w- h; v. R! T
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。( N7 w: v8 V- ?- v8 G' k
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。& X, f% T- w; Q0 Q! X* B2 I4 C2 {
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。: B+ h: x* \2 k0 R1 f; ^6 }
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。+ @3 [( H5 h: s- W
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。) H; z; C5 g; H; a5 \
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
+ O5 B0 \: S6 _4 f0 M& N从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
  H6 u1 m% G( N4 S文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。5 `8 [/ {9 ~& \- T  b) B# R2 o
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。+ {1 @5 V; x( T
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
0 a2 V" G9 P8 O$ X7 ^4 h, gEND( ?' @3 l! ~1 M! \- p& X, y
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-3-24 07:07 , Processed in 0.070161 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表