京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 840|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

$ q: ?3 R5 }. g1 Y$ E" p5 s% t- T
国内的大模型还在路上,需要给他们成长的时间。" r. E, ]' E! h9 ^* X& ?! x1 N5 u
来源|多知网" P) U9 e( ^' J; y" u
作者 |王上- G5 g/ z0 x7 A1 g- p; F  A
图片来源 | 言之画
) B- Z- m. S7 c1 Y" y比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
* x* F5 \' l, g4 L! U6 R! V7 G6 U今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
6 ?( F' B+ g. P% \& C未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
& `! K3 ^( Z) l, c在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。, F) R1 E3 i5 a5 t2 M2 ^
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
. F$ m- b3 t% _9 q. [% b我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
# N. o: ]2 E9 p# A7 U1 \! b' \通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
# X. h6 R1 w& j' X+ O5 a9 m011 q1 T+ G' g. W8 r
" 作为出卷人 ":题目正常、不算偏怪难/ V+ p) `# ^; O$ y( {+ D0 B2 P
" @" h- V9 p/ e0 `3 V4 }0 L
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:$ B. O' e. _/ i  l1 C3 X! B  m

" v2 G2 \. V  l. f) f2 \* T9 O8 D- |* t- b5 Y7 O
! u* {" u4 \, z
! w  I6 F5 Y( t

1 e' |  e* N6 J) ]点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
& n9 G5 u0 G; X: X5 p对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
8 l7 Y6 g( o7 u来看他们下面的作答情况——
  M9 t5 G. E( ]' X# w02
# S* ~5 i3 B% C' U/ V翻译题目' V& U0 b2 G; n7 a7 c
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
6 q. G. ], Z! y& M5 a, x$ e3 m3 ]
: p' J. y" L" Z( e5 C
2 W4 d5 b) y  i& W4 k4 ^! E& z; W" b% M

0 ]2 V1 H5 @5 I+ C# [4 s3 {% _0 l5 A" x
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。
( E$ q5 ?1 j3 v3 |9 V% V. S# G- E. K来看通义千问出的这道翻译题目:4 X/ _) k6 }1 {& N% J/ \- I
8 h2 t5 |* r' `$ D# k9 o
. w0 N# l+ r7 v9 z+ I; i' x
% K( [7 f- A4 G" F  f
7 A2 X; \6 Y4 Y$ v- i7 ]; Z# F: j
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
7 I* C; f+ V" c; Z8 b要么跟通义千问换一个问法吧,回答如下:
0 u4 g; {& z; R9 \6 q4 G. ~% E* S& w! l/ B, K
6 y* C: h) L  M1 _8 {  w

; h0 G- A9 L' I+ p  G越来越离谱了。。) h3 G3 L  @, e8 t; f; ^$ k

8 q& Q$ v: V$ Y0 [( x! V' T) y" Q% m$ e# f! E' j
0 |& A3 ?( z. _0 W
2 z, v/ J+ z; I6 D3 z" W

+ c8 q& V+ Q- c: e  D通义千问多轮对话的能力堪忧……" S9 n* A1 I1 C
03) M. N) f- l7 n: L1 w; Y( V0 q0 X- k
数学题目9 Q& O4 E1 o/ L+ O
来看初中的数学题:
! p8 @& k+ ~9 D- Z& y% d; @( ?7 W9 F* l2 M. p& i

4 j, s% T7 Y; V9 p6 ~
' n1 g" h4 h- a5 L6 \
8 O% K: \$ ]% C# U, U' q* \$ U. S" N* F0 C. d, P! t! S6 r
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
8 u0 T+ T0 h5 _! k( v! k3 d这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
$ K1 D' X& P7 e& T+ l& ?3 x7 t通义千问出的初中数学题目:. S  e# g" g3 V. I3 d& K9 V

- ~) W9 u9 ?" Y3 ?
2 O  N# Q( O# D4 q) _( ~) z1 |0 a4 j( h0 L# N" b5 M& G" R

  ?6 j' |( |5 @8 f) A2 [; y& w$ B5 R
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。) r* z! `0 Y) s- d& |5 H
有点不死心,再次问了文心一言:2 E& O4 V& u4 E* M
( w$ O# d6 o. B+ ^1 z7 |4 }$ v

7 n9 v) U, G) D: K# X* W$ {3 `# m: S* l$ v: D% \# x6 y, x0 C' V2 R
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
% C  q) B% `( U" }. B0 A还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:6 j. a% O+ o3 e- U9 y/ q
! z6 F+ p5 v/ l
  f8 @; l6 O0 |8 ^

% y; v( ?! c" ^( H# [这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~$ |  g# K$ U; l9 G* n. F
04
0 i4 T- v( g# T( L) ?写作题目
5 \7 o/ u7 `0 A& d+ h5 b来看文心一言出的写作题目,双方的作答情况:6 C/ T- ~1 H- [  x0 o5 }, P* K
) J# I3 }: [! \! D6 K

( ?" l' v( D' G( Y) z% Z: y8 n1 n

* c$ [, K- B' Q4 F8 ?! e% K. T+ r
/ E/ Z1 f6 u2 ]: N0 W7 Z3 Z- I点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。2 |) y3 S" ^/ }* S
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
7 z( P* P4 b* Y) }2 O. a来看通义千问出的作文题目,双方的作答情况:, W7 S7 x) U9 @# ~

6 P( }) E7 e& ?. N: A% j6 Q- E! K8 z" _! b4 x: E( o3 p( |
$ l% S! p8 k4 s% E

& U& N* H: q# k0 M; K+ @9 N2 z9 o7 ^3 B
- R$ w3 M5 Q/ U9 v) `/ j0 j

! b  h) g8 T4 V* `
, v( k' [- @* ]3 ~4 G# ^6 R$ M
. G' X/ s; a% @8 @  ]! `
# O/ k  Z( l: h# J! b  c) P
6 }: S4 S! R; E点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
3 p+ a2 ~$ u* D5 M. a. J对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
' R) q0 W7 d7 ?$ P7 t* f  B05
8 |+ w4 `2 S; ]7 c  R1 P. Q. W9 ^代码生成6 U3 v  ^; ]) g
来看代码生成的相关题目:
) g4 O! G" J" |2 Q2 [- K" Q9 \) q8 Z) \* W' d% X1 q0 T% _
7 w. @/ j' m% Y/ O8 f$ U
: D" u$ E/ p' O) E- _4 i

9 ~) G% C5 n$ w& O7 Y; e
, R3 ~" h  Y3 R/ v" ~, m点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
. s- J6 |. @5 Z3 `2 k/ [- A- I  n再来看通义千问出的这道代码生成题目,二者作答情况:+ S$ f6 G- ~7 ^

  y; F- _1 @; B! }
+ \" @  u8 w+ I( ]. O. \! N
$ Z7 U, e- ~7 d8 @( w* F
* f+ G1 H" R& r& o
* E7 {# ]+ a2 M6 z4 |3 Q3 d6 U1 C点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
% d' I. J" y" O' s06( W! X" Z2 J6 W+ K: k) h
心理辅导3 Z* ?( k, r5 O4 R9 H& Z2 U
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:* z% Y& E/ a4 z9 t0 t! K
) i* v; |! B4 a" x5 x9 r; t" w: G* v
5 h* [$ m- f6 u+ J8 z1 [
0 g4 u5 e% h% l. R2 K
5 t- D8 y* k- A: Y9 Z* ~: i
) I  K4 l; ~( h4 {0 G/ E6 T7 U9 C
点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
. U- d- Z" o2 G) k0 Q8 }6 `最后一道题目,由通义千问提出的问题,看看双方的解答:
2 ]) A+ v% Y8 G, l) K
3 W( y! ]4 I9 s; b. l6 _- @0 V
! t* c: p' a2 n  P5 I
, X5 F2 ?2 I  d+ G/ m
+ B& x) N9 h* h7 @
. P4 r+ X, c5 j- w, H
3 @* `2 w* S1 O3 g1 L' U2 v6 ]( a9 g3 n2 r1 Q8 {! n  i
. D: A, i; x! T7 A% D' Y# J. T
' l+ s- L" k. m9 A, k
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。7 w' E6 x7 m/ T8 N: B. Z
07
( E6 @6 i3 T, Z; ^总结
9 {7 Q5 h& [! F' ?在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
, m. T0 y3 h: V: L针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
/ d" L$ `( A* d- t$ L) o在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。! l: n5 K' K" R9 L) N/ N
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。  @4 @( \, n; _, S- k# P5 l
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。) _9 V6 S( O. W( A- Y
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
; m$ i+ ^, X+ y0 r6 B  F2 H% R! H从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
. J; T5 v) I- O8 Z: V0 a- h  C从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。5 ]4 @! `! I2 U& k6 D3 o
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。8 }7 ~9 G5 p5 h( m) u
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。1 P1 B3 f7 \! `
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。6 R" M6 l6 T/ v; r" v  ?2 Q5 [
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
3 a1 S- O0 \& p" F9 s* TEND, V# j! \$ _( B7 Z( Y% c
本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-26 21:56 , Processed in 0.097055 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表