京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 739|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
! t) K  t! M4 S& O- v* K' u) m- G
  O; t# R% V, w2 A$ A1 M+ m
国内的大模型还在路上,需要给他们成长的时间。
' v( B. y2 b) a# O* q! k9 X来源|多知网: W8 c  Y% X0 i4 F9 [
作者 |王上
* o# B3 T5 O* M) _; T" U图片来源 | 言之画0 ^" v1 m3 N4 f. D+ {1 r
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"
" U6 U+ m2 h+ W) R3 \7 [; y今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
2 ^9 c6 H# `$ q未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。' V) w& u6 b. n% P& D
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
# \* q! r# b& l# l那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。
' P: D; H, c. G我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。, A, H$ ~% \4 E
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
4 L& l1 l/ z) n+ [& k) D4 x01% h4 c* x: p( D% j
" 作为出卷人 ":题目正常、不算偏怪难1 X1 B" \- Q0 X9 r  f
1 Y' J1 [; ^2 v$ D2 u2 N% a
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:. O- d1 @# D( ]. T" T8 e
( J9 }, u+ n3 i8 c! |$ i

0 c  _1 z. s% P4 V; w
: h) w1 i' z! n. {" ~) u8 A6 @1 [% R0 k$ w
; i; H& h6 e; T- l" y
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。5 i* a3 t! `  }4 N/ U7 W
对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
, h$ r- Y( i4 G; b. W* T% }来看他们下面的作答情况——
; |( K$ G; f3 ~( p# r# q, V02
& g% J6 p+ H6 M3 N5 {% M4 J翻译题目
4 W$ f  L8 Q" Y8 v1 `% v! z第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
; |. L( }! O8 j; Q% ]" {6 d- q9 @% J8 I

' [- n1 c4 `( |4 y$ B. D3 W- j
( c( i* V$ y) V% M
9 k. E6 O7 _+ ]
6 U; Y1 m6 F! _! ?3 d: ?/ Z点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。" ]( m) P& R% d$ n0 k! i4 m
来看通义千问出的这道翻译题目:
- Z& Q! b4 O$ c  `1 \
( N! `$ W. h) x4 ?' f0 x
! B" w* m7 n# e2 K# h' F
1 Y& Q' Q5 ^9 H. w$ p  Q- ?' ?" N- i5 y" N
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
8 d% }+ b* ]5 O3 l7 g  F- m' H要么跟通义千问换一个问法吧,回答如下:
: r9 t% V8 a" t( Q
, M% ^# g& H7 B3 S$ n/ @* O  f4 E1 Z$ f& C
# n% j+ F/ \6 L% m
越来越离谱了。。
- m4 D4 z8 p% N/ h1 O2 @
3 t3 Q4 q. T' [( [; O
& ^4 E/ N5 t2 J. r% X6 B. c9 s1 e/ d/ L( X1 S6 a
- ]5 T* v, o2 U5 B/ p  F7 Q
; f2 k$ w+ d# [1 E4 h( ^2 P) |
通义千问多轮对话的能力堪忧……+ Y* o0 T' p. d: ~8 @
03
; y( R. L; ~0 J+ m4 I数学题目
7 t, P; T5 @' x2 {1 n4 J+ D/ ?来看初中的数学题:7 i5 K9 {* f* T0 x) }; r  n; ~% d

+ Q7 r' B1 e) ?2 v! @, Z) c) [8 a' S% B/ |) _( g9 A

" n1 ~8 g1 X7 d* Y7 b
; R" Q" v& x& N+ n* B, `9 `3 K  j' R. I3 t- b7 y" ]2 S
点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
% ~% U7 ^7 s5 ]) C. d& F) X; Y这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。. R0 Q1 F) j& l4 M, v+ F7 {. D
通义千问出的初中数学题目:7 ~7 `+ o! |3 P) O  Z8 \

7 N8 C- _# Q9 ^. F
9 h/ V3 J9 ?$ a- v) X8 p# Z( U- ^0 L  V9 {
$ D) f. z; o1 v% o) G  R: @0 \

# J; L0 b  l+ H+ N! A9 M/ O/ |4 w点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。! v# u0 r# L* K9 m3 n( S7 Y
有点不死心,再次问了文心一言:8 E3 I3 ]! c2 z" W7 ?

6 D4 {6 C# P) P9 K3 M' b. O, B$ a2 K) j# U9 `
* \4 u/ K; S9 ^7 E! L
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
6 t- ~! G( k( T9 W( I% ]还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
* }- a! Z6 O' \7 `7 v& }: c# |- o6 t  n

/ M! u( V9 |3 z$ B0 y
# y( p6 z2 Y9 W0 F( g, H' z3 I这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
  N$ R# _7 v2 T% i; S* q" N04$ V* n8 Y: J5 F* [
写作题目; ?% J  y# w4 k7 @
来看文心一言出的写作题目,双方的作答情况:
& x# ~. Z' S5 \9 A  U' C$ c' u8 F' p

# a# o& W5 H9 ~" U3 y* Y
, j" ]( y3 \8 d5 N
  L" i  K9 h  X" ~, d7 |6 m8 ~
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
& k$ J* x* X$ _0 b' A$ x3 I再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
' q# C0 g( q# s, {7 o5 w来看通义千问出的作文题目,双方的作答情况:  z9 g% f- y/ {1 d- @" V7 `: ]
2 C6 k; `5 ~# K  ?4 k- S! t9 S/ `
# ~1 U# W2 W. Y7 |5 @

0 n5 Q* j' ~7 g( ~0 }% g# K
1 j- d7 E/ t: J
7 _' x! u$ T9 Z! v
8 S. ?; t3 T/ ^+ `+ n. w# v/ S' e* N0 J
3 Y- A% p' f' W) o% M1 ~

) Y; @5 e8 P9 B6 b8 r* I
; F" H& ?! K* ?+ U. c5 ?' K& j3 {+ L/ B. F$ G$ t
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。
: h; X+ k) t7 b对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。
" E3 ^& `. E( d$ F7 m# G055 T! `  i0 S& E$ }/ O
代码生成
+ }' w4 k" Q: S3 Z来看代码生成的相关题目:- v* X( t) c+ P! a5 s
2 Q, o8 h3 L# f/ s8 _  k& V
1 d! O" V; A1 @& H
2 M3 K; ~( X. @& I+ N& G; |( _
" o; d7 C4 u3 ~( L' A
# ~; L* X0 n) H- h9 q
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~+ B7 n7 j) h  c- ~1 S# U
再来看通义千问出的这道代码生成题目,二者作答情况:3 b. w  s! V# K3 y

, x, W% s. ~( d) G# l; R: f1 X9 o* E5 B/ R4 }4 C
% C9 Q0 v/ o$ G$ H8 M" @; k/ S

3 d1 l6 F& D. I, _: h7 Z- ~
0 H: V5 z4 n, z, Y" d5 e! h0 N点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"
, t" Z' w8 p! w. m; C06
+ O* T: ~9 F# |# i/ i# W* r心理辅导# [' J% `4 i# j( O  F  d. v! W. D
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
, b: F. W( n+ {! ?
0 p. `2 {- D9 B6 H" h. W/ @, p9 @* E* f& t2 e5 |

, O8 v6 F$ |* O5 Q+ Y$ l' V6 k
! x  v3 c) W9 P/ c* L' ~2 g
2 H  W9 l/ J. x2 |- l点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。
2 p( _8 d0 S+ B+ g9 s最后一道题目,由通义千问提出的问题,看看双方的解答:
8 M# H0 X2 M' q
2 U7 R$ g  c. N1 f. n) ~
; q1 I! Q3 X- G0 J. f) |, |
' {2 A) a. `) v  J7 `$ V
% B2 m3 ]2 P& U% t( O
$ z2 f/ h, u& |
7 M# r8 B% y  [: K9 i* E0 L: Y' [7 K& G
) h# i; B9 T5 N* i1 Y

, H5 e) [2 e! W! t9 Q  U: e( O2 \点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。
  w' s8 R' R7 F" t) A07
, t& G5 |! B8 d% y6 Z. e总结
: R" k) u! H1 o' U, r; v在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。
. ?3 T* B' A9 j" x针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。# k& A1 d/ {2 H( w6 h' h& d
在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。; K" S, J- r  V9 {9 q
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。3 _" `3 z! n; r2 [/ j+ M: T* V
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。  R4 b1 f/ d; t( p
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。
8 x4 [. D, p  G从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。9 ?- x( Y# D, I$ F: A0 {' C3 d4 i
从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
: Q% Q+ v9 Q6 S( Z& x0 ?从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。9 j7 q( Q; P" B* B) q9 H
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。1 S! K+ J, s0 V8 [6 Q
这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。) J8 a+ @9 t" K& v" H+ n
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
8 Y! ^6 K0 b- n8 A$ b: R2 KEND
* W6 D) G0 W0 b5 ~9 E3 f! c本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-27 13:40 , Processed in 0.046656 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表