京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 796|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽

8 f  ^- |' F# V; s- Y- ]$ X) a+ r/ W& m3 m/ T1 m/ ~; x9 G  h6 A
国内的大模型还在路上,需要给他们成长的时间。2 ~1 y- ]% i% X0 }
来源|多知网4 k0 H% _: o: a' R: D& Y
作者 |王上
* r/ K! t. t. [( m图片来源 | 言之画
0 I9 d% A% w2 v比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"- v+ S# E5 R( y3 J$ [- U7 z: {
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
' c: o& @* e4 s- @# k/ g7 b' p未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。
: V0 ^0 i9 x! V在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。( B* j; }# j/ B5 |! U9 n
那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。! h2 l+ P8 y, |( G, w6 v. O
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。. c. g/ D7 y  r+ K; a; O/ S; D
通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。  O; Y6 Y1 z$ Z& {1 s* h& j+ p4 i
019 e' L6 A' i# S* j/ H
" 作为出卷人 ":题目正常、不算偏怪难1 B: l6 {7 g, [' i, C
/ B  K- G3 o0 x# b" j7 N
万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:
6 H" p8 z& h2 y- u& k! @2 o1 k
: y1 F( P1 }1 n" C* G$ [2 ^, Z3 M; |
* U4 I4 [! `! H2 o: M2 g0 I# R+ k+ `

! J- x6 @# H$ Y. y6 D/ P% d( r! F! B) k" [6 W+ V* T
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
$ f8 j4 y; |6 }5 ?对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
" R6 F2 k6 y7 U  H8 S2 ~来看他们下面的作答情况——
: o7 l+ u- l+ z; ~$ x# K) j3 x021 V" _0 u2 p9 l! @! ]- v- W
翻译题目' n; m; e& J+ d- s1 F: v
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:
; a4 q7 D* d/ d& g5 s  y, C) L6 r5 ]0 p
' v( ?9 }. M2 s& T9 A- {

% C6 f. e4 n! h8 H1 z+ k8 p( I, m# p# s2 S9 l$ ?' B
1 f. I6 N( U3 w9 G# W
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。( t8 `' D8 Z% q6 x) {* L
来看通义千问出的这道翻译题目:* u; f: C( F9 G( u

3 c, @+ i0 k0 |$ c* i8 E4 a, j  Q. P, k; P; Q% w

5 ^  @0 d# l, I) V4 J" K- w' S: |' j2 x
点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。
% `8 m2 x/ W0 j$ A8 @要么跟通义千问换一个问法吧,回答如下:
( @+ k4 k! \9 c$ K; k- Q* w
6 B4 A/ E; \! q% X" q1 G" A- b. }. h  S6 N: w
! s& L8 A4 N' ^: Y" O3 l, Z
越来越离谱了。。  ~1 b. n# ]8 b" o+ J( B& f0 ~

4 r! [/ o: W+ P- h. b/ W0 ?
1 k: N$ Z. K6 I  f& a' c1 }) R! z8 q# @2 r2 R

; T2 F- o, R& G' b) A2 \' c! m1 a% y% W
通义千问多轮对话的能力堪忧……
2 L. @9 d7 h+ q$ K/ S03- y- _1 C3 T& V4 }+ `8 a# n  h
数学题目$ V, L! T$ ~( ^$ Q- s4 P# t, v
来看初中的数学题:, \5 V  y6 a: {* V: S% {

+ U$ M( X2 _& u8 g% \
6 d1 R+ b) O1 d  k5 I. B$ [7 m  t9 v9 `  M% N" K) Q

5 R) `* A( P# ?0 b
! \9 {8 S3 }/ Q7 m5 j( n4 g点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
8 ~" l8 \7 B/ l4 p' I* F这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
+ S) X; y; y; k1 i5 J通义千问出的初中数学题目:$ J" {+ z/ c  }' \) Y# Z5 V) D0 f9 _* f

$ W! V3 N. i: S
% G; G" n0 n) X9 H% K! q( L" S1 J8 B- u' [- K& q  Y- A

. f$ c, v2 X- J$ g0 l1 }9 G( W7 o
3 t3 S& _5 \& U7 p% n0 \7 E1 j点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。8 [" G% D0 _# L: J
有点不死心,再次问了文心一言:
$ B$ o3 ?8 i! v
. U; F: j) A# {' ?5 c4 S+ h" G6 M) z/ J5 k, t9 H# x( l& ?
4 A% W, K9 f# g3 [1 d
我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。
7 l' [$ B6 K  W3 }, c还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:$ m5 [  L/ D0 X: o5 f
. e1 K5 t! Q& h9 v

0 \! z! S3 G1 T; G9 S2 @2 s; P& b1 J, O$ t
这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
+ q6 B+ m1 f# b( L" z04' Q/ s. ~+ P% A2 N& O1 {8 ?4 p
写作题目
5 @. R8 e! P# E8 q# `5 h7 G来看文心一言出的写作题目,双方的作答情况:% z  ?  F. r' d; h! A1 X

+ Z. D/ S/ e. d3 n$ a+ ^- C; r6 R5 t5 T7 z  V0 w7 _, \6 Q7 l
! O% Z! a) Z- F1 p# \+ q
1 c7 Q4 x  W8 G
6 {$ }& n! I" }; X( ]2 P8 E* o
点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。$ s, h' N" {' D- v- i' |
再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?& q  f# p  g! K4 W6 M
来看通义千问出的作文题目,双方的作答情况:3 b6 O$ U3 z1 e2 S  P5 s- t

8 ^  Y' z& O7 Q- i; A
; [( \; b  z! O+ L+ J
* G. t# j2 h' N, j; B! n- l3 D
- Y4 m5 d: Q% i4 v7 @1 P3 }0 Q  ?
) r2 c3 d3 Y$ @( w+ P; h; e. m- m& y; y+ \) [' _; i, p( h

/ }3 F% O" @) U9 n+ h' k
$ r3 E5 E* ~4 t* v9 [& d! \3 l2 t9 i/ h/ Z$ H9 g7 @

9 M( U* W4 w) D# X/ ?% T# d. t1 `1 z4 t7 K7 Q3 n" `
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。" g  d: r6 N: G' A3 i* Z
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。$ u  r! f  \! i8 \% J
054 A% q& d5 F& M7 O3 I
代码生成3 Y/ f! P2 t8 U* n
来看代码生成的相关题目:9 B& }+ q5 Y7 O; C( q( v, q

- X2 g* w# s3 R7 u! R
4 P/ i9 K; k4 K! j& `2 y/ S+ C
# H6 _/ h1 |8 L) V
( C* f  @/ h- P) i  ?
1 t: }' w8 g! ~点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~
1 {6 g1 `( u! t4 s再来看通义千问出的这道代码生成题目,二者作答情况:
$ Q: O2 x8 F/ o6 ~0 m5 b9 Q8 K
7 F# B# k& c" \+ o% h4 I8 D
* @4 L+ n' g, n+ q
6 C" d* H, Y& o
  h. F6 ]& T# B6 v4 J3 m$ \3 `0 f* ?! R" x2 L9 \
点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。". E' A" P. G1 \+ P
06% ?1 z$ g/ c5 S" h7 e
心理辅导  w: ~9 w! {# Y1 F& t& X
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
1 E" R9 P7 ~! _+ [0 U% }- i8 q( [/ _# o% s4 D4 N* n/ m# s2 G% R
% N% {( U' R8 h" F7 v4 O

; T9 `& _/ M3 H  [
- m* w& q3 c( v  }
" b; n* k' u8 N% C$ |/ O# P" x+ O点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。. G( W" t" |6 z5 m
最后一道题目,由通义千问提出的问题,看看双方的解答:) {' ^7 O' F- b. J: w! a

3 }+ H. C4 a# e* P. z! b+ _: w' q" i, M9 Z/ U7 v. v- j
% |% ]8 z4 T$ A, T$ X. H! A0 m1 r

) o5 \, Q: T! `5 }8 g; ~: s) A6 j4 e
( M8 @- C* l( V
$ y1 U7 ^& b  t: J$ W

6 r( t1 T9 {" ?4 q, Q
$ }* L) g$ ]( S7 l' ?+ E点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。" \, D0 M* q) {% t1 s
07. F9 B1 [# G7 C$ V' D
总结  O, e; y& Z/ y8 t  X) n
在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。) [- P, \- }% B
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
5 P1 ^* h0 O3 r- T& O2 d! Q9 J在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。# s  S% Q, N8 Q) @: ]3 F4 N/ x/ Z
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。
7 [: [/ M8 C. E: {: o- _! Z+ g8 \在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。- b' R* t/ n$ g0 G! f. a
在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。. T5 E9 \" O7 S4 p9 _1 X
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
! Y0 f. K0 P! {/ \+ {' o5 k+ f+ M从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。; ^! l, M" y" c9 a; I3 c
从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。
) v, l+ Q) O# f7 y2 O文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
4 W: I! ?4 `2 W" z这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。
/ d3 x' |* g$ ^" C* ^9 y8 i: j- a0 ~盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
( z( w$ ~* x8 Q/ |! \1 G1 AEND
- r. I1 c" G1 b0 f本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-3-24 08:57 , Processed in 0.064387 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表