京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 836|回复: 0

文心一言 VS 通义千问,谁更懂学习?

[复制链接]

1586

主题

739

回帖

6687

积分

论坛元老

积分
6687
发表于 2023-4-24 18:38:40 | 显示全部楼层 |阅读模式 来自 安徽
* c1 X1 r  A7 G3 p; p
( g8 q3 f9 w$ ]6 _
国内的大模型还在路上,需要给他们成长的时间。
; a. K+ q: z5 p* Q3 k  z- T来源|多知网
: c! @; g, C9 c# }$ k5 x8 K作者 |王上+ ]) ?6 a! U$ m! l" ]
图片来源 | 言之画& E( {" l2 }0 W
比尔 · 盖茨上周二在圣地亚哥举行的 ASU+GSV 峰会上发表主旨演讲时表示:"AI 聊天机器人将 18 个月内,可以做到教孩子阅读,辅导家庭作业。"" `/ z" \' @0 x8 g. D9 p1 ~) Q
今年 3 月和 4 月,百度和阿里巴巴分别推出了自己的大模型。目前来看,百度的文心一言和阿里的通义千问均可以多轮对话、文本创作等。
9 E6 W" G9 ?# w" o: ^$ Y. S5 [未来,大模型将会朝着多模态 ( 文本、图像、视频、音频等 ) 继续发展,也将越来越逼近人类的智慧。  ~. p" ]9 E5 B
在不少专家学者看来,如果大模型足够成熟,将改变教育体系的核心要素,包括教育目标、知识获取方式等。所以,这波 AI 技术的爆发非常值得教育领域关注。
+ T2 D6 d8 U3 c( _那么现在,各家的大模型进展到什么程度了?是否可以在学习或者教育领域直接利用呢?我们让百度的文心一言和阿里的通义千问 PK 了一下。2 \6 o, W; R  K" k" }
我们让文心一言和通义千问在高中英语翻译、初中数学题目、高中中文写作、代码生成、青少年心理辅导方向各出了一道题目,双方针对所有问题各自回答一遍,这样就总共是 10 道题目。
0 d+ K& S5 g/ L1 u* O通过评测,我们看到了大模型在学习或教育类的问题上暂未成熟,尤其是数学这样要求精准的科目上,仍然需要继续训练。不过,我们依然看好大模型的未来,他们在教育领域的应用也是必然。
  @1 r% J3 j5 V01
4 [; v# p) g# Z9 f " 作为出卷人 ":题目正常、不算偏怪难
8 n4 @2 W4 {& j" T# J; Y6 ?' ~
4 x; Y9 K" a$ |8 b. d$ c万万没想到,在出题上双方就迥然不同。以下是双方给出的题目:6 p9 R5 T) C; u" |# z3 x' t) D

: u3 A' G! x- b# e' d
. P' a+ L% ^& m- ^# I- b2 s
# I* |4 h9 j$ t' O4 K- q8 K  ^% K8 Y: \) C0 p
0 @; Z5 P" g7 T7 w2 U" }; p
点评:文心一言每道给出了 A、B 两套题,通义千问按要求给出了 5 道题。我们给了文心一言两次机会,它依然出了 "A、B 卷 ",有些看不懂 [ 挠头 ] ……我们最后从每道题中选择了一道题,除了第 4 题外,其他题目都选择了 A 题目。
1 s- f6 H; ?+ e对于这 5 道题目,通义千问看起来更灵活,也更有针对性,更像一个 " 出卷人 "。比如,第 3 题,出一道作文题目,跟通义千问的题目就非常像高考热门命题方向,是跟科技与人文相关的。从出题难度上来看,双方出的都比较偏简单。比如翻译题目,双方出的题目看起来都不像高中的英语题目。
3 G) N, `' }0 j5 h+ c0 d" `0 c来看他们下面的作答情况——
/ p& i) A/ o7 f9 \8 g7 J) G02) L3 C3 Y0 i. y: D" F* s
翻译题目1 B+ A/ \$ I  w0 C- \4 h
第一题英文翻译,文心一言的题目,是让把英文翻译成汉语:! f' I. P  C8 H

! g( e& y) `  ]5 b8 J; Q: L/ X# C$ ^
9 Q) z$ r& C/ {: ]$ _; |* S

! o  x  q0 j" c' `2 A* k+ }/ ?. {) G9 X& d- ]7 y: T
点评:这个题目两个都翻译的大同小异,通义千问的会更具体。可能因为题目是文心一言出的,所以它直接翻译成了汉语。而通义千问会问是 " 翻译成哪门语言 ",考虑得更周到一些。0 q' |' ~9 ?8 U9 \1 B
来看通义千问出的这道翻译题目:% e. g! h2 H3 f" i$ n

% w6 l' }9 t2 S* p& G1 I
& D. `! n. x  Q: r' S/ _
% {1 ~: ~! k) L( I0 Z3 F) D& ^
8 J8 Z! i, K2 x. ]/ O( ]* w点评:文心一言翻译的是 " 请问我怎么读这个词?" ,通义千问翻译的是 " 你能告诉我这个词是什么意思吗?" 文心一言的翻译更准确一些。通义千问自己出的题却没有答好,有点匪夷所思。" z: V9 T0 h2 {, B
要么跟通义千问换一个问法吧,回答如下:
3 s+ v/ U1 j0 k$ ~) }+ }9 o% C+ B7 T; \  @6 g5 w
/ s0 X) q' y. I* A8 Z3 L

2 G2 x& U5 R4 x% P" d& d越来越离谱了。。0 T7 G5 W! ^/ p) L
3 Q# J1 p. i- w5 @4 a+ A9 k

5 B% M$ k# P" S
. K  w* o5 T& S3 L6 M" c% E1 s4 D+ b2 F3 s- c

0 V- G/ s9 L  i! Q) W通义千问多轮对话的能力堪忧……/ j9 X; n: R4 s2 ]
03
) l# b. ?; G! B, I) h/ b数学题目
3 @( p, i9 c7 D0 N5 Z- W, J! f3 Y来看初中的数学题:
# {( y$ k# P0 h4 z2 g5 s* I+ [& S# K8 t6 _. h# q# E
5 D% i' J1 s' g  o: H/ o0 D5 K' v* h

; U" b0 Y* w9 z2 L% e2 P% r
6 M, |" _! I9 e9 J9 j
- N0 G! ~+ C- V' M" y点评:又一次匪夷所思,这次轮到文心一言出的题目自己也做错了。这道题目是分数相乘的结果,文心一言理解成了除法。即便理解成除法,最后也不应该等于 6。不知道这个结果怎么来的,迷之尴尬。通义千问理解对了,最后是 1/8,即 0.125,这是一个确定的值,不明白为什么最后它写的是 " 约等于 " 号,不知道是因为不自信,还是因为马虎写错了?
2 E2 o. t% ~; Z5 }$ n" G这次二者相同的地方在:都没有给出解题步骤,也没有给出解释。
4 }& F0 }, b: \8 _通义千问出的初中数学题目:& L) N# Q% f2 O- `

' N3 E' g6 G2 j3 w7 z
  C! n+ {" v# h: ?! E! T, V
  P3 @- B; O. F, y: Y* B% [  e
, e; k  k. M4 b; j3 n  @9 T& h4 v, A4 _  r+ N
点评:让文心一言回答了两次,都是 x:9,y:0,文心一言可能连正三角形是什么都不知道。这个题目通义千问回答地非常清楚,给出了完整的解题过程,结果也是对的。0 ?# ]) z$ |% g5 \1 C8 `& p
有点不死心,再次问了文心一言:
- K( d+ y" u  F
9 j8 z3 }, C4 L2 R* n, U" p1 @6 y, `# v# n" w- y

2 m. B* ?; m  X$ ?我们发现,文心一言其实知道正三角形是什么,但是,它就是解不对题目,第三遍依然错误。3 _7 J) ?" T3 M  [
还是不甘心,继续跟文心一言对话,想着让它让画一个正三角形的图吧,如下:
* p; a5 A9 F( h0 b. R/ `$ @# f2 E# {( [. C0 x2 s9 e! p

9 @1 j' V1 C4 V( H
: Z1 K1 w; P6 O/ o7 b这……好吧 o ( ╥﹏╥ ) o,文生图的能力还得加油啊 ~~
  h2 }  ]% q: s* _8 {' ?04( d0 W3 ]) a" w. T5 O  L
写作题目
! O6 x2 J+ T. }. {来看文心一言出的写作题目,双方的作答情况:
3 o# B3 y( W" R. [  R/ W, Q% f% n0 V( R; V2 s' f: f) n' U0 Z
- ]) |* y9 A4 N  R" C1 I. Q
" A* ^' j8 `$ n( f

5 c8 Q5 d5 ^$ O/ U
4 p: d+ o. G2 l7 \. ~点评:从题目来说,这道题让人想到央视 2012 年的采访," 你幸福吗?" 这道题目看似简单,实则有一定难度,很容易落入俗套,很难脱颖而出。
( m; k+ I7 Q0 R* K; r  S+ M" k再看两者的小作文,第一句话居然神同步了。从内容来看,二者结构也基本相同,均是从各个角度阐述 " 幸福 ",不过,文心一言更偏重个人层面的感受,而通义千问涉及到社会层面以及与他人的关系。整体来看,不分伯仲。大家觉得呢?
+ w1 M; E2 a0 q- C- U5 P$ g# ]7 i# b( ~9 x来看通义千问出的作文题目,双方的作答情况:
4 n' z* D$ U( k+ P
: Z$ l2 B& W- m% b4 U  t
" j! Y& `+ T, ?8 @/ ?" J/ w$ d. x% v( c2 W& T2 |6 ?

: |. t6 I+ M/ }3 Y7 D
9 M' P5 w; {8 ?) x
6 i! {. u  j7 u3 z  E" v
( Q7 `# m. y( M; g* i
* i+ u# h- @3 I1 d) J7 t; w; A- ]9 N
% Y5 U+ G2 Q; C2 y1 r
# o& I- m: T4 O0 j8 M7 V
点评:从题目来看,通义千问出的这个题目非常像高考作文,很有出卷人的视角,是科技创新的方向。3 H  p  j! ^2 ?7 c
对于两者的写作,文心一言对这道题目似乎有很多思考,但直接按框架写作的,有点像论文,读起来有些生硬。通义千问的这篇虽然篇幅不长,但看起来更像一篇议论文。) ^7 M5 Y  g6 i' v; |1 I( I
05
" ^( J9 y" F3 \1 o" \代码生成
6 W+ j0 K' c" M9 v8 \1 x0 @来看代码生成的相关题目:5 M! e$ U: ~& G) M2 k( Z7 a" ?% \

7 b8 T- e+ _; _# U0 O' I5 k" e/ g. p, _* N& h5 B- T9 m

3 M! o7 E* V# v# H/ c
2 |  @) x  P& D5 C) Y+ {) z: B2 U) C; \" d8 m6 O
点评:文科生表示看不懂,拉来一名程序员帮忙看了看,他表示:" 核心段是一样的,不过,文心一言没有声明变量。" 懂编程的老师们可以留言点评一下 ~~! n9 z  u7 e2 a0 }3 D
再来看通义千问出的这道代码生成题目,二者作答情况:3 t9 x) u0 ~0 h3 d8 d2 n* b2 w1 M
+ a3 I3 ^& @  L! p. ^
! W# R% y) c0 j  T9 M0 d
4 a$ S8 a- O& A# X! H
9 `: i3 u, y. F+ N: O

" y5 i& ~9 h6 I; u8 f% Y6 I" a+ F点评:同样来自程序员的评价:" 这两个对题目的理解都不一样,所以写的也不一样。文心一言的是生产随机字符串,26 个字母随意拼;通义千问的是随机的英文单词,我感觉这个更切合题目。"% O5 W7 P. r! ?; `' \
06
+ m# R4 k$ m3 G7 R- _% j- e心理辅导+ H1 Y8 B; S% f
最后是心理辅导方面的题目,文心一言出的题目,看看双方的作答:
6 L0 w# z9 P+ B# i4 Y  j( Z. e" A! j2 j9 D$ m# N/ U
, z! y# u, @$ K: Z" f

8 p% r" [8 A9 i* R2 I. a" Z: U7 }4 E) W* W

- T0 n0 ~7 o- A8 b2 ~4 `点评:从题目来看,文心一言出的这个题目比较宽泛,比如情绪有很多种,是什么样的情绪呢?文心一言并没有说明白。在作答方面,二者在心理方面的辅导大同小异,且都是列点式的回答。两个都给出了管理情绪的具体方法,比如都提到了冥想。# k% }/ {+ @2 u+ m3 ]
最后一道题目,由通义千问提出的问题,看看双方的解答:
, p, F8 i; B0 U( p" G) ^0 W( N! G
! f- @7 e4 `( H( L, Z' L: O; c! O' G

1 |5 H9 B5 Q2 C! P; i* c4 }& H# B6 ]- t
" I1 f, E2 S% e: \

* m4 @' i+ d  m+ E' A1 ?3 D- {/ V* v, \) Y8 H8 s
6 m7 A; ^2 \: O  X% p+ x- }+ s
$ p5 t( M& S! n  M
点评:首先先看题目,通义千问的问题非常具体,很有针对性。再看作答,两者给出的心理解决方案都非常具体,文心一言还给出了 " 焦虑和压力 " 形成的原因。二者给出了不同的心理辅导方案,通义千问的会更多元一些。相同的是:二者都提到了学会调节情绪,还都提供了相应的理论参考。' S9 r9 Q7 g# y5 M  q
07$ u6 m* p/ [  H: C
总结
& {  V4 z$ l5 F- [( W; L' }在出题方面,通义千问像一个出题高手,针对性较强,文心一言出了 A、B 两套题,可能想提供更多的方案,但有的题目比较宽泛。0 r# a% n* l) |1 s- O! r
针对题目解答,在翻译类题目上,二者不相上下,文心一言可能略胜一筹。
3 x* K  x1 ^$ d# b# l; ~在数学类题目上,看起来通义千问更好一些,有的还给出了清晰的解题过程,文心一言还需要提升。3 L1 T+ d; C' D% b5 i
在作文题目上,二者各有千秋,但都还是有机器回答的痕迹。8 O, Q4 S4 _3 b  f  s
在代码生成题目上,都有这方面的能力,可能文心一言需要更理解题目。
' g# x/ g8 P; j) z9 D4 s; U  m4 [在心理辅导方面,二者都比较详尽,对学生和家长来说有一定的指导意义。6 x+ r/ S- ?  m
从整体作答风格来看,文心一言偏稳重,通义千问更灵活一点。
: t0 Z9 _0 q- b* ^) |6 F从答题速度上来看,通义千问的速度更快一些。比如先给文心一言输入问题,再给通义千问输入问题,最后先作答结束的是通义千问,文心一言似乎会有一个 " 思考 " 的过程。
3 a+ y9 M+ Z& u4 E& U2 }从多轮对话能力来看,两者都有一定的多轮对话能力,都可能会根据反复对话有所校正,文心一言可能略好点,通义千问有时候比较疯魔。) k# ]2 A8 n) z$ K, R' D
文生图方面,文心一言还需要提升,差距比较大,通义千问还没有上线文生图。
& K! F$ [& _7 e( m这次评测的均为学习或教育方面的问题,题目不多,或许评测有偏颇。整体而言,完全用我们目前的大模型来辅导学习,尚存距离。国内的大模型还在路上,需要给他们成长的时间。正如 ChatGPT 一样,它也经历了从胡乱解题,到逐渐靠近正确答案,尤其是 GPT-4,在专业和学术上接近人类水平。+ m+ g# F) {" c) J
盖茨说 "AI 聊天机器人将 18 个月内可以辅导作业 ",指的应该是国外的大模型,国内的或许还需要更长时间。
/ \) B6 |8 f3 V8 y: e) IEND
6 }# M/ F# {3 j% d1 A. q7 n本文作者:王上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2026-6-26 20:33 , Processed in 0.090316 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表