京东6.18大促主会场领京享红包更优惠

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 841|回复: 0

震撼!GPT-4 来了,支持多模态,全面吊打 ChatGPT,完虐标准化考试 ...

[复制链接]

1598

主题

709

回帖

6633

积分

论坛元老

积分
6633
发表于 2023-3-15 12:33:45 | 显示全部楼层 |阅读模式 来自 江苏南通
智东西(公众号:zhidxcom)
! z; r& ?" |' G  T5 I7 t# u编译 | ZeR0
3 K/ B; ^+ _. Z3 z; b编辑 | 漠影/ `1 j" i' Q( [$ K, s9 F8 a
智东西 3 月 15 日消息,今日凌晨,万众瞩目的大型多模态模型 GPT-4 正式发布!! A+ s) I- U5 x2 x# z
OpenAI 发文称,GPT-4 能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。
; ]( s. u+ r3 p2 G! a! Q! c# U+ o6 X$ L1 g
4 k( q) j1 w* i% ?8 ~9 G) v+ f5 H$ p
- t$ J+ k( l+ v- L2 y
它强大到什么程度呢?输入一张手绘草图,GPT-4 能直接生成最终设计的网页代码。
$ T$ Y, Q; S. i4 m- o8 v6 z3 V4 g6 H

9 R; \$ N" m, L1 }; C" q+ p1 N: A+ r$ c
它以高分通过各种标准化考试:SAT 拿下 700 分,GRE 几乎满分,逻辑能力吊打 GPT-3.5。
! C$ K- O, a) X# w- O' j, K/ G1 k
% j. M- C# w" b# A/ ?& K7 ~
" l1 T9 k5 O! }' S& f" l
% G( E( q3 P0 P  w0 QGPT-4 在高级推理能力上超越 ChatGPT。在律师模拟考试中,ChatGPT 背后的 GPT-3.5 排名在倒数 10% 左右,而 GPT-4 考到了前 10% 左右。
9 W- \6 `( N& V2 S% c5 rGPT-4 的长度限制提升到 32K tokens,即能处理超过 25000 个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。
8 A+ w/ |$ u' d; b. c  T3 w' rOpenAI 还贴心地发布了 GPT-4 开发者视频,手把手教你生成代码、检查错误信息、报税。OpenAI 联合创始人兼总裁 Greg Brockman 还说了句有点扎心的话:" 它并不完美,但你也一样。"
- ]7 o' I) _, C0 o: m! o+ z9 N' F; E
' x0 B9 \  h! j) p9 x

; J' _0 s5 |: X+ K4 b0 L7 K1 XOpenAI 正通过 ChatGPT 和 API 发布 GPT-4 的文本输入功能,图像输入功能暂未开放。ChatGPT plus 订阅者可直接获得有使用上限的 GPT-4 的试用权,4 小时内最多只能发布 100 条信息。开发者也可以申请 GPT-4 API,进入候补名单等待通过。
$ d5 G5 u0 ~& Z
5 f( s4 r0 x' I
  g0 [$ _# D; k4 v$ M" f+ Z* A; |; E. M  r* r& t9 W* I
申请直通门:http://t.cn/A6ClOHn73 }3 t3 {" }6 v% `9 Y6 b* \
随着时间的推移,OpenAI 会将其自动更新为推荐的稳定模型(你可以通过调用 gpt-4-0314 来锁定当前版本,OpenAI 将支持到 6 月 14 日)。定价是每 1k prompt tokens 0.03 美元,每 1k completion tokens 0.06 美元。默认速率限制是每分钟 40k tokens 和每分钟 200 个请求。
, \( q. `( w7 d" F$ T7 s* Zgpt-4 的上下文长度为 8192 个 tokens。还提供对 32768 个上下文(约 50 页文本)版本 gpt-4-32k 的有限访问,该版本也将随着时间的推移自动更新(当前版本 gpt-4-32k-0314,也将支持到 6 月 14 日)。价格是每 1k prompt tokens 0.06 美元,每 1K completion tokens 0.12 美元。+ v0 I+ ?) ]  N3 i
此外,OpenAI 还开源了用于自动评估 AI 模型性能的框架 OpenAI Evals,以便开发者更好的评测模型的优缺点,从而指导团队进一步改进模型。7 X9 ]9 u% F6 g# z$ J7 R, K+ q
开源地址:github.com/openai/evals
, i. Y7 X1 r  k 一、GPT-4 升级成 " 考霸 ",基准测试表现大大优于现有大模型& L* [1 Y0 H7 t* C  p( v5 t
如果是随意聊天,你可能不太能感受出 GPT-3.5 与 GPT-4 之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4 将明显比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
( T9 ?. \  a. E4 e为了了解这两种模型之间的区别,OpenAI 在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。他们使用了最新的公开试题(在奥林匹克竞赛和 AP 自由答题的情况下)或购买 2022-2023 年版的模拟考试题。
- T4 g7 n& {! SOpenAI 没有针对这些考试进行专门训练。在模型训练期间,考试中的少数问题被发现。但 OpenAI 认为结果具有代表性。详情可参见 GPT-4 论文(https://cdn.openai.com/papers/gpt-4.pdf)。
; {3 |4 Z$ Y0 M% N9 v; [( Z6 Z& U: \  T! J& u
+ t. k$ A, h8 L  t$ w7 a. T
2 `+ l: e$ ]0 v0 S# I# C
OpenAI 还在为机器学习模型设计的传统基准测试中评估了 GPT-4。GPT-4 大大优于现有的大型语言模型以及大多数最先进的(SOTA)模型,其中可能包括基准特定的制作或额外的训练协议:
0 \% G5 R! |' L7 }0 `" ~- b" P& s0 Y$ ]9 H3 M% c

) c" ?$ T$ u5 \7 U- ]+ G; \& i3 a8 S# ^% w, d' m" m2 v  o
许多现有的机器学习(ML)基准测试都是用英语编写的。为了初步了解它在其他语言中的性能,OpenAI 使用 Azure Translate 将 MMLU 基准测试(一套涵盖 57 个主题的 14000 个多项选择题)翻译成各种语言。4 }& ?" a# W. v/ o

4 U6 W- ~" t2 |1 G0 Q0 `& w$ ]. W) |: i2 _
. _: M& ~/ N7 z  k. u- w1 F
在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他大型语言模型(Chinchilla,PaLM)的英语表现,包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。
- L# R7 w) a0 L2 T- ]( e# J
* O. [3 |  s- ?* }3 N; u; x8 h0 a) J4 P3 U/ v# J- `. s

3 W. l% {5 L1 J& {4 m$ F/ I' WOpenAI 也在内部使用 GPT-4,这对支持、销售、内容审核和编程等功能有很大影响。OpenAI 还使用它来协助人类评估 AI 输出,开始了其对齐策略的第二阶段。- l  C, ]* a0 E3 a6 T' O4 a1 X: x
二、描述照片、看懂图表、解答论文
; t2 E0 a5 S6 E7 wGPT-4 可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。" ~  }; A/ D, h4 s
具体来说,给定由穿插的文本和图像组成的输入,它能够生成自然语言、代码等文本输出。在生成带有文本和照片的文档、图表或屏幕截图等方面,GPT-4 展示了与纯文本输入类似的功能。
4 |* Q# c: C7 V0 w- }此外,GPT-4 还可以使用为纯文本语言模型开发的测试时(test-time)技术进行增强,包括少量标注数据(few-shot)和思维链(CoF,chain-of-thought)提示。图像输入仍处于研究预览阶段,尚未公开。9 a- x3 _# y* ^0 Y  N
OpenAI 在官网展示了 7 个视觉输入的例子。. m8 N/ u8 c9 i' S' V$ \
1、描述多张图片内容,发现不合常理之处( i4 G: `5 X9 S  G8 g2 u3 F6 i- S! C
输入一张由三张图片拼成的图,用户输入 " 这张图有什么奇怪的地方?一张图一张图地描述 ",GPT-4 会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的 VGA 接口插入一个小而现代的智能手机充电端口是荒谬的。9 }6 o! H, ?' E$ f6 @) P% ^1 Q

+ x4 N8 p$ ]- Z$ P( ?# |# G% g1 ?! F! Q/ D8 M7 k" f% O1 [. n

# g1 \* s9 t+ H4 o4 o2、根据图表,推理作答# P) b1 i# x/ V, [2 L
用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少,让 GPT-4 在给答案前提供一个循序渐进的推理,GPT-4 也能按需作答。
3 |4 j  ?& Y7 \0 y' u2 X0 V) @6 S& X( ]) g$ X

6 K" g9 |% w/ S' q  E
1 v* A2 @: P% @& f3、看图考试
  @! G3 y* A1 o1 j* S用户也可以直接给一张考试题的照片,让 GPT-4 一步步思考作答。! I) [  E) @" a7 Z' L
5 v6 Z) I9 `9 a5 a5 \3 P

- c" K/ I+ g8 ?) F# p& |
/ u0 }( p/ X: z/ U4、简练指出图片的违和之处
9 _  L8 M1 y8 L1 h( J用户问 " 这张图片有什么不寻常之处 " 时,GPT-4 简练地回答出 " 一名男子正在行驶中的出租车车顶上在熨衣板上熨烫衣服 "。, q# I0 w! l9 `5 u& _  z! U5 Y
9 Y1 `; e( X( l, O5 Q7 C- f/ U
4 \" I  [" ^+ q+ k7 W& v0 _
) T2 W0 K7 p4 \- }' B8 ?$ c
5、阅读论文,总结摘要与解释图表
% d; O* A# q$ u  O; r给几张论文的照片,GPT-4 可以做总结,也可以对用户指定的图片的内容进行展开解释。
0 P' z) @- K: o$ S5 |& l: Q5 o
6 v# K) s0 |4 B+ H+ k5 n1 i0 }3 R# u- v) s

( a0 w' L6 ~  K& I6、解读 " 鸡块地图 "
. ~" t7 X. M. z- d% \9 J# _让 GPT-4 解释图中的模因(meme),GPT-4 回答说这是个笑话,结合了太空中的地球照片和鸡块这两个不相关的东西。: t$ F3 r2 K. X# H1 `" h& `" R, G
. _+ H  G% H. P8 Z0 g+ l

3 l0 f( c. v" r$ k* W# C' \, S  O6 t2 b
7、理解漫画含义5 [4 Z; ?) O& w# p2 O5 B# q
最后一个示例是让 GPT-4 解释这张漫画,GPT-4 认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。- h# @9 O8 E  G9 d$ M8 w

' \% `1 F* ^+ p. D2 |% k
) ]- s- q1 O% e2 R# I( t; b5 |4 z, s. Z" d
OpenAI 通过在一套狭窄的标准学术视觉基准上评估 GPT-4 的性能来预览。但这些数字并不能完全代表它的能力,因为 OpenAI 不断发现该模型能够处理的新的和令人兴奋的任务。
9 |0 m$ H7 p1 p4 J8 {; P5 }OpenAI 计划很快发布进一步的分析和评估数字,以及对测试时技术影响的彻底调查。- R" C/ b* c6 W3 C- Q7 v4 \% ?
5 j0 T6 T7 E4 ?+ C+ s- f/ a: i9 s

# R/ k8 l6 b! B. A, z/ o' [8 S3 E4 \3 J+ N, _) \
此外,OpenAI 一直在研究其关于定义 AI 行为的文章中概述计划的各方面,包括可操纵性。与拥有固定冗长、语调、风格的 ChatGPT 不同,开发者(很快还有 ChatGPT 用户)现可通过在 " 系统 " 消息中描述这些方向来规定他们的 AI 的风格和任务。5 ^% E/ i8 V: ~/ O+ X
系统消息(system messages)允许 API 用户在一定范围内自定义用户体验。OpenAI 将在这方面继续做改进(特别是知道系统消息是 " 越狱 " 当前模型的最简单方法,即对边界的遵守并不完美 ) ,但 OpenAI 鼓励用户尝试一下,并将想法告知他们。( K% T! x3 a5 ~! X) A/ l) ]
关于可操纵性,OpenAI 展示了 3 个示例。3 w' N9 H, R7 L* \
第一个示例是让 GPT-4 作为一位总是以苏格拉底风格回应的导师,不直接给学生求解某个线性方程组的答案,而是通过将那个问题拆分成更简单的部分,引导学生学会独立思考。
( f4 K- x/ z8 L5 B8 S5 m
% g. H% F% d' _& w% R( n% Q/ k; b0 L& @2 G# S/ ~8 t2 T/ v; t% j
  W3 H# a! q+ L5 H, g
第二个示例是让 GPT-4 变成 " 莎士比亚的海盗 ",忠于自己的个性,可以看到它在多轮对话过程中时刻保持着自己的 " 人设 "。
+ [0 Y( V. N) p( \6 D
% Q, }0 a9 l! z" O+ b
* u8 y3 Y7 g0 a8 E! g1 Q1 }" i% M' C' ]3 T, x) g9 @6 \. D9 y
第三个示例是让 GPT-4 成为一名 AI 助手,总是用 json 编写响应输出,然后 GPT-4 的回答画风就变成了这样:+ B! @4 b6 X6 ^
! t4 t0 S- X; t; _( X

) M1 V$ s& Q* V7 y2 N* R" }1 _& S' ^* E1 m1 l' \" P
三、迄今最好的真实性、稳定性、可控性
& g5 ^' u6 D' \% _; V$ `4 M1 oOpenAI 称其团队花了 6 个月的时间,使用对抗性测试程序和从 ChatGPT 得到的经验教训,对 GPT-4 进行迭代调整,在真实性、可控制性等方面取得了有史以来最好的结果(仍远非完美)。
! _8 C# ^& {% W7 w. N$ l6 _# t) _过去两年里,OpenAI 重建了整个深度学习堆栈,并与微软 Azure 云平台一起为其工作负载从头开始共同设计了一台超级计算机。
9 E% X2 Y, |$ X) b一年前,OpenAI 训练 GPT-3.5 作为系统的第一次 " 试运行 ",发现并修复了一些错误并改进了其理论基础。结果,GPT-4 训练运行(至少对 OpenAI 而言)前所未有地稳定,成为 OpenAI 能够提前准确预测其训练性能的第一个大型模型。- C" {/ B. r( h
随着继续专注于可靠的扩展,OpenAI 的目标是完善其方法,以帮助自身越来越多地提前预测和准备未来的能力。OpenAI 认为这对安全至关重要。
0 V6 \3 _+ v- J  L" g6 P与以前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词,并且使用公开可用的数据(例如互联网数据)以及 OpenAI 已获得许可的数据进行训练。这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。6 V" }6 K) U$ }; f: s
因此,当有问题提示时,基础模型能以多种方式进行响应,这些方式可能与用户意图相去甚远。为了使其与护栏(guardrails)内的用户意图保持一致,OpenAI 使用人类反馈强化学习(RLHF)对模型行为进行微调。$ B% k& d( {9 K' u' }" s% d3 n
需注意的是,模型的能力似乎主要来自预训练过程—— RLHF 并不会提高考试成绩(如果不积极努力,它实际上会降低考试成绩)。但是模型的控制来自训练后的过程——基础模型需要快速的工程设计来知道它应该回答问题。
0 I! h7 _5 i; a( F 四、GPT-4 的局限性:不完全可靠
( C+ t: `" B* N/ Z尽管功能更加强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。
/ J+ W- e- F( U& E8 d4 ^  p0 I: t最重要的是,它仍然不完全可靠(存在事实性 " 幻觉 " 并出现推理错误)。在使用语言模型输出时应格外小心,特别是在高风险上下文中,使用符合特定用例需求的确切协议(例如人工审查、附加上下文的基础或完全避免高风险使用) 。4 W8 P) ~5 e+ f5 g0 m# @2 t( P: u& z
不过,GPT-4 相对于以前的模型(它们本身在每次迭代中都在改进)显著减少了幻觉。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比 GPT-3.5 高 40%。9 T; }% X2 B6 A- t, r
* u1 q3 p) ]  d: e7 y0 V3 f% q
/ k" f' p4 b2 @
  }5 y( L7 d# l! Z! M2 h! I
OpenAI 在 TruthfulQA 等外部基准测试上取得了进展,它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案相匹配,这些答案在统计上很有吸引力。
# A, p4 O1 Z2 `% p$ U
+ t/ @' ?% I, e5 u0 Z7 O7 i: Q# O/ d# T+ v6 G$ c/ ]. D
1 _5 ?4 U  ^- m& g5 \% T" n- h
GPT-4 基本模型在这项任务上只比 GPT-3.5 稍微好一点;但在 RLHF 训练(应用与 GPT-3.5 相同的过程)后,存在很大的差距。
  W  s7 t. `# ?6 P6 l检查下面的一些例子,GPT-4 拒绝选择常见的谚语(你教不了老狗新技能,即 " 年老难学艺 "),但它仍然会遗漏一些微妙的细节(埃尔维斯 · 普雷斯利不是演员之子)。2 b" q2 q  G3 ]0 K

2 E& t1 W8 T0 d, \4 C6 A7 v
% _2 |, a' g, q( r5 M0 {+ q- e9 d) S3 }% C
GPT-4 的输出可能存在各种偏差,OpenAI 还有更多工作要做。$ w+ W, X: S8 e% z+ t" ]' J( e
GPT-4 普遍缺乏对绝大部分数据中断后(2021 年 9 月)发生的事件的了解,也没有从经验中吸取教训。它有时会犯一些简单的推理错误,这些错误似乎与跨多个领域的能力不相称,或者在接受用户明显的虚假陈述时过于轻信。# [% b0 l  a  u2 A9 Z3 `# D
有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。
% Z5 X" B$ g3 r" M" ZGPT-4 也可能自信地在其预测中犯错,在可能出错时没有仔细检查工作。有趣的是,基础预训练模型经过高度校准(它对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练过程,校准减少了。5 J. q; ~' Y# i9 [8 k& w4 j

2 C, |' r: L' p  j' ]$ }* W6 E5 \9 ?7 S9 G( v/ o$ E
% g  R( A/ l3 B
五、OpenAI 如何规避风险?% N3 B7 b/ B: ^# T& h
OpenAI 一直在对 GPT-4 进行迭代,以使其从训练开始就更安全、更一致。其工作包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监控和执行。  i8 f; X6 ~8 y0 r+ j
GPT-4 会带来与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息。同时 GPT-4 的附加功能会带来新的风险面。
, r0 E& N7 j. ~* Q1 U+ O为了了解这些风险的程度,OpenAI 聘请了 50 多位来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。他们的发现使 OpenAI 能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于模型改进。
: K. N! {/ u& M! `- D# AGPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出。奖励由 GPT-4 零样本分类器提供,该分类器根据安全相关提示判断安全边界和完成方式。为了防止模型拒绝有效请求,OpenAI 从各种来源收集了多样化的数据集,并在允许和不允许的类别上应用安全奖励信号(具有正值或负值)。* t- q( P6 `) i- M# J
与 GPT-3.5 相比,其缓解措施显著改善了 GPT-4 的许多安全特性,已将模型响应禁止内容请求的可能性降低了 82%,并且 GPT-4 根据 OpenAI 的政策响应敏感请求(如医疗建议和自我伤害)的频率提高了 29%。6 Z/ W3 [- m: l! }5 \# Z2 T
- m- |8 X$ p3 I# `4 G& V
/ D8 g2 _( u' x1 ~

1 `6 Z4 J# m6 y
. @7 C; I5 e* ^$ G/ O8 k. P" q  v1 S( a8 p
总的来说,OpenAI 的模型级干预提高了引发不良行为的难度,但依然无法做到完全规避。OpenAI 强调目前需用部署时安全技术(如监控滥用)来补充这些限制。
6 f' G  s, Z$ D& x' ~/ GGPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI 正在与外部研究人员合作,以改进理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估,并将很快分享更多关于 GPT-4 和其他 AI 系统的潜在社会和经济影响的想法。
* _* @2 D" J- J$ ~/ M. Q 六、构建可预测扩展的深度学习堆栈' M6 f; T  a3 a. h4 i# U2 X2 ?) a
GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。OpenAI 开发的基础设施和优化在多个尺度上具有非常可预测的行为。) G/ E4 @, p, u9 S* r
为了验证这种可扩展性,OpenAI 通过从使用相同方法训练但计算量减少到原来的 1/10000 的模型进行推断,准确预测了 GPT-4 在其内部代码库(不属于训练集)上的最终损失:- G3 \2 d5 w- u3 ?# u- G% t

/ q: _& e3 k& K9 H0 p' B4 {9 }% B/ D2 U* I8 u0 y7 C
* p% @/ L5 ~! @# K4 i4 ]" @8 w
现在 OpenAI 可以准确地预测其在训练期间优化的指标(损失),开始开发方法来预测更多可解释的指标,例如成功预测了 HumanEval 数据集子集的通过率,从计算量减少至原来的 1/1000 的模型推断:0 [0 N# l/ z' P( F* {; H$ o
4 L2 j% [6 P0 B

3 w5 ~) u- _$ b, G. O2 ~0 R" ^# K$ [- L7 l4 t6 Q
有些能力仍难以预测。例如 Inverse Scaling Prize 是一项竞赛,目的是寻找随着模型计算量的增加而变得更糟的度量指标,而 hindsight neglect 是获胜者之一。就像最近的另一个结果一样,GPT-4 扭转了趋势:/ r8 u3 n" \& Q( i/ V8 [

- D2 N8 ~; A/ c6 |. b% k  c% a( r% a3 S" Y- h( Z

) ^" t. ^0 J* l5 z4 d3 J: UOpenAI 认为,准确预测未来的机器学习能力是安全的重要组成部分,但相对于其潜在影响而言,它并没有得到足够的重视。OpenAI 正在加大力度开发方法,为社会提供更好的未来系统预期指导,并希望这成为该领域的共同目标。
+ e% c+ u6 p& k* M. W8 R 七、开源软件框架Evals,用于评估 GPT-4
# w/ }) ?+ m8 {* [5 D; JOpenAI 正在开源其软件框架 OpenAI Evals,用于创建和运行基准测试以评估 GPT-4 等模型,同时逐个样本地检查它们的性能。
7 x- p& C! d0 `! V! FOpenAI 使用 Evals 来指导其模型的开发,其用户可以应用该框架来跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成。例如 Stripe 使用 Evals 来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性。
' ?( m& e2 [* c3 H3 ]- W) O因为代码都是开源的,所以 Evals 支持编写新的类来实现自定义评估逻辑。但根据 OpenAI 的经验,许多基准测试都遵循少数 " 模板 " 之一,所以他们也囊括了内部最有用的模板(包括 " 模型分级评估 " 的模板—— OpenAI 发现 GPT-4 在检查自己的工作方面惊人地强大)。通常构建新 eval 最有效的方法是实例化这些模板之一,并提供数据。4 D4 O* f# }1 S* ?4 m
OpenAI 希望 Evals 成为一种共享和众包基准测试的工具,代表最广泛的故障模式和困难任务。作为示例,OpenAI 创建了一个逻辑难题 eval,其中包含十个 GPT-4 失败的提示。Evals 也兼容现有的基准测试;OpenAI 已有一些实现学术基准的笔记本和一些集成 CoQA(小子集)的变体作示例。
% m) M5 @/ }  W9 j) F+ H! i  K0 VOpenAI 邀请每个人都使用 Evals 来测试其模型,提交最有趣的示例,给与贡献、问题和反馈。* i9 K' u6 E. A+ A; E/ C+ D! ^
结语:OpenAI扩展深度学习的最新里程碑! b5 _( _: ~4 V/ i* ^1 ]' |
GPT-4 是 OpenAI 在扩展深度学习道路上的最新里程碑。OpenAI 期待 GPT-4 成为一个有价值的工具,通过为许多应用提供动力来改善生活。
" C6 C* H- ~" x6 G+ K1 o正如 OpenAI 所言,前方还有很多工作要做,这需要通过社区在模型之上构建、探索和贡献的集体努力,来持续将模型变得越来越强。
0 m7 P$ d- r, A* n3 O5 S3 `- ~8 d来源:OpenAI

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

帖子地址: 

梦想之都-俊月星空 优酷自频道欢迎您 http://i.youku.com/zhaojun917
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /6 下一条

QQ|手机版|小黑屋|梦想之都-俊月星空 ( 粤ICP备18056059号 )|网站地图

GMT+8, 2025-8-21 14:24 , Processed in 0.044481 second(s), 24 queries .

Powered by Mxzdjyxk! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表