震撼！GPT-4 来了，支持多模态，全面吊打 ChatGPT，完虐标准化考试 ...

hilalchemist · 发表于 2023-3-15 12:33:45

智东西（公众号：zhidxcom）
编译 | ZeR0
编辑 | 漠影
智东西 3 月 15 日消息，今日凌晨，万众瞩目的大型多模态模型 GPT-4 正式发布！
OpenAI 发文称，GPT-4 能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已做到人类水平的表现。

它强大到什么程度呢？输入一张手绘草图，GPT-4 能直接生成最终设计的网页代码。

它以高分通过各种标准化考试：SAT 拿下 700 分，GRE 几乎满分，逻辑能力吊打 GPT-3.5。

GPT-4 在高级推理能力上超越 ChatGPT。在律师模拟考试中，ChatGPT 背后的 GPT-3.5 排名在倒数 10% 左右，而 GPT-4 考到了前 10% 左右。
GPT-4 的长度限制提升到 32K tokens，即能处理超过 25000 个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。
OpenAI 还贴心地发布了 GPT-4 开发者视频，手把手教你生成代码、检查错误信息、报税。OpenAI 联合创始人兼总裁 Greg Brockman 还说了句有点扎心的话：" 它并不完美，但你也一样。"

OpenAI 正通过 ChatGPT 和 API 发布 GPT-4 的文本输入功能，图像输入功能暂未开放。ChatGPT plus 订阅者可直接获得有使用上限的 GPT-4 的试用权，4 小时内最多只能发布 100 条信息。开发者也可以申请 GPT-4 API，进入候补名单等待通过。

申请直通门：http://t.cn/A6ClOHn7
随着时间的推移，OpenAI 会将其自动更新为推荐的稳定模型（你可以通过调用 gpt-4-0314 来锁定当前版本，OpenAI 将支持到 6 月 14 日）。定价是每 1k prompt tokens 0.03 美元，每 1k completion tokens 0.06 美元。默认速率限制是每分钟 40k tokens 和每分钟 200 个请求。
gpt-4 的上下文长度为 8192 个 tokens。还提供对 32768 个上下文（约 50 页文本）版本 gpt-4-32k 的有限访问，该版本也将随着时间的推移自动更新（当前版本 gpt-4-32k-0314，也将支持到 6 月 14 日）。价格是每 1k prompt tokens 0.06 美元，每 1K completion tokens 0.12 美元。
此外，OpenAI 还开源了用于自动评估 AI 模型性能的框架 OpenAI Evals，以便开发者更好的评测模型的优缺点，从而指导团队进一步改进模型。
开源地址：github.com/openai/evals
一、GPT-4 升级成 " 考霸 "，基准测试表现大大优于现有大模型
如果是随意聊天，你可能不太能感受出 GPT-3.5 与 GPT-4 之间的区别。但当任务的复杂性达到足够的阈值时，GPT-4 将明显比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。
为了了解这两种模型之间的区别，OpenAI 在各种基准测试中进行了测试，包括最初为人类设计的模拟考试。他们使用了最新的公开试题（在奥林匹克竞赛和 AP 自由答题的情况下）或购买 2022-2023 年版的模拟考试题。
OpenAI 没有针对这些考试进行专门训练。在模型训练期间，考试中的少数问题被发现。但 OpenAI 认为结果具有代表性。详情可参见 GPT-4 论文（https://cdn.openai.com/papers/gpt-4.pdf）。

OpenAI 还在为机器学习模型设计的传统基准测试中评估了 GPT-4。GPT-4 大大优于现有的大型语言模型以及大多数最先进的（SOTA）模型，其中可能包括基准特定的制作或额外的训练协议：

许多现有的机器学习（ML）基准测试都是用英语编写的。为了初步了解它在其他语言中的性能，OpenAI 使用 Azure Translate 将 MMLU 基准测试（一套涵盖 57 个主题的 14000 个多项选择题）翻译成各种语言。

在测试的 26 种语言中的 24 种中，GPT-4 优于 GPT-3.5 和其他大型语言模型（Chinchilla，PaLM）的英语表现，包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。

OpenAI 也在内部使用 GPT-4，这对支持、销售、内容审核和编程等功能有很大影响。OpenAI 还使用它来协助人类评估 AI 输出，开始了其对齐策略的第二阶段。
二、描述照片、看懂图表、解答论文
GPT-4 可以接受文本和图像提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。
具体来说，给定由穿插的文本和图像组成的输入，它能够生成自然语言、代码等文本输出。在生成带有文本和照片的文档、图表或屏幕截图等方面，GPT-4 展示了与纯文本输入类似的功能。
此外，GPT-4 还可以使用为纯文本语言模型开发的测试时（test-time）技术进行增强，包括少量标注数据（few-shot）和思维链（CoF，chain-of-thought）提示。图像输入仍处于研究预览阶段，尚未公开。
OpenAI 在官网展示了 7 个视觉输入的例子。
1、描述多张图片内容，发现不合常理之处
输入一张由三张图片拼成的图，用户输入 " 这张图有什么奇怪的地方？一张图一张图地描述 "，GPT-4 会分别对每张图中的内容进行描述，并指出这幅图把一个大而过时的 VGA 接口插入一个小而现代的智能手机充电端口是荒谬的。

2、根据图表，推理作答
用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少，让 GPT-4 在给答案前提供一个循序渐进的推理，GPT-4 也能按需作答。

3、看图考试
用户也可以直接给一张考试题的照片，让 GPT-4 一步步思考作答。

4、简练指出图片的违和之处
用户问 " 这张图片有什么不寻常之处 " 时，GPT-4 简练地回答出 " 一名男子正在行驶中的出租车车顶上在熨衣板上熨烫衣服 "。

5、阅读论文，总结摘要与解释图表
给几张论文的照片，GPT-4 可以做总结，也可以对用户指定的图片的内容进行展开解释。

6、解读 " 鸡块地图 "
让 GPT-4 解释图中的模因（meme），GPT-4 回答说这是个笑话，结合了太空中的地球照片和鸡块这两个不相关的东西。

7、理解漫画含义
最后一个示例是让 GPT-4 解释这张漫画，GPT-4 认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。

OpenAI 通过在一套狭窄的标准学术视觉基准上评估 GPT-4 的性能来预览。但这些数字并不能完全代表它的能力，因为 OpenAI 不断发现该模型能够处理的新的和令人兴奋的任务。
OpenAI 计划很快发布进一步的分析和评估数字，以及对测试时技术影响的彻底调查。

此外，OpenAI 一直在研究其关于定义 AI 行为的文章中概述计划的各方面，包括可操纵性。与拥有固定冗长、语调、风格的 ChatGPT 不同，开发者（很快还有 ChatGPT 用户）现可通过在 " 系统 " 消息中描述这些方向来规定他们的 AI 的风格和任务。
系统消息（system messages）允许 API 用户在一定范围内自定义用户体验。OpenAI 将在这方面继续做改进（特别是知道系统消息是 " 越狱 " 当前模型的最简单方法，即对边界的遵守并不完美 ) ，但 OpenAI 鼓励用户尝试一下，并将想法告知他们。
关于可操纵性，OpenAI 展示了 3 个示例。
第一个示例是让 GPT-4 作为一位总是以苏格拉底风格回应的导师，不直接给学生求解某个线性方程组的答案，而是通过将那个问题拆分成更简单的部分，引导学生学会独立思考。

第二个示例是让 GPT-4 变成 " 莎士比亚的海盗 "，忠于自己的个性，可以看到它在多轮对话过程中时刻保持着自己的 " 人设 "。

第三个示例是让 GPT-4 成为一名 AI 助手，总是用 json 编写响应输出，然后 GPT-4 的回答画风就变成了这样：

三、迄今最好的真实性、稳定性、可控性
OpenAI 称其团队花了 6 个月的时间，使用对抗性测试程序和从 ChatGPT 得到的经验教训，对 GPT-4 进行迭代调整，在真实性、可控制性等方面取得了有史以来最好的结果（仍远非完美）。
过去两年里，OpenAI 重建了整个深度学习堆栈，并与微软 Azure 云平台一起为其工作负载从头开始共同设计了一台超级计算机。
一年前，OpenAI 训练 GPT-3.5 作为系统的第一次 " 试运行 "，发现并修复了一些错误并改进了其理论基础。结果，GPT-4 训练运行（至少对 OpenAI 而言）前所未有地稳定，成为 OpenAI 能够提前准确预测其训练性能的第一个大型模型。
随着继续专注于可靠的扩展，OpenAI 的目标是完善其方法，以帮助自身越来越多地提前预测和准备未来的能力。OpenAI 认为这对安全至关重要。
与以前的 GPT 模型一样，GPT-4 基础模型经过训练可以预测文档中的下一个单词，并且使用公开可用的数据（例如互联网数据）以及 OpenAI 已获得许可的数据进行训练。这些数据是网络规模的数据语料库，包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，并代表各种各样的意识形态和想法。
因此，当有问题提示时，基础模型能以多种方式进行响应，这些方式可能与用户意图相去甚远。为了使其与护栏（guardrails）内的用户意图保持一致，OpenAI 使用人类反馈强化学习（RLHF）对模型行为进行微调。
需注意的是，模型的能力似乎主要来自预训练过程—— RLHF 并不会提高考试成绩（如果不积极努力，它实际上会降低考试成绩）。但是模型的控制来自训练后的过程——基础模型需要快速的工程设计来知道它应该回答问题。
四、GPT-4 的局限性：不完全可靠
尽管功能更加强大，但 GPT-4 与早期的 GPT 模型具有相似的局限性。
最重要的是，它仍然不完全可靠（存在事实性 " 幻觉 " 并出现推理错误）。在使用语言模型输出时应格外小心，特别是在高风险上下文中，使用符合特定用例需求的确切协议（例如人工审查、附加上下文的基础或完全避免高风险使用）。
不过，GPT-4 相对于以前的模型（它们本身在每次迭代中都在改进）显著减少了幻觉。在 OpenAI 的内部对抗性真实性评估中，GPT-4 的得分比 GPT-3.5 高 40%。

OpenAI 在 TruthfulQA 等外部基准测试上取得了进展，它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案相匹配，这些答案在统计上很有吸引力。

GPT-4 基本模型在这项任务上只比 GPT-3.5 稍微好一点；但在 RLHF 训练（应用与 GPT-3.5 相同的过程）后，存在很大的差距。
检查下面的一些例子，GPT-4 拒绝选择常见的谚语（你教不了老狗新技能，即 " 年老难学艺 "），但它仍然会遗漏一些微妙的细节（埃尔维斯 · 普雷斯利不是演员之子）。

GPT-4 的输出可能存在各种偏差，OpenAI 还有更多工作要做。
GPT-4 普遍缺乏对绝大部分数据中断后（2021 年 9 月）发生的事件的了解，也没有从经验中吸取教训。它有时会犯一些简单的推理错误，这些错误似乎与跨多个领域的能力不相称，或者在接受用户明显的虚假陈述时过于轻信。
有时它会像人类一样在难题上失败，例如在它生成的代码中引入安全漏洞。
GPT-4 也可能自信地在其预测中犯错，在可能出错时没有仔细检查工作。有趣的是，基础预训练模型经过高度校准（它对答案的预测置信度通常与正确概率相匹配）。然而，通过 OpenAI 目前的后训练过程，校准减少了。

五、OpenAI 如何规避风险？
OpenAI 一直在对 GPT-4 进行迭代，以使其从训练开始就更安全、更一致。其工作包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监控和执行。
GPT-4 会带来与之前模型类似的风险，例如生成有害建议、错误代码或不准确信息。同时 GPT-4 的附加功能会带来新的风险面。
为了了解这些风险的程度，OpenAI 聘请了 50 多位来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试。他们的发现使 OpenAI 能够在需要专业知识进行评估的高风险领域测试模型行为。这些专家的反馈和数据用于模型改进。
GPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害输出。奖励由 GPT-4 零样本分类器提供，该分类器根据安全相关提示判断安全边界和完成方式。为了防止模型拒绝有效请求，OpenAI 从各种来源收集了多样化的数据集，并在允许和不允许的类别上应用安全奖励信号（具有正值或负值）。
与 GPT-3.5 相比，其缓解措施显著改善了 GPT-4 的许多安全特性，已将模型响应禁止内容请求的可能性降低了 82%，并且 GPT-4 根据 OpenAI 的政策响应敏感请求（如医疗建议和自我伤害）的频率提高了 29%。

总的来说，OpenAI 的模型级干预提高了引发不良行为的难度，但依然无法做到完全规避。OpenAI 强调目前需用部署时安全技术（如监控滥用）来补充这些限制。
GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI 正在与外部研究人员合作，以改进理解和评估潜在影响的方式，以及对未来系统中可能出现的危险功能进行评估，并将很快分享更多关于 GPT-4 和其他 AI 系统的潜在社会和经济影响的想法。
六、构建可预测扩展的深度学习堆栈
GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是，对于像 GPT-4 这样的非常大的训练运行，进行广泛的特定于模型的调整是不可行的。OpenAI 开发的基础设施和优化在多个尺度上具有非常可预测的行为。
为了验证这种可扩展性，OpenAI 通过从使用相同方法训练但计算量减少到原来的 1/10000 的模型进行推断，准确预测了 GPT-4 在其内部代码库（不属于训练集）上的最终损失：

现在 OpenAI 可以准确地预测其在训练期间优化的指标（损失），开始开发方法来预测更多可解释的指标，例如成功预测了 HumanEval 数据集子集的通过率，从计算量减少至原来的 1/1000 的模型推断：

有些能力仍难以预测。例如 Inverse Scaling Prize 是一项竞赛，目的是寻找随着模型计算量的增加而变得更糟的度量指标，而 hindsight neglect 是获胜者之一。就像最近的另一个结果一样，GPT-4 扭转了趋势：

OpenAI 认为，准确预测未来的机器学习能力是安全的重要组成部分，但相对于其潜在影响而言，它并没有得到足够的重视。OpenAI 正在加大力度开发方法，为社会提供更好的未来系统预期指导，并希望这成为该领域的共同目标。
七、开源软件框架Evals，用于评估 GPT-4
OpenAI 正在开源其软件框架 OpenAI Evals，用于创建和运行基准测试以评估 GPT-4 等模型，同时逐个样本地检查它们的性能。
OpenAI 使用 Evals 来指导其模型的开发，其用户可以应用该框架来跟踪模型版本（现在将定期发布）的性能和不断发展的产品集成。例如 Stripe 使用 Evals 来补充他们的人工评估，以衡量其基于 GPT 的文档工具的准确性。
因为代码都是开源的，所以 Evals 支持编写新的类来实现自定义评估逻辑。但根据 OpenAI 的经验，许多基准测试都遵循少数 " 模板 " 之一，所以他们也囊括了内部最有用的模板（包括 " 模型分级评估 " 的模板—— OpenAI 发现 GPT-4 在检查自己的工作方面惊人地强大）。通常构建新 eval 最有效的方法是实例化这些模板之一，并提供数据。
OpenAI 希望 Evals 成为一种共享和众包基准测试的工具，代表最广泛的故障模式和困难任务。作为示例，OpenAI 创建了一个逻辑难题 eval，其中包含十个 GPT-4 失败的提示。Evals 也兼容现有的基准测试；OpenAI 已有一些实现学术基准的笔记本和一些集成 CoQA（小子集）的变体作示例。
OpenAI 邀请每个人都使用 Evals 来测试其模型，提交最有趣的示例，给与贡献、问题和反馈。
结语：OpenAI扩展深度学习的最新里程碑
GPT-4 是 OpenAI 在扩展深度学习道路上的最新里程碑。OpenAI 期待 GPT-4 成为一个有价值的工具，通过为许多应用提供动力来改善生活。
正如 OpenAI 所言，前方还有很多工作要做，这需要通过社区在模型之上构建、探索和贡献的集体努力，来持续将模型变得越来越强。
来源：OpenAI

账号		自动登录	找回密码
密码			立即注册

震撼！GPT-4 来了，支持多模态，全面吊打 ChatGPT，完虐标准化考试 ...

本帖子中包含更多资源

浏览过的版块