|
|
机器之心报道/ Q/ t( B( q1 x
机器之心编辑部
' T4 [5 d4 n' a$ R* T1 ^1 h. S利用 ChatGPT 等 AI 模型作弊引发了人们广泛的担忧,而水印正成为解决该问题的一把「利剑」。/ X( C: X' @) ?; L
近一段时间以来,对话式 AI 模型 ChatGPT 的风头无两。有人用;还有人用 ChatGPT 写神经网络,做到了一字不改结果很好用。然而,ChatGPT 在学校作业、论文发表等领域引发了人们广泛的担忧,并采取了相应的措施。
4 @( C+ I7 R0 h, b \4 d1 月初,纽约市教育官员宣布禁止学生在公立学校使用 ChatGPT 的消息引发了争论;人们对 ChatGPT 的担忧已经蔓延到了 AI 学界自身,全球知名机器学习会议之一的 ICML 最近也宣布禁止发表包含由 ChatGPT 和其他类似系统生成内容的论文,以免出现「意外后果」。
# G* g V% ]2 d# l0 [9 L8 Z针对这些反馈,ChatGPT 的提出者 OpenAI 正在努力开发缓解措施,帮助人们检测由 AI 自动生成的文本。OpenAI CEO Sam Altman 提出将尝试水印技术和其他技术来标记 ChatGPT 生成的内容,但又表示不可能做到完美。
* W+ m" ~% ]5 P' c: b G大型语言模型的潜在危害,可通过给模型的输出加水印来缓解,即把信号嵌入到生成的文本中,这些信号对人类来说是不可见的,但算法可以从短范围的 token 中检测到。
% V. U0 y; C1 G" M4 n: @本文中,来自马里兰大学的几位研究者针对 ChatGPT 等语言模型输出的水印进行了深入研究。他们提出了一种高效水印框架,水印的嵌入对文本质量的影响忽略不计,可以使用高效的开源算法进行检测,而无需访问语言模型的 API 或参数。此外,本文方法可以检测到比较短的合成文本(少至 25 个 tokens),同时使得人类文本在统计学上不可能被标记为机器生成。# C, r( x- |& x. Z" Z! ~0 F
6 `7 y. u4 a, i3 F* r6 D& G/ K# b7 }. w* M2 R t! r
9 ?, b. S" ^( y+ J' j1 B论文地址:https://arxiv.org/pdf/2301.10226v1.pdf" [2 e6 F6 X" N
本文中提出的水印具有以下属性:6 S+ V+ `1 W+ ~/ p' S* E$ _
可以在不了解模型参数或不访问语言模型 API 的情况下通过算法检测,因此即使模型不开源,检测算法也能开源。同时得益于 LLM 不需要加载或运行,检测成本低且速度快;
2 U4 {2 ~! ?. {9 `可以使用标准语言模型生成带水印的文本,无需重新训练;3 n8 L$ ?7 K6 Y* i* ]" a8 V
只从生成文本的连续部分检测到水印,这样当使用生成的一部分创建更大的文档时,水印依然可以检测到;
5 i$ T; f: e: Y5 r' f( j/ o如果不修改生成 tokens 的很大一部分,则无法删除水印;) ~; C) I; L, Y9 ?4 \
对已经检测到的水印计算出严格的统计学置信度。, N! m. w) Z, ~6 g0 B% ` r" {
论文作者:我们有 99.999999999994% 信心, ]$ P. X: J6 \, j" y- u) a1 g# |
马里兰大学副教授、论文作者之一 Tom Goldstein 表示:「OpenAI 正在计划阻止 ChatGPT 用户的一些作弊行为,与此同时,我们通过水印输出的方式来辨别是否由 ChatGPT 生成的内容。在一个具有 1.3B 参数的模型中,一种新的语言模型水印框架在仅 23 个单词中检测出了 LLM 生成的文本,我们有 99.999999999994% 信心检测到。」
! V# Y, O7 p: \* i
9 q X+ R/ P- v% q4 R$ E% R3 t) ~; s' n7 Q; P
3 G D- y# P' m( f( M# d
$ ?$ J# R' c, Z" g- l5 T
! d) p9 N/ H; H5 u有人毫不夸张的表示,这篇论文标志着 LLM 剽窃和反剽窃检查器之间的竞赛已经开始。
{& R3 |+ p. S该方法的出现,也让网友替学生们捏了一把汗,直呼「振作起来,高中生们!」
) u, y ~8 H0 v, J
7 e9 r, c5 `- N w! b$ \' \% P7 K& X& L# R7 X6 h
% J5 g+ x7 p3 \ J& W, O& f2 g在方法介绍部分,首先该研究介绍了一种简单的水印方法(hard blacklist watermark),该水印易于分析、易于检测且难以删除。该方法通过生成禁止出现的 token 黑名单来工作。在检测水印中,生成水印文本需要访问语言模型,而检测水印则不需要。拥有哈希函数和随机数生成器知识的第三方可以为每个 token 重新生成黑名单,并计算违反黑名单规则的次数。
6 q: j/ x. Q1 m; q) Y- g' t. s ~: |+ Q+ O/ b( ~
2 X% X4 v# c2 d' A# d
' `+ }" h$ c/ X% k' |. P
除此以外,该研究还使用了一种称为 soft 水印的检测方法,该算法并没有严格禁止黑名单 token,而是在白名单 token 的对数上增加了一个常数 δ,算法如下:) S; W1 {1 c! c% l+ u1 ~- i) M
! N' I% w/ h7 U9 ]- _9 ]4 Z
% A1 c2 B; l" M e2 f9 Q+ y5 `" ^0 }4 H
0 t9 R& d' M5 E3 L( P+ H上述水印算法被设计为公开的,其实该算法也可以在私有模式下运行,使用一个随机密钥,该密钥用来保密并托管在 API 上。如果攻击者不知道用于生成黑名单的密钥,那么攻击者就难以删除水印,因为攻击者不知道哪些 token 被列入黑名单。, T' U5 a4 q9 P8 M
研究者表示,该水印检测算法可以公开,使第三方(例如社交媒体平台)能够自行运行,也可以保持私有并在 API 后面运行。
) a# v2 Q8 N% N实验
: |7 R% ?3 {& o8 a% z实验使用 OPT-1.3B 模型探索了水印效果。为了模拟各种语言建模场景,该研究从 C4 数据集的子集中随机选择文本进行切片和切块。 H7 M4 ^# j1 i
图 2(左)显示了各种水印参数组合的水印强度(z 分数)和文本质量(困惑度)之间的权衡。1 W& F% W* S" r
/ i; S8 H3 h1 E1 V' I
6 S8 \! r$ P/ j: x7 ?9 Z; N9 t, H$ h+ U3 ? s( z* q' s0 F8 A8 F. n6 s9 V
该研究在表 2 中提供了各种水印参数的错误率表,此外,该研究还在图 4 中的 ROC 图表中扫描了一系列阈值。 z- ]4 h3 G' g2 I2 E+ ^8 X' ^
x# B) S; n3 k3 G' z
1 Q0 e" q8 D, }' l% }
) N8 n4 T* N N) E0 d5 V, ]* L7 L5 U, y/ a
' v3 u5 p4 t3 a* b: _
更多技术细节请参阅原论文。/ G3 M( m n' E( ?
THE END + O- G+ ~8 x1 y( ]* t7 s! W, [
投稿或寻求报道:content@jiqizhixin.com |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|