|
社交平台Reddit不想再让科技巨头们免费使用海量数据了。
6 C- o+ N. @- A0 a o; a$ @3 \$ f当地时间4月18日,据《纽约时报》,Reddit近日表示,计划开始向访问其应用程序编程接口(API) 的公司收费,外部企业可以通过付费下载和处理社交网络中的海量对话。
! X( q1 V# n8 ]$ x8 X0 D公开资料显示,Reddit被称为“美国版百度贴吧”,是一家拥有18年历史的社交媒体平台,用户可以在上面发帖、评论、交流各种话题。* c+ ]/ X I! A _0 c. j0 A7 G0 A
近年来,Reddit上发布的聊天内容已成为谷歌、OpenAI和微软等公司的训练素材,这些公司正在搜集和使用Reddit平台上的对话来开发ChatGPT等生成式人工智能产品。9 S9 r! j+ T6 U) t) \1 p
“Reddit的数据语料库非常有价值,”Reddit创始人兼CEO史蒂夫·霍夫曼在接受《纽约时报》采访时表示,“但我们不想把这些内容免费提供给一些巨头公司。”, `0 o# `3 d, b7 j- H; y0 b
Reddit也成为首批公开表态要求科技巨头付费使用数据的企业。& S6 m! k4 E: y* j
“这些人工智能公司使用Reddit数据创造价值,却不将任何价值返回给Reddit用户,这是不合理的。”霍夫曼认为,在他看来,为此向这些科技巨头收费是一个公平的举措。
) @; o- m3 A. j* K据《纽约时报》,谷歌、Open AI和微软尚未回应此事。谷歌开发的聊天机器人Bard的底层算法部分是在Reddit数据上训练的,OpenAI的ChatGPT也引用Reddit数据作为接受培训的信息来源之一。7 l- r. v2 ?# }
Reddit尚未公开具体的收费规则和种类,外界预期将根据数据大小实行分类价格。% A4 s7 _9 |1 ?8 d
霍夫曼表示,Reddit的API将继续免费提供给希望构建应用程序,帮助人们使用Reddit的开发人员,出于非商业目的研究Reddit数据的研究人员也可以继续免费访问。$ O. U w1 m, P) U
未来,Reddit希望将更多机器学习纳入网站应用中,例如用来识别Reddit上人工智能生成文本的使用,并添加标签来通知用户该评论来自机器人。同时,还将支持论坛管理员使用帮助监控用户发帖内容的第三方机器人,方便管理。
( G* _# w+ }; ?4 V2 DReddit此举或许与其今年计划IPO(首次公开募股)有关。3 R, p8 F" g h; e: m$ ]3 d
Reddit成立于2005年,主要收入来源于平台上的广告和电子商务交易。Reddit表示,它仍在敲定API访问收费的细节,并将在未来几周内公布价格。
# }5 z/ `8 d: ^, d3 e值得注意的是,除了Reddit之外,其他公司也逐渐不再愿意免费提供平台数据。当地时间4月19日,美国消费者新闻与商业频道(CNBC)报道,社交媒体推特CEO埃隆•马斯克威胁要起诉微软。马斯克指责微软非法使用其社交媒体推特上的数据,以训练其人工智能模型。
. X/ S) ]8 y0 G4 N此前有媒体报道,微软的广告平台将停止支持推特,因为推特更改了其API的定价。马斯克在这条推文下留言,“他们非法使用推特数据进行训练。诉讼时间到了。”根据推特的新定价,API用户(包括企业和研究机构)每月至少需要支付高达4.2万美元才可使用。3 A+ a5 E7 K. I5 N
据CNBC报道,类似于GPT的大型语言模型需要TB级数据库(存储数据量为1TB以上)进行训练,其中大部分数据从社交网站Reddit、程序员问答社区StackOverflow和推特等网站中抓取——来自社交网络的培训数据非常有价值,因为其具有非正式场合的交互对话。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|