|
|
社交平台Reddit不想再让科技巨头们免费使用海量数据了。
! v2 f5 J5 B R) s% Q. R+ N当地时间4月18日,据《纽约时报》,Reddit近日表示,计划开始向访问其应用程序编程接口(API) 的公司收费,外部企业可以通过付费下载和处理社交网络中的海量对话。; a, P& _0 g* |! F8 M3 q1 o( ^! ?
公开资料显示,Reddit被称为“美国版百度贴吧”,是一家拥有18年历史的社交媒体平台,用户可以在上面发帖、评论、交流各种话题。
% \" m6 W. j/ T! T3 u近年来,Reddit上发布的聊天内容已成为谷歌、OpenAI和微软等公司的训练素材,这些公司正在搜集和使用Reddit平台上的对话来开发ChatGPT等生成式人工智能产品。
3 ^6 A, I+ R. N- f) j: Q" @6 B“Reddit的数据语料库非常有价值,”Reddit创始人兼CEO史蒂夫·霍夫曼在接受《纽约时报》采访时表示,“但我们不想把这些内容免费提供给一些巨头公司。”7 B3 n5 P$ o5 v" Q U. w% g
Reddit也成为首批公开表态要求科技巨头付费使用数据的企业。/ F# Q, P* R' L! d; c- i
“这些人工智能公司使用Reddit数据创造价值,却不将任何价值返回给Reddit用户,这是不合理的。”霍夫曼认为,在他看来,为此向这些科技巨头收费是一个公平的举措。7 q$ K; k) P( [! ~8 g* B! T7 I
据《纽约时报》,谷歌、Open AI和微软尚未回应此事。谷歌开发的聊天机器人Bard的底层算法部分是在Reddit数据上训练的,OpenAI的ChatGPT也引用Reddit数据作为接受培训的信息来源之一。# @7 Z9 z% d$ K3 d( ?/ `3 B
Reddit尚未公开具体的收费规则和种类,外界预期将根据数据大小实行分类价格。. C: n0 Q8 | k( O; c& O& J1 ^9 _
霍夫曼表示,Reddit的API将继续免费提供给希望构建应用程序,帮助人们使用Reddit的开发人员,出于非商业目的研究Reddit数据的研究人员也可以继续免费访问。% j% D4 ^" O8 ^7 Y
未来,Reddit希望将更多机器学习纳入网站应用中,例如用来识别Reddit上人工智能生成文本的使用,并添加标签来通知用户该评论来自机器人。同时,还将支持论坛管理员使用帮助监控用户发帖内容的第三方机器人,方便管理。" B# ^% C% D$ u9 {! K5 k7 Z
Reddit此举或许与其今年计划IPO(首次公开募股)有关。
( |, m$ ]- W. p3 g/ G- L. MReddit成立于2005年,主要收入来源于平台上的广告和电子商务交易。Reddit表示,它仍在敲定API访问收费的细节,并将在未来几周内公布价格。: Y7 S! E+ g5 ^; R2 A+ K
值得注意的是,除了Reddit之外,其他公司也逐渐不再愿意免费提供平台数据。当地时间4月19日,美国消费者新闻与商业频道(CNBC)报道,社交媒体推特CEO埃隆•马斯克威胁要起诉微软。马斯克指责微软非法使用其社交媒体推特上的数据,以训练其人工智能模型。
4 G/ _. O' Y! T/ w% ?此前有媒体报道,微软的广告平台将停止支持推特,因为推特更改了其API的定价。马斯克在这条推文下留言,“他们非法使用推特数据进行训练。诉讼时间到了。”根据推特的新定价,API用户(包括企业和研究机构)每月至少需要支付高达4.2万美元才可使用。- u5 n4 x2 ?3 L# c9 i1 T& i
据CNBC报道,类似于GPT的大型语言模型需要TB级数据库(存储数据量为1TB以上)进行训练,其中大部分数据从社交网站Reddit、程序员问答社区StackOverflow和推特等网站中抓取——来自社交网络的培训数据非常有价值,因为其具有非正式场合的交互对话。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|