适度放宽数据要求，让人工智能“吃饱”一点

注册真真难 · 发表于 2023-4-24 13:33:48

以文心一言、ChatGPT 为代表的人工智能生成服务方兴未艾，迅速风靡。一方面，人们为它的便利性和智能性惊叹，另一方面，用户对于生成内容会不会造成隐私泄露，会不会出现不和谐内容的忧虑也与日俱增。近日，网信办发布了《生成式人工智能服务管理办法（征求意见稿）》（简称《征求意见稿》），尝试探讨人工智能生成服务的规范问题。这一规定恰逢其时，对于促进生成式人工智能产业发展具有重要意义。但是，我仍然想说，法律法规对于新兴技术的限制应当把握好 " 度 "，既要对生成内容健康性进行有效引导，也不应让技术本身背太多的 " 锅 "。

例如，《征求意见稿》第七条提到 " 提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责 "" 数据包含个人信息的，应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形 "" 保证数据的真实性、准确性、客观性、多样性 "。这类规定其实在实操上存在很大的困难。
首先，数据真实性、准确性是否属于个人信息，在不同的场景下很难界定。例如，很多新闻都说 " 冯德莱恩是欧洲的‘裸官’ "，欧盟又出来辟谣，这些新闻孰真孰假呢？一位知名医生的履历被挂在医院网站上，这属于 " 个人信息 " 还是 " 公共信息 " 呢？如果生成式人工智能连知名医生的信息也获取不到，它的价值会大打折扣。正是因为界定的模糊性，对海量数据的真实性和准确性进行逐一评判和甄别，几乎变成了不可能的任务。
其次，生成式人工智能技术是一种基于数据驱动的技术，它通过学习大量的数据，来模拟数据中的分布和规律，从而生成新的数据。这种技术本身并不具有判断真实性、准确性、有效性的能力，也不依赖于这些标准来优化自身的性能。因此，要求生成式人工智能服务提供者保证其提供的服务内容真实、准确、有效，实际上对技术存在一定的误解。这种要求会给生成式人工智能服务提供者带来巨大的压力和风险，也会抑制生成式人工智能技术的创新和发展。

生成式人工智能的大量训练数据来自于海量的互联网信息，而互联网信息则来自于千千万万互联网用户和古今中外的资料。正是这丰富而多样的数据来源，赋予其强大的智能。客观来讲，在当下的技术发展阶段，需要让生成式人工智能既 " 吃饱 " 又 " 吃好 "，才能促进其快速发展和进化。如果因难以甄别而将大量的信息弃之不用，无异于因噎废食。如果过于追求 " 真实性 "" 准确性 "" 规避个人信息 "，势必大大缩小模型的数据集数量，导致国内生成式人工智能技术难以有效发展、用户使用体验严重下降，甚至很快被国外的同类平台在技术上远远甩开。
所以，我们应当以长期主义的开放心态来看待生成式人工智能技术。给它以宽容，给它以空间，接受它的不完美。生成式人工智能技术不是一个能够甄别一切假新闻、能够保护所有人隐私的 " 神 " 级技术，但是它的有效发展，却能够实实在在地便利工作与生活，提高社会生产力。这么好的技术，我们一定要占领世界制高点。
法律法规对新兴技术的限制从来都是一个 " 度 " 的问题，过犹不及。对于新生事物，既要有效引导和管理，也要充分鼓励支持。要让生成式人工智能和互联网信息内容更加真实、健康，通过法律法规给生成式人工智能提供方压力只是治 " 标 "，在全社会践行社会主义核心价值观才是治 " 本 "。
（作者系郑州大学人工智能工程应用实验室主任）

账号		自动登录	找回密码
密码			立即注册

适度放宽数据要求，让人工智能“吃饱”一点

本帖子中包含更多资源

浏览过的版块