编译/夏洛特
网路内容被用来训练人工智慧(AI)模型的争议越演越烈,《纽约时报》先发制人,禁止其内容被用於训练AI模型。日前,《纽时》就更新其服务条款,禁止其内容,包括文本、照片、图像、音频/影片、外观和感觉、後设资料或合集,被用於开发「任何软体程式,包括但不限於训练机器学习或AI系统」。
据外媒报导,更新後的条款现在还规定,未经《纽时》的书面许可,不得使用在该出版物上使用网站爬虫等自动化工具。《纽时》表示,拒绝遵守这些新限制可能会招致罚款或处罚。值得注意的是,尽管《纽时》在其政策中引入新规则,该出版物似乎并未对其 robots.txt 进行任何更改,robots.txt会通知搜寻引擎爬虫哪些内容是不应被搜寻引擎的漫游器取得的,而哪些是可以被取得的。
更多新闻:Google推AI新闻写作工具!锁定《纽约时报》《华尔街日报》
《纽时》此举可能是对Google最近更新的隐私政策的回应。根据Google的新政策,其会从网路收集公共数据训练其各种AI服务,如Bard或云端AI。而许多其他AI服务的大型语言模型,如OpenAI 的ChatGPT,也都是在从网路上抓取的受版权保护或以其他方式保护的材料训练的。
不过,即使《纽时》禁止其他公司使用自家内容,该出版商也在2023年 2 月份与Google签署一项价值 1 亿美元的协议,并允许这家搜寻引擎巨头在未来三年内在其部分平台上展示《纽时》的内容。《纽时》称,两家公司将合作开发内容分配、订阅、行销、广告和「实验」工具,因此《纽约时报》服务条款的变化可能是针对 OpenAI 或微软等其他公司。
报导还指出,《纽时》已退出试图与科技公司就AI训练数据进行联合谈判的媒体联盟,这代表,《纽时》与一些公司达成的可能只会是「单独」的个别协议。本月早些时候,包括美联社和欧洲出版商委员会(European Publishers Council, EPC)在内的多家新闻机构共同签署一封公开信,呼吁全球立法者制定法律,要求训练数据集透明,并在使用数据进行训练之前先取得所有人的同意。
参考资料:The Verge
※更多ChatGPT相关讯息,请参考【生成式AI创新学院】。