OpenAI回应《纽约时报》起诉:用公开素材训练大模型合理

·OpenAI在此次回应中共提出四点主张,OpenAI认为,使用公开的互联网材料训练人工智能模型是合理的,此外,《纽约时报》并未讲述出完整的故事,其诉讼毫无根据。

当地时间1月8日,ChatGPT的开发机构OpenAI在官网发布一份声明,针对近期《纽约时报》提起的诉讼进行了首次正式回应。

2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章以训练人工智能模型。

OpenAI在回应中共提出四点主张,第一,OpenAI愿意与新闻机构合作并创造新的机会;第二,使用公开的互联网材料训练人工智能模型是合理的。但OpenAI提供了退出的选择,因为这是正确的做法;第三,反刍事实(regurgitate facts)确实是一种罕见的错误,OpenAI正在努力将其减少到零;第四,《纽约时报》并未讲述完整的故事,其诉讼毫无根据。

OpenAI在声明中表示,使用公开的互联网材料来训练人工智能模型,得到了学术界、图书馆协会、民间社会团队、初创公司、美国领先企业、创作者等人士的支持,其他地区和国家,包括欧盟、日本、新加坡和以色列,也有法律允许用受版权保护的内容训练模型。

此外,OpenAI为出版商提供了一个简单的选择退出流程,防止OpenAI访问他们的网站,《纽约时报》于2023年8月已采用这一退出流程。

反刍(Regurgitation)是指特定内容在大模型的训练数据中多次出现。OpenAI强调,公司采取了措施来限制非故意记忆,并防止大模型输出中的反刍现象。OpenAI还希望用户采取负责任的行动,故意操纵其大模型进行反刍,并不是对技术的适当使用,也违反了使用条款。

OpenAI称,《纽约时报》看到了一些内容的反刍,但拒绝分享示例。“有趣的是,《纽约时报》提到的反刍似乎来自多个第三方网站上大量传播的多年前的文章。他们似乎故意操纵提示,通常包括冗长的文章摘录,以便让我们的模型反刍。即使使用这样的提示,我们的模型通常也不会像《纽约时报》暗示的那样表现,这表明他们要么指示模型反刍,要么从多次尝试中精心挑选示例。”

OpenAI的声明写道,该公司正在不断提高系统对反刍训练数据的对抗性攻击的抵抗力,并且最近的模型已经取得了很大进展。

OpenAI透露,2023年12月19日,该公司与《纽约时报》进行了最后一次沟通,当时他们向对方解释称,和其他的单一来源一样,《纽约时报》凭自身并不能构成有意义的贡献,对未来的模型训练也不会产生足够大的影响。

“正如人类接受广泛的教育来学习如何解决新问题一样,我们希望我们的人工智能模型能够观察世界范围内的信息,包括来自每种语言、文化和行业的信息。由于模型是从人类知识的巨大集合中学习的,因此任何一个部门(包括新闻)都只是整体训练数据的一小部分,而任何单一数据源(包括《纽约时报》)对于模型的预期学习并不重要。”该公司的声明称。

《纽约时报》在起诉中并未提出具体的赔偿金额要求,但指出被告应为“非法复制和使用《纽约时报》独特且有价值的作品”和与之相关的“价值数十亿美元的法定和实际损失”负责。此外,《纽约时报》要求两家公司销毁任何使用到《纽约时报》版权材料的聊天机器人模型和训练数据。

《纽约时报》还表示,已于去年四月与微软和OpenAI进行接触,对两家公司使用其受知识产权保护的内容表示了担忧,并探讨了“一种友好解决方案”的可能性,其中可能包括一项商业协议以及围绕生成式AI产品的“技术限制”。但是,谈判并没有得出解决方案。

在声明中,OpenAI最后表示,“我们认为《纽约时报》的诉讼毫无根据。尽管如此,我们仍然希望与《纽约时报》建立建设性的合作伙伴关系,并尊重其悠久的历史。”