OpenAI“复制粘贴”背后：剽窃者想要免费获得一切

人阅读

2024-01-30 12:00:32

来源：极客网
相关关键词

极客网·人工智能1月30日 如今，人们发表的文章或作品被剽窃，而剽窃者免费使用或为此获利的事例屡见不鲜。从互联网到AI，莫不如此。

比如，如今火热的OpenAI，其AI模型就很少为其使用的内容付费，该公司在2023年创造了13亿美元的收入。

OpenAI的狡辩

在《纽约时报》针对OpenAI进行的版权诉讼中，OpenAI为自己辩护称，“我们使用互联网公开的内容训练AI模型的行为是合理的。”

根据OpenAI的这一逻辑，任何人放到网上的作品都是在参与一种公平的游戏，都可以被利用并纳入该公司的大型语言模型。

《纽约时报》声称，该报发表的数百万篇文章现在被OpenAI用来训练与其进行业务竞争的聊天机器人。他们从该报作者和编辑的工作成果中赚取了数十亿美元，却没有支付稿费。

OpenAI还声无赖地声称，《纽约时报》可以选择不让他们的报道被ChatGPT的LLM使用。但是，如果是这样的话，那么，ChatGPT直接抄袭《纽约时报》获得普利策奖的一篇调查报告该如何解释呢？该报告是《纽约时报》的记者历时18个月对纽约市出租车行业的掠夺性贷款行为进行调查而发表的一篇详尽报道。

事实面前，OpenAI解释，ChatGPT可能采用的是其所谓“记忆”的方法。该公司辩称，“这是我们在不断学习和进步过程中罕见的一次失败，但当特定内容在训练数据中不止一次出现时，就像它的片段出现在许多不同的公共网站上一样，这种情况更为常见。”

与此同时，OpenAI声称，“《纽约时报》的报道没有对我们现有模型的训练做出有意义的贡献，也不会对未来的训练产生足够的影响。”GPT-3中权重最高的数据集是Common Crawl，排名前三的数据来源是维基百科、美国专利数据库和《纽约时报》。

剽窃者想要免费获得一切

正如Futurism网站的特约撰稿人Victor Tangermann最近在发表的一篇文章所写的那样，“OpenAI的整个商业模式依赖于尽可能多地收集数据，通常包括受版权保护的材料。”

OpenAI在向英国议会提出的观点也是这样表达的。该公司表示：“因为当今的版权几乎涵盖了所有类型的人类表达，其中包括博客文章、照片、论坛帖子、软件代码片段和政府文件——如果不使用受版权保护的材料，那么就不可能训练领先的AI模型。”

已故科幻作家Harlan Ellison在《付钱给作家》文章中曾说：“剽窃者想要免费获得一切。他们付费给作家了吗？没有，他们总是想让作家白干！”

OpenAI和其他生成式AI开发商就是如此。他们窃取出版公司、出版物、作家和编辑的工作成果，他们在没有给任何人支付费用的情况下获利。

历史总是在重演

历史总是在重演。报纸和杂志等出版物在20世纪90年代开始衰落，他们的内容被发到互联网，而出版商无法获利润。这就是谷歌能够通过广告将新闻媒体的内容转化为利润的原因，而新闻出版物的收入则大量流失。

希望出版商不会再犯这样的错误，他们应该获得相应的报酬。当然，这种情况可能会重演。如果那真的发生，那么就能看到未来是什么样子。博主兼科幻作家Cory Doctorow为这种情况创造了“Enshittification”这样的词语来描述，指的是网站内容和信息质量的下降。

最近的研究表明，谷歌的搜索结果正变得越来越无效，而且充斥着更多的垃圾网站。越来越多的内容是基于搜索引擎优化和AI生成的废话。与此同时，内容质量相对于数量的下降，将导致出版商和作家收入减少。这反过来意味着，可供生成式工智能引擎训练的具有价值的故事将会越来越少。

如果OpenAI和生成式AI开发商是明智的，他们需要与内容创作者分享财富。从长远来看，这确实是所有人前进的唯一道路——无论是科技亿万富翁还是自由撰稿人。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）