网站与爬虫的博弈:小小的robots.txt还能守住数据吗?

三十多年来,一个简单的文本文件robots.txt一直维持着网络秩序,控制网络爬虫的行为。但随着AI公司的崛起,它们为了训练模型而大量采集数据,使得网络的“社交契约”面临崩溃。网站拥有者和AI公司之间展开博弈,robots.txt的未来也变得扑朔迷离。

几十年来,一个微小的文本文件默默守护着网络的秩序。它没有法律或技术权威,甚至也没有复杂的技术含量。它代表了互联网早期先驱们的一项“握手协议”,旨在互相尊重彼此的意愿,共同建设一个对 everyone 有益的网络。它可以说是互联网的一部微型宪法,用代码写成。

它叫作 robots.txt,通常位于你的网站根目录下。这个文件允许任何网站所有者——无论大小,是烹饪博客还是跨国公司——告诉互联网谁可以进入谁不可以。哪些搜索引擎可以索引你的网站?哪些档案项目可以抓取你的页面并保存?竞争对手是否可以监控你的页面以供他们自己使用?你可以做出决定并通知网络。

这不是一个完美的系统,但它曾经运作良好。至少以前是这样。几十年来,robots.txt 的主要关注点是搜索引擎;你允许它们抓取你的网站,作为交换,它们承诺将人们发送回你那里。现在,AI 改变了这个公式:网络上的公司正在使用你的网站及其数据来构建大量训练数据集,以便构建可能根本不会承认你存在的模型和产品。

robots.txt 规定了一种交换关系;对许多人来说,AI 感觉只索取不付出。但现在,AI 领域的资金如此庞大,技术水平变化如此之快,许多网站所有者都无法跟上。而 robots.txt 背后的基本协议,以及整个网络——长久以来一直是“每个人都保持冷静”——也可能无法跟上步伐。

在互联网早期,机器人有很多名字:蜘蛛(spider)、爬虫(crawler)、蠕虫(worm)、WebAnt、网络爬虫。大多数情况下,它们都是出于善意而建造的。通常是开发人员试图建立一个酷炫的新网站目录,确保他们自己的网站正常运行,或者建立研究数据库——这是大约 1993 年的事,当时搜索引擎还没有普及,你可以在计算机硬盘上容纳大部分互联网。

当时唯一真正的问题是流量:访问互联网对于看到网站的人和托管网站的人来说都慢且昂贵。如果你像许多人一样将你的网站托管在你的计算机上,或者通过你的家庭互联网连接运行匆忙构建的服务器软件,那么只需要几个机器人过分热心地下载你的页面,事情就会崩溃,电话账单也会飙升。

在 1994 年的几个月里,软件工程师和开发人员 Martijn Koster 与其他网络管理员和开发人员一起提出了一种解决方案,他们称之为机器人排除协议 (Robots Exclusion Protocol)。该提案相当简单:它要求网络开发人员在其域中添加一个纯文本文件,指定哪些机器人不允许在其网站上搜索,或列出所有机器人都不允许訪問的页面。(再次,当时你可以维护一份存在的每个机器人的列表——Koster 和其他几个人帮助做了这件事。) 对于机器人制造商来说,这笔交易更简单:尊重文本文件的愿望。

从一开始,Koster 就明确表示他不讨厌机器人,也不打算摆脱它们。“机器人是网络上少数几个造成运营问题和让人心烦的方面之一,”他在 1994 年初发送给名为 WWW-Talk 的邮件列表(其中包括网络早期先驱者,如 Tim Berners-Lee 和 Marc Andreessen)的初始电子邮件中说。“同时,它们确实提供有用的服务。”Koster 警告不要争论机器人是好是坏——因为这并不重要,它们已经存在了,不会消失。他只是试图设计一个“最小化问题并可能最大化收益”的系统。

“机器人是网络上少数几个造成运营问题和让人心烦的方面之一。同时,它们确实提供有用的服务。”

到那年的夏天,他的提议已成为一个标准——不是官方标准,而是更或多或少被普遍接受的标准。Koster 在 6 月再次致电 WWW-Talk 小组进行更新。“简而言之,它是一种通过在服务器上提供一个简单的文本文件将机器人引导远离网络服务器 URL 空间中某些区域的方法,”他写道。“如果你拥有大型存档、具有大量 URL 子树的 CGI 脚本、临时信息,或者只是不想为机器人服务,这特别方便。”他建立了一个主题特定的邮件列表,其成员同意了一些基本语法和结构用于那些文本文件,将文件名称从 RobotsNotWanted.txt 更改为简单的 robots.txt,并且几乎所有人都同意支持它。

在接下来的 30 年里,这工作得很好。

但互联网不再能装在硬盘上了,机器人也变得更加强大。谷歌使用它们抓取和索引整个网络以供其搜索引擎使用,而搜索引擎已成为互联网的接口,每年为该公司带来数十亿美元的收入。Bing 的爬虫也做了同样的事情,微软将其数据库授权给其他搜索引擎和公司。互联网档案使用爬虫来存储网页以供后世使用。亚马逊的爬虫在网络上搜寻产品信息,根据最近的一项反垄断诉讼,该公司使用这些信息来惩罚在亚马逊以外提供更好交易的卖家。像 OpenAI 这样的 AI 公司正在抓取网络以训练大型语言模型,这些模型可能会再次从根本上改变我们访问和共享信息的方式。

下载、存储、组织和查询现代互联网的能力使任何公司或开发人员都能使用世界上积累的知识。在过去的一年左右,像 ChatGPT 这样的 AI 产品的兴起,以及它们背后的大型语言模型,使得高质量的训练数据成为互联网上最有价值的商品之一。这导致各种互联网提供商重新考虑其服务器上的数据的价值,并重新考虑谁可以访问什么。过于宽松可能会让你的网站失去所有价值;过于严格可能会让你变得隐形。你必须始终根据新的公司、新的合作伙伴和新的利益相关者做出选择。

互联网机器人有几种类型。你可以构建一个完全无害的机器人来四处爬行并确保你的所有页面链接仍然指向其他实时页面;你可以发送一个更粗略的机器人绕着网络收集你能找到的每个电子邮件地址或电话号码。但最常见、目前最具争议的是简单的网络爬虫。它的工作是尽可能多地查找和下载互联网上的内容。

网络爬虫通常相当简单。它们从一个众所周知的网站开始,例如 cnn.com 或 wikipedia.org 或 health.gov。(如果你正在运行通用搜索引擎,你将从不同主题的大量高质量域名开始;如果你只关心体育或汽车,你将只从汽车网站开始。)爬虫下载该第一个页面并将其存储在某处,然后自动单击该页面上的每个链接,下载所有这些链接,单击每个链接,并在网络上传播。有足够的时间和足够的计算资源,爬虫最终会找到并下载数十亿个网页。

权衡取舍相当简单:如果 Google 可以抓取你的页面,它可以将其编入索引并在搜索结果中显示它。

谷歌在 2019 年估计,超过 5 亿个网站拥有一个 robots.txt 页面,指示这些爬虫是否可以访问以及可以访问什么。这些页面的结构通常大致相同:它命名了一个“User-agent”,指的是爬虫在向服务器标识自己时使用的名称。谷歌的代理是 Googlebot;亚马逊的是 Amazonbot;Bing 是 Bingbot;OpenAI 的是 GPTBot。Pinterest、LinkedIn、Twitter 和许多其他网站和服务都有自己的机器人,并非所有机器人都会在每个页面上提及。(维基百科和 Facebook 是两个机器人特别详细的平台。)在下面,robots.txt 页面列出了给定代理不允许访问的站点部分或页面,以及允许的特定例外。如果该行只写着“Disallow: /”,则爬虫完全不受欢迎。

对于大多数人来说,“服务器过载”已经不再是他们真正关心的事情了。“如今,这通常与网站上使用的资源无关,而更多与个人喜好有关,”谷歌搜索倡导者 John Mueller 说。“你想让哪些内容被抓取和索引等等?”

历史上,大多数网站所有者必须回答的最大问题是是否允许 Googlebot 抓取他们的网站。权衡取舍相当简单:如果 Google 可以抓取你的页面,它可以将其编入索引并在搜索结果中显示它。任何你希望 Google 可以搜索的页面,Googlebot 都需要看到。(当然,Google 実際に搜索结果中显示该页面的方式和位置是完全不同的问题。)问题是你是否愿意让 Google 消耗一些你的带宽并下载你的网站副本以换取搜索带来的可见性。

对于大多数网站来说,这是一个简单的交易。“Google 是我们最重要的蜘蛛,”Medium 首席执行官 Tony Stubblebine 说。Google 可以下载 Medium 的所有页面,“作为交换,我们获得了大量流量。这是双赢。每个人都这么认为。”这是 Google 与整个互联网达成的协议,以通过出售搜索结果中的广告来为其他网站引流。根据所有人的说法,Google 一直是 robots.txt 的模范公民。“几乎所有知名的搜索引擎都遵守它,”谷歌的 Mueller 说。“他们很高兴能够抓取网络,但他们不想以此惹恼人们……这只是让每个人都更轻松。”

然而,在过去的一年左右,人工智能的兴起颠覆了这一等式。对于许多出版商和平台来说,让他们的数据被抓取以训练数据感觉更像是偷窃而不是交易。“我们很快发现,与人工智能公司合作,”Stubblebine 说,“不仅不是价值交换,我们也一无所获。真的零。”去年秋天,当 Stubblebine 宣布 Medium 将阻止人工智能爬虫时,他写道“人工智能公司已经从作家那里榨取了价值,以便向互联网读者发送垃圾邮件。”

去年,媒体行业的大部分人士都表达了与 Stubblebine 相同的观点。“我们不认为未经我们许可‘抓取’BBC 数据以训练通用人工智能模型符合公共利益,”BBC 全国总监 Rhodri Talfan Davies 去年秋天写道,并宣布 BBC 也将阻止 OpenAI 的爬虫。纽约时报也屏蔽了 GPTBot,几个月前它起诉 OpenAI 称 OpenAI 的模型“是通过复制和使用纽约时报的数百万篇版权新闻文章、深度调查、观点文章、评论、操作指南等构建的。”路透社新闻应用编辑 Ben Welsh 的一项研究发现,在接受调查的 1,156 家出版商中,有 606 家在其 robots.txt 文件中屏蔽了 GPTBot。

这不仅仅是出版商。亚马逊、Facebook、Pinterest、WikiHow、WebMD 和许多其他平台明确阻止 GPTBot 访问其部分或全部网站。在大多数这些 robots.txt 页面上,OpenAI 的 GPTBot 是唯一明确和完全不允许的爬虫。但还有许多其他以人工智能为目标的机器人开始在网络上爬行,例如 Anthropic 的 anthropic-ai 和谷歌的新 Google-Extended。根据 Originality.AI 去年秋天的一项研究,网络上排名前 1,000 的网站中有 306 个屏蔽了 GPTBot,但只有 85 个屏蔽了 Google-Extended,28 个屏蔽了 anthropic-ai。

还有一些爬虫用于网络搜索和人工智能。CCBot 由 Common Crawl 组织运营,出于搜索引擎目的搜寻网络,但其数据也由 OpenAI、Google 和其他公司用于训练其模型。微软的 Bingbot 既是搜索爬虫又是人工智能爬虫。这些只是识别自身的爬虫——许多其他爬虫试图在相对秘密的环境中运作,使得很难阻止甚至在其他网络流量中找到它们。对于任何足够受欢迎的网站来说,找到一个偷偷摸摸的爬虫就像大海捞针。

在很大程度上,GPTBot 已成为 robots.txt 的主要反派,因为 OpenAI 允许这种情况发生。该公司发布并宣传了一页关于如何阻止 GPTBot 的信息,并构建了其爬虫,使其在每次接近网站时都会大声识别自己。当然,它在训练出使其如此强大的底层模型之后才做所有这些事情,并且只是在它成为技术生态系统的重要组成部分之后才做所有这些事情。但 OpenAI 的首席战略官 Jason Kwon 说,这正是重点。“我们是生态系统中的参与者,”他说。“如果你想以开放的方式参与这个生态系统,那么这就是每个人都感兴趣的互惠交易。”他说,没有这笔交易,网络就会开始萎缩、关闭——这对 OpenAI 和所有人来说都是坏事。“我们做这一切都是为了让网络保持开放。”

默认情况下,机器人排除协议一直是允许的。它相信,就像 Koster 30 年前所做的那样,大多数机器人都是好的,由好人制造,因此默认允许它们。总的来说,这是正确的决定。“我认为互联网从根本上是一种社会生物,”OpenAI 的 Kwon 说,“而这种持续了数十年的握手似乎奏效了。”他说,OpenAI 在维持这一协议方面发挥的作用包括让 ChatGPT 对大多数用户免费,从而将价值返还给他们,并遵守机器人规则。

但 robots.txt 不是法律文件——在其创建 30 年后,它仍然依赖于所有相关方的善意。在你的 robots.txt 页面上禁止机器人就像在你的树屋上贴上“女孩禁止入内”的标语一样——它会发送一条消息,但它不会在法庭上站得住脚。任何想要忽略 robots.txt 的爬虫都可以简单地这样做,而几乎不必担心后果。(尽管围绕网络抓取有一些法律先例,但即使这些先例也可能很复杂,并且主要落在允许抓取和抓取上。)例如,互联网档案在 2017 年宣布它不再遵守 robots.txt 的规则。“随着时间的推移,我们观察到,面向搜索引擎爬虫的 robots.txt 文件不一定符合我们的存档目的,”互联网档案 Wayback Machine 主任 Mark Graham 当时写道。就这样结束了。

随着人工智能公司的不断涌现,以及它们的爬虫变得越来越不择手段,任何想要观望或等待人工智能接管的人都要进行一场永无止境的打地鼠游戏。他们必须单独阻止每个机器人和爬虫,如果这甚至可能的话,同时还要考虑副作用。如果人工智能确实是搜索的未来,正如谷歌和其他公司所预测的那样,那么阻止人工智能爬虫可能是短期的胜利,但却是长期的灾难。

双方都有人认为我们需要更好、更强大、更严格的工具来管理爬虫。他们争辩说,涉及的资金太多,新的和不受监管的用例太多,无法依靠每个人都同意做正确的事情。“虽然许多参与者制定了一些规则来规范他们使用爬虫的行为,”两位专注于技术的律师在 2019 年关于网络爬虫合法性的论文中写道,“但总体而言,这些规则过于薄弱,追究他们的责任太困难。”

一些出版商希望对被抓取的内容以及用于何处进行更详细的控制,而不是 robots.txt 的全面允许或拒绝权限。谷歌几年前曾努力使机器人排除协议成为正式的官方标准,也推动弱化 robots.txt 的地位,理由是它是一个过时的标准,太多网站不予理会。“我们认识到现有的网络发布者控制是在新的 AI 和研究用例出现之前开发的,”谷歌信任副总裁 Danielle Romain 去年写道。“我们相信,网络和人工智能社区是时候探索额外的机器可读手段,以实现网络发布者对新兴人工智能和研究用例的选择和控制。”

即使人工智能公司在如何构建和训练模型方面面临监管和法律问题,这些模型仍在不断改进,新公司似乎每天都在涌现。大小网站都面临着一个决定:屈服于人工智能革命或坚持反对它。对于那些选择退出的人来说,他们最强大的武器是三十年前由网络上最早和最乐观的真正信徒达成的协议。他们相信互联网是一个美好的地方,充满了善良的人,他们最希望互联网成为一件美好的事情。在那个世界和那个互联网上,在一个文本文件中解释你的愿望应该足够了。

本文译自The Verge,由 超载鸡 编辑发布。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2024-02-20
网站与爬虫的博弈:小小的robots.txt还能守住数据吗?
三十多年来,一个简单的文本文件robots.txt一直维持着网络秩序,控制网络爬虫的行为。但随着AI公司的崛起,它们为了训练模型而大量采集数据,使得网络的“社交契约”面临崩溃。

长按扫码 阅读全文