爬虫的“紧箍咒“

网络爬虫技术本为互联网行业的常用技术之一,被广泛应用到各个领域。人们对于数据的采集和分析能力,获得了大幅的提升。但客观现实是,技术的应用,特别是市场化、大规模的应用,往往具有明确的目的性。在很长一段时间内,恶意爬虫未经授权肆意抓取、突破robots协议爬取、同行业间数据爬取,成为常规操作。

作为信息时代的重要资源,随着数字经济的发展,数据也逐渐成为企业的一项重要资产,能够产生无穷的商业价值。11月14日,国家互联网信息办公室对《网络数据安全管理条例(征求意见稿)》公开征求意见,数据合规再套“紧箍咒“。当网络平台或者个人通过技术手段抓取别的平台数据时,这种行为是否合法,平台数据主体是谁,归谁使用,数据如何流转才能提升市场运作效率、对消费者福利带来积极影响,值得深入研讨。

数据的逻辑

爬虫技术作为一项常见的抓取技术,在业内广泛使用,技术的发展也形成了技术的标准和技术的规则。Robots协议的英文全称为RobotsExclusionProtocol,指网站所有者通过一个置于网站根目录下的文本文件,即robots.txt,告知搜索引擎的网络机器人(或称网络爬虫、网络蜘蛛)哪些网页不应被抓取,哪些网页可以抓取,其本质上是受访网站与搜索引擎之间的一种交互方式。

Robots协议解决前置性问题,即抓取行为是否得当。一方面,robots协议要求搜索引擎的网络机器人遵守受访网站的robots协议,另一方面也要求受访网站设置的robots协议本身应当是合理的,不应违背“促进信息共享”的初衷。网络服务商或网站所有者既可以在robots协议中列明准许或禁止网络机器人抓取的网站内容,也可以列明准许或不准许抓取其网站内容的网络机器人。但网络机器人识别该robots协议后,无论是否遵守,robots协议都不会起到强制禁止访问的结果。

2012年11月1日,在中国互联网协会的牵头组织下,十二家互联网企业签署了《互联网搜索引擎服务自律公约》(简称《自律公约》),第七条第一款规定:遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)。第八条规定:互联网所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

(一)公开数据的限度

提到对公开数据的爬取,绕不开的是2016年被列为“影响中国互联网法治进程十大案例”之一的大众点评诉百度不正当竞争案。

在百度涉案行为的不正当竞争性上,上海知识产权法院认为,在判断经营者使用他人信息的相关行为是否违反商业道德、扰乱公平竞争的市场秩序的时候,主要应综合考虑公司行为是否具有积极的效果、是否超出了必要的限度、超出必要限度的行为对市场秩序所产生的影响、是否影响竞争行为正当性的判断等方面。百度地图大量使用大众点评网的点评信息,替代大众点评网向网络用户提供信息,会导致大众点评网的流量减少。百度地图在大量使用大众点评网点评信息的同时,又推介自己的团购等业务,攫取了大众点评网的部分交易机会。

同样,作为公开分享平台,在微博诉“饭友”APP 案中,复娱公司开发的“饭友”App在明星帐号中设置微博专题,并嵌套该明星的新浪微博界面,完整地展示了该明星微博包括界面和内容在内的全部数据,还屏蔽了新浪微博中的部分功能且添加了自有功能。这里有两个行为,一个是爬虫爬取数据的行为,一个是屏蔽微博部分功能替代的行为。

北京市海淀区人民法院认为,新浪可就他人非法抓取并使用该数据的行为主张权益【(2017)京0108民初24510号】。二审北京知识产权法院维持原判,认为微梦公司作为微博运营者,对微博前后端全部数据享有权益,并通过微博这一生态链实现商业利益。【(2019)京73民终2799号】

(二)未公开数据的限度

现在的爬虫技术已经从原来的网页爬虫进入到底层数据的爬取。平台的非公开数据通常涉及数据安全、用户隐私以及平台经营者商业策略的实现等,系平台经营者的核心资源。业内通行的观点认为,这些数据不属于可自由流动的数据范畴,未经平台经营者许可,他人不得随意获取、使用。

在微博诉“饭友”APP 案中,北京市海淀区人民法院一审认为,鉴于二者的发布时间,点赞、评论和转发数量具体化的程度亦不同,且微博的此类信息相较于饭友App精简等事实,法院认定复娱公司系通过绕开或破坏微梦公司技术保护措施的手段,实施了抓取和展示微博后台数据之行为。

在抖音诉“小葫芦”网站案中,浙江省杭州市余杭区法院审查发现,小葫芦网站通过“爬虫”等技术手段,从抖音等多平台获取抖音平台主播直播数据、抖音直播数据及抖音直播主播详情,短视频数据、电商数据、舆情分析和用户画像等内容。小葫芦网站的行为具有不正当性,也存在侵犯用户隐私可能,还破坏了抖音产品的运营逻辑和秩序。法院对小葫芦网站作出针对非法抓取直播数据行为的全国首例禁令。

10月中旬,一家名叫“胖球数据”的直播数据平台,也因涉嫌用爬虫窃取直播相关数据被一锅端这里面有一个核心问题:数据从哪来的。

(三)公开数据处理的限度

公开的数据,是否必然可以无限制使用?还是在大众点评诉百度不正当竞争案中,法院认为,在靠自身用户无法获取足够点评信息的情况下,百度公司通过技术手段,从大众点评网等网站获取、大量使用了这些点评信息,其行为具有明显的“搭便车”、“不劳而获”的特点。

2021年6月,美国最高法院驳回了下级法院禁止Linkedln阻止hiQ访问其用户公开信息的判决,并发回旧金山第九巡回法庭重审。此前,领英(LinkedIn)认为其竞争对手hiQ Labs从公开资料中收集个人数据的行为威胁用户隐私,因而希望阻止这种行为。事实上,已公开的个人信息是否因已公开状态,二次处理是否具有正当依据,很大程度得进行个案考量。

法律的逻辑

在数字经济时代,数据的价值在于流通、开发和使用,但无论是《个保法》还是《数据安全法》,都没能正面回应数据财产权的归属这一问题。《网络数据安全管理条例(征求意见稿)》只能从使用的角度去强化数据处理与流转利用规则。其中,第七条第二款明确规定,国家建立健全数据交易管理制度,明确数据交易机构设立、运行标准,规范数据流通交易行为,确保数据依法有序流通。司法裁判也在不断探索数据权益保护。

互联网数据中心(DCCI)、未来智库创始合伙人胡延平认为,“开放有开放的合作,合作有合作的玩法,分享也有分享的路径。不是因为开放,不是因为是一个互联网,所有人都可以为所欲为,所有企业都可以想怎么抓取就怎么抓取。”

(一)授权的流通

数据的搜集和整理往往需要通过投入巨大成本才获得数据。如果没有限制地让网络爬虫任意获取他人通过巨大投入获取的数据资源,不但可能直接违背了用户的意愿和知情权,也将没有经营者再愿意投入巨额成本进行类似的创新性、基础性的工作,从而抑制经营者创新的动力。

在大众点评诉百度不正当竞争案中,法院认为,通过法律维护点评信息使用市场的正当竞争秩序,有利于鼓励经营者创新业务模式,投入成本改善消费者福祉。相反,将没有经营者再愿意投入巨额成本进行类似的创新性、基础性的工作,从而抑制经营者创新的动力。

在抖音诉“刷宝”APP 案中,海淀区人民法院认为,微播公司作为抖音 App 的开发者和运营者,投入相应的人力、财力成本,通过正当合法的经营,吸引用户发布、观看、评论、分享短视频,积累用户、短视频内容、流量,并依据与用户的协议在正常的经营活动中使用相关短视频内容,抖音 App 所展示的短视频内容、用户评论等资源均是微播公司通过正当合法的商业经营所获得,并由此带来经营收益、市场利益及竞争优势,上述合法权益应受反不正当竞争法的保护。

《网络数据安全管理条例(征求意见稿)》第八条做出了相应的规定,其中第三项规定,禁止通过窃取或者以其他非法方式获取数据。此外,数据处理者向第三方提供个人信息,或者共享、交易、委托处理重要数据的还必须遵循告知、明示、约定处理规则等要求。

这一条的前提是在向用户明确告知和用户授权的前提下,数据处理者才能向第三方提供相关数据。反之也可以推导出,如果没有得到用户授权,也没有获得数据处理者的同意,第三方数据接收方也没有约定数据的目的、范围、处理方式和安全保护措施,第三方数据接收方不能获取更不能使用相关数据。这一点和”三重授权原则“有本质上相似的基本逻辑。

即使相关行为不“搭便车”,是否就可以全面抓取使用?根据《网络数据安全管理条例(征求意见稿)》第十二条第二款规定,(二)与数据接收方约定处理数据的目的、范围、处理方式,数据安全保护措施等,通过合同等形式明确双方的数据安全责任义务,并对数据接收方的数据处理活动进行监督。由此可见,第三方数据接收方超首先必须合法获取公开数据,其次,如果超过约定的目的、范围、处理方式处理个人信息和重要数据,仍然构成违法。

(二)合理的流通

在“车来了”不正当竞争案中,自 2015 年 11 月起至 2016 年 5 月,武汉元光科技有限公司为了提高其开发的智能公交应用程序“车来了”的市场份额及信息查询的准确度,利用网络爬虫技术大量获取竞争对手深圳市谷米科技有限公司经营的同类公交应用程序“酷米客”的实时公交信息数据,无偿使用于其“车来了”应用程序,并向公众提供查询服务。

深圳市中级人民法院在本案中认定【(2017)粤03民初822号】,原告谷米公司出于商业模式或其他需要向公众免费提供数据查询,被告元光公司未经权利人许可,以网络爬虫技术入侵后台盗用数据, 并将盗取数据用于经营同类业务的,具有破坏他人市场竞争优势、谋取竞争优势的主观故意,属于严重破坏市场秩序的行为,构成不正当竞争。

有一个例外,搜索引擎之间相互爬取是否需要获得授权?在北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司与北京奇虎科技有限公司不正当竞争纠纷案中,北京市高级人民法院二审【(2017)京民终487号】判决认为,应结合robots协议设置方与被限制方所处的经营领域和经营内容、被限制的网络机器人应用场景、robots协议的设置对其他经营者、消费者以及竞争秩序的影响等多种因素进行综合判断。这并不意味着对于互联网企业所设置的任何robots协议均能够基于企业自主经营权而当然地认定其具有正当性。

(三)有序的流通

任何流通都必须有序进行。互联网平台获取数据一般通过两种方式:一种是通过商业合作进行数据交易或交换(如OpenAPI模式),另一种是利用爬虫技术自动抓取数据的模式。不论是哪一种方式,爬虫技术是否中立要看爬虫的功能及爬虫使用的目的,不能完全脱离其使用目的而去谈它的中立性。在正当性判别上,既要考虑平台的合法权益和相关消费者的利益,也要考虑是否损害正常的竞争秩序,还要考虑是否足以保障数据的安全性。

有电商平台的负责人曾表述,恶意爬虫案例经常发生在内容平台和电商平台。在内容上被爬取的更多是视频、图片、文字、网红互动数据、用户行为等,在电商领域则多为商家信息和商品信息。这些商业化、市场化的技术应用背后,往往具有商业主体明确的目的性。越来越多的司法判决也在厘清一个基本规则:“有序”和“流转”同等重要、缺一不可。

2014年,北京淘友天下技术有限公司和北京淘友天下科技发展有限公司运营的脉脉未经用户允许和微博平台授权,非法抓取、使用新浪微博用户信息,非法获取并使用脉脉注册用户手机通讯录联系人与微博用户的对应关系。该案也被称为首例大数据不正当竞争纠纷案。

2017年,北京知识产权法院终审认定,脉脉的经营公司未经用户允许和微博平台授权,非法抓取、使用新浪微博用户信息,构成不正当竞争。也就是在该案中,北京知识产权法院以司法判例方式确立的“三重授权”原则。“三重”,指的是第三方开发者通过Open API获得用户信息时必须遵循“用户授权+平台方公司授权+用户授权”。

(四)竞争的权益

关于数据和竞争的相关讨论,在大众点评诉百度不正当竞争案中,法院考量汉涛公司是否具备可诉诸法律保护的合法权益上,关注了汉涛公司获取涉案数据信息的成本,以及涉案数据信息为汉涛公司带来的效益。法院认为,在百度公司靠自身用户无法获取足够点评信息的情况下,通过技术手段,从大众点评等网站获取点评信息,用于充实百度地图,百度公司的这种类似于“搭便车”、“不劳而获”的行为违反了公认的商业道德和诚实信用原则,具有不正当性。

在微博诉“饭友”APP 案中一审和二审法院均认为,饭友App用户无需注册或登录微博帐号即可查看微博全部内容,饭友App已对微博构成实质性替代;既实际分流走了微梦公司的潜在用户流量,也影响了微梦公司通过微博可以获得的广告、票务等商业收益,给微梦公司实际造成了损失。

在微博诉今日头条关于robots协议不正当竞争纠纷案二审中,北京市高级人民法院认为,互联网领域中消费者福利的增加,依赖于数据在更大范围和更深层次的共享利用,而非通过数据爬取对数据进行明显替代性或同质化地利用。

因为数据问题引发的案件还在继续。近日,新浪微博因限制其访问用于分析舆论的数据,蚁坊软件公司声称向长沙市中级人民法院起诉其涉嫌垄断。这也是国内首例因互联网平台拒绝数据许可引发的反垄断民事诉讼。此前(2018 年),新浪微博认为蚁坊公司采集、使用微博数据的行为涉嫌不正当竞争,在北京海淀法院提起诉讼。今年 3 月,北京知产法院二审判决蚁坊公司败诉。

(五)正当的运营

抓取不能侵害其他主体的权益。如果爬虫7X24小时自动持续对被爬取方进行访问,每天达几百万次,甚至上千万次,这会给服务器带来“难以承受”之重,导致受访网站无法正常运行,则有必要对其进行限制。

2021年9月14日,杭州互联网法院审理一起爬取微信公众号数据中,证据显示,斯氏(杭州)新媒体科技有限公司(以下简称斯氏公司)运营的“极致了”网站使用自动化脚本不间断爬虫,绕过原告微信公众平台的反爬措施,,还通过多个代理IP操作,绕过封号、封IP等防护措施,日均访问量达70余万次。

2019年公布的《数据安全管理办法(征求意见稿)》第16条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

这一管理办法后被11月14日公布的《网络数据安全管理条例(征求意见稿)》取代。其中第十七条对企业运营网络爬虫的规制做了更明确规定:数据处理者在采用自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能。自动化工具访问、收集数据违反法律、行政法规或者行业自律公约、影响网络服务正常功能,或者侵犯他人知识产权等合法权益的,数据处理者应当停止访问、收集数据行为并采取相应补救措施。

(六)安全的底线

依据《网络安全法》第四十一条取得被收集者同意即自动抓取个人信息,技术使用者即涉嫌构成侵犯公民个人信息罪、非法侵入计算机信息系统罪或非法获取计算机信息系统数据罪等相关罪名。刑事案件中,往往没有对数据的权属进行定性,而是更倾向于从行为和结果进行定罪。

2021年2月,上海徐汇区检察院通报,某网络公司在未经被害公司授权许可的情况下,被告人李某决策通过非法手段抓取对方直播数据并出售牟利被提起公诉。2021年6月,河南省商丘市睢阳区人民法院公布的刑事判决书【(2021)豫1403刑初78号】显示,逯某和黎某两男子通过自己开发的爬虫软件,对淘宝实施了长达八个月的数据爬取,非法获取近12亿条用户消息。

在“车来了”APP爬取“酷米客”APP公交车行驶实时数据案不正当竞争判决之前,南山区人民法院在刑事判决【(2017)粤0305刑初153号】中认定,邵xx等五人的行为已构成非法获取计算机信息系统数据罪,谷米公司因被非法侵入计算机信息系统所造成的直接经济损失为24.43万元。

在张xx等非法获取计算机系统数据案【(2017)京 0108 刑初 2384 号】中 ,被告人张xx、宋x、侯xx作为被告单位上海晟品网络科技有限公司主管人员,采用技术手段破解被害单位的防抓取措施,使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制,造成被害单位损失技术服务费2万元,北京市海淀区人民法院以该行为侵入计算机系统的技术方式获取服务器存储数据,构成“非法获取计算机系统数据罪”定罪。

(七)全链条的风控

同样还需要关注的是,数据资源一旦流通,原数据所有者就很难对其用途进行追踪、控制。例如,在“剑桥数据门”事件中,脸书对剑桥分析公司开放了数据,而后来剑桥分析公司用这些数据所做的事情引发了立法者和监管机构的审查。这也对Facebook造成了重大影响,随后Facebook出于多种原因而暂时封禁数万个应用。

也正是基于此,《网络数据安全管理条例(征求意见稿)》对于数据合作中的数据处理活动进行监督,关注全球化时代背景下数据全链条的安全。第十二条第一款第二项规定:(二)与数据接收方约定处理数据的目的、范围、处理方式,数据安全保护措施等,通过合同等形式明确双方的数据安全责任义务,并对数据接收方的数据处理活动进行监督。第二款规定:数据接收方应当履行约定的义务,不得超出约定的目的、范围、处理方式处理个人信息和重要数据。

由此可见,第三方数据接收方首先必须合法获取公开数据,其次,如果超过约定的目的、范围、处理方式处理个人信息和重要数据,仍然构成违法。

数据相关案件不完全列表:2016年,“车来了”APP爬取“酷米客”APP公交车行驶实时数据案2017年,脉脉非法抓取使用新浪微博用户信息案2017年,今日头条未经授权移植新浪微博大V账号内容数据案2019年,刷宝APP爬取抖音APP短视频及用户评论数据案2020年,北京朝阳:员工通过“暗网”出售客户信息案2021年,“极致了”网站爬取微信公众号文章数据案2021年,魔蝎数据科技有限公司侵犯公民个人信息案2021年,上海浦东:公司非法爬取个人信息开展征信业务出售牟利案2021年,斯氏(杭州)新媒体科技有限公司爬取微信公众号平台数据案(来源:猎云网)

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

  • 简版
  • 原版
  • 投稿
  • 回顶部
2021-11-22
爬虫的“紧箍咒“
数据逐渐成为企业的一项重要资产,能够产生无穷的商业价值。

长按扫码 阅读全文