首页 法律常识>正文

法律咨询:网络爬虫是否违法?

爬虫技术作为一种搜集数据的手段,本身并没有合法与非法之分。但是对互联网上众多的数据不加以限定任由随意爬取,势必会对互联网生态造成影响,因此,爬虫技术的应用具有违法性边界。如果突破边界滥用网络爬虫技术获取数据,会威胁保存在网站服务器上的用户个人和互联网服务提供商数据的安全,侵犯用户隐私和服务提供商的商业信息,带来数据权属、知识产权和商业机密保护、个人信息隐私界限、不正当竞争等方面的数据安全风险。

但技术应用不一定是中立的。技术应用往往都带有一定的目的,甚至是不合法的目的。为了防止爬虫技术被滥用,有必要采取相应的技术手段和法律手段加以应对。目前就互联网行业而言,对数据爬虫技术有哪些行业自治规范?

网站通常会采取适当措施,如运用Robots协议、爬虫检测、加固 Web 站点、设置验证码等限制爬虫的访问权限,以防止爬虫对数据进行抓取。例如其中Robots协议由于简单高效,成为国内外互联网行业普遍通行、遵守的技术规范。Robots协议主要是限制网络爬取数据的行为。被爬取数据方将写有可爬取信息范围的Robots协议文件放到该网站,仅允许数据爬取方在协议范围内爬取数据。该协议是行业内普遍遵守的规则,违反Robots协议抓取网站的内容可能会被认定为违背公认的商业道德, 在正当性评判上可能给予一定的负面评价,从而构成不正当竞争。但是Robots协议不能解决爬虫后的使用行为是否合法的问题。Robots协议和行为正当性虽然有关联,但是即使符合Robots协议抓取数据,也可能因为后期使用行为被判定具有不正当性。

Robots协议(也称为爬虫协议、机器人协议)全称是“机器人排除规则”(the robots exclusionprotocol)。其核心思想是网络机器人通过自动检索网页来获取信息,而网页主可以使用robots.txt文件指导网络机器人的访问对象。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,无法阻止窃贼等恶意闯入者。另外Robots协议并非官方文件,也并非由商业组织签署,没有任何强制性,无法保证所有的网络机器人都遵守此协议,只是大多数程序员为万维网提供的一个保护万维网服务器免受骚扰性访问的通行做法。

从Robots协议的产生和规范效果上来看,Robots协议是在搜索引擎诞生并且发展壮大的背景下应运而生的,它是互联网企业间相互博弈的结果,是最终在商业利益、用户个人利益和网站自身安全的基础上达成的一种妥协。规范效果上主要是起到一种排除作用,当某些网站不愿意被搜素引擎所抓取时,这些网络机器人就会自动排除这些不愿意被抓取的内容。对于Robots协议约定不能爬取的范围是爬虫的红线,不能超过这个红线边界爬取。

爬虫是支撑数据经济的一种手段,在这样的前提下,个人认为判断爬虫合法性边界可以参考以下因素:一是数据是否是开放数据。数据是否公开不是合法性判断的标准,是否为开放数据才是,公开数据不必然等同于开放数据;二是取得数据的手段是否合法。爬虫采用的技术是否突破数据访问控制,法律上是否突破网站或APP的Robots协议;三是使用目的是否合法。例如使用目的是否实质性替代被爬虫经营者提供的部分产品内容或服务。如果爬虫的目的是实质性替代被爬虫经营者提供的部分产品内容或服务,则会被认为目的不合法,构成侵犯合法利益;四是是否造成损害。爬虫是否实质上妨碍被爬虫经营者的正常经营,是否不合理增加运营成本,是否破坏系统正常运行。

换言之,一是合法的网络爬虫应限于对开放数据的获取。一般来说政府开放数据与研究数据是最重要的开放数据来源,也是合法网络爬虫获取数据的重要对象。如果网络爬虫获取非开放的政府数据或研究数据以及企业非开放的数据,便是违法甚至犯罪;二是合法使用的爬虫技术不应具有侵入性。网站或APP基于其特定目的可以开放和共享数据,同样也有权采取措施禁止或限制对数据的访问或获取。一旦爬虫技术绕开网站或APP的禁止或限制措施以及违背Robots协议允许范围爬取数据,该技术的运用就具有侵入性。可以说爬虫的侵入性是其违法性的主要体现;三是数据爬取应当基于正当目的。一般来说,利用网络爬虫获取开放数据且手段不具有侵入性的,则数据获取行为合法。但对开放数据的获取也可能因不符合正当目的而具有违法性。从开放的非商业数据和商业数据两大基本类型出发,对非商业性数据的爬取应当要求其符合公共利益之根本目的。对商业性数据的爬取则可借鉴版权法上的合理使用原则,要求其基于合理利用的目的。

目前,我国司法实践中,对数据爬虫的法律规制其实主要适用反不正当竞争法。在用反不正当竞争法规制数据爬虫时,对数据获取和使用两个行为都要评价,即行为必须同时具备违约或不合法,评价重点是对爬取到的数据的使用行为;适用民事法律规制时获取行为和使用行为只要其中之一违约或不合法就可以适用民事法律进行评价,这是区别反不正当竞争法规制与民事法律规制的关键。一是数据获取行为。二是数据使用行为。爬虫行为实施者对取得的数据是否用于同业态竞争,是否利用该爬取的数据形成了竞争优势。具体为需要考虑经营者之间的竞争关系以及行为对市场竞争的影响,判断结果最终落脚在对爬取数据的使用行为是否影响了经营者之间的公平竞争。

从民事法律规制的角度看:首先,对于公开数据的爬取。如果数据权利方在Robots协议或网页中告知了爬取的范围以及其他应遵守的义务,爬取方没有遵守义务,应当承担相应民事责任。其次,对于突破网站或APP的反爬虫技术设置的行为。爬虫从技术上突破数据访问控制,如突破网站或APP的Robots协议以及设置的爬虫检测、加固 Web 站点等限制爬虫的访问权限,可能违法要承担相应的民事责任。再次,对于数据的使用目的不正当的行为。对于爬取到的数据,如果使用目的是实质性替代被爬虫经营者提供的部分产品内容或服务,属于侵犯权利方合法权益的行为,应当承担相应民事责任。最后,对于给权利人造成损害的行为。如果因为爬虫行为实质上妨碍权利人的正常经营,不合理增加权利人运营成本,破坏网络系统正常运行,给权利人造成损失的,权利人可以向爬虫行为人提起侵权之诉,要求获得赔偿。

从刑事法律规制的角度看:一是明知没有授权而故意避开或强行突破网站或APP的反爬虫技术设置进行的爬取行为,属于“未经授权”访问或获取数据,行为人应承担刑事责任。根据我国刑法规定,突破技术屏障入侵他人计算机系统、获取系统内的数据,可能涉及的罪名包括非法侵入计算机信息系统罪、非法获取计算机信息系统数据罪、破坏计算机信息系统罪。爬取对象特定的情况下,还有可能构成非法获取国家秘密、情报罪以及非法获取军事秘密罪等。此外,如果利用爬虫技术非法获取公民个人信息,依照刑法规定,可能触犯侵犯公民个人信息罪。二是对于使用爬取的数据实施的犯罪行为,刑法也予以特别规制。如对获取的信息数据加以传播、利用或改造,有可能涉及非法传播淫秽物品罪、侵犯商业秘密罪、侵犯著作权罪等。司法实践中使用行为多种多样,需要结合具体案情综合认定。

注:本文部分观点来自于高富平教授、张勇教授、邵旻检察官等

文章来源:上海检察公众号

声明:本网站文章版权归原作者及原出处所有,转载的文章我们已经尽可能的对作者和来源进行了注明,若因故疏忽,造成漏注,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。