首页 刑事实务>正文

刑法规制爬取数据行为的误区与正解

在信息化时代,海量数据是释放优质算力效能的前提,数据获取则成为发生“数聚效应”的基础。在此背景下,具有瞬时获取数据功能的网络爬虫技术应运而生,由此引发的刑法纠葛也随之而来。刑法规制爬取数据行为已成现实,但刑法的贸然出击可能会形成阻碍技术创新的法律壁垒。因此,有必要通过总结司法经验,反思刑法在规制爬取数据行为时的误区并及时修正。

一、误区:网络爬虫技术的犯罪标签化

观察司法现实可以发现,刑法对爬取数据行为的规制呈现出“干预有余而谦抑不足”的景象。具体表现为以下裁判误区:

误区一:刑法介入时间前移。网络爬虫技术是大数据时代新兴的网络技术手段,应当根据其技术风险等级和数据权利谱系确定不同的法律调整手段,刑法作为最后法应当最后“出场”。但从司法实践来看,刑法逐渐呈现出前出倾向,已经开始深度介入网络爬虫技术的法律评价之中。笔者在北大法宝司法案例库中,以“网络爬虫”为关键词进行全文搜索,共检索出109件案例,其中,刑事案件16件,是规制爬取数据行为的第二大法律手段。从刑事案件审判时间轴上看,此类案件2018年之前只有1件,其余15件均为2018年之后,显示出刑法越来越积极地介入对爬取数据行为的规制。

误区二:对爬虫技术的有罪推定。数据价值的凸显巩固了裁判者加强数据保护的思维,进而产生到网络爬虫技术的否定性评价。在刑事司法裁判中,反反爬虫技术被等同于能够突破计算机信息系统安全保护的措施,并以非法获取计算机信息系统数据罪定罪处刑。爬虫技术被当成了带有“原罪”的技术。

误区三:不法判断忽视数据状态。数据状态(主要指数据的开放程度)是影响法益受损程度的重要因子,能够产生阻却或减弱刑事违法性的效果。因为数据的开放意味着数据独占性的减弱,刑法保护的必要性也随之降低。但在刑事司法裁判中,爬取公开数据也被定性为非法获取计算机信息系统数据罪,数据公开的违法阻却功能失效。

二、解析:爬取数据行为的技术原理

刑法对爬取数据行为进行理性规制的前提是全面解读网络爬虫技术。网络爬虫是一种自动抓取数据的算法程序。它的主要功能是自动化浏览网络信息,然后根据预设规则提取并保存有用数据,可以分为发起HTTP请求、获取响应内容、解析内容和保存数据四个基本流程。为了防止高速爬取数据所造成的网站过载等负面效应,技术领域研发出专门针对爬虫技术的反爬虫技术。庞大的反爬虫技术工具集可归类为以下几种:(1)请求头识别。反爬虫技术利用隐藏在请求信息中的编程软件名称和版本信息识别是否为网络爬虫并进行拦截。(2)流量限制。根据同一IP或同一设备发出的数据请求速率是否超过正常访问客户判断是否为网络爬虫。(3)验证码限制。验证码是基于“图灵测试”来识别访问者是人还是机器,并对机器访问进行阻断。(4)欺骗机制。以设置“蜜罐”和前端处理机制最为典型,前者通过吸引爬虫收集大量数据垃圾以阻塞爬取通道,后者通过前端语言技术实现数据混淆、加密等,增加爬取难度。

在相生相克的网络技术革新中,针对反爬虫技术又衍生出一系列反反爬虫技术:(1)针对请求头识别,可以通过修改或自动识别请求头信息技术来规避识别限制。(2)针对流量限制,可以通过设置访问间隔、设立IP代理池等方式降低访问频率,从而防止被发现。(3)针对验证码限制,可以通过专业打码平台或机器图像识别等技术绕过验证码。(4)针对欺骗机制,可以通过分析“蜜罐”或前端语言结构,分离出真实数据。从反爬虫与反反爬虫的技术博弈可以看出,反爬虫技术的目的是防止网络爬虫高频率的爬取数据,而反反爬虫技术则试图突破反爬虫技术从而取得高效获取数据的资格。

三、正解:从行为结构到数据状态

刑法开始深度介入对爬取数据行为的规制,其支点罪名是非法获取计算机信息系统数据罪。为了理性正确地适用该罪名,有必要从行为结构和数据状态两个维度寻求刑法规制爬取数据行为的正解。

(一)网络爬虫技术≠“非法侵入”和“其他技术手段”

关于如何理解非法获取计算机信息系统数据罪中的“侵入”,有学者主张“未经授权说”,并以此衍生出代码理论、身份验证理论等。笔者认为,这种学理解释并不符合我国的刑事法规范。“两高”《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第二条确定“侵入”的行为结构为“突破(避开)安全保护措施+未经授权获取数据”。依此规定,突破(避开)安全保护措施才是侵入的核心。按照网络安全学,安全保护措施可以分为物理安全(包括物理防御、数据备份等)、传输安全(包括防火墙、VPN、入侵检测等)和数据安全(包括数据加密、访问控制等)。由此观之,反爬虫技术并未归入计算机信息系统安全保护措施,且安全保护措施的功能是禁止无权限者访问,而反爬虫技术是禁止访问者高频率的访问数据,二者的功能具有本质区别。因此,“反反爬虫技术+爬取工具”型网络爬虫不具有突破安全保护措施的功能。同时,按照同类解释规则,网络爬虫技术亦不等同于“其他技术手段”。因为网络爬虫承载着数据流通价值,其技术本身并不符合刑事的实质可罚性标准。况且,突破反爬虫技术只是获取了高效爬取数据的资格,并不直接危及计算机类犯罪所保护的法益(计算机信息系统的机密性、完整性、可用性)。因此,将网络爬虫归入“其他技术手段”并不符合非法获取计算机信息系统数据罪的规范保护目的。

(二)数据状态影响犯罪成立

按照法秩序统一规则,数据公开能够起到阻却刑事违法的效能。民法典第一千零三十六条将合法公开作为处理个人信息的免责事由,既然公开可以阻却民事违法,那它当然可以阻却刑事违法。同时,自行公开数据意味着数据权利人作出了允许他人访问、获取数据的承诺。按照“被害人承诺”理论,公开数据会导致刑法保护法益阙如,刑法介入必要性丧失。归言之,“公开”能够成为爬取数据行为构罪的违法阻却事由。此处的“公开”是指信息内容的公开,而非承载信息内容的数据代码的公开。试图以数据代码未公开否定信息公开的违法阻却功能的裁判思路并不值得提倡。因为数据的真正价值在于信息内容而非代码,数据信息内容的公开才会使数据价值受到真正折损,而且司法解释对非法获取计算机信息系统数据罪的罪量标准设置也是以信息内容为基准的。

虽然刑法规制爬取数据行为具有严苛条件,但并不意味着刑法无用武之地:当爬取的数据是公民个人信息时,爬取数据行为可能构成侵犯公民个人信息罪;当爬取的数据是具有著作权的数据或商业秘密时,该行为可能构成侵犯著作权罪或侵犯商业秘密罪;当网络爬虫中嵌入能够突破计算机信息系统安全保护措施的技术并爬取足量数据时,则该行为可能构成非法获取计算机信息系统数据罪;当网络爬虫的爬取速率造成网络堵塞甚至瘫痪时,该行为则可能构成破坏计算机信息系统罪。

作者:陈峰(西南政法大学博士研究生、重庆市第二中级人民法院法官助理)

文章来源:《人民法院报》2022年12月15日第06版

声明:本网站文章版权归原作者及原出处所有,转载的文章我们已经尽可能的对作者和来源进行了注明,若因故疏忽,造成漏注,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。