一
什么是 络爬虫
络爬虫(又称蜘蛛爬虫、 络机器人),是指依据设定的条件,通过自动抓取 络中符合条件的内容,搜集、提取所需的页面数据并自动下载到本地,是一种高效率的自动化下载程序或脚本。 络爬虫具有高效、自动、技术难度低的特性。 络爬虫在爬取 页数据的过程中,会模拟真实客户不间断地向 页提交请求以获取页面数据,这就给 络通道造成严重堵塞,同时占用大量 站流量,导致无法正常返回数据,出现严重的卡顿、最终致 站瘫痪。
二
爬虫技术的行业制约
三
突破/绕过 站设置的反爬技术措施的风险
由于robots协议是一种自律规范,大多数 站经营者会通过增加专门的反爬程序,防止爬虫脚本在本 站获取数据。常见的反爬措施包括:
(1)通过UA识别爬虫;
(2)设置IP访问频率,如果超过一定频率,弹出验证码;
(3)通过 络并发识别爬虫;
(4)请求时间窗口过滤统计;
(5)限制单个ip/api token的访问量;
(6)识别出合法爬虫;
(7)蜜罐技术(一种对攻击方进行欺骗的技术)等,但绕过这些反爬虫技术程序,存在较高法律风险,例如《谷米公司诉元光公司等不正当竞争纠纷案》(2017)粤03民初822 ,该案中,被告需要承50万赔偿金。
四
爬虫技术造成严重后果的风险
《刑法》《 络安全法》《数据安全管理办法(征求意见稿)》《数据安全管理办法(征求意见稿)》《反不正当竞争法》对于 络运营者通过技术手段爬取数据时不得对他人产品造成不当干扰、破坏等均进行了规定。爬虫控制者如基于自身经营需要,使用爬虫技术高频率访问 页、平台,并客观导致 页或平台无法正常运行,使其他正常用户无法访问 页的,或变更了被访问 页运行逻辑和模式的,根据相关法律规定,前述行为可能会被认定为是不正当竞争行为,从而承担相应民事赔偿或行政处罚责任的法律风险;后果严重的,甚至会构成破坏计算机信息系统罪,需要承担刑事责任。
【案例】杨某、张某破坏计算机信息系统罪 (2019)粤0305刑初193
法院查明:张某开发一款名为“快鸽信贷系统”的软件,该软件内的“ 络爬虫”功能能与深圳市居住证 站链接,可以在深圳市居住证 站上查询到房产地址、房屋编码等对应的资料,该软件对深圳市居住证 站访问量能达到每小时数十万次,以达到为其公司主营业务便捷的目的。2018年5月2日10时至5月2日12时许两小时内,该软件对深圳市居住证系统查询访问量为每秒183次,共计查询信息1510140条次并将查询的信息以阿某云 络云盘的形式保存,深圳市公安局居住证服务平台服务器遭受了该爬虫软件的自动化程序攻击,在该时段内造成系统服务器阻塞,深圳市公安局居住证服务平台无法正常对外提供服务,其他用户无法正常使用平台业务,极大地影响了该居住证系统使用方深圳市公安局人口管理处的日常运作。经过审理,法院判决被告人构成破坏计算机信息系统罪。
五
爬虫内容属性带来的法律风险
1.违反数据安全法或构成侵犯公民个人信息罪
除《民法典》《 络安全法》中对公民个人信息的保护之外,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成犯罪;在未经用户许可的情况下,非法获取用户的个人信息,情节严重的也将构成“侵犯公民个人信息罪”。因此无论是通过爬虫技术获取了符合刑法“公民个人信息”范围内的内容,以及转而出售给他人的行为,都可能涉嫌刑事犯罪。
2.违反著作权法或构成侵犯著作权罪
使用 络爬虫技术爬取受著作权法保护的法律客体,对得到的数据进行非法传播,则会侵害著作权人的复制权、信息 络传播权等权利,进而对著作权人的财产权利造成损害。一旦爬虫是使用方被起诉,可能面临侵权赔偿、名誉损失等 站经营过程中,严重者可能侵犯著作权甚至涉嫌“侵犯著作权罪”。
【案例】鼎阅公司及覃某某等人侵犯著作权罪案
鼎阅公司自2018年开始,在覃某某等12名被告人负责管理或参与运营下,未经掌阅科技股份有限公司、北京幻想纵横 络技术有限公司等权利公司许可,利用 络爬虫技术爬取正版电子图书后,在其推广运营的“鸿雁传书”“TXT全本免费小说”等10余个App中展示,供他人访问并下载阅读,并通过广告收入、付费阅读等方式进行牟利。被告人覃某某等12人于2019年3月被抓获归案。公诉机关于2020年1月10日向北京知识产权法院提起公诉。最终,鼎阅公司、直接负责的主管人员覃某某等12名被告人以营利为目的,未经著作权人许可,复制发行他人享有著作权的文字作品,情节特别严重,其行为均已构成侵犯著作权罪。
3.侵犯商业秘密罪
《刑法》第二百一十九条第一款:“以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密的。”第二款:“明知前款所列行为,获取、披露、使用或者允许他人使用该商业秘密的,以侵犯商业秘密论。”因此,如果爬虫使用者在抓取信息的过程中有意地规避了 站经营者设置的保护措施,接触、保存甚至披露了一般用户原本无法访问的信息,而该等信息又构成商业秘密,则爬虫控制者的该等行为存在侵犯他人商业秘密的可能,包括再次转让许可他人使用商业秘密,均有涉嫌侵犯商业秘密罪的刑事风险。
六
风险防范措施
应尽量避免使用爬虫技术
如确需使用,应注意以下两点:
1. 正当地使用爬虫技术手段爬取数据。应避免强行破解/绕开 站经营者设置的数据保护措施,避免访问频率过高(超过 站日均流量三分之一),避免对 页造成破坏等。
2. 规范爬虫技术爬取的对象。根据robots协议、保护数据的技术措施、设计逻辑(验证机制、授权接口等)等要素综合判断被访问者允许被爬取的数据范围;避免未经授权(三重授权原则)爬取公民个人信息、独创性表达的作品数据、和经营者核心业务有关的数据等敏感性数据,不慎爬取到上述信息时须注意脱敏或模糊化处理。
朦胧
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!