你的爬虫会送你进监狱吗?

爬虫究竟是合法还是违法的/h3>

络爬虫(英语:web crawler),也叫 络蜘蛛(spider),是一种用来自动浏览万维 的 络机器人。通俗来讲,爬虫就是一项计算机技术,方便用户自动化、高效率地浏览互联 并从互联 上获取数据。最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。(见罗刚《 络爬虫全解析:技术、原理与实践》,电子工业出版 ,第65-66页。)

爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。

详细分析

既然我们说爬取数据是有可能触犯法律的,那么我们就需要拆开分析一下到底什么情况下会被法律所制裁。爬取数据操作分为和两方面,我们将分别论述。

1. 爬取行为的法律风险

1.1 民事风险

爬虫目前能造成的技术上影响在于野蛮爬取,即,从而导致或不能访问,这也是大多数 络攻击所使用的方法之一。

由于爬虫会批量访问 站,因此许多 站会采取反爬措施。例如:1.IP频率、流量限制;2.请求时间窗口过滤统计;3.识别爬虫等。

但这些手段都无法阻止爬虫开发人员优化代码、使用多IP池等方式规避反爬措施,实现大批量的数据抓取。由于 络爬虫会根据特定的条件访问页面,因而爬虫的使用将占用被访问 站的 络带宽并增加 络服务器的处理开销,甚至无法正常提供服务。在中我们可以发现,法律会对爬虫的这种行为进行规制。

即经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的 络产品或者服务正常运行的行为:…(四)其他妨碍、破坏其他经营者合法提供的 络产品或者服务正常运行的行为。

虽然上述规定是兜底条款,但其体现了法律禁止通过技术手段进行对他人非法干绕的总体原则。

因此,如果 站运营者已经采取了一定的反扒措施,而爬虫开发人员基于经营的目的、强行突破 站运营者采取的反爬措施,并客观上导致了,则很有可能构成上述规定所表述的不正当竞争行为。

但是在此种情况下鉴别爬虫者身份仍然是追责的一大阻碍,很多 站由于反爬机制落后,因而在法院诉讼中无法举证证明爬虫者因而得不到法院的支持。(见北京知识产权法院 (2016)京73民终588 案件)

1.2 刑事风险

强行突破某些特定的反爬技术措施,还会构成形式犯罪的行为。

《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。

如上所述规定,爬虫开发者在获取数据过程中,一旦突破某些技术防护措施并且操作不当,造成的,将会构成犯罪,面临牢狱之灾。

2. 爬取特定类型的信息的法律风险

凡是能够被电子化记录的都是数据,数据分为两大类。

2.1 个人信息(PII)的爬取

对于PII信息,其关键点在于用户授权,用户未授权或者授权不充分带来的法律风险很大。

2.1.1 不正当竞争风险

例如新浪微博和脉脉发生的案件,一个因为开放API爬取数据引发的案子。

2014年8月,当时刚刚起步的职场 交软件“脉脉”与新浪微博微博闹掰了。脉脉上线之初,曾与新浪微博合作,脉脉的新用户可以通过微博帐 和个人帐 注册登录脉脉,用户注册时还要想陌陌上传手机通讯录联系人。随后,新浪微博发现,脉脉用户的“一度人脉”中,直接显示大量非脉脉用户的微博头像、名称、职业、教育等个人信息。2015年3月,微博主体公司将脉脉主体公司告上法庭。

原来用户使用微博登录脉脉并上传个人通讯录之后,大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上,而这些信息并不在微博与脉脉开放API协议中,并且微博停止脉脉所有的接口权限后,脉脉依然在抓取相关数据,微博认为脉脉通过非法手段获取信息。最终法院判决脉脉停止,并赔偿损失。

这个案件中,法院确立了一个原则,

 

 法律声明-禁止爬虫采集条款示例

2.1.2 侵犯隐私权风险

例如:王刃与北京奇虎科技有限公司隐私权纠纷案件中,原告王刃因个人手机登记为所投资公司联系电话,被奇虎科技360手机卫士标记手机 码功能标记显示为公司 码,导致原告王刃手机被被叫方误认为是诈骗电话,因之以侵犯隐私权起诉360手机安全卫士所属公司奇虎科技。

因而我们可以知道,本案确立了,但又要求数据服务方对个人信息标记使用应获得用户同意,也即重申了“默示同意”的许可方式,同时又强调了“用户同意”即用户授权的原则。

2.1.3 刑事风险

爬取个人信息还有可能会面临牢狱之灾,《中华人民共和国刑法》第二百五十三条之一所涉的及第二百八十六条之一所涉的就是。

同时,与《 络安全法》同日实施的最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》也明确了情节严重的几种类型:

1、非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;——高度敏感信息

2、非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;——敏感信息

3、非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。

此外,,也属于之一规定的,可能构成犯罪。
例如案中,当事人就采用非法手段获取淘宝和支付宝中的个人信息,并提供、转售给他人,非法获利了巨额的财产。

2.1.4 行政处罚风险

《 络安全法》第六十四条规定,违反本法第四十四条规定,窃取或者以其他非法方式获取、非法出售或者非法向他人提供个人信息,尚不构成犯罪的,由公安机关没收违法所得,并处违法所得一倍以上十倍以下罚款,没有违法所得的,处一百万元以下罚款。

即便是非法获取数据的严重性没有达到入罪的标准,但是大概率上也会被行政机关进行处罚的,并且额度还不低,通常都以来计,就算程序员收入高,也受不了这种程度的处罚吧。

2.1.5 总结

,如果爬取数据(包括通过API接口爬取数据的情况)则存在侵犯人格权(民法总则已经明确个人信息权是一种人格权)的风险。
同时,爬取存在竞争关系平台上的数据时,还可能因实质替代获取不正当竞争优势、干扰或破坏他人 络服务的正常运行,涉嫌不正当竞争;
,还可能因非法获取公民个人信息、非法侵入计算机信息系统、非法获取计算机信息系统数据等涉嫌犯罪,招致刑罚。

2.2 non-PII的爬取

对于这类数据的爬取,目前市面上通常的做法都是爬取公开数据,例如靠爬虫发家的“聚信立”公司。爬取这类数据的风险系数相对较低,毕竟通常不会涉及个人隐私与个人信息,但也并非毫无风险。可能会有哪些风险呢/p>

2.2.1 著作权侵权风险

就著作权本身而言,无论是文章、图片、视频、用户评论以及 站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对这些信息的获取,是否构成著作权侵权需要拆分分析:

1)在访问页面的行为下,由于爬虫是模仿人工访问机制进行页面访问操作的,因而该访问行为不会构成侵权,但如上述分析,如果该访问行为造成被访问页面反爬措施失效或者 站瘫痪,则会构成侵权。
2)对于数据保存而言,从著作权的角度上来说,抓取行为是对信息的复制,因此该行为有可能侵犯著作权人的复制权。
3)就数据提取和使用行为而言,如果爬取的数据被用于展示在公开的 站或者渠道,则会侵犯著作权人的信息 络传播权。

大众点评 诉爱帮 的诉讼中,大众点评 在前两轮诉讼中就是以爱帮 侵犯原告享有著作权的商户介绍和点评为由,起诉了爱帮 ,最终以爱帮 停止使用该作品胜诉。(2010)海民初字第4253

2.2.2 不正当竞争风险

同样是大众点评 ,在2016年还起诉了百度,原因是百度未经许可,使用爬虫技术从大众点评 上大量获取用户点评信息,用于自家的百度地图及百度知道产品。

最终一审判决认定百度构成不正当竞争行为,。有图有真相:

也即,如果公司业务中存在可能爬取竞争对手数据的情况,要格外注意这项风险。法院会首先判断双方是否存在竞争关系,进而判断爬取数据的一方是否存在“不劳而获”和“搭便车”的行为。如果是,就是上面的结果。

 

2.2.3 刑事风险

1 侵犯著作权罪

案例:2014年3月,被告人何某设立“车城小说” 站,其通过租赁海外服务器并运行其从互联 上下载的“关关采集”抓取软件,在的情况下,擅自抓取、复制650部文字作品,存储于自己的服务器上,供“车城小说” 站用户免费阅读。

何某通过在“车城小说” 站 页内刊登广告获取广告收益,非法营利数额达人民币19万余元。 (2015)闵刑(知)初字第59

2 非法侵入计算机信息系统罪

根据《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。

案例:在严某犯非法侵入计算机信息系统罪一案中,严某是一位协警,通过侵入警局内 ,获取并篡改数据,达到非法获利的目的,触犯了“非法侵入计算机信息系统罪”,锒铛入狱。
(2014)广利州刑初字第260

3 非法获取计算机信息系统数据罪

《刑法》第二百八十五条还规定,违反规定侵入普通的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据的,情节严重的,构成非法获取计算机信息系统数据罪。

案例:南京同享 络法定代表人张某、副总经理沈某组织员工编写模拟程序,非法获取掌门科技“WIFI万能钥匙”数据库内的WIFI热点密码数据案,最终法院认定构成非法获取计算机信息系统数据罪,上述两人最终被判刑三年并处罚金。
(2015)杨刑初字第232

4 总结

爬取non-PII数据总体风险较低,但仍不要大意。

轻则可能构成(在被爬取的数据具有独创性构成作品的情况下),如果有竞争关系,还可能因实质替代获取不正当竞争优势、干扰或破坏他人 络服务的正常运行,涉嫌构成不正当竞争;

重则可能因绕开技术措施非法获取数据,涉嫌侵犯商业秘密(严重情形涉及刑事责任),涉嫌构成等罪。

对于广大程序员来说,如何避免爬虫所带来的法律风险/h3>

敲黑板!!重点来了!!!

如前面所述,主要有:

  1. 违反 站意愿,例如 站采取反爬措施后,强行突破其反爬措施;
  2. 爬虫干扰了被访问 站的正常运营;
  3. 爬虫抓取了受到法律保护的特定类型的数据或信息。

其中,第3类风险主要来自于通过规避反爬虫措施抓取到了互联 上未被公开的信息。

因此,:

  1. 严格遵守 站设置的协议;
  2. 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问 站的正常运行;
  3. 在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定 站批量抓取其中的用户生成内容;
  4. 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年1月26日
下一篇 2019年1月26日

相关推荐