络爬虫,是一种按照预设的算法逻辑,自动地采取目标 站 页数据地程序。在“数据即资源”的数字经济时代, 络爬虫已成为企业获取数据资源,谋求竞争发展的重要技术工具。 络爬虫这一技术本身是中立的,且自互联 普及发展以来,爬虫技术一直被广泛用于互联 搜索引擎或其他类似 站,它们可以自动采集所有其能够访问到的页面内容,以获取或更新这些 站的内容和检索方式,在信息的搜集、数据资源的流动及开发利用方面起到了巨大作用。
但近年来,爬虫技术的滥用及其造成的权益侵害问题日益突出,如何在数据爬取方获取数据资源与被爬取方维护自身竞争优势这两类利益诉求间实现平衡,尤其在涉及 路爬虫抓取公开数据的行为时,是否数据本身的公开意味着被爬取方权益受保护必要性的丧失,此类行为就无须再受到法律规制?从目前法律规定及司法实践来看,对上述问题显然应作出否定答案。然而, 络爬虫抓取公开数据的法律边界在哪?抓取公开数据的行为具体又面临着怎样的法律风险,本团队试图从专业的视角,结合实践案例对上述问题展开探讨并提出有针对性的合规建议。
+ + + + + + + + + + +
一、公开数据的定义及其与相关概念的辨析
目前尚未有相关的规范性文件对公开数据作出统一的定义,但从一般意义上的理解来看,公开数据是指数据的主体主动将数据于互联 上进行公开,任何人均可访问的数据。
在此,首先应当将公开数据与开放数据进行区分,这两个概念并不相同。“开放数据”在大数据技术的背景下具有特殊的含义,开放数据是指一类可以被任何人免费使用、再利用、再开发的数据,在实践中更多指向包括政务数据和地方自治团体的数据在内的公共数据。关于公共数据这一概念,在地方数据立法中均有明确定义。根据《深圳经济特区数据条例》,公共数据是指公共管理和服务机构在依法履行公共管理职责或者提供公共服务过程中产生、处理的数据。根据《上海市公共数据开放暂行办法》,公共数据是指本市各级行政机关以及履行公共管理和服务职能的事业单位(以下统称公共管理和服务机构)在依法履职过程中,采集和产生的各类数据资源。而根据《数据安全法》第三十七条规定,国家大力推进电子政务建设,提高政务数据的科学性、准确性、时效性,提升运用数据服务经济 会发展的能力。第四十一条规定,国家机关应当遵循公正、公平、便民的原则,按照规定及时、准确地公开政务数据。依法不予公开的除外。可见,除了涉及个人隐私、商业秘密等的数据,国家与政府都鼓励政务数据的公开与有效利用,其流动的程度是最大的。也就是说,开放数据的本质,不仅在于保障了解国家机关所创制的信息的可能性,更在于保障利害关系人通过分析、可视化、创建使用信息的应用程序而进行后续使用。
+ + + + +
+ + + + + + + + + + +
二、非法爬取公开数据所面临的法律风险
如前文指出,公开数据的收集和利用具有特定的限度,一旦超过合法收集、利用的限度,数据爬取行为将被认定为违法甚至犯罪。下文笔者将结合部分立法及司法案例,分析爬取公开数据面临的诸多法律风险。
(一)侵犯公民个人信息
在孙某某与北京XX互联 信息服务有限公司等人格权纠纷一案[1]中,2018年10月,原告在百度 站搜索“孙长宝”关键词,发现百度 站非法收录并置顶了原告在“chinaren校友录” 站上传的个人账户头像(个人证件照。原告咨询搜狐信息公司,搜狐信息公司称“chinaren校友录” 站的服务器已于2013年关闭,照片为百度 站收录的图片快照。2018年10月23日,原告通过百度 站下部的线上反馈渠道发送通知,要求百度 站删除证件照,但该系统未进行任何处理。
法院认为,校友录 站主要用于实现校内 群 交功能,用户在此 站内上传头像,一般系为寻找同学、好友等,在部分熟知人群范围内开展 会交往,而非进行陌生人交友,或基于言论传播、宣传推广等目的进行全 公开信息发布。被告的搜索行为使得涉案信息可被全 不特定用户检索获取,在客观上导致该信息在原告授权范围之外被公开,违反了立法关于个人信息使用的相关规定,属于违法使用个人信息的行为。在收到删除通知后,被告在其有能力采取相匹配必要措施的情况下,未给予任何回复,其怠于采取措施的行为,导致涉案侵权损失的进一步扩大,构成对原告的个人信息权益的侵害。
综上可知,对于用户授权同意公开的个人信息,个人信息控制者可以收集、使用且无须征得个人信息主体的同意,也无须承担法律责任,但是收集、使用应当合理。在个人信息主体明确拒绝或者处理该信息侵害其重大利益的则个人信息控制者无权处理该个人信息。
(二)不正当竞争
爬取其他商业性平台的公开数据,在分析处理后应用于本平台商业目的,可能构成不正当竞争。结合司法实践来看,法院一般会依据《反不正当竞争法》第十二条第四款进行认定。
《反不正当竞争法》第十二条 经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的 络产品或者服务正常运行的行为:……(四)其他妨碍、破坏其他经营者合法提供的 络产品或者服务正常运行的行为。
综上,法院认为被告斯氏公司的“极致了”官 违背诚实信用原则,擅自使用其他经营者征得用户同意、依法汇集且具有商业价值的数据,并足以实质性替代其他经营者提供的部分产品或服务,损害公平竞争的市场秩序的,属于《反不正当竞争法》第十二条第二款第四项所规定的妨碍、破坏其他经营者合法提供的 络产品或者服务正常运行的行为,构成不正当竞争。
由此可见,对于爬取数据行为是否违反《反不正当竞争法》,关键在于抓取数据的性质和抓取数据的手段及使用目的是否正当。在认定过程中,法院首先会根据平台经营者的投入转化而来的竞争优势、尊重平台与用户的约定、数据本身的价值等角度判断平台经营者对平台前端及后端全部数据是否享有合法权益。其次判断原被告双方是否存在竞争关系。再次,平台的数据可分为公开数据和设置访问权限的非公开数据。对于公开数据,在未经许可使用爬虫软件毫无节制地抓取、使用他人公开数据,明显超过合理限度,违反诚实信用原则的行为,会被认定构成不正当竞争。
(三)侵犯知识产权
如在北京盛世骄阳文化传播有限公司诉北京卓易讯畅科技有限公司侵犯作品信息 络传播权案[3]中,原告盛世骄阳公司认为,自己作为某影视剧作品的著作权人,因豌豆荚软件设置影视点播功能,可以搜索、点播涉案作品,因此豌豆荚公司未经其许可提供链接服务的行为侵犯其 络信息传播权。被告豌豆荚公司辩称,自己仅提供搜索服务,并不提供播放服务,不构成侵权。据其开发人员解释,豌豆荚软件的服务内容为:通过关键词过滤后进行视频爬取,爬取成功后,豌豆荚软件通过调取启动对方软件播放或者跳转到对方的 站启动播放,并非在豌豆荚软件播放。而根据原告及被告的举证显示,豌豆荚使用的第三方播放平台主要是“快播”,原告作为著作权人也明确表明快播平台没有获得涉案影视作品的使用许可。
(四)刑事犯罪
根据所爬取数据的种类及爬取后的利用行为,爬虫行为可能触犯我国《刑法》中的侵犯公民个人信息罪、侵犯知识产权罪等罪名,但在司法实践中更倾向于从保护计算机信息系统安全角度来对爬虫行为予以规制。
首先,若爬虫程序使用者利用爬虫程序侵入计算机信息系统,获取计算机信息系统中存储、处理、传输的数据,情节严重的,可能构成非法获取计算机信息系统数据罪。
根据《刑法》第二百八十五条,违反国家规定,侵入国家事务、国防建设、尖端科学以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的,构成非法获取计算机信息系统数据罪。
《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第一条规定了构成非法获取计算机信息系统数据罪情节严重的四种情形:(1)获取支付结算、证券交易、期货交易等 络金融服务的身份认证信息十组以上的;(2)获取第(1)项以外的身份认证信息五百组以上的;(3)违法所得五千元以上或者造成经济损失一万元以上的;(4)其他情节严重的情形。
达到情节特别严重的两种情形:(1)达到“情节严重”情形第(1)至(3)项规定标准的五倍以上的;(2)其他情节特别严重的情形。
在上海晟品 络科技有限公司、侯明强等非法获取计算机信息系统数据案[4]中,被告上海晟品 络科技有限公司于2016年至2017年间,采用技术手段抓取被害单位北京字节跳动 络技术有限公司服务器中存储的视频数据,造成被害单位北京字节跳动 络技术有限公司损失技术服务费人民币2万元。法院认为被告单位上海晟品 络科技有限公司违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪。
该案被“互联 法律大会”列为全国首例利用“爬虫技术”侵入计算机系统抓取数据案,由于该案涉及爬取“公开信息”受到刑法规制而在刑法学界备受争议并得到广泛讨论。如有学者提出,本案中被爬取的视频数据属于公开数据,即视频数据的信息内容已经公开且处于可访问状态,尽管被害平台没有提供视频数据的下载服务,而行为人借由 络爬虫技术获取了一般用户只能线上浏览的数据,在此意义上确为未经授权之举,但是,对此类爬取公开数据的行为,是否值得动用刑罚手段予以制裁?[5]
然而公开信息并不等同于公开数据,该案的主审法官后来亦对案件中涉及的相关问题进行了详细说明。主审法官认为,数据和信息是有区别的。从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即“数据=信息+数据冗余”。数据和信息之间是相互联系的。数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处理之后,就成为信息,而信息需要经过数字化转变成数据才能存储和传输。一般而言,数据是信息的载体。信息公开,只是数据中原本数据化了的信息经过处理后内容公开了,数据依然存储在数据的硬件载体之中,在信息内容被展现的过程中,数据在被传输、处理但没有公开。即使认为信息是数据的一部分,也不能说信息公开了就代表着数据公开了。正是从数据独立于信息的视角分析,获取了信息,或者信息公开了,绝不意味着数据也被获取了或者失去了保密性,更不意味着数据也失去了保护的价值。
从该案中可以看出,在认定行为人是否“违反国家规定,侵入前款规定以外的计算机信息系统或者采取其他技术手段……”,司法实践中一般以是否违反数据控制者的技术授权为依据。如在该案中,行为人违反爬虫协议、突破反爬措施获取公开数据的行为属于无权访问,被认定为“违反国家规定”。
除上述罪名外,根据《中华人民共和国刑法》第二百八十五条,违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,构成非法侵入计算机信息系统罪。若爬虫技术使用者使用爬虫技术侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,可能构成非法侵入计算机信息系统罪。
另外,根据《刑法》第二百八十六条,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。如果使用 络爬虫频繁访问目标数据服务器,对目标 站的正常运行造成干扰,导致其访问流量增大、系统响应变缓,影响正常运营的,也可能构成破坏计算机信息系统罪。
+ + + + +
+ + + + + + + + + + +
三、爬取公开数据的合规建议
(一)注意识别爬取数据的性质
首先对于公民个人隐私数据要避免抓取,对于公开的个人信息原则上可以收集、使用且无须征得个人信息主体的同意,但是收集、使用应当在合理限度内。同时,在个人信息主体明确拒绝或者处理该信息侵害其重大利益时,则无权处理该个人信息。
(二)注意爬取数据的使用范围、方式及对被爬企业的影响
若需要爬取同类型或与自身有竞争关系企业的 站数据,应当注意考量爬取数据的使用范围和方式以及对被爬企业造成的影响,考量对数据的使用是否会对被爬企业的业务造成实质性替代,是否会造成其市场份额和客户的减少、造成被爬企业现实的或预期的利益损失,并谨慎利用所爬取的数据。
(三)注意所爬取数据不侵犯他人知识产权
在使用爬虫软件爬取数据时,应注意谨慎抓取视频、音乐等可能构成作品的或有明确的著作权作品的数据。在使用、传播抓取到的数据时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
(四)注意爬取数据的行为方式
注意分析被爬取 站、软件设置的Robots协议以及对于数据信息的技术保护措施,应注意遵守Robots协议,不对被爬取的 站、软件为保护数据而设置的技术保护措施进行破解。
(五)避免干扰被爬 站、软件的正常运行
在利用爬虫程序对 站、软件内容进行爬取时,应当注意爬取的方式,控制访问量、采取技术措施避免干扰被访问 站、软件的正常运行。
(六)注意甄别爬取对象及爬取的 站、计算机信息系统类别
在选择爬取对象时应当注意甄别爬取对象,禁止对涉密国家事务、国防建设、尖端科学技术领域的 站和计算机信息系统进行爬取。
最后,需要注意的是,在接到权利人关于侵权的投诉或通知时,应当及时进行核实,若确实侵犯他人权利应立即采取措施,不应继续侵害权利人权益。
参考文献:
[1] 参见(2015)海民(知)初字第25788
[2] 参见(2017)京0108刑初2384
[3] 石经海,苏桑妮:《爬取公开数据行为的刑法规制误区与匡正——从全国首例“爬虫”入刑案切入》,载《北京理工大学学 ( 会科学版)》2021年第4期。
[4] 参见(2021)浙8601民初309
[5] 参见(2019)京0491民初10989
+ + + + +
孙俊 上海申浩律师事务所合伙人,上海交通大学法律硕士研究生,香港大学财务与投资管理硕士。2016年开始关注区块链方面的政策与法律,并购买了大量的比特矿机和莱特矿机进行挖矿。2017年在区块链行业从事投资收购工作,收购金额达到百亿。2018年-至今专注因为电信诈骗和 络赌博引起的洗钱风险研究以及处理过很多大型的经济金融领域的刑事犯罪,参与过很多解冻卡业务。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!