1日,北京青年 从某 购商城看到,最高人民法院裁判文书 的数据被标价0.1元到1元不等出售。裁判文书 发布的判决书都是公开的,为什么会被售卖?获取裁判文书 数据的手段对于 站是否有危害呢?
售数据,价格需“私聊”获取
不少声称能够出售裁判文书 数据的商家在商品文字描述中称,其数据是通过“ 络爬虫”的方式获取的。所谓“ 络爬虫”,又称 页蜘蛛、 页机器人,是一种按照一定的规则,自动地抓取万维 信息的程序或者脚本。相当于一个自动访问 页并进行相关操作的小机器人。
一名售卖裁判文书数据的商家说,购买裁判文书数据的买家所需要的数据量从几千篇到几千万篇不等,有的买家是因为无法打开裁判文书 而不得不来求助于数据卖家,“还有很多学生买数据用于论文写作,这种情况几千条就够了,商用的话可能需要几百万条甚至上千万条。”商家还称,每个月他们能接到四五个文书数据采集的订单,而价格和买家需要的数据量有关,“几百万条数据大概要几千块钱,现在加密技术很严格,所以要贵一些。”
“爬虫”系统,曾致正常用户无法访问
对此,最高人民法院在其官 回应 友对于裁判文书 运行慢、故障频繁等情况时表示,由于中国裁判文书 公开文书数量和影响力不断增加,访问用户数不断增长。同时,2018年5月初以来,大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成 站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。
今年5月,最高人民法院信息中心主任许建峰在接受媒体采访时表示:“中国裁判文书 目前每天的访问量可以达到几千万的量级,其中还包括数据爬虫的攻击,我们的中心服务器承受着巨大压力。”
“我们每时每刻都在监控着它的应用情况,希望遇到问题立即采取措施,但是的确还不能完全跟得上步子,所以会出现停 维护运营的情况。”许建峰说,最高法已成立了专门的运维保障团队去维护管理中国裁判文书 ,也将在技术与人力上投入更多的力量。
相关机构,已采用多种方式“反爬”
此外,针对 友提问,为何不能按照“公开时间”为检索条件进行裁判文书检索时,最高人民法院方面表示,暂没有设置“公开时间”为检索条件的主要原因是爬虫系统会根据“公开时间”项进行增量文书爬取,“待下一步防爬虫系统稳定、可靠运行一段时间后,我们将适时考虑增加‘公开时间’检索项。”
此外,最高人民法院方面称:“由于前期爬虫行为过于猖獗,无限制暴力访问大幅降低正常用户访问性能,我们采取了通过限制列表页面翻页数量来防止爬虫系统的措施。”
律师分析:强行突破“反爬”技术或构成犯罪
金杜律师事务所从事IP类法律业务的律师瞿淼曾发文阐述了 络爬虫所涉及的法律问题。瞿淼称,从技术中立的角度而言,爬虫技术本身并无违法违规之处。但是,随着数据产业的发展,数据爬取带来的各种问题和顾虑日渐增加。过于野蛮的爬虫可能造成 站负荷过大,从而导致 站瘫痪、不能访问等。
“由于爬虫的批量访问会给 站带来巨大的压力和负担,因此许多 站经营者会采取技术手段,以阻止爬虫批量获取自己 站信息。而针对这些技术手段,爬虫开发者可以通过优化自己的代码、使用IP池等多种方式规避上述技术措施,实现对 站信息的批量抓取和复制。”瞿淼说,由于 络爬虫会根据特定策略尽可能多地访问页面,因而爬虫的使用将占用被访问 站的 络带宽并增加 络服务器的处理开销,甚至无法正常提供服务。
瞿淼认为,根据《反不正当竞争法》关于 络的相关条款,如果 站运营者已经采取了一定的反爬虫措施,而爬虫控制者基于经营目的、强行突破 站运营者采取的反爬虫技术措施,并客观导致被抓取 站无法正常运行,则可能构成不正当竞争行为。此外,强行突破某些特定被爬方的技术措施,还可能构成刑事犯罪行为。
针对此情况,北京市 会组织法律调解中心副理事长张新年律师认为,“这些裁判文书基于司法公开目的,是免费的公共资源,未经最高人民法院授权,商家售卖裁判文书 数据构成侵权。”
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!