络爬虫是否合法?

络爬虫合法吗h2>

络爬虫领域目前还属于早期的拓荒阶段,虽然互联 世界已经通过自身的协议建立起一定的道德规范(Robots协议),但法律部分还在建立和完善中。从目前的情况来看,如果抓取的数据属于个人使用或科研范畴,基本不存在问题;而如果数据属于商业盈利范畴,就要就事而论,有可能属于违法行为,也有可能不违法。

1.2.1 Robots协议

Robots协议(爬虫协议)的全称是“ 络爬虫排除标准”(Robots Exclusion Protocol), 站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议是国际互联 界通行的道德规范,虽然没有写入法律,但是每一个爬虫都应该遵守这项协议。

下面以淘宝 的robots.txt为例进行介绍。

这里仅截取部分代码,查看完整代码可以访问https://www.taobao.com/robots.txt。

在上面的robots文件中,淘宝 对用户代理为百度爬虫引擎进行了规定。

以Allow项的值开头的URL是允许robot访问的。例如,Allow:/article允许百度爬虫引擎访问/article.htm、/article/12345.com等。

以Disallow项为开头的链接是不允许百度爬虫引擎访问的。例如,Disallow:/product/不允许百度爬虫引擎访问/product/12345.com等。

最后一行,Disallow:/禁止百度爬虫访问除了Allow规定页面外的其他所有页面。

因此,当你在百度搜索“淘宝”的时候,搜索结果下方的小字会出现:“由于该 站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述”,如图1-1所示。百度作为一个搜索引擎,良好地遵守了淘宝 的robot.txt协议,所以你是不能从百度上搜索到淘宝内部的产品信息的。

1.2.2  络爬虫的约束

除了上述Robots协议之外,我们使用 络爬虫的时候还要对自己进行约束:过于快速或者频密的 络爬虫都会对服务器产生巨大的压力, 站可能封锁你的IP,甚至采取进一步的法律行动。因此,你需要约束自己的 络爬虫行为,将请求的速度限定在一个合理的范围之内。

提示 本书中的爬虫仅用于学习、研究用途,请不要用于非法用途。任何由此引发的法律纠纷,请自行负责。

实际上,由于 络爬虫获取的数据带来了巨大的价值, 络爬虫逐渐演变成一场 站方与爬虫方的战争,你的矛长一寸,我的盾便厚一寸。在携程技术微分享上,携程酒店研发部研发经理崔广宇分享过一个“三月爬虫”的故事,也就是每年的三月份会迎来一个爬虫高峰期。因为有大量的大学生五月份交论文,在写论文的时候会选择爬取数据,也就是三月份爬取数据,四月份分析数据,五月份交论文。

因此,各大互联 巨头也已经开始调集资源来限制爬虫,保护用户的流量和减少有价值数据的流失。

2007年,爱帮 利用垂直搜索技术获取了大众点评 上的商户简介和消费者点评,并且直接大量使用。大众点评 多次要求爱帮 停止使用这些内容,而爱帮 以自己是使用垂直搜索获得的数据为由,拒绝停止抓取大众点评 上的内容,并且质疑大众点评 对这些内容所享有的著作权。为此,双方开打了两场官司。2011年1月,北京海淀法院做出判决:爱帮 侵犯大众点评 著作权成立,应当停止侵权并赔偿大众点评 经济损失和诉讼必要支出。

2013年10月,百度诉360违反Robots协议。百度方面认为,360违反了Robots协议,擅自抓取、复制百度 站内容并生成快照向用户提供。2014年8月7日,北京市第一中级人民法院做出一审判决,法院认为被告奇虎360的行为违反了《反不正当竞争法》相关规定,应赔偿原告百度公司70万元。

虽然说大众点评上的点评数据、百度知道的问答由用户创建而非企业,但是搭建平台需要投入运营、技术和人力成本,所以平台拥有对数据的所有权、使用权和分发权。

以上两起败诉告诉我们,在爬取 站的时候需要限制自己的爬虫,遵守Robots协议和约束 络爬虫程序的速度;在使用数据的时候必须遵守 站的知识产权。如果违反了这些规定,很可能会吃官司,并且败诉的概率相当高。

阅读电子书的方法如下:

打开CSDN APP(软件商城搜索“CSDN”即可找到哦)—>登录CSDN账 —>学习—>电子书

 络爬虫是否合法?

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211383 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年1月9日
下一篇 2020年1月9日

相关推荐