络爬虫是否合法？

络爬虫合法吗h2>

络爬虫领域目前还属于早期的拓荒阶段，虽然互联世界已经通过自身的协议建立起一定的道德规范（Robots协议），但法律部分还在建立和完善中。从目前的情况来看，如果抓取的数据属于个人使用或科研范畴，基本不存在问题；而如果数据属于商业盈利范畴，就要就事而论，有可能属于违法行为，也有可能不违法。

1.2.1　Robots协议

Robots协议（爬虫协议）的全称是“ 络爬虫排除标准”（Robots Exclusion Protocol），站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。该协议是国际互联界通行的道德规范，虽然没有写入法律，但是每一个爬虫都应该遵守这项协议。

下面以淘宝的robots.txt为例进行介绍。

这里仅截取部分代码，查看完整代码可以访问https://www.taobao.com/robots.txt。

在上面的robots文件中，淘宝对用户代理为百度爬虫引擎进行了规定。

以Allow项的值开头的URL是允许robot访问的。例如，Allow：/article允许百度爬虫引擎访问/article.htm、/article/12345.com等。

以Disallow项为开头的链接是不允许百度爬虫引擎访问的。例如，Disallow：/product/不允许百度爬虫引擎访问/product/12345.com等。

最后一行，Disallow：/禁止百度爬虫访问除了Allow规定页面外的其他所有页面。

因此，当你在百度搜索“淘宝”的时候，搜索结果下方的小字会出现：“由于该站的robots.txt文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容描述”，如图1-1所示。百度作为一个搜索引擎，良好地遵守了淘宝的robot.txt协议，所以你是不能从百度上搜索到淘宝内部的产品信息的。

1.2.2　络爬虫的约束

除了上述Robots协议之外，我们使用络爬虫的时候还要对自己进行约束：过于快速或者频密的络爬虫都会对服务器产生巨大的压力，站可能封锁你的IP，甚至采取进一步的法律行动。因此，你需要约束自己的络爬虫行为，将请求的速度限定在一个合理的范围之内。

提示　本书中的爬虫仅用于学习、研究用途，请不要用于非法用途。任何由此引发的法律纠纷，请自行负责。

实际上，由于络爬虫获取的数据带来了巨大的价值，络爬虫逐渐演变成一场站方与爬虫方的战争，你的矛长一寸，我的盾便厚一寸。在携程技术微分享上，携程酒店研发部研发经理崔广宇分享过一个“三月爬虫”的故事，也就是每年的三月份会迎来一个爬虫高峰期。因为有大量的大学生五月份交论文，在写论文的时候会选择爬取数据，也就是三月份爬取数据，四月份分析数据，五月份交论文。

因此，各大互联巨头也已经开始调集资源来限制爬虫，保护用户的流量和减少有价值数据的流失。

2007年，爱帮利用垂直搜索技术获取了大众点评上的商户简介和消费者点评，并且直接大量使用。大众点评多次要求爱帮停止使用这些内容，而爱帮以自己是使用垂直搜索获得的数据为由，拒绝停止抓取大众点评上的内容，并且质疑大众点评对这些内容所享有的著作权。为此，双方开打了两场官司。2011年1月，北京海淀法院做出判决：爱帮侵犯大众点评著作权成立，应当停止侵权并赔偿大众点评经济损失和诉讼必要支出。

2013年10月，百度诉360违反Robots协议。百度方面认为，360违反了Robots协议，擅自抓取、复制百度站内容并生成快照向用户提供。2014年8月7日，北京市第一中级人民法院做出一审判决，法院认为被告奇虎360的行为违反了《反不正当竞争法》相关规定，应赔偿原告百度公司70万元。

虽然说大众点评上的点评数据、百度知道的问答由用户创建而非企业，但是搭建平台需要投入运营、技术和人力成本，所以平台拥有对数据的所有权、使用权和分发权。

以上两起败诉告诉我们，在爬取站的时候需要限制自己的爬虫，遵守Robots协议和约束络爬虫程序的速度；在使用数据的时候必须遵守站的知识产权。如果违反了这些规定，很可能会吃官司，并且败诉的概率相当高。

阅读电子书的方法如下：

打开CSDN APP（软件商城搜索“CSDN”即可找到哦）—>登录CSDN账 —>学习—>电子书

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib211383 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

络爬虫是否合法？

络爬虫合法吗h2>

相关推荐