学习原因:
爬虫是一门有趣的技术,它可以让我们感受到程序的魅力,给我们带来视觉冲击感和成就感,可以极大地提高我们对编程的学习兴趣。
——————
愿你我,都能:
遵循君子协议
合理使用技术
提高学习兴趣
一. 君子协议
为什么每次被抓的都有你~
我们应该自觉遵守君子协议(爬虫协议的俗称),掌握爬虫的技术。
在对应 址之后增加 /robots.txt, 即可查看爬虫协议,知道哪些页面是不可爬取的,爬虫协议具体内容可自行百度了解。
例如: https://www.baidu.com/robots.txt
操作流程:在任意页面,比如:百度搜索页,首先点一下鼠标右键,点击检查。接着,点击Network,点击页面刷新,在Name下点击任意一条,比如:www.baidu.com。最后,在Headers中滑到最下方,找到User-Agent,复制用户代理。
五,提高爬虫效率的方法
普通的代码爬取数据的效率较低,若数据变多,那么等待时间会大大加长,如何缩短爬取数据的时间,我们可以了解一些提高爬虫效率的方法。
更多方法请点击跳转:提高爬虫效率的方法
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208363 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!