如果你正在学习编程,那么“爬虫”绝对是你不可忽视的。那么,学习python爬虫之前需要哪些准备p>
一颗热爱学习,不屈不挠的心
一台有键盘的电脑(什么系统都行)
html相关的一些知识。不需要精通,能懂一点就行
Python的基础语法知识 。
当这些你都具备了,这个时候你需要学习:
0.基本的爬虫工作原理
1.基本的http抓取工具:scrapy
2.Bloom Filter: Bloom Filters by Example
3.如果需要大规模 页抓取,你需要学习分布式爬虫的概念。简单来说,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
4.rq和Scrapy的结合:darkrho/scrapy-redis · GitHub
5.后续处理: 页析取(grangier/python-goose · GitHub),存储(Mongodb)
python的火,很大原因就是各种好用的模块,这些模块是居家旅行爬 站常备的——
NO.1 F12 开发者工具
看源代码:快速定位元素
分析xpath:1、此处建议谷歌系浏览器,可以在源码界面直接右键看
NO.2 抓包工具
推荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的F12工具都要好,可以方便查看 站收包发包的信息
NO.3 XPATH CHECKER (火狐插件)
非常不错的xpath测试工具。
NO.4 正则表达测试工具Python人工智能 – 60分钟从认知到实践python爬虫?www.makeru.com.cnPython人工智能?www.makeru.com.cn

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211178 人正在系统学习中 相关资源:1stopt数据拟合软件_曲线拟合软件-深度学习文档类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!