什么是爬虫strong>
什么是爬虫就是一个模拟人类的请求 络行为的程序。可以自动请求 页,并把数据抓取下来,然后使用一定的规则提取有价值的数据
爬虫的应用场景
1、搜索引擎(百度或谷歌)
2、伯乐在线
3、惠惠购物助手
4、数据分析
5、抢票软件等。
为什么要使用Python进行 络爬虫
- PHP:PHP是世界是最好的语言,但他天生不是做这个的,而且对多线程、异步支持不是很 好,并发处理能力弱。爬虫是工具性程序,对速度和效率要求比较高。
- Java:生态圈很完善,是Python爬虫最大的竞争对手。但是Java语言本身很笨重,代码量很 大。重构成本比较高,任何修改会导致代码大量改动。爬虫经常要修改采集代码。
- C/C++:运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。
- Python:语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请求模块和HTML 解析模块非常丰富。还有Scrapy和Scrapy-redis框架让我们开发爬虫变得异常简单。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!