数据采集–爬虫
大数据的数据采集是一个重要的步骤,那么爬虫是一个工具可以帮助我们爬取 站中的数据,爬虫的主要作用就是可以帮助我们爬取想要获取的历史数据。
什么事爬虫r> 爬虫可以帮助我们在互联 上自动的获取我们所需要的数据和信息。爬虫的本质是一段程序。因为需要爬取的 站下有可能会套一层另外的一个 站,他是一层一层的去爬的。所以爬虫又被称为 页蜘蛛, 络机器人。
爬虫可以根据用途分为两类:
聚焦爬虫:针对特定的 站。
通用爬虫:通常指搜索引擎的爬虫。
爬虫可以通过模拟浏览器发送 络请求,接收请求响应。
爬虫可以按照一定的规则,自动地抓取互联 信息。
浏览器访问 站过程如下:
爬虫常用工具:
请求和响应库:http.client ,urllib,requests 。
Urllib底层基于httplib实现,requests则基于urllib,httplib为底层模块。
爬虫框架:Scrapy,Scrapy-Redis,PySpider。
框架就是本来就可以进行爬取数据,但是我们可以对它进行优化填充
框架是一个将某一类问题的共性提取出来,为这些共性事先编写好相应的代码并将它们进行封装以便复用的一种工具。它可以提高我们的开发效率,使我们减少编写重复的代码。
简单的例子,如果我们把一个工程当做一个可居住的房子。那么,框架就像满足我们需求户型的一个毛坯房,在框架内编写程序就像在装修房子。
它和模块的区别:模块是指能够单独命名并独立地完成一定功能的程序语句的集合(即程序代码和数据结构的集合体),框架则是一个程序的架构。
数据提取工具:正则表达式,Beautiful Soup4, XPath,JsonPath。
其他工具:Selenium。
Selenium是一个用于Web应用程序测试的工具。
代理IP的分类:
透明代理:透明代理直接“隐藏”你的IP地址,但是可以查到你是谁。
匿名代理:使用匿名代理,别人只能知道你用了代理,无法知道你是谁。
高匿代理:高匿代理让别人根本无法发现你是在用代理,是最好的选择。
代理IP的工作工程如下图所示。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览211392 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!