前言:
最近感觉python爬虫很有趣,打算开始系统的学习一下。
简单来说互联 是由一个个站点和 络设备组成的大 ,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的 页呈现我们眼前;
1、爬虫是什么/h1>
简单来说, 络爬虫就是一段程序,它模拟人类访问互联 的形式,不停地从 络上抓取我们需要的数据。我们可以定制各种各样的爬虫,来满足不同的需求,如果法律允许,你可以采集在 页上看到的、任何你想要获得的数据。
爬虫是一种从 络上高速提取数据的方式(当然它也可以用作它途,如果需要的话。因为从本质上来说,它就是利用python与 站进行交互、并对 站返回的结果进行分析和处理的过程)。你可以把爬虫想想成一个机器人(其实它就是个机器人,不过是软件形式上的),坐在一台电脑旁边,不停地点开一个个 页,从里面复制指定文本或图片进行保存(假设需求就是保存指定文本或图片)。神奇的是,它的手速非常非常快,一阵眼花缭乱中,本地磁盘中就已经存了一大堆数据。
如果我们把互联 比作一张大的蜘蛛 ,数据便是存放于蜘蛛 的各个节点,而爬虫就是一只小蜘蛛,
1、发起请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等
Request模块缺陷:不能执行JS 和CSS 代码
2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以wb的方式写入文件
4、保存数据
数据库(MySQL,Mongdb、Redis)
文件
参考文章:
1、http://www.cnblogs.com/linhaifeng/articles/7773496.html
2、https://www.cnblogs.com/sss4/p/7809821.html
3、https://blog.csdn.net/aaronjny/article/details/77885007
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib208019 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!