Python爬虫学习笔记1——pathon爬虫原理

前言:

最近感觉python爬虫很有趣,打算开始系统的学习一下。

简单来说互联 是由一个个站点和 络设备组成的大 ,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的 页呈现我们眼前;

1、爬虫是什么/h1>

简单来说, 络爬虫就是一段程序,它模拟人类访问互联 的形式,不停地从 络上抓取我们需要的数据。我们可以定制各种各样的爬虫,来满足不同的需求,如果法律允许,你可以采集在 页上看到的、任何你想要获得的数据。

爬虫是一种从 络上高速提取数据的方式(当然它也可以用作它途,如果需要的话。因为从本质上来说,它就是利用python与 站进行交互、并对 站返回的结果进行分析和处理的过程)。你可以把爬虫想想成一个机器人(其实它就是个机器人,不过是软件形式上的),坐在一台电脑旁边,不停地点开一个个 页,从里面复制指定文本或图片进行保存(假设需求就是保存指定文本或图片)。神奇的是,它的手速非常非常快,一阵眼花缭乱中,本地磁盘中就已经存了一大堆数据。

如果我们把互联 比作一张大的蜘蛛 ,数据便是存放于蜘蛛 的各个节点,而爬虫就是一只小蜘蛛,

1、发起请求

使用http库向目标站点发起请求,即发送一个Request

Request包含:请求头、请求体等

Request模块缺陷:不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应,则会得到一个Response

Response包含:html,json,图片,视频等

3、解析内容

解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以wb的方式写入文件

4、保存数据

数据库(MySQL,Mongdb、Redis)

文件

参考文章:
1、http://www.cnblogs.com/linhaifeng/articles/7773496.html
2、https://www.cnblogs.com/sss4/p/7809821.html
3、https://blog.csdn.net/aaronjny/article/details/77885007

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib208019 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年1月1日
下一篇 2019年1月1日

相关推荐