spider初识爬虫

先认识标签：

table表标签

tr行标签

td列标签

简单创建一个表：

ul：无序列表、数据无关来联、在爬虫领域中使用较多；ol：顺序列表，数据相关联，爬虫使用场景少。

演示如下：

table里面可以设置的属性：width、height、border(边框) “xx px”

a标签：

超链接 href=”域名”

点击超链接，页面会自动跳转到百度这个url（址）

什么叫爬虫span>
1、爬虫一段程序，通过url域名爬取页的信息

2、程序模拟浏览器获取有用的数据

核心：爬取页所有的数据解析获取有用的数据

爬虫难点span>

爬与反爬之间的博弈就像是追女朋友

爬虫能干什么
数据分析：数据收集起来分析规律，这些数据是怎们样的；

人工抓取数据：获得想要的数据；

舆情分析：分析；

交软件的冷启动：例如陌陌爬取微博上面的用户数据，让你聊天，假人引流；

竞争对手的监督：像国内的两大电商阿里和京东，互相爬取数据，分析，修改上价格，提高销售量

再例如：12306抢票台其他软件也能实现抢票功能就是因为怕取了12306的数据；

政府部门的天气数据等等…….

爬虫类型：
通用爬虫,意义不大；

聚焦爬虫，我们主要学习这个类型的爬虫技术。

常见的反爬手段：

UA；

代理ip；

验证码验证；

动态加载页（返回假的数据）；

数据加密（字体加密…）

爬取数据之get请求方式:

使用urllib.request.urlretrieve()下载页、图片、视频：

SUMMERY：

简单来说get请求方式就三步：

urllib.request/urllib.parse
1、请求对象定制 url、headers；

2.模拟浏览器访问服务器获得响应；

3、读响应数据并且解码，获得数据；

request->response->content

具体步骤：

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！