spider初识爬虫

先认识标签:

table表标签

tr行标签

td列标签

简单创建一个表:

ul:无序列表、数据无关来联、在爬虫领域中使用较多;ol:顺序列表,数据相关联,爬虫使用场景少。

演示如下:

 table里面可以设置的属性:width、height、border(边框) “xx px”

a标签:

超链接  href=”域名”

点击超链接,页面会自动跳转到百度这个url( 址)

 

 什么叫爬虫span>
1、爬虫一段程序,通过url域名爬取 页的信息

2、程序模拟浏览器获取有用的数据

核心:爬取 页所有的数据 解析获取有用的数据

爬虫难点span>

爬与反爬之间的博弈  就像是追女朋友

爬虫能干什么
数据分析:数据收集起来分析规律,这些数据是怎们样的;

人工抓取数据:获得想要的数据;

舆情分析:分析;

交软件的冷启动:例如陌陌爬取微博上面的用户数据,让你聊天,假人引流;

竞争对手的监督:像国内的两大电商阿里和京东,互相爬取数据,分析,修改上价格,提高销售量

再例如:12306抢票台 其他软件也能实现抢票功能 就是因为怕取了12306的数据;

政府部门的天气数据等等…….

爬虫类型:
通用爬虫,意义不大;

聚焦爬虫,我们主要学习这个类型的爬虫技术。

常见的反爬手段:

UA;

代理ip;

验证码验证;

动态加载 页(返回假的数据);

数据加密(字体加密…)

爬取数据之get请求方式:

使用urllib.request.urlretrieve()下载 页、图片、视频:

SUMMERY:

简单来说get请求方式就三步:

urllib.request/urllib.parse
1、
请求对象定制 url、headers; 

2.模拟浏览器访问服务器获得响应;

3、读响应数据并且解码,获得数据;

  request->response->content

具体步骤:

  1. (url+headers)合法 request=url.request.Request(url=url,headers=headers)
  2. response=urllib.request.urlopen(request)
  3. content=response.read().decode(“utf-8”)

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月6日
下一篇 2022年1月6日

相关推荐