先认识标签:
table表标签
tr行标签
td列标签
简单创建一个表:
ul:无序列表、数据无关来联、在爬虫领域中使用较多;ol:顺序列表,数据相关联,爬虫使用场景少。
演示如下:
table里面可以设置的属性:width、height、border(边框) “xx px”
a标签:
超链接 href=”域名”
点击超链接,页面会自动跳转到百度这个url( 址)
什么叫爬虫span>
1、爬虫一段程序,通过url域名爬取 页的信息
2、程序模拟浏览器获取有用的数据
核心:爬取 页所有的数据 解析获取有用的数据
爬虫难点span>
爬与反爬之间的博弈 就像是追女朋友
爬虫能干什么
数据分析:数据收集起来分析规律,这些数据是怎们样的;
人工抓取数据:获得想要的数据;
舆情分析:分析;
交软件的冷启动:例如陌陌爬取微博上面的用户数据,让你聊天,假人引流;
竞争对手的监督:像国内的两大电商阿里和京东,互相爬取数据,分析,修改上价格,提高销售量
再例如:12306抢票台 其他软件也能实现抢票功能 就是因为怕取了12306的数据;
政府部门的天气数据等等…….
爬虫类型:
通用爬虫,意义不大;
聚焦爬虫,我们主要学习这个类型的爬虫技术。
常见的反爬手段:
UA;
代理ip;
验证码验证;
动态加载 页(返回假的数据);
数据加密(字体加密…)
爬取数据之get请求方式:
使用urllib.request.urlretrieve()下载 页、图片、视频:
SUMMERY:
简单来说get请求方式就三步:
urllib.request/urllib.parse
1、请求对象定制 url、headers;
2.模拟浏览器访问服务器获得响应;
3、读响应数据并且解码,获得数据;
request->response->content
具体步骤:
- (url+headers)合法 request=url.request.Request(url=url,headers=headers)
- response=urllib.request.urlopen(request)
- content=response.read().decode(“utf-8”)
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!