六月分享主题:爬虫
HTTP详解
页结构简介
前段时间我妈突然问我:儿子,爬虫是什么当时既惊讶又尴尬,惊讶的是为什么我妈会对爬虫好奇尬的是我该怎么给她解释呢/p>
一、爬虫介绍
1.爬虫是什么
络爬虫(web crawler 简称爬虫)就是按照一定规则从互联 上抓取信息的程序,既然是程序那和正常用户访问页面有何区别虫与用户正常访问信息的区别就在于:用户是缓慢、少量的获取信息,而爬虫是大量的获取信息。
2.爬虫案例
既然爬虫是大量抓取 页,那是不是爬虫都是不好的呢案当然不是,可以说我们的日常上 已经离不开爬虫了,为什么这么说面我就为大家盘点几个爬虫日常应用:
- 搜索引擎:如Google、百度、雅虎、搜狗、必应等等很多搜索引擎其本质就是一个(可能多个)巨大爬虫,这些搜索引擎工作原理是:页面收录->页面分析->页面排序->响应关键字查询,也就是说它会先把互联 上很多页面保存到服务器,然后分析 页内容建立关键字索引,最后用户输入关键字的时候去查询内容,然后根据相关性排序(百度害人的竞价排名毫无相关性可言),第一步的页面收录就是爬虫,百度查看一个 站有多少 页被收录方法,百度输入:site:你想查询的 站,如:site:blog.csdn.net。