一文带你了解爬虫

2019年5月22日上午7:32 • 软件开发

六月分享主题：爬虫
HTTP详解
页结构简介

前段时间我妈突然问我：儿子，爬虫是什么当时既惊讶又尴尬，惊讶的是为什么我妈会对爬虫好奇尬的是我该怎么给她解释呢/p>

一、爬虫介绍

1.爬虫是什么

络爬虫(web crawler 简称爬虫)就是按照一定规则从互联上抓取信息的程序，既然是程序那和正常用户访问页面有何区别虫与用户正常访问信息的区别就在于：用户是缓慢、少量的获取信息，而爬虫是大量的获取信息。

2.爬虫案例

既然爬虫是大量抓取页，那是不是爬虫都是不好的呢案当然不是，可以说我们的日常上已经离不开爬虫了，为什么这么说面我就为大家盘点几个爬虫日常应用：

搜索引擎：如Google、百度、雅虎、搜狗、必应等等很多搜索引擎其本质就是一个（可能多个）巨大爬虫，这些搜索引擎工作原理是：页面收录->页面分析->页面排序->响应关键字查询，也就是说它会先把互联上很多页面保存到服务器，然后分析页内容建立关键字索引，最后用户输入关键字的时候去查询内容，然后根据相关性排序（百度害人的竞价排名毫无相关性可言），第一步的页面收录就是爬虫，百度查看一个站有多少页被收录方法，百度输入：site:你想查询的站，如：site:blog.csdn.net。
文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib208347 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

mysql安装及数据类型简介

上一篇 2019年5月21日

Ubuntu安装使用Krita

下一篇 2019年5月22日