络爬虫的前世、今生、未来

什么是络爬虫/strong>

络爬虫，也称为页抓取和页数据提取，基本上是指通过超文本传输协议(HTTP)或通过页浏览器获取万维上可用的数据。（摘自Wikipedia）

页数据爬取是如何工作的/strong>

通常，爬取页数据时，只需要2个步骤。

打开页→将具体的数据从页中复制并导出到表格或数据库中。

这一切是如何开始的/strong>

尽管对许多人来说，络爬虫听起来像是“大数据”或“机器学习”一类的新概念，但实际上，络数据抓取的历史要长得多，可以追溯到万维 (或通俗的“互联 ”)诞生之时。

一开始，互联还没有搜索。在搜索引擎被开发出来之前，互联只是文件传输协议(FTP)站点的集合，用户可以在这些站点中导航以找到特定的共享文件。

为了查找和组合互联上可用的分布式数据，人们创建了一个自动化程序，称为 络爬虫/机器人，可以抓取互联上的所有页，然后将所有页面上的内容复制到数据库中制作索引。

随后，互联发展起来，最终有数百万级的页生成，这些页包含大量不同的形式的数据，其中包括文本、图像、视频和音频。互联变成了一个开放的数据源。

随着数据资源变得非常丰富且容易搜索，人们发现从页上找到他们想要的信息是一件非常简单的事情，他们通常分布在大量的站上。但另一个问题出现了，当他们想要数据的时候，并非每个站都提供下载按钮，如果进行手动复制显然是非常低效且乏味的。

这就是络爬虫诞生的原因。络爬虫实际上是由页机器人/爬虫驱动的，其功能与搜索引擎相同。简单来说就是，抓取和复制。唯一的不同可能是规模。络数据抓取是从特定的站提取特定的数据，而搜索引擎通常是在万维上搜索出大部分的站。

时间轴

1989年万维的诞生

从技术上讲，万维和因特有所不同。前者是指信息空间，后者是由数台计算机连接起来的内部络。

感谢Tim Berners-Lee，万维的发明者，他发明的三件东西，往后成为了我们日常生活中的一部分。

统一资源定位器(url)，我们通过它来访问我们想看的站；
内嵌的超链接，让我们可以在页之间导航，例如产品详情页，我们可以在详情页找到产品规格和许多其他信息，比如“购买此产品的顾客也购买了某某商品”；
页不仅包含文本，还包括图像、音频、视频和软件组件。

1990年第一个络浏览器

它也由Tim Berners-Lee发明，被称为WorldWide 页(无空间)，以WWW项目命名。在络出现一年后，人们有了一条途径去浏览它并与之互动。

1991年第一个页服务器和第一个http:// 页页面

页的数量以平缓的速度增长。到1994年，HTTP服务器的数量超过200台。

1993年6月第一台页机器人——万维漫游器

虽然它的功能和今天的页机器人一样，但它只是用来测量页的大小。

1993年12月首个基于爬虫的络搜索引擎—JumpStation

JumpStation带来了新的飞跃。它是第一个依靠络机器人的WWW搜索引擎。

从那时起，人们开始使用这些程序化的络爬虫程序来收集和组织互联。从Infoseek、Altavista和Excite，到如今的必应和谷歌，搜索引擎机器人的核心依然保持不变：

找到一个页页面，下载(获取)它，抓取页页面上显示的所有信息，然后将其添加到搜索引擎的数据库中。

由于页页面是为人类用户设计的，不是为了自动化使用，即使开发了页机器人，计算机工程师和科学家仍然很难进行络数据抓取，更不用说普通人了。因此，人们一直致力于使络爬虫变得更加容易使用。

2000年页API和API爬虫

API表示应用程序编程接口。它是一个接口，通过提供搭建好的模块，使开发程序更加便捷。

2000年，Salesforce和eBay推出了自己的API，程序员可以用它访问并下载一些公开数据。

从那时起，许多站都提供页API让人们可以访问他们的公共数据库。

发送一组HTTP请求，然后接收JSON或XML的回馈。

页API通过收集站提供的数据，为开发人员提供了一种更友好的络爬虫方式。

2004 年Python Beautiful Soup

不是所有的站都提供API。即使他们提供了，他们也不一定会提供你想要的所有数据。因此，程序员们仍在开发一种能够完善络爬虫的方法。

2004年，Beautiful Soup发布。它是一个为Python设计的库。

在计算机编程中，库是脚本模块的集合，就像常用的算法一样，它允许不用重写就可以使用，从而简化了编程过程。

通过简单的命令，Beautiful Soup可以理解站点的结构，并帮助从HTML容器中解析内容。它被认为是用于络爬虫的最复杂和最先进的库，也是当今最常见和最流行的方法之一。

2005-2006年络抓取软件的可视化

2006年，Stefan Andresen和他的Kapow软件(Kofax于2013年收购)发布了页集成平台6.0版本，这是一种可视化的络爬虫软件，它允许用户轻松简单的选择页内容，并将这些数据构造成可用的excel文件或数据库。

八爪鱼数据采集器

最终，可视化的络数据抓取软件可以让大量非程序员自己进行络爬虫。

从那时起，络抓取开始成为主流。现在，对于非程序员来说，他们可以很容易地找到80多个可提供可视化过程的的数据采集软件。

络爬虫未来将如何发展/strong>

我们总是想要更多的数据。我们收集数据，处理数据，并把数据转换成各种各样的成品，比如研究，洞察分析，信息，故事，资产等等。我们过去常常花费大量的时间、精力和金钱在寻找和收集数据上，以至于只有大公司和组织才能负担得起。

在2018年，我们所知的万维，或通俗的“互联 ”，由超过18亿个站组成。只需点击几下鼠标，就可以获得如此巨大的数据量。随着越来越多的人上，每秒产生的数据也越来越多。

如今，是一个比历史上任何时期都要方便的时代。任何个人、公司和组织都能够获得他们想要的数据，只要这些数据在页上是公开可用的。

多亏了络爬虫/机器人、API、标准数据库和各种开箱即用的软件，一旦有人有了获取数据的意愿，就有了获取数据的方法。或者，他们也可以求助于那些他们接触得到又支付的起费用的专业人士。

在自由职业任务平台guru.com上搜索“ 络爬虫”时，你可以得到10088个搜索结果，这意味着超过10000名自由职业者在这个站上提供络抓取服务。

而在同类的站，Upwork上的搜索结果有13190个，fievere.com上的结果是1024个。

各行各业的公司对络数据的需求不断增长，推动了络抓取行业的发展，带来了新的市场、就业机会和商业机会。

与此同时，与其他新兴行业一样，络抓取也伴随着法律方面的担忧。

围绕络爬虫合法性的讨论情况仍存在。它的合法与否与具体案例背景相关。目前，这种趋势下诞生的许多有趣的法律问题仍然没有得到解答，或者取决于非常具体的案例背景。

虽然络抓取已经存在了很长一段时间，但法院才刚刚开基础大数据相关的法律理论的应用。

由于与络爬取和数据抓取的仍处于发展阶段，所以它的发展仍然未稳定下来且难以预测。然而，有一件事是肯定的，那就是，只要有互联，就有络抓取。

是络抓取让新生的互联变得可以搜索，使爆炸式增长的互联变得更加容易访问和获取。

毫无疑问，在可预见的未来，互联和络抓取，将继续稳定地向前迈进。

扫码，关注“八爪鱼采集研究院”，获得更多资料

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

络爬虫的前世、今生、未来

什么是 络爬虫/strong>

页数据爬取是如何工作的/strong>

这一切是如何开始的/strong>

时间轴

1989年万维 的诞生

1990年第一个 络浏览器

1991年第一个 页服务器和第一个http:// 页页面

1993年6月第一台 页机器人——万维 漫游器

1993年12月首个基于爬虫的 络搜索引擎—JumpStation

2000年 页API和API爬虫