5分钟入门 络爬虫 – 原来可以这么简单易懂

爬虫在大数据时代占据了重要的位置,在 上有大量的公开数据可以轻松获取。

爬虫入门其实非常简单,就算你是编程小白,也可以轻松爬下一些 站。下面就以爬取笔者的个人博客 站(大数据分析@唐松)为例,教大家学会一个简单的爬虫。。一方面,由于这个 站的设计和框架不会更改,因此本书的 络爬虫代码可以一直使用; 另一方面,由于这个 站由笔者拥有,因此避免了一些法律上的风险。

如果你有已经安装了python3,pip,可以跳过下面对python,pip安装的介绍。

安装python3, pip, beautifulsoup

第一步:Python3安装,请自行百度 Anaconda。这里推荐使用 Anaconda 的 Python 科学计算环境。只需像普通软件一样安装好 Anaconda,就可以把 Python 的环境变量、解释器、开发环境等安装在计算机中。

第二步:安装pip,pip是按照python各种包的工具,有了它安装python的各种包都很方便。如果你安装了 Anaconda,那么恭喜你,它已经自带了 pip 不用单独安装了。

如果不使用 Anaconda 安装 Python,需要单独装 pip,可以借鉴这篇文章:https://www.tuicool.com/articles/eiM3Er3/

第三步:有了pip,就可以安装beautifulsoup了。这个包可以很好地从 页代码中提取想要的数据。安装方法: 在 terminal (MacOS) 或是 cmd (Windows)中键入

第四步:选一个python编译器来跑程序。为了代码的调试方便,可以直接用 Anaconda 中的 jupyter。使用方法:在 terminal (MacOS) 或是 cmd (Windows)中键入

第一步:获取页面

上述代码获取了博客首页的 页HTML代码。首先import requests,使用requests.get(link, headers=headers)获取了 页。值得注意的是:

  1. 用requests的headers可以伪装成浏览器访问
  2. r是requests的Response回复对象,我们从中可以获取我们想要的信息。r.text是获取的 页内容代码。

运行完上述代码后,我们得到的结果是:

步骤二:出现如下图所示的审查元素功能。点击左上角的鼠标键,然后在页面上点击想要的数据,下面的Elements就会出现相应的code所在的地方,就定位到你想要的元素了。

一波硬广:

本书主要分为三部分:基础部分(第1~6章)、进阶部分(第7~12章)和项目实践部分(第13~16章),以此来针对不同类型的读者。如果你是Python爬虫的初学者,那么可以先学习基础部分,这部分每一章的最后都有自我实践题,读者可以通过实践题熟悉编写Python爬虫代码。如果你已经对Python爬虫有所了解,但是在实践中遇到了各种问题,那么可以直接学习进阶部分,这部分为你在爬虫实践中遇到的问题提供了解决方案。本书最后的项目实践部分是让你在学习Python爬虫后,可以通过在真实 站中练习来消化和吸收Python爬虫的知识。

这本书相对 络上的学习比较系统化,希望大家能支持!

京东链接:《Python 络爬虫从入门到实践》(唐松,陈智铨)【摘要 书评 试读】- 京东图书

当当链接:《Python 络爬虫从入门到实践》(唐松 陈智铨)【简介书评在线阅读】 – 当当图书

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211392 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年10月12日
下一篇 2017年10月12日

相关推荐