python写爬虫之提取 页的内容(筛选)

       利用 络爬虫获取简单信息的基本步骤是:提取 页源码——>筛选内容——>保存内容

一、提取 页源码

       取 页源码方法很多,常用的库有:urllib库,requests库等。。。 具体的例程可访问我的上篇文件:

       https://blog.csdn.net/scx2006114/article/details/81389331 

二、筛选内容

       在我的上篇文章里使用的筛选的方法是通过正则表达式完成,但正则表达式编写过程复杂,而且容易出错。在此篇文章中我向大家替换的方法,主要是应用库来代替正则表达式。

      ①使用 XPath

      ②使用 Beautiful Soup

      ③使用 pyquery

       这三种库具体的介绍和使用教程可阅读《Python 3 络爬虫开发实战 ,崔庆才著》(文末附书本下载链接)。我以Beautiful Soup库为例,实战爬取 页内容。

                 环境:python3.65   pycharm软件

                 思路:提取 页的源码—>筛选源码—>输出结果(保持文件)

首先我们先来看看简书 页的源码:

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年7月4日
下一篇 2018年7月4日

相关推荐