python写爬虫之提取页的内容（筛选）

2018年7月4日下午2:53 • 软件开发

利用络爬虫获取简单信息的基本步骤是：提取页源码——>筛选内容——>保存内容

一、提取页源码

取页源码方法很多，常用的库有：urllib库，requests库等。。。具体的例程可访问我的上篇文件：

https://blog.csdn.net/scx2006114/article/details/81389331

二、筛选内容

在我的上篇文章里使用的筛选的方法是通过正则表达式完成，但正则表达式编写过程复杂，而且容易出错。在此篇文章中我向大家替换的方法，主要是应用库来代替正则表达式。

①使用 XPath

②使用 Beautiful Soup

③使用 pyquery

这三种库具体的介绍和使用教程可阅读《Python 3 络爬虫开发实战 ,崔庆才著》（文末附书本下载链接）。我以Beautiful Soup库为例，实战爬取页内容。

环境：python3.65 pycharm软件

思路：提取页的源码—>筛选源码—>输出结果（保持文件）

首先我们先来看看简书页的源码：

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

python写爬虫之提取 页的内容（筛选）