爬虫系列（三）–爬取指定区域数据

本篇文章要实现给定若干url，抓取某新闻站文章的标题和正文。这个和上面一篇相比复杂了不少，需要研究被抓页面的html结构。这里需要用到的工具是谷歌浏览器。

1.页面结构

先在谷歌浏览器中打开要抓取的url，右键单击标题，选择检查。如下图：

可以看到标题和正文在下面的标签下

标题：

一条谣言打趴科技股从芯片5G到国产软件集体闪崩

正文：…

解析xml就可以获取里面的内容。解析方法很多：

（1）直接对xml文本操作，找到这两个标签，提取内容。

（2）写一个算法，解析成树，然后查找需要的内容。

（3）使用别人写好的库，解析这个页面

这里选择（3），比较方便。（1）实现起来很简单，可能会存在问题，（2）实现起来会稍微的复杂一些，费时费力。

使用（3）就不得不提一下xpath了。这里盗用w3school给出的xpath的定义：XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。详细语法不细讲，去w3school学习，很容易。地址是：http://www.w3school.com.cn/xpath/index.asp

2.实现

注意：代码中用到了lxml，如果错，需要使用pip3安装lxml包

代码修改上一篇文章中的代码，详情见注释。

下一篇文章我们实现对整个站的爬取，继续在本篇文章代码基础上修改。下一篇今天不写了。写了这几篇，项为之僵。才第三篇，大概需要写20篇，慢慢来。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

爬虫系列（三）–爬取指定区域数据

爬虫系列（三）–爬取指定区域数据

1.页面结构

一条谣言打趴科技股 从芯片5G到国产软件集体闪崩

2.实现

相关推荐

一条谣言打趴科技股从芯片5G到国产软件集体闪崩