爬虫系列(三)–爬取指定区域数据
本篇文章要实现给定若干url,抓取某新闻 站文章的标题和正文。这个和上面一篇相比复杂了不少,需要研究被抓页面的html结构。这里需要用到的工具是谷歌浏览器。
1.页面结构
先在谷歌浏览器中打开要抓取的url,右键单击标题,选择检查。如下图:
可以看到标题和正文在下面的标签下
标题:
一条谣言打趴科技股 从芯片5G到国产软件集体闪崩
正文:…
解析xml就可以获取里面的内容。解析方法很多:
(1)直接对xml文本操作,找到这两个标签,提取内容。
(2)写一个算法,解析成树,然后查找需要的内容。
(3)使用别人写好的库,解析这个页面
这里选择(3),比较方便。(1)实现起来很简单,可能会存在问题,(2)实现起来会稍微的复杂一些,费时费力。
使用(3)就不得不提一下xpath了。这里盗用w3school给出的xpath的定义:XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。详细语法不细讲,去w3school学习,很容易。地址是:http://www.w3school.com.cn/xpath/index.asp
2.实现
注意:代码中用到了lxml,如果 错,需要使用pip3安装lxml包
代码修改上一篇文章中的代码,详情见注释。
下一篇文章我们实现对整个 站的爬取,继续在本篇文章代码基础上修改。下一篇今天不写了。写了这几篇,项为之僵。才第三篇,大概需要写20篇,慢慢来。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!