python爬虫怎么爬小说_python爬虫：定向爬取小说

首先，你要安装这两个python的第三方库；安装方法如下：

requests –> pip install requests

BeautifulSoup –> pip install bs4

现在开始进入正文：获取小说章节的链接（F12查看链接被存放在哪个标签当中）

上述当中，我们可以看到章节的链接和名字都存放在标签中的标签中；但是所有的标签又只存放在一个标签中，故我们要找的是标签；然后利用迭代把标签找出来。

代码如下：

当我们把页中的链接解析出来后，就开始获取章节的正文了；

但是上述代码只是用来解析页，不能用来爬取页，下面贴出可以爬取一部小说的代码：

if __name__==”__main__”:

main()

到此已经结束了，该爬取过程中重要的是掌握提取页的方法！！！

使用requests库会返回Requests对象和Response对象

requests简单用法：

1、requests.get()：#获取HTML 页的主要方法，对应于HTTP的GET

2、requests.post()：#向HTML 页提交POST的请求方法

3、response.status_code：#HTTP请求返回的状态

4、response.text：#HTTP响应内容的字符串形式

5、r.apparent_encoding：#从内容中分析出的响应内容编码形式（分析内容得出编码形式）

世界上只有同类才可以做朋友，志不同道不合的人往往只能在某个猎奇的时间里做一阵子开心的同伴。被时间的洪水淘过，最终仍然堆在一起的，一定是同样材质的小石头。

整体思路：

1、访问页，查看页结构

2、提取章节链接并存到列表当中

3、从列表中取出链接并进行访问，然后获取出正文的内容

4、把正文存储到文件中

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib211375 人正在系统学习中相关资源：开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！