01
02
首先,你要安装这两个python的第三方库;安装方法如下:
requests –> pip install requests
BeautifulSoup –> pip install bs4
现在开始进入正文:获取小说章节的链接(F12查看链接被存放在哪个标签当中)
上述当中,我们可以看到章节的链接和名字都存放在 标签中的 标签中;但是所有的 标签又只存放在一个 标签中,故我们要找的是 标签;然后利用迭代把 标签找出来。
代码如下:
当我们把 页中的链接解析出来后,就开始获取章节的正文了;
但是上述代码只是用来解析 页,不能用来爬取 页,下面贴出可以爬取一部小说的代码:
if __name__==”__main__”:
main()
到此已经结束了,该爬取过程中重要的是掌握提取 页的方法!!!
03
使用requests库会返回Requests对象和Response对象
requests简单用法:
1、requests.get():#获取HTML 页的主要方法,对应于HTTP的GET
2、requests.post():#向HTML 页提交POST的请求方法
3、response.status_code:#HTTP请求返回的状态
4、response.text:#HTTP响应内容的字符串形式
5、r.apparent_encoding:#从内容中分析出的响应内容编码形式(分析内容得出编码形式)
01
世界上只有同类才可以做朋友,志不同道不合的人往往只能在某个猎奇的时间里做一阵子开心的同伴。被时间的洪水淘过,最终仍然堆在一起的,一定是同样材质的小石头。
04
整体思路:
1、访问 页,查看 页结构
2、提取章节链接并存到列表当中
3、从列表中取出链接并进行访问,然后获取出正文的内容
4、把正文存储到文件中
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211375 人正在系统学习中 相关资源:开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!