运用python3 爬取盗版小说——一个最简单的爬虫

 

一次在 吧玩,看到旁边人在盗版 站上 络小说,多瞄了几眼,记下了 站,既然正好在学python,就拿它练练手。这样的小说 站没有APP,只能通过 页看,而且广告非常多,当然这就是他们的盈利手段。一般这样的盗版小说的结构非常简单,直接废话不多说,开始工作。


1.    获取一章的内容

这次是拿 笔趣阁http://www.biqukan.cc/ 这个 站开刀。

就以《神棍》——小楼独坐(书籍主页http://www.biqukan.cc/book/20461/ )作例子。不过还是那句话,请支持正版。




我们已经成功的拿到了 页源代码,但这里面只有标题和正文是我们能用上的,故我们要做进一步的处理,这里就需要用的正则表达式。而且这里面有个问题,原本一章的内容是分在了两个页面。比如第一章(1)的 URL 是 http://www.biqukan.cc/book/20461/12592815.html ,第一章(2) http://www.biqukan.cc/book/20461/12592815_2.html ,只有一个“_2”的区别,多试几章都是同样的规律,拿到一章完整的内容,需要拿到这两个页面的正文才完整。(严谨点的做法是通过正则去找URL,由于这个 站规律性很好,故简单通过在第一个url后面加”_2”的方法来处理。)
通过正则表达式来获取标题和正文,我们这里先获取第一章的完整内容。


我们已经成功的获取到了第一章的所有内容,同时也将文章中不需要的符 ,空格,广告都去掉了,剩下的工作就是获取到每一章的内容,把获取的内容写入本地的txt文件中,然后就可以在其他设备软件是看小说了。还记得前面说过,每一章的URL都在小说主页上有吗,那现在就需要在这里下手了。同时我们将刚才获取正文的这段代码写成一个函数,这样方便后面循环调用。要想把获取的内容写入本地 txt 文件中只要稍加修改代码就行了。





运用python3 爬取盗版小说——一个最简单的爬虫



至此,这本小说就已经爬取下来了,当然这个程序写的很简陋,代码好像写的也有点乱,但是在关键的地方后面都写有注释。今天就到这里,后面再慢慢完善代码。

欢迎交流。

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208386 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年11月4日
下一篇 2017年11月4日

相关推荐