运用python3 爬取盗版小说——一个最简单的爬虫

一次在吧玩，看到旁边人在盗版站上络小说，多瞄了几眼，记下了站，既然正好在学python，就拿它练练手。这样的小说站没有APP，只能通过页看，而且广告非常多，当然这就是他们的盈利手段。一般这样的盗版小说的结构非常简单，直接废话不多说，开始工作。

1. 获取一章的内容

这次是拿笔趣阁http://www.biqukan.cc/ 这个站开刀。

就以《神棍》——小楼独坐（书籍主页http://www.biqukan.cc/book/20461/ ）作例子。不过还是那句话，请支持正版。

我们已经成功的拿到了页源代码，但这里面只有标题和正文是我们能用上的，故我们要做进一步的处理，这里就需要用的正则表达式。而且这里面有个问题，原本一章的内容是分在了两个页面。比如第一章（1）的 URL 是 http://www.biqukan.cc/book/20461/12592815.html ，第一章（2） http://www.biqukan.cc/book/20461/12592815_2.html ，只有一个“_2”的区别，多试几章都是同样的规律，拿到一章完整的内容，需要拿到这两个页面的正文才完整。（严谨点的做法是通过正则去找URL，由于这个站规律性很好，故简单通过在第一个url后面加”_2”的方法来处理。）
通过正则表达式来获取标题和正文，我们这里先获取第一章的完整内容。

我们已经成功的获取到了第一章的所有内容，同时也将文章中不需要的符，空格，广告都去掉了，剩下的工作就是获取到每一章的内容，把获取的内容写入本地的txt文件中，然后就可以在其他设备软件是看小说了。还记得前面说过，每一章的URL都在小说主页上有吗，那现在就需要在这里下手了。同时我们将刚才获取正文的这段代码写成一个函数，这样方便后面循环调用。要想把获取的内容写入本地 txt 文件中只要稍加修改代码就行了。

运用python3 爬取盗版小说——一个最简单的爬虫

至此，这本小说就已经爬取下来了，当然这个程序写的很简陋，代码好像写的也有点乱，但是在关键的地方后面都写有注释。今天就到这里，后面再慢慢完善代码。

欢迎交流。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览208386 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

运用python3 爬取盗版小说——一个最简单的爬虫

相关推荐