最近在做一个超星图书下载,由于早些年有位前辈破解超星之后,超星的保密工作变的更强了,当然我也看了那个前辈的文章不过不知道他是怎么突破超星限制的,也不知道他是怎么下载的。我之所以想做这个是老师需要的。本来打算通过程序下载学校的超星图书馆的图书的,研究了一个星期发现没法下手。后来转向超星 上书店,由于超星 上也有很多图书并且可以在线阅读,仔细分析了一两个星期的 页源代码终于找到一种可以下载的方法,虽然现在软件还没有完全实现。下面说下具体实现。
超星图书 址:http://book.chaoxing.com .上面的图书是可以在线试读的即 页阅读,VIP图书只能免费读前17页,有些还不能在线阅读,当然不要这些不能在线阅读的方式图书。凡是能在线阅读的图书就能把内容抓取下来。
先介绍下实现原理:
页分析工具:JSOUP 1.7,具体介绍百度很多。正则表达式,我正则很差,大部分都是百度的。
由于开始我做的是基于整个的超星 站的所有的图书的抓取,需要所有的图书连接,其实想要下载特定的一本图书是比较简单的。只要知道图书的连接就能下载下来。
整个 页图书连接的抓取:这个过程是采用 络爬虫程序进行的,通过对超星 页的解析获得每个分类,再根据分类去抓取该分类里所有的图书连接,我估计了下整个超星 站大约有20W本图书。可能是我的多线程程序有错误了,连续跑了两天才抓了10W本书的连接就不行了,不过这也够用了。
先写这些吧,发现思路好乱,整理整理思路再写
文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览93565 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!