读书
发现用读书软件很长时间了,这是一个很不错的软件。尤其是腾+讯出品,自带 交加成,能方便的知道大家在读什么书。于是,读书开始变得没有那么闭塞,也减少了读完一本书之后的慌张。
虽然我是程序员。可是,发现最近读的技术书籍反而越来越少,文学乃至小说反而越来越多。或许是职业的缘故,或许是生活节奏的缘故,不管怎么说这算是一个好习惯。
有时候一周能读10个小时,不过最近发现能保持一天读一个小时就很不错,尤其是家里还有小孩子。
一个想法
微+信读书软件既然是+讯的作品,肯定天然就带有腾+讯的尿性,要做任务增加免费天数,为了白嫖也是累坏了人。总想玩点好玩的。
不如写个爬虫把书籍download下来放到自己的kindle上,主要是趁着免费。
不过好怕怕腾+讯爸爸。
存在的问题
通过我的调查发现,包括不仔细的查看wireshark包,以及查看微+信读书转存下来的 页:
微+信读书的 页中没有书籍的实际字符串,我想可能放到了js脚本里面,或者哪里,总之没有找到。
这样导致直接使用js或者python爬虫不太能“科学上 ”。
也就是这个问题阻碍了我很久。包括无数次上 查询。也没有找到,或许是害怕腾+讯爸爸的 复。
想法
首先需要手动登录微+信读书的 页版,然后验证登录,打开某一本要读的书籍。
下边就是脚本可以做的事情了(算法流程):
- 使用python脚本,搭配pynput库,控制鼠标以及滚轮。
- 剪切当前的屏幕存储图片
- 使用ocr解析文字,并转存 尝试了tesseract发现对简体中文的识别有点弱鸡
- Python脚本scroll到 页底部,直到不能scroll为止
- ocr找到下一章标签,并解析处坐标
- python pynput点击下一章
- 回到开始
算法可以更有趣一点就是变成多线程:
可以用一个线程批量下载图片,然后转存。
之后可以用另外的线程去ocr。
实际解决
现在的实现直到了上一步想法,希望有志之士可以按照我的想法实现一下。不如就当做一个小项目玩一下。
if you care about the progress of this, please check github,I am trying do this by myself.
I am busy for my own work. so, Maybe I have no much time to do this.
But, I do think this is one great idea.
现状
从本人的观点来看,代码的第一版已经写完。虽然行数不多,现在实现的功能可以借助宿主机上的chrome实现全屏截图,然后自动下一章,然后截图。并且将截取的图片保存起来。
从某种意义上来说,可以把这些图片当做书籍本身。
下一阶段
尝试借助python的selenium库,起一个chrome,在这个chrome上将上边实现的功能进行嵌入。这样可以将启动起来的chrome设定一个比较固定的大小,然后在这个上边将所有需要配置的参数进行配置。就能免去很多切换平台带来的诸多需要重新配置的麻烦。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!