某读书软件书籍导出想法

读书

发现用读书软件很长时间了，这是一个很不错的软件。尤其是腾+讯出品，自带交加成，能方便的知道大家在读什么书。于是，读书开始变得没有那么闭塞，也减少了读完一本书之后的慌张。
虽然我是程序员。可是，发现最近读的技术书籍反而越来越少，文学乃至小说反而越来越多。或许是职业的缘故，或许是生活节奏的缘故，不管怎么说这算是一个好习惯。
有时候一周能读10个小时，不过最近发现能保持一天读一个小时就很不错，尤其是家里还有小孩子。

一个想法

微+信读书软件既然是+讯的作品，肯定天然就带有腾+讯的尿性，要做任务增加免费天数，为了白嫖也是累坏了人。总想玩点好玩的。
不如写个爬虫把书籍download下来放到自己的kindle上，主要是趁着免费。
不过好怕怕腾+讯爸爸。

存在的问题

通过我的调查发现，包括不仔细的查看wireshark包，以及查看微+信读书转存下来的页：
微+信读书的页中没有书籍的实际字符串，我想可能放到了js脚本里面，或者哪里，总之没有找到。
这样导致直接使用js或者python爬虫不太能“科学上 ”。

也就是这个问题阻碍了我很久。包括无数次上查询。也没有找到，或许是害怕腾+讯爸爸的复。

想法

首先需要手动登录微+信读书的页版，然后验证登录，打开某一本要读的书籍。

下边就是脚本可以做的事情了（算法流程）：

使用python脚本，搭配pynput库，控制鼠标以及滚轮。
剪切当前的屏幕存储图片
使用ocr解析文字，并转存 尝试了tesseract发现对简体中文的识别有点弱鸡
Python脚本scroll到页底部，直到不能scroll为止
ocr找到下一章标签，并解析处坐标
python pynput点击下一章
回到开始

算法可以更有趣一点就是变成多线程：
可以用一个线程批量下载图片，然后转存。
之后可以用另外的线程去ocr。

实际解决

现在的实现直到了上一步想法，希望有志之士可以按照我的想法实现一下。不如就当做一个小项目玩一下。

if you care about the progress of this, please check github,I am trying do this by myself.

I am busy for my own work. so, Maybe I have no much time to do this.

But, I do think this is one great idea.

现状

从本人的观点来看，代码的第一版已经写完。虽然行数不多，现在实现的功能可以借助宿主机上的chrome实现全屏截图，然后自动下一章，然后截图。并且将截取的图片保存起来。
从某种意义上来说，可以把这些图片当做书籍本身。

下一阶段

尝试借助python的selenium库，起一个chrome，在这个chrome上将上边实现的功能进行嵌入。这样可以将启动起来的chrome设定一个比较固定的大小，然后在这个上边将所有需要配置的参数进行配置。就能免去很多切换平台带来的诸多需要重新配置的麻烦。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

某读书软件书籍导出想法

读书

一个想法

存在的问题

想法

实际解决

现状

下一阶段

相关推荐