古瓦的成语接龙-词典

词典

断更了几天，一直忙着整理基础资料的事儿，不想输送没有成果的事儿，也就没更了。

词典扫描了近100页，每页约140条成语，约13000条成语的目录图片已经扫描完成，若处理每张图片约3分钟的话，那么需要300分钟，约5个小时，半个工作日，使用上班摸鱼时间外加晚上的时间的话，实际时长估计得一个星期。

这还是将词典进行图片处理的状况，很显然，这个时间很漫长，缩短累积成语词条的内容还得寻求更快的方法，否则将陷入整理基础资料的泥潭里，还得将成语词条做成表，还有附上字母、判断笔划等内容。

搜罗了一些图片识别文字处理软件，包括在线识别，情况不容乐观啊，尝试了几款软件，总是提示要加会员，因而不得不放弃了。试用版的呢，识别出的文字还是有差距的，很难完整地识别，需要修改的地方太多了。

焦头烂额之际，都想自己写一款识别软件了，所以，在放弃使用这些现成的软件之余，搜了一些关于Python有关图片识别的内容，今天下资料下了一天才完成，大几G的资料。

学无止境么，有了这些资料，又有得玩啦。为啥要这样的折磨自己呢，主要是，再优秀的算法，在无底层基础数据的支持下，如同除数为0，毫无意义。这种感触很无奈。

还想到了一个方法：将成语如读到微信里，这个方法目前还没尝试，明天找个时间测试，若可行的话，那么采用语音的方法进行成语词条的累积，这个方法的词条累积速度，取决于微信的声音辨字能力和它的语音库转译能力。

一旦采用语音的方法，那么这些图片也要安排个时间处理出来，具体用在什么地方，再议，争取每个资料都使用上，减少已花费时间的浪费。暂时能想到的是：可以出一版Python识别图片文字的教程，这样可以摊一些时间成本，不至于彻底浪费。

另外不得不说的是，词典的末尾页，有提示版权的问题，直接采用词典里的内容，是个严重的侵权问题，毕竟这些成语是编写这本词典的团队的沥心之作，词典啊，不是一篇小说或无氧记事，为了自己整理出来的资料有准确度，才购买了词典当尺子，直接用了，很显然是不行的。

买这本词典的直接花销是8块，而且是崭新的，用了一些优惠券、抵扣券、实时红包等，最终将花销降低至8块，不得不说，资深的电商在优惠券方面还是很给力的。二手词典也考虑过，一个是二手店铺没那些优惠券，而且还担心二手词典有缺损，或者页面有污渍，或写了一些标记文字等，这些损伤在文字识别时增加误差几率，整理资料时，难度成倍增加也说不定。

若语音方法可行的话，就可避免扫图处理图了，在购买几本成语词典也是可行的，预算再追加100块吧，二手、新本不限，若您看到了本篇日记，也有词典要出手，可留言在这里，砍价么，古瓦肯定要砍啦。

写到这吧。

词典(完)

古瓦2022.11.22

—————

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

古瓦的成语接龙-词典

相关推荐