词典
断更了几天,一直忙着整理基础资料的事儿,不想输送没有成果的事儿,也就没更了。
词典扫描了近100页,每页约140条成语,约13000条成语的目录图片已经扫描完成,若处理每张图片约3分钟的话,那么需要300分钟,约5个小时,半个工作日,使用上班摸鱼时间外加晚上的时间的话,实际时长估计得一个星期。
这还是将词典进行图片处理的状况,很显然,这个时间很漫长,缩短累积成语词条的内容还得寻求更快的方法,否则将陷入整理基础资料的泥潭里,还得将成语词条做成表,还有附上字母、判断笔划等内容。
搜罗了一些图片识别文字处理软件,包括在线识别,情况不容乐观啊,尝试了几款软件,总是提示要加会员,因而不得不放弃了。试用版的呢,识别出的文字还是有差距的,很难完整地识别,需要修改的地方太多了。
焦头烂额之际,都想自己写一款识别软件了,所以,在放弃使用这些现成的软件之余,搜了一些关于Python有关图片识别的内容,今天下资料下了一天才完成,大几G的资料。
学无止境么,有了这些资料,又有得玩啦。为啥要这样的折磨自己呢,主要是,再优秀的算法,在无底层基础数据的支持下,如同除数为0,毫无意义。这种感触很无奈。
还想到了一个方法:将成语如读到微信里,这个方法目前还没尝试,明天找个时间测试,若可行的话,那么采用语音的方法进行成语词条的累积,这个方法的词条累积速度,取决于微信的声音辨字能力和它的语音库转译能力。
一旦采用语音的方法,那么这些图片也要安排个时间处理出来,具体用在什么地方,再议,争取每个资料都使用上,减少已花费时间的浪费。暂时能想到的是:可以出一版Python识别图片文字的教程,这样可以摊一些时间成本,不至于彻底浪费。
另外不得不说的是,词典的末尾页,有提示版权的问题,直接采用词典里的内容,是个严重的侵权问题,毕竟这些成语是编写这本词典的团队的沥心之作,词典啊,不是一篇小说或无氧记事,为了自己整理出来的资料有准确度,才购买了词典当尺子,直接用了,很显然是不行的。
买这本词典的直接花销是8块,而且是崭新的,用了一些优惠券、抵扣券、实时红包等,最终将花销降低至8块,不得不说,资深的电商在优惠券方面还是很给力的。二手词典也考虑过,一个是二手店铺没那些优惠券,而且还担心二手词典有缺损,或者页面有污渍,或写了一些标记文字等,这些损伤在文字识别时增加误差几率,整理资料时,难度成倍增加也说不定。
若语音方法可行的话,就可避免扫图处理图了,在购买几本成语词典也是可行的,预算再追加100块吧,二手、新本不限,若您看到了本篇日记,也有词典要出手,可留言在这里,砍价么,古瓦肯定要砍啦。
写到这吧。
词典(完)
古瓦2022.11.22
—————
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!