ICDAR2019-LSVT数据集有两个:
是包含定位和标记的数据类型
仅包含文字部分的数据类型
先来看第一种:
其实很简单,原始标记文件给出了四边形坐标,这个四边形不规则,我们去外接矩形就可以了。
我不需要竖排的文字,顺便过滤掉了。
一步到位
下面再来看第二种,这是个竞赛数据集,图片没问题,问题出在标记文件
注意哦,字母之间并没有空格,我之前见过这个东西,但是不知道这个东西叫什么,怎么处理。
答案是:这是全角字符,我们日常用的是半角字符
转码,去除特殊符 :
先附个魔:
放在代码同目录里面:叫 langconv.py
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!