把ICDAR2019-LSVT原始数据集转为REC任务识别数据

ICDAR2019-LSVT数据集有两个:

 是包含定位和标记的数据类型

 

仅包含文字部分的数据类型


先来看第一种:

其实很简单,原始标记文件给出了四边形坐标,这个四边形不规则,我们去外接矩形就可以了。

我不需要竖排的文字,顺便过滤掉了。

 一步到位


下面再来看第二种,这是个竞赛数据集,图片没问题,问题出在标记文件

注意哦,字母之间并没有空格,我之前见过这个东西,但是不知道这个东西叫什么,怎么处理。

答案是:这是全角字符,我们日常用的是半角字符

转码,去除特殊符 :

先附个魔:

放在代码同目录里面:叫 langconv.py

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年9月7日
下一篇 2021年9月7日

相关推荐