古文字识别助手与众包平台——项目博客一
项目背景:
从目前的考古发掘看,尚未明确证实发现有关夏代的文字资料。但种种迹象表明,夏朝的文字是存在的。山东大学考古美学研究所刘凤君教授在2005年在山东等地发现了诸多刻画在兽骨上的符 ,将其命名为骨刻文,并认定刻画工具为玛瑙等锐角宝石,形成约在4600~3300年之间,若该符 能被证明为是文字,将会为中国古代文字研究以及甲骨文的发展提供重要的考古资料。
技术创新:
此前采用基于数字图像处理的技术,从骨刻文上提取出字符,对于被虫蛀、腐蚀过的雕纹的提取效果不佳;本项目计划采取众包算法以及EM算法,采用人工描绘雕纹形状并取最吻合的真值,提取出雕纹的字符库。
工作内容:
- 2.搭建一个众包平台,通过小游戏的形式收集用户对雕纹图片的手绘(PC端及安卓端);
- 3.采用EM算法,经过多次迭代,在众多样本中,选择出最优的最接近于真值的痕迹;
- 4.将字符库的字符根据主笔画进行分类;
- 5.将字符库的字符与甲骨文、小篆的字库尝试进行对比;
技术路线:
采用数字图像处理技术将图片分割成包含单个字符的图片,通过众包平台收集用户对于图片的手绘数据,通过EM算法,经过多次迭代,在众多样本中,选择出最优的最接近于真值的痕迹,形成字符库。
实施方案:
采用迭代式开发。第一个月完成平台 页的开发以及小游戏的制作;第二个月搜集手绘数据并设计算法得到字符库;第三个月完善平台和小游戏,同时对字符进行分类。
项目的具体分工:
- 采用结对编程进行软件开发
- 聂笑宇负责安卓APP的编写以及算法的设计;
- 郝龙负责安卓APP的编写以及算法的设计;
- 牛毅群负责后端的代码编写以及 页前端的代码编写;
- 陈楚芸负责 页前端的代码编写以及对图像的处理;
- 刘康负责后端的代码编写和系统设计。
实施计划:
- 初期,开发相应的web平台和app平台,同步研究后期需要使用的算法,众包算法,图像识别,特征提取算法等。
- 中期,完善web和app平台,并推广,用于手收集众包算法的原始数据,并根据算法对骨骼文字进行真值提取。
- 后期,根据前中期的成果,对文字进行主笔画分类,时间富足的情况下,将文字与小篆,甲骨文进行对比研究。
文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览93564 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!