基于深度学习的数字资源自动标引技术—泽元助力数字出版技术创新

摘要:

随着出版行业的不断发展与深化,出版内容更加丰富、出版内容形式更加多样,对数据的分类标引提出了更加严格的要求。目前数据标引多以人工标引方式存在,对数据进行分门别类打标记。由于人工精力有限,且大量标引工作过于繁琐,因此仅使用人工标引无法满足出版内容发展日益深化的需求。

“基于深度学习的数字资源自动标引技术”是泽元软件为数字出版行业推出的一项创新技术,为出版单位的数字资源管理、内容创作、产品创新等需求提供重要支撑。

自机器学习、深度学习技术广泛应用以来,基于深度学习的自动分类标引技术得以实现。在工作场景中,我们能够使用少量人工标记数据,通过机器学习算法创建模型后,可以为后续标引工作提供自动分类标引。对已分类的数据再次学习,不断优化模型后,逐渐替代人工标引。

使用自动分类标引技术的理由是什么?

图:多维度分类标引

*分类预测精准,提高预测效率

自动分类标引技术可以应用于文本数据、图像数据、音视频数据等数字化数据的分类工作。只需要预先设定分类类别和数据训练集就能够实现。

*节省人力

*资源类型广泛

资源类型涉及图书篇章、广告文案、内容插图、音视频、档案等,涉及分类包括中图法分类、学科分类等具有多级分类结构的分类标引,资源在清洗入库后经过出版自动标引自动分类资源。

*不断优化,工作效率持续升级

自动分类标引技术如何进行进行深度学习训练?

自动分类标引技术的首要过程就是对自然语言的处理及分析。系统通过对自然语言的处理和训练,最终创建机器学习模型进行深度学习,进而指导进一步的数据标引。

而深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。区别于传统浅层学习的深度学习,不仅强调了模型结构的深度,也明确了特征学习的重要性。使用训练成功的 络模型,就可以实现我们对复杂事务处理的自动化要求。

深度学习包括输入层、隐含层、输出层三部分,其中输入层是研究人员提供的大量数据,是算法的处理对象,隐含层的层数由实验人员确定,是算法对数据进行特征标记、发现其中规律、建立特征点间联系的过程,输出层则是研究人员可以得到的结果,一般来说输入层得到的数据越多,隐含层的层数越多,对数据的区分结果也就越好,作为推动自然语言处理的最新动力,机器学习具有人工不可替代的优势。

图:自然语言处理和分析过程

目前自动分类标引质量目标准确率在98%以上,测试数据集准确率在95%以上。在一般生产环境下可以做到较高的准确率。

哪些场景可以应用自动分类标引技术?

该项技术主要应用于出版机构的资源自动标引工作中。建立完善的数字资源标引体系能够帮助出版 盘点资源、为日后产品创新提供支撑,更加便于出版 的内容创作。

图:自动标引技术在项目中的应用

支持对出版机构资源进行标引,包括数据、稿件、图片、图表、视频、音频等资源,按照多种分类体系、企业内部产品体系、管理体系、关键词、主题词等进行标引;并通过对内容的分类和标引,为资源库的资源添加相应标识和属性。

标引时,系统支持提供校验规则,来保证标引的准确性。

图:项目标引体系建立

目前,自动分类标引技术已经在 会科学文献出版 、 会科学出版 、农业出版 、科学出版 、英大传媒集团等多个项目的资源标引工作中成功应用,极大的提高了资源管理效率。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月3日
下一篇 2021年1月3日

相关推荐