GIGO1.1数据清洗利器,文献计量同义词合并

大家应该看出严重错误了吧。
即:只要出现“研究”两个字,均会被删除
如果数据成千上万,这种转化无疑是灾难性的。因为你自己并不知道转化错了,即使知道,你也无暇顾及。
以合并为例讲解,也会出现上述情况
大数据技术;智慧城市;政府管理;电子政务;研究大数据;智慧城;电子政务;研究对策
现在需要把“大数据”合并到大数据技术,
利用Excel合并结果:

大家应该看出严重错误了吧。
即:只要出现“大数据”三个个字,均会被转化成“大数据技术”五个字,显然,“大数据技术技术”这个已经转化错了。
如果数据成千上万,这种转化无疑是灾难性的。因为你自己并不知道转化错了,即使知道,你也无暇顾及。
计算机科学中有句话叫“garbage in, garbage out”,意思是(用于计算机)废料输入废料输出,无用输入无用输出。该习语的缩写形式是GIGO。
因此,“学术点滴”,为了高效、迅速、准确的解决这个问题,开发了一个GIGO数据清洗软件。
本软件用GIGO命名,以提醒大家数据预处理的重要性。
软件界面如下,非常简洁。

结果如下:

大数据技术;智慧城市;政府管理;电子政务大数据;智慧城;电子政务;研究对策
可见删除正确,仅仅把“研究”一词删除。

“同义词”是将要转化的词,“目标词”为转化后的词,手动填写就可以。如下,将“大数据”合并到“大数据技术”:

已经合并完成,结果如下:

可见,转化正确,并没有出现Excel中的错误情况。
速度非常快,测试2万篇文章,转化一次不到1秒钟。
当然,该软件最大的优势是,如果有多个关键词需要转化,不需要改变路径,只需要把“同义词”和“目标词”或“删除词”对应的词语改变即可,可无限重复执行,非常非常方便,改动的数据会在data表格中自动更改,所以记得备份你的初始数据哦。
当当然,该软件也可以处理英文,并且自动大小写转化,精确度杠杠滴。
是不是,很想试试啦。
当然,你必须要试试,因为,你的数据预处理这步必不可少。
而目前还没有比我的这种方法更简单的方法。
经过预处理,然后利用本 的CO-OC1.7软件做共现矩阵是不是非常简单呢/h2>

GIGO1.1数据清洗利器,文献计量同义词合并

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年1月18日
下一篇 2020年1月18日

相关推荐