其它word2vec效果测试对比
- 1. 腾讯AI实验室汉字词句嵌入语料库
- 2. Doc2Vec
-
- 2.1 介绍
- 2.2 准备训练和测试数据
- 小结
1. 腾讯AI实验室汉字词句嵌入语料库
站:
- 自然语言处理(NLP)研究
- 腾讯AI实验室汉字词句嵌入语料库,语料库为200万个矢量词表示,也就是嵌入,可表示超过800万个中文单词和短语,这些单词和短语已预先训练超过300亿个单词
下载后得到名为’Tencent_AILab_ChineseEmbedding.tar.gz’的文件
运行程序 错:
结果:
可以和这篇Blog和这篇Blog对比一下
关于中文相似词表240和297的相关性度量:
- 论文对wordsim-240的Spearman correlation分别为57.81、51.92,之前模型对wordsim-240的?为53.52,腾讯AI实验室汉字词句嵌入语料库?为57.39
- 论文对wordsim-296的相关性分别为61.29、59.84,之前模型对wordsim-296的?为61.28,腾讯AI实验室汉字词句嵌入语料库?为65.27
关于中文类比词表:
(0.7943336831059811, [{'section': 'capital-common-countries', 'correct': [('雅典', '希腊', '曼谷', '泰国'),, ('东京', '日本', '德黑兰', '伊朗')], 'incorrect': [('雅典', '希腊', '巴格达', '伊拉克'), ('雅典', '希腊', '北京', '中国'), ('雅典', '希腊', '伦敦', '英国'), ('雅典', '希腊', '罗马', '意大利'), ('雅典', '希腊', '斯德哥尔摩', '瑞典'), ('巴格达', '伊拉克', '北京', '中国'), ('巴格达', '伊拉克', '开罗', '埃及'), ('巴格达', '伊拉克', '罗马', '意大利'), ('曼谷', '泰国', '北京', '中国'), ('曼谷', '泰国', '赫尔辛基', '芬兰'), ('曼谷', '泰国', '罗马', '意大利'), ('曼谷', '泰国', '斯德哥尔摩', '瑞典'), ('北京', '中国', '堪培拉', '澳大利亚'), ('北京', '中国', '罗马', '意大利'), ('柏林', '德国', '奥斯陆', '挪威'), ('柏林', '德国', '罗马', '意大利'), ('柏林', '德国', '北京', '中国'), ('伯尔尼', '瑞士', '赫尔辛基', '芬兰'), ('伯尔尼', '瑞士', '奥斯陆', '挪威'), ('伯尔尼', '瑞士', '罗马', '意大利'), ('伯尔尼', '瑞士', '北京', '中国'), ('开罗', '埃及', '赫尔辛基', '芬兰'), ('开罗', '埃及', '渥太华', '加拿大'), ('开罗', '埃及', '罗马', '意大利'), ('开罗', '埃及', '斯德哥尔摩', '瑞典'), ('开罗', '埃及', '北京', 声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!