【NLP】10其它词、句向量生成方法——腾讯AI实验室汉字词句嵌入语料库与gensim Doc2Vec

其它word2vec效果测试对比

  • 1. 腾讯AI实验室汉字词句嵌入语料库
  • 2. Doc2Vec
    • 2.1 介绍
    • 2.2 准备训练和测试数据
  • 小结

1. 腾讯AI实验室汉字词句嵌入语料库

站:

  1. 自然语言处理(NLP)研究
  2. 腾讯AI实验室汉字词句嵌入语料库,语料库为200万个矢量词表示,也就是嵌入,可表示超过800万个中文单词和短语,这些单词和短语已预先训练超过300亿个单词

下载后得到名为’Tencent_AILab_ChineseEmbedding.tar.gz’的文件

运行程序 错:

结果:

可以和这篇Blog和这篇Blog对比一下

关于中文相似词表240和297的相关性度量:

  • 论文对wordsim-240的Spearman correlation分别为57.81、51.92,之前模型对wordsim-240的?为53.52,腾讯AI实验室汉字词句嵌入语料库?为57.39
  • 论文对wordsim-296的相关性分别为61.29、59.84,之前模型对wordsim-296的?为61.28,腾讯AI实验室汉字词句嵌入语料库?为65.27

关于中文类比词表:

(0.7943336831059811, [{'section': 'capital-common-countries', 'correct': [('雅典', '希腊', '曼谷', '泰国'),, ('东京', '日本', '德黑兰', '伊朗')], 'incorrect': [('雅典', '希腊', '巴格达', '伊拉克'), ('雅典', '希腊', '北京', '中国'), ('雅典', '希腊', '伦敦', '英国'), ('雅典', '希腊', '罗马', '意大利'), ('雅典', '希腊', '斯德哥尔摩', '瑞典'), ('巴格达', '伊拉克', '北京', '中国'), ('巴格达', '伊拉克', '开罗', '埃及'), ('巴格达', '伊拉克', '罗马', '意大利'), ('曼谷', '泰国', '北京', '中国'), ('曼谷', '泰国', '赫尔辛基', '芬兰'), ('曼谷', '泰国', '罗马', '意大利'), ('曼谷', '泰国', '斯德哥尔摩', '瑞典'), ('北京', '中国', '堪培拉', '澳大利亚'), ('北京', '中国', '罗马', '意大利'), ('柏林', '德国', '奥斯陆', '挪威'), ('柏林', '德国', '罗马', '意大利'), ('柏林', '德国', '北京', '中国'), ('伯尔尼', '瑞士', '赫尔辛基', '芬兰'), ('伯尔尼', '瑞士', '奥斯陆', '挪威'), ('伯尔尼', '瑞士', '罗马', '意大利'), ('伯尔尼', '瑞士', '北京', '中国'), ('开罗', '埃及', '赫尔辛基', '芬兰'), ('开罗', '埃及', '渥太华', '加拿大'), ('开罗', '埃及', '罗马', '意大利'), ('开罗', '埃及', '斯德哥尔摩', '瑞典'), ('开罗', '埃及', '北京', 

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年2月22日
下一篇 2021年2月22日

相关推荐