Gensim训练维基百科词向量模型（含代码）

由于平时会用到很多的文本预处理，这里就系统的讲解一下Gensim是如何训练维基百科词向量模型的！！

其中训练好的模型，也就是最终生成的 **.model 文件，可以作为预训练词向量使用。

训练维基百科词向量模型的代码参见我的github：https://github.com/ly987/NLP

首先简单了解一下gensim：

自定义两句话，分词，以分好词的句子作为输入，使用 gensim 的 Word2Vec 训练词向量。

下面我们开始训练维基百科数据：

下载址：https://dumps.wikimedia.org/zhwiki/

一般有两个版本，这里我们选用小点的那一个，在实际应用中，我们用1.7G训练的词向量作为预训练词向量。

下载好的文件格式就为 **.bz2

使用github中分享的代码：process.py

在cmd中，将路径调至process.py和下载好的 **.bz2 文件目录下，运行：

其中wiki.zh.text的名称可以自定义。

使用软件：opencc

安装好opencc软件，将 **.txt 文件放置与 opencc.exe 同一目录下，在cmd中，将路径调至opencc的安装目录下，运行：

其中 test.txt 的名称可以自定义。

使用github中分享的代码：Testjieba.py

在cmd中，将路径调至Testjieba.py和下载好的文件目录下，运行：

使用github中分享的代码：word2vec_model.py

在cmd中，将路径调至word2vec_model.py和下载好的文件目录下，运行：

其中 wiki.zh.text.model 和 wiki.zh.text.vector 的名称可以自定义。wiki.zh.text.model 即为最终训练好的词向量。

使用刚刚训练好的 wiki.zh.text.model 来对句子进行词向量转化。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览208940 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！