Windows下使用word2vec进行词向量训练

首先在windows环境下需要安装Cygwin软件,安装见上一篇博文。今天主要来记录一下怎么使用word2vec进行词向量训练。

1.启动cygwin,使用cd命令进入word2vec文件夹下

输入make命令, 如下错误
gcc word2vec.c -o word2vec -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
gcc: 错误:unrecognized command line option ‘-pthread’
makefile:8: recipe for target ‘word2vec’ failed
make: *** [word2vec] Error 1

说明cygwin中的gcc不支持pthread多线程命令,解决方法是将word2vec目录下的makefile文件:
CFLAGS = -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result
这一行注释掉。

2. 将你自己的数据(可以打包成压缩文件),放入word2vec目录下

修改demo-word.sh文件,该文件默认情况下使用自带的text8数据进行训练,如果训练数据不存在,则会进行下载,因为需要使用自己的数据进行训练,所以可以将
if [ ! -e text8.zip ]; then
wget http://mattmahoney.net/dc/text8.zip -O text8.gz
gzip -d text8.gz -f
fi
进行注释,

并将
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 15
./distance vectors.bin

3. 运行命令sh demo-word.sh,等待训练完成,如下图:

原文:https://blog.csdn.net/heyongluoyao8/article/details/43488765 
 

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年2月8日
下一篇 2019年2月8日

相关推荐