对于一个软件来讲,若是开源其发展速度是很快的,在R软件中,去年年底就发布了jiebaR分词包,记得上学的那会jieba包首先是出现在python中,没想到在R软件中也用的到,前几天接了点私活,用这个包帮他做点东西出来,没想到,做到最后不愿意给钱,无良奸商。。。不过也正好也熟悉了一下R中的jiebaR分词包,总体来讲这个包还是蛮强大的,中文分词很准确,能提取关键字,能快速的上手,直接上代码对比python中jieba包,看看吧:
cutter_words <- cutter <= “我爱北京天安门”# 关键词提取# 关键词提取所使用逆向文件频率(IDF)。文本语料库可以切换成自定义语料库的路径,使用方法与分词类似。topn参数为关键词的个数。cutter = worker(type = “keywords”, topn = 2)cutter_words <- cutter <= “我爱北京天安门”cutter_words
https://qinwf.shinyapps.io/jiebaR-shiny/ jiebaR在线分词试用
附上python中关键词提取及LDA模型 的python代码
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树人工智能自然语言处理208939 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!