【资源聚合平台】5/28日工作日志

2018年4月27日下午5:39 • 软件开发

王子悦

最近这两周考试有点忙，博客更新的不怎么勤，完成的工作也比较少。

今天仔细看了一下序列挖掘的原理，发现我上次写的那个访问记录方式完全不够用的啊，那样的就没有时间序列的感觉了。但是这样抛弃掉计数加一的方法，直接多一次访问多一条记录也不行，相当于记录下来全部的访问，这样上线没几天访问量就会爆炸。考虑到如果我最近在学某一门课，那么可能会频繁的访问同一门课，而连续的多次访问对于序列来说是和一次访问等价的，这样我就有了新思路：

对以下段落分词：

比特币的概念最初由中本聪在2009年提出，比特币是一种P2P形式的数字货币。点对点的传输意味着一个去中心化的支付系统。与大多数货币不同，比特币不依靠特定货币机构发行，它依据特定算法，通过大量的计算产生，它是一种虚拟的货币。

效果：

结果如下：

第一列是编，第二列是词，第三列是词性，第四列是依赖的序，最后一个是结构

大体的想法是主语和谓语的权重较高，名词和动词的权重较高，依赖关系最多的（在树结构中孩子最多的那个节点）权重高，然后与本来提取关键词得到的得分一起加权计算一个新的得分，得分高的最为关键词。具体明天实现

梁惠欣

尝试使用抽取式摘要生成技术，正在研究textRank+word2vec的实现

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

【资源聚合平台】5/28日工作日志

王子悦

梁惠欣

相关推荐