自动生成企业画像(标签)

1、目录

      • 1、目录
      • 2、前言
      • 3、算法细节
        • 1)企业信息数据准备
        • 2)候选业务词袋
        • 3)算法过程
      • 4、算法改进
        • 1)拓展数据源
        • 2)有监督训练

2、前言

  企业画像在企业推荐中是必不可少的一个环节,在客户初次查阅一个企业的信息时,企业画像(标签)可以直观的反应企业的主营业务。

3、算法细节

1)企业信息数据准备

  爬取企业招聘信息,如下图所示:
  

3)算法过程

  
– 依次遍历每条招聘信息,将每条招聘信息中d_start字典所涵盖的模块信息进行分词
– 将上述分词结果在业务词袋中进行检索,得到每条招聘信息的业务关键词
– 将每个企业的业务关键词汇总,按照频数降序排列得到如下结果

4、算法改进

1)拓展数据源

  目前数据源仅限于企业招聘信息,未来应该拓展到企业官 、百度百科、新闻舆情、企业研 、产品信息等等。

2)有监督训练

  目前方法是无监督的抽取企业业务标签,虽然性价比极高,但是精度依然存在问题,未来可以采用有监督的训练,监督样本可以从大型创投数据库中爬虫得到:
  

这里写图片描述
  可采用的训练方法大体有两种,一是为每个样本的标签建立一个词袋,训练的过程就是采集每种标签的词袋的过程;二是将训练样本向量化,通过机器学习分类模型或seq2seq深度模型进行训练。

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览212602 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年8月7日
下一篇 2018年8月7日

相关推荐