采集内容源的筛选标准及建议

寻找优质内容源
标准

目标内容量丰富
内容噪音相对较少或者比较容易处理

诗歌
名人名言

作文，星座，游戏
自媒体
非拼接类的内容

寻找
关键词覆盖率，查找那些排名靠前的站点
       对于我们要做的这批关键词，百度的喜好是什么样的strong>
       通过拿一批关键词去跑覆盖了，分析排名靠前的站点，他们的内容是怎么做的
使用baiducover.py进行百度的关键词覆盖率查询
       需要安装的包 pip install requests lxml openpyxl -i https://pypi.doubanio.com/simple
           采集解析 excel表格处理
       lxml 需要下载进行安装 cmd>>cd C:UsersAdministratorDesktop>>
       pip install lxml-4.6.3-cp38-cp38-win_amd64.whl 即可安装完成

头条，uc，企鹅，微信，淘金阁

一些比较少的人注意的地方：github

通过关键词覆盖查找内容源及分析对手做法

使用baiducover.py进行百度的关键词覆盖率查询来查找自己的内容源参考对手站

目标内容进行采集策略

根据关键词采集内容

根据关键词采集内容

—利用百度以及站自身的借口进行

—百度 site：域名关键词

站内搜索接口

内容数量有限

一通刷，只要是目标内容全部采集建议用这种

内容相对较多，方便后期处理

对于公共数据

先采集自身数据库 ()

在去源站采集

自己去采集内容

入库（重要）

内容处理

去其糟粕

包含特定词语（噪音）的句子或段落全部不要

中英文标点及特殊符处理

段落数量处理（段落的拆分和组合）

句子长度

剔除无用句

信息完善

要打开e

使用脚本 article-inserter.py （去除html标签，去连接，）

获取（127.0.0.1:8080/api/add）(127.0.0.1:8080/api/get)

目标站采集及代理池搭建

使用脚本 article-inserter.py

获取api接口地址（127.0.0.1:8080/api/add）

采集站点（去5118找到行业词库里面的，行业代表站）

重要入库需要

这是入库的程序

pip3 install elasticsearch -i https://pypi.doubanio.com/simple

开启重要

打开cmd cd D:planbelasticsearch-7.4.2

.binelasticsearch.bat

测试http://127.0.0.1:9200/_cat/indices/p>

这是安装结巴用的代码

pip install jieba -i https://pypi.doubanio.com/simple

使用打开article-inserter.py 脚本的方法（筛选，内容出重修改）

cmd >> cd D:planb第五步、内容入库 >> d: >> python article-inserter.py

火车头内容入库

火车头发文章到服务器

文章发布流程和标题重写流程

34.关键词入库和处理

*.{1,3}n 正则替换三个字的标题为空

#，.,p>

.*\n 去掉p>

s+ 去掉空格

.*[a-z]+.*n 去掉字母

.*[^d]n

使用 mysql-woed.py脚本入库

35，根据关键词批量获取内容

使用gei-article.py脚本获取es文章并且发布

36，windows系统安装mysql环境

37，文章发布实战

1，使用keyword-classify.py脚本先分词

2，jiemeng.csv文件查看分类好的关键词，进行对站做导航分类

3，使用get-article.py发布

100.新脚本的讲解

insertoes.py火车头入库同时运行 main.py脚本

main.py就是去重使用的

get-article.py脚本是出库的

先打开es

火车头采集设置好文章txt 》》》》 cd 盘符 d：改cmd 地址—-打开uvicorn使用教程txt的代码到cmd输入运行

打开Google 输入127.0.0.1:8080/ername=admin&password=admin >>>>> 删除里面的索引是 127.0.0.1:8080/api/delete/{索引名称}ername=admin&password=admin

运行insertoes.py脚本 >>>> folder= 文件夹名称采集的名称 copyfrom =“索引名” 线程改下端口设置 127.0.0.1:8080

新建cmd python insertoes.py 脚本运行

重要（es，app）cmd都要运行起来

运行phpstudy

mysql-keyword.py 脚本关键词入mysql数据库里

运行phpstudy

运行get-article.py脚本站的搭建好之后 jiekou.php 找到

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览214841 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

b计划撸站–内容采集筛选