采集内容源的筛选标准及建议
寻找优质内容源
标准
- 目标内容量丰富
- 内容噪音相对较少或者比较容易处理
- 诗歌
- 名人名言
- 作文,星座,游戏
- 自媒体
- 非拼接类的内容
寻找
关键词覆盖率,查找那些排名靠前的站点
对于我们要做的这批关键词,百度的喜好是什么样的strong>
通过拿一批关键词去跑覆盖了,分析排名靠前的站点,他们的内容是怎么做的
使用baiducover.py进行百度的关键词覆盖率查询
需要安装的包 pip install requests lxml openpyxl -i https://pypi.doubanio.com/simple
采集 解析 excel表格处理
lxml 需要下载进行安装 cmd>>cd C:UsersAdministratorDesktop>>
pip install lxml-4.6.3-cp38-cp38-win_amd64.whl 即可安装完成
头条,uc,企鹅 ,微信,淘金阁
一些比较少的人注意的地方:github
通过关键词覆盖查找内容源及分析对手做法
使用baiducover.py进行百度的关键词覆盖率查询 来查找自己的内容源参考对手 站
目标内容进行采集策略
根据关键词采集内容
根据关键词采集内容
—利用百度以及 站自身的借口进行
—百度 site:域名 关键词
站内搜索接口
内容数量有限
一通刷,只要是目标内容全部采集 建议用这种
内容相对较多,方便后期处理
对于公共数据
先采集自身数据库 ()
在去源站采集
自己去采集内容
入库(重要)
内容处理
去其糟粕
包含特定词语(噪音)的句子或段落全部不要
中英文标点及特殊符 处理
段落数量处理(段落的拆分和组合)
句子长度
剔除无用句
信息完善
要打开e
使用脚本 article-inserter.py (去除html标签,去连接,)
获取(127.0.0.1:8080/api/add)(127.0.0.1:8080/api/get)
目标站采集及代理池搭建
使用脚本 article-inserter.py
获取api接口地址(127.0.0.1:8080/api/add)
采集站点(去5118找到行业词库里面的,行业代表 站)
重要入库需要
这是入库的程序
pip3 install elasticsearch -i https://pypi.doubanio.com/simple
开启重要
打开cmd cd D:planbelasticsearch-7.4.2
d:
.binelasticsearch.bat
测试http://127.0.0.1:9200/_cat/indices/p>
这是安装结巴用的代码
pip install jieba -i https://pypi.doubanio.com/simple
使用打开article-inserter.py 脚本的方法(筛选,内容出重修改)
cmd >> cd D:planb第五步、内容入库 >> d: >> python article-inserter.py
火车头内容入库
火车头发文章到服务器
文章发布流程和标题重写流程
34.关键词入库和处理
*.{1,3}n 正则替换三个字的标题为空
#,.,p>
.*\n 去掉p>
s+ 去掉空格
.*[a-z]+.*n 去掉字母
.*[^d]n
使用 mysql-woed.py脚本入库
35,根据关键词批量获取内容
使用gei-article.py脚本 获取es文章并且发布
36,windows系统安装mysql环境
37,文章发布实战
1,使用keyword-classify.py脚本 先分词
2,jiemeng.csv文件查看分类好的关键词 ,进行对 站做导航分类
3,使用get-article.py发布
100.新脚本的讲解
insertoes.py火车头入库 同时运行 main.py脚本
main.py就是去重使用的
get-article.py脚本是出库的
先打开es
火车头采集设置好文章txt 》》》》 cd 盘符 d: 改cmd 地址—-打开uvicorn使用教程txt的 代码 到cmd输入 运行
打开Google 输入127.0.0.1:8080/ername=admin&password=admin >>>>> 删除里面的索引是 127.0.0.1:8080/api/delete/{索引名称}ername=admin&password=admin
运行insertoes.py脚本 >>>> folder= 文件夹名称采集的名称 copyfrom =“索引名” 线程改下 端口设置 127.0.0.1:8080
新建cmd python insertoes.py 脚本 运行
重要(es,app)cmd都要运行起来
运行phpstudy
mysql-keyword.py 脚本 关键词入mysql数据库里
运行phpstudy
运行get-article.py脚本 站的搭建好之后 jiekou.php 找到
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览214841 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!