b计划撸站–内容采集筛选

采集内容源的筛选标准及建议

寻找优质内容源
标准

  1. 目标内容量丰富
  2. 内容噪音相对较少或者比较容易处理
  •         诗歌
  •       名人名言
  •         作文,星座,游戏
  •         自媒体
  •         非拼接类的内容

寻找
关键词覆盖率,查找那些排名靠前的站点
        对于我们要做的这批关键词,百度的喜好是什么样的strong>
        通过拿一批关键词去跑覆盖了,分析排名靠前的站点,他们的内容是怎么做的
         使用baiducover.py进行百度的关键词覆盖率查询
         需要安装的包  pip install requests lxml openpyxl -i https://pypi.doubanio.com/simple
                                                     采集     解析    excel表格处理
        lxml 需要下载进行安装 cmd>>cd C:UsersAdministratorDesktop>>
         pip install lxml-4.6.3-cp38-cp38-win_amd64.whl    
 即可安装完成                                 
        

        头条,uc,企鹅 ,微信,淘金阁

一些比较少的人注意的地方:github

 

通过关键词覆盖查找内容源及分析对手做法

     使用baiducover.py进行百度的关键词覆盖率查询  来查找自己的内容源参考对手 站

 

 

目标内容进行采集策略

根据关键词采集内容  

       根据关键词采集内容

       —利用百度以及 站自身的借口进行

       —百度  site:域名     关键词

      站内搜索接口

             

       内容数量有限

一通刷,只要是目标内容全部采集    建议用这种

      内容相对较多,方便后期处理

对于公共数据

    先采集自身数据库   ()

    在去源站采集

自己去采集内容

  入库(重要)

内容处理

去其糟粕

     包含特定词语(噪音)的句子或段落全部不要

    中英文标点及特殊符 处理

     段落数量处理(段落的拆分和组合)

     句子长度

     剔除无用句

     信息完善

要打开e

   使用脚本  article-inserter.py    (去除html标签,去连接,)

  获取(127.0.0.1:8080/api/add)(127.0.0.1:8080/api/get)

 

目标站采集及代理池搭建

 使用脚本  article-inserter.py 

  获取api接口地址(127.0.0.1:8080/api/add)

采集站点(去5118找到行业词库里面的,行业代表 站)

重要入库需要

这是入库的程序

pip3 install elasticsearch -i https://pypi.doubanio.com/simple

开启重要

打开cmd   cd D:planbelasticsearch-7.4.2

d:

.binelasticsearch.bat

测试http://127.0.0.1:9200/_cat/indices/p>

 

这是安装结巴用的代码

pip install jieba -i https://pypi.doubanio.com/simple

使用打开article-inserter.py 脚本的方法(筛选,内容出重修改)

cmd  >> cd D:planb第五步、内容入库  >>  d:  >>   python article-inserter.py

 火车头内容入库

 

火车头发文章到服务器

 

文章发布流程和标题重写流程

 

34.关键词入库和处理

*.{1,3}n  正则替换三个字的标题为空

#,.,p>

.*\n  去掉p>

s+    去掉空格

.*[a-z]+.*n  去掉字母

.*[^d]n

使用 mysql-woed.py脚本入库

35,根据关键词批量获取内容

使用gei-article.py脚本  获取es文章并且发布

 

36,windows系统安装mysql环境

 

37,文章发布实战

1,使用keyword-classify.py脚本  先分词

2,jiemeng.csv文件查看分类好的关键词 ,进行对 站做导航分类

3,使用get-article.py发布

 

100.新脚本的讲解

insertoes.py火车头入库 同时运行 main.py脚本

main.py就是去重使用的

get-article.py脚本是出库的

 

先打开es

火车头采集设置好文章txt    》》》》  cd  盘符   d:  改cmd 地址—-打开uvicorn使用教程txt的 代码 到cmd输入 运行

  打开Google 输入127.0.0.1:8080/ername=admin&password=admin     >>>>>  删除里面的索引是 127.0.0.1:8080/api/delete/{索引名称}ername=admin&password=admin 

  运行insertoes.py脚本  >>>> folder= 文件夹名称采集的名称       copyfrom =“索引名”   线程改下    端口设置  127.0.0.1:8080

新建cmd   python insertoes.py  脚本    运行

重要(es,app)cmd都要运行起来

运行phpstudy

mysql-keyword.py 脚本  关键词入mysql数据库里

运行phpstudy

运行get-article.py脚本    站的搭建好之后 jiekou.php 找到

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览214841 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年3月15日
下一篇 2021年3月15日

相关推荐