阿里巴巴采集软件 1688企业联系方式实时爬虫工具分享

不知道有多少人有过一个人开发整个项目的过程,阿里巴巴,从零到一,采集,从无到有,时间比较急,来不及用一些比较成熟但是复杂的开源框架,1688,这种情况下只能针对需求敲代码开发。之前没有搞过监控类的项目,只能从 上找案例,找相关的文章,看看前辈们是怎么思考的怎么开发的。

当时浏览了一整个晚上 站,总结出要实现这个功能至少需要三步:1.数据收集;2.规则引擎;3.数据展示及 警

从功能上讲整个系统分为三类之后,就要开始设计你的表结构和文档了,这个过程就是我之前写的一篇架构那些事中的抽象过程了。抽象这个事情很有意思,我们不妨先一步一步把各方以及需求都写到一张纸上,发现他们的相同点与不同点。

常见的数据质量规则是数据偏移,数据偏移就是我们常见的psi公式了,将一个变量分多份,当然分的种类也不同,一般常见的有等宽和等频。然后根据公式:

psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))开始计算psi值。计算psi值一般小于0.1属于非常稳定,在0.1与0.25之间属于正常,再大了就需要 警了,同时也可以把每一个分区的预期比例和当前占比做一个比较,可以很好的显示出数据偏移方向,针对情况可以做出针对性的策略,举个简单的现实中的例子:如果一些注册用户的性别年龄区间相较于预期的比较大,这种情况下必须赶紧分析一下当前的推广活动啊等等的。

到现在为止设计工作数据收集模块和规则引擎模块已经有一个大体的印象了。提前剧透我们的数据量非常大,一天的数据有接近一个T的大小,后期我会接着写第二篇,讲一下具体用到的技术框架和数据展示 警模块以及数据存储的设计。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年2月12日
下一篇 2021年2月12日

相关推荐