Dyson 络数据采集系统适用于多源数据采集,可以定制化开发并私有化部署的大规模 络数据采集系统。系统提供从数据采集,爬虫撰写,任务调度,数据清洗合并到数据存储一站式服务,让政府和企业能够快速获取海量的目标数据。

系统整体功能
系统可做公开互联 数据采集、全文检索、操作日志,同时考虑到实施中可能会与多个其他系统数据对接,因此提供数据交换和数据治理的相应功能支持,预留相应API接口。本系统提供丰富的配置选项,可根据实际业务进行灵活调整。
采集系统主要包含了以下功能:
- 一是采集任务的统筹计划、自动执行、统一管理、执行情况的趋势分析。
- 二是提供灵活的任务自动化编排引擎,可进行灵活配置,对采集任务进行细粒度管理。
- 三是提供丰富的接口,保证数据采集的具备高拓展性。
- 四是提供详细的监管操作日志,对任务执行可追溯。
- 五是对采集结果进行智能化分析筛查。
功能详细介绍
一、数据采集任务
系统可以执行的任务:
- 概况:系统支持展示系统用户管理信息、创建任务数、运行任务数、出错任务数以及采集任务运行趋势图,支持自定义采集任务概况展示内容;系统支持根据某个用户来切换相应的任务,直观展示该任务的时间波状图 ;
二、采集规则灵活配置,支持自动化编程采集任务
- 可根据人员日常操作习惯,设置数据采集规则,如打开 页、点击元素、输入文本、循环、提取数据、鼠标悬浮、判断等;
- 能够对采集任务进行测试,检查配置是否正确;
- 支持从页面中提取数据固化到数据库, 可将采集的页面整体生成采集;
- 通过编程,对获取的数据进行字段格式化、字段合并,支持触发器判断并根据判断结果进行数据存储、数据更新、数据清洗去重。
三、丰富的借口和扩展性
- 系统支持接口分类管理,集中展示接口类型,调用时间、调用人员、调用结果等信息;
- 支持数据接口适配,实现从一个渠道端请求接口数据到服务标准请求数据之间的转换;
- 提供每个任务采集数 据的查看功能及相应数据的导出功能,可导出为Excel、Json、CSV等格式;
- 开放数据提供接口,外部系统可通过接口获取本系统数据。
四、详细的监管操作日志
- 系统支持对数据采集任务的执行情况、信息的采集情况及采集 站的请求情况进行统一的监控;
- 能够暴露API 接口,让外部程序可调用日志;
- 提供接口服务调用的记录等相关监控数据;
- 设置邮件接收,可实时接收采集数据出错、汇总 告邮件。
五、采集结果智能分析筛查
- 对不同渠道数据进行智能去重合并处理;
- 将 页中的内容同步采集,并提供采集附件等功能。
探码Dyson数据采集系统具有实时的数据采集、海量的存储和计算能力、全流程的采集服务能力,从而打破数据孤岛、打通业务数据与用户行为数据、可视化分析,助力用户实现实时分析、一站式分析,实现企业数据化运营。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!