数据清洗常见的工具你知道几个?

近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,他们都绕不开”数据”这个主题。企业每年会产生海量的数据,如何从海量数据中挖掘有价值的数据成为大数据研究的一个重点。基于ETL(Extract-Transform-Load)的数据清洗是挖掘有价值的数据方案之一。

目前比较流行的ETL工具有:

1 Pentaho Kettle

2 Hawk

3 Informatica PowerCenter

4 DataStage

1、Pentaho Kettle

Pentaho Kettle是一款国外免费开放的ETL工具,纯Java语言编写的,可以在Windows、Linux、UNIX系统上运行,并且是绿色的无需安装的。能把来自不同数据源中的数据放到一个”壶“里,然后以一种指定的格式流出。本软件可免费下载使用 。

2、Hawk

3、lnformatica Powercenter

lnformatica Powercenter 是 lnformatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具,可以访问和集成几乎任何业务系统、任何格式的数据,具有高性能、高可扩展性、高可用性特点。核心功能包括数据清洗和匹配、数据屏蔽、数据验证、元数据交换等。本软件收费,无免费下载。

4、DataStage

DataStage是IBM 的 infosphere datastage 简称,也是一个领先ETL平台,可支持跨多个企业系统的集成数据,它支持HBase 、Hive、Amazon以及MongoDB数据库连接,可以灵活、有效的更新和管理数据继承,可以在云平台或者本地部署。本软件收费,无免费下载。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月7日
下一篇 2022年10月7日

相关推荐