近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,他们都绕不开”数据”这个主题。企业每年会产生海量的数据,如何从海量数据中挖掘有价值的数据成为大数据研究的一个重点。基于ETL(Extract-Transform-Load)的数据清洗是挖掘有价值的数据方案之一。
目前比较流行的ETL工具有:
1 Pentaho Kettle
2 Hawk
3 Informatica PowerCenter
4 DataStage
1、Pentaho Kettle
Pentaho Kettle是一款国外免费开放的ETL工具,纯Java语言编写的,可以在Windows、Linux、UNIX系统上运行,并且是绿色的无需安装的。能把来自不同数据源中的数据放到一个”壶“里,然后以一种指定的格式流出。本软件可免费下载使用 。
2、Hawk
3、lnformatica Powercenter
lnformatica Powercenter 是 lnformatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具,可以访问和集成几乎任何业务系统、任何格式的数据,具有高性能、高可扩展性、高可用性特点。核心功能包括数据清洗和匹配、数据屏蔽、数据验证、元数据交换等。本软件收费,无免费下载。
4、DataStage
DataStage是IBM 的 infosphere datastage 简称,也是一个领先ETL平台,可支持跨多个企业系统的集成数据,它支持HBase 、Hive、Amazon以及MongoDB数据库连接,可以灵活、有效的更新和管理数据继承,可以在云平台或者本地部署。本软件收费,无免费下载。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!