工作原因,需要给某部门搭建数据仓库的底层。由于之前的项目已经在执行,找的是外包厂商,使用的是hana,虽然hana也是一个非常牛逼数据库,但是在搭建数据仓库方面还是不够OK。所以我就重拾技术,用全开源搭建了一套数据仓库的底层。
其中涉及的主要软件或系统有CDH、Jenkins、squirrel-sql、kettle。当然必不可少的Notepad。通过这个数据仓库底层的搭建,目前完成了数据的抽取,运算、导出等功能。完成了一个数据仓库最最底层的要求。
但是我有5年的时间没有去搭建这个架构了,这次搭建的时候碰到了一些问题,虽然最后都解决了,但是作为一个传播知识为己任的人,我很想把这些信息都记录下来,给其他人方便。
可能很多人问我,现在商业版本这么多你干嘛用全免费的版本,我可以很负责任的告诉你,目前可能我碰到的商业版本,在很多的程度上都借鉴了我上述说的工具,同时收费非常不合理,在不了解基础知识的情况下这些商业软件会绑架了技术人员或者客户,我本人不是太喜欢,若是有志同道合的朋友愿意使用全开源版本,关注我,我会慢慢的把这些都写成文章记录下来。
或者你们有什么想知道的也可以留言给我,大家可以互相交流。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!