比Hive快800倍!大数据实时分析领域黑马开源ClickHouse

| 查询速度快快快

以下为新浪公司实战得出的测试结果:

select date, count(*) from xx group by date ,300 亿数据 group by 日期 查询 9.8 秒

| 官方压测

下面是 100M 数据集的跑分结果:ClickHouse 比 Vertia 快约 5 倍,比 Hive 快 279 倍,比 My SQL 快 801 倍;虽然对不同的 SQL 查询,结果不完全一样,但是基本趋势是一致的。ClickHouse 跑分有多块个例子:ClickHouse 1 秒,Vertica 5.42 秒,Hive 279 秒;

比Hive快800倍!大数据实时分析领域黑马开源ClickHouse

四.ClickHouse 应用场景

ClickHouse 目前已经应用于以下场景:

  1. 电信行业用于存储数据和统计数据使用。
  2. 新浪微博用于用户行为数据记录和分析工作。
  3. 用于广告 络和 RTB、电子商务的用户行为分析。
  4. 信息安全里面的日志分析。
  5. 检测和遥感信息的挖掘。
  6. 商业智能。
  7. 络游戏以及物联 的数据处理和价值数据分析。
  8. 最大的应用来自于 Yandex 的统计分析服务 Yandex.Metrica,类似于谷歌 Analytics(GA),或友盟统计、小米统计,帮助 站或移动应用进行数据分析和精细化运营工具。据称 Yandex.Metrica 为世界上第二大的 站分析平台。ClickHouse 在这个应用中,部署了近四百台机器,每天支持 200 亿的事件和历史总记录超过 13 万亿条记录,这些记录都存有原始数据(非聚合数据),随时可以使用 SQL 查询和分析,生成用户 告。

五.ClickHouse 和一些技术的比较

  1. 商业 OLAP 数据库
  • 例如:HP Vertica, Actian the Vector,
  • 区别:ClickHouse 是开源而且免费的
  1. 云解决方案
  • 例如:亚马逊 RedShift 和谷歌的 BigQuery
  • 区别:ClickHouse 可以使用自己机器部署,无需为云付费

3.Hadoop 生态软件

  • 例如:Cloudera Impala, Spark SQL, Facebook Presto , Apache Drill
  • 区别:
  • ClickHouse 支持实时的高并发系统
  • ClickHouse 不依赖于 Hadoop 生态软件和基础
  • ClickHouse 支持分布式机房的部署
  1. 开源 OLAP 数据库
  • 例如:InfiniDB, MonetDB, LucidDB
  • 区别:这些项目的应用的规模较小,并没有应用在大型的互联 服务当中,相比之下,ClickHouse 的成熟度和稳定性远远超过这些软件。
  1. 开源分析,非关系型数据库
  • 例如:Druid , Apache Kylin
  • 区别:ClickHouse 可以支持从原始数据的直接查询,ClickHouse 支持类 SQL 语言,提供了传统关系型数据的便利。

六.总结

在大数据分析领域中,传统的大数据分析需要不同框架和技术组合才能达到最终的效果,在人力成本,技术能力和硬件成本上以及维护成本让大数据分析变得成为昂贵的事情。让很多中小型企业非常苦恼,不得不被迫租赁第三方大型公司的数据分析服务。

ClickHouse 开源的出现让许多想做大数据并且想做大数据分析的很多公司和企业耳目一新。

ClickHouse 正是以不依赖 Hadoop 生态、安装和维护简单、查询速度快、可以支持 SQL 等特点在大数据分析领域越走越远。

感谢易观 CTO 郭炜和新浪高鹏高总的资料支持和写序支持。

传送门

ClickHouse 官 :https://clickhouse.yandex/

ClickHouse 开源项目地址:https://github.com/yandex/ClickHouse

文章知识点与官方知识档案匹配,可进一步学习相关知识MySQL入门技能树首页概览31707 人正在系统学习中 相关资源:速软件,可以加速观看过程_速播放学习-图像处理工具类资源…

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年8月21日
下一篇 2018年8月21日

相关推荐