高性能数据分析(HPDA)是一个新兴技术,也是HPC的一个主要细分市场,在该领域目前活跃的主要玩家集中在云服务、大数据、存储、服务器和 络领域(像IBM、Fujistu、SGI、甲骨文、惠普企业、谷歌等)。
根据WGR 告显示,推动HPDA市场增长主要动力来自HPC数据密集型应用。在不久的将来,数据密集型业务的加速除了应用于传统的HPC模拟和空间算法外,还将用于电子商务、金融和经济领域。
目前,主要从技术和市场应用2个纬度对HPDA进行分类。
-
按技术细分市场主要分为Graph Analytics、Streaming Analytics、Compute Intensive Analytics和Novel Architectures等。
-
按市场应用细分为Financial Services、Manufacture、Scientific、Energy、Healthcare和Telecommunication等。
根据IDC预测,HPDA带动服务器收入的强劲增长(13.3%复合年增长率),从2012年的7.438亿美元增加到2017年的14亿美元。HPDA存储收入将在今后一年达到8亿美元。然而,HPDA存储增长的技术挑战是数据移动和管理。那么,今天以富士通的HPDA解决方案为主线,详细分析下HPDA参考架构和技术方案。
同时,阐述一种成本效益参考模型,使企业能够利用和利用现有的HPC基础设施有效地运行HPDA工作负载。
高性能数据分析(HPDA)的出现
随着数据爆炸式增长,企业内服务器和存储线性扩变得越来越困难。根据Hyperion预测,到2025年,全球数据空间将增长到163ZB,这是2011年HPC产生数据16.1ZB的10倍。
数据对计算能力的要求包括三个阶段(数据捕获和过滤、分析、结果可视化展示),为了释放大数据的全部潜力,数据规模必须将其与大计算(Big Compute)或HPC配配,让更多的行业可以从大数据和HPC的结合中受益。
任何工作负载需要加速计算和数据密集型工作负载时,都可以使用HPDA体系结构提高生产率,目前来看,HPDA帮助它们在竞争中保持领先的主要行业有:
-
1)电子商务和商业
-
2)天气和气候建模
-
3)传统HPC环境(科学建模、教育研究环节)
高性能数据分析工作负载
根据检索的速度、数据流、数据集、信息输入和输出类型,高性能分析有着不同的类型的工作负载。这些因素的结合决定了获得最佳分析结果所需的工作量和分析过程。
高性能数据分析的流程
在Hadoop等大数据应用上使用HPC资源创建了高性能的数据分析配置。在一个标准的大数据应用工作流中,需要对数据进行收集和分析以获得近实时的洞察。分析等处理信息所需的时间取决于收集数据的速率和处理的复杂性。类似地,在标准的HPC工作流中,数据的收集和合并,也需要基于复杂的数值模型通过并行处理以获得所需的输出。
当HPC和大数据技术合并时,HPDA平台将具有HPC资源在大数据应用程序上运行复杂工作负载、处理和存储大数据集的能力,整个处理流程如下图所示:
Fujitsu的这种方法可以构建敏捷的HPDA系统,结构化和非结构化数据处理都是在HPDA体系结构中完成处理。有效地结合了HPC和数据分析工作负载,从而优化降低客户投入成本。
计算节点是一组灵活的HPC集群节点,其上运行复杂和简单的计算任务。Fujitsu PrimeRay RX2530 1U双处理器服务器是一种最优的计算服务器,它具有很大的灵活性和扩展性,它可以扩展以满足最苛刻的内存需求。
SSD用于计算节点上的本地存储,推荐的SSD大小与内存比为3:1。基于BeeGFS的单个并行文件系统配置了HDFS连接器功能,为HPC和HPDA工作负载提供尽可能好的性能。
基于InfiniBand/Omni-Path的HPC架构的高速互连用于确保节点间通信最大化,对需要持久化存储的数据移动达到了最高的吞吐量。
HPDA通用系统架构
一个共享的HPC和HPDA结合环境,HPDA组件的主要属性是将头节点上的作业提交与批处理系统集成,使HPDA用户能够直接向HPC基础设施提交工作。本地PFS被配置为HDFS兼容文件系统,为HPDA进程提供高速数据访问能力。永久存储层还使用PFS构建,以便HPC和HPDA作业都能够保存长期数据。
这个基准测试运行在Fujistu的Primeflex硬件平台上,该平台由8个计算节点组成,每计算节点包括双路Broadwell处理器和128GB主存。使用的存储设备是标准的400GB Intel SSD,采用8节点服务器构建并行文件系统作为数据存储。
结论和总结
简单地说,针对这些复杂的、时效性高的大数据工作负载,很多传统HPC并行文件系统厂商都提供了HDFD、HDF5等大数据支持选项,Fujistu的HPDA参考架构也是采用类似方案,该方案对现 影响小且投入成本低,是眼下应对HPDA不错的选择。
该HPDA参考模型利用现有的HPC基础设施和资源,在不破坏原有工作负载的情况下,运行Hadoop或启动大数据应用程序以获得这两个方面的最佳效果。
很多政府、商业组织和研究公司认为通过使用HPC资源进行数据分析,每年可以节省数百万美元。Fujistu认为其HPC的集成系统Primeflex提供了一个理想的可伸缩解决方案,可以将HPC和数据分析工作负载结合到一个HPC基础设施上。
关于高性能计算技术,前期详细总结分享过高性能计算(HPC)技术、方案和行业全面解析>电子书,请点击原文链接查阅详情。
温馨提示:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!