大数据简介

老师让写大数据计算调研 告,费了半天劲,估计也没人看,拿出来与大家分享一下,希望与大家交流,欢迎批评指正, 告没写完,有些词纯属自造,忘谅解

 

大数据技术调研 告

 

一、大数据背景介绍

“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联 和信息行业的发展而引起人们关注。大数据作为云计算、物联 之后IT行业又一大颠覆性的技术革命。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、互联 世界中的商品物流信息,互联 世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。

   近年来“大数据”这个词成为了人们不得不谈的话题,但这个词太过于抽象,以至于人们似乎说不清这是谁先提出来的。有人说是谷歌团队,有人说是全球知名咨询公司麦肯锡,还有人说上世纪80年代就有未来学家和数据学家提出大数据这个概念了。

    对于大数据的定义,人们同样有不同的看法。大部分人比较认可所谓4V的说法,也就是volume (数据的数量大), velocity (数据处理的速度要快), variety (数据的类型复杂) and Veracity(精确性),只要满足这4个特点的数据处理平台都算是大数据。有一部分人从数据宏观处理的角度来看,认为大数据是指任何形式的用传统的软件不能够在有限时间内很好的处理的数据,这个过程包括了获取,存储,共享,转换,分析,可视化等。有的人认为大数据主要是数据的管理,数据的分析,还有数据的可视化。还有些人认为,大数据就是数据罢了。

    而对于大数据的态度,人们的分歧似乎更大。IT巨头和各大媒体,几乎都对大数据持赞的态度,他们声称,每天都会有大量的数据出现等等,如果使用大数据技术很好的利用这些数据,那么将能够帮助人们生活的更好。而于此恰恰相反的声音是,大数据只是个噱头,只是IT巨头吵出来的概念,以此来向客户销售产品,谋取利益;此外,大数据公司疯狂搜集人们信息也给 会道德等问题带了一定的挑战。

    从计算机科学的角度来说,可以肯定的是,大数据并不是计算机技术层面的概念,查阅相关的文献我们会发现,计算机科学中关于大数据概念的论文少之又少,甚至可以说是没有,由此可知大数据并不是单单一门计算机的技术。个人理解,首先现在的数据确实比以前产生的要快很多,比以前的要多很多,但是大数据并不是在某一天开始剧增让人们开始担心数据太大的,或者某一技术出来之后才能够处理大数据的。所以对大数据的理解要结合具体的情况,每个人对“大”的概念不一样,那么对大数据理解也就不一样。大数据就是一个制约,如果你现在遇到了瓶颈,那么换种技术或者更新一下现有技术也许就能解决你的麻烦,没必要是目前流行的技术,能解决了这个瓶颈的就是大数据技术

    综上所述,大数据并不是一个新的概念,数据自始至终都很大,人们一直都想处理大数据,也掌握了一定的处理大数据的技术,现今的大数据热只是这些技术的普及而已,就像手机开始热卖之前,人们已经掌握了无线通信的技术。

              

 

二、大数据应用现状与前景

  1.大数据的成功应用案例

     洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。

     google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。

     统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

     麻省理工学院利用手机定位数据和交通数据建立城市规划。

            ……..

   2.我国大数据应用的状况

       百度大数据引擎:   向外界提供大数据存储、分析及挖掘的技术能力

       百度地图:    对其道路数据的更新中,率先采用了“大数据道路挖掘”技术,实现了地理  信息领域测绘技术的互联 革命,将对地图底层数据市场带来变局

       百度无人汽车:汽车将在大量数据基础上进行实时定位分析,从而判断行驶方向和速度

       腾讯大数据对当下流行的赛车、卡牌、射击、角色扮演、休闲、策略等六类主流手游付费用户的行为进行了分析

       阿里巴巴对用户浏览记录进行分析并推送广告

       华为推出大数据软硬件一体机

  参考[1]中文献,按照信息处理的流程将大数据处理过程分为数据采集、数据清理、数据存储及管理、数据分析、数据显化,以及产业应用等六个环节。那么我国目前的大数据产业在这六个环节中的现状如下:

环节

现状

数据采集

Google、CISCO 这些传统的IT公司早已经开始部署数据收集的工作淘宝腾讯百度等公司已经收集并存储大量的用户习惯及用户消费行为数据。

数据清理

随着大数据产业分工的不断细化而需求越来越高的环节,除了Intel等老牌IT企业,Teradata、Informatica等专业的数据处理公司呈现了更大的活力。

数据存储及管理

厂商占位角度来分析,IBM、Oracle等老牌的数据存储提供商有明显的既有优势, 而 Apache Software Foundation等新生公司,以开源的战略汇集了行业专精的智慧,成为大数据发展的领军企业

数据分析

传统的数据处理公司SAS及SPSS在数据分析方面有明显的优势。然而,基于开源软件基础构架Hadoop的数据分析公司最近几年呈现爆发性增长

数据的解读

SAP、SAS等数据分析公司在其已有的业务之上加入行业知识成为此环节竞争的佼佼者

数据的显化

 

 

  3.国外大数据应用状况

      IBM为用户提供大数据平台服务

       微软为用户提供大数据平台搭建服务和大数据一体机

       ORacle为用户提供大数据平台搭建服务和大数据一体机

       亚马逊分析用户行为,为用户提供大数据平台服务

       谷歌是大数据的带头人,在大数据的地位无人能动摇

   4.小结

    综上所述,大数据技术目前有两种应用场景。一种应用场景是使用大数据技术来分析数据,其中包括企业数据的自产自销,如淘宝腾讯;此外还包括采集别人数据进行分析,比如百度,还有最近兴起的一些采集微博数据进行與情分析的小公司等。另一种应用场景是为其他公司提供大数据处理平台的技术或硬件,这种业务国内的并不多,主要是国外的IT巨头。

    从大数据的应用状况我们还可以看出,如果我们要做大数据,一般也应该走上面的某一个应用场景。或者为别人提供大数据处理的平台,或者我们有一个良好的数据生产消费的业务流程,使用大数据技术分析数据。         

       

三、大数据技术的介绍

 

  1.简介

     大数据的概念非常抽象,而且人们的看法不一,所以某个大数据的技术纵使非常具体,人们也对这个技术属不属于大数据技术看法不一。不仅如此,人们从不同的角度来看待大数据,大数据技术有那些,如何分类也不相同。

     比如说,按照大数据处理流程来说的话,那么数据采集中爬虫技术,数据分析中的数据挖掘,机器学习,数据展示中的可视化技术都是大数据的范畴;如果按照4个V的定义的话那么大数据技术主要是指分布式运算,分布式存储,NoSql;如果按照大数据是数据管理、数据分析、数据可视化的定义的话,那么大数据技术主要包括了分布式数据库技术,分布式计算,机器学习,数据挖掘等;而如果按照大数据就是数据的定义来说,所有的计算机技术都可以用在处理数据上,它们都是大数据技术。

  2.数据处理分层

     我们将数据处理的过程抽象成三层,从下往上为数据层、计算层、数据分析层。图示如下:

 

 

数据分析层

计算层

数据层

 

 

 

 

 

    我们认为,数据产生之后要首先进入数据层,在数据层对数据进行包装,管理存储为计算层提供使用数据的接口;计算层在数据层之上,数据层怎样定义数据管理数据直接决定了计算层使用怎样的计算模型;而计算模型一旦确定了,就决定了数据分析时使用的算法。

    举个简单的例子,假如我们取得了学生成绩的数据要对它进行排序,在数据层,我们将成绩定义为表的形式,采用关系形数据库的结构,使用行存储技术;那么在计算层,我们使用串行计算的计算模型;在数据处理层使用快速排序算法进行排序。这就是该例子的数据处理中所使用的不同模型。从现实技术来看这个例子,数据层使用oracle,计算层使用windows32单线程,数据处理层的算法使用matlab C++动态链接库。

    3.三层技术简介

     3.1数据层

     数据层的作用是如何存储管理数据,为计算层提供接口。从该层发展的过程来看,早期数据都是由程序员自己管理,写在程序里,用纸带存储;中期出现了文件系统,数据以文件的形式交由文件系统管理,文件系统发展到后来出现了分布式文件系统,文件系统的主要任务是能够正确的存取文件;文件系统之后的数据管理技术是数据库,数据库能描述数据之间的关系,在底层发生变化时上层的逻辑结构不变,降低应用程序研发和维护的成本。数据库在实现的过程中要采用一定的数据模型,数据模型不仅要描述数据本身的特点,而且要描述数据之间的联系。在数据库发展的过程中人们提出了很多的数据模型:有层次模型, 状模型,关系模型,面向对象模型,半结构化模型等,对应目前流行的技术有:key-value, Nosql等;同时有很多种数据存储方法:行存储,列存储,分布式存储等。

 

 

 

 

 

数据层

文件系统

数据库

单机文件系统

分布式文件系统

关系型,行列存储,分布式

分布式 非关系型 (NoSql key-value,document-based )

FAT  NTFS  exFAT Ext*  btrfs ZFS HFS

JFS

 

Lustre、HDFS、MogileFS、FreeNAS、FastDFS、NFS、OpenAFS、MooseFS、pNFS、以及GoogleFS……

Oracle Sqlserver mysql db2 sybase

Access

Big Tabale Cassandra

MongoDB CouchDB

Dynamo LeveIDB HBase

说明:每一个文件系统都是为了某一个目的而被设计出来。它们或者是适合管理普通的文件,或者适合管理日志文件,或者为了提高并发访问效率…..

说明:分布式文件系统能够让文件存储在集群之上,但不同的分布式文件系统的目的却不相同,从而最终能实现的能力也不相同

说明:关系型与非关系型数据库主要区别在是否给定了对象的格式,规定了对象直接的关系。非关系型数据库,根据要存的数据不同,有key-value模型,还有专门存储图的模型,存储xml文件的模型等。分布式主要是为了解决存储的可扩展性,所以不论是关系型数据库还是非关系型都可能实现分布式,也可能不实现分布式。行列存储体现在数据索引查询时的速度不同,关系型与非关系型都可以实现。

 

从上面可以看出传统数据库厂商也实现了列存储、分布式;新型的数据库主要是非关系型数据库技术

 

数据层的任务是存储管理数据,所以凡是数据层的产品都是围绕这个主题实现的。不同的地方在于这些产品针对不同的需求实现的时候会有所不同,他们或者是为了提高并发访问,或者为了提高索引效率,或者为了提高运算速度,将来也许会为了提高某个性能而做出不同的实现。所以没有最好的文件系统,没有最好的数据库,只有适合业务的产品才是最好的。

    3.2.计算层

    单指令单数据流    并行计算(针对不同的需求开发出不同的框架,批处理,流处理,图处    理。。。)

    计算层主要负责的是合理利用数据层不同实现的特点,选择对应的计算模型,也就是解决问题的通用步骤。从计算机问世至今,大部分的程序都是串行计算,遵循了冯诺依曼的方式:程序与数据都存储,一条一条指令的执行(单指令单数据流)。从某种意义上来说,现有的大部分pc机就是实现了冯诺依曼计算模型的机器,现有的单机系统如windows linux mac 就是实现了一个文件系统和冯诺依曼计算模型的框架,在这个框架上,编程的方式是一条一条指令堆积,程序的运行是一条一条指令的运行。

    冯诺依曼计算模型之后是并行计算模型。并行计算模型不像串行计算那样只有冯诺依曼一种计算模型,并行计算目前为止并没有统一的计算模型。这是因为从不同的角度来看,并行计算有不同的侧重点。比如单指令流多数据流(SIMD)和多指令流多数据流(MIMD),在实现过程中是否共享内存,如果不能共享内存是否使用消息传递进行同步,是多核处理器还是多个独立的处理器等等。这就要求并行计算模型要针对不同的需求要设计出不同的方案来。比如CUDA是英伟达提出的同时使用CPU和GPU的并行计算框架的实现,而MPI是一个并行计算的应用程序接口(API),常在超级电脑、电脑簇等非共享内存环境程序设计。

分布式计算严格来说就是并行计算的特例,之所以分布式计算能与并行计算并列我想一部分原因是分布式计算近些年在大型应用中发挥了重要的作用,另一个原因是因为它是并行计算的特例,所以它所针对的问题更加具体。比如针对数据批处理的任务google提出了MapReduce模型,hadoop和google都对该模型进行了实现,为程序员提供了很好的编程框架和平台;针对流处理Storm  S4 StreamBase Hstreaming等都提出了自己处理流数据的分布式计算模型,并实现了该模型,为程序员提供良好的编程框架和平台;同样针对图的处理,当图比较大的时候,比如整个 络的图结构。要计算如此庞大的图,Beyond MapReduce Spark GraphX  Pregel BPGL  Apache Giraph/Hama GPS Distributed GraphLab等也都提出了自己处理流数据的分布式计算模型,并实现了该模型,为程序员提供良好的编程框架和平台。

                     

 

 

计算层

冯诺依曼(单指令单数据流)

并行计算(串行计算) 单指令流多数据流(SIMD)和多指令流多数据流(MIMD)  PRAM模型,BSP模型,LogP模型,C^3模型等

分布式计算(批处理、流处理、图处理….)

现有的大部分程序都是

CUDA MPI OpenMP Fork/Join…

MapReduce Spark Prlter

 

Storm  S4 StreamBase Hstreaming

 

Beyond MapReduce Spark GraphX  Pregel BPGL  Apache Giraph/Hama GPS Distributed GraphLab…….

 

    计算模型建立在数据模型基础上,数据层怎样提供数据那么将适合不同的计算模型来计算。如果数据存储在一台电脑上的文件系统中,那么我们可以使用单线程、多线程、以及GPU+CPU,多核处理器并行运算,但是并不太适合使用分布式计算。因为数据本身在一台机器上,分布式访问数据该机器的带宽将不能满足分布式计算的需要。

          

    3.3数据分析层

 

数据分析层建立在计算模型的基础上,为最终的数据分析提供算法。不同的计算模型将会导致不同的数据分析算法。比如同样是聚类算法k-means,在本机上的算法与分布式下的算法就不同,但最终的结果是相似甚至相同的,它们的目标是一致的:使得聚类的过程收敛,只不过在求解收敛指的时候一个采用了串行的方式,一个采用了并行的方式。

 

 

 

数据处理层

传统的统计、机器学习数据挖掘(分类聚类、监督学习非监督学习、关联规则、自然语言理解、深度机器学习…….)

非分布式

分布式

Libsvm liblinear matlab   Mallet OpenCv Orange  WEKA Shark

Mahout Jubaus  deeplearning4j

               

    4.小结

                  

    综上所述,大数据技术分为三层,自下而上为数据层、计算层、数据分析层。每一层都有自己任务,针对自己不同的任务、目标提出了不同的模型,以此向上层提供不同的服务。大体上这三层的技术包括:文件系统、数据库、串行计算、并行计算、分布式计算、机器学习数据挖掘算法。目前所出现的技术、工具都是在各自不同需求的基础上对其模型的一种实现。没有那一种技术和工具是万能的,能解决所有的问题,关键是在有需求时能分析出问题的瓶颈并提出好的模型或方案去实现。

    大数据,何为大、工具并不是决定大数据的最关键因素,关键是敢于提出以前没有过的需求,以前认为做不到的需求以及以前受制约的需求,然后根据不同的需求提出不同的技术解决方案。

     

             

 

四、大数据解决方案

 

     大数据的解决方案要根据具体的要求而定,从大的方面来说有商业化解决方案与开源框架解决方案。

 

   4.1商业化解决方案

    (1)QlikTech公司解决方案:全球增长最快的商业智能(BI)公司,其旗舰产品 QlikView 提供即时商业答案。它简单易用,并由商业用户自己完全控制。只需轻轻单击几下,便可以通过 QlikView 对所有数据源进行合并、搜索、可视化和分析,从而获得前所未有的商业见解。通过QlikView颠覆性、基于内存分析的 方式,其企业客户获得了前所未有的成功和满意度。同时公司还提供独一无二的“三十天内不满意即退款”保证。QlikTech拥有分布于92个国家的12,000多家客户,以及遍及全球的800多个合作伙伴。

                     成功案例—Esprit

                  

公司描述

全球经营零售商店800余家

公司问题

企业大量分析需求需要快速且准确的解决,优化数据查询速度

客户曾经自主研发,效果不佳

解决方案

QlikTech公司用了3天时间,完成了丛书据抽取,到实施培训的的流程

    此外耐克运动启用Qlikview,实现对耐克运动业务信息进行全方位、多角度数据挖掘,提供企业绩效评价、财务、费用、供应链、投入产出、产品盈利、成本等专业分析及演算数据 告。

   (2)IBM公司解决方案

   IBM 大数据平台- Watson Foundations,专为大数据分析与应用而设计,从数据管理、仓储,到分析、洞察、与优化。其内容主要包括:

       Data Management 数据管理 :助企业整合、简化数据库,以降低管理、存储、开发、与系统成本,同时优化工作负载,以提升数据库的分析能力与速率。

       Data Warehouse 数据仓库 :数据仓库设备能够将数据库、服务器和存储系统集成到一个易于管理的单一设备中,支持更快且更稳定的分析。

       Hadoop System : 将 Hadoop 强大的运算能力应用到企业数据分析、虚拟化、开发、信息安全与管理等领域。

       Stream Computing 流计算 :有效提供信息处理与分析,以支持实时决策。同时,流计算能协助企业以更少的存储需求,分析更多信息,决策更快、更淮确。

       Information Integration & Governance 信息整合管理 :一个综合性、一体化的智能信息整合与治理方法,助企业管理数据、控制风险,发觉值得信赖的信息。

       Watson Foundations是新一代认知计算的平台,今年刚发布,目前已经在零售业有了落地案例。该平台根据客户过往的购买行为,实时预测这个零售客户接下来做什么样的采购,从而让零售业为顾客做出最好的服务。

   (3)其他公司解决方案

    Amazon的AWS平台,提供收集 > 流式传输 > 存储 > RDBMS | 数据仓库 | NoSQL > 分析 > 视觉化 > 存档一站式服务

 

   4.2开源框架解决方案

                 大数据简介

                                          hadoop生态系统图示

                                       

其它hadoop工具介绍:http://www.csdn.net/article/2014-01-01/2817984-13-tools-let-hadoop-fly

                                 http://blog.csdn.net/gobitan/article/details/17229639

                                                                        http://blog.csdn.net/autofei/article/details/6287586

 

 

 

 

 

参考文献:

[1] http://storage.chinabyte.com/435/12720935.shtml

 

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2014年7月12日
下一篇 2014年7月13日

相关推荐