2017年大数据行业盘点:方案落地转向了价值创造

大数据行业盘点:方案落地转向了价值创造

序言

大数据市场,一看厂商软件,二看行业落地应用。新技术的兴起,总是由敏锐的厂商洞察需求、研发新产品和上台宣传,再到用户购买产品,最终技术落地产生实际效果,整个过程往往需要几年时间。 所以,大厂宣传的产品是技术风向标,落地的应用则是目前行业的流行趋势。盘点2017年的大数据市场,笔者也从厂家在宣传什么,行业用户都在做什么为视角筛选出今年让人眼前一亮的产品或技术案例, 期望能帮助大家看清目前大数据行业的技术方向和趋势。

厂商篇

国外厂商忙上云

独立大数据厂商Cloudera今年9月27日宣布与微软合作,将其最新的大数据引擎产品Altus发布到Azure云平台。随着更多的企业把自己的应用从传统数据中心搬到公有云上,大数据软件供应商们也不得不迎合这一趋势把自己的产品也部署到公有云上,从而降低客户因为使用大数据工具而产生的数据迁移成本。
公有云提供商更关注大数据基础服务以外的延伸市场。 云计算市场排名第二的Azure 4月份推出了时序数据库产品Time Series Insight。 该产品合适IOT场景下的应用对于监控设备产生的海量时序数据存储和查询。云计算的领头羊AWS,除了继续宣传其流式大数据引擎Kinesis Firehose外,还在11月的AWS re:Invent大会上发布了针对机器学习的SageMaker平台。它能帮助机器学习专家快速完成大数据清洗,进而能快速构建、训练并托管规模化机器学习模型。

国内关注整合

与技术领先的国外大数据厂商相比,国内厂商的技术能力更多的体现在对开源 区成熟大数据产品的整合,做好控制管理和资源调度已经用户UI上。华为的大数据产品FusionInsight入选Gartner发布的2017年《分析数据管理解决方案(DMSA)魔力四象限研究 告》, 是中国大数据企业的头一次入围。 FusionInsight整合了Hadoop,spark和storm等开源项目,并在户权限和安装部署上跟进国内企业的需求特点进行了很多研发工作。
国内的公有云供应商,也将更多的注意力放到了AI这个和大数据结合的市场上。12 月 13 日,腾讯在“2017互联 +大数据高峰论坛”发布了机器学习基础平台TDinsight从官方的宣传上看,TDinsight自身包含多种算法以及模型,并且支持多源的输入以及输出,TDinsight采用拖拽的方式能够根据不同的算法、模型调度对应不同的机器学习组件(框架),例如:Angel、Spark、TensorFlow、Torch等,完成机器学习整个流程。” 国内市场占有率第一的阿里云,今年10月11日,2017杭州?云栖大会展示了多款和AI相关的软硬件产品。

行业篇

从厂商的宣传来看,AI已毫无争议的取代大数据的成为2017年飞得最高的“猪”。大数据行业的相关厂商在2017年新产品的推出上显得动力不足。毕竟,以2004年谷歌发布关于GFS,Bigtable和Mapreduce三篇论文为起始,大数据已经走过了13年历程,步入成熟期。年轻人爱谈未来, 成年人更爱看实际,大数据项目到了坐下来跟投资人谈回 的时候。令人可喜的是在今年国内行业技术的交流中,大家已不满足于谈项目如何成功的落地,更多的谈到大数据项目给公司带来了多少回 。这代表着大数据从奇酷的新技术逐步走向成熟,进入部署和给企业创造真正价值的阶段。
大数据从应用场景上来讲分为: 营销分析,客户分析, 内部运营管理, 供应链管理。每个细分行业由于业务模式的不同,其应用场景也不同,所以我们把各行业对于大数据应用的进展进行了细分。
大数据技术给企业带来的价值有: 智能决策, 运营效率, 风险管理, 创建收入, 提升客户满意度, 增强生产能力。成功执行和落地一个大数据实现还比较容易的,所以项目给企业带来哪些真正价值是我们关注的重点。

互联 关注实时大数据应用

– 实时大数据

互联 的大数据项目价值主要体现在提升企业运营效率和客户满意度。 今年来自滴滴打车,摩拜还有百度外卖的技术团队都分享了他们大数据系统的一些技术细节。他们共同的业务特点都是为了满足突发区域热点精细化运营的需要,要求技术团队能对大数据系统支撑的运营细化到小时,甚至分钟级别。 今年在互联 行业内刮起了一阵实时大数据之风。
来自滴滴基础平台的罗李在《滴滴实时计算平台在运营监控方面的应用》文章中分享的滴滴实时计算集群架构的业务流程 (图1)最具代表性。集群业务监控的数据来自线上mysql的binlog,通过Kafka对数据进行消费(1)。集群维护了SparkStreaming和Flink两套流计算引擎对binlog数据清洗和计算,部分处理完的数据被放入持久化存储(HDFS)中进行存储,以便后续对其进行离线分析和 表(2,3,4),另外一部分通过Kafka传递给Druid进行实时聚合计算(5)。实时指标从Druid中查询出来后,要么会通过API的方式直接被业务应用程序引用进行逻辑调度,例如 警(7),要么就通过dashboard呈现为实时业务 表和监控供运营和BI团队进行查看(6)。

– 式SQL治理大数据交换

而且随着企业自建大数据平台的不断完善,为了满足不同业务场景而选择了不同的引擎和存储。如何在不同数据引擎之间进行数据交换,成为今年不断被探讨的话题。比如要把Hbase的数据导出到Mysql和ElasticSearch,就要求数据在Hbase中通过Get或者Scan方式获取后,在插入数据前需要了解Mysql和Elasticsearch存储或索引结构,非常不方便。来自百度外卖的梁福坤今年分享了一篇《面向大数据的分布式调度》的文章。介绍了百度技术团队在外卖平台针对数据的交换定义了一套开放式SQL,这个框架对数据引擎的存和取分别作了抽象,在不同的目标大数据引擎中分别做具体的实现支持。

阿里知识图谱的另一作用是 上导购。买家在搜索栏中输入“我要一条漂亮的真丝丝巾”,商品知识图谱就会提取出“一”、“漂亮”、“真丝”、“丝巾”等关键词,并据此帮买家实时搜索到适合的商品。
知识图谱提升了淘宝的运营效率,另外对比传统的依靠用户画定位潜在用户、简单粗暴拉客的传统营销方式,它也极大提升了用户体验。

– 金融

金融服务业一向是国内新IT技术应用的排头兵。2017年9月平安科技推出了智能闪赔产品(图5),在用大数据给AI赋能方面走在了前列。平安科技依靠多年海量真实理赔图片数据作为训练样本,运用机器学习算法智能对车辆外观损失自动判定,图片识别车辆受损部件。只需一键上传照片,秒级完成维修方案定价,识别精度高达90%以上。平安透露,基于“智能闪赔”技术,2017 年上半年平安产险处理车险理赔案件超过 499 万件,客户净推荐值 NPS 高达 82%,智能拦截风险渗漏达 30 亿。

通过广泛搜索互联 中有关疾病的详细 页、资讯、著作等非结构化数据,最终分析沉淀出了一个结构上类似于阿里的知识图谱的经验指标-理化指标-疾病的关系 。在进行病症最终决策时,综合了一系列人工智能VQ、RBF、BP算法的结果进行优化决策。实际应用中系统挂 准确率达到了99%。

该作品通过对歌词的语音分析,给颜色编码,给歌词做注释,来展示押韵结构,帮助用户理解这些押韵之间的关联。这也是非常有启发性的文字分析类大数据结果展现方式。

总结

盘点2017,大数据行业的相关厂商们纷纷把发展重点从大数据基础设施,转向用大数据给其相关行业赋能上。例如在人工智能,IOT物联 等领域,国内外厂商都在发力推出大数据相关的产品。国内大数据的重点从方案落地转向了价值创造。正所谓“躲进小楼成一统,管他冬夏与春秋。” 2017年的大数据没有了往年媒体的喧嚣,反而更显成熟,涌现很多“挽起袖子,加油干”给企业创造出实际的价值标杆应用。行业大数据应用在结合了其他领域的新技术(例如人工智能,非结构化数据分析等)产生了积极的化学变化,在在各行业都取得了可喜的突破。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年2月18日
下一篇 2018年2月18日

相关推荐