全球最牛的28个大数据可视化应用案例(四)财富之冠/ 区之树

随着大数据在人们工作及日常生活中的应用,大数据可视化也改变着人类的对信息的阅读和理解方式。从百度迁徙到谷歌流感趋势,再到阿里云推出县域经济可视化产品,大数据技术和大数据可视化都是幕后的英雄。今天,我们将连载由Teradata独家提供的来自全球28个大数据可视化应用案例第四部分。

全球最牛的28个大数据可视化应用案例(三)资金喷泉/担保圈毒刺/

连载:全球最牛的28个大数据可视化应用案例(二)荆棘之冠/欺诈入侵者/风暴之眼

连载:全球最牛的28个大数据可视化应用案例(一)

接第三篇:

二十、查询系列

关于洞察

这些圆点(节点)代表着存在数据仓库中的表格,而这些线则代表在一个SQL命令中同时使用了两个表格,它们共同展示了一项查询工作对于两个相互关联的表格的依赖性。这张可视化图表的中心是一些高度相关的表格,它们中的大部分是查询表(也称做维度),常常与其他数据表联合使用,并为它们提供额外的描述和背景信息。大量用户使用这些查询命令来获取这些查询表格和其他表格,这十分契合于整合数据仓库。

同时,这张可视化图表强调了两组十分紧密联结的表格,每一组都代表服务于一个业务运用的表格组。所以这些表格组经常同时被不同的业务运用查询。

在图表的边缘有众多与其他表格有着少量联系的表格,相对来说它们不怎么经常被用到,而当被查询到时,它们通常以孤立的形式存在。所以这些表格(及它们组成的工作)可以从主要的数据仓库中转移出来,而放到一个相对“冷门”、在高性能磁盘上花费更少、处理能力相对较弱的平台上。

分析方法

这个西格玛可视化图表是用Teradata Aster平台生成的,它展示了对DBQL中的SQL命令的分析。这些分析针对“选择”命令,命令的对象为保存在数据仓库中的查询表格或视图。

数据库中的表格和视图在数据集里以节点的形式存在。如果一个SQL命令中同时调取了两个表格或视图,那么两个节点之间就会建立起链接。这形成了创建图表的基础,描述了表格间的依存性。

在使用协同过滤技术和可视化西格玛图表展示表格中的数据集时,可能会发现被包含于孤立的工作中的表格组,它们相对来说不经常被查询到。所以,这些表格组会被建议归为“将卸载”的,方便负责管理不同平台上数据集的IT人员的工作。

Yasmeen Ahmad

二十二、Stars and Stripes

关于洞察

我们把在美国执行的临床药物试验收集到的结果资料视觉化成图表。药物试验通常非常复杂且牵涉了在长时间累积的资料。

试验通常涉入不止一人,病人会被分成许多队伍。每一队会有不同的特性,比如特别的用药顺序。结果会有大量的资料包含不同的试验药物以及观察到的结果。我们将资料视觉化来寻找试验药物及负面副作用之间的关连性。

图表上的四个星星呈现出同一个药物试验资料利用不同视觉化方式所得的结果。每五个形成星星的点都表示一种药物或药物变种在试验中施用在队伍中每个病人。在中间的点代表病人体验到的一种不希望有的副作用。不同药物及副作用间的连结用线条来表示。

我们现在可以轻易的观察到在星星外围的每一种药物与在中间的副作用之间的连结。这里也呈现四种不同的视觉化变形。每一个在不同物件的过滤器都标记了一个特别的发现。举例来说,某种负面副作用及一种药物之间的连结或在五种药物试验及副作用之间使用颜色来强调连结的强度。

分析方法

这份资料较复杂且在使用图表工具软体之前涉入需多处理步骤。首先,利用 站clinicaltrials.gov 的工具下载其上的 告。下载的档案格式为XML,在分析之前这些XML 档案需要经过Teradata Aster MapReduce 函数作前处理。根据文字探勘(Text Mining) 函数从 告中撷取关于特别药物的副作用名字,使得点跟线的资讯可以在关联式表格中建立。从表格中储存的资讯就可以画出图表以及计算出不同的量测资讯。在处理资料遇到的挑战有异常值(outlier) 及遗漏值(missing value)。

有这四种呈现方式使得我们可以在资料中看到不同的重要的模式。线的颜色跟药物及副作用之间的连结强度有关。这些资料发布在公开 域并且可以从clinicaltrial.gov 及FDA.gov 取得。

Christopher Hillman (连载第二篇有介绍)

二十一、单一麦芽取样员

关于洞察

你的分析能彻底地简化错综复杂的事物吗?能根本区分出细微的差别吗?能完全理清苏格兰威士忌长达700多年的历史吗?凯拉什.普让说:可以,只要将苏格兰威士忌大师的专业味觉武装上他的数据集就行。

他的视觉化将86种单一麦芽威士忌品牌按12种风味特征分成了若干风味群组,例如香甜味、烟熏味、蜂蜜味和果仁味。通过简单的图像形式展示,我们都可以了解到在各种各样的单一麦芽威士忌品牌之间有何异同。

每一个点(或节点)代表一个单一麦芽威士忌的品牌。每条线(或边界)代表威士忌间相似性程度,线条越粗越暗,威士忌的风味就越相似。因此相似味道的单一麦芽威士忌的自然集群形式会更加紧密、更高度地相互联系。

这种分析方法可以适用于食品科学研究。它可以与市场份额和市场配置文件数据相匹配,开创新口味风格,旨在吸引高价值部分,或重新定位现有的品牌,引进新的领域。它还能为酒吧或者零售商提供备忘单,当一位客人最喜欢的单一麦芽威士忌品牌没有事,他们能够立即获得专业知识,向顾客推荐新的品牌或替代品牌。

这种分析还能为每天的消费者提供一种有趣的方法,去探索一个非常复杂的话题。如果你喜欢一种品牌的威士忌味道,现在你可以尝试其他味道相似的品牌,或者去探索其他完全不同味道的品牌。不论哪种方式,你都必将拥有一个无与伦比的美好夜晚。

干杯,凯拉什!酒吧见吧?

分析方法

这个Teradata Aster 可视化是Aster Lens生成图像的成像代表。它使用了斯特拉思.克莱德大学的威士忌分类开放数据集,包含了86中单一麦芽威士忌品牌、12个专家评定的风味特征,以及这些威士忌厂家的地理坐标信息。

它使用余弦相似性将不同风味的威士忌进行分组,并配合一些没有固定风味特征的单一麦芽威士忌形成的零散数据。例如,有些单一麦芽威士忌没有香味或没有药味,这就会产生很多零风味的评级。这些零风味评级数据的增加很可能成为影响数据集群的一个决定性因素,而余弦相似性则能很好的处理这些数据。

Aster Lens可视化是利用Teradata Aster 的挖掘算法功能(GraphGen)创造出来的。同等大小的节点代表着同等重量的不同单一麦芽威士忌,其连接程度代表其相似性大小。

Kailash Purang (此系列文章连载第二篇有介绍)

二十三、财富之冠(其一)

关于洞察

境外汇款是一项收费的金融服务,这类服务对金融机构来说相当重要,因为它们意味着无风险的收入。

因为有一部分的费用是针对转入/转出活动进行征收的,这就意味着针对“谁将在哪里向什么人汇多少金额的款项”进行预测将成为确定销售和营销活动的关键步骤,有效地吸引交易双方并有效地增加汇款客户数量。

凭借着这个思想,这幅图表阐释了转账时资金的转移过程:某行客户向其它客户转账时,交易过程中要经过往来银行,最终才能到达目标银行,送到收款人的账户中。人气更高的往来银行在图中被标记为较大的绿色圆点,而接收款项的小银行则是较小的白色圆点;白色的线表示资金从机构客户流出,绿色的线则表示资金流回银行客户。

这张图表帮助银行了解并放大观察价值链的关键部分,它突出显示了使用往来银行作为汇款交易参与方的银行客户,并显示出这些客户进行转账的地点和频率。我们的客户是一家跨国银行,在全世界均有业务分布,但主要关注东盟高增长的那些经济体。他们把高价值目标定为他们进行了运营但是没能使整个交易的资金和费用都保持在集团内部的国家。

进一步对图中的白点(客户)进行研究,可以发现交易之间的关系,它们会形成海外支行 络、紧密联系或相关的公司 络、或者是买方和供应商的 络。通过发现这些联系紧密的公司群并研究它们的运营领域,我们的客户可以判断每个客户的重要性,并由此在当地或跨区域地向他们提供恰当并具有战略意义的营销和销售活动。

分析方法

这张Teradata Aster可视化图表是Aster Lens产出图表中Gephi图的范本。这张图表利用了客户的转账数据,转账金额超过25万美元。

Aster的协同过滤功能过去被用来确认交易参与方之间关系的深度和强度,而现在利用Aster Lens的Cfilterviz功能,这一部分功能实现了可视化。

图中圆点的大小代表交易参与方介入类似交易的数量,连线的粗细表示连线双方进行类似交易的数量。所以处于众多交易之中的往来银行成为了较大的节点,而其他的点则比较小。

Kailash Purang(同上)

二十四、财富之冠(其二)

关于洞察

境外汇款是一项收费的金融服务,这类服务对金融机构来说相当重要,因为它们意味着无风险的收入。

因为有一部分的费用是针对转入/转出活动进行征收的,这就意味着针对“谁将在哪里向什么人汇多少金额的款项”进行预测将成为确定销售和营销活动的关键步骤,有效地吸引交易双方并有效地增加汇款客户数量。

凭借着这个思想,这幅图表阐释了转账时资金的转移过程:某行客户向其它客户转账时,交易过程中要经过往来银行,最终才能到达目标银行,送到收款人的账户中。人气更高的往来银行在图中被标记为较大的绿色圆点,而接收款项的小银行则是较小的白色圆点;白色的线表示资金从机构客户流出,绿色的线则表示资金流回银行客户。

这张图表帮助银行了解并放大观察价值链的关键部分,它突出显示了使用往来银行作为汇款交易参与方的银行客户,并显示出这些客户进行转账的地点和频率。我们的客户是一家跨国银行,在全世界均有业务分布,但主要关注东盟高增长的那些经济体。他们把高价值目标定为他们进行了运营但是没能使整个交易的资金和费用都保持在集团内部的国家。

进一步对图中的白点(客户)进行研究,可以发现交易之间的关系,它们会形成海外支行 络、紧密联系或相关的公司 络、或者是买方和供应商的 络。通过发现这些联系紧密的公司群并研究它们的运营领域,我们的客户可以判断每个客户的重要性,并由此在当地或跨区域地向他们提供恰当并具有战略意义的营销和销售活动。

分析方法

这张Teradata Aster可视化图表是Aster Lens产出图表中Gephi图的范本。这张图表利用了客户的转账数据,转账金额超过25万美元。

Aster的协同过滤功能过去被用来确认交易参与方之间关系的深度和强度,而现在利用Aster Lens的Cfilterviz功能,这一部分功能实现了可视化。

图中圆点的大小代表交易参与方介入类似交易的数量,连线的粗细表示连线双方进行类似交易的数量。所以处于众多交易之中的往来银行成为了较大的节点,而其他的点则比较小。

Kailash Purang(同上)

二十五、叶子

关于洞察

“叶子”融合了现实生活中的图像与数据可视化生动展示了未来的分析方向。随着在图形和速度的技术改进及资料视觉化的方便化,一种新兴形式是使用现实生活中的图像取代传统的图表。

这样的影响是巨大的。这种令人难忘的技术图表并使用真实生活图像使得图表可以很容易地被任何人接受,即使是很小的孩子也可以看懂。营销人员可以运用现实生活经验来陈述产品的好处。例如,通过使用他们的农场的真实生活的图像与不同的作物生长,他们可以具体表达农民肥料和化学防护剂的好处,比起从传统的图表这样的一个销售信息具有显著的效果。

Kailash Purang 在“叶子” 图像使用的“单一麦芽采样”数据集。在该图中,形成了叶片的脊柱的点(节点)是威士忌品牌,类似口味的威士忌会接近在一起。每个品牌链接到其他品牌的线(边缘),它们有一样的口味特征。其结果是这个近乎完美的树叶图像。

因此,“叶子图”就是Kevin Slavin指的是在他在TED谈论由算法运行的世界- 这鼓励我们从现代的观点去思考有关数据和数学。

(如果你对TED演讲有兴趣,您可以通过扫描QR码与您的移动设备观看)

分析方法

数据集是从Teradata Aster Lens环境提取出并且用Gephi处理;一个开放软体的工具,用于可视化数据分析和探索。

“叶子”适用于径向轴线分布,从圆形辐射分布线性轴的节点。对轴线上的节点分组和排序沿着图形(叶)的直线中心产生节点。节点和弯曲的边绘制出叶子,然后由节点到边之间施加一个绿色的颜色渐层。“叶子”就显示在画面的右下角。

由数据可视化产生的叶子会使用Photoshop跟现实世界的植物照片结合。这让我们看到真实叶子的生命在数位叶子旁边出现。

Alexander Heidl

Alexander 是一个分析的艺术(The Art Of Analytics)的前期贡献者。他有一个异常强大的设计眼搭配熟练的技术来操作复杂的分析图像来洞察资料。 Alexander是分析的艺术(The Art Of Analytics)监制并与Teradata的数据科学家共同的工作。他擅长操纵Aster Lens和Gephi产生高品质、高水准的’艺术’的集合。

Alexander目前住苏黎世,在法兰克福、德国附近长大,从伦敦金斯顿大学毕业。

不久后,他开始了他的分析职业生涯,在不同行业和地理区域作为一个商业智能项目经理。在此期间,Alexander发现不同的视觉形象可以具备有效沟通信息的能力。

特别是,当需要和各式各样的客户接触,无论是组织结构,专业知识水平和语言表达能力;他发现,图片和可视化都有助于形成众人的共同理解。因此,Alexander很早就对不同的视觉元素结构及样式的重要性感兴趣。

今天,Alexander正在瑞士的Teradata作为一个跨行业的客户经理,协助各式各样的客户并寻找前景。他对视觉表现的激情发挥在他目前的工作,并与他的客户分享复杂的观念与分析见解。

二十六、星门

关于洞察

Peter Wang的“星门”是在打击 络欺诈、骇客和 路攻击的持续和复杂的战争中的“分析防卫武器”。

匿名可视化是在台湾完成的一系列用于分析电信客户端阻止恶意 络攻击。

“星门”的目的是发现并阻止黑暗的力量在 络世界滋长- APT攻击。进阶持续威胁(APT)是一组隐身和连续的计算机骇客过程,往往是由人们策划针对特定的实体。 APT通常针对组织和/或国家的商业或政治动机,也用于欺诈和犯罪目的。

可视化使用的2300名员工一年的互联 使用的 络日志。它跟踪每个用户的 络浏览活动然后找出恶意行为的原点的详细用法路径。

每个点(节点)表示由用户访问的 页。每行(或边缘)表示从其他 页到另一 页的路径。线的粗细大小代表访问时的时间,节点的大小代表我们计算 页的128种性质,如类别、信誉评分、访问次数、 页内容和数据包的生存时间(TTL)值。

在“星门”中心的高度连接的节点越大表示那些没有装备安全防御软件或防火墙阻止恶意行为的高风险的 站。我们也可以看到他们连接到其他 站,这可能代表了高风险。周围外侧的节点是低风险的 站。

从此发现我可以提升安全机制使得从根本上减少恶意活动的量。

分析方法

此分析使用Teradata Aster 及 Aster Lens。这个可视化使用了电信客户的安全日志并用Aster 及Gephi生成图表。它涵盖了超过2300位员工的一年时间的安全日志数据。

Peter Wang

Peter Wang是Teradata的创新中国数据科学家的重要团队成员并为银行和电信开创了新的分析技术。

Peter是一名Teradata的资深大数据顾问于大中国区的大数据COE。他在OSS超过20年的电信行业经验,主要在信 分析和 络安全分析领域。

Peter 住在台湾且在整个大中国区的工作,帮助银行和电信公司从解锁大数据的价值。他在大数据目前的角色之前,他是台湾Teradata 的行业顾问。在更之前他在台湾一家大型电信领导者远传担任OSS经理。

二十七、Trapping Anomalies

关于洞察

这个可视化显示由保险公司发现的异常行为经纪人。透过其中的数据图表凸显了当有图形呈现这些连接后异常变得显而易见。

点(节点)代表的是使用由保险公司提供了一个平台经纪人创建 价。节点之间的联系表明相关联的 价,即券商用以前生成的 价(点)做一些改变后创建一个新的 价(链接的节点)。

典型的经纪行为表明一旦经纪人已经产生了 价,就只会有存取或如果 价寿命结束前决定刷新 价。这两个集群在中心(红色)描绘出异常行为,其中一个经纪人在更新少量的属性后不断改变和改回 价。这表明这个经纪人在测试保险公司的系统,试图了解定价引擎的工作原理,这是不欢迎的行为和滥用保险公司的系统。

这一分析的目的是确定保险公司的经纪人是如何的使用制度和理解积极经纪人的行为提升产品的销售。这样做的目的是了解系统如何改进,以支持券商和提供更好的体验,以及支持保险公司的业务,并且可以教育业绩较不好的经纪人。这个欺诈性的发现是这种分析的副产品。保险公司可以使用这种视觉化作为证据来跟经纪人作后续的谈话。

分析方法

这种西格玛可视化描绘从保险公司为他们的经纪人提供的平台的数据进行分析。这个系统将记录由所述平台上的代理进行的所有操作。

分析的初始部分涉及身份查验工作的平台和匹配经纪人的会话到一个特定的经纪人和客户。在这些会议上该分析侧重于记录由经纪人平台 价相关的行动。这些行动被抓获并建模为节点。

每个节点代表了不同的会话客户所产生的 价。节点之间创建链接如果经纪人读取相同的 价并生成一个刷新的 价。图表分析找出由高度互连节点形成的两个异常大的不正常集群。

Yasmeen Ahmad(本系列文章第三篇有介绍)

二十八、Branch 区之树

关于洞察

这张可视化图表被用于帮助开发和分析Qlik的开源程序员 区Branch,这个 区被设计成为一个互动性开放式的探索导航平台,而这个新的应用使得访客得以发现关于 站中用户、项目和它们之间关系的新含义。这张图表可以用来理解这个 络 区的 会动态,也能了解每个个体用户的行为。为了加深理解、获取洞察,关于相似性、类目、浏览量、评论和公司的元数据都被反映在这张图表中。

图中的圆点代表不同的项目,其大小代表浏览量的多少,这使得我们可以方便快速地发现那些最受欢迎的项目。节点还反映了项目的参与者及评论的多少,使我们能够直观地看到不同项目中合作程度的高低。图中的圆点按照产品类目进行聚合并着色;圆点之间的连线则代表项目之间就相似程度和用户群的联系。

图中最大的两个点集标识了Qlik 区对于可视化拓展的关注;此外还有七个中等大小、五个小型的点集,向我们展示了这个 区的发展空间。浅蓝色的线条连接着每个类目中的相似项目以及Qlik的两个主要可视化类目;绿色的连线给出了一个令人惊讶的信息:大多数贡献者倾向于跨越整个产品谱系开发项目,这也印证了Qlik分析平台的威力。

分析方法

这张 络可视图利用Qlik Sense生成。图中数据利用Kimono APIs从Qlik Branch 站中收集,并被存到Sense的储存器中。图中的分析主要关注哪些是已经公开的信息,之后也许会整合其他的 络分析技术。

这张可视化图表利用到了HTML, Javascript, CSS和高人气的D3.js数据驱动可视化库。最初的图层基于把相似项目拉到一起的力导向图;为了按类目进行项目分类,之后又增强了聚合力图层;最后再利用Danny Holten的分层边缘捆绑算法画出连线。我们将来计划开始利用Teradata Aster的K最近邻聚类、朴素贝叶斯分类器等功能,创造更多关于这个数据集的洞察。这张图表依然保持着与新用户活动的互动,并每天进行更新。

Qlik公司Todd Margolis

——————————————————

本系列连载文章到此也就结束了,感谢Teradata公司带来这么精彩的数据可视化案例。目前,Teradata已在36大数据开通的企业专区.

End.

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年1月15日
下一篇 2016年1月15日

相关推荐