当航线、就业、保险的数据分析过程遇上可视化

摘要:数据分析在多数人看来是个与数据打交道的枯燥过程,但是,当它遇到可视化的时候,这些数字也能迸发出艺术感和色彩。分析过程可视化图在数据分析中具有广泛的应用。

本文将展示Teradata利用Teradata Aster对不同行业数据分析过程的可视化图,你可能无法想象,航线数据分析可以变换成绚烂的星云、保险索赔和欺诈保险索赔之间的联系在可视化图表中变成了花丛一般的“秘密花园”、而中国大型企业之间的资金流动量的关系则幻化成了一团烟花。

◆ ◆ ◆

航线星云

l 关于洞察

图中世界上不同航空公司看起来就像一个美丽的星云(国际星云的组成部分)。同种颜色的圆点和粗线提供了见解,它们代表提供相同航线的航空公司,显示出它们之间的竞争以及在不同区域间的潜在合作。

这张基于数据可视化的Sigma图表显示了相同城市中航空公司的相似性。图中的圆点或圆圈代表航空公司,连线的粗细和远近则反映两个航空公司之间的相似性;连线越粗或越短则代表两家公司服务的城市越相似。图表中有几组航空公司,直观地表现了它们所服务的地理区域。

这张图表中的关键洞察是航空公司之间的相似性,甚至是重叠,显示出这些公司之间的竞争关系。它们是中国的南航和东航、阿联酋航空和卡塔尔航空、英航和汉莎航空、美航和达美航空。瑞安航空服务的城市与汉莎航空和英航存在潜在协同,占据了一个利基市场;比起意大利或汉莎等其他的欧洲航司,法国航空则与美联航等美国航空公司更为相似,这也许可以解释为联合品牌效应。本质上说,这是一张多维的韦恩图,用一种简明扼要的方式揭示了不同主体间的复杂关系。

总的来说,这张图表揭示了不同航司之间的相似性和竞争情况,有利于发掘潜在的合作关系、增加市场份额和市场覆盖面。这项技术可以通过不同参与者之间的相同变量,用于分析任何生态系统。

l 分析技术

这张可视化图表是通过Aster App Center生成,运用到了关联挖掘的分析技术,研究上下文中各条目的共现关系。其中关联挖掘的算法是协同过滤(Collaborative Filtering),它作用于航线和城市数据,并将数据当作零售篮子数据。也就是说,篮子代表城市,而航空公司则是条目。两个航司之间的相似性由相似性得分确定,计分的原则是比较各个航司独有的航线以及同时运营的航线。之后再将这些成对的相似性得分当作连线的权重,再把各个航司当做节点,共同输入可视化模型中,运用具有模块上色技术的force-atlas算法,最终生成出这张美丽的图表。

作者:Karthik Guruswamy Teradata美洲大数据和高级分析实践的资深顾问。帮助Teradata客户完全实现数据驱动业务,并利用先进的算法来实现降低运营成本。

◆ ◆ ◆

就业的耀斑

l 关于洞察

这张可视化分析图表反映了就业服务供应商对雇主的收费。图中“喷发”出射线束的点代表服务供应商,外围的点则代表雇主,它们之间的连线表示两者之间的关系,连线的粗细和收费的高低成正比。

这张可视化分析图表可被用于观察服务供应商和雇主之间的关系。服务供应商帮助人们寻找合适的工作岗位,同时也不断地为求职者提供维持工作的帮助。为了向每个求职者高效地提供定制化而灵活的服务,服务供应商通常需要跟众多雇主保持良好的关系。

本张图表还能检测到非寻常的联系,例如:

某一组单独的服务供应商同多家雇主存在连接,但是连接网络却和图中其他的参与者不同

某家供应商只和一家雇主存在关系

服务供应商同时也是雇主

澳大利亚就业部是负责监管各类就业服务,并将结果提供给澳大利亚政府。服务供应商负责与当地雇主和注册的培训机构联络,为求职者提供合适的服务组合。绘制这张图表的目的是调查现有收费中重要,但是不符合体系规定的那一类。

l 分析方法

这张可视化图表是使用Teradata Aster Lens生成的网状图。图中的收费数据来自就业部,在导入Teradata Aster探索平台之后这些数据被进行分类,并且按时间、地点、种类分别测试了准确性;之后再进行纵向分析,检查流程和事件异常。这张网状图可用于监察合谋的模型,可以快速查看服务供应商向雇主收费金额的多少。

还可以跨越不同的时段与这系列的可视化分析图表进行比较,观察网络中是否出现了新的孤岛或合谋模型。

作者:Tatiana Bokareva Teradata澳大利亚和新西兰地区高级分析数据科学家。主要负责的数据挖掘、分析和快速的分析非结构化数据、半结构化数据等分析工作。

◆ ◆ ◆

欺诈入侵者

l 关于洞察

此分析是一种检测潜在保险索赔诈骗的快速方法。可疑的索赔就像外星人侵略一个星球,或虫子细菌感染一个纯细胞。

这个数据可视化分析显示了所有正当保险索赔和欺诈保险索赔之间的联系。图像中每个点(或节点)代表一个单个的保险索赔,因此整个圈就代表每个索赔。大的节点是那些已经调查过并被发现是欺诈的索赔。较小的节点是正当索赔和那些没有被调查过的索赔,因此它们可真可假。节点间的线(或边界)显示出各索赔之间的联系。它可能是重复使用同样的电话号码、地址、银行账号信息、电子邮箱地址和注册信息等。节点间的线越粗,意味着节点之间联系越紧密,像电子邮箱、地址和电话等信息重复越多,进而索赔则越可疑。

从分析中我们现在可以很容易的找出潜在的索赔诈骗,能够迅速把所有未调查的、却与欺诈索赔高度关联的索赔隔离出来。最终输出的是一项索赔列表,其关联指出其欺诈的嫌疑,这些索赔会被送入欺诈调查部门进行仔细调查,这样就带来了极高的成功率。

l 分析方法

这一可视化图表利用Teradata Aster及Aster Lens 创建而成。它使用详细的索赔数据,通常意味着数百GB到数TB的数据,以及来自呼叫中心机构的关于处理索赔的文本数据。该数据通过加载到Teradata Aster数据库进行分析使用。

保单号码可帮助我们将呼叫中心机构的文本数据和索赔数据联系起来。但寻找共同的或重复的联系非常困难,因为它们通常是以文本形式存在的。大多数详细的关联数据也是从文本中获取的,利用原生的Aster文本挖掘功能,如命名实体识别(Named Entity Recognition)算法,查出索赔形式和呼叫中心的指示。输出的信息不仅可被用来确定任意2个索赔间可能发现的重复数据,还可创建一个基于节点和边缘的表格。使用Aster Lens 和 ForceAtlas2显示算法可将其具象成图表。

作者:Christopher Hillman Teradata 的高级分析团队担任首席数据科学家。他帮助客户洞察资料中的价值并且了解MapReduce 或SQL 作为合适的技术。

◆ ◆ ◆

资金喷泉

l 关于洞察

这个匿名的可视化分析,分析了一系列中国大型企业之间的资金流动量的关系,而这是一家中国大型银行的企业银行业务的风险分析项目之一。分析使用转账交易数据以了解风险和发现市场机会。

此图中点(节点)代表公司。线(边缘)代表两家公司之间的资金转移。箭头,显示资金的流向。

图表显示了不同公司之间的所有资金流动。我们可以将映射通过2、3和4 的后续交易,如绿色公司了解上游供应链的流动和对彼此相互依赖性的公司。

若要管理风险,银行需要识别高度相互依存的公司。允许银行确定关键的公司在供应链和独立交叉检查公司的现金流来验证其资金的健康状况。

这张图有助于识别欺诈。银行可以检查公司真正的商业活动,并验证借出的资金使用的目的。同时,有助于市场营销,显示了银行服务方面的差距,能够为现有的客户在融资、清算、风险管理等更广泛的金融服务提供更高的价值。

l 关于分析

这种分析使用了Teradata Aster和Aster Lens。装载的交易数据是非常大的,涵盖超过 670,000 家公司的 60,802,990条记录。公司记录包含行业分类代码,可以更好地理解他们的业务活动。这张图包括PageRank是用于选择顶级32个重要客户,并包括所有相关的交易,相关方总交易将大于或等于人民币 70 万元。

作者:石棋玲Teradata中国高级顾问,是Aster & Hadoop 大数据卓越 (COE)中心的一名成员,也是在中国尝试使用高强度超级图形方法的大规模风险分析的数据科学家先驱团队的一员。为企业级客户提供创新内容,如"资金喷泉"就是创新工作中的其中一个,旨在帮助消除金融系统中的风险。

◆ ◆ ◆

担保圈焰火

l 关于洞察

“担保圈焰火”展现了某家银行和汽车厂商、4S店以及个人客户之间建立的担保关系网络。

在这个匿名的图形中,点代表车贷客户或者车贷担保人,线代表担保人和被担保人的担保关系。不同颜色用来区分相应的担保网络。

图形中的这些绽放的焰火,我们很容易看到黄色、蓝色和紫色的群体。在这其中,几个担保人为很多贷款提供担保。这些担保人有的是汽车制造商或者经销商的下属机构或者VIP客户。而有些情况,如蓝色和紫色群体,是不同的相关实体作为担保人,这样就很难发现总体的风险暴露。

银行可以针对这些风险暴露采取措施。例如,银行首先要做的是防止多米诺效应。很多情况下,这些汽车厂商和4S店也是该银行的高价值、低风险客户,银行出于维护客户关系,扩大业务范围,提高客户黏度,为此办理车贷业务,但相应的车贷风险还是要做好监控和管理。

l 分析方法

这个图形展示了在Teradata Aster上借助Aster Lens创建的西格玛图形,所用的数据源包含担保人企业ID、担保合同信息、担保金额、企业信用评级等。应用社交媒体分析以发现有影响力的客户和识别担保模式。分析函数包括:betweenness、degrees、PageRank、modularity、eigenvector、centrality和local clustering coefficient等。

作者:张玉瑞Teradata天睿公司大中华区大数据事业部华东区高级顾问,也是Teradata中国区数据科学家团队的重要成员,致力于帮助客户运用大数据分析手段来解决风险管理和市场营销等方面的业务问题。

◆ ◆ ◆

担保圈之谜

l 关于洞察

“担保圈之谜”揭示了房地产开发行业所产生的潜在风险。首先房地产公司是银行的重要客户,开发住宅需要银行的资金支持,房屋建成后,银行给购房者提供住房抵押贷款,延伸和拓展了银行业务,帮助房地产公司销售产品。

从银行的角度来看,每笔房贷是按照购房者的资质来审批。每个人的房贷,如果由房地产公司担保,本身的风险并不大,但如果房地产公司为很多人提供担保,很可能是房子没有卖出去,制造一种虚假销售,套取银行贷款,这样的风险就要严加防范。

这个匿名的图形让银行看清房地产开发商和房贷客户的担保关系。每个点代表房地产开发商或者房贷客户。线是房地产开发商和房贷客户之间的担保贷款。不同颜色可以区分不同担保网络。你会看到一些房地产开发商为大量的客户提供贷款的担保。

“担保圈之谜”让银行展现和监控风险暴露的规模和真实的特性。银行可以对高风险客户采取措施,这些措施包含收紧贷款审批,甚至可以拒绝贷款。

l 分析方法

这个图形展示了在Teradata Aster上利用Aster Lens创建的西格玛图形,所用的数据源包含担保人企业ID、担保合同信息、担保金额、企业信用评级等。应用社交媒体分析以发现有影响力的客户和识别担保模式。分析函数包括:betweenness、degrees、PageRank、modularity、eigenvector centrality和local clustering coefficient等。

作者:张玉瑞 同五、担保圈焰火

◆ ◆ ◆

查询星座

l 关于洞察

这张可视化分析图表显示的是一个分析的过程,其分析的对象是一家英国的银行的Teradata整合数据仓库(IDW)的数据库查询记录(DBQL)。DBQL描述了SQL命令(查询),这些命令是操作者为了能够检索到数据仓库的表格中存放的数据而发出的。这一分析过程的目的是通过查询识别出表格的使用情况,区分出“冷”和“热”的数据组,并把较低利用率的数据组和孤立的工作负载在仓库平台中设定为“卸载”资产。

这些圆点(节点)代表存在数据仓库中的表格,而这些线则代表在一个SQL命令中同时使用了两个表格,它们共同展示了一项查询工作对于两个相互关联的表格的依赖性。这张可视化图表的中心是一些高度相关的表格,它们中的大部分是查询表(也称作维度),常常与其他数据表联合使用,并为它们提供额外的描述和背景信息。大量用户使用这些查询命令来获取这些查询表格和其他表格,这十分契合于整合数据仓库。

同时,这张可视化图表强调了两组十分紧密联结的表格,每一组都代表服务于一个业务运用的表格组。所以,这些表格组经常同时被不同的业务运用查询。

在图表的边缘有众多与其他表格有着少量联系的表格,相对来说它们不怎么经常被用到,而当被查询到时,它们通常以孤立的形式存在。所以这些表格(及它们组成的工作)可以从主要的数据仓库中转移出来,放到一个相对更“冷”、在高性能磁盘上花费更少、处理能力相对较弱的平台上。

l 分析方法

这个西格玛可视化分析图表是用Teradata Aster生成的,它展示了对DBQL中的SQL命令的分析。这些分析针对“选择”命令,命令的对象为保存在数据仓库中的查询表格或视图。

数据库中的表格和视图在数据集里以节点的形式存在。如果一个SQL命令中同时调取了两个表格或视图,那么两个节点之间就会建立起链接。这形成了创建图表的基础,描述了表格间的依存性。

在使用协同过滤技术和可视化西格玛图表展示表格中的数据集时,可能会发现被包含于孤立的工作中的表格组,它们相对来说不经常被查询到。所以,这些表格组会被建议归为“卸载”的,方便负责管理不同平台上数据集的IT人员的工作。

作者:Yasmeen Ahmad Teradata最有创意并富有洞察力的数据科学家之一。善于使用各种分析方法,包括文本分析、预测建模、归属策略开发和时间序列分析等。

◆ ◆ ◆

单一麦芽采样

l 关于洞察

你的分析能彻底地简化错综复杂的事物吗?能根本区分出细微的差别吗?能完全理清苏格兰威士忌长达700多年的历史吗?其实可以,只要将苏格兰威士忌大师的专业味觉武装上他的数据集就行。

本可视化分析中将86种单一麦芽威士忌品牌按12种风味特征分成了若干风味群组,例如香甜味、烟熏味、蜂蜜味和果仁味。通过简单的图像形式展示,我们都可以了解到在各种各样的单一麦芽威士忌品牌之间有何异同。

每一个点(或节点)代表一个单一麦芽威士忌的品牌。每条线(或边界)代表威士忌间相似性程度,线条越粗越暗,威士忌的风味就越相似。因此相似味道的单一麦芽威士忌的自然集群形式会更加紧密、更高度地相互联系。

这种分析方法可以适用于食品科学研究。它可以与市场份额和市场配置文件数据相匹配,开创新口味风格,旨在吸引高价值部分,或重新定位现有的品牌,引进新的领域。它还能为酒吧或者零售商提供备忘单。

这种分析还能为每天的消费者提供一种有趣的方法,去探索一个非常复杂的话题。如果你喜欢一种品牌的威士忌味道,现在你可以尝试其他相似味道的品牌,或者去探索其他完全不同味道的品牌。不论哪种方式,你都必将拥有一个无与伦比的美好夜晚。

l 分析方法

本可视化图表采用Teradata Aster 的Aster Lens创建,它使用了斯特拉斯堡大学的威士忌分类开放数据集,包含了86种单一麦芽威士忌品牌、12个专家评定的风味特征,以及这些威士忌厂家的地理坐标信息。

它使用余弦相似性将不同风味的威士忌进行分组,并配合一些没有固定风味特征的单一麦芽威士忌形成的零散数据。Aster Lens可视化是利用Teradata Aster 的挖掘算法功能GraphGen创造出来的。同等大小的节点代表着同等重量的不同单一麦芽威士忌,其连接程度代表其相似性大小。

作者:Kailash Purang Teradata新加坡公司一名出色的数据科学家,还服务Teradata在印度尼西亚的主要银行和通信行业客户。

◆ ◆ ◆

星门

l 关于洞察

“星门”是在打击网络欺诈、骇客和持续的网路攻击和战争中的“分析防卫武器”。

该匿名化可视化分析展现的是在台湾完成的一系列用于分析电信客户端阻止恶意网络攻击的情形。

“星门”的目的是发现并阻止黑暗的力量在网络世界滋长。进阶持续性威胁(APT)是一组隐身和连续的计算机骇客过程,往往是由人们策划针对特定的实体。APT通常针对组织、国家的商业或政治动机,也用于欺诈和犯罪目的。

可视化使用了2300名员工一年的互联网使用的网络日志。它跟踪每个用户的网络浏览活动然后找出恶意行为的原点的详细用法路径。

每个点(节点)表示由用户访问的网页。每行(或边缘)表示从其他网页到另一网页的路径。线的粗细大小代表访问时的时间,节点的大小代表我们计算网页的128种性质,如类别、信誉评分、访问次数、网页内容和数据包的生存时间(TTL)值。

在“星门”中心的高度连接的节点越大,则表示那些没有装备安全防御软件或防火墙,阻止恶意行为的高风险的网站。我们也可以看到他们连接到其他网站,这可能就代表了高风险。周围外侧的节点是低风险的网站。

l 分析方法

此分析使用Teradata Aster 及 Aster Lens。这个可视化使用了电信客户的安全日志并用Aster及Gephi生成图表。它涵盖了超过2300位员工的一年时间的安全日志数据。

在此分析工作,我们用nPath、图形、集群和文本分析功能。路径分析是这种模式分析的核心概念,因为它来源于网页,关键是要识别恶意行为的起源联动路径。我们用图来表示,并分析各节点之间的复杂关系,并以图表的形式呈现出来。

作者: Peter Wang Teradata天睿公司大中华区的大数据COE的资深大数据顾问,是台湾Teradata公司的行业顾问,同时也是Teradata创新中国数据科学家的重要成员,为银行和电信开创了新的分析技术,帮助银行和电信公司获取大数据的价值。

◆ ◆ ◆

捕获异常

l 关于洞察

这个可视化分析显示由保险公司发现的异常行为经纪人。透过其中的数据图表凸显了,当有图形呈现这些连接后的异常,变得显而易见。

点(节点)代表的是使用由保险公司提供了一个经纪人创建报价的平台。节点之间的联系表明相关联的报价,即券商用以前生成的报价(点)做一些改变后创建一个新的报价(链接的节点)。

这两个集群在中心(红色)描绘出异常行为,其中一个经纪人在更新少量的属性后不断改变和改回报价。这表明这个经纪人在测试保险公司的系统,试图了解定价引擎的工作原理,这种行为是不受欢迎的,是滥用保险公司的系统。

这一分析的目的是确定保险公司的经纪人是如何使用制度的行为来提升产品的销售。其目的是了解系统如何改进,以支持券商提供更好的体验,支持保险公司的业务,并且可以教育业绩较不好的经纪人。这个欺诈性的发现是这种分析的副产品。保险公司可以使用视觉化作为同经纪人进行沟通的证据。

l 分析方法

这种西格玛可视化分析显示了从保险公司为他们的经纪人提供数据进行分析的平台。这个系统将记录由所述平台上的代理进行的所有操作。

分析的初始部分涉及身份查验工作的平台和匹配经纪人的会话,到一个特定的经纪人和客户。在这些会议上该分析侧重于记录由经纪人平台报价相关的行动。这些行动被抓获并建模为节点。

每个节点代表了不同的会话客户所产生的报价。节点之间创建链接,如经纪人读取相同的报价并生成一个刷新的报价。图表分析找出由高度互连节点形成的两个异常大的不正常集群。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2016-06-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

首届开放科学奖|6个创造性案例示范如何玩转医学大数据

1315
来自专栏腾讯数据中心

大道至简,图解大型互联网数据中心典型模型

数据中心本质上是数学和逻辑的组合,分析模块化数据中心的颗粒度可以归纳演绎出其典型模型,本文介绍一些大型互联网数据中心的典型案例,正是为了做此方面的分析。 大型互...

3826
来自专栏灯塔大数据

原创译文 | 区块链不仅仅是技术,而是新的经济体系

转载声明 本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注:“转自:灯塔大数据;微信:DTbigdata” 导读:上一期了解了关于将...

2946
来自专栏IT大咖说

IT大咖撩段子

1 美团APP大面积瘫痪 饿了么CTO说,咱们演练一把IDC的异地多活吧,给机房打电话,把一个IDC的电源插头给拔了。一会儿,机房回复说拔完了。一看服务完全正常...

3496
来自专栏CDA数据分析师

野生码农的逆袭之路:在跨界中找到自我

本文由CDA作者库成员HarryZhu原创,并授权发布。 CDA作者库凝聚原创力量,只做更有价值的分享。 ? Day Job and Night Job 我非常...

2366
来自专栏lx的专栏

真实世界的可视光通信应用

为了改变顾客的购物体验,法国零售业巨头家乐福超市正在里尔的Euralille商场其新近翻新的大型超市中测试基于LED的超市照明。

3163
来自专栏ATYUN订阅号

格拉斯哥大学研究者开发电子皮肤,为机器人提供触摸能力

合成的电子皮肤,也被称为“brainy skin”,正在开发中,不仅可以为截肢者制作更具响应性的假肢,它也可以应用于机器人,使其具有模拟触摸能力。

781
来自专栏玉树芝兰

知识工作者的便携利器

工业时代,工作时间工作,休息时间休息。现在你如果能25分钟不看手机、不刷朋友圈专注读书(哪怕是小说),那就叫完成了一个番茄钟,是非常难得的成就了(保守地说,也足...

932
来自专栏机器之心

业界 | 华人AI学者陷学术造假争议且被指殴打离职员工,然真假难辨

在美国洛杉矶高级法院的法庭文件中,Iman Sadeghi 指控他的前雇主 Pinscreen 向计算机图形会议 SIGGRAPH 提交伪造的图像和科研成果,并...

792
来自专栏ATYUN订阅号

谷歌和哈佛大学开发机器学习模型,检测食源性疾病以识别不安全的餐馆

你是否担心自己进入一家简陋的没有优秀食品安全记录的餐馆?谷歌新的AI系统可以帮助你摆脱恐惧,或证实糟糕的情况。

904

扫码关注云+社区

领取腾讯云代金券