zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

3个可视化案例:不只酷炫,洞察最重要

2023-03-09 22:14:06 时间

(1)资金喷泉:银行、识别欺诈

0?wx_fmt=jpeg
 

案例简述

使用转账交易数据了解风险和发现市场机会。这个可视化作品分析了中国大型企业之间的资金流动量的关系,数据来自中国某大型银行的企业银行业务风险分析,所有数据均已匿名化处理。

 

作图说明

点表公司,线代表两家公司之间的资金转移和箭头显示这笔钱流向。图表显示了不同的公司之间的所有金钱流动,了解上游供应链的流动和对彼此相互依赖性的公司。

 

若要管理风险,银行需要识别出高度相互依存的公司。它允许银行确定关键的公司在供应链和独立交叉检查公司的现金流来验证其资金的健康状况。

 

价值洞察

它还有助于识别欺诈。银行可以检查公司的真正的商业活动,并可以验证借出的资金用于其目的。例如制造商,是投资在股票市场的投机资金,而不是向供应商付款或谁拿出一笔贷款建一座工厂,但真正地将资金用于短期住宅房地产交易。


它还有助于市场营销,它强调了银行服务方面的差距。其中大量的资金流出(或)到的链标识高价值前景公司。它为现有的客户端揭示了在融资、结算、风险管理等更广泛金融服务的服务提供更高的价值。

 

分析方法

这种分析使用 Teradata Aster和 Aster 的Lens。装载的交易数据是非常大的, 涵盖超过 670,000 公司的 60,802,990 记录。公司记录包含行业分类代码,因此我们可以理解他们的业务活动。这张图包括 PageRank 用于选择顶级的32 个重要客户和我们包括所有相关的交易对手方总交易大于或等于达到人民币 70 万元(USD$ 115 k)。

 

在此图中有 3883 节点和 3943 条边。节点代表公司,而边代表公司之间的现金流,箭头显示这笔钱流向。

 

作者介绍

0?wx_fmt=jpeg

石棋玲,Teradata中国高级顾问,Aster & Hadoop 大数据卓越(COE)中心一员。她于2009年在中央佛罗里达大学获得应用数学博士学位。目前正在职读美国德拉维尔大学的MBA学位。曾在美国匹兹堡的 PNC 银行的风险管理部门工作,期间她开发了许多算法来控制风险和打击欺诈和洗钱;其中的几个算法被美国货币控制委员会报告中采纳。


 

(2)星门:电信运营商、网络攻击识别

0?wx_fmt=jpeg

 

案例简述

“星门”是在打击网络欺诈、网路攻击的战争中的“分析防卫武器”。这个作品是在台湾完成的一系列用于分析电信客户端阻止恶意网络攻击。“星门”的目的是发现并阻止黑暗的力量在网络世界滋长。APT攻击(高级持续性威胁)一组隐身和连续的计算机骇客过程,往往是由人们策划针对特定的实体。APT通常针对组织和/或国家的商业或政治动机,也用于欺诈和犯罪目的。

 

可视化使用的2300名员工一年的互联网使用的网络日志。它跟踪每个用户的网络浏览活动然后找出恶意行为的原点的详细用法路径。

 

作图说明

节点表示由用户访问的网页,边表示从其他网页到另一网页的路径。线的粗细大小代表访问时的时间,节点的大小代表我们计算网页的128种性质,如类别、信誉评分、访问次数、网页内容和数据包的生存时间(TTL)值。

 

价值洞察

在“星门”中心的高度连接的节点越大表示那些没有装备安全防御软件或防火墙阻止恶意行为的高风险的网站。我们也可以看到他们连接到其他网站,这可能代表了高风险。周围外侧的节点是低风险的网站。从此发现我可以提升安全机制使得从根本上减少恶意活动的量。

 

分析方法

此分析使用Teradata Aster 及 Aster Lens。这个可视化使用了电信客户的安全日志并用Aster 及Gephi生成图表。它涵盖了超过2300位员工的一年时间的安全日志数据。在此分析工作,我们用nPath,图形,集群和文本分析功能。路径分析是这种模式分析的核心概念,因为它来源于网页,关键是要识别恶意行为的起源联动路径。我们用图来表示,并分析各节点之间的复杂关系,并以图表的形式呈现出来。

 

作者介绍

0?wx_fmt=jpeg
Peter WangTeradata的创新中国数据科学家的重要团队成员并为银行和电信开创了新的分析技术。他是一名Teradata的资深大数据顾问于大中国区的大数据COE。在OSS超过20年的电信行业经验,主要在信号分析和网络安全分析领域。


 

(3)数据热度识别:IT运维、数据库优化

0?wx_fmt=jpeg

案例简述

通过查询识别出数据表的使用情况,区分出“冷”“热”数据组,并把较低利用率的数据组和孤立的工作在仓库平台中设定为“将卸载”标签。数据来自于英国一家银行,可视化图表产生于一个分析过程中,其分析的对象是对Teradata整合数据仓库(IDW)的数据库查询记录(DBQL)。DBQL描述了SQL命令(查询),这些命令是操作者为了能够检索到数据仓库的表格中存放的数据而发出的。

 

作图说明

节点代表着存在数据仓库中的表格,线则代表在一个SQL命令中同时使用了两个表格,它们共同展示了一项查询工作对于两个相互关联的表格的依赖性。这张可视化图表的中心是一些高度相关的表格,它们中的大部分是查询表(也称做维度),常常与其他数据表联合使用,并为它们提供额外的描述和背景信息。大量用户使用这些查询命令来获取这些查询表格和其他表格,这十分契合于整合数据仓库。

 

同时,这张可视化图表强调了两组十分紧密联结的表格,每一组都代表服务于一个业务运用的表格组。所以这些表格组经常同时被不同的业务运用查询。

 

价值洞察

在图表的边缘有众多与其他表格有着少量联系的表格,相对来说它们不怎么经常被用到,而当被查询到时,它们通常以孤立的形式存在。所以这些表格(及它们组成的工作)可以从主要的数据仓库中转移出来,而放到一个相对“冷门”、在高性能磁盘上花费更少、处理能力相对较弱的平台上。

 

分析方法

这个西格玛可视化图表是用Teradata Aster平台生成的,它展示了对DBQL中的SQL命令的分析。这些分析针对“选择”命令,命令的对象为保存在数据仓库中的查询表格或视图。

 

数据库中的表格和视图在数据集里以节点的形式存在。如果一个SQL命令中同时调取了两个表格或视图,那么两个节点之间就会建立起链接。这形成了创建图表的基础,描述了表格间的依存性。

 

在使用协同过滤技术和可视化西格玛图表展示表格中的数据集时,可能会发现被包含于孤立的工作中的表格组,它们相对来说不经常被查询到。所以,这些表格组会被建议归为“将卸载”的,方便负责管理不同平台上数据集的IT人员的工作。


原文发布时间为:2016-02-05

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号