前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用PowerBI洞悉大数据骗局神律-第一数字定律

用PowerBI洞悉大数据骗局神律-第一数字定律

作者头像
BI佐罗
发布2019-09-23 19:22:12
1.5K0
发布2019-09-23 19:22:12
举报
文章被收录于专栏:PowerBI战友联盟PowerBI战友联盟

什么最难,或许就是一个简单的 真相

当有人告诉你世界怎么了,国家怎么了,他还有大量数据做支撑,似乎无懈可击之时,我们依然可以大胆地去怀疑,因为真相很难伪造,至少对看了本文地人来说,伪造真相的操作成本会增加不少。

另外,也许您有一堆数据需要分析,数据量还不小,例如:先来上1个亿,不要和那啥啥小目标混淆。数据来源是不是未可知的,很多人就一头扎进去分析,可能完全是无意义的。

以上问题地原因很简单:数据是人为伪造的

问题来了:如何辨别大量数据是否是人为伪造的?

如果你没有听说过 第一数字定律 也叫 本福特定律(Benford’s Law),相信一定会被很多数据所蒙骗。当知道了这条定律并直接用于实践,则也许可以帮助我们在茫茫数据海洋中杀出一条血路.

也许我们永远无法知道真相是什么,但我们至少可以从此不再那么傻。

从一个问题开始

假设我们有一个世界著名旅游景点数据库,并按照每年游客数排名,我们取前122000个景点,景点的有一个属性叫:海拔。

海拔高度可能是:1378英尺也可能是2665英尺,这完全像是随机数。

思想实验

如果我们把上述所有景点的海拔高度的 首个数字取出来,然后只看从 1到9 的分布,你猜测会是怎样的?

正常思维下,人们会认为由于随机性,数据量又足够大,1到9 的分布应该是随机的,但实际却不是这样。

实际结果

如果你真的有这样一个数据库,并按照首个数字取出来,然后只看从 1到9 的分布,会是这样的:

Are you kidding me!!!

有没有毁灭你的三观,怎么可能?!

绝非偶然

有人会说,这完全是巧合。如果我们做一些变化,例如用米,厘米或者任何什么度量作为单位,都会看到一样类似形状的分布。如下:

我们发现:数字1作为引导数字出现的概率是最大的,大概在 30% 左右。

同样的现象还出现在很多领域:

例如纳斯达克股市日成交量,进出口水产品交易量等。

正式介绍:本福特定律

我们称这种神奇的现象叫:Benford’s Law(本福特定律),也叫 第一数字定律

让我们正式介绍一下: 本福特定律,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成。 人们的直觉是从1到9各自1/9,这个直觉是错的。 它可用于检查各种数据是否有造假。

让我们用数学语言严谨地描述一下: 本福特定律说明在 b进位制( 例如 b = 10 就是 10进制 ) 中,以数 d 起头的数出现的概率为:

在十进制首位数字的出现概率(%,小数点后一个位):

也就是:

我们可以自己用Windows10自带的计算器来算一算:

是不是很神奇,是不是很兴奋,是不是马上就可以用。

到底为啥

一组平均增长的数据开始时,增长得较慢,由最初的数字 a 增长到另一个数字 a+1起首的数的时间,必然比 a+1起首的数增长到 a+2,需要更多时间,所以出现率就更高了。

从数数目来说,顺序从1开始数,1,2,3,…,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,…,8起首的数。若果这样数法有个终结点,以1起首的数的出现率一般都比9大。

这个定律的严格证明,可以参见Hill, T. P. “A Statistical Derivation of the Significant-Digit Law.” Stat. Sci. 10, 354-363, 1996.。

实际应用

1972年,Hal Varian提出这个定律来用作检查支持某些公共计划的经济数据有否欺瞒之处。1992年,Mark J. Nigrini便在其博士论文”The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies.”(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)提出以它检查是否有伪帐。

推而广之,它能用于在会计、金融甚至选举中出现的数据。该定律被华盛顿邮报上的一篇文章引用,该文章以此为基础声称2009年伊朗总统大选中有造假。

若所用的数据有指定数值范围,这个定律则不准确。

如何被发现的

1881年,天文学家西蒙·纽康发现对数表包含以1起首的数那首几页较其他页破烂。可是,亦可以以任何书起首数页也会较破烂这个观点解释。这个故事可能是虚构的。

1938年,物理学家本福特重新发现这个现象,还通过了检查许多数据来证实这点。

2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何现在才为人发现。虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福特定律。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。

专业书籍

当然,今天我们不是完全来研究它的数学证明的,如果感兴趣,本文提供价值50美元的专业书籍供有兴趣的伙伴进一步研究:

在本书中详细的描述了该定律的应用,为所有法务会计师或任何分析可能已被篡改的数据的人提供了强大的新工具

PowerBI 第一数字定律 实践

我们可以将数据量足够的数据库数据加载进入PowerBI来按照本福特定律进行检验,就可以知道:

  • 作为样本的话,是不是真的有意义
  • 判别真实性,是否是被篡改过的

在 PowerBI 中构建本福特定律表非常简单,如下:

Excel120 学习使用的示例数据是符合本福特定律的,这样确保大家的学习至少在一定的真实性模拟下进行,如下:

我们对790个客户的2773笔订单的10000条数据分别按:

  • 数据条目本身的销售额
  • 按订单的销售额
  • 按客户的交易额

分别进行了统计,可以看出,它们三者与本福特规律形状一致。尤其是按照不同的统计口径居然都得到了同样的规律,以客户为例:

由于 PowerBI 可以使用 DAX(数据分析表达式) 进行计算,可以轻松处理数以万计乃至数亿数据(这些在Excel中很难做到)。而且,PowerBI现在可以无需编程就可以处理10000亿条数据(详细了解),即使是在海量数据面前我们也可以直接操作。

领悟第一数字定律及学会PowerBI让我们看懂大数据背后的欺骗。

大家不妨自己去亲自尝试一下,看看各种号称有数据支撑的新闻(论调)背后是不是存在欺诈。伪造数据且符合第一数字定律还是有一定操作成本的,但我们使用PowerBI辨别它将非常简单。

总结

本文通过讲述神奇的第一数字定律(本福特定律)以及通过实际案例用PowerBI实现,完成了从理论到实践的整个过程,既不是胡吹乱侃,也不是虚无缥缈,而是切实的明确了一项非常重要的能力:借助科学验证伪科学

如果在大量实验面前,你发现都不满足这个规律,那么这个规律是错误的吗?还是我们的世界是如此的错误?…

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PowerBI战友联盟 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 从一个问题开始
  • 思想实验
  • 实际结果
  • 绝非偶然
  • 正式介绍:本福特定律
  • 到底为啥
  • 实际应用
  • 如何被发现的
  • 专业书籍
  • PowerBI 第一数字定律 实践
  • 总结
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档