首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据时代的另类决策指南

Editor's Note:

在这样一个大数据时代,人们很容易以为自己拥有做出正确决策所需的所有信息。但事实上,我们拥有的数据从来都不完整,甚至可能只是冰山一角。

正如宇宙的大部分是由暗物质组成的,我们虽然看不见它们,但并不意味着它们不存在。信息世界同样充满了这样的暗数据,我们如果忽视其存在,那么无论你多么聪明,无论你使用的统计模型和算法多么先进,你的结论都很可能是错误的,严重时甚至会使自身陷于险境。

暗数据——无处不在

什么是暗数据?暗数据就是你没有的数据。

这个“没有”,可能是你知道你没有,比如问卷表单上问题下方的空白;也可能是你不知道你没有,比如那些不满意的顾客选择沉默而非投诉。但是除了简单的二元分类之外,暗数据可以以多种方式出现,一些比较明显,一些比较微妙。

例如,虽然简单的摘要统计可以告诉你有关数据的一些信息,但这些统计忽略了其他方面。为一个目的而设计的定义可能会在另一种情况下产生极大的误导。是隐藏的数据,那些你没有,但是想获得的数据,会告诉你在不同情况下会发生什么。

总的来说,有十五种暗数据值得关注。

暗数据——至关重要

暗数据很重要,因为如果数据库、计算机、笔记本以及电子表格中实际可用的数据只是部分数据,隐藏了重要信息,那么你依据这些数据做出的分析可能会具有误导性。

有一种迷思是:数据缺失一点点没什么大问题。

尤其在“大数据”的世界里,这样的说法渐渐流传开来:大量的数据现在更容易积累起来,这将淡化错误或修正那些由缺失数据造成的偏差。

但这种想法是错误的,这些缺失的数据可能是理解正在发生的事情的关键。

继续为你贡献数据的是回头客,如果忽略了那些不再来光顾的消费者,那么要想为你的公司制定发展策略,就会被数据所误导。诊断疾病的算法,如果其数据中缺失了一种罕见但致命的疾病,那对患有此种疾病的人来说,无疑是个坏消息。

暗数据——危机四伏

暗数据对任何领域都构成潜在风险。

在商业领域,你将获得关于客户行为的数据,但商业扩张需要了解其他客户可能会有何种行为。

在新药的临床试验中,你需要知道为什么病人会停止用药——是因为治疗没有效果,还是因为治疗完全有效,病情已经治愈?

在天体物理学中,我们看不到天空中的所有星星,那么如果我们看不到的那些星星(也就是暗数据)与我们能看到的星星是截然不同的呢?

当人类参与到诸如经济和公共政策等领域时,情况就更加复杂了。人类会对他们所处的环境做出反应,甚至在你观察或评估他们的时候做出反应。这意味着你收集到的数据受到了“你在研究这个议题”这件事的影响。暗数据带来的潜在复杂性和误解是显而易见的。

暗数据的危险一直伴随着我们。人不可能无所不知,所以一定有我们不知道的事情。问题是,这些缺失的东西是否重要,以及“数据驱动社会”的仓促发展是否加剧了问题的严重性。

当然,大数据集的现成(和自动)获取,再加上现代统计学、机器学习和人工智能工具的强大威力,对于提高人类的能力充满前景,但这些进步也伴随着挑战。

计算机的能力很强,但这也意味着我们必须依赖这些机器。我们需要他们为我们提供统计摘要、图形图表和算法输出。这意味着计算机是我们和数据之间的必要中介。

当它作为显示这些数据的滤镜时,它也充当了我们和数据之间的一堵墙。它让数据分析有了一种不透明性,只有在我们可以透过这堵墙窥视的地方,才能有新的洞察。

PUP 内容速递:

Dark Data:

Why What You Don’t Know Matters

暗数据:为什么你不知道的事情很重要

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200414A0O39R00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券