大数据讨论,让数据“发声”

大数据观察

了解大数据,关注大数据观察吧!

每个想了解最新大数据资讯的人,都关注了我

文 / 数据君

当数据的数量无比庞大时,如何选择样本呢?

有人提出有目的地选择最具代表性的样本是最恰当的方法。1934年,波兰统计学家耶日.奈曼指出,这样只会导致更大的漏洞。

事实证明,问题的关键是选择样本时的随机性。

统计学家们证明:

采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

虽然听起来很不可思议,但事实上,一个人对1100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%。

这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。

为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。

认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。

这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本,我们可以用较少的花费做出高精准度的推断。

因此,政府每年都可以用随机采样的方法进行小规模的人口普查,而不是只能每十年进行一次。

事实上,政府也确实这样做了。

例如,除了十年一次的人口大普查,美国人口普查局每年都会用随机采样的方法对经济人口进行200多次小规模的调查。

当收集和分析数据都不容易时,随机采样就成为应对信息采集困难的办法。

很快,随机采样就不仅应用于公共部门和人口普查了。

在商业领域,随机采样被用来监管商品质量。

这使得监管商品质量和提升商品品质变得更加容易,花费也更少。

以前,全面的质量监管要求对生产出来的每个商品进行检查,而现在只需要从一批商品中随机抽取部分样品进行检查就可以了。

本质上来说,随机采样让大数据问题变得更加切实可行。

同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。

主题 |数据发声

插图 | 网络来源

作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删

我想给你一个理由 继续面对这操蛋的生活

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180904B13ZUP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券