首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据与研究设计

过节了,简单哥送礼来了。纯正的国产货,无任何关税,亲请放心。

忽悠节,哥不忽悠,我们谢绝一切忽悠,还要讲讲忽悠人的那些事。提到忽悠,哥想到了大数据。提到大数据忽悠,各位肯定会想到最近流行的一句话,大数据杀熟。大数据杀熟,可不就是忽悠嘛。那么,大数据是如何做到杀熟的呢?如此精准,还如此有效。不知不觉之中,我们的钱包就被掏空。关于大数据的原理,您肯定是明白的。既然您明白,哥就讲讲,浪费一下您的时间和期待,也杀一次熟,嘿嘿。亲要小心了,据不准确统计,哥已经掌握了您的大数据。

大数据最基本的思路就是,尽可能多地收集数据,从中发现规律。收集的数据越大,得出的规律越准确,说服力也就越大。这就是大数据的最简单原理了。说到这里,这个近年来看似神秘而高达上的术语一下子就变得接地气了哈。实际上,我们研究中的很多方法和思路也是基于大数据原理的,最典型的就是语料库研究了。从早期的几十万、百万型符到现在的以亿为单位的型符,数据不断增大,我们离真理的距离也越来越近。不得不说,大数据确实是个好东西,它能够在最大程度上降低误差的影响,尤其是个体差异的影响,帮助我们更好地发现自变量的作用。

既然这样,我们是不是可以不用在实验设计和实验过程的控制上斤斤计较了呢。话说实验设计和过程的控制可是研究的关键,当然也是最虐心的环节。我们要绞尽脑汁的设计出最合理的实验方案,小心翼翼的选择实验材料,还要战战兢兢的监控实验的过程。现有有了大数据了,我们还有必要这么费尽心机吗?这个问题太简单了,可能您都没想过这个问题。说实话,哥也没想过。只是遇到一个朋友提到了这个问题,哥却一时想不起如何解释,从而就有了下面的一番思考和感想。

我们刚才谈了大数据能干什么,现在再想想大数据不能干什么?不,准确的说,应该是如何合理正确的应用大数据。上面提到大数据杀熟的问题,那么大数据为什么没用于杀生呢。毕竟熟肉已经到碗里了,然后再把生肉炖了岂不是更好吗?一切都是我的了,哪个不想这样的好事啊。我们利用大量的熟肉数据发现大规律,再利用大规律分析生肉,然后一网打尽,想想就很美,睡觉都会流口水。那么,我们为什么就没有看到大数据杀生的说法呢,难道商家不想多吃吗?或者是他们还不如我们这些头脑简单的书呆子聪明?这个说法恐怕就是在愚人节也会被人嫌弃的。那究竟是为什么呢?

这就涉及到一个容易被人忽视的问题,就是大数据的应用和推广也是有条件的,这些条件会限制大数据的应用范围,只能用于杀熟,生的不好使。商家说,生肉和熟肉我都想要,为啥生的我就得不到呢。肉店老板说,生肉和熟肉都是肉,只是有没有炖的差别。简单哥说,肉是我们考察的对象,炖了吗是考察的变量,生和熟就是这个变量的两个水平,两者可能有质的差别,要分别讨论。如果我们忽落生和熟的差别会怎么样呢?减轻负担了,不用想那么多了,因为这个变量没有了,生的和熟的一样了。这么做会有什么结果呢?

咱可以对比一下。现在的情况是这样的,哥网购瓶洗发水,然后上网的时候打开任何网页都会看到洗发水的广告,连品牌都没错。看看,大数据的威力,多精准!那么,精准的前提是什么呢?就是变量的控制。在客户对象上,是我,而不是所有人;在产品类别上,是洗发水,不是沐浴露;并且连品牌都进行了控制。那么,如果没有这些变量的控制呢,我们看到的广告应该就是商家销量最大的产品了,未必就是我们最需要的东西,杀伤力肯定就没那么大了。说到这里,杀熟不杀生的问题应该就有很明确的答案了。熟的知根知底,可以对症下药。生的摸不透脾气,不知如何下手啊。

下面我们再聊聊第二个问题,就是有了大数据,我们还需要对实验过程进行严格的控制吗?我们网购的时候大概有这样的习惯,就是搜索到需要的商品,点击按销量排序,再看评价,然后就差不多确定了。效率就是这么高,反正哥的要求不高,是东西就行。我们之所以能这么快完成购物,诚然大数据功不可没。然而,为什么不敢要求太高呢,难道大数据错了吗?哥要说,大数据没错,错的是数据的来源。销量是真的吗?评价是发自内心的吗?这两个问题解决了,我们的要求可能就容易满足了。说到这里,您肯定也明白了,大数据来源于每个小数据。如果小数据错了,大数据也靠不住啊。所以,实验过程还必须要严格的控制。我们再想一下,如果大数据中的每个小数据都不靠谱的话,那这大数据还知道要离谱到什么样子呢。所以,大数据时代,我们更需要规范的实验设计和科学的实验操作。只有获得了准确的小数据,才能构建有效的大数据。

最后,我们做个总结。任何的研究都需要变量的合理选择和控制,首先确定哪些变量是我们需要控制和考察的、哪些是个体差异和实验误差。考察的变量必须要严格控制才能获得精准的小数据,然后大量的研究积累出大数据。个体差异和实验误差也就在这庞大的数据中变得微不足道了。

区区两千字,码字一上午。如果您喜欢,请点赞、打赏或转发。简单哥更欢迎您的回复和问题。研究中的简单事,离不开您的参与!

简单哥欢迎各位前辈指点迷津!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180401G0AXB200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券