专栏首页飞总聊IT有理有据的胡说八道:由DB圈的一桩陈年公案看大数据时代的数据科学

有理有据的胡说八道:由DB圈的一桩陈年公案看大数据时代的数据科学

忽如一夜春风来,大数据之漫山遍野的开。如今的IT界,言必称大数据云计算,高级一点的还有机器学习人工智能。数据科学正在如火如荼的在IT公司里发展。数据科学家们出身五花八门各行各业。所谓八仙过海各显神通。我本人对于杰出的数据科学家们有着崇高的敬意,并无贬低一切的念头。然而这个方兴未艾的数据科学家满地走的今天,对数据的解读这件事情对普通人到底意味着什么,的确也非常的值得我们去思考。

在Database学术圈里有一段陈年公案,对于我们理解当前的大数据泡泡颇有借鉴之处。Database的两大顶级会议分别是:

  • SIGMOD(ACM SIGMOD Conference)
  • VLDB (Internaltional Conference on Very Large Data Bases )

在2001年的时候SIGMOD做了一个巨大的改革,将原来single-blinded的会议评审变成了double-blinded. 所谓single-blinded就是评委知道作者是谁但是作者不知道评委是谁。而double-blinded则互相都不认识。常识来说double-blinded会更公平。因为在single-blinded的前提下,假如说王菲作为娱乐圈有名有势的人来参加海选唱因为爱情的,唱破了音,作为评委的蔡明难道敢举起牌子大呼一声你还不如我唱的,给咔嚓了么?除非是评委不想在这个圈子里混了。如果是double-blinded就无所谓了,反正我蔡明也不知道唱歌破音的是王菲天后,据就据了。

2006年初的时候,MIT的Samuel Madden和威斯康辛的David DeWitt给整个Database学术圈发表了他们的“研究”成果。原文在这里:

http://db.csail.mit.edu/madden/doubleblind.pdf

文章的主题思想很简单,SIGMOD实行double-blinded已经很多年了,根据他们对若干年论文发表的数据分析表明double-blinded无助于增加新竞研究人员论文录取的公平性。文章的分析颇有模有样,有图有数据,让人不由得感觉感觉做研究的,果然是不一样。

David DeWitt是database圈子无人不知无人不晓的大山头。Samuel Madden是这个领域的包括DeWitt在内的一圈人里面的新生代的代表。两位的学术水平和高度都是我望尘莫及的。然而在这个拍着脑袋都能想明白的double-blinded明显会比single-blinded对新人更有利的东西,难道人脑的常识不敌于数据的分析了么?可能database这个圈子的前辈们都比较的高风亮节,不太符合人的本性。有谣传说DeWitt的文章在double-blinded被拒了所以不爽才发了此文。我想这肯定是空穴来风莫须有的事情。只是奇了怪了,本着谁得利谁发文的原则,这个得出single-blinded比double-blinded要强的结论的分析,看起来好像是对功成名就的老头子们更有利。

果不其然,新加坡国立大学的Anthony Tung发表了他的研究情况,一样的数据一样的分析,唯一不同的是在整个分析里面把所有用到mean的地方统统都换成了median。原文同样附上,有兴趣的可以好好读读。

http://www.comp.nus.edu.sg/~atung/DB_detail.pdf

这次结论完全翻转过来了。Single-blinded果然是对年轻人大大的公平。这真是非常有意思的事情,对于我这样的不是天天和数据打交道的人来说,我怎么知道mean换成median之后就太子变成狸猫了呢?我想对很多没有太多数学基础的人来说,尤其是做business的,这不就是说数据科学家们想怎么解释,就可以怎么解释么?

Michael Jordan(机器学习的大牛,不是打球的那个)曾经在一次访谈里面表达了他对现在大数据热的担忧。数据大了,什么样的结论都能够从数据里面舀一勺出需要的数据来支持。我们从大数据里面分析学习和得到的,到底是真实的东西,还是先编好了故事再给凑出来的分析呢,对大部分的人来说在这波大数据浪潮里其实是无从得知的。

所以有理有据的胡说八道是一项技能,而在今天的大数据时代,区分到底是实实在在的有用的东西还是有理有据的胡说八道,对普通人来说,尤其的不容易。在这个数据科学大行其道的今天,我想大家保持一颗警惕一些的心并无坏处。

本文分享自微信公众号 - 飞总聊IT(feiitworld),作者:飞总

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-08-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 比特币和区块链(4):比特币成功的不可复制性

    0 上一篇我们详细介绍了比特币的共识机制。简单来说,比特币的共识机制是通过算力来随机选择产生新区块的节点,通过给予产生新区块的节点比特币奖励来做好人。这整个系统...

    用户1564362
  • 漫话:如何给女朋友解释什么是CDN?

    周六晚上七点多,我正在看书呢,突然女朋友跑过来问我她的IPAD去哪了,火急火燎的。

    用户1564362
  • 林志玲结婚,Cloudera腰斩,大数据药丸

    Cloudera财报以后股票腰斩,CEO辞职,现在作为大数据时代的领头羊的Cloudera已经难看的不能再难看了。

    用户1564362
  • 机器学习算法实现解析——libFM之libFM的训练过程概述

    本节主要介绍的是libFM源码分析的第四部分——libFM的训练。 FM模型的训练是FM模型的核心的部分。 4.1、libFM中训练过程的实现 在FM模型的训练...

    zhaozhiyong
  • Flink最难知识点再解析 | 时间/窗口/水印/迟到数据处理

    时间、窗口、水印、迟到数据这四个知识点几乎是Flink这个框架最难点。我之前发了很多文章来解释。很多同学仍然理解不了。

    王知无
  • 批量创建用户并使用sudo和ACL来控制用户权限

    版权声明:本文为耕耘实录原创文章,各大自媒体平台同步更新。欢迎转载,转载请注明出处,谢谢。

    耕耘实录
  • Quicksilver快数据处理系统

    | 导语 Quicksilver为神盾推出的一款推荐场景下数据快速处理系统,旨在解决数据如何在分钟级、秒级更新并对接线上。 背景 随着神盾推荐业务场景的不断深...

    腾讯QQ大数据
  • 电视记者需要具备的数据新闻素养

    大数据文摘
  • Google X:做一件事需要三个要素

    大数据文摘
  • 你知道人脸识别技术是如何实现的吗?

    人脸识别,一种基于人的脸部特征信息进行身份认证的生物特征识别技术。近年来,随着欧美发达国家人脸识别技术开始进入实用阶段后,人脸识别迅速成为近年来全球的一个市场热...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券