前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >有理有据的胡说八道:由DB圈的一桩陈年公案看大数据时代的数据科学

有理有据的胡说八道:由DB圈的一桩陈年公案看大数据时代的数据科学

作者头像
用户1564362
发布2018-04-04 17:52:36
8780
发布2018-04-04 17:52:36
举报
文章被收录于专栏:飞总聊IT

忽如一夜春风来,大数据之漫山遍野的开。如今的IT界,言必称大数据云计算,高级一点的还有机器学习人工智能。数据科学正在如火如荼的在IT公司里发展。数据科学家们出身五花八门各行各业。所谓八仙过海各显神通。我本人对于杰出的数据科学家们有着崇高的敬意,并无贬低一切的念头。然而这个方兴未艾的数据科学家满地走的今天,对数据的解读这件事情对普通人到底意味着什么,的确也非常的值得我们去思考。

在Database学术圈里有一段陈年公案,对于我们理解当前的大数据泡泡颇有借鉴之处。Database的两大顶级会议分别是:

  • SIGMOD(ACM SIGMOD Conference)
  • VLDB (Internaltional Conference on Very Large Data Bases )

在2001年的时候SIGMOD做了一个巨大的改革,将原来single-blinded的会议评审变成了double-blinded. 所谓single-blinded就是评委知道作者是谁但是作者不知道评委是谁。而double-blinded则互相都不认识。常识来说double-blinded会更公平。因为在single-blinded的前提下,假如说王菲作为娱乐圈有名有势的人来参加海选唱因为爱情的,唱破了音,作为评委的蔡明难道敢举起牌子大呼一声你还不如我唱的,给咔嚓了么?除非是评委不想在这个圈子里混了。如果是double-blinded就无所谓了,反正我蔡明也不知道唱歌破音的是王菲天后,据就据了。

2006年初的时候,MIT的Samuel Madden和威斯康辛的David DeWitt给整个Database学术圈发表了他们的“研究”成果。原文在这里:

http://db.csail.mit.edu/madden/doubleblind.pdf

文章的主题思想很简单,SIGMOD实行double-blinded已经很多年了,根据他们对若干年论文发表的数据分析表明double-blinded无助于增加新竞研究人员论文录取的公平性。文章的分析颇有模有样,有图有数据,让人不由得感觉感觉做研究的,果然是不一样。

David DeWitt是database圈子无人不知无人不晓的大山头。Samuel Madden是这个领域的包括DeWitt在内的一圈人里面的新生代的代表。两位的学术水平和高度都是我望尘莫及的。然而在这个拍着脑袋都能想明白的double-blinded明显会比single-blinded对新人更有利的东西,难道人脑的常识不敌于数据的分析了么?可能database这个圈子的前辈们都比较的高风亮节,不太符合人的本性。有谣传说DeWitt的文章在double-blinded被拒了所以不爽才发了此文。我想这肯定是空穴来风莫须有的事情。只是奇了怪了,本着谁得利谁发文的原则,这个得出single-blinded比double-blinded要强的结论的分析,看起来好像是对功成名就的老头子们更有利。

果不其然,新加坡国立大学的Anthony Tung发表了他的研究情况,一样的数据一样的分析,唯一不同的是在整个分析里面把所有用到mean的地方统统都换成了median。原文同样附上,有兴趣的可以好好读读。

http://www.comp.nus.edu.sg/~atung/DB_detail.pdf

这次结论完全翻转过来了。Single-blinded果然是对年轻人大大的公平。这真是非常有意思的事情,对于我这样的不是天天和数据打交道的人来说,我怎么知道mean换成median之后就太子变成狸猫了呢?我想对很多没有太多数学基础的人来说,尤其是做business的,这不就是说数据科学家们想怎么解释,就可以怎么解释么?

Michael Jordan(机器学习的大牛,不是打球的那个)曾经在一次访谈里面表达了他对现在大数据热的担忧。数据大了,什么样的结论都能够从数据里面舀一勺出需要的数据来支持。我们从大数据里面分析学习和得到的,到底是真实的东西,还是先编好了故事再给凑出来的分析呢,对大部分的人来说在这波大数据浪潮里其实是无从得知的。

所以有理有据的胡说八道是一项技能,而在今天的大数据时代,区分到底是实实在在的有用的东西还是有理有据的胡说八道,对普通人来说,尤其的不容易。在这个数据科学大行其道的今天,我想大家保持一颗警惕一些的心并无坏处。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 飞总聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档