【资讯】大数据是个什么鬼啦?

先讲两个小故事——

工科生小A君毕业后赋闲在家,平时酷爱编程的他经常泡专业论坛。一天,他突然收到一家大型互联网公司的面试通知。原来,算法帮企业找到了他,它不管小A君是不是重点院校出身、也不在乎他是否有牛掰的实习经历,只计算他编的程序获得了多少同行好评、是否被业内人士重视。

剁手党小B君在淘宝上买了一个锤子,真的那种。之后一个礼拜,无论他逛哪个网站都会看到铺天盖地的锤子广告。不过,短时间内他不大可能再买一个,于是他心想,连快消品和耐用品都傻傻分不清楚,真是要被大数据蠢哭了。

这不过是大数据印象两个窄小的横截面,“拜大数据教”的人觉得它无所不能,反大数据者则认为它不过是被IT企业夸大的神话。对什么都略懂一点的壹读君今天打算跟你聊一聊,大数据的“行”与“不行”。

大数据未必能改变社交,但它了解社交

《纽约时报》曾发表过一篇叫《大数据做不到什么》的文章,记者DavidBrooks认为大数据首先不擅长的是社交,因为数据侧重社会交往的“量”而非“质”。

但是,大数据在社交媒体上的应用程度已经今非昔比了。就近举个例子,这次世界杯上IBM和腾讯进行了一次合作,由IBM在社交媒体平台上挖掘信息,然后由腾讯策划报道。

球迷们每天发那么多消息,而且大多是文字信息而非数字,他们是怎么挖掘和分析的呢?摘几个他们的技术让大家感受一下。

首先是“命名实体识别”,不管球迷是用手机还是电脑发消息,都会有一些文字没有标点符号,这个技术可以把人名啦、球队名等等先识别出来,来辨别不同短语的不同含义。

然后是“话题检测”,也就是识别球迷们讨论的是什么话题。对于球迷来说,这个技术的好处在于,媒体会针对他们所关心的话题来报道赛事。

最后是“语义情感分析”,也就是搞清楚球迷在讨论什么话题后,再判断球迷的立场。这样一来,比赛之后,球迷们对球赛或者队员的看法就一目了然了。

所以说,以前技术可能只擅长挖掘大……数据,也就是数据本身,而现在,它还能判断你们在聊什么。

未来不可预测,大数据:怪我咯?

反大数据思潮中另一个重要观点是,大数据只是基于对历史信息的梳理,无法预测未来。

2008年,谷歌公司建立了一个预测流感趋势的网站,用统计网络搜索关键词的方法来计算流感在某地区发生的可能性。这个网站当即被作为大数据预测未来的经典案例,然而,这个系统却没预测到2009年H1N1禽流感的爆发。虽然外界没说什么,但谷歌内部憋了一口气,立即对预测算法做了调整。新的算法引起了另一个问题,他们的预测工具变得比更年期女性还敏感,动不动就发布疫情预报。

到了2013年2月,《自然》杂志实在忍不住发表文章说,你们谷歌的不靠谱预测导致1月份流感疫苗都脱销了可还行?!

有人拿大数据这种“测不准”的尴尬跟地质学的“均变论”类比,因为以古论今的观点容易忽略了那些不可预知的事件,积累了再多过去的信息,也没有办法知道接下来会发生什么突变。

不过,大数据服务商们可没打算改行去算命,至少现在没有。回到文章最开始的剁手党案例,你以为电商们真的笨到以为这种广告投放能百分之百达到效果吗?图样图森破,他们选择这种推荐方式只不过是因为它容错率高而已。就算推荐的商品用户没相中,大不了再推荐就是了。目前,他们并没有对大数据预测抱有高度的信心,在那些不允许大误差、严重关切企业利益的商业活动中,是不会仅凭大数据预测来做决策的。

话说回来,预测未来是个高深的概率问题,大数据可能不行,但目前也没有其他工具行。

不管你信不信,机器只会变得越来越聪明

David的文章还提到数据分析不懂叙事,也不懂思维的浮现过程。然而,今年7月,美联社宣布今后将采用一种软件产品来撰写企业财报消息,这种机器人就是依靠大数据来抓取信息,根据算法来撰写新闻,它们甚至可以完美模拟人类作者的语调和风格。

2011年IBM造了个叫“沃森”的计算机出来挑战人类,在美国智力竞赛节目《危险边缘》(Jeopardy!)中夺冠。这一次,它已经可以识别人类语言,分析断句、词义,甚至连双关语、反语都不在话下。它通过数据对比和模拟人类联想得出答案,再用人类语言回答上来。壹读君看了一下节目,他答对的问题从欧盟2010年文化之都、电影《百万宝贝》到印度的吠陀梵语,五花八门。重要的是,这些问题都是在互联网断开的情况下回答上来的,不用度娘就这么博学,真是给跪了。

所以说,在David写完文章之后,大数据世界的变革仍在继续,工程师们需要专注的只是算法,算法,还是算法。

当然了,反大数据的人们关注的问题还有,在进一步发展大数据应用时,如何保护用户的隐私?人们不仅要为黑客担心,还不希望看到企业为了利益而侵犯大众隐私。反过来,使用大数据工具的企业们其实也在为数据的真实性而担心,比如招聘时抓取的简历信息会不会有造假成分、抽样来的微博用户是不是雇佣水军炒作话题。

但是,这些与其说是科学问题,不如说是道德问题。

说了这么多,只不过想要说明一个寡淡的真理,任何新兴事物出现的时候必然带有一定泡沫,重要的是在泡沫被拂去之前,你是不是已然醉了?

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-09-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

史上最全人工智能和机器学习会议大盘点

大名鼎鼎的神经信息处理系统大会(Neural Information Processing

1852
来自专栏腾讯研究院的专栏

如果技术是一种生命

image.png 推荐语: 对“技术”这种事物的分析框架,长期以来一直是功能导向和结果导向的,它能做什么,它的原理是什么,它的上下游技术各是什么...

1929
来自专栏数据科学与人工智能

【统计学习】大数据时代,我为什么说统计学依然是数据分析灵魂

在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统...

2127
来自专栏华章科技

在被算法取代前,程序员或将因为物理学家而更早消失

你可能不知道,设计最早的计算机 ENIAC 的 John Mauchly 是物理学家,发明 C 语言的 Dennis Ritchie 也是物理学家。相比没有太多...

863
来自专栏量子位

对话张潼 | 腾讯AI Lab周岁:规模飙至370人,要做后来居上的终结者

安妮 李根 发自 成都街头 量子位 报道 | 公众号 QbitAI 14点开始的分论坛,13点就排起入场长龙,这就是腾讯AI Lab受到的关注度。 这个成立刚...

3847
来自专栏华章科技

大数据思维与三大陷阱

无论基于大数据的精准营销最后谁是赢家,笑到最后的应该是消费者,特别是新一代以网络为家的消费者。

1982
来自专栏钱塘大数据

大数据时代,传统统计学依然是数据分析的灵魂

在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统...

2121
来自专栏量子位

AI造福人类的关键:打造机器的同理心 | 冯雁教授讲座笔记

但知名AI学者冯雁有自己的思考。她既有科技的一面,也站在人文的立场,不止于思,也用实际研究成果不断探索。

741
来自专栏人工智能头条

CCAI 2017 | 专访德国语言技术领军者 Hans Uszkoreit:深度学习还不足以解决 NLP 核心问题

842
来自专栏PPV课数据科学社区

大数据时代,传统统计学依然是数据分析的灵魂

在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统...

35910

扫码关注云+社区

领取腾讯云代金券