【观点】大数据会给很多人新的机会,但也会让一些经典模型黯然失色

本文是微软亚洲研究院主管研究员 上海交通大学讲座教授郑宇对大数据一些粗浅的看法和认知:

1. 大数据可以消除不同行业之间因为理论差异而带来的鸿沟。不同行业的理论可能差异很大,但在数据层面上可以对话,数据可以共享和交流,数据蕴含的知识可以共有。

2. 大数据可以降低解决方案对行业理论的依赖。即便不具备深厚的行业背景知识,也有可能依靠数据来解决实际问题。

3. 大数据与经典模型并不矛盾。传统的经典模型也是在观测到一些现象(其实就是数据)后,依靠人的经验,用一些简单的方程做一些近似拟合和逼近数据。由于之前的数据很有限,得到的模型可能会存在偏差,对人的经验的依赖程度大。现在数据量大了,我们同样还是在更大的观测上来拟合一些方程,只是这个方程会很复杂,超过了人们单纯依靠脑力来直接构造方程的能力。因此,需要依靠一些数据挖掘的方法来发现一些数据间存在的复杂关系。从另一方面讲,这个模型虽然不一定漂亮,但会更准确些。

4. 大数据才刚刚开始。在高度信息化的时代,数据产生的方式越来越多、产生代价也越来越低。数据的极大丰富将为大数据提供更持久和活跃的生命力。

5. 大数据会给很多人新的机会,但也会让一些经典模型黯然失色。因此,并不是所有人都欢迎大数据。

大数据的误区:

1. 大数据不是单一量很大的数据。多种异构数据的融合才是王道。

2. 大数据不一定是全数据。我们拿到的总是数据的一部分样本。如何从部分样本恢复整个数据的特性,是一个难点。

3. 大数据与数据稀疏性不矛盾。随着同时使用的数据种类(维度)的增加,稀疏性问题可能会加剧。如何解决数据的稀疏性问题,也是难题。

4. 大数据也不一定是越多越好。虽然很多数据挖掘模型会自动忽略一些不相关数据,但这些不相关数据会占用不必要的资源,影响效率,并增加挖掘的难度。依靠行业背景知识来筛选相关数据将会提高数据挖掘的效率和精准度。大数据时代,我们仍然需要insight。

5. 大数据不只是机器学习的事,需要考虑效率和深度的折中,数据管理和数据挖掘的结合。一方面,不计成本的数据分析没有太大意义。10台机器能干的事情,却要用100台机器,这样没有道理。另一方面,很多场景下,容不得我们慢慢来分析,结果就需要在几秒内产生,比如交通流量的预测、空气质量的预警。只有对大数据做好有效的管理,才有可能做到实时的深度挖掘。数据库和机器学习两个领域的同行,是时候坐到一起来沟通了。真正有用的大数据系统需要两方面知识无缝的融合。

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-06-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

干货:必读机器学习书籍一览表

【导读】转眼之间春节假期已所剩无几,大家是否也开始制定新一年的学习计划?本文就为大家推荐一个机器学习书单,其中大多数可以免费观看,并附上pdf链接。书单内容包括...

368110
来自专栏专知

CMU邢波教授:基于双向语言模型的生物医学命名实体识别,无标签数据提升NER效果

【导读】生物医学文本挖掘领域近年来受到越来越多的关注,这得益于,科学文章,报告,医疗记录的电子化,使医疗数据更容易得到。这些生物医学数据包含许多生物和医学实体,...

65470
来自专栏ThoughtWorks

常用的几种大数据架构剖析 | 洞见

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词...

44560
来自专栏Python小屋

Python使用K-means聚类算法进行分类案例一则

K-means算法是经典的基于划分的聚类方法,是十大经典数据挖掘算法之一,其基本思想是:以空间中k个点为中心进行聚类,对最靠近它们的对象归类。通过迭代的方法,逐...

32660
来自专栏程序源代码

大白话Scrapy爬虫

这两年爬虫技术应用比较火,最近在学习Scrapy,学习中写了一些笔记,分享给大家。写的不好多多包涵。 一、Scrapy蜘蛛框架 Scrapy是一个...

41770
来自专栏机器人网

一图向菜鸟解释机器学习、数据挖掘

随着数据科学在人工智能发展中大放异彩,数据挖掘、机器学习进入了越来越多人的视野。而对于很多人来说,诸如机器学习之类的名次听起来是神乎其技,但其真正的内涵却不为一...

30970
来自专栏小小挖掘机

数据城堡参赛代码实战篇(三)---我们来探究一个深奥的问题!

每天12点是小编最激动的时候,因为自己写的帖子又可以与大家见面啦,昨天把帖子传到某个大神组织的数据挖掘交流群时,某挖掘机朋友问了小编一个深刻的问题,题目看似很简...

38450
来自专栏CDA数据分析师

数据分析从哪里开始入门学习,可以推荐的书有哪些?

数据行业在迅速的发展,几乎每天都会出现新的技术和方法。因此,想要跟上这个行业的步伐是有挑战性的。之前CDA数据分析师曾列出了15位在科技和数据科学领域最具影响力...

44650
来自专栏数据科学学习手札

(数据科学学习手札08)系统聚类法的Python源码实现(与Python,R自带方法进行比较)

聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括...

30150
来自专栏专知

【观点】漫谈推荐系统及数据库技术(二)——分布式数据库技术

【导读】推荐系统和数据库技术,一个是偏机器学习数据挖掘相关的应用,一个是偏系统存储相关的技术,这两者在实际中有很大的应用。上一次专知推出漫谈推荐系统及数据库技术...

41290

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励