【陆勤阅读】数据分析的主要困难与算法的重要性

数据分析的主要困难

我们碰到的数据通常有这样几个特点。一是数据量大。大家只要想一想,万维网上有多少网页,这些网页上有多少数据,就可以对现在碰到的数据量之大有点感觉了。第二是维数高。前面提到的SNP数据是64万维的。第三是类型复杂,比方说这些数据可以是网页或报纸,也可以是图像,视频。第四是噪音大。

这里面最核心的困难是维数高。维数高给我们带来的是维数诅咒(curse of dimension):模型的复杂度和计算量随着维数的增加而指数增长。例如非参数化的模型中参数的个数会随着维数的增加而指数增长。

怎样克服维数高带来的困难?通常有两类方法。一类方法就是将数学模型限制在一个极小的特殊类里面,如线性模型,如假设概率密度遵循正态分布,如假设观测到的时间序列是隐式马氏过程等。另一类方法是利用数据可能有的特殊结构,例如稀疏性,低维或低秩,光滑性等等。这些特性可以通过对模型作适当的正则化而实现。当然,降维方法也是主要方法之一。

总而言之,数据分析本质上是一个反问题。因此,处理反问题的许多想法,如正则化,在数据分析中扮演了很重要的角色。这也正是统计学与统计力学的不同之处。统计力学处理的是正问题,统计学处理的是反问题。

算法的重要性

跟模型相辅相成的是算法以及这些算法在计算机上的实现。特别是在数据量很大的情况下,算法的重要性就显得尤为突出。

从算法的角度来看,处理大数据主要有两条思路。

一是降低算法的复杂度,即计算量。通常我们要求算法的计算量是线性标度的,也就是说计算量跟数据量成线性关系。但很多关键的算法,尤其是优化方法,还达不到这个要求。对特别大的数据集,例如说万维网上的数据或社交网络数据,我们希望能有次线性标度的算法,也就是说计算量远小于数据量。这就要求我们采用抽样的方法。但怎样对这样的数据进行抽样,比方说对社交网络进行抽样,仍还是一个未解决的问题。

第二条思路是云计算,或并行计算,它的基本想法是把一个大问题分解成很多小问题,然后分而治之。著名的MapReduce软件就是一个这样的例子。

下面举几个典型的算法方面的例子。这些例子来自于2006年IEEE国际数据挖掘会议所选举出来的数据挖掘领域中的10个最重要的算法。

(1)k-平均(k-means)方法。这是对数据作聚类的最简单有效的方法。

(2)支持向量机:一种基于变分(或优化)模型的分类算法。

(3)期望最大化(EM)算法。这个算法的应用很广,典型的是基于极大似然方法(maximum likelihood)的参数估计。

(4)谷歌的网页排序算法,PageRank。它的基本想法是:网页的排序应该是由网页在整个互联网中的重要性决定。从而把排序问题转换成一个矩阵的特征值问题。

(5)贝叶斯方法。这是概率模型中最一般的迭代法框架之一。它告诉我们怎样从一个先验的概率密度模型,结合已知的数据来得到一个后验的概率密度模型。

(6)k-最近邻域方法。用邻域的信息来作分类。跟支持向量机相比,这种方法侧重局部的信息。支持向量机则更侧重整体的趋势。

(7)AdaBoost。这个方法通过变换权重,重新运用数据的办法,把一个弱分类器变成一个强分类器。

其它的方法如决策树方法和用于市场分析的Apriori算法,以及用于推荐系统的合作过滤方法,等。

就现阶段而言,对算法的研究被分散在两个基本不相往来的领域里:计算数学和计算机科学。计算数学研究的算法基本上是针对像函数这样的连续结构。其主要的应用对象是微分方程等。计算机科学处理的主要是离散结构,如网络。而数据的特点介于两者之间。数据本身当然是离散的。但往往数据的背后有一个连续的模型。所以要发展针对数据的算法,就必须把计算数学和计算机科学研究的算法有效地结合起来。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

取代MNIST?德国时尚圈的科学家们推出基准数据集,全是衣裤鞋包

李林 编译整理 量子位 报道 | 公众号 QbitAI MNIST,是一个手写数字数据集,除了用在机器学习入门的教学中,它还是对机器学习算法进行基准测试的常用数...

3517
来自专栏CDA数据分析师

精准营销神器之客户画像,你值得拥有!

现如今越来越多的用户偏爱线上交易,越来越少的人会选择去银行网点咨询,银行业要如何精准营销呢?相比传统的问卷调查,大数据金融科技可以更好地为银行赋能。

3253
来自专栏新智元

【Kaggle冠军分享】图像识别和分类竞赛,数据增强及优化算法

【新智元导读】Kaggle 海洋鱼类识别和分类竞赛冠军团队技术分享:如何设计鲁棒的优化算法?如何分析数据并做数据增强?技术细节包括使用不同船只的图像进行验证,以...

4978
来自专栏AI科技评论

干货 | 深度学习的可解释性研究(一):让模型「说人话」

不以人类可以理解的方式给出的解释都叫耍流氓,因此,我们要让模型「说人话」。只要记住这三个字,你就差不多把握了可解释性的精髓所在。

1353
来自专栏人工智能头条

CCAI 2017 | 日本理化学研究所先进智能研究中心主任杉山将:弱监督机器学习的研究进展

944
来自专栏CVer

[计算机视觉论文速递] 2018-06-19 目标检测专场

这篇文章有 4篇论文速递,都是目标检测方向,包括行人检测、车辆检测、指纹检测和目标跟踪等。

1332
来自专栏BestSDK

机器学习精华,10问10答

给新人的学习建议 1. 你建议其他领域的人(比如机械工程)来学习机器学习吗? Ian Goodfellow:当然了!我最崇拜的Geoffrey Hinton在...

3646
来自专栏数据派THU

悉尼大学陶大程:遗传对抗生成网络有效解决GAN两大痛点

悉尼大学教授、澳大利亚科学院院士、优必选人工智能首席科学家陶大程博士在9月20日的AI WORLD 2018世界人工智能峰会上发表《AI破晓:机遇与挑战》的主题...

1795
来自专栏AI科技评论

纽约大学神经学教授Eero Simoncelli万字解析:机器生成的图像为何能骗过你的眼睛?

AI科技评论按:在刚刚闭幕的ICLR2017上,纽约大学神经学、数学、心理学教授Eero Simoncelli作为特邀嘉宾分享了他在机器表征、人类感知方面的研究...

4468
来自专栏镁客网

黑科技 | 看不清摸不著还能识别出物体,目标算法让机器人更聪明

1704

扫码关注云+社区

领取腾讯云代金券