安德鲁•W•穆尔简介 卡耐基梅隆大学的计算机科学学院院长,机器学习、人工智能、机器人技术,大数据统计计算行业背景,热爱算法和统计,最喜欢机器人技术。 曾在机器人控制,生产制造,强化学习,天体物理学算法,防恐,网络广告,网络点击率的预测,电子商务的监控算法,物流等领域工作过。 我热爱的技术(算法,云架构,统计,机器人,语言技术,机器学习,计算生物学,人工智能和软件开发过程)对社会的未来的影响。我们很幸运的生活在这样一个激动人心的充满变化的时代。 以下的一些链接指向了一套关于数据挖掘的很多方面的教程,包含了概率的基础、基本的统计数据分析,以及最经典的机器学习和数据挖掘算法。 这些链接还包含了分类的算法如决策树、神经网络、贝叶斯分类、支持向量机和基于实例(包含非参数)的学习。它们包含了回归分析算法如多元回归分析、MARS、局部权重回归分析、GMDH神经网络以及神经网络。而它们还包含了其它的数据挖掘操作如集群(混合模型、k均值和层次)、贝叶斯网络和强化学习。 我希望它们对你来说都是有用的(还有,让我知道如果它们确实如此,或者你有一些建议要提出或者是纠错)。点击这里,就会看到一个关于这个标题的一个小小的列表。 决策树:
决策树是目前使用最多、最广泛的分类算法,尤其在现在的数据挖掘和机器学习中。这个教程可以被看作一本自包含的富有特色的导论,同时一些数据挖掘的术语不需要回顾很多的统计学或概率先决条件的内容。如果你是一名数据挖掘新生,你会喜欢它,但是当你掌握更多后,你觉得这一切是简单的。等你在定义分类工作的时候,我们会解释信息的获取(下一个安德鲁的教程)可以被用来寻找预测输入的属性。我们展示了如何应用这些递归过程允许我们建立一棵决策树来预测未来所发生的事。然后我们仔细的观察这个问题是如此的基础,这是基于统计学和机器学习中一个这样的理论:它已经把数据匹配的相当不错,以及简洁的奥卡姆剃刀模型,尽管在匹配数据方面做得不是这么好(这个话题会在后面安德鲁的教程中会再次被提到,包括交叉验证和VC维)。我们还讨论了在基本决策树实现进行广泛地改进和调整 。 信息获取:
这本教程逐步的讲述了一些来自于已经引导了信息的获取的信息理论的一些想法。其中一个最流行的关联衡量方法目前应用在数据挖掘方面。我们参观熵和条件熵的理论一路走来,在只看高斯的讲座关于连续概率密度函数时会讨论熵。 数据挖掘者的概率:
这本教程回顾了概率从基本的层面上讲起。按理说,在进入先进的数据挖掘、机器学习和应用统计学算法以前,一个有用的投资就是先乐意学习下概率。此外,为了给一些可以在以往的教程中不断被使用的方法搭建一个平台,这本教程把密度估计的概念作为重点的操作进行介绍,然后又介绍了一些贝叶斯分类的内容,如过度拟合倾向联合密度贝叶斯分类器,和过拟合性朴素贝叶斯分类器。 概率密度函数:
回顾一下你的学习过程,你之前可能遇到过这样的一些函数:实数值随机变量,概率密度函数,以及如何应对多元(即高维)的概率密度。在这里,你可以回顾一些内容,如期望、协方差矩阵,独立,边缘分布和条件分布。一旦你对这些东西很感兴趣,你也许不会成为一名数据挖掘分析师,但是你已经掌握了一些工具从而能让你很快加入到他们的队伍中。 高斯:
高斯,无论是友好的单变量种类,以及略沉默寡言,但是,漂亮的,当您知道他们的多元在很多统计数据挖掘方面都是非常有用的,而这包括了很多数据挖掘模型,而这些模型来自于高度非高斯的数据的假设。你需要与高斯多元打交道。 品言译,陆勤审,ppv课原创翻译文章,转载请注明出处链接!
点击底部“阅读原文”下载PDF文档
1、回复“数据分析师”查看数据分析师系列文章
2、回复“案例”查看大数据案例系列文章
3、回复“征信”查看相关征信的系列文章
4、回复“可视化”查看可视化专题系列文章
5、回复“SPPS”查看SPSS系列文章
6、回复“答案”查看hadoop面试题题目及答案
7、回复“爱情”查看大数据与爱情的故事
8、回复“笑话”查看大数据系列笑话
9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载
PPV课大数据ID: ppvke123 (长按可复制)
大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!