【MachineLN之三要素】

开篇废话:

机器学习解决的问题和李航老师统计学习方法所描述的统计学问题不谋而合。李航定义为统计学习三要素:方法=模型+策略+算法。这不光是统计学习必经之路,这也是ML、DL三大关键所在,如果你这三块系统化了以后,都可以往里套。

学习机器学习必由之路:(1)模型。(2)策略。(3)算法。

那么我的理解:

(1)模型

模型:官方一点就是:所要学习的条件概率或决策函数;譬如一个数学问题就是你针对解决问题列的方程组,而对于统计学来说就是我们常见的:感知机、K近邻、贝叶斯、决策树、逻辑回归、SVM等,有人就会说这不都是机器学习模型啊,我可以告诉你还真是,在不同的领域叫法是有点差别的,在经济里的统计系那么就是统计模型,在cv,nlp就是ML模型,自己瞎猜的,如果不对欢迎指出;在DL中的模型就是CNN、RNN、DNN、RBM等等。

(2)策略

策略:就是说你这个模型想让它按照怎么样的准则去学习,然后选择你认为的最优模型。(这地方为什么加个你认为,这就是关键,因为同一个模型有人最后只能做到98%,而有人做到99%,当然track很多,data augmentation还是必要的)其实策略就是我们通常说的损失函数(loss function)、代价函数(cost function)等,主要有:0-1损失函数,平方损失函数,绝对损失函数,对数损失函数,交叉熵等,其实这一些在推荐系统中也称之为相似度(也可以称为距离)的度量方法,简单一点像基于用户的相似度,基于商品相似度等,其实就是求的距离,那么求距离的方法就多了:欧式距离、马氏距离、汉明距离、余弦距离、皮尔逊距离等,其实很多东西都是相通的。如果你理解到这里我感觉你已经入门了,“昨夜西风调碧树,独上高楼,望尽天涯路”。(我这人喜欢吹牛逼,爱吹不要紧,一定要落实,否则前功尽弃,做自己做好自己)

当然李航老师书中还提到了经验风险和结构风险,结构风险其实就是加正则化,或者惩罚项,有:L1、L2、dropout等等。

(3)算法

算法:通俗一点就是解决问题的方法,一提到算法大家很快想到的是:排序、贪心、最短路径、字符串匹配等等,而这里的算法是你选择的使策略最小化的方法,有最小二乘法、牛顿法(想多了解一些数学可以看看泰勒级数,有时面试会问到)、梯度下降等,同样你要选择适合你的模型的优化方法,ML和DL有很多优化方法,不要迷失了方向,适合自己的才是最好的。

(4)总结

当你这三块都很了解了,那么你就可以启程远航了,恭喜你到了第二境界:“衣带渐宽终不悔,为伊消得人憔悴”,惭愧的是目前鄙人还停留在“昨夜西风调碧树,独上高楼,望尽天涯路”。

——2017年最后一篇文章

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 百度提出NCRF:深度学习癌症图像检测效率再提升

NCRF 项目已开源:https://github.com/baidu-research/NCRF

1160
来自专栏新智元

【突破】深度学习计算消耗降低95%,KDD2017哈希法研究加速神经网络进化

【新智元导读】 莱斯大学两位研究员使用一种基于 Hashing 的新技术,大幅减少了训练和测试神经网络所需的计算量。他们称:“1000 个神经元的网络我们能节能...

4159
来自专栏大数据文摘

秒懂词向量Word2vec的本质

4726
来自专栏机器之心

业界 | 分子性质预测新突破:谷歌新型神经网络助力化学研究

选自Google Research Blog 作者:George Dahl 机器之心编译 参与:吴攀 理论上讲,由原子构成的分子种类的数量是无穷大的。要了解这些...

40610
来自专栏张俊红

信用卡“坏账”客户分析(二)

总第98篇 信用卡“坏账”客户分析(二)终于来了,本篇主要针对信用卡客户进行建模,建立评分卡,给每个客户进行打分,通过该客户的得分来判断该客户的“好坏”。 传送...

1.3K8
来自专栏美团技术团队

【AI in 美团】深度学习在文本领域的应用

AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技...

2532
来自专栏AI科技评论

陈陟原:数据降维与可视化| AI 研习社第 53 期猿桌会

相信大多数人都已经接触过数据可视化——Excel 随便画一张表就是了。众所周知,二维数据可视化很容易,条形图、饼状图等等,我们在初中就已经学过了。那么三维数据呢...

1302
来自专栏量化投资与机器学习

【贝叶斯系列】在研究机构如何应用贝叶方法论进行量化投资

贝叶斯方法与量化投资 贝叶斯方法在量化投资中有哪些应用股票分类 市场趋势识别 波动率估计 投资组合风险 股票分类 构造投资组合的方法是买入好的 股票(未来收...

3599
来自专栏量子位

“花书”的佐餐,你的线性代数笔记

最近,巴黎高等师范学院的博士生Hadrien Jean,整理了关于深度学习“花书”的一套笔记,还有幸在推特上被Ian Goodfellow老师翻了牌。

1012
来自专栏人工智能头条

机器学习 —— 浅谈贝叶斯和MCMC

2462

扫码关注云+社区

领取腾讯云代金券