一、机器学习的应用---大数据
机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。正是基于机器学习技术的应用,数据才能发挥其魔力。大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术。对于机器学习而言,越多的数据会越 可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。大数据并不等同于机器学习,同理,机器学习也不等同于大数据。大数据中包含有分布式计算,内存数据库,多维分析等等多种技术。单从分析方法来看,大数据也包含以下四种分析方法:
1、大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。
2、大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。 机器学习仅仅是大数据分析中的一种而已。
3、流式分析:这个主要指的是事件驱动架构。
4、查询分析:经典代表是NoSQL数据库。
二、机器学习的子类---深度学习
深度学习这四字听起来颇为高大上,但其理念却非常简单,就是传统的神经网络发展到了多隐藏层的情况。神经网络在隐藏层扩大到两个以上,其训练速度就会非常慢。
1、多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;
2、深度神经网络在训练上的难度,可以通过“逐层初始化” 来有效克服。
具有多个隐藏层的神经网络被称为深度神经网络,基于深度神经网络的学习研究称之为深度学习。
三、以下是最常用的机器学习算法,大部分数据问题都可以通过它们解决。
1、线性回归 (Linear Regression)
2、逻辑回归 (Logistic Regression)
3、决策树 (Decision Tree)
4、支持向量机(SVM)
5、朴素贝叶斯 (Naive Bayes)
6、K邻近算法(KNN)
7、K-均值算法(K-means)
8、随机森林 (Random Forest)
9、降低维度算法(DimensionalityReduction Algorithms)
10、GradientBoost和Adaboost算法
四、开发机器学习应用程序的步骤
(1)收集数据
我们可以使用很多方法收集样本护具,如:制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据。
(2)准备输入数据
得到数据之后,还必须确保数据格式符合要求。
(3)分析输入数据
这一步的主要作用是确保数据集中没有垃圾数据。如果是使用信任的数据来源,那么可以直接跳过这个步骤
(4)训练算法
机器学习算法从这一步才真正开始学习。如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容在第(5)步。
(5)测试算法
这一步将实际使用第(4)步机器学习得到的知识信息。当然在这也需要评估结果的准确率,然后根据需要重新训练你的算法
(6)使用算法
转化为应用程序,执行实际任务。以检验上述步骤是否可以在实际环境中正常工作。如果碰到新的数据问题,同样需要重复执行上述的步骤。