机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)
说起函数就涉及到自变量和因变量,在机器学习中,把自变量叫做特征(feature)多个自变量分别可以定义为X1,X2..Xn,因变量叫做标签(label),可定义为y,而一批特征和标签的集合,就是机器学习的数据集。
机器学习的学习过程就是在已知的数据集的基础上,通过反复的计算,选择最准确的函数去描述数据集中自变量X1,X2....Xn 和因变量Y之间的因果关系。这个过程就称之为机器学习的训练也叫拟合。
这里还需要明确几个概念,训练集、验证集、测试集
训练集,最开始用来训练的数据集被称为训练集。
验证集,验证模型是否能够被推广、泛化,评估模型是否过拟合
测试集,用来评估模最终模型的泛化能力,相当于举一反三的能力
主要分类是根据机器学习在训练过程中是否有标签。
分类算法:逻辑回归、决策树分类、SVM分类、贝叶斯分类、随机森林、XGBoost、KNN...
回归算法:线性回归、 决策树回归、SVN回归、贝叶斯回归...
降维算法、聚类算法...
半监督分类、半监督回归、半监督聚类、半监督降维
Q-learning,SARSA,深度强化网络、蒙特卡洛学习...
如何理解深度学习?
常说的深度学习是一种使用深层神经网络的模型,可以应用于上述四类机器学习中,深度学习擅长处理非结构化输入,在视觉处理和自然语言处理方面都很厉害。
深度学习,能对非结构的数据集进行自动的复杂特征提取,完全不需要人工干预。
做机器学习项目,首先要先明确要解决的问题,其次,再针对问题选择一个算法,然后用对数据进行训练,找到一族函数中最合适的那一个形成最后的模型。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。