一、基本术语
数据集:一组记录的集合
样本/示例:每条记录是关于一个事件或对象的描述
属性/特征:反映事件或对象在某方面的表现或性质的事项
属性值:属性上的取值
样本空间:属性张成的空间
特征向量:将属性视为一个多维坐标,样本就是坐标系里的每个点,所以样本也可称为特征向量
学习/训练:从数据中学习得到模型的过程
训练数据:训练过程中使用的数据,集合称之为“训练集”
假设:学得模型对应了数据某种潜在规律,这种潜在规律自身,是“真实”
标记:训练样本的结果信息
样例:拥有了标记信息的示例
预测的是离散值,称之为“分类”,连续值是“回归”
测试:学得模型后使用其进行预测的过程,被预测的样本是“测试集”
cluster:将训练集的样本分为若干组
学习任务:有监督学习(分类和回归),无监督学习(聚类)
泛化:学得模型适用于新样本的能力
概念学习:也就是通过对样本的学习,获得了某种“概念”,可以通过这种概念去进行简单判断,学习过程就是在一个所有假设组成的空间搜索,搜索找到与训练集匹配的“假设”,也就是概念
归纳偏好:算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其归纳偏好,否则就不会产生确定的结果。
“没有免费的午餐定理”:任何学习算法的总误差与算法本身无关。前提是:所有的“问题”出现的机会相同,或者同等重要。
这个意义在于:脱离实际谈算法优劣是没有意义的
机器学习历史简要归纳:
二十世纪五十年代到七十年代初:“推理期”,也就是认为机器拥有逻辑推理能力,就拥有了智能
二十世纪七十年代中期:“知识期”,使机器拥有知识,也就是所谓的“专家系统”
二十世纪八十年代:机器学习成为独立的学科,“从样例中学习”,符号主义(决策树和基于逻辑的学习)
二十世纪九十年代中期以前:基于神经网络的连接主义学习,“试错性”,依赖于调参
二十世纪九十年代中期:“统计学习”,支持向量机,核技巧
二十一世纪初:“深度学习”,原因是运算力和数据多了