注:这是一份学习笔记,记录的是参考文献中的可扩展机器学习的一些内容,英文的PPT可见参考文献的链接。这个只是自己的学习笔记,对原来教程中的内容进行了梳理,有些图也是引用的原来的教程,若内容上有任何错误,希望与我联系,若内容有侵权,同样也希望告知,我会尽快删除。
可扩展机器学习系列主要包括以下几个部分:
对于不断扩大的数据规模主要有两种不同的处理方法:
优点:对于中等规模的问题速度会很快
缺点:1、特定硬件的价格会比较贵;2、通过升级硬件的方法会达到一个上限。
优点:仅利用一些常用的硬件便能解决大规模问题
缺点:1、需要处理网络通信的问题;2、增加了一些软件的复杂度。
机器学习是一种构建和学习的方法,从数据中学习并通过数据进行预测。
Constructing and studying methods that learn from and make predictions on data.
在机器学习中有一些专业的术语,常见的如下:
在各种机器学习算法中,主要可以分为监督学习(Supervised Learning)和非监督学习(Unsupervised Learning)。
在监督学习中,主要包括获取数据、特征提取、监督学习、评价和预测。过程可见下图:
学习的目的是为了学习到模型用于预测,而评价的目的是为了学习到较好的模型。对于一个具体的分类问题,如垃圾邮件的分类,欺诈检测,人脸识别,链路预测,点击率预估等等。
对于无监督学习,无需通过样本标签训练模型,主要包括获取数据、特征提取和无监督学习过程,具体无监督学习过程如下所示:
下面是垃圾邮件的分类问题。
对于机器学习算法来说,成功与否通常取决于对观测样本的表示,即如何选择较好的特征表示。
如在垃圾邮件的分类任务中(文本分类),可以使用Bag of Words。简单来讲,Bag of Words是将文本使用一串向量表示,每一个位置上表示的是字典(Vocabulary)中的每个词,若该词在文本中出现,则在该位置上标记为11,否则标记为00。
词袋模型中的向量长度取决于字典的大小。
具体的过程可由下图表示:
在这个过程中,要避免模型的过拟合(overfitting),过拟合是指训练出来的模型较为复杂,能够在训练数据集上表现的很好,这种情况下极容易发生过拟合的情况,一般,我们希望模型要尽可能的简单,这样能够具有更好的泛化能力,复杂的模型与简单的模型如下图所示:
对于一个具体的分类问题,为了构建一个分类学习算法,首先需要对数据集进行分类,分为训练集合测试集,训练集用于训练分类算法模型,测试集用于测试训练好的分类学习算法的性能,对于训练好的分类算法,我们的最终目的是将该算法应用在具体的任务中,因此对于新的数据集的预测是构建分类算法的根本目的,对于分类算法的具体的流程可由下图表示:
大OO标记表示的是算法对问题规模的响应,主要包括两个方面,即处理时间个空间需求,通常与复杂度是一个概念。
对于一个问题,假设有下式成立:
|f(x)|≤C|g(x)|
\left | f\left ( x \right ) \right |\leq C\left | g\left ( x \right ) \right |
上式表示的意思是ff增长的速度没有gg快,利用大OO记法,可以表示为:
f(x)=O(g(x))
f\left ( x \right )=O\left ( g\left ( x \right ) \right )
O(1)O\left ( 1 \right )复杂度是指的是常数复杂度,对于时间,则为每次执行时,算法都执行了相同的数量的操作;对于空间,则为在每次执行的过程中,需要固定大小的存储空间。
O(n)O\left ( n \right )复杂度是指的是线性复杂度
O(n2)O\left ( n^2 \right )复杂度指的是平方复杂度
对于nn维向量的内积,需要O(n)O\left ( n \right )的时间复杂度去计算nn对元素的相乘,需要O(1)O\left ( 1 \right )的空间复杂度存储最终的结果。
对于n×nn\times n矩阵的求逆,需要O(n3)O\left ( n^3 \right )的时间复杂度,需要O(n2)O\left ( n^2 \right )的空间复杂度存储最终的结果。
对于n×mn\times m矩阵和m×1m\times 1维向量的乘积问题,需要O(nm)O\left ( nm \right )的时间复杂度和O(n)O\left ( n \right )的空间复杂度。
对于n×mn\times m矩阵和m×pm\times p矩阵的乘积问题,需要O(npm)O\left ( npm \right )的时间复杂度和O(np)O\left ( np \right )的空间复杂度。
若需要PDF版本,请关注我的新浪博客@赵_志_勇,私信你的邮箱地址给我。