首页
学习
活动
专区
工具
TVP
发布

决胜机器学习

专栏作者
219
文章
278539
阅读量
105
订阅数
神经网络和深度学习(二) ——从logistic回归谈神经网络基础
神经网络和深度学习(二)——从logistic回归谈神经网络基础 (原创内容,转载请注明来源,谢谢) 一、概述 之前学习机器学习的时候,已经学过logistic回归,不过由于神经网络中,一些思想会涉及到logistic,另外会拿一些神经网络用到的解决方案,以logistic来举例,更浅显易懂(例如BP算法)。 因此,这里就再次复习logistic回归及其梯度下降、代价函数等,主要是讲述和后面学习神经网络有关的内容,其他部分会快速略过。 二、logistic输出函数 logistic是解决
用户1327360
2018-03-07
1.6K0
从机器学习学python(四) ——numpy矩阵广播及一些技巧
从机器学习学python(四)——numpy矩阵广播及一些技巧 (原创内容,转载请注明来源,谢谢) 在学ng的深度学习微专业时,其中有几节课讲到numpy的一些基本用法,主要是广播。 1、基本运算 考虑下面一个3*4的矩阵,要给每列求和,并且要求出每个元素占本列的百分比,这里不需要用到for循环,直接用numpy的方法即可。 假设矩阵A是3*4的矩阵,则B=A.sum(axis=0)返回的是对矩阵A每一列求和结果的行向量,同理A.sum(axis=1) 返回的是对矩阵A每一行求和结果的列向量。 接下
用户1327360
2018-03-07
1.6K0
从机器学习学python(四) ——numpy矩阵基础
从机器学习学python(四)——numpy矩阵基础 (原创内容,转载请注明来源,谢谢) 一、numpy中matrix 和 array的区别 Numpymatrices必须是2维的,但是 numpy arrays (ndarrays) 可以是多维的(1D,2D,3D····ND). Matrix是Array的一个小的分支,包含于Array。所以matrix 拥有array的所有特性。 在numpy中matrix的主要优势是:相对简单的乘法运算符号。例如,a和b是两个matrices,那
用户1327360
2018-03-07
1.4K0
从机器学习学python(三) ——数组冒号取值与extend
从机器学习学python(三)——数组冒号取值与extend (原创内容,转载请注明来源,谢谢) 一、数组冒号取值 1、 小白级别 python的特有取值方式,假设数组a = [0,1,2,3,4],则: b=a[:3]表示b取数组a第四个元素之前的元素,即b=[0,1,2] c=a[:-1]则表示取a最后一个元素前面的所有元素,即c=[0,1,2,3] 原理是因为冒号前面带0的可以省略掉。 2、困难级别 b=array( [ [ [ 0, 1, 2, 3]
用户1327360
2018-03-07
1.5K0
从机器学习学python(二) ——iteritems、itemgetter、sorted、sort
从机器学习学python(二)——iteritems、itemgetter、sorted、sort (原创内容,转载请注明来源,谢谢) 一、iteritems 这个方法由python的dict类型可以调用,dict.iteritems()是一个生成器(迭代器)的概念,类比php的generator,其只会返回当前结果,并且将变量指向dict的下一个元素的指针,可以在while、for语句中,通过next方法不断获取其下一个元素。 这种局部返回的方式,对于大数组的局部读取而言,速度较快,占用内存空间少。
用户1327360
2018-03-07
7890
从机器学习学python(一) ——numpy中的shape、tile、argsort
从机器学习学python(一)——numpy中的shape、tile、argsort (原创内容,转载请注明来源,谢谢) 注:本系列是我在学习机器学习过程中,遇到的python的没见过的语法或函数,在此进行学习。当前我主要学习的语言还是php和java,对于python,我目前的打算是遇到没见过的就学一下,暂时还没打算太深入学习这个语言。 一、shape shape返回的是数组的行、列数。 例如,a.shape()返回的是[2,3],表示a数组是2行3列的数组。a.shape[0]表示
用户1327360
2018-03-07
1.1K0
机器学习(二十五) ——adaboost算法与实现
机器学习(二十五)——adaboost算法与实现 (原创内容,转载请注明来源,谢谢) 一、概述 当进行监督学习时,除了使用某个分类器外,还可以将各个分类器结合起来使用,或者多次使用某个分类器,也可以是数据集分给不同的分类器后进行集成。本文主要介绍基于同一种分类器多个不同实例的方法,基础算法基于单层决策树。 二、bagging 首先,先介绍bagging算法,这个算法是一种自举汇聚法,方法如下: 1)获取数据源 假设样本容量为m,则进行m次放回抽样(即每次抽到样本后再将样本放回),获
用户1327360
2018-03-07
1.1K0
机器学习(二十四) ——从图像处理谈机器学习项目流程
机器学习(二十四)——从图像处理谈机器学习项目流程 (原创内容,转载请注明来源,谢谢) 一、概述 这里简单讨论图像处理的机器学习过程,主要讨论的是机器学习的项目流程。采用的业务示例是OCR(photo optical character recognition,照片光学字符识别),通过一张照片,识别出上面所有带字符的内容。 二、机器学习流水线 对于一个业务项目,通常机器学习是其中一部分的内容,对于整个项目而言,相当于一个流水线(pipeline)。 对于OCR,主要流水线为:1-获取照片->2-字符串
用户1327360
2018-03-07
1.3K0
机器学习(二十三) —— 大数据机器学习(随机梯度下降与map reduce)
机器学习(二十三)——大数据机器学习(随机梯度下降与map reduce) (原创内容,转载请注明来源,谢谢) 一、概述 1、存在问题 当样本集非常大的时候,例如m=1亿,此时如果使用原来的梯度下降算法(也成为批量梯度下降算法(batch gradient descent),下同),则速度会非常慢,因为其每次遍历整个数据集,才完成1次的梯度下降的优化。即计算机执行1亿次的计算,仅仅完成1次的优化,因此速度非常慢。 2、数据量考虑 在使用全量数据,而不是摘取一部分数据来做机器学习,首先需要考虑的是算法的学
用户1327360
2018-03-07
1.2K0
机器学习(二十二) ——推荐系统基础理论
机器学习(二十二)——推荐系统基础理论 (原创内容,转载请注明来源,谢谢) 一、概述 推荐系统(recommendersystem),作为机器学习的应用之一,在各大app中都有应用。这里以用户评价电影、电影推荐为例,讲述推荐系统。 最简单的理解方式,即假设有两类电影,一类是爱情片,一类是动作片,爱情片3部,动作片2部,共有四个用户参与打分,分值在0~5分。 但是用户并没有对所有的电影打分,如下图所示,问号表示用户未打分的电影。另外,为了方便讲述,本文用nu代表用户数量,nm代表电影数量,r(i,j)=
用户1327360
2018-03-07
1.2K0
机器学习(二十一) ——高斯密度估计实现异常检测
机器学习(二十一)——高斯密度估计实现异常检测 (原创内容,转载请注明来源,谢谢) 一、概述 异常检测(anomalydetection),主要用于检查对于某些场景下,是否存在异常内容、异常操作、异常状态等。异常检测,用到了一个密度估计算法(density estimation)——高斯分布(Gaussian distribution),又称正态分布(normal distribution)。 该算法只用到了样本的特征值,不需要分类标签,故该算法是无监督学习算法 主要内容是,对于样本集,当有一个新的数
用户1327360
2018-03-07
3.9K0
机器学习(二十) ——PCA实现样本特征降维
机器学习(二十)——PCA实现样本特征降维 (原创内容,转载请注明来源,谢谢) 一、概述 所谓降维(dimensionalityreduction),即降低样本的特征的数量,例如样本有10个特征值,要降维成5个特征值,即通过一些方法,把样本的10个特征值映射换算成5个特征值。 因此,降维是对输入的样本数据进行处理的,并没有对预测、分类的结果进行处理。 降维的最常用的方法叫做主成分分析(PCA,principal component analysis)。最常用的业务场景是数据压缩、数据可视化。该方法只
用户1327360
2018-03-07
2.4K0
机器学习(十九) ——K-均值算法理论
机器学习(十九)——K-均值算法理论 (原创内容,转载请注明来源,谢谢) 一、概述 K均值(K-Means)算法,是一种无监督学习(Unsupervisedlearning)算法,其核心是聚类(Clustering),即把一组输入,通过K均值算法进行分类,输出分类结果。 由于K均值算法是无监督学习算法,故这里输入的样本和之前不同了,输入的样本只有样本本身,没有对应的样本分类结果,即这里的输入的仅仅是{x(1),x(2),…x(m)},每个x没有对应的分类结果y(i),需要我们用算法去得
用户1327360
2018-03-07
9480
机器学习(十五) ——logistic回归实践
机器学习(十五)——logistic回归实践 (原创内容,转载请注明来源,谢谢) 一、概述 logistic回归的核心是sigmoid函数,以及分类方式。当sigmoid值大于0.5时,判断结果为1,小于0.5时判断结果为0。公式为g(z)=1/(1+e-z)。其中,z=w0x0+w1x1…+wnxn,w为x的权重,其中x0=1。 决策边界是用于区分分类结果的一条线,线的两边代表分类的两种结果。 之前提到logistic,是使用梯度下降算法,用于获取代价函数J最小值时的参数。现在使用梯
用户1327360
2018-03-07
6730
机器学习(十四) ——朴素贝叶斯实践
机器学习(十四)——朴素贝叶斯实践 (原创内容,转载请注明来源,谢谢) 一、垃圾邮件分类 垃圾邮件分类,即通过读取邮件的内容,并打上标记其是垃圾邮件或者是正常的邮件,进而判断新的一个邮件是否是垃圾邮件。 1、读取内容和内容简单处理 这里已经有现成的邮件的正文内容,其中25篇正常的邮件,25篇垃圾邮件,存放成txt的格式。因此,首先需要读取文件内容,并且进行字符串的分割、去除标点符号、去除空格,另外英文单词中,小于3个字母的单词,通常是一些介词、量词等,没有实际意义,这类词语也会过滤掉。另外为了保证一致性
用户1327360
2018-03-07
8750
机器学习(十四) ——朴素贝叶斯实现分类器
机器学习(十四)——朴素贝叶斯实现分类器 (原创内容,转载请注明来源,谢谢) 一、概述 朴素贝叶斯,在机器学习中,是另一种思想,属于概率思想。不过其还是在已知结果进行分类,因此也属于监督学习中的分类算法。 朴素贝叶斯的思想是,根据特征计算出每种分类结果的概率,取概率最大的结果作为对最终结果的预测。 “朴素”的含义是包含了两个假设,一是假定所有特征都同等重要,二是假定每个特征之间独立,即一个特征的值的变化完全不会影响另一个特征的值。 “贝叶斯”是一种概率思想,其引入了先验概率和逻辑推理;与其对应的是“频数
用户1327360
2018-03-07
6960
机器学习(十三) ——交叉验证、查准率与召回率
机器学习(十三)——交叉验证、查准率与召回率 (原创内容,转载请注明来源,谢谢) 一、样本集使用方案 1、测试集 为了验证系统设计的是否准确,通常需要预留10%-20%的样本集,作为测试集,校验模型
用户1327360
2018-03-07
2K0
机器学习(十二) ——神经网络代价函数、反向传播、梯度检验、随机初始化
机器学习(十二)——神经网络代价函数、反向传播、梯度检验、随机初始化 (原创内容,转载请注明来源,谢谢) 一、代价函数 同其他算法一样,为了获得最优化的神经网络,也要定义代价函数。 神经网络的输出
用户1327360
2018-03-07
1.1K0
机器学习(十) ——使用决策树进行预测(离散特征值)
机器学习(十)——使用决策树进行预测(离散特征值) (原创内容,转载请注明来源,谢谢) 一、绘制决策树 决策树的一大优点是直观,但是前提是其以图像形式展示。如果是{'color': {9: 'yes', 2: {'fly': {0: 'no', 1: {'big': {0: 'no', 1:'yes'}}}}, 3: 'no'}}这种类型的决策树,不够直观。 这就是绘制决策树的目的。 绘制决策树,需要用到python的matplotlib类库,其带有丰富的注解、绘图等功能。我希望更加专注于算法本身,而
用户1327360
2018-03-07
2.5K0
​ 机器学习(九) ——构建决策树(离散特征值)
机器学习(九) ——构建决策树(离散特征值) (原创内容,转载请注明来源,谢谢) 一、概述 1、概念 决策树,这个概念是一个很常见的概念,应该是机器学习中最好理解的一个算法。决策树是在已知训练结果
用户1327360
2018-03-07
2.1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档