机器学习养成记

48 篇文章
29 人订阅

全部文章

三猫

R语言中的因子型变量

R语言的数据类型中,因子(Factor)型比较特殊,也让许多初学者感到难以理解。其实就像整型用来存储整数、字符型用来存储字符或字符串类似,因子型是用来存储类别的...

712
三猫

为什么相比于RNN,LSTM在梯度消失上表现更好

对于深度学习模型,在train参数的时候,需要采用随机梯度下降方法(SGD,Stochastic Gradient Descent):

621
三猫

PU-learing:解决正负样本不足利器(R语言)

在实际分类场景中,经常会遇到类似这样的问题:只有标记了的正样本,和未标记的样本。比如金融风控场景,有一部分用户被标记为欺诈用户,剩下的用户未被标记,虽然这其中大...

752
三猫

R语言包的安装

r语言的包中,集成了众多函数,大大扩展了r的功能且降低了使用难度。本篇文章就来介绍r语言中包的两种安装方式:install.packages和从github安装...

852
三猫

不同预测算法比较实例(R语言)

预测算法种类很多,不论是为实际问题选择更好的分类器,还是模型优化中判断模型效果,都需要比较不同算法之间的优劣。本文我们将借助样本数据,演示从数据处理-训练-预测...

962
三猫

峰度与偏度(python)

偏度和峰度是描述数据分布时两个常用的概念,用来描述数据分布与正态分布的偏离程度。本次推送将简要介绍其相关意义,及通过python中pandas包实现相关计算。

1745
三猫

关联分析(4):购物篮数据转换R语言

我们现在有这样一份数据,记录了近173万用户的爱好情况(数据为随机生成)。数据中每行为一个用户,每列为一个爱好属性,“y”代表有此爱好,“n”代表无此爱好,我们...

1254
三猫

随机森林(R语言)

随机森林可处理大量输入变量,并且可以得到变量重要性排序,在实际中,有广泛应用。本文简要展示R语言实现随机森林的示例代码,并通过F值判断模型效果。

1764
三猫

最小二乘法来源(翻译)

Q:这个在数值算法中不成问题,LASSO回归中就用到了绝对值。而且,为什么不是计算x的4次方,或log(1+x^2)?将误差进行乘方计算有什么好处?

3563
三猫

WOE与IV值

计算WOE和IV是评分卡模型的一个重要环节,之前没有仔细研究过,但总觉得他们既然可以放在评分卡模型中去解决相应的问题,那应该也可以放在其他模型中解决相似的问题,...

3683
三猫

one-hot编码

以Type变量为例,进行one-hot编码。为了观察结果方便,把顺序打乱,观察编码后结果。

1092
三猫

关联分析(3):Apriori R语言实现

我们对UCI机器学习库上下载的美国众议院议员投票记录数据,进行关联分析。在R中,可以直接调用arules包中的apriori()函数训练模型。

1182
三猫

关联分析(2):Apriori产生频繁项集

在关联分析(1):概念及应用中,我们介绍了关联分析的应用场景、基本概念和规则产生思路。在本次的文章中,我们将介绍Apriori算法频繁项集产生的原理。文章中会涉...

1282
三猫

关联分析(1):概念及应用

关联分析应用在项不多的情况下,从整体数据中挖掘潜在关联。具体应用场景可分为如下几个:

1942
三猫

Twitter情感分析CNN+word2vec(翻译)

Rickest Ricky 对Twitter内容做了一系列的文本分析处理,并把内容整理成博文发布到:https://medium.com/@rickykim78...

1761
三猫

ggplot2主题模板:ggthemr

ggplot2提供了强大的可视化能力,通过修改theme,可以实现各种精美图表。但是想绘制出好看的图表不仅需要强大的工具,还需要个人的审美、配色等能力,ggth...

41010
三猫

神经网络-感知器

1986年,Rumelhart,Hinton,Williams受到医学界人脑神经网络的启发,提出了神经网络,从神经网络发展出的深度学习,更是成为了当前热点,在科...

2755
三猫

R语言爬虫与文本分析

之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基...

43514
三猫

聚类(二):k-means算法(R&python)

聚类算法属于无监督的机器学习算法,即没有类别标签y,需要根据数据特征将相似的数据分为一组。k-means为聚类算法中最简单、常见的一种,通过计算距离,将相似性高...

4007
三猫

聚类(三):KNN算法(R语言)

k最临近(KNN)算法是最简单的分类算法之一,属于有监督的机器学习算法。 算法流程 KNN的核心思想是:找出特征空间中距离待分类点最近的k个点,如果这k个点大多...

3727

扫码关注云+社区