机器学习养成记

42 篇文章
29 人订阅

全部文章

三猫

关联分析(4):购物篮数据转换R语言

我们现在有这样一份数据,记录了近173万用户的爱好情况(数据为随机生成)。数据中每行为一个用户,每列为一个爱好属性,“y”代表有此爱好,“n”代表无此爱好,我们...

924
三猫

随机森林(R语言)

随机森林可处理大量输入变量,并且可以得到变量重要性排序,在实际中,有广泛应用。本文简要展示R语言实现随机森林的示例代码,并通过F值判断模型效果。

1094
三猫

最小二乘法来源(翻译)

Q:这个在数值算法中不成问题,LASSO回归中就用到了绝对值。而且,为什么不是计算x的4次方,或log(1+x^2)?将误差进行乘方计算有什么好处?

1293
三猫

WOE与IV值

计算WOE和IV是评分卡模型的一个重要环节,之前没有仔细研究过,但总觉得他们既然可以放在评分卡模型中去解决相应的问题,那应该也可以放在其他模型中解决相似的问题,...

1033
三猫

one-hot编码

以Type变量为例,进行one-hot编码。为了观察结果方便,把顺序打乱,观察编码后结果。

852
三猫

关联分析(3):Apriori R语言实现

我们对UCI机器学习库上下载的美国众议院议员投票记录数据,进行关联分析。在R中,可以直接调用arules包中的apriori()函数训练模型。

852
三猫

关联分析(2):Apriori产生频繁项集

在关联分析(1):概念及应用中,我们介绍了关联分析的应用场景、基本概念和规则产生思路。在本次的文章中,我们将介绍Apriori算法频繁项集产生的原理。文章中会涉...

1032
三猫

关联分析(1):概念及应用

关联分析应用在项不多的情况下,从整体数据中挖掘潜在关联。具体应用场景可分为如下几个:

1202
三猫

Twitter情感分析CNN+word2vec(翻译)

Rickest Ricky 对Twitter内容做了一系列的文本分析处理,并把内容整理成博文发布到:https://medium.com/@rickykim78...

1131
三猫

ggplot2主题模板:ggthemr

ggplot2提供了强大的可视化能力,通过修改theme,可以实现各种精美图表。但是想绘制出好看的图表不仅需要强大的工具,还需要个人的审美、配色等能力,ggth...

36810
三猫

神经网络-感知器

1986年,Rumelhart,Hinton,Williams受到医学界人脑神经网络的启发,提出了神经网络,从神经网络发展出的深度学习,更是成为了当前热点,在科...

2605
三猫

R语言爬虫与文本分析

之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基...

37914
三猫

聚类(二):k-means算法(R&python)

聚类算法属于无监督的机器学习算法,即没有类别标签y,需要根据数据特征将相似的数据分为一组。k-means为聚类算法中最简单、常见的一种,通过计算距离,将相似性高...

3677
三猫

聚类(三):KNN算法(R语言)

k最临近(KNN)算法是最简单的分类算法之一,属于有监督的机器学习算法。 算法流程 KNN的核心思想是:找出特征空间中距离待分类点最近的k个点,如果这k个点大多...

3067
三猫

怎样读文献(翻译)

学习前沿的技术,经常要读文献,但对很多人来说读文献是一件非常头疼的事。在网上偶然看到 Charles Sutton写的一篇文章,里面提到的读文献的方法感觉很不错...

2906
三猫

线性分类器与性能评价(R语言)

“ 分类问题是机器学习算法中最基础和重要的问题,本文用R语言,对网上的Irvine数据集,通过线性回归方法,构建线性分类器。并统计出预测结果与实际结果的混淆矩阵...

3376
三猫

k折交叉验证(R语言)

“ 机器学习中需要把数据分为训练集和测试集,因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验...

9249
三猫

特征工程(一):前向逐步回归(R语言)

“ 建模过程中,选择合适的特征集合,可以帮助控制模型复杂度,防止过拟合等问题。为了选取最佳的特征集合,可以遍历所有的列组合,找出效果最佳的集合,但这样需要大量的...

36711
三猫

神经网络简介(翻译)

“ 看到网上的一篇博文,简单的介绍了当前热门的神经网络。翻译成中文与大家分享。原文链接:http://blog.kaggle.com/2017/11/27/in...

3127
三猫

不同需求下可视化图形选择(翻译)

机器学习工程师George Seif的文章《5 Quick and Easy Data Visualizations in Python with Code》部...

35813

扫码关注云+社区