机器学习养成记

39 篇文章
28 人订阅

全部文章

三猫

WOE与IV值

计算WOE和IV是评分卡模型的一个重要环节,之前没有仔细研究过,但总觉得他们既然可以放在评分卡模型中去解决相应的问题,那应该也可以放在其他模型中解决相似的问题,...

543
三猫

one-hot编码

以Type变量为例,进行one-hot编码。为了观察结果方便,把顺序打乱,观察编码后结果。

802
三猫

关联分析(3):Apriori R语言实现

我们对UCI机器学习库上下载的美国众议院议员投票记录数据,进行关联分析。在R中,可以直接调用arules包中的apriori()函数训练模型。

782
三猫

关联分析(2):Apriori产生频繁项集

在关联分析(1):概念及应用中,我们介绍了关联分析的应用场景、基本概念和规则产生思路。在本次的文章中,我们将介绍Apriori算法频繁项集产生的原理。文章中会涉...

942
三猫

关联分析(1):概念及应用

关联分析应用在项不多的情况下,从整体数据中挖掘潜在关联。具体应用场景可分为如下几个:

962
三猫

Twitter情感分析CNN+word2vec(翻译)

Rickest Ricky 对Twitter内容做了一系列的文本分析处理,并把内容整理成博文发布到:https://medium.com/@rickykim78...

971
三猫

ggplot2主题模板:ggthemr

ggplot2提供了强大的可视化能力,通过修改theme,可以实现各种精美图表。但是想绘制出好看的图表不仅需要强大的工具,还需要个人的审美、配色等能力,ggth...

35910
三猫

神经网络-感知器

1986年,Rumelhart,Hinton,Williams受到医学界人脑神经网络的启发,提出了神经网络,从神经网络发展出的深度学习,更是成为了当前热点,在科...

2575
三猫

R语言爬虫与文本分析

之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基...

36714
三猫

聚类(二):k-means算法(R&python)

聚类算法属于无监督的机器学习算法,即没有类别标签y,需要根据数据特征将相似的数据分为一组。k-means为聚类算法中最简单、常见的一种,通过计算距离,将相似性高...

3597
三猫

聚类(三):KNN算法(R语言)

k最临近(KNN)算法是最简单的分类算法之一,属于有监督的机器学习算法。 算法流程 KNN的核心思想是:找出特征空间中距离待分类点最近的k个点,如果这k个点大多...

2887
三猫

怎样读文献(翻译)

学习前沿的技术,经常要读文献,但对很多人来说读文献是一件非常头疼的事。在网上偶然看到 Charles Sutton写的一篇文章,里面提到的读文献的方法感觉很不错...

2876
三猫

线性分类器与性能评价(R语言)

“ 分类问题是机器学习算法中最基础和重要的问题,本文用R语言,对网上的Irvine数据集,通过线性回归方法,构建线性分类器。并统计出预测结果与实际结果的混淆矩阵...

3316
三猫

k折交叉验证(R语言)

“ 机器学习中需要把数据分为训练集和测试集,因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验...

6549
三猫

特征工程(一):前向逐步回归(R语言)

“ 建模过程中,选择合适的特征集合,可以帮助控制模型复杂度,防止过拟合等问题。为了选取最佳的特征集合,可以遍历所有的列组合,找出效果最佳的集合,但这样需要大量的...

35011
三猫

神经网络简介(翻译)

“ 看到网上的一篇博文,简单的介绍了当前热门的神经网络。翻译成中文与大家分享。原文链接:http://blog.kaggle.com/2017/11/27/in...

3077
三猫

不同需求下可视化图形选择(翻译)

机器学习工程师George Seif的文章《5 Quick and Easy Data Visualizations in Python with Code》部...

35313
三猫

用机器学习更快了解用户(翻译)

“ 英文博文的部分翻译。英文原文链接:https://erikbern.com/2017/12/12/learning-from-users-faster-u...

3289
三猫

静态爬虫与地址经纬度转换(python)

“ 本文通过一个小例子,展示了用python进行静态爬虫的方法,并且将爬取下来的城市列表,通过调用百度地图api,返回对应经纬度。” ---- requests...

3508
三猫

缺失值处理(r语言,mice包)

对缺失值的处理是数据预处理中的重要环节,造成数据缺失的原因有:数据丢失、存储故障和调查中拒绝透露相关信息。这里我们使用VIM包中的sleep数据集为样本,介绍缺...

3887

扫码关注云+社区