腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器学习养成记

专栏作者

151

文章

204172

阅读量

43

订阅数

推荐算法｜矩阵分解模型

spark 编程算法推荐系统 r 语言

导读：在《推荐算法概述》一文中，我们介绍了推荐算法分为基于用户、基于物品、基于模型的协同过滤方法，矩阵分解模型是典型的基于模型的方法之一，本文将从基本概念、原理、实践几个角度进行介绍。

2021-06-21

8140

关联分析(5):Apriori Python实现

r 语言编程算法 python

在关联分析(3):Apriori R语言实现一文中，写了如何使用R语言进行关联分析，那在Python中如何实现呢？

2020-01-31

2.5K0

R语言中的因子型变量

编程算法 r 语言

R语言的数据类型中，因子（Factor）型比较特殊，也让许多初学者感到难以理解。其实就像整型用来存储整数、字符型用来存储字符或字符串类似，因子型是用来存储类别的数据类型，因子型变量因此是离散变量。

2019-05-15

4.4K0

不同预测算法比较实例(R语言)

编程算法 r 语言

预测算法种类很多，不论是为实际问题选择更好的分类器，还是模型优化中判断模型效果，都需要比较不同算法之间的优劣。本文我们将借助样本数据，演示从数据处理－训练－预测－模型比较全流程的操作实例。

2019-03-06

1.7K0

关联分析(3):Apriori R语言实现

我们对UCI机器学习库上下载的美国众议院议员投票记录数据，进行关联分析。在R中，可以直接调用arules包中的apriori()函数训练模型。

2018-07-23

1.1K0

R语言爬虫与文本分析

r 语言爬虫 python

之前用python做过简单的爬虫与分析，今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料，然后进行了词云绘制、关键词提取的基本操作。语料爬取寻找链接之

2018-04-10

1.9K0

聚类(三):KNN算法(R语言)

编程算法 r 语言机器学习

k最临近（KNN）算法是最简单的分类算法之一，属于有监督的机器学习算法。算法流程 KNN的核心思想是：找出特征空间中距离待分类点最近的k个点，如果这k个点大多数属于某一个类别，则该样本也属于这个类别

2018-04-10

3K0

线性分类器与性能评价(R语言)

r 语言机器学习

“ 分类问题是机器学习算法中最基础和重要的问题，本文用R语言，对网上的Irvine数据集，通过线性回归方法，构建线性分类器。并统计出预测结果与实际结果的混淆矩阵，通过计算ROC和AUC，判断分类器性能

2018-04-10

1.2K0

k折交叉验证(R语言)

r 语言机器学习

“ 机器学习中需要把数据分为训练集和测试集，因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验证。” k折交叉验证 K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本，不重复的选取其中一个子样本作为测试集，其他K-1个样本用来训练。共重复K次，平均K次的结果或者使用其它指标，最终得到一个单一估测。这个方法的优势在于，保证每个子样本都参与训练且都被测试，降低泛化误差。其中，10折交叉验证是最常用的。

2018-04-10

6.7K0

缺失值处理（r语言，mice包）

对缺失值的处理是数据预处理中的重要环节，造成数据缺失的原因有：数据丢失、存储故障和调查中拒绝透露相关信息。这里我们使用VIM包中的sleep数据集为样本，介绍缺失值处理的方法。sleep数据集纪录了62个哺乳动物的睡眠信息，包括体重，睡眠时长，做梦时长等。缺失值分类 1，完全随机缺失（MCAR）：缺失数据与其他变量无关。如果每个缺失变量都为MCAR，则完整样本可看为更大数据集的简单抽样。 2，随机缺失（CAR）：缺失数据与其他观测变量相关，与本身变量不相关。比如体重小的动物Dream数据更容易缺失（较小动

2018-04-10

3.4K0

【实用派】R语言中的便捷小操作

编程算法 r 语言

管道处理管道处理避免了中间变量的生成，从而节省了内存，并且使代码直观易读，很大程度的简化代码。 R语言中，管道运算符为“dplyr”包中的“%>%”，指左边的结果作为参数，传入右边的函数。默认左边的

2018-04-10

9860

十九大讲话文本分析（R语言）

18日观看了十九大的开幕直播，聆听了习大大的重要讲话，如此重要的讲话，怎能不结合我们的文本挖掘技术来深刻学习一下呢！这次的文章就让我们用R里面的jiebaR包和wordcloud2包，对习大大的讲话内容进行分词与统计，看看这次讲话都提到了什么？有哪些关键词？ ---- jiebaR简介 1，worker( )：加载分词引擎。里面的type参数用来选择引擎类型，可选的有：混合模型‘mix’，最大概率法‘mp’，隐马尔科夫‘hmm’，关键词‘keywords’等。还有其他参数可以设置停用词，关键词数等，具体在加

2018-04-10

9960

聚类（一）：DBSCAN算法实现（r语言）

编程算法 r 语言

Some points 算法流程 R语言实现选择最优的Eps值自定义距离公式 DBSCAN优缺点 DBSCAN（Density-BasedSpatial Clustering of Applications with Noise），一种基于密度的聚类方法，即找到被低密度区域分离的稠密区域，要求聚类空间中的一定区域内所包含对象（点或其他空间对象）的数目不小于某一给定阈值。 Some points 一、两个参数。 1，距离参数（Eps） 2，邻域内点最少个数（MinPts）二、根据基于中心的密度进行

2018-04-10

3.1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态