腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习之tensorflow实战篇

专栏作者

604

文章

1421750

阅读量

84

订阅数

决策树聚类算法编程算法大数据数据分析

摘要：机器学习在各个领域都有广泛的应用，特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例，着重从特征选择、剪枝等方面描述决策树的构建，讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS Modeler这两个工具，分别设计与实现了决策树模型的应用实例。1.机器学习

2019-02-14

8400

PCA： Principal Components Analysis，主成分分析法原理

http 编程算法数据分析

PCA： Principal Components Analysis，主成分分析法原理 1、引入

2019-02-14

1.1K0

机器学习之随机森林（R）randomFordom算法案例

随机森林，指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出，并被注册成了商标。简单来说，随机森林就是由多棵CART（Classification And Regression Tree）构成的。对于每棵树，它们使用的训练集是从总的训练集中有放回采样出来的，这意味着，总的训练集中的有些样本可能多次出现在一棵树的训练集中，也可能从未出现在一棵树的训练集中。在训练每棵树的节点时，使用的特征是从所有特征中按照一定比例随机地无放回的抽取的，根据Leo Breiman的建议，假设总的特征数量为M，这个比例可以是sqrt(M),1/2sqrt(M),2sqrt(M)。

2019-02-14

7450

hive中数据类型的转化CAST

hive 编程算法 unix linux 数据分析

在《Hive内置数据类型》文章中，我们提到了Hive内置数据类型由基本数据类型和复杂数据类型组成。今天的话题是Hive数据类型之间的转换。同Java语言一样，Hive也包括隐式转换（implicit conversions）和显式转换（explicitly conversions）。　　Hive在需要的时候将会对numeric类型的数据进行隐式转换。比如我们对两个不同数据类型的数字进行比较，假如一个数据类型是INT型，另一个是SMALLINT类型，那么SMALLINT类型的数据将会被隐式转换地转换为INT类型，这个到底和Java中的一样；但是我们不能隐式地将一个 INT类型的数据转换成SMALLINT或TINYINT类型的数据，这将会返回错误，除非你使用了CAST操作。　　任何整数类型都可以隐式地转换成一个范围更大的类型。TINYINT,SMALLINT,INT,BIGINT,FLOAT和STRING都可以隐式地转换成DOUBLE；是的你没看出，STRING也可以隐式地转换成DOUBLE！但是你要记住，BOOLEAN类型不能转换为其他任何数据类型！

2019-02-14

1.5K0

python 数据标准化常用方法，z-score\min-max标准化

数据分析 python

在数据分析之前，我们通常需要先将数据标准化(normalization)，利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种，常用的有"最小-最大标准化"、"Z-score标准化"和"按小数定标标准化"等。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。

2019-01-25

16.2K0

R语言读CSV、txt文件方式以及read.table read.csv 和readr（大数据读取包）

r 语言数据分析数据处理

首先准备测试数据*(mtcars) 分别为CSV. TXT read.table 默认形式读取CSV（×）与TXT(效果理想) ① > test<-read.table("C:/Users/ad

2018-03-19

8K0

union(并)，setdiff（差），intersect（交）R语言含义

r 语言数据分析

union(并) 求两个向量的并集集合可以是任何数值类型 union(x=1:3, y=2:5) [1] 1 2 3 4 5 union(x=c("abc", "12"), y=c("bcd", "efg")) [1] "abc" "12""bcd" "efg" setdiff（差）求向量x与向量y中不同的元素(只取x中不同的元素) setdiff(x, y) setdiff(x=1:4, y=2:3)[1] 1 4 intersect（交）两个向量的交集 intersect(x=c(1:

2018-03-19

1K0

交互式使用 R题（shell）

r 语言数据分析 shell

交互式使用 R 交互式shell是一种很方便的环境，可以进行各种尝试，随时调整过程。与Python、Ruby等语言一样，R也提供了shell环境。本文开始的例子就是以交互的方式使用R。当打开R控制台时，R会显示命令提示符”>”，此时可以输入命令。下面是交互式使用R的几个例子：例一： help.start() #启动在线帮助，会打开浏览器。 x <- rnorm(50); y <- rnorm(x) #产生两个随机向量x和y plot(x,y) #使用x,y画二维散点图, 会打开一个图形窗口 ls()

2018-03-19

1.1K0

Rosenblatt感知器的结构与基本原理

大数据数据分析

Rosenblatt感知器详解在学习了机器学习十大算法之后，我决定将目光投向神经网络，从而攀登深度学习的高峰。这条险路的第一个拦路虎就是Rosenblatt感知器。为什么这么说呢？不仅是因为它开拓性的贡献——感知器是第一个从算法上完整描述的神经网络，而Rosenblatt感知器是感知器作为监督学习的第一个模型。还因为学习Rosenblatt感知器能够帮助了解神经元的结构、信息流的传递以及知识的学习和存储，从而打开看待问题的全新视角——模拟人脑解决问题。当然，仅仅如此的话，它只能说是可口的羔羊，谈不上拦路

2018-03-19

1.5K0

聚类方法的区别解读：各种聚类分析呀呀呀

编程算法数据库数据分析大数据

k 均值聚类法快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量系统聚类法则是系统自己根据数据之间的距离来自动列出类别,所以通过系统聚类法得出一个树状图,至于聚类的类别需要自己根据树状图以及经验来确定（同上）在聚类分析中，我们常用的聚类方法有快速聚类（迭代聚类）和层次聚类。其中层次聚类容易受到极值的影响，并且计算复杂速度慢不适合大样本聚类；快速聚类虽然速度快，但是其分类指标要求是定距变量，而实际研究中，有很多的定类变量，如性别、学历、职业、重复购买的可能性等多个与研究

2018-03-16

1.3K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态