腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
深度学习之tensorflow实战篇
专栏成员
举报
604
文章
1478660
阅读量
84
订阅数
订阅专栏
申请加入专栏
全部文章(604)
python(168)
编程算法(129)
数据库(83)
sql(66)
r 语言(44)
mongodb(33)
云数据库 SQL Server(30)
其他(29)
http(25)
机器学习(24)
linux(21)
人工智能(21)
神经网络(19)
html(18)
深度学习(18)
hive(18)
https(18)
java(17)
大数据(17)
numpy(15)
云数据库 MongoDB(14)
windows(14)
NLP 服务(13)
django(13)
网络安全(12)
hadoop(12)
数据结构(12)
tensorflow(11)
github(11)
决策树(11)
ide(10)
git(10)
数据分析(10)
数据处理(10)
javascript(9)
bash(9)
json(8)
开源(8)
数据挖掘(7)
node.js(7)
ubuntu(7)
线性回归(7)
go(6)
bash 指令(6)
shell(6)
anaconda(6)
xml(5)
windows server(5)
mapreduce(5)
爬虫(5)
spark(5)
正则表达式(5)
云数据库 Redis(4)
存储(4)
text(4)
c 语言(3)
c++(3)
oracle(3)
nosql(3)
ruby on rails(3)
api(3)
jar(3)
中文分词(3)
nginx(3)
腾讯云测试服务(3)
分布式(3)
html5(3)
ssh(3)
sql server(3)
监督学习(3)
推荐系统(3)
csv(3)
data(3)
label(3)
list(3)
sort(3)
txt(3)
博客(3)
字符串(3)
区块链(2)
php(2)
c#(2)
css(2)
access(2)
打包(2)
unix(2)
apt-get(2)
批量计算(2)
文件存储(2)
访问管理(2)
云推荐引擎(2)
网站(2)
xslt & xpath(2)
jdk(2)
gui(2)
ftp(2)
grep(2)
pytorch(2)
db(2)
dot(2)
edge(2)
file(2)
graph(2)
header(2)
igraph(2)
integer(2)
key(2)
max(2)
min(2)
plot(2)
poi(2)
sample(2)
scale(2)
size(2)
stdout(2)
sum(2)
time(2)
集合(2)
开发(2)
日志(2)
调试(2)
终端(2)
费用中心(1)
官方文档(1)
ios(1)
.net(1)
jsp(1)
scala(1)
单片机(1)
sqlalchemy(1)
eclipse(1)
matlab(1)
搜索引擎(1)
centos(1)
日志服务(1)
命令行工具(1)
NAT 网关(1)
数据加密服务(1)
电商(1)
企业(1)
容器(1)
缓存(1)
运维(1)
压力测试(1)
数据迁移(1)
jvm(1)
yum(1)
面向对象编程(1)
hashmap(1)
keras(1)
二叉树(1)
tcp/ip(1)
单元测试(1)
kernel(1)
scikit-learn(1)
socket编程(1)
kerberos(1)
系统架构(1)
nat(1)
kafka(1)
特征工程(1)
聚类算法(1)
unicode(1)
腾讯云图数据可视化(1)
数据库管理(1)
add(1)
app(1)
apple(1)
apply(1)
axis(1)
bayesian(1)
bi(1)
bit(1)
blob(1)
boolean(1)
break(1)
browser(1)
center(1)
character(1)
cmd(1)
code(1)
codec(1)
configuration(1)
copy(1)
count(1)
counter(1)
criteria(1)
database(1)
default(1)
desktop(1)
distance(1)
distribution(1)
driver(1)
encode(1)
encoding(1)
error(1)
excel(1)
exists(1)
flags(1)
flatten(1)
frame(1)
frequency(1)
gaussian(1)
ggplot2(1)
global(1)
handle(1)
hash(1)
input(1)
instance(1)
int(1)
lapply(1)
limit(1)
line(1)
map(1)
median(1)
multiprocessing(1)
na(1)
normalization(1)
pandas(1)
path(1)
pool(1)
predict(1)
probability(1)
proc(1)
ps(1)
pycharm(1)
random(1)
reduce(1)
require(1)
root(1)
sampling(1)
scanf(1)
server(1)
slice(1)
static(1)
sudo(1)
table(1)
tar(1)
tensor(1)
transpose(1)
typeerror(1)
union(1)
vector(1)
version(1)
view(1)
width(1)
word(1)
word2vec(1)
xgboost(1)
zip(1)
笔记(1)
编程(1)
遍历(1)
编码(1)
程序(1)
登录(1)
递归(1)
函数(1)
加密(1)
解决方案(1)
快捷键(1)
连接(1)
数据(1)
数据中心(1)
数组(1)
索引(1)
虚拟机(1)
压缩(1)
优化(1)
语法(1)
原理(1)
搜索文章
搜索
搜索
关闭
MODELER C5.0
决策树
聚类算法
编程算法
大数据
数据分析
摘要: 机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS Modeler这两个工具,分别设计与实现了决策树模型的应用实例。1.机器学习
学到老
2019-02-14
872
0
hive基本操作整理
hive
大数据
show tables like '*name*'; 2.查看表结构信息 desc formatted table_name; desc table_name; 3.查看分区信息 show partitions table_name; 4.根据分区查询数据 select table_coulm from table_name where partition_name = '2014-02-25'; 5.查看hdfs文件信息 dfs -ls /user/hive/warehouse/table02; 6.从文件加载数据进表(OVERWRITE覆盖,追加不需要OVERWRITE关键字) LOAD DATA LOCAL INPATH 'dim_csl_rule_config.txt' OVERWRITE into table dim.dim_csl_rule_config; --从查询语句给table插入数据 INSERT OVERWRITE TABLE test_h02_click_log PARTITION(dt) select * from stage.s_h02_click_log where dt='2014-01-22' limit 100; 7.导出数据到文件 insert overwrite directory '/tmp/csl_rule_cfg' select a.* from dim.dim_csl_rule_config a; hive -e "select day_id,pv,uv,ip_count,click_next_count,second_bounce_rate,return_visit,pg_type from tmp.tmp_h02_click_log_baitiao_ag_sum where day_id in ('2014-03-06','2014-03-07','2014-03-08','2014-03-09','2014-03-10');"> /home/jrjt/testan/baitiao.dat; 8.自定义udf函数 1.继承UDF类 2.重写evaluate方法 3.把项目打成jar包 4.hive中执行命令add jar /home/jrjt/dwetl/PUB/UDF/udf/GetProperty.jar; 5.创建函数create temporary function get_pro as 'jd.Get_Property'//jd.jd.Get_Property为类路径; 9.查询显示列名 及 行转列显示 set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数 10.查看表文件大小,下载文件到某个目录,显示多少行到某个文件 dfs -du hdfs://BJYZH3-HD-JRJT-4137.jd.com:54310/user/jrjt/warehouse/stage.db/s_h02_click_log; dfs -get /user/jrjt/warehouse/ods.db/o_h02_click_log_i_new/dt=2014-01-21/000212_0 /home/jrjt/testan/; head -n 1000 文件名 > 文件名 11.杀死某个任务 不在hive shell中执行 Hadoop job -kill job_201403041453_58315 12.hive-wui路径 http://172.17.41.38/jobtracker.jsp 13.删除分区 alter table tmp_h02_click_log_baitiao drop partition(dt='2014-03-01'); alter table d_h02_click_log_basic_d_fact drop partition(dt='2014-01-17'); 14.hive命令行操作 执行一个查询,在终端上显示mapreduce的进度,执行完毕后,最后把查询结果输出到终端上,接着hive进程退出,不会进入交互模式。 hive -e 'select table_cloum from table' -S,终端上的输出不会有mapreduce的进度,执行完毕,只会把查询结果输出到终端上。这个静音模式很实用,,通过第三方程序调用,第三方程序通过hive的标准输出获取结果集。 hive -S -e 'select table_cloum from table'
学到老
2019-02-13
1.1K
0
hive模糊搜索表
hive
大数据
1.hive模糊搜索表 show tables like '*name*'; 2.查看表结构信息 desc formatted table_name; desc table_name; 3.查看分区信息 show partitions table_name; 4.根据分区查询数据 select table_coulm from table_name where partition_name = '2014-02-25'; 5.查看hdfs文件信息 dfs -ls /user/hive/warehouse/table02; 6.从文件加载数据进表(OVERWRITE覆盖,追加不需要OVERWRITE关键字) LOAD DATA LOCAL INPATH 'dim_csl_rule_config.txt' OVERWRITE into table dim.dim_csl_rule_config; --从查询语句给table插入数据 INSERT OVERWRITE TABLE test_h02_click_log PARTITION(dt) select * from stage.s_h02_click_log where dt='2014-01-22' limit 100; 7.导出数据到文件 insert overwrite directory '/tmp/csl_rule_cfg' select a.* from dim.dim_csl_rule_config a; hive -e "select day_id,pv,uv,ip_count,click_next_count,second_bounce_rate,return_visit,pg_type from tmp.tmp_h02_click_log_baitiao_ag_sum where day_id in ('2014-03-06','2014-03-07','2014-03-08','2014-03-09','2014-03-10');"> /home/jrjt/testan/baitiao.dat; 8.自定义udf函数 1.继承UDF类 2.重写evaluate方法 3.把项目打成jar包 4.hive中执行命令add jar /home/jrjt/dwetl/PUB/UDF/udf/GetProperty.jar; 5.创建函数create temporary function get_pro as 'jd.Get_Property'//jd.jd.Get_Property为类路径; 9.查询显示列名 及 行转列显示 set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数 10.查看表文件大小,下载文件到某个目录,显示多少行到某个文件 dfs -du hdfs://BJYZH3-HD-JRJT-4137.jd.com:54310/user/jrjt/warehouse/stage.db/s_h02_click_log; dfs -get /user/jrjt/warehouse/ods.db/o_h02_click_log_i_new/dt=2014-01-21/000212_0 /home/jrjt/testan/; head -n 1000 文件名 > 文件名 11.杀死某个任务 不在hive shell中执行 hadoop job -kill job_201403041453_58315 12.hive-wui路径 http://172.17.41.38/jobtracker.jsp 13.删除分区 alter table tmp_h02_click_log_baitiao drop partition(dt='2014-03-01'); alter table d_h02_click_log_basic_d_fact drop partition(dt='2014-01-17'); 14.hive命令行操作 执行一个查询,在终端上显示mapreduce的进度,执行完毕后,最后把查询结果输出到终端上,接着hive进程退出,不会进入交互模式。 hive -e 'select table_cloum from table' -S,终端上的输出不会有mapreduce的进度,执行完毕,只会把查询结果输出到终端上。这个静音模式很实用,,通过第三方程序调用,第三方程序通过hive的标准输出获取结果集。 hive -S -e 'select table_cloum
学到老
2019-02-13
891
0
日常电脑操作小技能篇(生活无处不精彩)
大数据
cmd
txt
程序
1.大文件预览 1.当我们处理大数据过程中,数据量特别的大,比如有如下文件达到800M, 使用记事本或者是Notepad均打不开。 那么我们又要查看数据,又不想写程序查看,可以在cm
学到老
2019-01-25
491
0
协同过滤算法概述与python 实现协同过滤算法基于内容(usr-item,item-item)
编程算法
python
机器学习
大数据
协调过滤推荐概述 协同过滤(Collaborative Filtering)作为推荐算法中最经典的类型,包括在线的协同和离线的过滤两部分。所谓在线协同,就是通过在线数据找到用户可能喜欢的物品,而离线过滤,则是过滤掉一些不值得推荐的数据,比比如推荐值评分低的数据,或者虽然推荐值高但是用户已经购买的数据。 协同过滤的模型一般为m个物品,m个用户的数据,只有部分用户和部分数据之间是有评分数据的,其它部分评分是空白,此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系,找到最
学到老
2018-04-18
7.1K
0
R语言函数的含义与用法,实现过程解读
r 语言
数据处理
大数据
R的源起 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业 软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。 R is free R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的
学到老
2018-03-19
4.6K
0
Rosenblatt感知器的结构 与基本原理
大数据
数据分析
Rosenblatt感知器详解 在学习了机器学习十大算法之后,我决定将目光投向神经网络,从而攀登深度学习的高峰。这条险路的第一个拦路虎就是Rosenblatt感知器。为什么这么说呢?不仅是因为它开拓性的贡献——感知器是第一个从算法上完整描述的神经网络,而Rosenblatt感知器是感知器作为监督学习的第一个模型。还因为学习Rosenblatt感知器能够帮助了解神经元的结构、信息流的传递以及知识的学习和存储,从而打开看待问题的全新视角——模拟人脑解决问题。当然,仅仅如此的话,它只能说是可口的羔羊,谈不上拦路
学到老
2018-03-19
1.6K
0
2016 CCF大数据与计算智能大赛 开源资料整理
大数据
数据结构
编程算法
2016 CCF大数据与计算智能大赛 开源资料整理 2016 CCF 大数据与计算智能大赛已经落下帷幕,11个赛题由众多大神包揽奖项,其中有些还在赛后开源了比赛资料,现将目前已知的资料整理如下,供各位同学一起参考学习。若有意公开自己的比赛资料或者发现整理的列表中有遗漏的,可以联系我(金陵书生, netivs@qq.com )补充修订。有问题也可在群里讨论。部分比赛PPT已经放到大数据比赛交流群,请在群文件里查看。 1)O2O 赛题 wepon、天音和charles提供的CCF O2O比赛第一名的全套代码
学到老
2018-03-16
1.1K
0
R语言自带的数据文件
r 语言
大数据
R语言有大量的样本数据可以直接用来作为数据分析和挖掘案例,可以收藏着以后用! R:datasets >install.packages("datasets") ##一般不需要安装,多数版本R语言自带这个包 向量 euro #欧元汇率,长度为11,每个元素都有命名 landmasses #48个陆地的面积,每个都有命名 precip #长度为70的命名向量 rivers #北美141条河流长度 state.abb #美国50个州的双字母缩写 state.area #美国50个州的面积 state.name
学到老
2018-03-16
2.4K
0
归一化与标准化详解
大数据
归一化(Normalization) 1.把数据变为(0,1)之间的小数。主要是为了方便数据处理,因为将数据映射到0~1范围之内,可以使处理过程更加便捷、快速。 2.把有量纲表达式变换为无量纲表达式,成为纯量。经过归一化处理的数据,处于同一数量级,可以消除指标之间的量纲和量纲单位的影响,提高不同数据指标之间的可比性。 主要算法: 1.线性转换,即min-max归一化(常用方法) y=(x-min)/(max-min) 2. 对数函数转换 y=log10(x) 3.反余切函数转换 y=atan(x)*2/PI
学到老
2018-03-16
1.9K
0
hive排序:distribute by 、sort by 、cluster by 、order by 区别
hive
大数据
数据库
3 . 总结分析 1). order by 只有一个reduce负责对所有的数据进行排序,若大数据量,则需要较长的时间。建议在小的数据集中使用order by 进行排序。 2). order by 可以通过设置hive.mapred.mode参数控制执行方式,若选择strict,则order by 则需要指定limit(若有分区还有指定哪个分区) ;若为nostrict,则与关系型数据库差不多。 3). sort by 基本上不受hive.mapred.mode影响,可以通过mapred.red
学到老
2018-03-16
789
0
大数据与Hadoop/Linux/hive的关系
大数据
hadoop
linux
hive
?
学到老
2018-03-16
1.1K
0
使用R完成逻辑斯蒂回归分类 直接上代码,如下:
大数据
data_sample <- iris[51:150,]; m <- dim(data_sample)[1] #获取数据集记录条数 val <- sample(m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) #抽样,选取三分之二的数据作为训练集。 iris.learn <- data_sample[-val,] #选取训练集 iris.valid <- data_sample[val,] #选取验证集 #调用glm
学到老
2018-03-16
650
0
使用R完成K近邻分类
大数据
编程算法
使用数据集iris, 验证Petal.Length, Petal.Width两个特征的分类能力。代码如下: with(iris, plot(Petal.Length, Petal.Width, co
学到老
2018-03-16
619
0
聚类方法的区别解读:各种聚类分析呀呀呀
编程算法
数据库
数据分析
大数据
k 均值聚类法 快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量 系统聚类法则是系统自己根据数据之间的距离来自动列出类别,所以通过系统聚类法 得出一个树状图,至于聚类的类别 需要自己根据树状图以及经验来确定 (同上)在聚类分析中,我们常用的聚类方法有快速聚类(迭代聚类)和层次聚类。其中层次聚类容易受到极值的影响,并且计算复杂速度慢不适合大样本聚类;快速聚类虽然速度快,但是其分类指标要求是定距变量,而实际研究中,有很多的定类变量,如性别、学历、职业、重复购买的可能性等多个与研究
学到老
2018-03-16
1.3K
0
模型评估过程中:命中率/覆盖率
大数据
编程算法
模型评估是模型中关键部分,一方面通过模型评估可以对模型进行进一步的优化,使模型性能够更准确;另一方面,通过模型评估可以看模型实际运行效果,对采取的维系策略的有效性进行评价。 模型评估主要通过对低稳定度用户的流失率进行验证,观察低稳定度用户在后续月份的流失情况。 模型准确性评估。评估模型本身的准确性,通过两个重要指标。 1)命中率。描述模型预测准确性性指标。 命中率:=预测用户中流失用户数/预测用户数*100%。 2) 覆盖率。描述模型预测结果与实际结果对比情况指标。 覆盖率:=预测用户中流失用户数/当月实
学到老
2018-03-16
2.7K
0
SNA中:中心度及中心势诠释(不完整代码)
编程算法
大数据
SNA社会关系网络分析中,关键的就是通过一些指标的衡量来评价网络结构稳定性、集中趋势等。主要有中心度以及中心势两大类指标。 以下的代码都是igraph包中的。 ———————————————————————————————————————————————— 中心度指标的对比 指标名称 概念 比较 实际应用点度中心度 在某个点上,有多少条线 强调某点单独的价值 ★作为基本点的描述接近中心度 该点与网络中其他点距离之和的倒数,越大说明越在中心,越能够很快到达其他点 强调点在网络的价值,越大,越在中心 ★★
学到老
2018-03-16
2.4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档