深度学习之tensorflow实战篇-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习之tensorflow实战篇

专栏成员

604

文章

1478660

阅读量

84

订阅数

决策树聚类算法编程算法大数据数据分析

摘要：机器学习在各个领域都有广泛的应用，特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例，着重从特征选择、剪枝等方面描述决策树的构建，讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS Modeler这两个工具，分别设计与实现了决策树模型的应用实例。1.机器学习

2019-02-14

8720

hive基本操作整理

show tables like '*name*'; 2.查看表结构信息 desc formatted table_name; desc table_name; 3.查看分区信息 show partitions table_name; 4.根据分区查询数据 select table_coulm from table_name where partition_name = '2014-02-25'; 5.查看hdfs文件信息 dfs -ls /user/hive/warehouse/table02; 6.从文件加载数据进表(OVERWRITE覆盖,追加不需要OVERWRITE关键字) LOAD DATA LOCAL INPATH 'dim_csl_rule_config.txt' OVERWRITE into table dim.dim_csl_rule_config; --从查询语句给table插入数据 INSERT OVERWRITE TABLE test_h02_click_log PARTITION(dt) select * from stage.s_h02_click_log where dt='2014-01-22' limit 100; 7.导出数据到文件 insert overwrite directory '/tmp/csl_rule_cfg' select a.* from dim.dim_csl_rule_config a; hive -e "select day_id,pv,uv,ip_count,click_next_count,second_bounce_rate,return_visit,pg_type from tmp.tmp_h02_click_log_baitiao_ag_sum where day_id in ('2014-03-06','2014-03-07','2014-03-08','2014-03-09','2014-03-10');"> /home/jrjt/testan/baitiao.dat; 8.自定义udf函数 1.继承UDF类 2.重写evaluate方法 3.把项目打成jar包 4.hive中执行命令add jar /home/jrjt/dwetl/PUB/UDF/udf/GetProperty.jar; 5.创建函数create temporary function get_pro as 'jd.Get_Property'//jd.jd.Get_Property为类路径; 9.查询显示列名及行转列显示 set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数 10.查看表文件大小,下载文件到某个目录,显示多少行到某个文件 dfs -du hdfs://BJYZH3-HD-JRJT-4137.jd.com:54310/user/jrjt/warehouse/stage.db/s_h02_click_log; dfs -get /user/jrjt/warehouse/ods.db/o_h02_click_log_i_new/dt=2014-01-21/000212_0 /home/jrjt/testan/; head -n 1000 文件名 > 文件名 11.杀死某个任务不在hive shell中执行 Hadoop job -kill job_201403041453_58315 12.hive-wui路径 http://172.17.41.38/jobtracker.jsp 13.删除分区 alter table tmp_h02_click_log_baitiao drop partition(dt='2014-03-01'); alter table d_h02_click_log_basic_d_fact drop partition(dt='2014-01-17'); 14.hive命令行操作执行一个查询,在终端上显示mapreduce的进度，执行完毕后，最后把查询结果输出到终端上，接着hive进程退出，不会进入交互模式。 hive -e 'select table_cloum from table' -S，终端上的输出不会有mapreduce的进度，执行完毕，只会把查询结果输出到终端上。这个静音模式很实用，,通过第三方程序调用，第三方程序通过hive的标准输出获取结果集。 hive -S -e 'select table_cloum from table'

2019-02-13

1.1K0

hive模糊搜索表

1.hive模糊搜索表 show tables like '*name*'; 2.查看表结构信息 desc formatted table_name; desc table_name; 3.查看分区信息 show partitions table_name; 4.根据分区查询数据 select table_coulm from table_name where partition_name = '2014-02-25'; 5.查看hdfs文件信息 dfs -ls /user/hive/warehouse/table02; 6.从文件加载数据进表(OVERWRITE覆盖,追加不需要OVERWRITE关键字) LOAD DATA LOCAL INPATH 'dim_csl_rule_config.txt' OVERWRITE into table dim.dim_csl_rule_config; --从查询语句给table插入数据 INSERT OVERWRITE TABLE test_h02_click_log PARTITION(dt) select * from stage.s_h02_click_log where dt='2014-01-22' limit 100; 7.导出数据到文件 insert overwrite directory '/tmp/csl_rule_cfg' select a.* from dim.dim_csl_rule_config a; hive -e "select day_id,pv,uv,ip_count,click_next_count,second_bounce_rate,return_visit,pg_type from tmp.tmp_h02_click_log_baitiao_ag_sum where day_id in ('2014-03-06','2014-03-07','2014-03-08','2014-03-09','2014-03-10');"> /home/jrjt/testan/baitiao.dat; 8.自定义udf函数 1.继承UDF类 2.重写evaluate方法 3.把项目打成jar包 4.hive中执行命令add jar /home/jrjt/dwetl/PUB/UDF/udf/GetProperty.jar; 5.创建函数create temporary function get_pro as 'jd.Get_Property'//jd.jd.Get_Property为类路径; 9.查询显示列名及行转列显示 set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数 10.查看表文件大小,下载文件到某个目录,显示多少行到某个文件 dfs -du hdfs://BJYZH3-HD-JRJT-4137.jd.com:54310/user/jrjt/warehouse/stage.db/s_h02_click_log; dfs -get /user/jrjt/warehouse/ods.db/o_h02_click_log_i_new/dt=2014-01-21/000212_0 /home/jrjt/testan/; head -n 1000 文件名 > 文件名 11.杀死某个任务不在hive shell中执行 hadoop job -kill job_201403041453_58315 12.hive-wui路径 http://172.17.41.38/jobtracker.jsp 13.删除分区 alter table tmp_h02_click_log_baitiao drop partition(dt='2014-03-01'); alter table d_h02_click_log_basic_d_fact drop partition(dt='2014-01-17'); 14.hive命令行操作执行一个查询,在终端上显示mapreduce的进度，执行完毕后，最后把查询结果输出到终端上，接着hive进程退出，不会进入交互模式。 hive -e 'select table_cloum from table' -S，终端上的输出不会有mapreduce的进度，执行完毕，只会把查询结果输出到终端上。这个静音模式很实用，,通过第三方程序调用，第三方程序通过hive的标准输出获取结果集。 hive -S -e 'select table_cloum

2019-02-13

8910

日常电脑操作小技能篇（生活无处不精彩）

大数据 cmd txt 程序

1.大文件预览１.当我们处理大数据过程中，数据量特别的大，比如有如下文件达到８００M，使用记事本或者是Ｎotepad均打不开。那么我们又要查看数据，又不想写程序查看，可以在cm

2019-01-25

4910

协同过滤算法概述与python 实现协同过滤算法基于内容（usr-item,item-item）

编程算法 python 机器学习大数据

协调过滤推荐概述　协同过滤(Collaborative Filtering)作为推荐算法中最经典的类型，包括在线的协同和离线的过滤两部分。所谓在线协同，就是通过在线数据找到用户可能喜欢的物品，而离线过滤，则是过滤掉一些不值得推荐的数据，比比如推荐值评分低的数据，或者虽然推荐值高但是用户已经购买的数据。　协同过滤的模型一般为m个物品，m个用户的数据，只有部分用户和部分数据之间是有评分数据的，其它部分评分是空白，此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系，找到最

2018-04-18

7.1K0

R语言函数的含义与用法，实现过程解读

r 语言数据处理大数据

R的源起 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件，它基于S语言，并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处，两个软件有一定的兼容性。 R is free R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的

2018-03-19

4.6K0

Rosenblatt感知器的结构与基本原理

大数据数据分析

Rosenblatt感知器详解在学习了机器学习十大算法之后，我决定将目光投向神经网络，从而攀登深度学习的高峰。这条险路的第一个拦路虎就是Rosenblatt感知器。为什么这么说呢？不仅是因为它开拓性的贡献——感知器是第一个从算法上完整描述的神经网络，而Rosenblatt感知器是感知器作为监督学习的第一个模型。还因为学习Rosenblatt感知器能够帮助了解神经元的结构、信息流的传递以及知识的学习和存储，从而打开看待问题的全新视角——模拟人脑解决问题。当然，仅仅如此的话，它只能说是可口的羔羊，谈不上拦路

2018-03-19

1.6K0

2016 CCF大数据与计算智能大赛开源资料整理

大数据数据结构编程算法

2016 CCF大数据与计算智能大赛开源资料整理 2016 CCF 大数据与计算智能大赛已经落下帷幕，11个赛题由众多大神包揽奖项，其中有些还在赛后开源了比赛资料，现将目前已知的资料整理如下，供各位同学一起参考学习。若有意公开自己的比赛资料或者发现整理的列表中有遗漏的，可以联系我（金陵书生， netivs@qq.com ）补充修订。有问题也可在群里讨论。部分比赛PPT已经放到大数据比赛交流群，请在群文件里查看。 1）O2O 赛题 wepon、天音和charles提供的CCF O2O比赛第一名的全套代码

2018-03-16

1.1K0

R语言自带的数据文件

r 语言大数据

R语言有大量的样本数据可以直接用来作为数据分析和挖掘案例，可以收藏着以后用！ R：datasets >install.packages("datasets") ##一般不需要安装，多数版本R语言自带这个包向量 euro #欧元汇率，长度为11，每个元素都有命名 landmasses #48个陆地的面积，每个都有命名 precip #长度为70的命名向量 rivers #北美141条河流长度 state.abb #美国50个州的双字母缩写 state.area #美国50个州的面积 state.name

2018-03-16

2.4K0

归一化与标准化详解

归一化（Normalization） 1.把数据变为（0，1）之间的小数。主要是为了方便数据处理，因为将数据映射到0～1范围之内，可以使处理过程更加便捷、快速。 2.把有量纲表达式变换为无量纲表达式，成为纯量。经过归一化处理的数据，处于同一数量级，可以消除指标之间的量纲和量纲单位的影响，提高不同数据指标之间的可比性。主要算法： 1.线性转换，即min-max归一化（常用方法） y=(x-min)/(max-min) 2. 对数函数转换 y=log10(x) 3.反余切函数转换 y=atan(x)*2/PI

2018-03-16

1.9K0

hive排序：distribute by 、sort by 、cluster by 、order by 区别

hive 大数据数据库

3 . 总结分析 1). order by 只有一个reduce负责对所有的数据进行排序，若大数据量，则需要较长的时间。建议在小的数据集中使用order by 进行排序。 2). order by 可以通过设置hive.mapred.mode参数控制执行方式，若选择strict，则order by 则需要指定limit（若有分区还有指定哪个分区）；若为nostrict，则与关系型数据库差不多。 3). sort by 基本上不受hive.mapred.mode影响，可以通过mapred.red

2018-03-16

7890

大数据与Hadoop/Linux/hive的关系

大数据 hadoop linux hive

2018-03-16

1.1K0

使用R完成逻辑斯蒂回归分类直接上代码，如下：

data_sample <- iris[51:150,]; m <- dim(data_sample)[1] #获取数据集记录条数 val <- sample(m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) #抽样，选取三分之二的数据作为训练集。 iris.learn <- data_sample[-val,] #选取训练集 iris.valid <- data_sample[val,] #选取验证集 #调用glm

2018-03-16

6500

使用R完成K近邻分类

大数据编程算法

使用数据集iris，验证Petal.Length, Petal.Width两个特征的分类能力。代码如下： with(iris, plot(Petal.Length, Petal.Width, co

2018-03-16

6190

聚类方法的区别解读：各种聚类分析呀呀呀

编程算法数据库数据分析大数据

k 均值聚类法快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量系统聚类法则是系统自己根据数据之间的距离来自动列出类别,所以通过系统聚类法得出一个树状图,至于聚类的类别需要自己根据树状图以及经验来确定（同上）在聚类分析中，我们常用的聚类方法有快速聚类（迭代聚类）和层次聚类。其中层次聚类容易受到极值的影响，并且计算复杂速度慢不适合大样本聚类；快速聚类虽然速度快，但是其分类指标要求是定距变量，而实际研究中，有很多的定类变量，如性别、学历、职业、重复购买的可能性等多个与研究

2018-03-16

1.3K0

模型评估过程中：命中率/覆盖率

大数据编程算法

模型评估是模型中关键部分，一方面通过模型评估可以对模型进行进一步的优化，使模型性能够更准确；另一方面，通过模型评估可以看模型实际运行效果，对采取的维系策略的有效性进行评价。模型评估主要通过对低稳定度用户的流失率进行验证，观察低稳定度用户在后续月份的流失情况。模型准确性评估。评估模型本身的准确性，通过两个重要指标。 1）命中率。描述模型预测准确性性指标。命中率：=预测用户中流失用户数/预测用户数*100%。 2) 覆盖率。描述模型预测结果与实际结果对比情况指标。覆盖率：=预测用户中流失用户数/当月实

2018-03-16

2.7K0

SNA中：中心度及中心势诠释（不完整代码）

编程算法大数据

SNA社会关系网络分析中，关键的就是通过一些指标的衡量来评价网络结构稳定性、集中趋势等。主要有中心度以及中心势两大类指标。以下的代码都是igraph包中的。 ———————————————————————————————————————————————— 中心度指标的对比指标名称概念比较实际应用点度中心度在某个点上，有多少条线强调某点单独的价值 ★作为基本点的描述接近中心度该点与网络中其他点距离之和的倒数，越大说明越在中心，越能够很快到达其他点强调点在网络的价值，越大，越在中心 ★★

2018-03-16

2.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态