日志分析实战之清洗日志小实例7:查看样本数据,保存统计数据到文件

问题导读 1.如何从所有数据中,抽取样本查看? 2.如何保存结果到hdfs? 3.saveAsTextFile的作用是什么? 上一篇 日志分析实战之清洗日志小实例6:获取uri点击量排序并得到最高的url http://www.aboutyun.com/forum.php?mod=viewthread&tid=22928 查看示例数据

[Scala] 纯文本查看 复制代码

?

uriCounts.takeSample(false,5,10).foreach(println)

说明 上面三个参数, 表示采样是否放回,true表示有放回的采样,false表示无放回采样;第二个参数num,表示返回的采样数据的个数,第三个参数是种子,这里只有10条数据,所以使用10. 保存数据 我们统计网站信息,那么该如何保存我们的数据。保存如下代码,spark默认保存到hdfs。对于路径写了两种方式,但是他们保存的路径则完全的不同。

[Scala] 纯文本查看 复制代码

?

uriCounts.saveAsTextFile("/UriHitCount")

上面是保存在了根路径,在hdfs上面查看

[Scala] 纯文本查看 复制代码

?

hdfs dfs -cat /UriHitCount/part-00000

[Scala] 纯文本查看 复制代码

?

hdfs dfs -cat /UriHitCount/part-00001

[Scala] 纯文本查看 复制代码

?

uriCounts.saveAsTextFile("UriHitCount")

hdfs查看,则是在/user/用户名/下面查看

[Bash shell] 纯文本查看 复制代码

?

hdfs dfs -ls -R /user/aboutyun/

同时,在我们保存的时候,使用的是saveAsTextFile,可能会误认为是文件,其实是文件夹。

原文发布于微信公众号 - about云(wwwaboutyuncom)

原文发表时间:2017-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏惨绿少年

Shell编程基础篇-下

1.1 条件表达式 1.1.1 文件判断 常用文件测试操作符 常用文件测试操作符 说明 -d文件,d的全拼为directory 文...

1890
来自专栏程序员的诗和远方

30分钟QUnit入门教程

30分钟让你了解Javascript单元测试框架QUnit,并能在程序中使用。 QUnit是什么 QUnit是一个强大,易用的JavaScript单元测试框架,...

4979
来自专栏同步博客

memcached分布式缓存

  memcached虽然称为“分布式”缓存服务器,但服务器端并没有“分布式”功能。Memcache集群主机不能够相互通信传输数据,它的“分布式”是基于客户端的...

1131
来自专栏机器学习从入门到成神

Pandas使用DataFrame进行数据分析比赛进阶之路(二):日期数据处理:按日期筛选、显示及统计数据

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

6691
来自专栏SAP最佳业务实践

想学FM系列(18)-SAP FM模块:派生规则推导策略(1)-派生规则推导步骤-初始化

4 派生规则推导策略 派生规则推导,是SAP提供由数据源推导到目标数据的一种工具,它提供了一系列面向用户开放使用的方法来使数据源经过逻辑推理后生成了有效目标数据...

4827
来自专栏java系列博客

深入理解Java内存模型(七)——总结

1643
来自专栏十月梦想

php代码之网站显示安全运行时间代码

上述就可实现网站计时功能,结合数组函数实现,后续可是使用js获取倒计时,时时显示!

1202
来自专栏HansBug's Lab

关于使用lazytag的线段树两种查询方式的比较研究

说到线段树,想来大家并不陌生——最基本的思路就是将其规划成块,然后只要每次修改时维护一下即可。 但是尤其是涉及到区间修改时,lazytag的使用往往能够对于程序...

3227
来自专栏小鹏的专栏

windows下C++如何调用matlab程序

实验平台:    matlab R2016b   VS2013 思路: 1. 设置matlab的编译器,使用外部的VC或者gcc等编译器。 2. 编译m文件成d...

2279
来自专栏C/C++基础

小米Git

题目描述: git是一种分布式代码管理工具,git通过树的形式记录文件的更改历史,比如: base’<–base<–A<–A’ ^ | — B<–B’ 小米...

481

扫码关注云+社区

领取腾讯云代金券