日志分析实战之清洗日志小实例7：查看样本数据，保存统计数据到文件

用户1410343

发布于 2018-03-26 15:12:41

9380

发布于 2018-03-26 15:12:41

文章被收录于专栏：about云

问题导读 1.如何从所有数据中，抽取样本查看？ 2.如何保存结果到hdfs？ 3.saveAsTextFile的作用是什么？上一篇日志分析实战之清洗日志小实例6：获取uri点击量排序并得到最高的url http://www.aboutyun.com/forum.php?mod=viewthread&tid=22928 查看示例数据

[Scala] 纯文本查看复制代码

?

uriCounts.takeSample(false,5,10).foreach(println)

说明上面三个参数，表示采样是否放回，true表示有放回的采样，false表示无放回采样；第二个参数num，表示返回的采样数据的个数,第三个参数是种子，这里只有10条数据，所以使用10. 保存数据我们统计网站信息，那么该如何保存我们的数据。保存如下代码，spark默认保存到hdfs。对于路径写了两种方式，但是他们保存的路径则完全的不同。

[Scala] 纯文本查看复制代码

?

uriCounts.saveAsTextFile("/UriHitCount")

上面是保存在了根路径，在hdfs上面查看

[Scala] 纯文本查看复制代码

?

hdfs dfs -cat /UriHitCount/part-00000

[Scala] 纯文本查看复制代码

?

hdfs dfs -cat /UriHitCount/part-00001

[Scala] 纯文本查看复制代码

?

uriCounts.saveAsTextFile("UriHitCount")

hdfs查看，则是在/user/用户名/下面查看

[Bash shell] 纯文本查看复制代码

?

hdfs dfs -ls -R /user/aboutyun/

同时，在我们保存的时候，使用的是saveAsTextFile，可能会误认为是文件，其实是文件夹。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-10-23，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

本文分享自 about云微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据分析

登录后参与评论

0 条评论

热度

日志分析实战之清洗日志小实例7：查看样本数据，保存统计数据到文件

日志分析实战之清洗日志小实例7：查看样本数据，保存统计数据到文件

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐