前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >日志分析实战之清洗日志小实例7:查看样本数据,保存统计数据到文件

日志分析实战之清洗日志小实例7:查看样本数据,保存统计数据到文件

作者头像
用户1410343
发布2018-03-26 15:12:41
8910
发布2018-03-26 15:12:41
举报
文章被收录于专栏:about云about云

问题导读 1.如何从所有数据中,抽取样本查看? 2.如何保存结果到hdfs? 3.saveAsTextFile的作用是什么? 上一篇 日志分析实战之清洗日志小实例6:获取uri点击量排序并得到最高的url http://www.aboutyun.com/forum.php?mod=viewthread&tid=22928 查看示例数据

[Scala] 纯文本查看 复制代码

?

代码语言:javascript
复制
uriCounts.takeSample(false,5,10).foreach(println)

说明 上面三个参数, 表示采样是否放回,true表示有放回的采样,false表示无放回采样;第二个参数num,表示返回的采样数据的个数,第三个参数是种子,这里只有10条数据,所以使用10. 保存数据 我们统计网站信息,那么该如何保存我们的数据。保存如下代码,spark默认保存到hdfs。对于路径写了两种方式,但是他们保存的路径则完全的不同。

[Scala] 纯文本查看 复制代码

?

代码语言:javascript
复制
uriCounts.saveAsTextFile("/UriHitCount")

上面是保存在了根路径,在hdfs上面查看

[Scala] 纯文本查看 复制代码

?

代码语言:javascript
复制
hdfs dfs -cat /UriHitCount/part-00000

[Scala] 纯文本查看 复制代码

?

代码语言:javascript
复制
hdfs dfs -cat /UriHitCount/part-00001

[Scala] 纯文本查看 复制代码

?

代码语言:javascript
复制
uriCounts.saveAsTextFile("UriHitCount")

hdfs查看,则是在/user/用户名/下面查看

[Bash shell] 纯文本查看 复制代码

?

代码语言:javascript
复制
hdfs dfs -ls -R /user/aboutyun/

同时,在我们保存的时候,使用的是saveAsTextFile,可能会误认为是文件,其实是文件夹。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 about云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
Elasticsearch Service
腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档