前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >快速学习-Druid的入门

快速学习-Druid的入门

作者头像
cwl_java
发布2020-03-25 14:50:38
7210
发布2020-03-25 14:50:38
举报
文章被收录于专栏:cwl_Javacwl_Java

第5章 Druid的入门

5.1 在线加载样本数据

  1. 打开imply
在这里插入图片描述
在这里插入图片描述
  1. 开始连接到实例Wikipedia数据集
在这里插入图片描述
在这里插入图片描述
  1. 加载样本数据。Wikipedia示例使用Http数据加载器从URI路径读取数据,格式为json。可以通过点击采样并继续,对文件前几行的数据进行采样,以确保它是可解析的数据。
在这里插入图片描述
在这里插入图片描述
  1. 配置汇总
在这里插入图片描述
在这里插入图片描述
  1. 配置时间戳和分区
在这里插入图片描述
在这里插入图片描述
  1. 配置要加载的列。
在这里插入图片描述
在这里插入图片描述
  1. 确认并开始摄取!
在这里插入图片描述
在这里插入图片描述

一旦加载器指示数据已被索引,您就可以继续下一部分来定义数据立方体并开始可视化数据。

5.2 离线加载样本数据

如果您无法访问公共Web服务器,则可以从本地文件加载相同的数据集。该quickstart目录包括一个样本数据集和一个摄取规范来处理数据,分别命名wikipedia-2016-06-27-sampled.json和wikipedia-index.json。 要为此摄取规范向Druid提交索引作业,请从Imply目录运行以下命令:

代码语言:javascript
复制
bin/post-index-task --file quickstart/wikipedia-index.json

成功运行将生成类似于以下内容的日志:

代码语言:javascript
复制
Beginning indexing data for wikipedia
Task started: index_wikipedia_2017-12-05T03:22:28.612Z
Task log:     http://localhost:8090/druid/indexer/v1/task/index_wikipedia_2017-12-05T03:22:28.612Z/log
Task status:  http://localhost:8090/druid/indexer/v1/task/index_wikipedia_2017-12-05T03:22:28.612Z/status
Task index_wikipedia_2017-12-05T03:22:28.612Z still running...
Task index_wikipedia_2017-12-05T03:22:28.612Z still running...
Task finished with status: SUCCESS
Completed indexing data for wikipedia. Now loading indexed data onto the cluster...
wikipedia is 0.0% finished loading...
wikipedia is 0.0% finished loading...
wikipedia is 0.0% finished loading...
wikipedia loading complete! You may now query your data

5.3 创建数据立方体

通过单击顶部栏上的相应按钮切换到Imply 的“ 可视化”部分。从这里,您可以创建数据立方体来建模数据,浏览这些立方体,并将视图组织到仪表板中。首先单击+创建新数据多维数据集。

在这里插入图片描述
在这里插入图片描述

在出现的对话框中,确保wikipedia选中此源并选择自动填充尺寸和度量。单击下一步继续:创建数据立方体。

5.4 可视化数据立方体

单击“ 保存”后,将自动加载此新数据多维数据集的数据立方体视图。将来,还可以通过从“ 可视化”屏幕单击数据立方体的名称(在此示例中为“Wikipedia”)来加载此视图。

在这里插入图片描述
在这里插入图片描述

在这里,您可以通过过滤并在任何维度上拆分数据集来探索数据集。对于数据的每次过滤拆分,您将看到所选度量的总值。

例如,在维基百科数据集上,通过在page上拆分和按事件数排序查看最常编辑的page)。

在这里插入图片描述
在这里插入图片描述

数据立方体视图根据您分割数据的方式建议不同的可视化。如果拆分字符串列,则数据最初将显示为表格。如果按时间拆分,数据立方体视图将推荐时间序列图,如果在数字列上拆分,则会得到条形图。

在这里插入图片描述
在这里插入图片描述

5.5 运行SQL

访问SQL编辑器。

代码语言:javascript
复制
SELECT page, COUNT(*) AS Edits
FROM wikipedia
WHERE "__time" BETWEEN TIMESTAMP '2016-06-27 00:00:00' AND TIMESTAMP '2016-06-28 00:00:00'
GROUP BY page
ORDER BY Edits
DESC LIMIT 5

您应该看到如下结果:

在这里插入图片描述
在这里插入图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第5章 Druid的入门
    • 5.1 在线加载样本数据
      • 5.2 离线加载样本数据
        • 5.3 创建数据立方体
          • 5.4 可视化数据立方体
            • 5.5 运行SQL
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档