前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Druid入门(1)—— 快速入门实时分析利器-Druid_0.17

Druid入门(1)—— 快速入门实时分析利器-Druid_0.17

作者头像
大数据流动
发布2020-02-18 13:57:52
7610
发布2020-02-18 13:57:52
举报
文章被收录于专栏:实时计算实时计算

一、安装准备

本次安装的版本是截止2020.1.30最新的版本0.17.0

软件要求

  • 需要Java 8(8u92 +)以上的版本,否则会有问题
  • Linux,Mac OS X或其他类似Unix的操作系统(不支持Windows)

硬件要求

Druid包括一组参考配置和用于单机部署的启动脚本:

  • nano-quickstart
  • micro-quickstart
  • small
  • medium
  • large
  • xlarge

单服务器参考配置

Nano-Quickstart:1个CPU,4GB RAM
  • 启动命令: bin/start-nano-quickstart
  • 配置目录: conf/druid/single-server/nano-quickstart
微型快速入门:4个CPU,16GB RAM
  • 启动命令: bin/start-micro-quickstart
  • 配置目录: conf/druid/single-server/micro-quickstart
小型:8 CPU,64GB RAM(〜i3.2xlarge)
  • 启动命令: bin/start-small
  • 配置目录: conf/druid/single-server/small
中:16 CPU,128GB RAM(〜i3.4xlarge)
  • 启动命令: bin/start-medium
  • 配置目录: conf/druid/single-server/medium
大型:32 CPU,256GB RAM(〜i3.8xlarge)
  • 启动命令: bin/start-large
  • 配置目录: conf/druid/single-server/large
大型X:64 CPU,512GB RAM(〜i3.16xlarge)
  • 启动命令: bin/start-xlarge
  • 配置目录: conf/druid/single-server/xlarge

我们这里做测试使用选择最低配置即可nano-quickstart

二、下载安装包

访问官网:

http://druid.io/现在也会跳转https://druid.apache.org/

或者直接访问https://druid.apache.org/

file
file

点击download进入下载页面:

file
file

选择最新版本: apache-druid-0.17.0-bin.tar.gz 进行下载

200多M

file
file

也可以选择下载源码包 用maven进行编译

三、安装

上传安装包

在终端中运行以下命令来安装Druid:

代码语言:javascript
复制
tar -xzf apache-druid-0.17.0-bin.tar.gz
cd apache-druid-0.17.0

安装包里有这几个目录:

file
file
  • LICENSENOTICE文件
  • bin/* -脚本
  • conf/* -单服务器和集群设置的示例配置
  • extensions/* -扩展
  • hadoop-dependencies/* -Druid Hadoop依赖
  • lib/* -Druid库
  • quickstart/* -快速入门教程的配置文件,样本数据和其他文件

配置文件

代码语言:javascript
复制
#进入我们要启动的配置文件位置:
cd conf/druid/single-server/nano-quickstart/
file
file

_common 公共配置

file
file

是druid一些基本的配置,比如元数据库地址 各种路径等等

其他的是各个节点的配置

比较类似,比如broker

代码语言:javascript
复制
cd broker/
file
file

jvm配置

main配置

runtime运行时相关的配置

回到主目录

启动的conf在

代码语言:javascript
复制
cd conf/supervise/single-server
file
file

里面是不同配置启动不同的脚本

四、启动

回到主目录

代码语言:javascript
复制
./bin/start-nano-quickstart

启动成功:

file
file

访问

localhost:8888

看到管理页面

file
file

如果要修改端口,需要修改配置的端口和主目录下的

代码语言:javascript
复制
vi bin/verify-default-ports 

五、加载数据

Druid提供了一个示例数据文件,其中包含2015年9月12日发生的Wiki的示例数据。

此样本数据位于quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gz

示例数据大概是这样:

代码语言:javascript
复制
{
  "timestamp":"2015-09-12T20:03:45.018Z",
  "channel":"#en.wikipedia",
  "namespace":"Main",
  "page":"Spider-Man's powers and equipment",
  "user":"foobar",
  "comment":"/* Artificial web-shooters */",
  "cityName":"New York",
  "regionName":"New York",
  "regionIsoCode":"NY",
  "countryName":"United States",
  "countryIsoCode":"US",
  "isAnonymous":false,
  "isNew":false,
  "isMinor":false,
  "isRobot":false,
  "isUnpatrolled":false,
  "added":99,
  "delta":99,
  "deleted":0,
}

Druid加载数据分为以下几种:

  • 加载文件
  • 从kafka中加载数据
  • 从hadoop中加载数据
  • 自定义加载方式

我们这样演示一下加载示例文件数据

1、进入localhost:8888 点击load data
file
file
2、选择local disk
file
file
3、选择Connect data
file
file
4、预览数据

Base directory输入quickstart/tutorial/

File filter输入 wikiticker-2015-09-12-sampled.json.gz

然后点击apply预览 就可以看见数据了 点击Next:parse data解析数据

file
file
5、解析数据

可以看到json数据已经被解析了 继续解析时间

file
file
6、解析时间

解析时间成功 之后两步是transform和filter 这里不做演示了 直接next

file
file
7、确认Schema

这一步会让我们确认Schema 可以做一些修改

由于数据量较小 我们直接关掉Rollup 直接下一步

file
file
8、设置分段

这里可以设置数据分段 我们选择hour next

file
file
9、确认发布
file
file
file
file
10、发布成功 开始解析数据
file
file

等待任务成功

file
file
11、查看数据

选择datasources 可以看到我们加载的数据

可以看到数据源名称 Fully是完全可用 还有大小等各种信息

file
file
12、查询数据

点击query按钮

我们可以写sql查询数据了 还可以将数据下载

file
file

Druid相关博文

什么是Druid

静下心来,努力的提升自己,永远都没有错。更多实时计算相关博文,欢迎关注实时流式计算

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-02-10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、安装准备
    • 软件要求
      • 硬件要求
        • 单服务器参考配置
        • 二、下载安装包
        • 三、安装
          • 配置文件
          • 四、启动
          • 五、加载数据
          相关产品与服务
          流计算 Oceanus
          流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档