学习
实践
活动
工具
TVP
写文章
首页标签大数据处理套件

#大数据处理套件

安全、易用的一站式大数据处理平台

Elasticsearch 分布式架构剖析及扩展性优化

黄华

Elasticsearch 是一个实时的分布式搜索分析引擎,简称 ES。一个集群由多个节点组成,节点的角色可以根据用户的使用场景自由配置,集群可以以节点为单位自...

16950

大数据调度平台Airflow(八):Airflow分布式集群搭建及测试

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

默认Airflow安装在$ANCONDA_HOME/envs/python37/lib/python3.7/site-packages/airflow目录下。配...

191100

(3)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示

NBI大数据

(1)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示,我们先看下整体方案架构:

6740

个推TechDay直播回顾 | 分享基于Flink的实时数仓搭建秘诀 附课件下载

个推

近日,个推TechDay“治数训练营”系列直播课第二期举办。来自每日互动(个推)的资深数据研发工程师为大家详细解读了实时数仓架构演进,分享了实时数仓的技术选型要...

12240

(2)sparkstreaming滚动窗口和滑动窗口演示

NBI大数据

一、滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态...

10520

大数据ClickHouse(十八):Spark 写入 ClickHouse API

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

SparkCore写入ClickHouse,可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。在ClickHouse...

478120

kafka事务:入门篇

皮皮熊

腾讯 · 高级工程师 (已认证)

Kafka 的消息传输保障机制非常直观。当生产者向 Kafka 发送消息时,一旦消息被成功提交到日志文件,由于多副本机制的存在,这条消息就不会丢失。

23272

(1)sparkstreaming结合sparksql读取socket实时数据流

NBI大数据

Spark Streaming是构建在Spark Core的RDD基础之上的,与此同时Spark Streaming引入了一个新的概念:DStream(Disc...

9020

腾讯云大数据平台 TBDS全面升级,加速构建安全可控的大数据生态

腾讯QQ大数据

8月22日,腾讯云大数据首届“智理无数,心中有数”伙伴交流会在深圳滨海大厦举办。本次会议主要围绕腾讯云大数据平台TBDS产品的全新升级,以及在渠道伙伴中的推广策...

13920

大数据ClickHouse(十):MergeTree系列表引擎之SummingMergeTree

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

该引擎继承了MergeTree引擎,当合并 SummingMergeTree 表的数据片段时,ClickHouse 会把所有具有相同主键的行合并为一行,该行包含...

18070

大数据ClickHouse(九):MergeTree系列表引擎之ReplacingMergeTree

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

以上MergeTree不能对相同主键的数据进行去重,ClickHouse提供了ReplacingMergeTree引擎,可以针对同分区内相同主键的数据进行去重,...

25660

大数据Apache Druid(八):Druid JDBC API和其他OLAP分析框架对比

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

在大数据处理场景中,我们可以编写接口来读取Druid中的数据进行聚合操作,以供可视化展示使用。下面使用jdbc的方式来读取Druid中的数据。

11850

大数据Apache Druid(七):Druid数据的全量更新

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

Druid中不支持对指定的数据进行更新,只支持对数据进行全量替换,全量替换的粒度是以Segment为标准。举例说明如下:

17770

数据治理(六):编译Atlas安装包

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

Atlas官网没有提供Atlas的安装包,需要下载Atlas的源码后编译安装,下载Atlas源码需要登录Atlas官网下载Atlas:https://atlas...

13450

大数据Apache Druid(六):Druid流式数据加载

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

Druid也可以与Kafka整合,直接读取Kafka中某个topic的数据在Druid中进行OLAP分析,步骤如下:

11350

大数据Apache Druid(五):Druid批量数据加载

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

Druid支持流式和批量两种方式的数据摄入,流式数据是指源源不断产生的数据,数据会一直产生不会停止。批量数据是指已经生产完成的数据。这两种数据都可以加载到Dru...

13540

(4)Flink CEP SQL贪婪词量演示

NBI大数据

基于上一篇(3)Flink CEP SQL宽松近邻代码演示的延展,在上一篇中我们使用贪婪词量 +(至少匹配1行或多行),本篇将演示多种贪婪词量的效果:

10030

大数据Apache Druid(四):使用Imply进行Druid集群搭建

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

Imply基于Druid进行了一些组件的开发,是Druid的集成包,提供开源版本和商业版本,类似CDH一样,使安装Druid简化了部署,Imply也是Druid...

11960

大数据Apache Druid(三):Druid集群搭建

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

Druid进程可以以任意方式进行部署,为了方便部署,建议分为三种服务器类型:主服务器(Master)、查询服务器(Query)、数据服务器(Data)。

32590

大数据Apache Druid(二):Druid数据结构及架构原理

Lansonli

腾云先锋 · 腾云先锋(TDP)成员 (已认证)

Druid中的数据存储在datasource中,类似RDBMS中的table,每个datasource中按照时间划分,每个时间范围称为一个chunk(一般一天为...

20360

扫码关注腾讯云开发者

领取腾讯云代金券