腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1274252

阅读量

315

订阅数

「硬刚Doris系列」Doris高级用法

javascript 打包 rollup.js

Rollup 可以理解为 Table 的一个物化索引结构。物化是因为其数据在物理上独立存储，而索引的意思是，Rollup可以调整列顺序以增加前缀索引的命中率，也可以减少key列以增加数据的聚合度。

王知无-import_bigdata

2022-06-05

1.5K0

硬刚Doris系列」Apache Doris基本使用和数据模型

数据库 sql javascript 打包 rollup.js

我们使用 event_day 列作为分区列，建立3个分区: p201706, p201707, p201708

王知无-import_bigdata

2022-06-05

1.4K0

Apache Griffin+Flink+Kafka实现流式数据质量监控实战

kafka flink 大数据 javascript 编程算法

本文用的组件包括以下几个，是参考了官方案例,版本可以参考github以及里面的pom文件。本文假定以下环境均已安装好。

王知无-import_bigdata

2022-04-13

1.1K0

Hudi小文件问题处理和生产调优个人笔记

sql spark javascript 日志数据

Apache Hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。

王知无-import_bigdata

2022-04-13

1.6K0

Flink 源码深度解析-Async IO的实现

javascript node.js ajax

在Flink中使用Async I/O的话，需要有一个支持异步请求的客户端，或者以多线程异步的方式来将同步操作转化为异步操作调用；

王知无-import_bigdata

2022-03-11

6970

卷起来了，Apache Flink 1.13.6 发布！

java api javascript 打包文件存储

Hi，我是王知无，一个大数据领域的原创作者。 Apache Flink 社区发布了 Flink 1.13 的另一个错误修复版本。

王知无-import_bigdata

2022-03-11

1.5K0

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

javascript vr 视频解决方案 spark 大数据存储

OK，我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢？

王知无-import_bigdata

2021-10-13

6290

Presto原理&调优&面试&实战全面升级版

云数据库 SQL Server 任务调度 hive javascript sql

很久之前，曾经写过一篇《Presto在大数据领域的实践和探索》。文中详细讲解了Presto的原理和应用。

王知无-import_bigdata

2021-07-12

2K0

Spark Streaming性能优化: 如何在生产环境下动态应对流数据峰值

javascript spark 批量计算数据处理

默认情况下，Spark Streaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现batch processing time > batch interval的情况，其中batch processing time 为实际计算一个批次花费时间， batch interval为Streaming应用设置的批处理间隔。这意味着Spark Streaming的数据接收速率高于Spark从队列中移除数据的速率，也就是数据处理能力低，在设置间隔内不能完全处理当前接收速率接收的数据。如果这种情况持续过长的时间，会造成数据在内存中堆积，导致Receiver所在Executor内存溢出等问题（如果设置StorageLevel包含disk, 则内存存放不下的数据会溢写至disk, 加大延迟）。Spark 1.5以前版本，用户如果要限制Receiver的数据接收速率，可以通过设置静态配制参数“spark.streaming.receiver.maxRate ”的值来实现，此举虽然可以通过限制接收速率，来适配当前的处理能力，防止内存溢出，但也会引入其它问题。比如：producer数据生产高于maxRate，当前集群处理能力也高于maxRate，这就会造成资源利用率下降等问题。为了更好的协调数据接收速率与资源处理能力，Spark Streaming 从v1.5开始引入反压机制（back-pressure）,通过动态控制数据接收速率来适配集群数据处理能力。

王知无-import_bigdata

2020-11-24

6230

打通实时流处理log4j-flume-kafka-structured-streaming

kafka java javascript

模拟产生log4j日志 jar包依赖 pom.xml <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </dependency> <dependency> <groupId>org.apach

王知无-import_bigdata

2020-05-20

5550

Flink Logback日志与邮件报警配置

flink 大数据 javascript xml jar

Flink官方推荐使用Logback替代默认的Log4j作为日志框架。我们之前一直用Log4j，最近切换成了更优秀的Logback，但是配置起来略有点麻烦，本文简述配置过程。

王知无-import_bigdata

2020-03-18

2.3K0

Flink异步之矛-锋利的Async I/O

javascript node.js ajax 大数据 https

在Flink 流处理过程中，经常需要和外部系统进行交互，用维度表补全事实表中的字段。

王知无-import_bigdata

2020-02-10

1.1K0

15个多线程相关的面试题

编程算法 javascript node.js java

场景描述：Java并发编程问题是面试过程中很容易遇到的问题，提前准备是解决问题的最好办法，将试题总结起来，时常查看会有奇效。

王知无-import_bigdata

2019-12-30

7400

Flink 网络传输优化技术

大数据文件存储 java 批量计算 javascript

作为工业级的流计算框架，Flink 被设计为可以每天处理 TB 甚至 PB 级别的数据，所以如何高吞吐低延迟并且可靠地在算子间传输数据是一个非常重要的课题。此外，Flink 的数据传输还需要支持框架本身的特性，例如反压和用于测量延迟的 latency marker。在社区不断的迭代中，Flink 逐渐积累了一套值得研究的网络栈（Network Stack），本文将详细介绍 Flink Network Stack 的实现细节以及关键的优化技术。

王知无-import_bigdata

2019-08-13

1.9K0

Apache Kylin VS Apache Doris全方位对比

hbase TDSQL MySQL 版 apache 数据结构 javascript

本文作者：康凯森，来源于：https://blog.bcmeng.com，文章写的非常详细，从各个方面对Kylin和Doris进行了对比。

王知无-import_bigdata

2019-07-31

12.5K1

Hive/HiveSQL常用优化方法全面总结

hive mapreduce sql javascript

Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。

王知无-import_bigdata

2019-07-01

22.3K0

周期性清除Spark Streaming流状态的方法

spark javascript node.js

在Spark Streaming程序中，我们经常需要使用有状态的流来统计一些累积性的指标，比如各个商品的PV。简单的代码描述如下，使用mapWithState()算子：

王知无-import_bigdata

2019-07-01

1.1K0

Hive使用必知必会系列

javascript hive 数据库 sql 大数据

注意:使用insert插入数据时会产生临时表，重新连接后会表会小时，因此大批量插入数据时不建议用insert tips1:在hdfs的hive路径下以.db结尾的其实都是实际的数据库 tips2:默认的default数据库就在hive的家目录

王知无-import_bigdata

2019-05-09

1.7K0

Hadoop所支持的几种压缩格式

文件存储 hadoop javascript linux mapreduce

优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。

王知无-import_bigdata

2019-04-24

2.3K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态