腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏作者
举报
635
文章
1274252
阅读量
315
订阅数
订阅专栏
申请加入专栏
全部文章
大数据
sql
数据库
kafka
spark
flink
编程算法
apache
存储
hive
java
node.js
api
数据
hadoop
文件存储
缓存
hbase
云数据库 SQL Server
TDSQL MySQL 版
数据处理
分布式
数据结构
scala
云数据库 Redis
mapreduce
数据分析
javascript
linux
yarn
https
python
网络安全
unix
jvm
windows
zookeeper
打包
消息队列 CMQ 版
开发
批量计算
http
bash
数据湖
数据迁移
云计算
面试
xml
企业
数据安全
Elasticsearch Service
bash 指令
腾讯云测试服务
面向对象编程
框架
优化
jar
运维
processing
机器学习
json
日志数据
开源
hashmap
tcp/ip
rabbitmq
数据可视化
微服务
架构
html
神经网络
深度学习
压力测试
jdbc
rpc
nosql
spring
网站
express
sql server
nest
任务调度
es
数据集成
工具
配置
数据管理
系统
性能
oracle
github
maven
人工智能
vr 视频解决方案
electron
容器
shell
socket编程
kerberos
性能测试
实时数仓
测试
工作
行业
集群
内存
设计
实践
索引
原理
对象存储
官方文档
数据挖掘
css
ajax
android
ide
lucene/solr
nginx
容器镜像服务
海外加速
mongodb
rollup.js
kubernetes
uml
架构设计
5g
迁移
clickhouse
报表
产品
磁盘
函数
后端
监控
解决方案
模型
排序
事件
异常
最佳实践
负载均衡
自动驾驶
ios
iphone
php
go
lua
erlang
regex
react
typescript
postgresql
flask
sqlalchemy
git
搜索引擎
负载均衡缓存
专用宿主机
云数据迁移
日志服务
腾讯云可观测平台
命令行工具
云数据库 MongoDB
es 2
图像处理
数据备份
电商
出行
serverless
游戏
无人驾驶
jdk
推荐系统
markdown
zabbix
微信
机器人
物联网
系统架构
腾讯云开发者社区
安全治理
raft
实时监控
数据库管理
流计算 Oceanus
大数据存储
汽车
腾讯云
bi
bigdata
block
class
code
combine
configuration
csv
data
dp
export
fifo
hash
import
ip
key
memory
mysql
netty
populate
properties
pulsar
queue
rank
root
scheduler
select
state
sum
table
task
time
vi
window
报表工具
登录
队列
服务
高性能
管理
规范化
基础
架构师
接口
连接
日志
入门
实时计算
数据采集
数据同步
算法
微信公众号
线程
效率
协议
研发
语法
中间件
字符串
搜索文章
搜索
搜索
关闭
「硬刚Doris系列」Doris高级用法
javascript
打包
rollup.js
Rollup 可以理解为 Table 的一个物化索引结构。物化 是因为其数据在物理上独立存储,而 索引 的意思是,Rollup可以调整列顺序以增加前缀索引的命中率,也可以减少key列以增加数据的聚合度。
王知无-import_bigdata
2022-06-05
1.5K
0
硬刚Doris系列」Apache Doris基本使用和数据模型
数据库
sql
javascript
打包
rollup.js
我们使用 event_day 列作为分区列,建立3个分区: p201706, p201707, p201708
王知无-import_bigdata
2022-06-05
1.4K
0
Apache Griffin+Flink+Kafka实现流式数据质量监控实战
kafka
flink
大数据
javascript
编程算法
本文用的组件包括以下几个,是参考了官方案例,版本可以参考github以及里面的pom文件。本文假定以下环境均已安装好。
王知无-import_bigdata
2022-04-13
1.1K
0
Hudi小文件问题处理和生产调优个人笔记
sql
spark
javascript
日志数据
Apache Hudi提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。
王知无-import_bigdata
2022-04-13
1.6K
0
Flink 源码深度解析-Async IO的实现
javascript
node.js
ajax
在Flink中使用Async I/O的话,需要有一个支持异步请求的客户端,或者以多线程异步的方式来将同步操作转化为异步操作调用;
王知无-import_bigdata
2022-03-11
697
0
卷起来了,Apache Flink 1.13.6 发布!
java
api
javascript
打包
文件存储
Hi,我是王知无,一个大数据领域的原创作者。 Apache Flink 社区发布了 Flink 1.13 的另一个错误修复版本。
王知无-import_bigdata
2022-03-11
1.5K
0
昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)
javascript
vr 视频解决方案
spark
大数据
存储
OK,我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢?
王知无-import_bigdata
2021-10-13
629
0
Presto原理&调优&面试&实战全面升级版
云数据库 SQL Server
任务调度
hive
javascript
sql
很久之前,曾经写过一篇 《Presto在大数据领域的实践和探索》 。文中详细讲解了Presto的原理和应用。
王知无-import_bigdata
2021-07-12
2K
0
Spark Streaming性能优化: 如何在生产环境下动态应对流数据峰值
javascript
spark
批量计算
数据处理
默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Streaming应用设置的批处理间隔。这意味着Spark Streaming的数据接收速率高于Spark从队列中移除数据的速率,也就是数据处理能力低,在设置间隔内不能完全处理当前接收速率接收的数据。如果这种情况持续过长的时间,会造成数据在内存中堆积,导致Receiver所在Executor内存溢出等问题(如果设置StorageLevel包含disk, 则内存存放不下的数据会溢写至disk, 加大延迟)。Spark 1.5以前版本,用户如果要限制Receiver的数据接收速率,可以通过设置静态配制参数“spark.streaming.receiver.maxRate ”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。比如:producer数据生产高于maxRate,当前集群处理能力也高于maxRate,这就会造成资源利用率下降等问题。为了更好的协调数据接收速率与资源处理能力,Spark Streaming 从v1.5开始引入反压机制(back-pressure),通过动态控制数据接收速率来适配集群数据处理能力。
王知无-import_bigdata
2020-11-24
623
0
打通实时流处理log4j-flume-kafka-structured-streaming
kafka
java
javascript
模拟产生log4j日志 jar包依赖 pom.xml <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </dependency> <dependency> <groupId>org.apach
王知无-import_bigdata
2020-05-20
555
0
Flink Logback日志与邮件报警配置
flink
大数据
javascript
xml
jar
Flink官方推荐使用Logback替代默认的Log4j作为日志框架。我们之前一直用Log4j,最近切换成了更优秀的Logback,但是配置起来略有点麻烦,本文简述配置过程。
王知无-import_bigdata
2020-03-18
2.3K
0
Flink异步之矛-锋利的Async I/O
javascript
node.js
ajax
大数据
https
在Flink 流处理过程中,经常需要和外部系统进行交互,用维度表补全事实表中的字段。
王知无-import_bigdata
2020-02-10
1.1K
0
15个多线程相关的面试题
编程算法
javascript
node.js
java
场景描述:Java并发编程问题是面试过程中很容易遇到的问题,提前准备是解决问题的最好办法,将试题总结起来,时常查看会有奇效。
王知无-import_bigdata
2019-12-30
740
0
Flink 网络传输优化技术
大数据
文件存储
java
批量计算
javascript
作为工业级的流计算框架,Flink 被设计为可以每天处理 TB 甚至 PB 级别的数据,所以如何高吞吐低延迟并且可靠地在算子间传输数据是一个非常重要的课题。此外,Flink 的数据传输还需要支持框架本身的特性,例如反压和用于测量延迟的 latency marker。在社区不断的迭代中,Flink 逐渐积累了一套值得研究的网络栈(Network Stack),本文将详细介绍 Flink Network Stack 的实现细节以及关键的优化技术。
王知无-import_bigdata
2019-08-13
1.9K
0
Apache Kylin VS Apache Doris全方位对比
hbase
TDSQL MySQL 版
apache
数据结构
javascript
本文作者:康凯森,来源于:https://blog.bcmeng.com,文章写的非常详细,从各个方面对Kylin和Doris进行了对比。
王知无-import_bigdata
2019-07-31
12.5K
1
Hive/HiveSQL常用优化方法全面总结
hive
mapreduce
sql
javascript
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化,也包含Hive配置项和MR方面的调整。
王知无-import_bigdata
2019-07-01
22.3K
0
周期性清除Spark Streaming流状态的方法
spark
javascript
node.js
在Spark Streaming程序中,我们经常需要使用有状态的流来统计一些累积性的指标,比如各个商品的PV。简单的代码描述如下,使用mapWithState()算子:
王知无-import_bigdata
2019-07-01
1.1K
0
Hive使用必知必会系列
javascript
hive
数据库
sql
大数据
注意:使用insert插入数据时会产生临时表,重新连接后会表会小时,因此大批量插入数据时不建议用insert tips1:在hdfs的hive路径下以.db结尾的其实都是实际的数据库 tips2:默认的default数据库就在hive的家目录
王知无-import_bigdata
2019-05-09
1.7K
0
Hadoop所支持的几种压缩格式
文件存储
hadoop
javascript
linux
mapreduce
优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。
王知无-import_bigdata
2019-04-24
2.3K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档