腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据成神之路
专注大数据领域的一切技术~
专栏成员
举报
638
文章
1403767
阅读量
322
订阅数
订阅专栏
申请加入专栏
全部文章(638)
大数据(273)
sql(163)
数据库(129)
kafka(105)
spark(100)
flink(91)
编程算法(83)
apache(72)
存储(60)
hive(59)
java(52)
node.js(52)
api(52)
数据(46)
hadoop(41)
文件存储(39)
缓存(39)
hbase(36)
云数据库 SQL Server(35)
TDSQL MySQL 版(33)
数据处理(31)
分布式(29)
数据结构(28)
scala(25)
云数据库 Redis(24)
mapreduce(24)
数据分析(21)
javascript(19)
linux(19)
yarn(18)
https(18)
python(17)
网络安全(17)
unix(16)
jvm(16)
windows(16)
zookeeper(14)
开发(14)
打包(13)
消息队列 CMQ 版(13)
批量计算(12)
http(12)
数据湖(12)
bash(11)
面试(11)
数据迁移(10)
云计算(10)
xml(9)
企业(9)
数据安全(9)
Elasticsearch Service(9)
框架(9)
bash 指令(8)
腾讯云测试服务(8)
面向对象编程(8)
架构(8)
优化(8)
jar(7)
运维(7)
processing(7)
机器学习(6)
json(6)
日志数据(6)
开源(6)
hashmap(6)
tcp/ip(6)
rabbitmq(6)
数据可视化(6)
微服务(6)
html(5)
神经网络(5)
深度学习(5)
压力测试(5)
jdbc(5)
rpc(5)
nosql(4)
spring(4)
网站(4)
express(4)
sql server(4)
nest(4)
任务调度(4)
es(4)
数据集成(4)
工具(4)
配置(4)
设计(4)
数据管理(4)
系统(4)
性能(4)
oracle(3)
github(3)
maven(3)
人工智能(3)
vr 视频解决方案(3)
electron(3)
容器(3)
shell(3)
socket编程(3)
kerberos(3)
性能测试(3)
实时数仓(3)
测试(3)
工作(3)
行业(3)
集群(3)
模型(3)
内存(3)
实践(3)
索引(3)
原理(3)
对象存储(2)
官方文档(2)
数据挖掘(2)
css(2)
ajax(2)
android(2)
ide(2)
lucene/solr(2)
nginx(2)
容器镜像服务(2)
海外加速(2)
mongodb(2)
rollup.js(2)
kubernetes(2)
uml(2)
架构设计(2)
5g(2)
迁移(2)
clickhouse(2)
报表(2)
产品(2)
磁盘(2)
函数(2)
后端(2)
基础(2)
监控(2)
解决方案(2)
排序(2)
事件(2)
异常(2)
最佳实践(2)
负载均衡(1)
自动驾驶(1)
ios(1)
iphone(1)
php(1)
go(1)
lua(1)
erlang(1)
regex(1)
react(1)
typescript(1)
postgresql(1)
flask(1)
sqlalchemy(1)
git(1)
搜索引擎(1)
负载均衡缓存(1)
专用宿主机(1)
云数据迁移(1)
日志服务(1)
腾讯云可观测平台(1)
命令行工具(1)
云数据库 MongoDB(1)
es 2(1)
图像处理(1)
数据备份(1)
电商(1)
出行(1)
serverless(1)
游戏(1)
无人驾驶(1)
jdk(1)
推荐系统(1)
markdown(1)
zabbix(1)
微信(1)
机器人(1)
物联网(1)
系统架构(1)
腾讯云开发者社区(1)
安全治理(1)
raft(1)
实时监控(1)
数据库管理(1)
流计算 Oceanus(1)
大数据存储(1)
汽车(1)
腾讯云(1)
bi(1)
bigdata(1)
block(1)
class(1)
code(1)
combine(1)
configuration(1)
csv(1)
data(1)
dp(1)
export(1)
fifo(1)
hash(1)
import(1)
ip(1)
key(1)
memory(1)
mysql(1)
netty(1)
populate(1)
properties(1)
pulsar(1)
queue(1)
rank(1)
root(1)
scheduler(1)
select(1)
state(1)
sum(1)
table(1)
task(1)
time(1)
vi(1)
window(1)
报表工具(1)
登录(1)
队列(1)
服务(1)
高性能(1)
管理(1)
规范化(1)
架构师(1)
接口(1)
连接(1)
日志(1)
入门(1)
实时计算(1)
数据采集(1)
数据同步(1)
算法(1)
微信公众号(1)
线程(1)
效率(1)
协议(1)
研发(1)
语法(1)
中间件(1)
字符串(1)
搜索文章
搜索
搜索
关闭
「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap
编程算法
sql
数据库
express
在 expression 层面一般采用 expression tree 的模型来解释执行,而在 operator 层面则大多采用火山模型。
王知无-import_bigdata
2022-06-05
1.3K
0
Flink新特性之非对齐检查点(unaligned checkpoint)详细解析
flink
大数据
编程算法
分布式
作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。
王知无-import_bigdata
2022-06-05
5.5K
0
那些年我们一起优化的SQL
编程算法
sql
数据库
云数据库 SQL Server
如果没有using index condtion,field1会走索引查询,匹配到对应的数据后,回表查出剩余字段信息,再去匹配。
王知无-import_bigdata
2022-06-05
575
0
Apache Griffin+Flink+Kafka实现流式数据质量监控实战
kafka
flink
大数据
javascript
编程算法
本文用的组件包括以下几个,是参考了官方案例,版本可以参考github以及里面的pom文件。本文假定以下环境均已安装好。
王知无-import_bigdata
2022-04-13
1.2K
0
Flink Forward 2021中一些值得关注的动态
flink
编程算法
sql
机器学习
神经网络
朋友圈很多朋友都看了,观众人数第一天还挺多,第二天大家好像热性消退,观看人减少了很多。
王知无-import_bigdata
2022-03-11
450
0
【Spark重点难点06】SparkSQL YYDS(中)!
spark
大数据
nest
编程算法
sql
在上节课中我们讲解了Spark SQL的来源,Spark DataFrame创建的方式以及常用的算子。这节课继续讲解Spark SQL中的Catalyst优化器和Tungsten,以及Spark SQL的Join策略选择。
王知无-import_bigdata
2021-12-16
700
0
Flink SQL高效Top-N方案的实现原理
编程算法
flink
大数据
Top-N是我们应用Flink进行业务开发时的常见场景,传统的DataStream API已经有了非常成熟的实现方案,如果换成Flink SQL,又该怎样操作?好在Flink SQL官方文档已经给出了标准答案,我们只需要照抄就行,参考链接:
王知无-import_bigdata
2021-10-27
1K
0
Flink重点难点:维表关联理论和Join实战
flink
大数据
unix
编程算法
数据流操作的另一个常见需求是对两条数据流中的事件进行联结(connect)或Join。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子:基于间隔的Join和基于窗口的Join。本节我们会对它们进行介绍。
王知无-import_bigdata
2021-09-22
4.2K
0
昨天我面试了一个人
spark
任务调度
编程算法
整体的感觉是,面试者对组件停留在会用层面,在一些简单的业务场景或者成熟的平台下开发完全没有问题,但是遇到难题恐怕难以解决。
王知无-import_bigdata
2021-09-22
408
0
悄悄学习Doris,偷偷惊艳所有人 | Apache Doris四万字小总结
大数据
数据分析
数据处理
数据结构
编程算法
DorisDB是由Apache Doris核心研发团队打造的新一代企业级MPP数据库。它继承了Apache Doris项目十多年研发成果,累积了线上数千台服务器稳定运行经验,并在此基础上,对传统MPP数据库进行了开创性的革新。
王知无-import_bigdata
2021-09-22
5.8K
1
我们在学习Spark的时候,到底在学习什么?
大数据
数据处理
编程算法
存储
spark
Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,基本可以吊打其他的大数据处理框架。
王知无-import_bigdata
2021-07-12
531
0
一致性哈希及其在Greenplum中的应用
编程算法
数据迁移
分布式
一致性哈希(consistent hashing)是分布式系统中非常重要的算法,在平滑扩缩容、动态负载均衡等方向有大量应用。相对于传统的线性(取模)哈希算法,一致性哈希可以保证在分布式哈希表中的桶数量发生变化时,受到影响需要重新映射的key尽量少。本文先简要复习下经典的割环一致性哈希方案,然后介绍它的变种——跳跃一致性哈希(jump consistent hash)。
王知无-import_bigdata
2021-05-07
747
0
你爱或者不爱,他都在那里 - 云/边/端三协同下的边缘计算
5g
云计算
分布式
编程算法
apache
说实话,在下第一次接触这个概念也是「懵逼」的。然后我个人进行了一番总结和归纳,下面我用最通俗的语言来教教大家什么才是「边缘计划」。
王知无-import_bigdata
2021-03-15
992
0
Kafka Connect | 无缝结合Kafka构建高效ETL方案
kafka
编程算法
api
分布式
node.js
很多同学可能没有接触过 Kafka Connect,大家要注意不是Connector。 Kafka Connect 是一款可扩展并且可靠地在 Apache Kafka 和其他系统之间进行数据传输的工具。
王知无-import_bigdata
2021-03-15
4.1K
0
【大数据成神之路】第一版更新完毕
编程算法
flink
sql
大数据
数据湖
截止目前为止收获3500+Star,1200+Fork。这个仓库建立的初衷的是小编个人学习和面试过程中的一个笔记本,最初的时候简单到只有几个txt,在某一天突然收获了10几个Star,并且有一个妹子居然给我提了一个PR。所以才下定决心把它完善起来。
王知无-import_bigdata
2021-02-05
624
0
胖哥的经验 | 一款普适的实时数仓架构设计
flink
大数据
实时数仓
云数据库 Redis
编程算法
首先我们来聊一聊实时数仓是怎么诞生的,在离线数仓的时候数据是T+1的也就是隔一天才能看到昨天的数据,这种形式持续了很久的时间,但是有些场景真的只有实时的数据才有用武之地。例如推荐、风控、考核等。那么这个时候实时指标也就应运而生,在最开始的时候,采用flink\spark streaming来进行数据的指标统计。在这个时候,数据存在哪里又是一个问题。例如大屏计算结果可能存储在redis中,可以参考如下图所示的,实时大屏架构图。
王知无-import_bigdata
2021-01-20
855
0
ES实现百亿级数据实时分析实战案例
es
spark
编程算法
我们小组前段时间接到一个需求,希望能够按照小时为单位,看到每个实验中各种特征(单个或组合)的覆盖率、正样本占比、负样本占比。我简单解释一下这三种指标的定义:
王知无-import_bigdata
2021-01-20
1.1K
0
真·屠龙之术 | 一次SparkSQL性能分析与优化之旅及相关工具小结
linux
java
编程算法
官方文档
jvm
本文是一个OLAP数据源接入到SparkSQL并进行优化的过程。本文总结了调优过程当中一些可以借鉴与讨论的地方,鉴于本人水平有限,还请有这方面调优经验的同学不吝赐教。
王知无-import_bigdata
2021-01-06
1.3K
0
大话 Druid 存储结构
存储
编程算法
文件存储
数据结构
Apache Druid是一款优秀的OLAP引擎,众所周知数据存储格式对一款存储系统来说是最核心的组件,Druid的数据格式是自定义的,以此保证了在海量数据下的亚秒级查询。本文深入分析Druid V1版本数据存储格式,包括索引结构和数据在磁盘中的存储方式。在阅读本文之前希望您对Druid和数据存储有简单了解。
王知无-import_bigdata
2021-01-06
603
0
JVM性能调优实践—G1垃圾收集器全视角解析
java
企业
编程算法
本文将总结一下GC的种类,然后侧重总结下G1(Garbage-First)垃圾收集器的分代,结合open-jdk源码分析下重要算法如SATB,重要存储结构如CSet、RSet、TLAB、PLAB、Card Table等。最后会再梳理下G1 GC的YoungGC,MixedGC收集过程。
王知无-import_bigdata
2021-01-05
3.8K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档