首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏成员
638
文章
1403767
阅读量
322
订阅数
「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap
在 expression 层面一般采用 expression tree 的模型来解释执行,而在 operator 层面则大多采用火山模型。
王知无-import_bigdata
2022-06-05
1.3K0
Flink新特性之非对齐检查点(unaligned checkpoint)详细解析
作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。
王知无-import_bigdata
2022-06-05
5.5K0
那些年我们一起优化的SQL
如果没有using index condtion,field1会走索引查询,匹配到对应的数据后,回表查出剩余字段信息,再去匹配。
王知无-import_bigdata
2022-06-05
5750
Apache Griffin+Flink+Kafka实现流式数据质量监控实战
本文用的组件包括以下几个,是参考了官方案例,版本可以参考github以及里面的pom文件。本文假定以下环境均已安装好。
王知无-import_bigdata
2022-04-13
1.2K0
Flink Forward 2021中一些值得关注的动态
朋友圈很多朋友都看了,观众人数第一天还挺多,第二天大家好像热性消退,观看人减少了很多。
王知无-import_bigdata
2022-03-11
4500
【Spark重点难点06】SparkSQL YYDS(中)!
在上节课中我们讲解了Spark SQL的来源,Spark DataFrame创建的方式以及常用的算子。这节课继续讲解Spark SQL中的Catalyst优化器和Tungsten,以及Spark SQL的Join策略选择。
王知无-import_bigdata
2021-12-16
7000
Flink SQL高效Top-N方案的实现原理
Top-N是我们应用Flink进行业务开发时的常见场景,传统的DataStream API已经有了非常成熟的实现方案,如果换成Flink SQL,又该怎样操作?好在Flink SQL官方文档已经给出了标准答案,我们只需要照抄就行,参考链接:
王知无-import_bigdata
2021-10-27
1K0
Flink重点难点:维表关联理论和Join实战
数据流操作的另一个常见需求是对两条数据流中的事件进行联结(connect)或Join。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子:基于间隔的Join和基于窗口的Join。本节我们会对它们进行介绍。
王知无-import_bigdata
2021-09-22
4.2K0
昨天我面试了一个人
整体的感觉是,面试者对组件停留在会用层面,在一些简单的业务场景或者成熟的平台下开发完全没有问题,但是遇到难题恐怕难以解决。
王知无-import_bigdata
2021-09-22
4080
悄悄学习Doris,偷偷惊艳所有人 | Apache Doris四万字小总结
DorisDB是由Apache Doris核心研发团队打造的新一代企业级MPP数据库。它继承了Apache Doris项目十多年研发成果,累积了线上数千台服务器稳定运行经验,并在此基础上,对传统MPP数据库进行了开创性的革新。
王知无-import_bigdata
2021-09-22
5.8K1
我们在学习Spark的时候,到底在学习什么?
Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,基本可以吊打其他的大数据处理框架。
王知无-import_bigdata
2021-07-12
5310
一致性哈希及其在Greenplum中的应用
一致性哈希(consistent hashing)是分布式系统中非常重要的算法,在平滑扩缩容、动态负载均衡等方向有大量应用。相对于传统的线性(取模)哈希算法,一致性哈希可以保证在分布式哈希表中的桶数量发生变化时,受到影响需要重新映射的key尽量少。本文先简要复习下经典的割环一致性哈希方案,然后介绍它的变种——跳跃一致性哈希(jump consistent hash)。
王知无-import_bigdata
2021-05-07
7470
你爱或者不爱,他都在那里 - 云/边/端三协同下的边缘计算
说实话,在下第一次接触这个概念也是「懵逼」的。然后我个人进行了一番总结和归纳,下面我用最通俗的语言来教教大家什么才是「边缘计划」。
王知无-import_bigdata
2021-03-15
9920
Kafka Connect | 无缝结合Kafka构建高效ETL方案
很多同学可能没有接触过 Kafka Connect,大家要注意不是Connector。 Kafka Connect 是一款可扩展并且可靠地在 Apache Kafka 和其他系统之间进行数据传输的工具。
王知无-import_bigdata
2021-03-15
4.1K0
【大数据成神之路】第一版更新完毕
截止目前为止收获3500+Star,1200+Fork。这个仓库建立的初衷的是小编个人学习和面试过程中的一个笔记本,最初的时候简单到只有几个txt,在某一天突然收获了10几个Star,并且有一个妹子居然给我提了一个PR。所以才下定决心把它完善起来。
王知无-import_bigdata
2021-02-05
6240
胖哥的经验 | 一款普适的实时数仓架构设计
首先我们来聊一聊实时数仓是怎么诞生的,在离线数仓的时候数据是T+1的也就是隔一天才能看到昨天的数据,这种形式持续了很久的时间,但是有些场景真的只有实时的数据才有用武之地。例如推荐、风控、考核等。那么这个时候实时指标也就应运而生,在最开始的时候,采用flink\spark streaming来进行数据的指标统计。在这个时候,数据存在哪里又是一个问题。例如大屏计算结果可能存储在redis中,可以参考如下图所示的,实时大屏架构图。
王知无-import_bigdata
2021-01-20
8550
ES实现百亿级数据实时分析实战案例
我们小组前段时间接到一个需求,希望能够按照小时为单位,看到每个实验中各种特征(单个或组合)的覆盖率、正样本占比、负样本占比。我简单解释一下这三种指标的定义:
王知无-import_bigdata
2021-01-20
1.1K0
真·屠龙之术 | 一次SparkSQL性能分析与优化之旅及相关工具小结
本文是一个OLAP数据源接入到SparkSQL并进行优化的过程。本文总结了调优过程当中一些可以借鉴与讨论的地方,鉴于本人水平有限,还请有这方面调优经验的同学不吝赐教。
王知无-import_bigdata
2021-01-06
1.3K0
大话 Druid 存储结构
Apache Druid是一款优秀的OLAP引擎,众所周知数据存储格式对一款存储系统来说是最核心的组件,Druid的数据格式是自定义的,以此保证了在海量数据下的亚秒级查询。本文深入分析Druid V1版本数据存储格式,包括索引结构和数据在磁盘中的存储方式。在阅读本文之前希望您对Druid和数据存储有简单了解。
王知无-import_bigdata
2021-01-06
6030
JVM性能调优实践—G1垃圾收集器全视角解析
本文将总结一下GC的种类,然后侧重总结下G1(Garbage-First)垃圾收集器的分代,结合open-jdk源码分析下重要算法如SATB,重要存储结构如CSet、RSet、TLAB、PLAB、Card Table等。最后会再梳理下G1 GC的YoungGC,MixedGC收集过程。
王知无-import_bigdata
2021-01-05
3.8K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档