首页
学习
活动
专区
工具
TVP
发布

数据库和大数据技术原理解析

专栏成员
26
文章
19026
阅读量
11
订阅数
李彦宏:以后不会存在程序员这种职业了,但我偏不信!
最近,百度老板李彦宏在央视的《对话》节目上说到,以后不会存在程序员这种职业了,有嘴会说话就行。
LakeShen
2024-03-18
990
每日一学系列数据库篇(1):数据库中 SQL Hint 是什么?
最近在调研业界其他数据库中 SQL Hint 功能的设计和实现,整体上对 Oracle、Mysql、Postgresql、 Apache Calcite 中的 SQL Hint 的设计和功能都进行了解,这里整理一篇文章来对其进行梳理,一是帮助自己未来回顾,加深自己的思考,二是也能帮助大家更好的了解数据库 SQL Hint 的实现原理。
LakeShen
2024-03-18
1630
硅谷大厂 Meta 公司 E5 和 E6 级别的区别是什么?
最近有国外网友分享到,他收到了硅谷互联网大厂 Meta 公司的 Offer,offer 总包为:27 W 美金,定的级别为 E5,在面试反馈中,他在编程和面试表现方面都很不错,但在架构设计方面,还有所欠缺,还需要在努力努力,才能达到 E6 的级别,这个网友对 Meta E5 和 E6 级别的差异不是很清楚,那么今天我们就来聊聊这个话题。
LakeShen
2024-03-07
8680
名校计算机专业出来的只能当苦逼的程序员吗?
本人 18 年国内 Top 15 计算机研究生毕业,下面就来说说我身边计算机毕业之后,真实的例子。
LakeShen
2024-03-07
990
Meta 新员工,入职前对公司充满期待,入职后发现公司技术太糟糕。亚马逊同学笑到:那是你还没有来亚马逊
互联网这个行业,有时就像一个围城。互联网大厂里面的人想出来,他羡慕外面公司的自由,而外面的人,又非常羡慕互联网大厂的人,毕竟大厂工资高、公积金、福利待遇好,而且相对于创业公司来说也更稳定。
LakeShen
2024-03-07
1160
从Java 到大数据:转型路上的岗位选择指南
一般我们在找工作时,会看到大数据开发、大数据分析、大数据运维这三个岗位,有时候我们对这三个岗位具体是做什么,还有些懵逼。作为一名数据库 SQL 优化器工程师,结合我过往的大数据经验,今天帮大家分析这三个岗位,具体哪个好,要看你从什么角度去看他。
LakeShen
2024-02-29
1780
一文详解 Apache Flink Semi / Anti Join 实现原理
最近再调研业界一些计算引擎的 Semi / Anti Join 的实现方式,刚好对 Flink Semi / Anti Join 的实现方式进行了研究,通过对 Flink SemiAntiJoinTest 的单测以及源码的 Debug,目前整体对 Flink 实现 Semi / Anti Join 的原理有一定理解,所以这里整体做一个总结,同时也帮助大家对于 Flink 有个更好的理解。
LakeShen
2024-02-29
980
Hadoop 和大数据的关系是什么?和 Spark的关系是什么?
最近在知乎上面看到这样一个问题:Hadoop 和大数据的关系?和 Spark 的关系?
LakeShen
2024-02-29
1020
工作六年的程序员,给职场新人的 8 点建议
做了一个快工作六年的程序员,最近后台有同学问我,让我给新入职程序同学一些职场上面的建议,这里结合我个人的一些日常总结和想法,来尝试着给新同学一些建议,希望能够对你们有所帮助。
LakeShen
2024-02-01
1190
怎样才算精通 SQL?
最近一直在思考如何帮助他人来学习 SQL,这里作为一名数据库 SQL 优化器的研发同学,我尝试从我个人的经验来分享一些提升对 SQL 的掌握使用的方法。
LakeShen
2024-01-31
1640
Presto 和 Trino Deltalake 原理调研和总结
最近在了解 Presto 和 Trino 对于 Deltalake Connector 的相关实现原理,这里了解完刚好用一篇文章总结下,一是可以帮助自己未来的回顾,二是也希望能够帮助大家,下面都是个人理解,若理解有误,欢迎指出,共勉。
LakeShen
2024-01-25
2000
云数仓 Firebolt《Assembling a Query Engine From Spare Parts》Paper 总结
最近在了解国外Firebolt这家公司,对于Firebolt 最初的架构选型和思路是非常认可的。Firebolt 这篇 Paper 核心围绕着这样一个主题:在云数仓领域,对于一家初创公司,如何在人力和资源有限的情况下,怎么能够快速的切入这个这个市场?虽然 FireBolt 本身就有很多技术大牛(比如 Mosha Pasumansky),但是针对数据库所有组件(查询优化器、计算引擎、存储、事务管理器等等)完全从零做,对于初创公司而言,根本不现实。
LakeShen
2022-12-12
1.2K0
为什么虚函数调用和分支预测失败会影响计算性能?
我们经常会听到分支预测失败或者虚函数调用会影响计算性能,那么为什么它们会影响性能呢?带着这个疑问,我最近也看了一些博客和论文,这里结合之前看的一些点,整体做一个总结,和大家一起学习。
LakeShen
2022-06-23
1.1K0
ClickHouse 入门:数据查询流程解析
ClickHouse 是一款 ROLAP 列式数据库,在海量数据分析场景中,能够帮助我们快速得到想要的"分析性"数据。本文主要从个人视角讲解 ClickHouse 一次数据查询的整体流程,更多的是自己的一些理解和思考,如有不对,欢迎指出和交流。
LakeShen
2022-06-23
2.7K0
Flink SQL 内置优化参数功能以及适用场景介绍
这几天在看 Flink SQL 内置优化参数的功能和原理,虽然网上会有一些文章介绍,这里还是自己做一个整体的总结和思考,方便自己以后的回顾。
LakeShen
2022-06-23
1.1K0
Flink 1.10 升级 Flink 1.12 预期收益评估
Flink 1.12 版本在 20 年 12 月已经正式 Release,目前我们的 Flink SQL 作业的 Flink 引擎版本还是 1.10,本文主要用以评估 Flink 1.10 升级到 1.12 整体所能带来的预期收益,同时结合所需投入的成本,决定是否需要升级 Flink SQL 引擎版本到 1.12。本次升级所评估的收益包含 1.11 和 1.12 版本所带来的收益,如有理解错误,欢迎指出,一起交流。
LakeShen
2022-06-23
6150
Flink Forward Asia 2020 的收获和总结
Flink Forward Asia 2020 三天的分享已经结束,在这次分享上,自己也收获到了很多。这里写一篇文章来记录下自己这次的收获和总结,从个人的视角以及理解,和大家一起分享下,当然,如果有理解错误的地方,也欢迎大家指出。
LakeShen
2022-06-23
7170
Flink 1.9 — SQL 创建 Kafka 数据源
目前 Flink 1.9 SQL 支持用户直接使用 SQL 语句创建 Kafka 数据源,这极大的方便了用户开发 Flink 实时任务,你可以像 Hive 一样,使用 Create Table 语句来创建 Kafka Source,同时在也可以使用 Select 语句,从这个表中读取数据,进行窗口、ETL等操作。本文主要讲解 Flink 1.9 SQL 创建 Kafka 的 SQL 语法使用,当然,使用这个功能的前提,是你选择使用 Blink Planner。
LakeShen
2022-06-23
5940
Flink 1.9 实时计算 -- SQL使用方面注意点
Flink 1.9 版本开源了很多 Blink 方面的功能,尤其是在 SQL 方面,这使得我们在开发 Flink 实时任务变得更加方便。目前 Blink SQL 支持了 Create Table 功能,以及维表的功能。我们的实时任务整体流程为,读取Kafka的数据,然后去关联 HBase 维表的数据,最后在输出到 Kafka 中,虽然整体流程跑通,但是其中也遇到了很多坑,这里记录一下,和大家一起分享,避免以后再遇到类似的坑。
LakeShen
2022-06-23
1K0
Flink 1.9 - SQL 空闲状态保留时间实现原理
最近在做 Flink SQL 方面的研究,我们有这样一个场景,就是按照天来实时统计截止到当前时刻的某些指标值。Flink SQL 中会使用状态来存储统计后的结果值,但是有一个问题就是,其实统计的指标值也只有当天才会用到,后续其实很少会用到这些数据。由于统计的粒度非常的细,所以这里 Flink SQL 任务中的状态就会非常大,导致 HDFS 上面的存储占用过大。Flink SQL 中支持状态空闲时间的设置,如果某个 Key 的状态在一定 时间没有被更新, Flink 会自动清理该状态。本文结合 Flink 1.9 SQL 中的代码,尝试研究该原理的实现流程。
LakeShen
2022-06-23
8400
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档