王知无-import_bigdata

LV1
发表了文章

大数据之Hadoop企业级生产调优手册(下)

注:演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。

王知无-import_bigdata
发表了文章

中国优秀的架构师是不是出现了严重断层?

背景是这样的:我们在做一款面向B端商家的供应链产品,这个产品行业内有非常强力和成熟的软件公司,他们有受众广阔、市场占有率高、客户满意度高、软件架构很优秀和成熟的...

王知无-import_bigdata
发表了文章

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

OK,我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢?

王知无-import_bigdata
发表了文章

工程师的思维转变

我之前写过一个《早点建立自己的知识体系》,现在看来原来我只在第一层,更上一层的应该是思维体系的建立。

王知无-import_bigdata
发表了文章

数据湖YYDS! Flink+IceBerg实时数据湖实践

互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展...

王知无-import_bigdata
发表了文章

打造大数据平台底层计算存储引擎 | Apache孵化器迎来Linkis!

微众银行开源项目Linkis正式通过Apache软件基金会(ASF)的投票表决,全票通过进入ASF孵化器!

王知无-import_bigdata
发表了文章

我说Java基础重要,你不信?来试试这几个问题

代码生成技术广泛应用于现代的数据库系统中。代码生成是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行,相比解释执行的方式,运行效率要高很多。尤其是...

王知无-import_bigdata
发表了文章

Flink重点难点:Flink Table&SQL必知必会(二)

介绍了 Flink Table & SQL的一些核心概念,本部分将介绍 Flink 中窗口和函数。

王知无-import_bigdata
发表了文章

Flink重点难点:Flink Table&SQL必知必会(一)

Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。目前功能尚未完善,处于活跃的开发阶段。

王知无-import_bigdata
发表了文章

Flink重点难点:内存模型与内存结构

Java 虚拟机在执行Java程序的过程中会把它在主存中管理的内存部分划分成多个区域,每个区域存放不同类型的数据。下图所示为java虚拟机运行的时候,主要的内存...

王知无-import_bigdata
发表了文章

Flink重点难点:维表关联理论和Join实战

数据流操作的另一个常见需求是对两条数据流中的事件进行联结(connect)或Join。Flink DataStream API中内置有两个可以根据时间条件对数据...

王知无-import_bigdata
发表了文章

一网打尽Flink中的时间、窗口和流Join

首先,我们会学习如何定义时间属性,时间戳和水位线。然后我们将会学习底层操作process function,它可以让我们访问时间戳和水位线,以及注册定时器事件。...

王知无-import_bigdata
发表了文章

他来了他来了,Hadoop序列化和切片机制了解一下?

一个超大文件在HDFS上存储时,是以多个Block存储在不同的节点上,比如一个512M的文件,HDFS默认一个Block为128M,那么1G的文件分成4个Blo...

王知无-import_bigdata
发表了文章

昨天我面试了一个人

整体的感觉是,面试者对组件停留在会用层面,在一些简单的业务场景或者成熟的平台下开发完全没有问题,但是遇到难题恐怕难以解决。

王知无-import_bigdata
发表了文章

Flink从1.7到1.12版本升级汇总

最进再看官方flink提供的视频教程,发现入门版本因为时间关系都是基于1.7.x讲解的. 在实际操作中跟1.12.x版本还是有差距的, 所以整理一下从1.7 版...

王知无-import_bigdata
发表了文章

我们在学习Kafka的时候,到底在学习什么?

我在之前《Kafka源码阅读的一些小提示》写了一些关于Kafka源码阅读的注意事项。

王知无-import_bigdata
发表了文章

Kafka源码阅读的一些小提示

阅读源码的重要性不在赘述。现在在很多互联网公司资深技术岗位的招聘要求读过至少一种开源框架的源码。阅读源码的考察也是未来面试的一大重点。

王知无-import_bigdata
发表了文章

四万字硬刚Kudu | Kudu基础原理实践小总结

Hadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有...

王知无-import_bigdata
发表了文章

ElasticSearch 亿级数据检索深度优化

数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,少走些弯路,在此篇幅中偏重于ES的优化。...

王知无-import_bigdata
发表了文章

30个Kafka常见错误小集合

原因分析:producer向不存在的topic发送消息,用户可以检查topic是否存在 或者设置auto.create.topics.enable参数

王知无-import_bigdata

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券