首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
549252
阅读量
35
订阅数
金三银四V2.0之大数据面试常见的10个问题
面试官你好,我是面试咱们公司大数据开发实习岗位的xxx,曾就读于xx学校数据科学与大数据专业,2022年毕业。
Maynor
2023-02-01
7980
大数据物流项目:Kudu 入门使用(五)
KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则,如下图:
Maynor
2022-11-30
1.1K0
DCM:中间件家族迎来新成员
现代应用无时无刻不在与数据打交道,数据计算无处不在,报表统计、数据分析、业务处理不一而足。当前数据处理的主要手段仍然是以关系数据库为代表的相关技术,虽然使用高级语言(如Java)硬编码也能实现各类计算,但远不如数据库(SQL)方便,数据库在当代数据处理中仍然发挥举足轻重的作用。
Maynor
2022-06-01
3700
hadoop必知必会的基本知识
这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1)Client:就是客户端。   (1)文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行存储;   (2)与NameNode交互,获取文件的位置信息;   (3)与DataNode交互,读取或者写入数据;   (4)Client提供一些命令来管理HDFS,比如启动或者关闭HDFS;   (5)Client可以通过一些命令来访问HDFS; 2)NameNode:就是Master,它是一个主管、管理者。   (1)管理HDFS的名称空间;   (2)管理数据块(Block)映射信息;   (3)配置副本策略;   (4)处理客户端读写请求。 3)DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。   (1)存储实际的数据块;   (2)执行数据块的读/写操作。 4)Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。   (1)辅助NameNode,分担其工作量;   (2)定期合并Fsimage和Edits,并推送给NameNode;   (3)在紧急情况下,可辅助恢复NameNode。
Maynor
2022-05-08
3920
今日指数项目之项目介绍和数据采集【四】
基于flink实时流计算的,金融证券项目,实时大屏展示,预警模块和离线模块的处理。
Maynor
2022-04-11
4810
大数据Flink面试考题___Flink高频考点,万字超全整理(建议)
1.下面哪个不是 Dataset的转换算子() A. readTextFile B reduce distinct D rebalance
Maynor
2021-12-30
9130
hadoop必知必会的基本知识
这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1)Client:就是客户端。   (1)文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行存储;   (2)与NameNode交互,获取文件的位置信息;   (3)与DataNode交互,读取或者写入数据;   (4)Client提供一些命令来管理HDFS,比如启动或者关闭HDFS;   (5)Client可以通过一些命令来访问HDFS; 2)NameNode:就是Master,它是一个主管、管理者。   (1)管理HDFS的名称空间;   (2)管理数据块(Block)映射信息;   (3)配置副本策略;   (4)处理客户端读写请求。 3)DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。   (1)存储实际的数据块;   (2)执行数据块的读/写操作。 4)Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。   (1)辅助NameNode,分担其工作量;   (2)定期合并Fsimage和Edits,并推送给NameNode;   (3)在紧急情况下,可辅助恢复NameNode。
Maynor
2021-12-07
3600
Python+大数据学习笔记(一)
pyspark: • pyspark = python + spark • 在pandas、numpy进行数据处理时,一次性将数据读入 内存中,当数据很大时内存溢出,无法处理;此外,很 多执行算法是单线程处理,不能充分利用cpu性能 spark的核心概念之一是shuffle,它将数据集分成数据块, 好处是: • 在读取数据时,不是将数据一次性全部读入内存中,而 是分片,用时间换空间进行大数据处理 • 极大的利用了CPU资源 • 支持分布式结构,弹性拓展硬件资源。
Maynor
2021-12-07
4.5K0
Note_Spark_Day14:Structured Streaming(以结构化方式处理流式数据,底层分析引擎SparkSQL引擎)
连续处理(Continuous Processing)是“真正”的流处理,通过运行一个long-running的operator用来处理数据。
Maynor
2021-12-07
2.4K0
Note_Spark_Day13:Structured Streaming(内置数据源、自定义Sink(2种方式)和集成Kafka)
此检查点位置必须是HDFS兼容文件系统中的路径,两种方式设置Checkpoint Location位置:
Maynor
2021-12-07
2.5K0
【Spark Streaming】Spark Day10:Spark Streaming 学习笔记
首先,学习SparkStreaming流式计算模块,以批处理思想处理流式数据,进行实时分析。
Maynor
2021-12-06
1K0
大数据Flink面试考题___Flink高频考点,万字超全整理(建议收藏)
1.下面哪个不是 Dataset的转换算子() A. readTextFile B reduce distinct D rebalance
Maynor
2021-06-29
1.8K0
漫谈数字经济和个人发展
报告以"迈入数字时代"为始,开启了演讲。[1]追溯数字时代的发展历程可从上世纪四十年代计算机的发明开始,直至今日的大数据时代的到来。期间数字技术从未停止发展的步伐,有别于传统数据处理方案的数据量小,记录不完整,结构单一,大数据技术诞生之初,便为海量数据的处理提供解决方案。
Maynor
2021-04-09
4100
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档