最新最全的大数据技术体系-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

最新最全的大数据技术体系

专栏成员

751

文章

644127

阅读量

35

订阅数

金三银四V2.0之大数据面试常见的10个问题

数据库数据处理 sql 存储 hive

面试官你好，我是面试咱们公司大数据开发实习岗位的xxx，曾就读于xx学校数据科学与大数据专业，2022年毕业。

2023-02-01

9330

大数据物流项目：Kudu 入门使用（五）

存储数据处理数据结构 hbase TDSQL MySQL 版

KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则，如下图：

2022-11-30

1.1K0

DCM：中间件家族迎来新成员

java nosql 数据库 sql 数据处理

现代应用无时无刻不在与数据打交道，数据计算无处不在，报表统计、数据分析、业务处理不一而足。当前数据处理的主要手段仍然是以关系数据库为代表的相关技术，虽然使用高级语言（如Java）硬编码也能实现各类计算，但远不如数据库（SQL）方便，数据库在当代数据处理中仍然发挥举足轻重的作用。

2022-06-01

3970

hadoop必知必会的基本知识

大数据数据处理 mapreduce

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1）Client：就是客户端。（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；（2）与NameNode交互，获取文件的位置信息；（3）与DataNode交互，读取或者写入数据；（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；（5）Client可以通过一些命令来访问HDFS； 2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）管理数据块（Block）映射信息；（3）配置副本策略；（4）处理客户端读写请求。 3）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。（1）存储实际的数据块；（2）执行数据块的读/写操作。 4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。（1）辅助NameNode，分担其工作量；（2）定期合并Fsimage和Edits，并推送给NameNode；（3）在紧急情况下，可辅助恢复NameNode。

2022-05-08

4170

今日指数项目之项目介绍和数据采集【四】

windows 存储数据处理 hive 云数据库 Redis

基于flink实时流计算的，金融证券项目，实时大屏展示，预警模块和离线模块的处理。

2022-04-11

5550

大数据Flink面试考题___Flink高频考点,万字超全整理(建议)

编程算法数据处理 api 分布式 windows

1.下面哪个不是 Dataset的转换算子() A. readTextFile B reduce distinct D rebalance

2021-12-30

1.3K0

hadoop必知必会的基本知识

大数据数据处理 mapreduce

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。 1）Client：就是客户端。（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；（2）与NameNode交互，获取文件的位置信息；（3）与DataNode交互，读取或者写入数据；（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；（5）Client可以通过一些命令来访问HDFS； 2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间；（2）管理数据块（Block）映射信息；（3）配置副本策略；（4）处理客户端读写请求。 3）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。（1）存储实际的数据块；（2）执行数据块的读/写操作。 4）Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。（1）辅助NameNode，分担其工作量；（2）定期合并Fsimage和Edits，并推送给NameNode；（3）在紧急情况下，可辅助恢复NameNode。

2021-12-07

3940

Python+大数据学习笔记(一)

spark python 数据处理

pyspark: • pyspark = python + spark • 在pandas、numpy进行数据处理时，一次性将数据读入内存中，当数据很大时内存溢出，无法处理；此外，很多执行算法是单线程处理，不能充分利用cpu性能 spark的核心概念之一是shuffle，它将数据集分成数据块，好处是： • 在读取数据时，不是将数据一次性全部读入内存中，而是分片，用时间换空间进行大数据处理 • 极大的利用了CPU资源 • 支持分布式结构，弹性拓展硬件资源。

2021-12-07

4.5K0

Note_Spark_Day14：Structured Streaming(以结构化方式处理流式数据，底层分析引擎SparkSQL引擎)

kafka 物联网数据处理 processing 日志数据

连续处理（Continuous Processing）是“真正”的流处理，通过运行一个long-running的operator用来处理数据。

2021-12-07

2.4K0

Note_Spark_Day13：Structured Streaming(内置数据源、自定义Sink（2种方式）和集成Kafka)

kafka javascript python 数据处理批量计算

此检查点位置必须是HDFS兼容文件系统中的路径，两种方式设置Checkpoint Location位置：

2021-12-07

2.6K0

【Spark Streaming】Spark Day10：Spark Streaming 学习笔记

spark 数据库 sql 批量计算数据处理

首先，学习SparkStreaming流式计算模块，以批处理思想处理流式数据，进行实时分析。

2021-12-06

1.1K0

大数据Flink面试考题___Flink高频考点,万字超全整理(建议收藏)

编程算法数据处理 api 分布式 windows

1.下面哪个不是 Dataset的转换算子() A. readTextFile B reduce distinct D rebalance

2021-06-29

1.9K0

漫谈数字经济和个人发展

大数据 hadoop 数据处理数据分析

报告以"迈入数字时代"为始,开启了演讲。[1]追溯数字时代的发展历程可从上世纪四十年代计算机的发明开始,直至今日的大数据时代的到来。期间数字技术从未停止发展的步伐,有别于传统数据处理方案的数据量小，记录不完整，结构单一，大数据技术诞生之初，便为海量数据的处理提供解决方案。

2021-04-09

4300

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态