大数据那些年

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

Hello，大家好，这里是857技术社区，我是社区创始人之一，以后会持续给大家更新大数据各组件的合集内容，路过给个关注吧!!!

惊了！10万字的Spark全文！

一年多没更新博客了，这一年博主经历了很多，也学到了很多，近期会持续更新文章，主题不固定，哦，对了，博主跟几个朋友一起创建了一个大数据的技术社区，我们每周都会有技术分享以及技术交流的会议，目前社区人数高达800+，感兴趣的朋友可以扫描上方的二维码关注下社区的公众号，同时也可以添加博主的VX，邀你进群咱们一起交流啊！！！！

老弟手把手教你编译Spark3.2.1源码！！！！！

第一种方式： derby版hive （不推荐）
默认使用derby（数据库）维护元数据

此版本，每个节点自己独立维护一个derby数据库，所以在节点1添加了数据库，在节点2 无法查看

第一步：查看

Hive入门第二篇之hive的安装部署（详细教程）

​ Hive是一个语句Hadoop的一个数据仓库工具，是将结构化数据文件映射成为一个数据表，并提供类SQL的查询功能。

Hive第一篇详细介绍（小白也看得懂_入门级别）

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

Hive启动时 show databases;  报错

1.MapReduce核心思想
 分而治之，先分后和（只有一个模型）
 【将一个大的、复杂的工作或任务，拆分成多个小的任务，并行处理，最终进行合并。适用于大量复杂的、时效性不高的任务处理场景（大规模离线数据处理场景）。】
 Map负责数据拆分 map: [k1,v1] → [(k2,v2)]
 Reduce负责数据合并 reduce: [k2, {v2,…}] → [k3, v3]

MapReduce面试题

import org.apache.hadoop.io.LongWritable;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.mapreduce.Mapper;
 import org.apache.hadoop.mapreduce.lib.input.FileSplit;

MapReduce一次读取多个文件（详细步骤）

InputFormat 在HDFS文件系统中读取要进行计算的数据
 输出给Split

MapReduce十步执行流程 （详细介绍）

分布式是将资源分布存储或者分布计算的统称,分布式是指资源不再单一的再单独的服务器上进行存储或者计算,
 而是通过很多服务器来进行存储或者计算

Hadoop总结（面试题）

java.net.UnknownHostException: node03: node03: 未知的名称或服务
 at java.net.InetAddress.getLocalHost(InetAddress.java:1505)
 at org.apache.hadoop.security.SecurityUtil.getLocalHostName(SecurityUtil.java:219)
 at org.apache.hadoop.security.SecurityUtil.login(SecurityUtil.java:239)
 at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:2467)
 at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:2516)
 at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:2698)
 at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:2722)
 Caused by: java.net.UnknownHostException: node03: 未知的名称或服务
 at java.net.Inet4AddressImpl.lookupAllHostAddr(Native Method)
 at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:928)
 at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1323)
 at java.net.InetAddress.getLocalHost(InetAddress.java:1500)
 … 6 more
 2019-11-07 17:08:33,536 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1
 2019-11-07 17:08:33,537 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:
 /************************************************************

Hadoop 集群节点启动失败

第二步： 在你的根目录下创建一个有父级目录的文件夹
 命令： mkdir -p /export/soft
 

Linux实现JDK安装教程.（不会的小白也看得懂）

安装sqoop的前提是已经具备java和hadoop的环境。
最新稳定版： 1.4.6


配置文件修改：
进入这个目录
修改sqoop-env-template.sh文件名 改为 sqoop-env

Sqoop安装详细步骤（小白也看的懂）

#定义这个agent中各组件的名字
 a1.sources = r1
 a1.sinks = k1
 a1.channels = c1

Apache Flume详细介绍及Flume的安装部署

1、什么是Hive
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类		SQL查询功能（HQL）

2、Hive的意义（最初研发的原因）
避免了去写MapReduce，提供快速开发的能力，减少开发人员的学习成本。 

3、Hive的内部组成模块，作用分别是什么

元数据：Metastore
	元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
	默认存储在自带的derby数据库中，

Hive面试题

hadoop jar original-mapreduce-1.0-SNAPSHOT.jar com.czxy.Test01.WordCountDriver （这个jar后面就是你 Copy的 Reference）

MapReduce集群运行模式详细步骤（小白也看的懂的步骤）

1．MapReduce计算模型介绍
 1.1．理解MapReduce思想
 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。
 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。
 Reduce负责“合”，即对map阶段的结果进行全局汇总。
 这两个阶段合起来正是MapReduce思想的体现。
 

MapReduce入门了解

27 41 39 29 51 45 24 28 56 52 29 51 18 25 19 10 52 37 18 25 23 52 19 33 59 24 39 58 51 12

MapReduce（WordCount）算法、简单求和计数  （小白也能看得懂）

head -2 1.txt | cut -c 5 截取1.txt文件的前两行的第五个字符
head -2 1.txt | cut -d ‘：’ -f 1,2 截取1.txt文件的前两行 以：分割 显示 1 2段内容
cut 从指定文件 截取内容
-c 按字符选取内容
-d ‘分隔符’ 指定分隔符
-f n1，n2 分割以后显示第几段内容，使用，分割
n 只显示n项
n- 显示 从第n项一直到行尾
n-m 显示 从第n项 到 第m项（包括m）
Sort 排序
-u 去掉重复的
-n 升序
-n -r 倒序
-

Linux常用命令

Hbase报错:
ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not 	running yet

ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet（Hbase报错）

接下来还有很多大数据组件的灵魂拷问 准备好了吗？各位小伙伴们！！！ 咱们下期再见！

大数据之Hadoop面试官的11个灵魂拷问！

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据那些年专栏，为你提供了大数据那些年的相关文章，致力于帮助开发者快速成长与发展。

大数据那些年

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐