首页
学习
活动
专区
工具
TVP
发布

大数据那些年

专栏作者
69
文章
80625
阅读量
17
订阅数
惊了!10万字的Spark全文!
Hello,大家好,这里是857技术社区,我是社区创始人之一,以后会持续给大家更新大数据各组件的合集内容,路过给个关注吧!!!
刘浩的BigDataPath
2022-11-30
1.3K0
老弟手把手教你编译Spark3.2.1源码!!!!!
一年多没更新博客了,这一年博主经历了很多,也学到了很多,近期会持续更新文章,主题不固定,哦,对了,博主跟几个朋友一起创建了一个大数据的技术社区,我们每周都会有技术分享以及技术交流的会议,目前社区人数高达800+,感兴趣的朋友可以扫描上方的二维码关注下社区的公众号,同时也可以添加博主的VX,邀你进群咱们一起交流啊!!!!
刘浩的BigDataPath
2022-10-31
2900
Hive入门第二篇之hive的安装部署(详细教程)
第一种方式: derby版hive (不推荐) 默认使用derby(数据库)维护元数据 此版本,每个节点自己独立维护一个derby数据库,所以在节点1添加了数据库,在节点2 无法查看 第一步:查看
刘浩的BigDataPath
2021-04-13
8830
Hive第一篇详细介绍(小白也看得懂_入门级别)
​ Hive是一个语句Hadoop的一个数据仓库工具,是将结构化数据文件映射成为一个数据表,并提供类SQL的查询功能。
刘浩的BigDataPath
2021-04-13
4230
Hive启动时 show databases; 报错
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
刘浩的BigDataPath
2021-04-13
9440
MapReduce面试题
1.MapReduce核心思想 分而治之,先分后和(只有一个模型) 【将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。适用于大量复杂的、时效性不高的任务处理场景(大规模离线数据处理场景)。】 Map负责数据拆分 map: [k1,v1] → [(k2,v2)] Reduce负责数据合并 reduce: [k2, {v2,…}] → [k3, v3]
刘浩的BigDataPath
2021-04-13
1.2K0
MapReduce一次读取多个文件(详细步骤)
import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.lib.input.FileSplit;
刘浩的BigDataPath
2021-04-13
1.4K0
MapReduce十步执行流程 (详细介绍)
InputFormat 在HDFS文件系统中读取要进行计算的数据 输出给Split
刘浩的BigDataPath
2021-04-13
6190
Hadoop总结(面试题)
分布式是将资源分布存储或者分布计算的统称,分布式是指资源不再单一的再单独的服务器上进行存储或者计算, 而是通过很多服务器来进行存储或者计算
刘浩的BigDataPath
2021-04-13
5740
Hadoop 集群节点启动失败
java.net.UnknownHostException: node03: node03: 未知的名称或服务 at java.net.InetAddress.getLocalHost(InetAddress.java:1505) at org.apache.hadoop.security.SecurityUtil.getLocalHostName(SecurityUtil.java:219) at org.apache.hadoop.security.SecurityUtil.login(SecurityUtil.java:239) at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:2467) at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:2516) at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:2698) at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:2722) Caused by: java.net.UnknownHostException: node03: 未知的名称或服务 at java.net.Inet4AddressImpl.lookupAllHostAddr(Native Method) at java.net.InetAddress$2.lookupAllHostAddr(InetAddress.java:928) at java.net.InetAddress.getAddressesFromNameService(InetAddress.java:1323) at java.net.InetAddress.getLocalHost(InetAddress.java:1500) … 6 more 2019-11-07 17:08:33,536 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1 2019-11-07 17:08:33,537 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG: /************************************************************
刘浩的BigDataPath
2021-04-13
2.7K0
Linux实现JDK安装教程.(不会的小白也看得懂)
第二步: 在你的根目录下创建一个有父级目录的文件夹 命令: mkdir -p /export/soft
刘浩的BigDataPath
2021-04-13
2540
Sqoop安装详细步骤(小白也看的懂)
安装sqoop的前提是已经具备java和hadoop的环境。 最新稳定版: 1.4.6 配置文件修改: 进入这个目录 修改sqoop-env-template.sh文件名 改为 sqoop-env
刘浩的BigDataPath
2021-04-13
7070
Apache Flume详细介绍及Flume的安装部署
#定义这个agent中各组件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1
刘浩的BigDataPath
2021-04-13
1.9K0
Hive面试题
1、什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL查询功能(HQL) 2、Hive的意义(最初研发的原因) 避免了去写MapReduce,提供快速开发的能力,减少开发人员的学习成本。 3、Hive的内部组成模块,作用分别是什么 元数据:Metastore 元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等; 默认存储在自带的derby数据库中,
刘浩的BigDataPath
2021-04-13
2.3K0
MapReduce集群运行模式详细步骤(小白也看的懂的步骤)
hadoop jar original-mapreduce-1.0-SNAPSHOT.jar com.czxy.Test01.WordCountDriver (这个jar后面就是你 Copy的 Reference)
刘浩的BigDataPath
2021-04-13
3070
MapReduce入门了解
1.MapReduce计算模型介绍 1.1.理解MapReduce思想 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduce负责“合”,即对map阶段的结果进行全局汇总。 这两个阶段合起来正是MapReduce思想的体现。
刘浩的BigDataPath
2021-04-13
5970
MapReduce(WordCount)算法、简单求和计数 (小白也能看得懂)
27 41 39 29 51 45 24 28 56 52 29 51 18 25 19 10 52 37 18 25 23 52 19 33 59 24 39 58 51 12
刘浩的BigDataPath
2021-04-13
5190
Linux常用命令
head -2 1.txt | cut -c 5 截取1.txt文件的前两行的第五个字符 head -2 1.txt | cut -d ‘:’ -f 1,2 截取1.txt文件的前两行 以:分割 显示 1 2段内容 cut 从指定文件 截取内容 -c 按字符选取内容 -d ‘分隔符’ 指定分隔符 -f n1,n2 分割以后显示第几段内容,使用,分割 n 只显示n项 n- 显示 从第n项一直到行尾 n-m 显示 从第n项 到 第m项(包括m) Sort 排序 -u 去掉重复的 -n 升序 -n -r 倒序 -
刘浩的BigDataPath
2021-04-13
1.3K0
ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet(Hbase报错)
Hbase报错: ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet
刘浩的BigDataPath
2021-04-13
2.6K0
大数据之Hadoop面试官的11个灵魂拷问!
接下来还有很多大数据组件的灵魂拷问 准备好了吗?各位小伙伴们!!! 咱们下期再见!
刘浩的BigDataPath
2021-04-13
3670
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档