首页
学习
活动
专区
工具
TVP
发布

SmartSi

专栏成员
270
文章
616921
阅读量
53
订阅数
深入理解 Hive UDAF
用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式,第一种是 Simple 方式,第二种是 Generic 方式。
smartsi
2021-12-14
3.6K1
一起了解一下HiveServer2
在了解 HiveServer2 之前我们先来了解一下 HiveServer1(或者称之为 HiveServer)。
smartsi
2020-09-07
2.4K0
Lambda架构的质疑
Nathan Marz 写了一篇非常受欢迎的博客文章,描述了 Lambda 架构(如何打破CAP定理)。Lambda 架构是一种在 MapReduce 和 Storm 或类似系统之上构建流处理应用程序的方法。
smartsi
2020-01-05
2.1K0
HBase 伪分布式模式安装与启动
安装 HBase 之前默认我们已经完成了 Hadoop、ZooKeeper 安装,如果还没有安装可以参考如下博文:
smartsi
2019-11-28
2.7K0
Hadoop vs MPP
最近我听到了很多关于此话题的讨论。同样,这也是一个大数据领域经验不足的客户非常喜欢提问的问题。实际上,我不喜欢这个含糊不清的词语,但是通常客户会找到我们使用它们,因此我不得不使用。
smartsi
2019-11-27
4K0
Spark Spark {{JAVA_HOME}}找不到
发现换一台机器提交作业就没有问题,怀疑是版本的问题,经过对比,原来是我编译Spark所使用的Hadoop版本和线上Hadoop版本不一致导致的,当前使用Hadoop版本是2.7,而线上是使用的2.2。后来使用线上Hadoop版本重新编译了Spark,这个问题就解决了。
smartsi
2019-08-08
9760
Hadoop 大量小文件问题的优化
小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。如果存储小文件,必定会有大量这样的小文件,否则你也不会使用 Hadoop,这样的文件给 Hadoop 的扩展性和性能带来严重问题。当一个文件的大小小于 HDFS 的块大小(默认64MB)就认定为小文件,否则就是大文件。为了检测输入文件的大小,可以浏览Hadoop DFS 主页 ,并点击 Browse filesystem(浏览文件系统)。
smartsi
2019-08-08
4.5K0
Spark2.3.0 创建RDD
Spark的核心概念是弹性分布式数据集(RDD),RDD 是一个可容错、并行操作的分布式元素集合。有两种方法可以创建 RDD 对象:
smartsi
2019-08-07
8380
Flink HDFS Connector
此连接器提供一个 Sink,将分区文件写入 Hadoop FileSystem 支持的任何文件系统。要使用此连接器,添加以下依赖项:
smartsi
2019-08-07
2K0
Spark SparkSession:一个新的入口
在 Spark 1.x 中,使用 HiveContext 作为 DataFrame API 的入口显得并不直观。在 Spark 2.0 引入 SparkSession 作为一个新的入口,并且包含 SQLContext 和 HiveContext 的特性,同时为了向后兼容,两者都保留下来。SparkSession 有很多特性,在这里我们展示一些更重要的特性。
smartsi
2019-08-07
3.4K0
Spark 多文件输出
在Hadoop 多文件输出MultipleOutputFormat中介绍了如何在Hadoop中根据Key或者Value的值将属于不同的类型的记录写到不同的文件中。在这里面用到了MultipleOutputFormat这个类。
smartsi
2019-08-07
2.2K0
Hadoop MapReduce新一代架构MRv2
MapReduce在hadoop-0.23中经历了彻底的改变,现在我们称之为MapReduce 2.0(MRv2)或者YARN。
smartsi
2019-08-07
6450
Hadoop 推测执行
Hadoop不会去诊断或修复执行慢的任务,相反,它试图检测任务的运行速度是否比预期慢,并启动另一个等效任务作为备份(备份任务称为推测任务)。这个过程在Hadoop中被称为推测执行。
smartsi
2019-08-07
1.2K0
Hadoop无法访问50070端口
最近在搭建 Hadoop(3.1.2)环境时遇到了一件比较奇葩的问题。Hadoop 配置文件正常,各个守护进程正常启动,但是启动后无法在浏览器中访问 50070 端口,但是又可以访问 8088 端口:
smartsi
2019-08-07
9.4K2
Hadoop 利用ToolRunner运行MapReduce
大多数人通常使用通过静态 main 方法执行驱动程序代码创建他们的 MapReduce 作业。这种实现的缺点是大多数特定的配置(如果有的话)通常都是硬编码的(例如:设置Reducer的个数)。如果需要随时修改一些配置属性(例如:修改Reducer数量),就必须修改代码,然后重新构建你的jar文件并重新部署应用程序。这种方式很浪费时间。这可以通过在 MapReduce 驱动程序代码中实现 Tool 接口来避免。
smartsi
2019-08-07
8120
Hadoop 数据压缩简介
文件压缩带来两大好处:它减少了存储文件所需的空间,并加速了数据在网络或者磁盘上的传输速度。在处理大量数据时,这两项节省可能非常重要,因此需要仔细考虑如何在 Hadoop 中使用压缩。
smartsi
2019-08-07
1.6K0
Hadoop MapReduce中的InputSplit
对于上面的两个问题,首先要明确两个概念:Block和InputSplit。在Hadoop中,文件由一个一个的记录组成,最终由mapper任务一个一个的处理。 例如,示例数据集包含有关1987至2008年间美国境内已完成航班的信息。如果要下载数据集可以打开如下网址: http://stat-computing.org/dataexpo/2009/the-data.html 。每一年都会生成一个大文件(例如:2008年文件大小为108M),在每个文件中每单独的一行都代表一次航班信息。换句话说,一行代表一个记录。 HDFS以固定大小的Block为基本单位存储数据,而对于MapReduce而言,其处理单位是InputSplit。
smartsi
2019-08-07
1.7K0
Hadoop 脱离JVM? Hadoop生态圈的挣扎与演化
新世纪以来,互联网及个人终端的普及,传统行业的信息化及物联网的发展等产业变化产生了大量的数据,远远超出了单台机器能够处理的范围,分布式存储与处理成为唯一的选项。从2005年开始,Hadoop从最初Nutch项目的一部分,逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目,围绕着大数据的存储,计算,分析,展示,安全等各个方面,构建了一个完整的大数据生态系统,并有Cloudera,HortonWorks,MapR等数十家公司基于开源的Hadoop平台构建自己的商业模式,可以认为是最近十年来最成功的开源社区。
smartsi
2019-08-07
8100
Hadoop Shell中判断HDFS文件是否存在
Hadoop提供了-test命令可以验证文件目录是否存在。我们首先看一下-test命令的使用用法:
smartsi
2019-08-07
4.9K0
Hadoop Trash回收站使用指南
去回收站对应目录下观察一下,得出的结论是:无法创建目录employee,因为employee文件已经存在,自然导致employee_salary.txt文件不能放回收回站:
smartsi
2019-08-07
4.2K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档