SmartSi-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏成员

270

文章

616921

阅读量

53

订阅数

深入理解 Hive UDAF

mapreduce hive hadoop

用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式，第一种是 Simple 方式，第二种是 Generic 方式。

2021-12-14

3.6K1

一起了解一下HiveServer2

hive rpc jdbc hadoop 网站

在了解 HiveServer2 之前我们先来了解一下 HiveServer1（或者称之为 HiveServer）。

2020-09-07

2.4K0

Lambda架构的质疑

数据处理 serverless hadoop windows

Nathan Marz 写了一篇非常受欢迎的博客文章，描述了 Lambda 架构（如何打破CAP定理）。Lambda 架构是一种在 MapReduce 和 Storm 或类似系统之上构建流处理应用程序的方法。

2020-01-05

2.1K0

HBase 伪分布式模式安装与启动

hadoop 大数据 zookeeper hbase TDSQL MySQL 版

安装 HBase 之前默认我们已经完成了 Hadoop、ZooKeeper 安装，如果还没有安装可以参考如下博文：

2019-11-28

2.7K0

hadoop mapreduce spark java 数据处理

最近我听到了很多关于此话题的讨论。同样，这也是一个大数据领域经验不足的客户非常喜欢提问的问题。实际上，我不喜欢这个含糊不清的词语，但是通常客户会找到我们使用它们，因此我不得不使用。

2019-11-27

4K0

Spark Spark {{JAVA_HOME}}找不到

hadoop spark 打包

发现换一台机器提交作业就没有问题，怀疑是版本的问题，经过对比，原来是我编译Spark所使用的Hadoop版本和线上Hadoop版本不一致导致的，当前使用Hadoop版本是2.7，而线上是使用的2.2。后来使用线上Hadoop版本重新编译了Spark，这个问题就解决了。

2019-08-08

9760

Hadoop 大量小文件问题的优化

大数据 hadoop mapreduce jvm 存储

小文件是指文件大小明显小于 HDFS 上块（block）大小（默认64MB，在Hadoop2.x中默认为128MB）的文件。如果存储小文件，必定会有大量这样的小文件，否则你也不会使用 Hadoop，这样的文件给 Hadoop 的扩展性和性能带来严重问题。当一个文件的大小小于 HDFS 的块大小（默认64MB）就认定为小文件，否则就是大文件。为了检测输入文件的大小，可以浏览Hadoop DFS 主页，并点击 Browse filesystem（浏览文件系统）。

2019-08-08

4.5K0

Spark2.3.0 创建RDD

spark java hadoop 分布式 api

Spark的核心概念是弹性分布式数据集（RDD），RDD 是一个可容错、并行操作的分布式元素集合。有两种方法可以创建 RDD 对象：

2019-08-07

8380

Flink HDFS Connector

scala java hadoop 编程算法

此连接器提供一个 Sink，将分区文件写入 Hadoop FileSystem 支持的任何文件系统。要使用此连接器，添加以下依赖项：

2019-08-07

2K0

Spark SparkSession:一个新的入口

sql spark hadoop java scala

在 Spark 1.x 中，使用 HiveContext 作为 DataFrame API 的入口显得并不直观。在 Spark 2.0 引入 SparkSession 作为一个新的入口，并且包含 SQLContext 和 HiveContext 的特性，同时为了向后兼容，两者都保留下来。SparkSession 有很多特性，在这里我们展示一些更重要的特性。

2019-08-07

3.4K0

Spark 多文件输出

spark hadoop python api

在Hadoop 多文件输出MultipleOutputFormat中介绍了如何在Hadoop中根据Key或者Value的值将属于不同的类型的记录写到不同的文件中。在这里面用到了MultipleOutputFormat这个类。

2019-08-07

2.2K0

Hadoop MapReduce新一代架构MRv2

hadoop 容器 mapreduce yarn node.js

MapReduce在hadoop-0.23中经历了彻底的改变，现在我们称之为MapReduce 2.0(MRv2)或者YARN。

2019-08-07

6450

Hadoop 推测执行

hadoop mapreduce

Hadoop不会去诊断或修复执行慢的任务，相反，它试图检测任务的运行速度是否比预期慢，并启动另一个等效任务作为备份(备份任务称为推测任务)。这个过程在Hadoop中被称为推测执行。

2019-08-07

1.2K0

Hadoop无法访问50070端口

最近在搭建 Hadoop（3.1.2）环境时遇到了一件比较奇葩的问题。Hadoop 配置文件正常，各个守护进程正常启动，但是启动后无法在浏览器中访问 50070 端口，但是又可以访问 8088 端口:

2019-08-07

9.4K2

Hadoop 利用ToolRunner运行MapReduce

mapreduce jar hadoop 编程算法

大多数人通常使用通过静态 main 方法执行驱动程序代码创建他们的 MapReduce 作业。这种实现的缺点是大多数特定的配置（如果有的话）通常都是硬编码的(例如：设置Reducer的个数)。如果需要随时修改一些配置属性（例如：修改Reducer数量），就必须修改代码，然后重新构建你的jar文件并重新部署应用程序。这种方式很浪费时间。这可以通过在 MapReduce 驱动程序代码中实现 Tool 接口来避免。

2019-08-07

8120

Hadoop 数据压缩简介

文件存储大数据 mapreduce hadoop

文件压缩带来两大好处：它减少了存储文件所需的空间，并加速了数据在网络或者磁盘上的传输速度。在处理大量数据时，这两项节省可能非常重要，因此需要仔细考虑如何在 Hadoop 中使用压缩。

2019-08-07

1.6K0

Hadoop MapReduce中的InputSplit

vr 视频解决方案 hadoop http mapreduce 大数据

对于上面的两个问题，首先要明确两个概念：Block和InputSplit。在Hadoop中，文件由一个一个的记录组成，最终由mapper任务一个一个的处理。例如，示例数据集包含有关1987至2008年间美国境内已完成航班的信息。如果要下载数据集可以打开如下网址： http://stat-computing.org/dataexpo/2009/the-data.html 。每一年都会生成一个大文件（例如：2008年文件大小为108M），在每个文件中每单独的一行都代表一次航班信息。换句话说，一行代表一个记录。 HDFS以固定大小的Block为基本单位存储数据，而对于MapReduce而言，其处理单位是InputSplit。

2019-08-07

1.7K0

Hadoop 脱离JVM？ Hadoop生态圈的挣扎与演化

文件存储 java spark jvm hadoop

新世纪以来，互联网及个人终端的普及，传统行业的信息化及物联网的发展等产业变化产生了大量的数据，远远超出了单台机器能够处理的范围，分布式存储与处理成为唯一的选项。从2005年开始，Hadoop从最初Nutch项目的一部分，逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目，围绕着大数据的存储，计算，分析，展示，安全等各个方面，构建了一个完整的大数据生态系统，并有Cloudera，HortonWorks，MapR等数十家公司基于开源的Hadoop平台构建自己的商业模式，可以认为是最近十年来最成功的开源社区。

2019-08-07

8100

Hadoop Shell中判断HDFS文件是否存在

Hadoop提供了-test命令可以验证文件目录是否存在。我们首先看一下-test命令的使用用法:

2019-08-07

4.9K0

Hadoop Trash回收站使用指南

hadoop 大数据

去回收站对应目录下观察一下，得出的结论是：无法创建目录employee，因为employee文件已经存在，自然导致employee_salary.txt文件不能放回收回站:

2019-08-07

4.2K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态