腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

分布式系统和大数据处理

专栏作者

103

文章

162211

阅读量

30

订阅数

大数据常用组件默认端口号

大数据 hadoop yarn mapreduce hive

.colspan{ background:#f4f4f4; font-weight: bold;}

2018-09-30

2.3K0

使用.net通过odbc访问Hive

.net hive jdbc 数据处理 windows server

在写入数据到Hive表(命令行) 这篇文章中，我们通过命令行的方式和hive进行了交互。但在通常情况下，是通过编程的方式来操作Hive，Hive提供了JDBC和ODBC接口，因为公司的数据处理程序是使用.net开发并运行在windows server上的，因此这篇文章将介绍如何通过ODBC来访问Hive。

2018-09-29

3.9K0

免密码从windows复制文件到linux

windows linux hive http ssh

有时候，我们需要使用编码的方式将文件从Windows系统发送到Linux系统上，这篇文章将记录如何实现这一过程。

2018-09-28

5.1K0

使用Spark读取Hive中的数据

spark hive 大数据 mapreduce 官方文档

在默认情况下，Hive使用MapReduce来对数据进行操作和运算，即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的，一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式，一种称为Hive on Spark：即将Hive底层的运算引擎由MapReduce切换为Spark，官方文档在这里：Hive on Spark: Getting Started。还有一种方式，可以称之为Spark on Hive：即使用Hive作为Spark的数据源，用Spark来读取HIVE的表数据（数据仍存储在HDFS上）。

2018-09-28

10.9K0

安装和配置Hive

hive 大数据 mapreduce 存储 hadoop

直接通过MapReduce来对存储在Hadoop HDFS上的数据进行查询和分析比较繁琐而且还需要编程。Hive是一个数据仓库系统，构建在HDFS之上，它提供了类似SQL的语法（HQL），可以将HQL翻译成MapReduce作业进行查询，使得对数据的管理和检索更为便利。

2018-09-28

1.8K0

使用Spark进行数据统计并将结果转存至MSSQL

spark sql hive python api

在使用Spark读取Hive中的数据中，我们演示了如何使用python编写脚本，提交到spark，读取并输出了Hive中的数据。在实际应用中，在读取完数据后，通常需要使用pyspark中的API来对数据进行统计或运算，并将结果保存起来。本节将演示这一过程。

2018-08-22

2.1K0

配置Hadoop集群客户端

spark 面向对象编程 hadoop hive ssh

在Hadoop和Spark集群搭建好了以后，如果我们需要向集群中发送、获取文件，或者是执行MapReduce、Spark作业，通常是搭建一个外围的、集群的客户端，在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时，集群和客户端的结构如下图所示（简化图，没有考虑NameNode的高可用），本文将介绍如何快速搭建一个集群客户端（有时也叫gateway）。

2018-08-22

3.3K0

Hive中分区和分桶的概念和操作

hive 数据结构

在使用传统的RDBMS数据库（关系数据库），例如MySql时，对于一些大表，我们通常会进行分表操作，以提升查询效率。在Hive中也提供了类似的概念和操作，本文将对其进行讲述。

2018-08-21

1.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态