首页
学习
活动
专区
工具
TVP
发布

大数据生态

本专栏为您分享各种大数据技术和实践经验,无论您是初学者还是资深从业者,都能在这里找到丰富的知识资源和实践分享。
专栏作者
116
文章
199993
阅读量
374
订阅数
「EMR 开发指南」之通过 Python 连接 Hive
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。 本节将演示如何使用 Python 代码来连接 HiveServer2。
岳涛
2023-11-22
4661
Hive权限配置
EMR集群新增Hive-beeline权限管控操作 1.默认的权限对表的控制权限只有下面四种。
陈飞
2023-11-21
2730
「EMR 开发指南」之通过 Java 连接 Hivesever2
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 Java,Hive 提供了 jdbc 驱动,用户可以使用 Java 代码来连接 Hive 并进行一系列操作。 本节将演示如何使用 Java 代码来连接 HiveServer2
岳涛
2023-11-21
5011
Hive 基础操作
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
Golvi
2023-11-20
2870
Hive 跨文件系统存储数据
Hive指定表的存储路径: hive可以在创建表的时候通过location指定表的存储路径,若不指定localtion则文件默认存储在hive-site.xml配置文件中hive.metastore.warehouse.dir配置项指向的路径。 此外,Hive的分区表还可以指定分区的存储路径。通过如下语句可以给分区指定:
蕾崽
2023-11-20
2360
关注专栏作者,随时接收最新技术干货
岳涛
腾讯大数据SRE研发工程师
王旭平
腾讯科技有限公司产品架构工程师
用户8411147
卡奥斯产品经理
「EMR 运维指南」之 HiveServer2 启用 Custom 鉴权
HiveServer2 服务默认不启用鉴权功能,这样的话随意输入密码都能连接上,容易造成安全隐患,下面讲解下如何配置Hiveserver2 的 Custom 鉴权。这里已经编写好鉴权类代码,所以这里侧重讲配置,代码 Jar 包可以通过私信提供。
岳涛
2023-11-17
3730
hive读写ES集群及Role权限控制
1.下载elasticsearch-hadoop-hive-xxx.jar包,版本要与ES集群对应
沈小翊
2023-11-15
2250
kerberos+ranger场景下使用hive操作ES集群数据
使用hive对ES的数据进行增查改,通过kerberos+ranger完成不同用户对于不同表,列的细粒度权限控制。
沈小翊
2023-07-18
6242
hive 处理已经存在的小文件方案
归档,archive。Hive 具有内置支持,可将现有分区中的文件转换为 Hadoop 存档(HAR),这样一个曾经由 100 个文件组成的分区只能占用约 3 个文件(取决于设置)。
王旭平
2023-03-24
8.4K0
hive 分区表添加字段后,字段结果为null
由于业务需要,添加了在hive原来的表上增加了新字段(alter table partition_test add columns(ads string); ),添加一段时间后发现,新分区的数据查询正常。但是发现涉及以前的分区,新增字段的值都是null。
王旭平
2022-12-12
2.4K0
HIVE 3版本中 if 调整
之前使用的0.10版本的hive,hql查询if语句如下:SELECT IF(split(m.phone_platform,'_')[1] LIKE '4%' OR LOWER(split(m.phone_platform,'_')[1]) LIKE 'k' ,'4.X', IF(split(m.phone_platform,'_')[1] LIKE '5%' OR LOWER(split(m.phone_platform,'_')[1]) LIKE 'l','5.X',IF(split(m.p
王旭平
2022-12-05
3291
基于Sentry的大数据权限解决方案
Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase等。
岳涛
2021-03-31
1.3K0
基于LDAP认证的大数据权限解决方案
LDAP是开放的Internet标准,支持跨平台的Internet协议,在业界中得到广泛认可的,并且市场上或者开源社区上的大多产品都加入了对LDAP的支持,因此对于这类系统,不需单独定制,只需要通过LDAP做简单的配置就可以与服务器做认证交互。“简单粗暴”,可以大大降低重复开发和对接的成本。 —— LDAP概念及原理
岳涛
2021-03-27
2.2K0
Alluxio集群搭建并整合MapReduce/Hive/Spark
Alluxio是世界上第一个虚拟的分布式存储系统,以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁,使应用程序能够通过一个公共接口连接到许多存储系统。Alluxio以内存为中心的架构使得数据的访问速度能比现有方案快几个数量级。
岳涛
2021-03-25
1.7K3
Hive全库数据迁移方案
考虑到多数场景是迁移整个Hive数据库,该篇文章只介绍迁移的第二种,即元数据及Hive数据全量迁移。
岳涛
2021-03-24
4.7K2
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档