首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么时候使用Hcatalog ?它的好处是什么?

什么时候使用Hcatalog ?它的好处是什么?
EN

Stack Overflow用户
提问于 2015-05-30 20:18:03
回答 1查看 2.2K关注 0票数 0

我是HCatlog ( Hcatlog )的新手,我们想知道在什么用例/场景中我们使用HCAT,使用HCAT的好处,是否有任何性能改进可以从HCatlog中获得。有人能提供什么时候使用Hcatlog的信息吗?

EN

回答 1

Stack Overflow用户

发布于 2015-05-31 04:41:23

Apache是一个用于Hadoop的表和存储管理层,它使使用不同数据处理工具( Apache、Apache / HCatalog和Apache )的用户能够更容易地在网格上读写数据。

HCatalog在存储在HDFS集群上的数据上创建一个表抽象层。此表抽象层以熟悉的关系格式表示数据,并使使用熟悉的查询语言概念更容易读取和写入数据。

HCatalog数据结构使用Hive的数据定义语言(DDL)定义,而Hive亚稳态存储HCatalog数据结构。使用命令行接口(CLI),用户可以创建、更改和删除表.表被组织成数据库,或者如果没有为表定义任何表,则放置在默认数据库中。创建表后,可以使用诸如“显示表”和“描述表”等命令探索表的元数据。HCatalog命令与Hive的DDL命令相同。

HCatalog确保用户不必担心数据存储在何处或以何种格式存储。HCatalog在表格视图中显示来自RCFile格式、文本文件或序列文件的数据。它还提供REST,以便外部系统能够访问这些表的元数据。

HCatalog为其他地图/还原工具打开了单元元数据。每个Map/Reduce工具都有自己关于HDFS数据的概念(例如,Pig将HDFS数据看作一组文件,Hive将其视为表),受HCatalog支持的Map/Reduce工具不需要关心数据的存储位置、格式和存储位置。

  1. 它帮助集成与其他工具和供应读写接口猪,蜂巢和地图/减少。
  2. 它为Hadoop提供共享模式和数据类型,tools.You不必在每个程序中显式地键入数据结构。
  3. 它将信息公开为Rest接口,用于外部数据访问。
  4. 它还与Sqoop集成,Sqoop是一种工具,用于在Hadoop和关系数据库(如Server和Oracle )之间来回传输数据。
  5. 它提供了API和webservice包装器来访问蜂窝转移中的元数据。
  6. HCatalog还公开了一个REST接口,以便您可以创建自定义工具和应用程序来与Hadoop数据结构进行交互。

这使我们能够为正确的工作使用正确的工具。例如,我们可以使用HCatalog将数据加载到Hadoop中,使用Pig对数据执行一些ETL,然后使用Hive聚合数据。处理之后,可以使用Sqoop将数据发送到位于Server中的数据仓库。您甚至可以使用Oozie来自动化这个过程。

的工作方式:

  1. 猪- HCatLoader与HCatStore接口
  2. Map/Reduce HCatInputFormat和HCatOutputFormat接口
  3. 蜂巢-没有接口的必要。直接访问元数据

参考资料:

Microsoft大数据解决方案

http://hortonworks.com/hadoop/hcatalog/

回答您的问题:

正如我前面所描述的,HCatalog为hadoop工具提供了共享模式和数据类型,它简化了您在数据处理期间的工作。如果您已经使用HCatalog创建了一个表,那么您可以通过pig或Map/Reduce直接访问该蜂箱表(您不能简单地通过pig或Map访问一个单元表),.You不需要为每个工具创建模式。

如果您正在处理来自多个用户的共享数据(一些使用Hive的团队、一些使用pig的团队、一些使用Map/Reduce的团队),那么HCatalog将非常有用,因为他们只需要表来访问处理的数据。

它不是替代任何工具,而是提供对许多工具的单一访问的工具。

性能取决于hadoop集群。您应该在Hadoop集群中对主要性能进行一些性能基准测试。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30550959

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档