我是HCatlog ( Hcatlog )的新手,我们想知道在什么用例/场景中我们使用HCAT,使用HCAT的好处,是否有任何性能改进可以从HCatlog中获得。有人能提供什么时候使用Hcatlog的信息吗?
发布于 2015-05-31 04:41:23
Apache是一个用于Hadoop的表和存储管理层,它使使用不同数据处理工具( Apache、Apache / HCatalog和Apache )的用户能够更容易地在网格上读写数据。
HCatalog在存储在HDFS集群上的数据上创建一个表抽象层。此表抽象层以熟悉的关系格式表示数据,并使使用熟悉的查询语言概念更容易读取和写入数据。
HCatalog数据结构使用Hive的数据定义语言(DDL)定义,而Hive亚稳态存储HCatalog数据结构。使用命令行接口(CLI),用户可以创建、更改和删除表.表被组织成数据库,或者如果没有为表定义任何表,则放置在默认数据库中。创建表后,可以使用诸如“显示表”和“描述表”等命令探索表的元数据。HCatalog命令与Hive的DDL命令相同。
HCatalog确保用户不必担心数据存储在何处或以何种格式存储。HCatalog在表格视图中显示来自RCFile格式、文本文件或序列文件的数据。它还提供REST,以便外部系统能够访问这些表的元数据。
HCatalog为其他地图/还原工具打开了单元元数据。每个Map/Reduce工具都有自己关于HDFS数据的概念(例如,Pig将HDFS数据看作一组文件,Hive将其视为表),受HCatalog支持的Map/Reduce工具不需要关心数据的存储位置、格式和存储位置。
这使我们能够为正确的工作使用正确的工具。例如,我们可以使用HCatalog将数据加载到Hadoop中,使用Pig对数据执行一些ETL,然后使用Hive聚合数据。处理之后,可以使用Sqoop将数据发送到位于Server中的数据仓库。您甚至可以使用Oozie来自动化这个过程。
的工作方式:
参考资料:
http://hortonworks.com/hadoop/hcatalog/
回答您的问题:
正如我前面所描述的,HCatalog为hadoop工具提供了共享模式和数据类型,它简化了您在数据处理期间的工作。如果您已经使用HCatalog创建了一个表,那么您可以通过pig或Map/Reduce直接访问该蜂箱表(您不能简单地通过pig或Map访问一个单元表),.You不需要为每个工具创建模式。
如果您正在处理来自多个用户的共享数据(一些使用Hive的团队、一些使用pig的团队、一些使用Map/Reduce的团队),那么HCatalog将非常有用,因为他们只需要表来访问处理的数据。
它不是替代任何工具,而是提供对许多工具的单一访问的工具。
性能取决于hadoop集群。您应该在Hadoop集群中对主要性能进行一些性能基准测试。
https://stackoverflow.com/questions/30550959
复制相似问题