Google云计算发布可以连接Apache Hive与BigQuery的连接器,使得Hive工作负载现在也可以读取和写入BigQuery与BigLake表格,也就是说,Hive-BigQuery连接器提供了另一个Hive搬迁到BigQuery的解决方案,即便用户已经将数据搬迁到BigQuery或BigLake,仍然可以利用HiveQL方言和Hive执行引擎执行查询。
Apache Hive是一个开源的分布式数据仓库系统,用于处理存储在Hadoop中的结构化数据,开发人员不需要了解和编写复杂的MapReduce任务,可以使用类似SQL语言的HiveQL查询数据。而之所以Google要开发Hive-BigQuery连接器,是因为部分用户在搬迁Hive到BigQuery数据仓库时遭遇障碍,而Hive-BigQuery连接器则可提供更灵活的搬迁选择。
Hive-BigQuery连接器实例了Hive StorageHandler API,可集成Hive工作负载和BigQuery、BigLake表格,Hive的执行引擎会处理聚合和整合等数据操作,而与BigQuery的数据层的所有互动,则是由连接器管理。
Google提到,Hive原本就是热门的开源数据仓库之一,过去使用本地HDFS当作专有数据存储层,而现在逐渐发展到了云计算存储服务。这个新的连接器,可以将Hive和原生云计算存储BigQuery集成在一起,进而简化搬迁工作。
利用Hive-BigQuery连接器,用户可以在批次搬迁的过程,维持操作的连续性。在过程中,原始的Hive查询能够通过连接器访问数据,而用户也可以逐渐转换使用BigQuery的SQL方言,待转换完成后,用户便可以完全停用Hive。
此外,用户还可以同时使用Hive和BigQuery,主要以Hive处理工作负载,并仅将BigQuery用于特定任务,或是也可以继续使用Hive,并且在云计算存储采用Avro、Parquet或ORC等开源软件格式,用户可以使用Hive的SQL方言执行和处理查询,以连接器使用BigLake和BigQuery的特有功能,像是缓存查询性能的元数据、应用栏级访问控制,甚至是数据遗失防护(DLP)等安全和治理功能。
领取专属 10元无门槛券
私享最新 技术干货