Hive在读取时间内强制执行架构？ - 腾讯云开发者社区

文章/答案/技术大牛

发布

3回答

如何在spark中读取orc事务单元表？

apache-spark、hive、apache-spark-sql、orc

如何在spark中读取orc事务单元表？hive> create table default.Hello(id int,name string) clustered by('transactional'='true');<

浏览 0提问于2018-05-09得票数 4

6回答

RDBMS和Hive有什么区别？

sql、hadoop、data-warehouse、hive

在像MySQL这样的远程数据库管理系统中，Hive上也有数据库吗?我在手册上看到，hive只有表，我对此有点困惑。Tks之前

浏览 0提问于2011-08-03得票数 8

2回答

Presto对approx_distinct的支持

presto、approximate、hyperloglog

它是否支持在摄取时使用HyperLogLog计算进行汇总(类似于Druid)？考虑到与Druid不同，Presto从外部存储(Hive/Cassandra/RDBMS等)查询数据，我不确定是否支持摄取时间汇总，除非Presto的本地存储支持它们。有人能确认一下吗？

浏览 8提问于2017-08-14得票数 0

1回答

失败: RuntimeException MetaException(message:org.apache.hadoop.hive.serde2.SerDeException在确定架构时遇到AvroSerdeException返回信号架构以指示问题:无法从给定路径读取架构: /master_data/XYZ/DA12195/business_date=20181126/_schema.avsc) 架构文件存在于具有bus

浏览 1提问于2018-11-30得票数 0

1回答

Pyspark + Hive avro表

apache-spark、pyspark、pyspark-sql、spark-avro

我创建了Hive avro表，并试图从pyspark中读取它。主要是尝试在pyspark上对这个Hive avro表运行基本查询，以便进行一些分析。from pyspark import SparkContexttest.registerTe

浏览 2提问于2016-12-07得票数 1

3回答

Parquet:将特定列读入内存

mapreduce、avro、parquet

现在，我想从该文件中读取特定的列。我如何才能完整地阅读特定的列？我正在寻找java代码的例子。有没有api可以让我传递需要的列，然后得到一个二维表的数组？

浏览 2提问于2014-08-16得票数 3

1回答

AVRO文件上的Hive外部表只为所有列生成空数据

hadoop、hive、avro、spark-avro、hive-table

我试图在一些使用Hive external table生成的avro文件的基础上创建一个spark-scala。我使用的是CDH 5.16，它有hive 1.1，spark 1.6。但是我在这个位置找不到这些avro文件的架构文件。

浏览 1提问于2019-07-17得票数 2

回答已采纳

4回答

配置单元外键？

hive

我是蜂巢的新手。我尝试过搜索不同的网站，但是没有一个能够给我一个清晰的描述: A>外键:一般的蜂窝概念从来没有提到任何关于外键的东西。那么，我们如何实施引用约束呢？(我知道JOIN的语法，所以这是否意味着两个表有一个主键:外键关系？)不支持外键还有更高的目的吗？B>浮点相等比较:这似乎有问题。例如，检查A=3.5 => "A>3.49 A=3.5 A<3.51“。这条路对吗？感谢大家的帮助，

浏览 0提问于2012-03-14得票数 5

1回答

create table中的列规范时间段不识别

hive

我在读取avro文件时遇到问题，我在架构文件中有时间戳列名称(tweet string,)STORED AS AVRO LOCATION 'hdfs:////user/<e

浏览 0提问于2019-01-08得票数 0

2回答

如何使用spark/scala +代码+配置通过远程单元存储( s3 orc)加载闪烁s3中的文件

scala、apache-spark、amazon-s3、hive、thrift

intellij(星火)--> Hive (远程)--存储在S3(orc格式)上，无法通过spark/scala读取远程Hive表。import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.orcval spark = SparkSessio

浏览 0提问于2018-04-13得票数 2

1回答

空火花数据集读取蜂巢表

apache-spark、hadoop、hive

然后我试着用Spark读取表的数据： .builder().config("hive.execution.engine读取test.table1会导致不同的结果-- sqlDF根本不包含任何数据(0行)。星火日志没有显示错误-就像表真的是空的一样。我听说Spark在读取事务性或分区的Hive表时遇到了一些问题--但事实并非如此。深入研究一下，我发现Hive以不同的方

浏览 1提问于2021-11-24得票数 2

回答已采纳

4回答

在单个实例中将pig输出存储到Hive表中

hadoop、hive、apache-pig

我不想采用通常的方法，即先存储到一个文件中，然后从配置单元中读取该文件，然后再插入到表中。我需要减少已经完成的额外跳数。谢谢

浏览 2提问于2015-07-08得票数 5

1回答

关于Apache蜂巢的信息

hadoop、hive、hdfs、hiveql

在我以前的角色中，我曾短暂地使用过它，但我从来没有完全清楚过它。我的问题是：谢谢!

浏览 3提问于2021-08-03得票数 0

回答已采纳

2回答

Spark忽略TBLPROPERTIES中指定的parquet.compression属性

apache-spark-sql、hiveql、parquet

我需要从Spark创建一个Hive表，该表将采用拼花格式和快速压缩。注意：I试图直接从Hive运行相同的查询，如果属性等于SNAPPY表，则可以通过适当的压缩(即SNAPPY而不是GZIP)成功地创建SNAPPY表。

浏览 3提问于2016-04-29得票数 4

回答已采纳

1回答

avro文件中的配置单元外部表

hadoop、hive、hiveql、avro、hortonworks-data-platform

有没有可能在不指定模式的情况下从avro文件中在Hive 1.2上创建外部表，并让Hive从数据中提取它？谢谢

浏览 11提问于2019-08-05得票数 1

1回答

如何使用Hive1.2从s3中的拼花文件中创建外部表？

hadoop、hive、hiveql、qubole

我已经在Qubole(Hive)中创建了一个外部表，它从s3读取parquet(压缩: snappy)文件，但是在执行SELECT * table_name时，我将获得除分区列之外的所有列的空值。我尝试在SERDEPROPERTIES中使用不同的serialization.format值，但我仍然面临相同的问题。在删除属性'serialization.format' = '1'时，我将得到ERROR: Failed with exception j

浏览 0提问于2019-05-15得票数 2

1回答

是否可以从CSV列的特定子集创建配置单元表？

csv、hadoop、select、hive

我想在这些CSV文件上创建一个Hive表，但只包括列的某个子集(见下文)。我知道我可以创建一个包含所有这些元素的表，然后使用SELECT语句只获取我想要的那些元素，并创建第二个hive表，但我想知道是否有方法可以避免这样做。real', 'I2_imag',我不想让

浏览 0提问于2017-10-03得票数 1

3回答

配置单元更改外部表和更新架构

hadoop、hive

COMMENT '' PARTITIONED BY ( ROW FORMAT SERDE STORED AS INPUTFORMAT OUTPUTFORMAT 'org.a

浏览 3提问于2017-04-14得票数 0

回答已采纳

1回答

包含选定列的HDFS群集内拷贝

hadoop、hive、hdfs、avro、distcp

我正在使用Avro文件在HDFS中存储数据。我需要从一个avro文件中复制选定的列数据，并将其发送到具有其自己的架构文件(包含选定列信息)的同一群集中的另一个位置。我该怎么做呢？可以使用Hive实现吗？或者，HDFS中有没有什么实用程序可以帮助我做到这一点？这是必需的，因为一个组必须能够访问整个表，而另一个组应该只能访问几列。

浏览 10提问于2017-08-10得票数 0

回答已采纳

1回答