into Hive表-未分区表到具有多个分区的已分区表-无法插入到目标表，因为列号/类型

mysql、hadoop、hive、sqoop、hiveql

我必须通过Sqoop从MySQL表(具有复合主键)导入>4亿行到分区的Hive表单元中。该表有两年的数据，列出发日期为20120605至20140605，一天有数千项记录。我需要根据出发日期来划分数据。版本如下： Apache Hadoop - 1.0.4 Apache Hive - 0.9.0 Apache sqoop-1.4.2.bin__hadoop-1.0.0 据我所知，有三种方法： MySQL ->非分区Hive表->从非分区的Hive表插入到已分区的Hive表中 MySQL ->分区Hive表 MySQL ->非分区Hive表->更

浏览 3提问于2013-06-27得票数 1

6回答

未加载到单元格中的分区表中的数据

hadoop、mapreduce、hive、partition

我试图为我的表创建分区，以便更新一个值。这是我的样本数据 1,Anne,Admin,50000,A 2,Gokul,Admin,50000,B 3,Janet,Sales,60000,A 我想把Janet's部门更新为B。为此，我创建了一个以Department作为分区的表。创建由(部门字符串)行格式分隔的外部表跟踪(EmployeeID Int、FirstName字符串、指定字符串、工资Int)，分隔字段以“、”位置/用户/sreeveni/HIVE‘结束；但是在执行上面的命令时。没有数据插入到trail表中。 hive>select * from trail;

浏览 2提问于2014-09-18得票数 9

1回答

进程脚本由于堆空间问题而失败，无法处理太多的分区

hive、hiveql、hadoop2、hadoop-partitioning

我的脚本由于堆空间问题而失败，无法处理太多的分区。为了避免这个问题，我尝试将所有分区插入到一个分区中，但我面临以下错误失败: SemanticException错误10044:第1:23行不能插入目标表，因为列号/类型不同：‘’2021-01-16‘：table ins子句-0有78列，但查询有79列。 set hive.exec.dynamic.partition=true; set mapreduce.reduce.memory.mb=6144; set mapreduce.reduce.java.opts=-Xmx5g; set hive.exec.dy

浏览 6提问于2021-01-19得票数 1

回答已采纳

1回答

Hive -插入表分区引发错误

apache-spark、hive、hiveql、spark-thriftserver

我试图在星星之火上在Hive中创建一个分区表，并将其加载到Hive中的其他表中。在加载数据时，我会得到以下错误：错误: org.apache.hadoop.hive.ql.metadata.Table.ValidationFailureSemanticException:分区规范{cardsuit=，cardcolor=，cardSuit=SPA，cardColor=BLA}包含非分区列；以下是用于执行任务的命令： create table if not exists hive_tutorial.hive_table(color string, suit string,value

浏览 0提问于2018-03-29得票数 1

1回答

使用Hive将XML解析为多个表

xml、hadoop、hive、xml-parsing

我有一堆结构化XML文件要插入到Hive中。这个结构看起来有点像这样： <Object> <property0>propertyValue</property0> <FirstNestedObjects> <FirstNestedObject> <property1>propertyValue</property1> </FirstNestedObject> </FirstNestedObjects>

浏览 0提问于2019-01-04得票数 1

1回答

单元动态分区问题

hadoop、apache-spark、hive

我有两张桌子如下所示。 CREATE EXTERNAL TABLE IF NOT EXISTS TEMP_tab(id int,mytime STRING,age int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION 'hdfs://xxx'; CREATE TABLE IF NOT EXISTS main_TAB(id int,age int) PARTITIONED BY (mytime STRING) STORED AS ORC tblproperti

浏览 4提问于2017-11-05得票数 1

回答已采纳

1回答

将上次修改的文件日期添加到Hive外部表中

hive、hdfs

我需要将文件作为Hive外部表中的列添加到HDFS文件夹中。例句:我有两个文件被丢弃。 2017-07-13 15:22 2017年-12-13 18:31 因此，我在Hive表中的last_modified列应该反映文件1中的所有行的2017-07-13 15:22和文件2中的2017-12-13 18:31。是否有办法在外部表create语句中实现这一目标。提前谢谢！

浏览 1提问于2017-07-18得票数 2

1回答

如何将Hive分区列和值插入数据(parquet)文件中？

hadoop、hive、parquet、impala、hadoop-partitioning

请求：-如何在将数据插入Hive/Impala表时将分区密钥对插入到每个parquet文件中。 Hive创建外部表db.tbl_name ( col1字符串，col2字符串)，该表被(date_col字符串)分区，存储为'hdfs_path/db/tbl_name‘。让我们将数据插入到这个单元表中。插入db.tbl_name分区(date_col=2020-07-26)值(‘test1 1_col1’，'test1_col2') 一旦记录被插入，让我们使用拼花工具或任何其他工具查看数据到拼花文件中。拼花工具猫hdfs_path/db/tbl_name/date_c

浏览 2提问于2020-07-22得票数 1

1回答

组:失败:执行错误，从org.apache.hadoop.hive.ql.exec.mr.MapRedTask返回代码2

sql、apache、hadoop、mapreduce

失败:执行错误，在将记录插入到单元表时，从org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误返回代码2。 select * from tablename工作很好。我需要在hivesite.xml中添加任何属性吗？

浏览 2提问于2016-08-22得票数 0

1回答

将数据从一个表插入到另一个表时发生列不匹配错误

hive、bigdata

我试图将数据从一个表插入到另一个表，jud_pers_record_leg_proced_update_202208是eden_es_master_db.jud_pers_record_leg_proced的副本，但是当我在insert查询中使用select distinct时，它认为eden_es_master_db.jud_pers_record_leg_proced只有那些不同的列， INSERT INTO eden_es_master_db.jud_pers_record_leg_proced_update_202208 partition(edenloaddate) select

浏览 4提问于2022-08-11得票数 1

1回答

配置单元分区与多个表，有什么不同？

sql、hadoop、mapreduce、hive、hiveql

我有个好奇心。我想知道hive分区和多个表的区别。我知道分区的目的是减少查询对象。我认为这在分区和多个表之间是相同的。有什么不同？

浏览 1提问于2015-12-07得票数 0

1回答

如果一个单元(0.13)、SELECT和INSERT覆盖同时运行，会发生什么？

hive

我想知道，如果一个蜂巢选择和插入覆盖同时运行会发生什么。请帮助我理解在以下情况下将返回什么蜂巢查询。在查询运行时，先运行查询，然后插入覆盖相同的表。首先运行INSERT覆盖，在覆盖时，使用SELECT从同一个表中提取数据。我们将得到旧的数据，新的数据，混合数据，一无所有，还是不可预测的数据？我使用的是MapR 4.0.1，Hive 0.13。诚挚的问候, 瑞安

浏览 3提问于2015-10-20得票数 7

回答已采纳

2回答

HDFS文件中的数据未在hive表中看到

hadoop、hive、sqoop、hadoop-partitioning

我必须根据oracle表中的数据创建一个单元表。我正在执行sqoop操作，从而将oracle数据转换为HDFS文件。然后，我在HDFS文件上创建一个hive表。sqoop成功完成并在HDFS目标目录中生成文件。然后在hive中运行create表脚本。表被创建。但是它是一个空表，在hive表中看不到任何数据。有没有人遇到过类似的问题？

浏览 4提问于2015-06-11得票数 0

回答已采纳

2回答

Hive:创建表和分区

hadoop、hive

我有一个包含加载数据的表，如下所示： create table xyzlogTable (dateC string , hours string, minutes string, seconds string, TimeTaken string, Method string, UriQuery string, ProtocolStatus string) row format serde 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' with serdeproperties( "input.regex" =

浏览 5提问于2012-12-10得票数 2

回答已采纳

1回答

无法删除单元表分区包含特殊字符等号(=)

hive、special-characters、hive-partitions

在Hive表中插入的数据，其分区列(CL)值为('CL=18')，存储为/db/tbname/CL=CL%3D18 (无效分区包含用于等号的url编码特殊字符)。 - As per [hortonworks community](https://community.hortonworks.com/questions/5361/cannot-drop-corrupt-hive-partition-with-control-ch.html?childToView=224185#comment-224185) , it was mentioned hive stored

浏览 0提问于2018-10-14得票数 2

回答已采纳

1回答

使用流插入API保证BigQuery最终的一致性

google-bigquery、consistency、eventual-consistency

我想使用将行插入到BigQuery表中。在我的用例中，这是唯一将被执行的“写”操作的类；我不会以任何其他方式插入行，也不会更新或删除行。在读取了之后，我的理解是，即使在添加了insertAll请求之后，后续的读取操作可能也不会“看到”它成功插入的所有行，直到它们从流缓冲区传输到托管存储中为止。假设我的理解是正确的(如果不是，请告诉我！)：是否有任何方法能够判断由给定的insertAll请求插入的所有行都已提交到托管存储中？即使一行已被提交到托管存储，后续的读取操作是否保证看到它们，或者失败？我为什么要问这些问题？我的表模式将包含一个"key“列，它是一个严格单

浏览 0提问于2018-12-14得票数 2

回答已采纳

1回答

不处理带有分区列的毫秒时间戳的BigQuery

google-bigquery

我有一个unix时间戳列，它在我的csv文件中以毫秒表示。现在，当我将这些数据插入我的bigQuery表并查询它时，我会得到以下错误现在，我想把这个列作为一个分区列。我有几个问题: 1)即使我将其保存为int64，如何在此字段上创建分区列? 2)我希望避免重复的表。

浏览 1提问于2018-05-11得票数 3

1回答

使用Sqoop实现Hive表动态分区加载

hive、sqoop

我有一个名为dept的MySQL表，我基于时间戳列ts将其加载到配置单元外部表dept表中，作为增量附加检查列last-value。这可以很好地工作，现在我想根据dept_name和ts列将动态分区添加到我的配置单元表dept中。我知道我可以在sqoop之外创建表动态分区，但在将数据加载到动态分区方面需要帮助。我看过一个使用--hive-partition-key & --hive-partition-value的例子，但是值是硬编码的。在不对配置单元分区值进行硬编码的情况下，我可以使用SQOOP (dept1，时间戳1/Dept1，timestamp2..etc)和(dept2，

浏览 22提问于2016-08-26得票数 0

4回答

加载大型数据仓库表的更快方法

oracle、performance、partitioning

我在oracle 11g中有一个表，大小为62 in，有12亿条记录。表有4列，范围按月份分区，哈希子分区按交易号。每周大约有8000万条记录被删除并重新插入到这个表中。使用NOAPPEND PARALLEL提示和完成此删除和插入过程需要大约4个小时。有没有什么方法可以加速这个过程？我可以考虑的一种方法是用APPEND替换NOAPPEND，但这将导致空间浪费和表大小的急剧增加。

浏览 2提问于2015-08-26得票数 1

2回答

通过EMR在配置单元表中运行分析表计算统计信息时出错(配置单元2.0)

amazon-web-services、hive、amazon-emr

不确定这里的问题是什么，但仅仅是一个简单的分析表计算统计数据就抛出了下面的错误。我尝试了msck修复，但我觉得分区已损坏。可以在不删除分区的情况下执行任何操作吗？ [Code: 500051 , SQL State: HY000] [Amazon][HiveJDBCDriver](500051) ERROR processing query/statement. Error Code: 40000 , SQL state: TStatus(statusCode:ERROR_STATUS ,infoMessages:[*org.apache.hive.service.cli.HiveSQL

浏览 37提问于2021-07-07得票数 0

1回答

sql、hive、hiveql、hive-partitions

当我试图插入到一个分区的表中时，我得到了以下错误： SemanticException错误10044:第1:23行无法插入到目标表中，因为列号/类型不同:表INSST子句-0有6列，并且这3列是分区的，我们不需要任何从未分区表转储/存储到分区表的过滤器。我的表格：来源： id name salary dep 1 sai 1000 sales 2 syam 2000 hr 3 sundar 3000 bank 目标： id name salary dep 1 sai 1000 sales 2 syam 2000 hr 3 sund

浏览 57提问于2021-01-07得票数 1

1回答

大查询在从一个表插入另一个表时指定_PARTITIONTIME

google-bigquery

我有两个大查询表，t1和t2，这两个表都包含_PARTITIONTIME列。我的目标是将t2中的行插入到t1中，以维护_PARTITIONTIME 是否有一种INSERT将_PARTITIONTIME作为所选变量的方法？或者在插入行之后是否有追溯性定义_PARTITIONTIME列的方法？

浏览 5提问于2017-12-12得票数 2

回答已采纳

1回答

在Bigquery中插入对分区表的查询

hive、google-bigquery

我有一些用hive编写的插入查询要在Bigquery中迁移。例如： insert into test.abc partition(yrmth) select * from test.xyz 在Bigquery中，分区仅支持YYYYMMDD格式。通过加载test.abc$20171125，我可以通过by命令行工具将数据转储到分区表中。如何使用Bigquery中的DML语句实现相同的目标？我已经了解到，Legacy SQL不支持编写DML语句，而Standard不支持将数据加载到相应分区所需的表规范(如test.abc$20171125 )。

浏览 2提问于2017-12-19得票数 0

回答已采纳

2回答

从非分区表创建已分区的单元表

hive、partition

我有一个Hive表，它是通过连接多个表中的数据创建的。这方面的数据驻留在一个有多个文件的文件夹中("0001_1“、"0001_2”、.等等)。我需要基于这个表中名为pt_dt的日期字段创建一个分区表(通过修改这个表或创建一个新的表)。有办法这样做吗？我尝试创建一个新表并插入其中(下面)，但没有工作 create external table table2 (acct_id bigint, eval_dt string) partitioned by (pt_dt string); insert into table2 partition (pt_dt) select ac

浏览 3提问于2015-08-13得票数 8

回答已采纳

1回答

通过接受和InsertInto命令激发Scala性能问题

scala、apache-spark

请看下面的截图。我正在尝试做一些性能改进，我的火花工作和它花了将近5分钟来执行采取行动的数据。我正在使用采取，以确保dataframe有一些记录在其中，如果它存在，我想继续进行进一步的处理。我试着采取和计数，没有看到有多大的时间的执行。另一种情况是，它大约需要10分钟才能将数据存储器写入hive表(它有最多200行和10列)。 df.write.mode("append").partitionBy("date").insertInto(tablename) 请建议我们如何尽量减少占用和插入蜂巢表所需的时间。更新：这是我提交的星星之火:星星之

浏览 4提问于2019-01-15得票数 0

1回答

-如何选择/插入列较少的表？

azure、azure-data-lake

我有一个表，我想输出查询的结果。目标表的列比源表少。运行简单的insert select语句将导致以下错误： E_CSC_USER_INSERTTOOMANYCOLUMNSSPECIFIESPARTITION:单个分区INSERT语句的源包含比目标的实际列更多的项。说明:源列数不得超过实际目标表列数。不应在源行集中提供虚拟列。解析:将源的架构与实际(非虚拟)列匹配。我尝试使用一个视图，将列限制在正确的集合内作为中介，但这仍然会产生相同的错误。在数据湖分析中，如何将数据从一个表移动到另一个表，而我必须始终在两个表中都有相同的列？编辑：样品DDL 创建表： CREATE TAB

浏览 1提问于2018-01-09得票数 1

回答已采纳

1回答

从oracle和导入数据动态创建单元分区表的Sqoop

hadoop、hive、sqoop

我在oracle中有一个表(表名为TRCUS)，其中包含客户的详细信息，根据年份和月份进行分区。Oracle中的分区名称: PERIOD_JAN_13、PERIOD_FEB_13、PERIOD_JAN_14、PERIOD_FEB_14等现在，我想直接使用SQOOP将这个表的数据导入到HIVE中。 Sqoop作业应该创建一个hive表，基于oracle表分区动态创建分区，然后将数据导入到hive；到相应的分区中。如何使用SQOOP实现这一点？

浏览 6提问于2017-10-16得票数 1

回答已采纳

1回答

插入到Hive表--非分区表到已分区表--无法插入目标表，因为列号/类型

hadoop、hive

当我试图插入一个分区表时，我得到了下面的错误SemanticException错误10044:第1:23行不能插入目标表，因为列号/类型不同：‘US’：table ins子句-0有2列，但查询有3列。我的输入数据 1,aaa,US 2,bbb,US 3,ccc,IN 4,ddd,US 5,eee,IN 6,fff,IN 7,ggg,US 创建了hive表tx create table tx (no int,name string,country string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 创建分区表t1 由国家

浏览 1提问于2016-03-05得票数 4

回答已采纳

1回答

uuid作为散列分区的主键和分区键

postgresql、uuid、partitioning、postgresql-12

我正在PostgreSQL 12中设置一个由哈希表划分的分区，该表将有256个分区。我使用uuid作为表的主键。使用与散列键相同的uuid列是否可以接受？

浏览 2提问于2020-03-29得票数 2

5回答

用分区将数据从一个蜂巢表加载到另一个

hadoop、hive

我在一个Hive表中有数据，并且希望将数据加载到另一个hive表中。源表是reg_logs，它有两个分区，日期和时间。数据每小时加载到此表中。方案是： CREATE EXTERNAL TABLE IF NOT EXISTS reg_logs ( id int, region_code int, count int ) PARTITIONED BY (utc_date STRING, utc_hour STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE LOCATION '/

浏览 10提问于2014-06-13得票数 18

回答已采纳

1回答

将外部表配置为带有二进制列的地板。

apache-spark、hadoop、pyspark、hive、parquet

我有一个带模式的拼花数据文件； id整数模型二进制该文件是使用pyspark创建的，包含模型标识符，并使用泡菜python库模型二进制文件进行转储。是否可以为这个拼花文件创建Hive外部表，并在select命令之后获得输出。假设Hive外部表具有完全相同的模式。 CREATE EXTERNAL TABLE default.t_model ( id integer , model binary ) STORED AS PARQUET LOCATION 'hdfs_path'; 我已经做了上面的每一步，但总是得到空的答案。我是否应该使用Hive来加载二进制列？或者，我是否应该尝

浏览 3提问于2021-02-13得票数 0

1回答

在蜂箱/黑斑羚中使用负载数据加载数据

hive、impala

我可以使用以下命令将数据加载到蜂箱中： LOAD DATA INPATH '/xx/person/a.csv' INTO TABLE person PARTITION (age = 30); 在上面的语句中，age=30是必须存储数据的分区。如果a.csv实际上有年龄列呢？是否有一种方法可以使单元格使用一个LOAD数据语句正确地将每一行a.csv插入到正确分区下的person表中？

浏览 1提问于2016-09-01得票数 1

回答已采纳

1回答

Server 2012 -列存储索引-报告解决方案

sql-server-2012、columnstore

我们(团队)正在为一个庞大的在线交易网站推出审计报告解决方案。我们的审计解决方案是在源表上启用CDC，并跟踪对象上发生的每一项更改，抓取它们并将它们推入目标表进行报告。到目前为止，我们在源-目的地中有一对一的表。只有在目标中插入，没有更新或删除。因此，最终审计表将比实际的源表更大，因为这些表保存了更改的历史记录。我的计划是根据主题/模块将目标表夷为平地，启用列存储索引，然后将其用于报告。是否对上述方法有任何建议或有任何替代办法。

浏览 1提问于2013-08-15得票数 0

回答已采纳

2回答

如何在配置单元中插入uniontype

insert、hive

我读过一个关于hive中联合类型的著名示例。 CREATE TABLE union_test(foo UNIONTYPE<int, double, array<string>, struct<a:int,b:string>>); SELECT foo FROM union_test; {0:1} {1:2.0} {2:["three","four"]} {3:{"a":5,"b":"five"}} {2:["six","seven"]} {3:{

浏览 0提问于2016-12-05得票数 0

1回答

在少数情况下，Hive插入覆盖截断表。

hadoop、hive、hiveql、hadoop-partitioning

我正在研究一种解决方案，发现在某些特殊情况下，hive insert overwrite 会截断表，但在少数情况下它不会。有人能解释一下它的行为吗？为了解释这一点，我是表二表，源和目标，并试图使用insert overwrite将数据从源表插入到主表中。当源表有分区时如果源表有分区，并且您编写的条件是分区不存在，那么它不会截断主表。 create table source (name String) partitioned by (age int); insert into source partition (age) values("gaurang", 11); cre

浏览 0提问于2018-05-31得票数 2

1回答

MYSQL 5.7基于另一个相关表的分区键划分表

mysql、mysql-5.7、partitioning、archive

在了解问题之前，请先了解一些背景知识。 TABLE transaction ( t_id: AUTO INCREMENT BIGINT t_execute_on_date: DATE, timestamp: DATETIME, ... other columns ) 表transaction有3亿行(3亿行)和不断增长的行(每天100万行)，我们需要根据列t_execute_on_date删除旧数据。我计划删除旧数据(超过2岁)。基于创建基于键t_execute_on_date的每月范围分区(约4000万行)。我在测试服务器上测试了这一点，同时使用@RickJames MySQL中的分

浏览 0提问于2021-05-25得票数 0

回答已采纳

3回答

在Spark中连接大型表的优化方法是什么？

apache-spark、apache-spark-sql

我需要使用Spark或Dataframe连接表。需要知道实现它的最佳方式是什么。设想情况是：所有数据都以ORC格式显示在Hive中(和参考文件)。我需要加入一个基本文件(Dataframe)与11-13其他参考文件一起从Hive读取，以创建一个大内存结构(400列)(大约1 TB大小) 实现这一目标的最佳途径是什么？如果有人遇到类似的问题，请分享你的经验。

浏览 2提问于2016-06-15得票数 23

1回答

为什么在插入hdfs配置单元分区表时速度太慢？

hive、hdfs、cloudera、impala

我创建了这样的表：(非分区的) create external table `ersin_db`.`DW_ETL` ( `ID` INT, `NAME` STRING ) stored as parquet LOCATION '/user/ers/ersyn61/' tblproperties('parquet.compression'='SNAPPY'); 当我尝试插入时，它是快速的。但是当我像这样创建分区表时： create external table `ersin_db`.`DW_ETL`

浏览 0提问于2020-07-10得票数 1

1回答

无法通过对象存储的OCI HDFS连接器从配置单元分区表中搜索任何数据

hdfs

我尝试创建用于OCI对象存储的Hive外部表，但无法从hive分区表中搜索任何数据。查询select * from table_name limit 10;没有输出，只有配置单元分区表有问题。对于普通的非分区表，它的工作方式与预期一致。

浏览 1提问于2021-08-06得票数 1

1回答

从Postgres中的其他数据库构建表-(多服务器并行查询执行？)

postgresql、postgresql-10

我正在努力寻找建立数据库关系的最佳解决方案。我需要一些东西来创建一个表，其中将包含来自不同数据库的其他表的数据拆分。所有的表都有完全相同的结构(相同的列号、名称和类型)。在单个数据库中，我将创建一个带有分区的父表。然而，数据量太大，无法在单个数据库中完成，这就是我尝试进行拆分的原因。从Postgres文档中，我认为我正在尝试做的是“多服务器并行查询执行”。目前，我认为要实现的唯一解决方案是建立数据库地址的API，并在需要时使用它将数据通过网络传输到主父数据库中。我还发现了一个名为的Postgres外部扩展，它可能可以完成这项工作，但我不知道如何跨多个数据库实现唯一键(或者像Citus这样的

浏览 1提问于2018-12-03得票数 0

2回答

托管表不包含数据，而数据存在于外部表中-在配置单元中

hadoop、hive、metadata

我是Hadoop的新手。我们的临时表(外部表)中的配置单元数据以及我们插入到按月分区的目标表中的数据(托管表)中存在问题。但一段时间后，当我们计数(*)时-可以检查总计数，但从目标表中选择*限制2；不显示任何数据。运行分析目标表compute statistics命令并描述找到行数的表:0 ... 但是找不到数据是如何被截断的。之前以为是元数据被破坏了。不知道同样的问题是否仍然存在。有人遇到过类似的问题吗？有没有人可以帮忙，比如表ddl是如何存在的，但它不包含任何数据

浏览 0提问于2020-02-24得票数 0

1回答

在Hive SQL中，根据具有分区键的另一个表的列创建表。

sql、hadoop、hive

我希望根据现有表中的列创建一个新表，并在单元格中添加一个新的分区。我想在hive中实现这个目标。除了使用下面的sql或使用诸如水壶之类的ETL工具之外，还有其他方法吗？如果不存在创建表，则创建table_name( col1， col2， col3， ……，柯伦 )由dt划分；其中，col1到coln来自已经存在的旧表，而dt则是新添加的分区键。由于旧表太大，可能有数百个列，列出它们会很累人。但是，以下sql显示语法错误：如果不存在table_name，则创建表，如dt所分区的older_table_name；所以我想知道是否还有其他更好的方法来解决这个问题呢

浏览 3提问于2016-05-05得票数 1

2回答

如何在hdfs将orc文件复制到该表的文件夹后更新该表的数据

hive、hdfs、orc

在将orc文件插入具有hdfs副本的表的文件夹中之后，如何在使用hive查询时更新该hive表的数据以查看这些数据。诚挚的问候。

浏览 3提问于2017-01-10得票数 0

回答已采纳

2回答

当数据存储在对象存储中时，从Spark SQL访问配置单元表

apache-spark、hive、object-storage

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。这就是我开始spark会话的方式 SparkSession session = SparkSession.builder().appName("ParquetReadWrite") .config("hive.metastore.

浏览 40提问于2018-12-18得票数 0

1回答

查找hive表最大分区的性能

sql、hive

现在，我有一个由dt分区的hive表，dt是日期字符串。该表还有一个字段col，其值等于dt。这两个sql在性能上有什么不同吗？ SQL1：select max(dt) from test_table SQL2：select max(col) from test_table

浏览 1提问于2017-05-12得票数 0

2回答

Spark SQL saveAsTable返回空结果

hadoop、apache-spark、hive、hdfs、apache-spark-sql

我使用以下代码在Spark SQL中创建/插入数据到Hive表中： val sc = SparkSession .builder() .appName("App") .master("local[2]") .config("spark.sql.warehouse.dir", "file:///tmp/spark-warehouse") .enableHiveSupport() .getOrCreate() // actual code result.createOrReplaceTempView(

浏览 3提问于2017-02-27得票数 3

1回答

Google :复制日期分区表所需的分区规范

google-bigquery

注意:这几乎是的重复，区别是在本例中源表是日期分区的，而目标表还不存在。而且，这个问题的公认解决方案在这种情况下是行不通的。我正在尝试将一天的数据从一个日期分区表复制到一个我还没有创建的新的日期分区表中。我希望BigQuery能够像通常对非日期分区的情况一样，为我创建日期分区的目标表。使用BigQuery CLI，下面是我的命令： bq cp mydataset.sourcetable\$20161231 mydataset.desttable\$20161231 下面是该命令的输出： cp操作中的BigQuery错误:错误处理作业‘myproject:bqjob_bqjob’：为了创建

浏览 7提问于2017-06-16得票数 5

回答已采纳

2回答

流到BQ分区表中

google-bigquery、google-cloud-dataflow

我正在尝试使用数据流来流到BQ分区表中。文件说：流缓冲区中的数据对于_PARTITIONTIME列具有空值。在将行插入日期分区表中时，我可以看到这种情况。是否有一种方法可以设置要插入的行的分区时间，以便BigQuery可以推断正确的分区？到目前为止，我尝试过这样做：tableRow.set("_PARTITIONTIME", milliessinceepoch);，但是我遇到了一个no such field异常。

浏览 1提问于2016-07-28得票数 1

回答已采纳

1回答