Snowflake到Hive数据随分区移动_如何将一个分区的数据插入/复制到hive中的多个分区？_如何将hdfs表中的数据导入到hive中的嵌套分区表中？ - 腾讯云开发者社区

我是snowflake的新手，在AWS上探索snowflake。当数据存储在snowflake中时，我知道我们可以在分区中创建和管理数据，就像我们在hive中所做的那样。Hive不允许我进行分区级别的用户访问管理。我能用雪花做到这一点吗？如果是，我们该如何做，以及如何在AWS上对其进行管理？

浏览 6提问于2020-12-03得票数 0

回答已采纳

1回答

Snowflake到Hive数据随分区移动

、

我们需要将数据从Snowflake移动到Hive。我可以从snowflake卸载数据到亚马逊S3，并在蜂巢上进行msck修复。但是所有记录在Hive中都是空的。可能的原因是什么？这里有什么问题吗。为了检查拼图是否正确创建，我使用Spark读取了拼图文件。我能读懂镶木地板的文件。创建或替换阶段加密's3://myc-mlb-alpha-us-east-1-drg-322t232/hive/rs_hive_008_test1‘storage_integration = DEV_HIVE_INTEGRATION file_format = (type = 'parquet'

浏览 16提问于2021-02-08得票数 0

2回答

从Hive Map迁移到Snowflake变体

、

我们正在将我们的代码从Hive迁移到Snowflake，因此hive地图被迁移到snowflake变体。然而，当我们将数据加载到雪花表中时，我们在数据中看到了附加的键和值字符串。配置单元地图数据- {"SD10":""，"SD9":""} 值变体数据-{“SnowSQL”："SD10"，"value"："“}，{ "key"："SD9"，"value"："”} 我使用stage和ORC文件将数据从Hadoop加载到Snowflake

浏览 30提问于2020-03-18得票数 0

1回答

Gobblin中的HDFS回看配置

、、

我看到配置单元到配置单元的数据移动在Gobblin中有一个回看配置，我们可以在其中指定要复制的分区的日期 gobblin.data.management.copy.hive.filter.LookbackPartitionFilterGenerator 在Gobblin中，HDFS到GCS (Google云存储)的数据复制是否有类似的回看配置，只能在特定分区日期之后复制文件？我的文件在HDFS中，这些文件是按日期分区的。

浏览 13提问于2021-07-08得票数 1

2回答

snowflake如何在内部将数据存储到微分区

我更想了解Snowflake将数据存储到微分区的过程。据我所知，snowflake每个分区的大小是50-500MB。假设我有一个大小为1 1GB的文件，我想将这些数据加载到snowflake中。有人能给我解释一下雪花将数据存储到微粒子中的内部过程/步骤吗？

浏览 4提问于2020-01-27得票数 0

1回答

如何将数据附加到已存在的配置单元后端文件？

、、、

我正在编写一个shell脚本，其中我需要将数据附加到现有的hive表中。我将数据放在边缘节点中，然后将其移动到HDFS。但它不让我把数据附加到蜂巢。 hadoop fs -rm /user/hive/warehouse/db/report/daily_report.txt hadoop fs -copyFromLocal /../logs/${process_NM}_${start_ts}_final.txt /user/hive/warehouse/db/report/daily_report.txt 我试着通过删除hadoop fs -rm /user/hive/warehouse/db

浏览 23提问于2021-05-07得票数 1

3回答

使用Sqoop从MySQL导入到Hive

、、、、

我必须通过Sqoop从MySQL表(具有复合主键)导入>4亿行到分区的Hive表单元中。该表有两年的数据，列出发日期为20120605至20140605，一天有数千项记录。我需要根据出发日期来划分数据。版本如下： Apache Hadoop - 1.0.4 Apache Hive - 0.9.0 Apache sqoop-1.4.2.bin__hadoop-1.0.0 据我所知，有三种方法： MySQL ->非分区Hive表->从非分区的Hive表插入到已分区的Hive表中 MySQL ->分区Hive表 MySQL ->非分区Hive表->更

浏览 3提问于2013-06-27得票数 1

2回答

有没有办法将部分表从hive加载到pig关系？

、、

我目前正在使用下面的代码加载一个hive表到pig关系。 a = LOAD 'hive_db.hive_table' using org.apache.hive.hcatalog.pig.HCatLoader(); 这一步将把hive表中的所有记录放入pig中，但对于我目前的场景，我不需要整个表都放在pig中。当我从配置单元获取数据时，有没有办法过滤掉不需要的记录？

浏览 4提问于2019-08-15得票数 0

1回答

理解Snowflake中的仓库缓存

使用样本数据在Snowflake中运行了两个SQL。问题1：select * from "SNOWFLAKE_SAMPLE_DATA"."TPCDS_SF100TCL"."CUSTOMER" where c_birth_day='14' and c_birth_month='7' and c_birth_year='1989' 从持久化存储中提取的数据。查询2:更改筛选器值。期望的是，由于过滤器被更改，Snowflake将再次从持久存储中拉出。 select * from "SNO

浏览 31提问于2021-06-20得票数 0

1回答

星火如何对蜂巢执行写操作

、

我在斯派克工作，对它还很陌生。我正在做一项工作，从某个源读取数据，进行一些转换，并将其写入Hive。为了给蜂巢写信，我正在做dataframe.write.insertInto(hive_table) 我的问题是，星火如何将整个dataframe写到Hive？它是并行写入，就像不同执行程序上的不同分区将被并行写入，还是会将来自不同分区的所有数据收集到驱动程序，然后尝试一次插入？

浏览 1提问于2021-03-25得票数 0

回答已采纳

2回答

单元格:在使用外部表时，单元格是否支持分区和存储？

、

在创建Hive表时使用PARTITIONED BY或CLUSTERED BY关键字时，hive将创建对应于每个分区或桶的单独文件。但是对于外部表来说，这仍然有效。据我所知，与外部文件相对应的数据文件不是由hive管理的。蜂巢也会创建与每个分区或桶相对应的附加文件，并将相应的数据移动到这些文件中。编辑-添加详细信息。 "Hadoop:权威指南“-”第17章:蜂巢“中的几个摘录 CREATE TABLE logs (ts BIGINT, line STRING) PARTITIONED BY (dt STRING, country STRING); 当我们将数据加载到分区表中时，将显式

浏览 7提问于2017-06-27得票数 0

1回答

从oracle和导入数据动态创建单元分区表的Sqoop

、、

我在oracle中有一个表(表名为TRCUS)，其中包含客户的详细信息，根据年份和月份进行分区。Oracle中的分区名称: PERIOD_JAN_13、PERIOD_FEB_13、PERIOD_JAN_14、PERIOD_FEB_14等现在，我想直接使用SQOOP将这个表的数据导入到HIVE中。 Sqoop作业应该创建一个hive表，基于oracle表分区动态创建分区，然后将数据导入到hive；到相应的分区中。如何使用SQOOP实现这一点？

浏览 6提问于2017-10-16得票数 1

回答已采纳

2回答

Hive 0.12中外部表的动态分区

、、

在Hive文档中，它讨论了外部表的动态分区：。我最近升级到了Hive 0.12，并希望使用动态外部表分区，方法是在DDL的location部分中给出表的根HDFS位置，然后添加子目录，这些子目录将自动添加到表中。子目录将由Flume代理创建，该代理将添加日期作为路径名。我希望位于根目录顶部的Hive表能够自动拾取子目录中的新数据。例如，如果根位置是： hdfs:///partitionTest 我在Flume中使用路径添加数据 hdfs:///partitionTest/year=%Y/month=%m/day=%d 其中我的Hive DDL语句是： create external tab

浏览 1提问于2014-08-14得票数 0

1回答

如何从一个位置读取表并将数据写入其他集群的表

、

我从设置hive.metastore.uris的metastore启动spark应用程序中读取表统计数据。但是，我需要将数据写入另一个配置单元。我已经尝试清理活动会话和默认会话，使用新的metastore uri构建另一个会话，但spark继续尝试写入第一个hive的表。 val spark = SparkSession.builder() .appName(appName) .enableHiveSupport() .config("hive.metastore.uris", FIRST_METASTORE)

浏览 9提问于2019-04-11得票数 0

2回答

spark HWC无法写入现有表

、、、、

在HDP 3.1.0中，HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar，i不能根据数据库追加(或覆盖)到现有的表。我在一个名为DSN的数据库上测试，它工作，但在另一个名为CLEAN_CRYPT的数据库上它失败了。两个数据库都是加密的+ kerberos import com.hortonworks.spark.sql.hive.llap.HiveWarehouseSession._ import com.hortonworks.spark.sql.hive.llap.HiveWarehouseSession val hiv

浏览 2提问于2020-01-28得票数 2

2回答

格式错误的ORC文件错误

、

在将Hive外部表从RC升级到ORC格式并在其上运行MSCK修复表时，当我从表中选择all时，我得到以下错误- Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file hdfs://myServer:port/my_table/prtn_date=yyyymm/part-m-00000__xxxxxxxxxxxxx Invalid postscript length 1 将RC格式的历史数据迁移到同一表的ORC格式的新定义(如果有)的过程是什么？

浏览 26提问于2015-02-06得票数 3

回答已采纳

1回答

由于已存在的分区失败，无法执行单元交换分区。

、

在将增量数据与现有数据合并后，我试图从暂存db交换一个分区，如下所示：创建具有分区的暂存表： CREATE TABLE stg.customers_testcontrol_staging(customer_id bigint,customer_name string, customer_number string,status string,attribute_category string,attribute1 string, attribute2 string, attribute3 string, attribute4 string, attribute5 string) PART

浏览 0提问于2019-06-29得票数 3

回答已采纳

1回答

如何将数据从一个雪花实例迁移到另一个实例，最佳性能选项？

我是Snowflake的新手，我想从USWEST的Snowflake实例移动几个数据库到USEAST的snowflake实例。在成本和性能方面，最好的方法是什么？非常感谢！

浏览 16提问于2019-12-19得票数 0

回答已采纳

1回答

蜂窝分区到火花分区

、

出于效率的原因，我们需要处理一个大的数据集。数据源驻留在Hive中，但具有不同的分区条件。换句话说，我们需要从蜂巢检索数据到火花，并在星火中重新分区。但是在Spark中有一个，当数据被持久化时，它会导致重新排序/重新分配分区(无论是对parquet还是ORC)。因此，我们在星火中的新分区丢失了。作为一种选择，我们正在考虑在一个新的Hive表中构建新的分区。问题是:是否可以从Hive分区映射Spark分区(用于阅读)？

浏览 0提问于2018-07-30得票数 0

13回答

单元执行错误，从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1

在创建蜂巢数据库时，我会收到以下错误失败:执行错误，从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1。com/facebook/com 303/FacebookService$Iface Hadoop version:**hadoop-1.2.1** HIVE Version: **hive-0.12.0** Hadoop路径：/home/hadoop_test/data/hadoop-1.2.1 蜂巢路径:/home/hadoop_test/data/hive-0.12.0 我将hive*.jar、jline-..jar、antlr-runt

浏览 0提问于2014-04-28得票数 27

1回答

“无法改变分区”在蜂巢中的星火应用程序

、、

我有一个Spark应用程序，我用它将JSON记录读取到一个DataFrame中，转换数据(即将其扁平以便在BI工具中使用)，然后将其插入到现有的分区Hive表中。DataFrame只包含来自相同分区列的数据，比如x和y，PARTITION子句只有这些静态值，因此没有ALTER TABLE命令。实现这一目标的代码如下所示： df.registerTempTable("tempTab") hc.sql(s"USE $schema") hc.sql( s"""INSERT INTO TABLE $table PARTITION (x=

浏览 4提问于2016-05-04得票数 0

6回答

未加载到单元格中的分区表中的数据

、、、

我试图为我的表创建分区，以便更新一个值。这是我的样本数据 1,Anne,Admin,50000,A 2,Gokul,Admin,50000,B 3,Janet,Sales,60000,A 我想把Janet's部门更新为B。为此，我创建了一个以Department作为分区的表。创建由(部门字符串)行格式分隔的外部表跟踪(EmployeeID Int、FirstName字符串、指定字符串、工资Int)，分隔字段以“、”位置/用户/sreeveni/HIVE‘结束；但是在执行上面的命令时。没有数据插入到trail表中。 hive>select * from trail;

浏览 2提问于2014-09-18得票数 9

1回答

星火如何选择运行w.r.tHDFS的位置

、、、

当我开始使用大数据技术时，我了解到基本规则是“移动代码，而不是数据”。但我意识到我不知道它是如何工作的:火花如何知道在哪里移动代码？我在这里讲的是第一步，例如:阅读一个分布式文件和几个地图操作。在hdfs文件的情况下，如何知道实际的数据部分在哪里？工作中的工具/协议是什么？取决于资源管理器(独立的-火花/纱线/mesos)，情况是否不同？ hbase/hive之类的hdfs存储应用程序呢？如果它们运行在同一台机器(如kafka)上，那么其他分布式存储又如何呢？除了火花，类似的分布式引擎，如风暴/flink，也是一样的吗？编辑对于卡桑德拉+火花，(专用的

浏览 2提问于2016-05-17得票数 2

回答已采纳

1回答

如何使用直线将同一文件加载到单元表中？

、

我需要在hive表中创建大量的测试数据。我试着执行以下命令，但每次只插入一个分区数据。连接到直线： beeline --force=true -u 'jdbc:hive2://<host>:<port>/<hive database name>;ssl=true;user=<username>;password=<pw>' 创建分区表： CREATE TABLE p101( Name string, Age string) PARTITIONED BY(fi string) ROW FORMAT DELIMITED

浏览 4提问于2022-04-21得票数 0

1回答

用于sql server的雪花驱动程序

作为snowflake的新手，有一个潜在的snowflake/sql服务器集成项目(用于SSAS)，我想知道是否有一些成熟的ODBC或OLE驱动程序用于将Snowflake中的数据摄取到SSAS中，或者转储数据到文本文件是否是导入到SSAS中的唯一高速/海量数据机制，特别是对于旧版本，如SSAS 2014 (同时考虑升级路径)。谢谢你，科斯

浏览 38提问于2021-11-20得票数 1

回答已采纳

1回答

Snowflake中的argmin/argmax聚合是否有解决方法？

我正在寻找一种计算Snowflake中多行的argmin或argmax聚合的方法，类似于Hive或Presto。在Hive中，可以对(命名的)结构使用变通方法，因为聚合函数应用于结构的第一个元素。下面是一个示例： SELECT max(named_struct('y', y, 'x', x)).x FROM t 现在我在问自己，在Snowflake中是否有类似的方法来做到这一点。在Snowflake中，我们有一个具有类似属性的OBJECT数据类型。我是否可以使用以下代码来计算argmin或argmax，就像Hive示例中那样？对象的最小/最大聚合是否也在对象

浏览 0提问于2020-02-19得票数 1

4回答

将数据从.avro文件导入到单元表

、、、

我按照命令和avro模式创建了一个hive表。 CREATE TABLE table_name PARTITIONED BY (t string, y string, m string, d string, h string, hh string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat' OUTPUTFORMAT

浏览 9提问于2017-01-25得票数 4

回答已采纳

1回答

复制CDH簇间的拼花表

、

我需要将地板表从CDH4.5复制到CDH4.3集群，这样做：使用distcp复制带有数据的目录(/user/hive/仓库/mytable) 比较目录大小修正了两个集群上相同的权限和所有权(777和黑斑羚:hive) 打开黑斑羚并创建表。失效元数据invalidate metadata 刷新表refresh mytable 一切都很好但黑斑羚看不到数据。黑斑羚重启也于事无补。有可能让它看到复制的数据吗？

浏览 9提问于2013-12-06得票数 0

1回答

单元格:插入查询失败，错误"java.lang.OutOfMemoryError: GC开销超出限制“

、、、、

我的Hive查询失败，错误如下: java.lang.OutOfMemoryError: GC开销超过限制 table2 = 1.7tb查询中的数据： set hive.exec.dynamic.partition.mode= nonstrict;set hive.exec.dynamic.partition=true;set mapreduce.map.memory.mb=15000;set mapreduce.map.java.opts=-Xmx9000m;set mapreduce.reduce.memory.mb=15000;set mapreduce.reduce.java.opts

浏览 5提问于2020-01-16得票数 2

1回答

如何在spark/Hive中将大块数据合并到单个目录中

、、、

我有一个要求，巨大的数据是分区和插入到Hive.To绑定这个数据，我正在使用DF.Coalesce(10)。现在我想把这个分割的数据绑定到单个目录，如果我使用DF.Coalesce(1)，性能会降低吗？或者，我是否有任何其他进程来执行此操作？

浏览 3提问于2018-01-24得票数 0

1回答

UnsupportedOperationException:未实现类型: DoubleType

、

我正试图使用我编写的函数为雪花编写一个pyspark： def s3_to_snowflake(schema, table): df = get_dataframe(schema, table, sqlContext) username = user password = passw account = acct snowflake_options = { "sfURL" : account+".us-east-1.snowflakecomputing.com", "sfAcc

浏览 0提问于2018-06-08得票数 1

1回答

我们如何流式传输从snowflake到kafka的数据管道？

、、、

我想将snowflake转换后的数据放到postgres数据库中。为了实现这一点，我想将数据从snowflake移动到kafka，然后从kafka移动到postgres。无法弄清楚如何将数据从snowflake移动到kafka。

浏览 8提问于2020-09-21得票数 0

1回答

如何sqoop导入将新数据追加到分区的hive表中，从而在相同的分区列上创建新的分区文件夹？下面是我的场景

、、、、

我在hive中的date列上有一个分区表，可以第一次将数据sqoop导入到hive分区表中。当我执行此操作时，它会正确创建所有日期文件夹，并将数据加载到配置单元表的hdfs位置中的每个文件夹中。现在，当我想要sqoop导入新数据并将其再次附加到具有新的更新日期的同一配置单元表中时(这将在hdfs配置单元位置创建新的日期分区文件夹)，并将新数据加载到表中。如何使用sqoop导入操作执行此操作？

浏览 45提问于2017-08-30得票数 0

1回答

如何使用flink编写增量数据到单元格

、、

我使用flink 1.6，我知道我可以使用自定义接收器和hive来编写蜂箱，或者使用JDBCAppendTableSink，但它仍然使用jdbc.The问题，是hive不支持batchExecute的方法，我认为它会非常慢。然后我寻找另一种方法，我用DataSet方法编写一个writeAsText到hdfs，然后从hdfs.But创建hive表仍然存在一个问题:如何附加增量数据。WriteMode的api是： Enum FileSystem.WriteMode Enum Constant and Description NO_OVERWRITE Creates the target file

浏览 0提问于2018-11-05得票数 0

回答已采纳

2回答

如何管理因向Hive插入流数据而创建的小文件？

、、、

我正在使用简单的Kafka消费者阅读Kafka消息。将输出存储到HDFS中并进行一些过滤。过滤后，我将此数据写入Hive，这会导致小的兽人文件进入hive。有人能建议我如何处理这种情况吗？

浏览 1提问于2018-07-03得票数 3

1回答

如何从Trino读取S3中的数据分区

、、、、

我正在尝试从Trino读取S3中的数据分区。我到底做了什么：我将所有分区的数据上传到S3。我有一个指定的avro模式，我把它放在文件本地系统中。然后，我创建了一个外部配置单元表，以指向S3中的数据位置和文件本地系统中的avro schema。表已创建。然后，通常我可以从Trino中查询S3中的数据和分区。 Trino>select * from hive.default.my_table; 它只返回列名。 trino>select * from hive.default."my_table$partitions"; 它只返回分区名称。你能给我一个解决方案吗

浏览 149提问于2021-01-29得票数 2

1回答

spark saveAsTable在读取和写入hive表时是如何工作的

、、

我有以下代码： Dataset<Row> rows = sparkContext.sql ("select from hive tables with multiple joins"); rows.saveAsTable(writing to another external table in hive immediately); 1)在上述情况下，当调用saveAsTable()时，spark会将整个数据集加载到内存中吗？ 1.1)如果是，那么当这个查询实际上可以返回无法放入内存的大量数据时，我们该如何处理这种情况？ 2)当服务器崩溃，spark开始执行saveA

浏览 31提问于2020-06-04得票数 0

回答已采纳

2回答

表显示了CLI中的配置单元分区，但无法通过终端访问

、

当我使用show partitions命令时，我可以在Hive中看到数据分区。但是，当我尝试通过hadoop fs的-ls /path/ to /分区访问该文件夹时，我得到了消息:没有这样的文件或目录。我不知道为什么会这样？我不能进入date分区文件夹吗?即使里面没有数据(我也不能将数据移动到这个分区)

浏览 2提问于2015-05-16得票数 0

1回答

如何对数据进行物理分区以避免Spark SQL连接中的混洗

我需要连接5个中等大小的表(每个表大约80 gb )和大约800 gb的大型输入数据。所有数据都驻留在配置单元表中。我使用Spark SQL 1.6.1来实现这一点。Join需要40分钟的时间才能完成--num-executors 20 --driver-memory 40g --executor-memory 65g --executor-cores 6。所有联接都是排序合并外部联接。也看到了大量的洗牌发生。我将hive中的所有表存储到相同数量的存储桶中，以便所有表中的相似键在一开始加载数据本身时都将转到相同的spark分区。但spark似乎并不理解bucketing。有没有其他方法可以

浏览 3提问于2016-10-25得票数 1

1回答

无法查看通过Spark SQL创建的新数据

、、、

我正面临一个问题，在这个问题中，我无法查看来自Hive的某些数据。重现问题的步骤。创建一个表 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as PARQUET; 然后创建一个具有新列的数据框并加载它们 import java.sql.Date import org.apache.spark.sql._ import org.apache.spark.s

浏览 30提问于2019-12-21得票数 3

回答已采纳

2回答

如何在hdfs将orc文件复制到该表的文件夹后更新该表的数据

、、

在将orc文件插入具有hdfs副本的表的文件夹中之后，如何在使用hive查询时更新该hive表的数据以查看这些数据。诚挚的问候。

浏览 3提问于2017-01-10得票数 0

回答已采纳

1回答

通过将分区目录复制到仓库中来复制Hive托管表

、、、、

我有一个现有的桶形表，它有YEAR, MONTH, DAY分区，但是我想通过INGESTION_KEY添加额外的分区，这是现有表中不存在的列。这是为了适应未来的表插入，这样我就不必每次获取数据时都需要OVERWRITE一个YEAR, MONTH, DAY分区；我只需做一个简单的INSERT INTO并创建一个新的INGESTION_KEY分区。我需要新表中一年的数据才能开始，所以我想将一年的分区从现有的表复制到新的表中。与其对每个分区执行一个INSERT，不如使用distcp将文件复制到HDFS中Hive仓库目录中的新表的分区目录中，然后将ADD PARTITION复制到新表中。所以，这就

浏览 2提问于2017-02-06得票数 0

回答已采纳

1回答

为什么Hive使用分区表下的其他文件中的文件？

、、

我的Hive里有一张简单的桌子。它只有一个分区： show partitions hive_test; OK pt=20130805000000 Time taken: 0.124 seconds 但是，当我执行一个简单的查询sql时，最终会在文件夹20130805000000下找到数据文件。为什么不直接使用20130805000000文件 sql： SELECT buyer_id AS USER_ID from hive_test limit 1; 这是个例外： java.io.IOException: /group/myhive/test/hi

浏览 3提问于2013-09-07得票数 0

1回答

如何将Hive分区列和值插入数据(parquet)文件中？

、、、、

请求：-如何在将数据插入Hive/Impala表时将分区密钥对插入到每个parquet文件中。 Hive创建外部表db.tbl_name ( col1字符串，col2字符串)，该表被(date_col字符串)分区，存储为'hdfs_path/db/tbl_name‘。让我们将数据插入到这个单元表中。插入db.tbl_name分区(date_col=2020-07-26)值(‘test1 1_col1’，'test1_col2') 一旦记录被插入，让我们使用拼花工具或任何其他工具查看数据到拼花文件中。拼花工具猫hdfs_path/db/tbl_name/date_c

浏览 2提问于2020-07-22得票数 1

2回答

通过单点登录将数据从Snowflake导入R

、

是否可以将数据从Snowflake数据库直接导入到R中？我可以通过使用我的Snowflake凭据创建ODBC连接来做到这一点；但是，我的公司将Snowflake切换到单点登录，而我无法让它工作。

浏览 0提问于2017-05-09得票数 1

1回答

为什么当使用分区时，hive不能从hdfs中选择数据？

、、

我使用flume将数据写入hdfs，路径类似于/hive/logs/dt=20151002.Then，我使用hive来选择数据，但是响应的计数始终是0。下面是我的创建表sql，CREATE EXTERNAL TABLE IF NOT EXISTS test (id STRING) partitioned by (dt string) ROW FORMAT DELIMITED fields terminated by '\t' lines terminated by '\n' STORED AS TEXTFILE LOCATION '/hive/log

浏览 4提问于2015-10-03得票数 0

回答已采纳

1回答

由于内存而在蜂巢查询中发出问题

、、、、

我们有一个insert查询，在该查询中，我们试图通过从非分区表中读取数据，将数据插入到已分区表。查询- insert into db1.fact_table PARTITION(part_col1, part_col2) ( col1, col2, col3, col4, col5, col6, . . . . . . . col32 LOAD_DT, part_col1, Part_col2 ) select col1, col2, col3, col4, col5, col6, . . . . . . . col32

浏览 3提问于2019-04-30得票数 1

2回答

HDFS文件中的数据未在hive表中看到

、、、

我必须根据oracle表中的数据创建一个单元表。我正在执行sqoop操作，从而将oracle数据转换为HDFS文件。然后，我在HDFS文件上创建一个hive表。sqoop成功完成并在HDFS目标目录中生成文件。然后在hive中运行create表脚本。表被创建。但是它是一个空表，在hive表中看不到任何数据。有没有人遇到过类似的问题？

浏览 4提问于2015-06-11得票数 0

回答已采纳

2回答

无法对HDFS支持的配置单元表进行分区

、、

也许这是一个简单的问题，但是，我很难解决这个问题。现在，我有一个伪分布式HDFS，其中包含使用protobuf 3.0.0编码的录音。然后，使用Elephant-Bird/Hive，我可以将数据放入Hive表中进行查询。我遇到的问题是对数据进行分区。这是我正在使用的table create语句 CREATE EXTERNAL TABLE IF NOT EXISTS test_messages PARTITIONED BY (dt string) ROW FORMAT SERDE "com.twitter.elephantbird.hive.serde.P

浏览 7提问于2018-01-24得票数 0

1回答

AWS雅典娜分区数据如何并且必须是Hive格式的？

、

我的理由是：我将许多csv文件上传到S3中，并在雅典娜中定义了一组外部表，以访问S3桶下的相应文件夹。随着数据量的增加，我的老板希望对数据进行分区，以节省资金和提高性能。我的问题是：根据文档，分区数据将采用Hive格式。所以我所有的csv文件都会变成Hive格式？ S3的总数据量将随着csv和hive格式文件的存储而增加？在不需要更改文件格式( csv到单元)的情况下，分区仅仅意味着根据特定的csv列将数据放置在不同的子文件夹或子db中？但是如果是这样的话，当我基于两个csv列设置2个分区时，数据会因为分区而重复吗？对于AWS来说，不知道如何在雅典娜进行分区。非常感谢

浏览 0提问于2018-01-17得票数 1

回答已采纳