如何在Hive列中只插入特定值？_Python:如何在pandas列中只保留特定的值？_SQL只删除特定列中的值？ - 腾讯云开发者社区

sql、hive、hiveql、insert-update

我对这项技术还不熟悉。我们收到可能包含回溯记录的文件。我们必须将数据加载到hive表中，该hive表将仅插入(在trans_Date上分区)。我需要知道在表中插入记录的机制应该是什么，其中trans_date是回溯的。Trans_date(列)是事务日期，Record_date(列)是将记录插入到表中的日期。

浏览 1提问于2018-06-08得票数 2

1回答

Sqoop -将Hive列数据类型更改为Postgres数据类型

postgresql、hadoop、hive、sqoop

我试图将hive表的最后一列(在hive中是STRING类型)更改为Postgres类型的date，下面的命令是： sqoop export --connect jdbc:postgresql://192.168.11.1:5432/test --username test --password test_password --table posgres_table --hcatalog-database hive_db --hcatalog-table hive_table 我试过使用，但Postgres中的列仍然是空的： -地图-列-单元batch_date=date

浏览 3提问于2017-01-18得票数 0

1回答

Nifi处理器连接Hive \ HIVE_CLI_SERVICE_PROTOCOL_V7异常

hive、apache-nifi

我正在开发Nifi处理器，用控制器服务连接蜂箱和执行查询。我能够在Nifi中部署它并尝试运行它，但是它在下面的例外情况下失败了 RegisterSchema[id=6b1152ca-015f-1000-d7b9-e44e251aba70] failed to process due to java.lang.NoSuchFieldError: HIVE_CLI_SERVICE_PROTOCOL_V7; rolling back session: {} java.lang.NoSuchFieldError: HIVE_CLI_SERVICE_PROTOCOL_V7 at org.apac

浏览 1提问于2017-10-30得票数 0

回答已采纳

1回答

如何在Oracle DB中将日期/时间戳字符串写入日期时间戳列？

oracle、hadoop、apache-spark、hive、avro

我用Hadoop存储了一些Oracle表，使用AVRO文件格式和Hive外部表来访问数据。我在导入时使用来自Oracle的TO_CHAR函数将日期和时间戳值存储为格式化字符串。现在，我想将这些精确的数据导出回一个带有日期列的Oracle表中。我使用以下命令： // Create a data frame from the Hive table val data = sqlContext.sql("select * from avro_table") // export df to existing oracle table data.write.mode("ove

浏览 3提问于2017-12-09得票数 1

回答已采纳

2回答

如何在Android中删除SQLite中特定行的特定列

android

我需要写一个查询，从安卓的SQLite中删除特定行的特定列。我想以"db.delete (String table，String whereClause，String[] whereArgs)“的形式使用它。我的应用程序每行包含4列。我只需要删除特定行中的2列。我该怎么做呢？

浏览 0提问于2011-01-27得票数 0

回答已采纳

2回答

插入表的特定列

hadoop、hive、hiveql

根据，支持插入到Hive的特定列中。根据这个链接的语法是:插入到目标(colA，colB)从源选择colX，colY；但是，当我尝试在Hive中执行相同的操作时，我会得到以下错误：语义异常：“插入模式规范中的colA、colB不在default.target的常规列中，也没有动态分区。如何通过指定列列表在Hive中插入值？请帮帮忙。

浏览 2提问于2015-11-03得票数 3

回答已采纳

1回答

如何在Hive表中添加/编辑已分区列的注释？

hadoop、hive、partitioning

我有一个在'part_col‘列上有分区的Hive表，我想在这个列'part_col’中添加注释。我尝试了下面的ALTER语句，但是它不工作，并抛出错误， ALTER TABLE comment_test PARTITION (part_col) RENAME TO PARTITION (part_col string COMMENT 'new_comment'); 还有其他方法来添加或修改Hive表列的分区吗？

浏览 0提问于2019-09-10得票数 2

回答已采纳

3回答

如何轻松地将RDBMS数据导入配置单元分区表

hive、sqoop

我的RDBMS中有表。现在，我选择了该表的第3列作为我的HIVE表的分区列。现在，我如何轻松地将我的RDBMS表的数据导入HIVE表(考虑分区列)？

浏览 0提问于2015-03-13得票数 0

1回答

创建单元格分区表之前应遵循的规则

hadoop、hive

作为我需求的一部分，我必须创建一个新的Hive表并以编程方式插入它。为此，我有以下DDL来创建一个Hive表： CREATE EXTERNAL TABLE IF NOT EXISTS countData ( tableName String, ssn String, hiveCount String, sapCount String, countDifference String, percentDifference String, sap_UpdTms String, hive_UpdTms String) COMMENT &#

浏览 0提问于2018-03-27得票数 2

回答已采纳

1回答

从蜂巢查询中深入复制筛选过的PySpark数据

python、apache-spark、pyspark

我从一个Hive表中获取一些数据，并插入到一个dataframe上： df = sqlContext.table('mydb.mytable') 我正在过滤一些无用的值： df = df[df.myfield != "BADVALUE"] 出于代码设计的原因，我希望在数据框架上这样做，而不是作为select查询。我注意到，即使在筛选数据后，似乎以后每次对df操作时都会执行来自Hive的查询和加载操作： df.groupBy('myfield').mean() 这需要很长时间，就像我没有过滤数据帧一样。是否有办法对其进行深度复制以提高性能和减少内存

浏览 1提问于2016-05-19得票数 4

回答已采纳

16回答

类似SQL的配置单元插入查询

sql、hadoop、hive、hiveql

我是hive的新手，想知道是否有像我们在SQL中那样插入数据到Hive表中的方法。我想将我的数据插入到配置单元中，如下所示 INSERT INTO tablename VALUES (value1,value2..) 我读到您可以将数据从文件加载到hive表，或者您可以将数据从一个表导入到hive表，但是有没有像SQL中那样追加数据的方法？

浏览 3提问于2013-07-02得票数 65

回答已采纳

1回答

在postgresql中，主键列需要自动递增

postgresql

我在postgresql中创建了一个表： create table retail_fact( id serial not null, name text); 我有客户表在hive和MySQL中，我想从他们加载数据到PostgreSQL retail_fact表使用Pentaho pdi (通过presto连接)。另外，当我用Hive和MySQL中的数据加载表时，o希望id在Postgres中自动递增(用更简单的术语。我需要一个sql查询来做同样的事情)。查询类似于以下内容： insert into postgresql.rpt.order_fact( select name from h

浏览 0提问于2017-11-17得票数 1

1回答

如何将ORC文件中的列名映射到配置单元表列？

hadoop、hive、orc

在使用ORC文件格式的Hive中，是否有一种方法可以独立于列顺序将列名映射到Hive表中的列？ orc文件的示例模式： <code>A0</code> 所需的配置单元表列顺序： <code>A1</code> 但是，当我按照所需的列顺序创建表时，数据不能正确排列。配置单元基于列顺序而不是列名获取数据。这在拼接格式中工作得很好，在这种格式中，Hive能够根据列名选取正确的顺序。任何解决这一问题的建议都将受到高度赞赏。我没有更改orc文件模式的选项，因为它是由外部进程创建的。也不想创建任何中间临时表和插入覆盖选项。 <code>A2&l

浏览 90提问于2020-06-14得票数 1

1回答

将蜂巢表迁移到Google BigQuery

hadoop、hive、google-bigquery、google-cloud-platform

我正在设计一种数据管道，以便将我的Hive表迁移到BigQuery中。Hive运行在前提集群上的Hadoop上。这是我目前的设计，其实很简单，只是一个shell脚本：对于每个表source_hive_table { 插入覆盖表target_avro_hive_table SELECT * FROM source_hive_table; 使用distcp将生成的avro文件移动到google云存储中创建第一个烧烤表：bq load --source_format=AVRO your_dataset.something something.avro 处理BigQuery本身的任

浏览 6提问于2017-10-26得票数 4

2回答

如何删除hive列？

hadoop、hive

我在配置单元表中有两个列Id和Name，我想删除Name列。我使用了以下命令： ALTER TABLE TableName REPLACE COLUMNS(id string); 结果是将Name列值分配给了Id列。如何删除表中的特定列，在Hive中是否有其他命令可以实现我的目标？

浏览 1提问于2016-11-01得票数 0

1回答

弹性映射将JSON导出为DynamoDB错误AttributeValue可能不包含空字符串

hadoop、hive、amazon-dynamodb、amazon-emr

我试图使用EMR作业从S3中包含稀疏字段(例如ios_os字段和android_os )的JSON文件中导入数据，但只有一个包含数据。有时数据为null，有时是空字符串，当试图插入到DynamoDB时，我会得到一个错误(尽管我能够插入一些填充很少的记录)： "AttributeValue可能不包含空字符串“{"created_at_timestamp":1358122714，.，”数据“：null，"type":"e"，"android_network_carrier":""} 我过滤掉了包含空字符

浏览 0提问于2013-01-16得票数 0

1回答

理解蜂巢中的分区

hive

我试着学习蜂巢，当我参考Hadoop权威指南时，我有些困惑。根据文本，Hive中的分区是通过创建分区列相同值的子目录来完成的。但是，正如在Hive中，数据加载仅仅意味着文件的复制，在加载过程中不执行数据验证检查，但仅在查询期间，Hive也会检查数据以进行分区。或者它如何确定哪个文件应该转到哪个目录？

浏览 5提问于2016-08-06得票数 0

回答已采纳

1回答

如何检查蜂巢CLI中的设置？

hadoop、hive、hiveql

我想在hive命令中运行一个单元查询，并且我想使它更快，所以我运行了： hive:messages> set mapred.job.priority = VERY_HIGH; hive:messages> set hi = 1; 但是我发现实际上我可以将任何字符串设置为蜂巢中的任何东西，所以我想知道有什么方法可以检查我所做的所有设置吗？

浏览 7提问于2017-02-15得票数 6

2回答

单元中支持的字段(列)的最大数量是多少？

hadoop、hive

我尝试使用复杂数据structure.But创建具有>1000个字段(列)的hive表，结果出现了以下错误。执行错误，从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1。MetaException(message:javax.jdo.JDODataStoreException:添加请求失败:插入"COLUMNS_V2“("CD_ID”、“注释”、"COLUMN_NAME“、"TYPE_NAME”、"INTEGER_IDX")值(？、？)NestedThrowables: java.sql.Batch

浏览 1提问于2015-02-03得票数 0

1回答

如何检索数据库的所有表列

java、sql、hadoop、hive、metastore

我想在Hive中编写与此sql请求相当的内容： select * from information_schema.columns where table_schema='database_name' 如何访问hive的亚稳态并检索存储在特定数据库中的所有表的所有列？我知道我们可以通过describe table_name通过表来完成这一任务，但是在同一个请求中是否存在数据库中所有表的所有列？

浏览 2提问于2015-03-24得票数 7

1回答

在hive表中实现代理键

hadoop、hive

我们可以为hive表实现代理键和唯一索引吗？我想自动递增hive表中我的一列的值。并使另一列成为不允许重复插入到hive表中的唯一键。

浏览 0提问于2015-11-23得票数 0

2回答

如何在蜂窝表中插入具有映射列的数据帧

apache-spark、hadoop、hive、apache-spark-sql、complextype

我有一个包含多个列的dataframe，其中一个列是map(string，string)类型。我能够打印这个数据，有列作为地图，给数据地图(“双关”-> "Pune")。我想要将这个dataframe写到hive表(存储为avro)，该表具有与map类型相同的列。 Df.withcolumn("cname", lit("Pune")) withcolumn("city_code_name", map(lit("PUN"), col("cname")) Df.show(false) //tab

浏览 4提问于2020-02-27得票数 0

2回答

如何在配置单元中插入uniontype

insert、hive

我读过一个关于hive中联合类型的著名示例。 CREATE TABLE union_test(foo UNIONTYPE<int, double, array<string>, struct<a:int,b:string>>); SELECT foo FROM union_test; {0:1} {1:2.0} {2:["three","four"]} {3:{"a":5,"b":"five"}} {2:["six","seven"]} {3:{

浏览 0提问于2016-12-05得票数 0

3回答

如何在单元格中字符串数据类型以外的列中插入空值而不是空值

hadoop、hive、null

我有一个create语句创建表temp_tbl (EmpId字符串，工资int)；我想在表中插入一个雇员id和一个空白值。所以我所做的就是插入覆盖表temp_tbl，选择'013‘作为EmpId，'’作为工资从tbl； hive>选择*从temp_tbl；OK 013 NULL 但预期结果是 hive> select * from temp_tbl; OK 013 NULL ---> Blank instead of NULL 也试过用"“。不过，我还是把它当作空而不是空。 3.尝试创建具有序列化

浏览 0提问于2019-03-18得票数 1

2回答

将数据加载到HDFS/Hive之前的模式验证/验证

hadoop、hive、hadoop2、sqoop

我是Hadoop生态系统的新手，在将大量数据加载到hdfs之前，我需要Bigdata专家提供一些关于实现模式验证/验证的建议。设想如下：我有一个具有给定模式的巨大数据集(其中大约有200个列头)。这个数据集将存储在Hive表/HDFS中。在将数据加载到hive表/ hdfs之前，我希望对所提供的数据执行模式级验证/验证，以便在将数据加载到hdfs中时避免任何不必要的错误/异常。就像有人试图传递一个数据文件，其中包含的列数不多，然后在第一级验证时，加载失败。实现这一目标的最佳办法是什么？你好，Bhupesh

浏览 2提问于2015-11-10得票数 0

1回答

在配置单元中创建当前时间戳为纳秒的新列

sql、hadoop、hive、hiveql、unix-timestamp

我想在Hive表中创建一个列，当前时间戳以纳秒为单位。如何在插入数据时执行此操作？

浏览 5提问于2017-12-18得票数 1

1回答

合并列，并在dataframe中不删除任何列

r、concat

这似乎是对这些的复制，但找不到一个不涉及删除列、连接、然后将它们重新插入数据帧的解决方案(这是我仅设法产生的一种冗长的方式)。我希望删除"dht_t“列，并将其非NA或”无“行与"int_t”合并。这些dht列包含与int_t相同的数据，但时间戳不同。我想把这些行组合起来。 dht_t/h来自与int_t/h相同的传感器，但是对于某些数据集，dht_t/h被放置在额外的行中。 head(july11) time hive_id int_t int_h dht_t dht_h hz db pa 1 2015-07-1

浏览 0提问于2015-07-15得票数 1

回答已采纳

2回答

使用java应用程序插入蜂窝

java、hadoop、hive

我正在尝试插入行到配置单元使用JavaApplication.Hive cli正常工作，并能够创建，插入，删除表格。我的代码是这样的： import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import java.sql.Statement; import java.sql.DriverManager; import org.apache.hive.jdbc.HiveDriver;; public class Hive

浏览 0提问于2016-10-27得票数 0

1回答

黑斑羚插入与蜂巢插入

hive、insert、parquet、partitioning、impala

当我尝试使用Hive命令将整型值插入到parquet表中的列中时，值将不会得到insert，并显示为null。但是当使用黑斑羚命令的时候，它就起作用了。但随着黑斑羚的插入，分区尺寸减小了。此外，分区中的行数(显示分区)显示为-1。原因是什么？ CREATE TABLE `TEST.LOGS`( `recordtype` string, `recordstatus` string, `recordnumber` string, `starttime` string, `endtime` string, `acctsessionid` string, `su

浏览 9提问于2022-02-21得票数 0

1回答

进程脚本由于堆空间问题而失败，无法处理太多的分区

hive、hiveql、hadoop2、hadoop-partitioning

我的脚本由于堆空间问题而失败，无法处理太多的分区。为了避免这个问题，我尝试将所有分区插入到一个分区中，但我面临以下错误失败: SemanticException错误10044:第1:23行不能插入目标表，因为列号/类型不同：‘’2021-01-16‘：table ins子句-0有78列，但查询有79列。 set hive.exec.dynamic.partition=true; set mapreduce.reduce.memory.mb=6144; set mapreduce.reduce.java.opts=-Xmx5g; set hive.exec.dy

浏览 6提问于2021-01-19得票数 1

回答已采纳

1回答

如何选择分区为HIVE_DEFAULT_PARTITION的行？

mapreduce、hive、impala

如果我们使用动态分区，hive会将坏列或记录插入到HIVE_DEFAULT_PARTITION中。我的问题是如何在HIVE_DEFAULT_PARTITION中选择记录？类似这样的东西，但这不会起作用。 select * from my_table where useDay=HIVE_DEFAULT_PARTITION 谢谢!

浏览 0提问于2015-03-27得票数 1

2回答

将JSON插入Hadoop

json、apache-spark、hadoop、hive、bigdata

我每天都有很多数据(JSON字符串)(大约150-200B)。我想将JSON插入到Hadoop中，最好的方法是什么(我需要快速插入和快速查询JSON字段)？我是否需要使用hive并为我的JSON创建Avro方案？或者，我是否需要将JSON作为字符串插入到特定列中？

浏览 0提问于2018-06-19得票数 0

2回答

配置单元: GROUP BY的行为与在MySQL中不同

database、group-by、hive

我有一些使用MySQL的经验，最近我不得不做一些关于HIVE的工作。这两个查询的基本结构非常相似，但HIVE中的GROUP BY似乎有一点不同……因此，我无法实现以前使用GROUP BY在MySQL中实现的功能。下面是我的问题，假设我有一个包含A、B、C列的表，我想选择具有max的行。B列值按A列分组。我将执行以下操作： SELECT A, max(B) FROM myTable GROUP BY A 上面的代码可以在HIVE中运行，没有问题。但是，如果我还想查看列C中的值，它与max在同一行中，该怎么办？B值？在MySQL中，我可以这样做： SELECT A, max(B), C FRO

浏览 0提问于2012-05-25得票数 2

回答已采纳

1回答

如何在innodb表中添加外键约束，而不对列进行索引？

mysql、phpmyadmin

我读了一些关于表索引的建议，我发现当sql查询运行缓慢时，应该稍后引入索引。我的问题是我几乎所有的列都索引在一个表中。此表被绑定到其他表，例如，用户表列country被绑定到country表 user table country table id id countryId name 我在countryId列中添加了一个索引，这样我就可以将它链接到country表的id，因为当我没有该列上的索引时，我不能创建外键约束。基本上，我有许多列链接到其他表，只是为了给我的列添加约束。例如，country表不超过100，所以如果

浏览 1提问于2012-05-16得票数 0

回答已采纳

1回答

如何在表格中以日期格式添加日期列，如dd:mm:yy NOT as String

hiveql

我必须在显示加载数据日期的hive表中插入一个新列。这可以是dd:mm:yy格式或yy:mm:dd格式。我不想要默认字符串。

浏览 14提问于2019-02-15得票数 0

1回答

使用spark将数据插入配置单元表的问题

apache-spark、hive、pyspark、apache-spark-sql

目前我正在开发Spark版本2.1.0，作为我的数据摄取工作的一部分，我必须使用ingest方法将数据摄取到hive表中。但是Spark 2.1版本有一个bug，当插入数据到hive表中时，insertinto方法不会保持列顺序。我已经尝试在append模式下使用saveAsTable方法，但它不会起作用，因为在数据摄取之前，我首先使用正确的数据类型手动创建表。我尝试从现有的hive表中创建spark数据帧，并尝试从其中获取列序列，并传递此列表结果以确保列序列，但每次都在hive表的顶部创建数据帧以获取列序列。每次加载hive表来创建数据帧都会占用内存吗？有没有人知道，如何用更好的方法

浏览 15提问于2019-02-26得票数 0

3回答

加载到Hive表中，只将整个数据导入第一列。

sql、database、hadoop、hive

我正在尝试将Hive数据从一台服务器复制到另一台服务器。这样，我将从server1导出到蜂窝数据到CSV中，并试图将该CSV文件导入到server2中的hive中。我的表包含以下数据类型：比金字符串数组这是我的命令：出口： hive -e 'select * from sample' > /home/hadoop/sample.csv 导入： load data local inpath '/home/hadoop/sample.csv' into table sample; 导入到Hive表后，整个行数据只插入到第一列中。我如何克服这个问题

浏览 0提问于2018-04-24得票数 0

2回答

从rdbms表将数据插入错误的单元列中的sqoop

hadoop、hive、sqoop

我在Server中有一个名为“employee”的表： ID NAME ADDRESS DESIGNATION 1 Jack XXX Clerk 2 John YYY Engineer 我在hive中创建了一个外部表(emp)，通过sqoop导入，我使用sqoop的--query参数将数据从employee导入到hive表。如果我提到--查询为'select * from employee‘，那么数据被插入到蜂窝表correctly.But中，如果我提到--查询为'select ID,NAME,DESIGNATION’

浏览 4提问于2016-02-04得票数 0

回答已采纳

2回答

如何在通过DataFrame查询计数查询时获得整数值？

python、hive、pyspark、pyspark-sql、hivecontext

我编写这段代码是为了获取指定表中count的整数值： sc = SparkContext("local", "spar") hive_context = HiveContext(sc) hive_context.sql("use zs_trainings_trainings_db") df = hive_context.sql("select count(*) from ldg_sales")

浏览 5提问于2017-05-04得票数 1

回答已采纳

2回答

忽略无火花配置属性: hive.exec.dynamic.partition.mode

apache-spark、spark-shell

如何使用hive.exec.dynamic.partition.mode=nonstrict运行星空我尝试(以的身份) export SPARK_MAJOR_VERSION=2; spark-shell --conf "hive.exec.dynamic.partition.mode=nonstrict" --properties-file /opt/_myPath_/sparkShell.conf' 但警告“忽略无火花配置属性: hive.exec.dynamic.partition.mode=nonstrict” PS:使用Spark版本2.2.0.2.6

浏览 2提问于2019-10-30得票数 11

1回答

ValidationFailureSemanticException:分区规范包含非分区列

apache-spark、hive、apache-spark-sql、hiveql

我正在尝试一个简单的用例，将其插入到S3上的单元格分区表中。我正在齐柏林飞艇笔记本上运行我的代码，下面是我的代码以及命令输出的截图。我检查了hive表和dataframe的模式，列名没有大小写差异。我得到了下面提到的例外。 import org.apache.spark.sql.hive.HiveContext import sqlContext.implicits._ System.setProperty("hive.metastore.uris","thrift://datalake-hive-server2.com:9083") val hiveCont

浏览 2提问于2020-10-07得票数 2

回答已采纳

1回答

从Hive表中提取XML数据并对数据进行分析

mysql、xml、hadoop、hive

我想从hive表中提取特定的列值。该列有XML数据。如何通过XML数据进行解析，并从该特定XML列中提取名称和值。另外，我希望将提取的数据插入到另一个Hive表中。

浏览 5提问于2016-06-14得票数 1

1回答

DB2加密后的蜂窝解密

encryption、hive、db2

select hex(encrypt('column', 'key')) from table select aes_decrypt(unhex('column'), 'key') from Hive 我正在将通过sql语句获得的数据集插入hive中，并试图解密hive中的加密列，但返回的值为空。你需要做些什么来解决这个问题？

浏览 2提问于2022-07-12得票数 0

1回答

在Hive表中查找是否存在记录

hive

我想在hive表中插入一个记录，但是在插入它之前，我想检查该记录是否已经存在于表中。那种情况下，我不会插入记录，而宁愿跳过它。我使用的是Hive 1.1.0.的蜂巢版本表结构： hk | diagnosisid | id | cdcode ----------------------------------------------------------- EXVWLOORV@#19690321F | 1 | 7810 | I9C OHQQDUG@#19380630F | 1

浏览 0提问于2018-05-09得票数 0

回答已采纳

1回答

将数据插入到单元格中的分区表时出错

sql、hadoop、hive、hiveql、hive-partitions

当我试图将数据插入到hive中的分区表时，我看到了一个错误，下面是详细信息：表： CREATE　TABLE partitionedemp(emp_no int, birth_date string, first_name string, last_name string) Partitioned By(gender string, hire_date string) stored as sequencefile; 数据如下：插入脚本： insert into table partitionedemp partition(gender, hire_date) select emp_no

浏览 2提问于2016-07-01得票数 1

1回答

如何在Spark中将每个列重新分区为固定数量的分区？

apache-spark、hive、apache-spark-sql

我需要从一个hive表中读取数据并将其插入到另一个Hive表中。这两个表的模式是相同的。该表按日期和国家进行分区。每个分区的大小约为500MB。我想将这些数据插入到一个新的表中，其中每个分区中的文件大约为128MB(即4个文件) 步骤1:从Spark中的源表中读取数据。步骤2:按列(country，date)重新分区，并将分区数设为4。 df.repartition(4, col("country_code"), col("record_date")) 我在每个country_code & record_date上只有一个分区。

浏览 42提问于2021-11-09得票数 0

2回答

蜂巢图减少工作澄清--关于列的选择

hadoop、mapreduce、hive

在Hive语句上映射减少作业当我在蜂巢中查询以下状态时 hive> SELECT * FROM USERS LIMIT 100; 它没有启动地图减少作业，因为我们从表中选择了所有的东西，并且限制了它返回的记录的数量但是当我做下面的事情 hive> select age,occupation from users limit 100; 实际上是在启动一个地图减少作业? 这是否意味着，应用列级投影需要映射减少作业？虽然我还没有在上面涂上任何过滤器。

浏览 2提问于2014-09-29得票数 0

2回答

配置单元表数据管理

hive

我有一张蜂巢桌子。如果我有一个要求，数据将每天进入Hive表。如果传入的数据是新记录(插入)，则应将该记录插入配置单元表中，或者如果传入的数据已存在于配置单元中(更新)，则应更新该记录。有人能解释一下这是如何在Hive中实现的吗？我在网上查的时候发现了这篇文章。

浏览 2提问于2016-07-31得票数 1

1回答

如何反序列化Hive中的ProtoBuf序列化HBase列？

hive、hbase、protocol-buffers、hive-serde、protobuf-java

我使用ProtoBuf来序列化类并将其存储在HBase列中。为了简单的聚合，我想减少Map减少作业的数量，所以我需要SQL工具来查询数据。如果我使用Hive，是否可以扩展HBaseStorageHandler并为每个表编写我们自己的Serde？或者任何其他好的解决方案都是可用的。更新：我将HBase表创建为创建“蜂巢:用户”，“我” 以及从java api插入的用户数据， public static final byte[] INFO_FAMILY = Bytes.toBytes("i"); private static final byte[] USER_CO

浏览 0提问于2018-03-17得票数 0

回答已采纳

2回答

如何在Hive表中插入时间戳？

hive

我有以下几点： hive> CREATE TABLE foo (bar timestamp) STORED AS ORC; OK Time taken: 0.041 seconds hive> INSERT INTO TABLE foo VALUES ('2014-01-17 00:17:13'); NoViableAltException(26@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_SelectClauseParser.selectClause(HiveParser_SelectCla

浏览 4提问于2014-10-22得票数 2

回答已采纳