我有一个简单的spark作业,它从文件中拆分单词并加载到hive中的表中。
public static void wordCountJava7() {
// Define a configuration to use to interact with Spark
SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("Work Count App");
SparkContext sc = new SparkContext(conf);
// Crea
我正在运行几个脚本,并且一直收到相同的错误。它们都是多个表,具有相同的条件。
数据以拼花的形式存储。
蜂巢版本1.2.1 / MR
SELECT count(*)
FROM xxx.tmp_usr_1 m
INNER JOIN xxx.tmp_usr n
ON m.date_id = n.date_id AND m.end_user_id = n.end_user_id
LEFT JOIN xxx.usr_2 p
ON m.date_id = p.date_id AND m.end_user_id = p.end_user_id;
以下是错误消息:
2017-01-22 16:47:5
我正在尝试开发一个通用的实现来使用Spark来支持从各种符合JDBC的数据库(如PostgreSQL、MySQL、Hive等)读取/写入数据。
我的代码如下所示。
val conf = new SparkConf().setAppName("Spark Hive JDBC").setMaster("local[*]")
val sc = new SparkContext(conf)
val spark = SparkSession
.builder()
.appName("Spark Hive JDBC Example")
.ge
我在配置单元中遇到了配置单元默认分区(空分区)的问题。我将在这里简要地解释一下情况。我有一个蜂窝主表,数据摄取每天都会发生在这个表上。但不知何故,当数据被摄取到hive表中时,出现了一些错误,分区显示为_hive_default_partition_,或者在我的理解中是null分区。
我需要从hive表中删除分区。(它是外部表)...
我正在使用hive版本1.1和CDH版本5.4.8..
我尝试了下面的语法,但它对我不起作用。
alter table "tablename" drop partition(partn='_hive_default_partition_)
我目前正在使用Cloudera 5.6尝试在hive表中创建一个基于另一个表的拼接格式表,但我遇到了一个错误。
create table sfdc_opportunities_sandbox_parquet like
sfdc_opportunities_sandbox STORED AS PARQUET
错误消息
Parquet does not support date. See HIVE-6384
我读到hive 1.2已经修复了这个问题,但是Cloudera 5.6和5.7没有提供hive 1.2。有没有人找到解决这个问题的方法?
我有一个火花作业(Scala),它将时间序列数据写入Hadoop,在Hadoop上有一个Hive中的外部表。
表由多个列划分,其中一个列(circle)的值中有空格(如"Punjab and Rajasthan")。
当我试着做的时候
sparksession.sql("""
alter table table_name
drop if exists partition(creation_time < latestcreationtime)
"""
)
我得到一个非法字符例外的蜂巢亚稳态,堆栈跟踪是附加的。我在蜂箱CLI中
我昨天刚开始学习蜂巢,我被困在改变蜂巢专栏的类型上了。我想问的是,列类型的更改是否有某种限制,因为我只能进行特定类型的更改,例如可以将int转换为double、string改为double、double to string,但不能将string更改为int、double to int。
ALTER TABLE student CHANGE rollno rollno int;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Unable to alter table. The
你能告诉我如何为下面的dml创建数据吗?
create external table doc_sample(id int,topic array<struct<course:string,score:array<struct<sem:string,marks:int>>>>)
ROW FORMAT delimited
FIELDS TERMINATED BY '|'
COLLECTION ITEMS TERMINATED BY ','
map keys terminated by ':'
STORE
尝试使用色调查询数据时,我不断收到此错误:执行错误,从org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce返回代码2
从syslog选项卡下的hue job browser
错误日志太大,无法粘贴到此处
来自终端的错误
hive> SELECT count(*) FROM tweets;
Query ID = cloudera_20161128145151_137efb02-413b-4457-b21d-084101b77091
Total jobs = 1
Launching Job 1 out of 1
Number of re