无法通过Spark 1.6从拼接蜂窝表中读取数据

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试从以拼图格式存储的配置单元表中读取数据。我使用的是MapR发行版。读取数据后，当我尝试执行任何操作时，例如df.show(3)，它抛出java.lang.ArrayIndexOutOfBoundsException: 7。如果表存储被更改为ORC，那么它就可以工作。此外，我还尝试从共享集群中的表中读取数据。因此，我不能更改源表

浏览 16提问于2019-02-15得票数 0

1回答

Spark dataset获取与整型列标题相同的数据

、、、

我正在尝试通过java中的spark读取hive表，通过创建spark数据集。对于所有具有字符串标题的列，都可以正确读取数据，但是对于整数标题，spark会获取与标题相同的列数据。该表是在拼图文件上创建的外部表。我的蜂窝表： CREATE EXTERNAL TABLE `myTable`(`tester` in

浏览 19提问于2019-11-15得票数 0

1回答

单元数据库文件没有分隔符

、

我正在尝试读取一个由HIVE表创建的HDFS文件。该文件为文本格式。当我打开文件时，我惊讶地发现这些行没有任何字段分隔符。蜂巢可以读取文件..。但非常缓慢。因此，我想使用火花作业阅读内容。其中一些字段是URL，因此很难将其读取为固定宽度的文件类型。

浏览 1提问于2016-02-26得票数 1

回答已采纳

4回答

如何在星火中创建空dataFrame

、、、、

我有一套基于Avro的蜂窝表，我需要从它们中读取数据。由于Spark使用hive从HDFS读取数据，因此它比直接读取HDFS慢得多。因此，我使用数据砖Spark从底层HDFS dir读取Avro文件。一切正常，除非桌子是空的。我已经成功地使用以下命令从hive表的.avsc文件中获得了模式，

浏览 5提问于2018-05-30得票数 4

1回答

使用Azure数据工厂生成的拼图-无法在配置单元中创建表

、、、

从Azure Data Factory生成拼图文件(复制活动-从Azure SQL复制到数据湖中的拼图)。当我尝试从蜂窝中读取相同的拼图时，它给出了错误，因为org.apache.parquet.io.ParquetDecodingException:无法读取块中0的值。如果你使用Spark生成拼图，那么你可以设置Spark.sql.parquet.writeLe

浏览 0提问于2021-07-02得票数 0

1回答

在物理计划中执行交换和排序步骤的配置单元存储桶表

、、、

我有两个表，它们都聚集在相同的列上，但是在连接聚集列上的两个表时，执行计划同时显示了交换和排序步骤。我希望在我的计划中避免排序和交换步骤，并且根据文档，存储桶的表应该避免排序和交换步骤。我甚至尝试了下面的hive属性： spark.sql('set spark.sql.orc.filter

浏览 1提问于2019-06-12得票数 1

3回答

如何在hive或impala中计算表统计数据，以加快Spark中的查询？

、、、

为了提高性能(例如对于联接)，建议首先计算表静力学。(从蜂窝表中读取)是否也从预先计算的统计数据中受益？他们都在保存蜂巢亚稳态的统计数据吗？我在Cloudera 5.5.4上使用spark 1.6.1 注意:在参数的Spark1.6.1( spark.sql.autoBroadcastJoinThreshold )文档中，我找到了一个提示：请注意

浏览 6提问于2016-09-22得票数 11

2回答

星星之火:无法读取蜂窝表中的数据

、、、、

>我的班级正在读取蜂窝表中的数据：import org.apache.spark.SparkConf从一个表格读取数据在蜂窝元数据，但面临一个非常奇怪的问题。我有以下两个问题：问题1.如果我使用&l

浏览 5提问于2017-02-20得票数 1

回答已采纳

1回答

在不更改列名的情况下创建PySpark数据框

、、、

我使用下面的CTAS命令使用SparkSQL创建表。FROM TBL1 在那之后，我正在使用下面的PySpark代码读取新创建的位置(TBL2)下面的文件。但是，下面的data frame仅使用lowercase中的所有列名创建。而预期的结果是在camel case中，就像我在上面对CTAS所做的那样。df = spark.read.format('ORC') \ .option(&

浏览 12提问于2019-12-23得票数 1

回答已采纳

1回答

在Parquet分区目录结构中读取不同的Schema

、、

我在hdfs上使用spark编写了以下分区拼接数据： |---Month |----Day|---dailydata.parquet 现在，当我从year path读取df时，spark读取dailydata.parquet。如何从所有分区中读取每月数据。我尝试使用设置选项mergeSchema = true，但出

浏览 4提问于2017-03-30得票数 0

3回答

Spark是否支持对拼图文件进行分区修剪

、、、

我正在处理一个大型数据集，该数据集由两列组成-- plant_name和tag_id。第二个tag_id - tag_id有200000个唯一值，我主要通过特定的partition值访问数据。如果我使用以下Spark命令：sqlContext.setConf在蜂巢和Presto中，这需要几

浏览 2提问于2016-05-12得票数 19

1回答

读取配置单元托管表时，Spark* sql返回空dataframe*

、、、

使用HDP 3.1中的Spark 2.4和Hive 3.1.0，我试图使用spark sql从hive读取托管表，但它返回一个空的dataframe，而它可以轻松地读取外部表。如何通过spark sql从hive读取托管表？注意:当从hive客户端读取时，hive maanged表不是空的。 1-我尝试<em

浏览 26提问于2019-09-25得票数 1

1回答

在星火scala中将dataframe转换为单元表

、、、、

我正试图将一个dataframe转换为星火Scala中的hive表。我从XML文件中读取数据。它使用SQL上下文来做到这一点。我想把这个数据转换成一个蜂窝表。我得到了这个错误： “警告HiveContext$$anon$1:无法以与Hive兼容的方式持久化database_1.test_table。以Spark特定格式将其保存到Hive转移中。”object spark<

浏览 4提问于2016-05-23得票数 3

回答已采纳

1回答

Apache Spark* Structured Streaming (DataStreamWriter)写入配置单元表*

、、

我希望使用火花结构流从卡夫卡读取数据，并处理它，并写入蜂窝表。val spark = SparkSession .appName("Kafka Test") .readStream .opti

浏览 5提问于2018-02-06得票数 1

3回答

Apache Spark在Java中读取和写入Apache Phoenix的方法

、、、、

谁能为我提供一些例子来读取一个DataFrame和数据集(在Spark2.0)从菲尼克斯(完整的表，也使用一个查询)和写一个DataFrame和数据集(在Spark2.0)到菲尼克斯，在Apache Spark中的java。在java中没有任何有文档记录的这些例子。如果可能的话，还提供了多种方式，比如可以使用PhoenixConfigurationUtil设置输入类和输入查询，然后从sparkCon

浏览 0提问于2016-10-30得票数 3

2回答

配置单元orc表的sqoop导出

、、

我有一个由pyspark dataframe_writer填充的orc格式的蜂窝表。我需要将这个表导出到oracle.我在导出表时遇到问题，因为sqoop无法解析orc文件格式。对于导出hive orc表，是否需要使用sqoop命令指定任何特殊的注意事项或参数。

浏览 0提问于2017-02-22得票数 0

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions importas F现在面临一个问题，当我试图将这个dataframe写成蜂窝表时 newdf.write.modedataframe读取<

浏览 0提问于2018-12-06得票数 2

回答已采纳

3回答

如何在spark中读取orc事务单元表？

、、、

如何在spark中读取orc事务单元表？('transactional'='true');hive> insert into default.hello values(10,'abc'

浏览 0提问于2018-05-09得票数 4

1回答

Apache安装和db_metastore

我是Spark的初学者。我安装了java和spark-1.6.1-bin-hadoop2.6.tgz(我还没有安装Hadoop)，并且没有更改conf目录中的任何配置，就运行了spark-shell。在安装spark的目录中，我看到创建了另一个metastore_db，其中包含临时文件夹。为什么要创建这个metastore_db，在哪里配置的？我还看到在运行spark-shell之后创建了sqlContext，这个sqlContext代表什么？

浏览 11提问于2016-08-25得票数 1

回答已采纳

1回答

对于ETL来说，使用ORC性能的Hive真的比Spark更好吗？

、、、、

蜂巢中的连接比火花更好/更快示例链接： 30查找

浏览 0提问于2017-08-09得票数 3

点击加载更多