Spark从hive表中检索多个特征值，并合并到一个二维数组中

、、

我有一个包含对象ID、特征ID和特征值的配置单元表，如下所示。我有一个特征id数组，我用它为每个对象id选择它们的值 ? val arrFeat=Array("Fea1","Feat2","Feat3","Feat4","Feat5") 下面我想把这个数据帧转换成一个二维数组，用于机器学习。内部的每个数组(行)表示单个对象ID的<

浏览 86提问于2021-07-27得票数 0

1回答

如果有在加载阶段拥有'maxRecordsPerFile‘的好方法，就会产生火花

、、

假设将150个分区中的5000个文件加载到我的spark应用程序中时，我希望将数据分解为15,000个分区，但我希望保留已存在的分区。当然，这方面有很多工作要做，但可能会有一些优雅的解决方案，比如Spark在保存阶段： preExportRdd.toDF .option("maxRecordsPerFile",maxCountInPartition

浏览 48提问于2020-03-25得票数 1

2回答

Apache不使用来自Hive分区外部表的分区信息

、、

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的Hive外部表的分

浏览 0提问于2019-08-24得票数 3

1回答

Hadoop 3中的星火和蜂巢: metastore.catalog.default和spark.sql.catalogImplementation的区别

、、、、

我正在使用Hadoop 3开发Hadoop集群(HDP)，还安装了Spark和Hive。由于星火目录和Hive目录是分开的，所以知道如何在Spark应用程序中保存数据，以及在何处保存数据，有时会有些混乱。Hive和表分离)。当我将它设置为hive时，我可以看到我的Hive表，但是由于这些表存储在HDFS的/warehouse/tablespace/managed/hiv

浏览 4提问于2020-01-24得票数 9

回答已采纳

1回答

Spark SQL如何查询Array[Struct]中结构字段的子集？

、、

我在Hive中有一个表，它有一个模式： root |-- enddate: string (nullable = true|-- .......: string (nullable = true) |

浏览 32提问于2019-09-28得票数 0

2回答

Hive和Spark的执行差异

、、

我尝试安装Hadoop、Hive和Spark，看看它们的性能如何。我能够让Hadoop和Spark工作。我不能让蜂巢去工作。当我在Spark中运行查询，在它们通过优化器之后，似乎最大的好处是在最早的时候只从源中选择相关的表数据。因此，如果我在最终答案中只需要Table1.column(A，B，C)，但告诉系统在(Table1.A=Table2.B)上加入Table1 & Table2，它会立即将进位表减少到只有相关项…我不认为

浏览 44提问于2021-04-09得票数 0

回答已采纳

1回答

如何从spark中检索配置单元视图的表名

、、

有一个hive表员工。在此employee表中，有一个视图employee_view 如何从spark中检索给定配置单元视图(employee_view)的表名(employee)？

浏览 13提问于2021-06-27得票数 0

3回答

对小文件不起作用的合并属性

、

我试图将数据插入创建大量小文件的动态分区表中，我在下面设置了单元格属性，但我仍然可以看到分区文件夹中的小文件，每个任务的大小或avgfile大小似乎都适合我，因为分区文件夹中的文件高于我给出的每个任务的大小任何帮助都将非常感谢hive.merge.mapfiles=true; hive合并mapredfiles = true hive.merge.size.per.task=10000; hive.merge.smallfiles.avgsize

浏览 3提问于2016-04-05得票数 3

回答已采纳

2回答

Uisng配置单元上下文，在本地系统metastore_db中本地创建配置单元表，而不是在集群上，放置我的配置单元-站点.xml的位置

、、、、

我已经创建了一个Spark上下文对象，并尝试从hadoop服务器(不在本地)上的文本文件中检索文本，并且我能够检索到它。当我尝试检索配置单元表(在独立的机器上，集群)时，我无法这样做，而当我创建一个配置单元表时，它是在metastore_db中本地创建的 ObjHiveContext.sql(“创建存储为orc的表yahoo_orc_tableserverIp:portNumber

浏览 0提问于2015-12-18得票数 0

2回答

配置单元“alter table <table name> concatenate”是如何工作的？

、、、

这是使用配置单元中的alter table table_name concatenate命令完成的。我想了解Hive是如何实现这一点的。如果需要的话，我希望使用Spark来实现这一点。

浏览 36提问于2017-01-24得票数 3

2回答

从多个拼图路径创建Spark* SQL表*

、、、、

我正在尝试创建一个表，如下所示 spark.sql(""" """ % target_table_name) create table if notexists {

浏览 37提问于2018-05-31得票数 1

1回答

S3和spark。S3上有多个蜂窝目标。对某些表使用s3:sse，对某些配置单元表不使用s3:sse。

、

我想编写一个spark应用程序，在其中我可以从多个hive表中读取数据，并向多个hive表中写入数据。然而，这里有一个奇怪的地方。我想我要问的问题如下。假设我正在从spark应用程序中的一个</em

浏览 2提问于2017-04-06得票数 0

1回答

无法将ApacheSpark-2.1.0与Hive-2.1.1亚稳态连接起来

、、、、

Spark和Hive各自工作都很好，但是当我试图将Spark的输出写到一个Hive表时，我会得到以下错误：附加注意:从这个中，我发现Apache支持

浏览 4提问于2017-04-20得票数 1

回答已采纳

3回答

我可以加入mysql的蜂巢吗？

、、

我可以连接mysql和hive (hdfs上的蜂窝)之间的表吗？有人告诉我它在mysql和甲骨文之间起作用。

浏览 3提问于2014-12-17得票数 0

回答已采纳

1回答

使用scala /spark创建单元视图

、、

如何以编程方式使用spark和scala在Hive中创建多个表视图？从位于单元中的表中创建一个视图。

浏览 0提问于2018-08-08得票数 1

1回答

如何从Apache Spark* on Analytics Engine读取和写入配置单元表*

、、

我想在Watson Studio中的Jupyter笔记本上使用Spark on analytics engine，以便能够读取和写入Hive表，但我不清楚如何通过读取Spark 来做到这一点。不清楚的原因是IBM Analytics Engine预配置了Spark，并且不提供root访问权限。我在网上找到了一些generic hadoop的帖子，描述了如何使用元存储位置创建hive.xml，但不清楚如何将其转换到IBM Analytics Engine环境中</

浏览 27提问于2018-06-02得票数 0

回答已采纳

1回答

蜂窝分区到火花分区

、

出于效率的原因，我们需要处理一个大的数据集。数据源驻留在Hive中，但具有不同的分区条件。换句话说，我们需要从蜂巢检索数据到火花，并在星火中重新分区。但是在Spark中有一个，当数据被持久化时，它会导致重新排序/重新分配分区(无论是对parquet还是ORC)。因此，我们在星火中的新分区丢失了。作为一种选择，我们正在考虑在一个新的Hive表中构建新的分区。问题是:是否可以从Hive

浏览 0提问于2018-07-30得票数 0

1回答

registerTempTable()不注册所有记录

、、、、

我尝试创建一个函数，从关系数据库中获取数据并将它们插入Hive表中。由于我使用Spark1.6，所以需要注册一个临时表，因为将数据直接写入Hive表不是sc = SparkContext(conf=spark_conf一个文件，在两个小时后创建因此，当我尝试在作业完成后从</e

浏览 6提问于2018-03-05得票数 0

1回答

从spark* sql的s3下载的字节数是hive sql的数倍*

、、

我在亚马逊网络服务s3上有一个配置单元表，其中包含144个csv格式的文件(每个文件20M)，总大小为3G；sql很简单，就像'select count(1) from #table#'；从

浏览 18提问于2018-08-23得票数 1

1回答

火花迭代/递归算法.打破火花谱系

、

我有一个递归火花算法，它将10天的滑动窗口应用于数据集。在每次迭代时，都会对包含10天窗口的数据集应用一组复杂的操作。然后将最后一个日期插入到原始的Hive表中，然后从Hive加载下一个日期，并将其合并到剩下的9天。spark.cre

浏览 0提问于2018-09-28得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如果有在加载阶段拥有'maxRecordsPerFile‘的好方法，就会产生火花

Apache不使用来自Hive分区外部表的分区信息

Hadoop 3中的星火和蜂巢: metastore.catalog.default和spark.sql.catalogImplementation的区别

Spark SQL如何查询Array[Struct]中结构字段的子集？

Hive和Spark的执行差异

如何从spark中检索配置单元视图的表名

对小文件不起作用的合并属性

Uisng配置单元上下文，在本地系统metastore_db中本地创建配置单元表，而不是在集群上，放置我的配置单元-站点.xml的位置

配置单元“alter table <table name> concatenate”是如何工作的？

从多个拼图路径创建Spark* SQL表*

S3和spark。S3上有多个蜂窝目标。对某些表使用s3:sse，对某些配置单元表不使用s3:sse。

无法将ApacheSpark-2.1.0与Hive-2.1.1亚稳态连接起来

我可以加入mysql的蜂巢吗？

使用scala /spark创建单元视图

如何从Apache Spark* on Analytics Engine读取和写入配置单元表*

蜂窝分区到火花分区

registerTempTable()不注册所有记录

从spark* sql的s3下载的字节数是hive sql的数倍*

火花迭代/递归算法.打破火花谱系

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐