Spark动态帧显示方法不会产生任何结果

、、

当我检查Glue Spark动态框架时，它会显示所有行的内容(使用.count())。但是，当对它执行.show()时，不会产生任何结果。 .printSchema()运行得很好。已尝试在使用.show()时记录错误，但未记录任何错误或未打印任何内容。使用.toDF和show方法将DynamicFrame转换为数据帧。我认为文件有一些问题，试图缩小到某些列。我猜普通的spark数据

浏览 25提问于2019-05-07得票数 10

2回答

在dataframe中注册临时表不工作

、、、

下面是我通过python在dataframe中使用sql的脚本：from pyspark.sqlheader='true', inferschema='true').load('file:///root/Downloads/data/flight201601short.csv') df.show(5)显示结果如下

浏览 1提问于2017-01-02得票数 1

回答已采纳

2回答

将该值重置为配置"spark.executor.instances“

我想在提交spark应用程序时使用spark的动态资源分配，但在spark-defaults.conf文件中，属性spark.executor.instances的值被设置为16。据我所知，如果我们想使用动态资源分配，我不应该设置spark.executor.instances。否则，即使启用了动态资源分配，它也会被属性spark.executor.instances覆盖。我不能编辑spark-defaults.co

浏览 319提问于2020-07-22得票数 1

回答已采纳

1回答

Spark数据帧缓存似乎不会对后续操作产生任何影响

、

当我使用Spark DataFrame执行操作时。缓存DataFrame后，执行该操作所需的时间与第二次执行该操作所需的时间几乎相同。必须使用DAG重新计算数据帧，缓存无效或处于非活动状态。有人能解决我的疑惑吗？非常感谢。

浏览 2提问于2018-09-08得票数 0

1回答

如何在AWS胶水作业中添加带有源名称的新列？

、、

args = getResolvedOptions(sys.argv, ['JOB_NAME']) glueContext = GlueContext(sc)job = Job(glueContext) datasource0 = glueContext.create_dynamic_frame.from_catalog

浏览 10提问于2019-08-16得票数 0

1回答

使用spark将数据插入配置单元表的问题

、、、

目前我正在开发Spark版本2.1.0，作为我的数据摄取工作的一部分，我必须使用ingest方法将数据摄取到hive表中。但是Spark 2.1版本有一个bug，当插入数据到hive表中时，insertinto方法不会保持列顺序。我已经尝试在append模式下使用saveAsTable方法，但它不会起作用，因为在数据摄取之前，我首先使用正确的数据类型手动创建表。我尝试从现有的hive表中创建spark数据帧，并尝试从其中获取列序列，并

浏览 15提问于2019-02-26得票数 0

1回答

在SparkR中将字符串转换为时间戳时对毫秒的处理

、、、、

在读取文件时推断模式，这会产生数据类型为chr。我知道它可以在没有毫秒的情况下工作，产生适当的数据类型和列。但是，我也需要毫秒，因此希望在现有的Spark数据帧中将数据类型更改为timestamp。以下是我测试过的方法：对我来说，它正确地转换了数据类型，但新列不包

浏览 2提问于2017-04-11得票数 2

1回答

无法读取UTF-16文件

、、、、

我正在尝试读取Spark数据帧中UTF-16编码的文件。然而，当我显示我的数据帧的结果时，我在我的结果集中得到了不需要的特殊字符。我尝试了以下方法-使用UTF-16BE： df = spark.read.format('text').option("encoding", 'UTF-16BE').option("charset",header', 'fal

浏览 49提问于2021-03-24得票数 1

回答已采纳

2回答

在PySpark中将标识符保留在exceptAll中

、

我很好奇是否有一种简单的方法可以在PySpark的exceptALL命令中保留标识ID。例如，假设我有两个数据帧(DF1，DF2)，它们都有一个ID列和另一个列“A”。

浏览 48提问于2020-01-16得票数 1

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

、、、、

为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示列标题。熊猫数据帧头我知道你可以通过使用.columns在scala dataframe中获得列标题，但是打印它不会</em

浏览 3提问于2018-06-13得票数 2

1回答

在另一个spark* PySpark查询中使用列*

、

我遇到这样一种情况:我试图查询一个表，并使用该查询的结果(dataframe)作为另一个查询的IN子句。从第一个查询中，我得到了下面的数据帧： +-----------------++-----------------+|10000000000007|| 10000000000010|+-----------------+ 现在，我想使用该数据帧的值动态</em

浏览 7提问于2020-01-08得票数 1

回答已采纳

2回答

Spark: DataFrame缓存/持久化是从一个传输到另一个吗？

、、

假设我有这样的代码(Spark 1.6.2)： val df = sqlContext.read.parquet(url)

浏览 25提问于2017-01-24得票数 1

回答已采纳

2回答

在设定频率后刷新缓存的Spark数据帧

、、

我正在开发一个SparkStreaming解决方案，在这个解决方案中，一个配置单元表被缓存为一个数据帧，然后流事件将与缓存的数据帧结合起来，以产生结果。有没有任何方法，比如说TTL或任何其他围绕缓存数据帧的机制，其中数据以特定的时间间隔自动刷新更新的Hive表记录。

浏览 0提问于2018-07-04得票数 0

3回答

大数据帧pyspark的show()子集

、、、、

我有一个很大的pyspark数据帧，我正在对它执行一些转换，并与其他数据帧连接。我想调查转换和连接是否成功，以及数据帧是否看起来像是预期的，但我如何显示数据帧的一小部分。我试过很多东西。我可以旋转一个非常大的集群，但是有没有一种方法可以快速地只获取数据帧的一小部分？

浏览 0提问于2019-11-20得票数 2

1回答

Scala左连接返回完全连接的结果

、、、

我尝试在spark shell中连接两个数据帧。其中一个数据帧有15000条记录，另一个数据帧有14000行。我尝试了这些数据帧的左外部连接和内部连接，但结果是有29000行的计数。这是怎么回事呢？, $"df1.BatchKey" === $"df2.BatchKey", "inner").select(($"df1.*"),col("df2.BatchKey").as("B2

浏览 6提问于2019-12-13得票数 0

1回答

Spark Scala:使用$的符号中的功能差异？

、、

对我来说，结果看起来是一样的，但很好奇是否有未知的未知。$符号表示什么/它是如何读取的？

浏览 126提问于2021-01-13得票数 2

回答已采纳

1回答

spark.default.parallelism等价于火花数据仓库

Dataframe有spark.sql.shuffle.partitions来控制重装分区(如果我正确理解的话，可以进行广泛的转换)，而"spark.default.parallelism“不会产生任何影响这是因为Spark模块包含以下默认配置: spark.sql.shuffle.partitions设置为200。下面的文章指出，spark.default.parallelism不适用于Dataframe。当用户不显式设置时，spa

浏览 6提问于2019-11-18得票数 2

回答已采纳

14回答

如何在Spark* Dataframe中显示完整的列内容？*

、、、

我正在使用spark-csv将数据加载到DataFrame中。我想做一个简单的查询并显示内容：|2015-11-16 07:21:...||2015-11-16 07:21:...|如何显示

浏览 2594提问于2015-11-17得票数 267

回答已采纳

1回答

Spark SQL分区感知查询hive表

、、、、

给定由some_field (整型)分区的Hive表，数据存储为Avro文件，我想使用Spark SQL查询表的方式，返回的数据帧必须已经由some_field分区(用于分区)。查询看起来就像默认情况下，Spark不会这样做，返回的data_frame.rdd.partitioner为None。获取结果的一种方法是在查询后显式重新分区，但可能还有更好的解决方案。谢谢。

浏览 0提问于2017-11-09得票数 3

2回答

PySpark将IntegerTypes转换为ByteType进行优化

、、、

我通过拼图文件将大量数据读入到数据帧中。我注意到大量的列都有1,0，-1作为值，因此可以从Int类型转换为Byte类型，以节省内存。我是Spark的新手，可能不完全理解ByteType的内部原理，那么我应该如何开始将这些列设置为Spark的？

浏览 3提问于2018-02-01得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在dataframe中注册临时表不工作

将该值重置为配置"spark.executor.instances“

Spark数据帧缓存似乎不会对后续操作产生任何影响

如何在AWS胶水作业中添加带有源名称的新列？

使用spark将数据插入配置单元表的问题

在SparkR中将字符串转换为时间戳时对毫秒的处理

无法读取UTF-16文件

在PySpark中将标识符保留在exceptAll中

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

在另一个spark* PySpark查询中使用列*

Spark: DataFrame缓存/持久化是从一个传输到另一个吗？

在设定频率后刷新缓存的Spark数据帧

大数据帧pyspark的show()子集

Scala左连接返回完全连接的结果

Spark Scala:使用$的符号中的功能差异？

spark.default.parallelism等价于火花数据仓库

如何在Spark* Dataframe中显示完整的列内容？*

Spark SQL分区感知查询hive表

PySpark将IntegerTypes转换为ByteType进行优化

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐