我遇到Pyspark错误:列不可迭代

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

当我尝试在spark中运行以下代码时，我得到了错误：下面是回溯： TypeError Traceback (most recent callm_wbb, m_wwbb' /opt/ibm/spark/python/pyspark

浏览 24提问于2020-04-02得票数 0

回答已采纳

1回答

get_json_obj _fails for SelectExpr()，但适用于火花中的选择

、、、

我面临着一个奇怪的问题，我试图显示我的JSON对象的值，它在select()中运行得很好，但是它不适用于selectExp()，我得到了一个奇怪的错误，在我的实现中，from pyspark.sql.functions import * sparkget_json_object(col

浏览 0提问于2020-07-09得票数 0

3回答

pyspark列不可迭代

、

当我尝试groupBy并获取最大值时，有了这个数据帧I正在获取列是不可迭代的：+---+-----++---+-----+ 68 print "linesWithSparkGDF" /usr/hdp/current/spark-client/python/pyspark

浏览 4提问于2016-04-29得票数 23

回答已采纳

1回答

PySpark:列不可迭代

、、、、

我有以下的火花数据：+---------------+-----------------+-----------+------+df = (df.filter("module_name = &

浏览 3提问于2022-09-06得票数 1

1回答

PySpark基于列的vlaue添加月份到日期字段

、、、、

我有一个带有日期列和整数列的dataframe，我想根据整数列将月份添加到date列中。我尝试了以下方法，但是我得到了一个错误：withColumn('future', f.add_months('cohort', col('period'))) 其中'cohort‘是我的date<em

浏览 2提问于2022-02-08得票数 0

回答已采纳

1回答

如何(动态)使用结构连接数组，以便从结构中获得数组中每个元素的值？

、、、、

我试图解析/扁平包含数组和结构的JSON数据。对于"data_array“列中的每个"Id”，我需要从"data_struct“列中获取"EstValue”。"尽我最大的努力使用一个动态连接，但得到错误“列是不可迭代的”。我们不能像在PySpark中那样使用动态连接条件吗？有什么更好的方法来实现这一点吗？PySpark代码： from <e

浏览 1提问于2022-10-18得票数 1

回答已采纳

1回答

从另一个导入的笔记本调用函数时出现的“列不可迭代”错误

、、

在notebook1中def add_ingest_date(input_df):final_df = add_ingest_date(input_df) 我得到“列不可迭代”错误。

浏览 2提问于2021-09-30得票数 0

回答已采纳

1回答

Pyspark和Python -列不可迭代。

、、

我使用Python-3和Azure数据砖。我想找到文本'vmedwifi/‘和列'BodyJson’的起始位置-所有的列都在同一个数据帧中。我的密码在下面。我得到了第二行代

浏览 1提问于2021-07-30得票数 0

回答已采纳

1回答

列在pySpark中不可迭代

、、、

orderBy(hashtags_24.created_at_int).rangeBetween(-3600, 3600)#sum_count_over_time = sum(hashtags_24.ht_count).over(hashtags_24_winspec)Column is notiterable File "/usr/hdp/current&#x

浏览 1提问于2017-03-13得票数 2

回答已采纳

1回答

如何将子字符串和instr结合使用

、、

我试图同时使用子字符串和instr函数来提取子字符串，但无法这样做。我试着使用pyspark本机函数和udf，但得到了一个错误，即“列不可迭代”。你能帮帮我吗from pyspark.sql.functions import UserDefinedFunction data = [

浏览 7提问于2019-12-08得票数 1

回答已采纳

1回答

如何迭代大型Pyspark Dataframe中列的不同值？.distinct().collect()引发大型任务警告

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码： spark = SparkSession.builder.appName('Basics').getOrCreatelength)], ['a', 'b', &

浏览 1提问于2020-01-14得票数 1

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。因此，对于第一次迭代：[][2,3]

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

修改PySpark DataFrame的Pandas代码

、、

我有下面的代码片段，用于创建一个图形。我想修改它以在PySpark中工作，但不知道如何继续。问题是我不能迭代PySpark中的一个列，并且我已经尝试将它变成一个函数，但没有成功。上下文: DataFrame有一个名为City的列，它只是作为字符串的城市名称

浏览 2提问于2016-12-12得票数 0

回答已采纳

1回答

迭代两个数据，比较和更改熊猫或火星雨中的值。

、、

我正试着在熊猫里做运动。Article Origin Colour Dress ItalyRed 我希望检查文章、国家/产地和颜色列是否匹配(所以请检查是否可以在dataframe 2中找到dat

浏览 3提问于2019-09-23得票数 0

回答已采纳

2回答

迭代以获取子字符串

、、、

我正在尝试迭代pyspark数据帧，并获取某个位置后的值。数据将如下所示： ? 我需要每一行中.和(空格)之间的值。例如，对于SNO=1，我需要1。我试着写了下面的代码，结果显示列不可迭代 df3 = df2.withColumn("value", substring(df2.ColumnValue,instr(df2.ColumnValue, '

浏览 13提问于2021-11-01得票数 0

1回答

.agg(计数([col列表))

、、

我怎样才能做到这一点？from pyspark.sql import functions as Ffrom pyspark.sql.sessionSparkContext('local')grouped=df.groupby([col list]).agg(F.count([col list])) 我读过关于堆栈溢出的类似问题即使我试

浏览 3提问于2020-02-26得票数 0

回答已采纳

1回答

isCheckPointed()为false

、、

当我迭代地将500多个列添加到我的pyspark中时，我遇到了堆栈溢出错误。所以我包括了检查点。检查站帮不上忙。因此，我创建了下面的玩具应用程序来测试我的检查点是否正常工作。在这个例子中，我所做的就是一次又一次地复制原始列来迭代地创建列。我坚持，检查点和计数每10个迭代。我注意到我的dataframe.rdd.isCheckpo

浏览 1提问于2017-11-16得票数 1

回答已采纳

1回答