Pyspark DF:如何添加文字空dict '{}‘列

文章/答案/技术大牛

发布

1回答

、

{"str_a":"blah","str_b":"blah","dict_obj":{}}{"str_a如果添加一个空列，则打印输出类似于：{"dict_object":null}。但是，如果批处理中的单个记录包含&quo

浏览 14提问于2021-06-02得票数 1

1回答

在Spark dataframe中添加可空列

、、、、

在星火中，文字列在添加时是不可空的：spark = SparkSession.builder.getOrCreate()

浏览 3提问于2021-07-29得票数 4

回答已采纳

2回答

Python -使用文字字符串传递操作符？

、、、

我有一个列、名称(键)及其数据类型(值)的字典。数据类型是文字字符串，我试图将我的PySpark df中的列转换为定义的数据类型，即 df.withColumn(f'{k}', col(f'{

浏览 5提问于2022-05-23得票数 -1

2回答

在pyspark DataFrame中创建某个类型的空数组列

、、、

我尝试向df添加一个包含字符串数组的空数组的列，但最终添加了一个字符串数组的列。我试过这个： import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在pyspark中做到这一点？

浏览 91提问于2019-08-28得票数 9

回答已采纳

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import DenseVector sqlCtx = SQLContext(sc) sdf = sqlCtx.createD

浏览 1提问于2018-04-14得票数 1

回答已采纳

1回答

PYSPARK:-在不丢失null值的情况下分解dataframe中的数组：“DataFrame”对象没有属性“_get_object_id”

、、、

调用下面的对象时出错是在不丢失空值的情况下分解dataframe中的数组，但在调用列时我得到错误，说对象没有属性‘_ code.This _ object _id’。需要帮助，在其他方式调用列，可以工作。from pyspark.sql import SparkSessionfrom pyspark.sql import Row frompyspark.sql.types import ArrayTy

浏览 2提问于2018-07-05得票数 2

2回答

AssertionError: col应该是列

、、、

如何在PySpark中创建一个新列并用今天的日期填充该列？这就是我试过的：now = datetime.datetime.now()我知道这个错误： AssertionError: col应该是列

浏览 4提问于2017-12-20得票数 30

回答已采纳

1回答

我如何将一只空的熊猫数据转换成“火花放电数据”？

、、、、

我想要一种安全的方法，把熊猫的数据转换成火花放电数据，它可以处理熊猫数据为空的情况(比如在应用了某种过滤器之后)。例如，以下内容将失败：import pandas as pdcols = ['col_1', 'col_2', 'col_3']spark_df = spark.createDataframe(pandas_df</e

浏览 17提问于2022-08-16得票数 1

1回答

在PySpark中以分布式方式应用udf函数

、、、、

假设我有一个非常基本的火花DataFrame，它由几个列组成，其中一个列包含我想要修改的值。|| value || lang ||| 4 | ua | 比方说，我希望为每个特定的类添加一个新列，其中我将向给定的值添加一个浮点数(这与最后一个问题没有多大关系，但实际上我在那里用sklearn做了一个预测，但为了简单起见，假设我们在添加内容，我们的想法是以某种方式修改这个值)。因此，给定一个dict cla

浏览 1提问于2018-04-10得票数 0

回答已采纳

1回答

如何在pyspark中创建行值相同的新列？

、、

**How do I create a data frame like this using pyspark?

浏览 2提问于2021-02-16得票数 0

回答已采纳

1回答

将函数应用于两列

、、

假设我有两个PySpark DataFrames df1和df2。df1['a']值，并将最近的值作为df1中的一个新列添加。import IntegerType return abs(x-y)

浏览 2提问于2016-11-02得票数 10

回答已采纳

1回答

将大型数组列拆分为多个列- Pyspark

3| 4| 2| 3| 4|提供的解决方案工作，但我的一些数组非常长(最大332)。

浏览 6提问于2018-08-02得票数 5

回答已采纳

1回答

PySpark RDD:列数不匹配

、、、、

我希望使用pyspark与其中一个列一起构建一个数据文件，该列是数据集的另外两个列的的结果。为此，我创建了一个在rdd.map()函数中调用的函数，如下所示：from pyspark.sql import Row .toDF() 虽然架构定义与最终的dataf

浏览 3提问于2020-08-20得票数 0

1回答

pyspark.sql.utils.AnalysisException: Parquet数据源不支持空数据类型

、、、、

我试图在PySpark中的dataframe PySpark中添加一个列。我试过的密码：df1 = df1.withColumn("empty_column", F.lit(None)) 但我知道这个错误：pyspark.sql.utils.AnalysisException: Parquet数据源不支持空数据类型。

浏览 23提问于2022-10-18得票数 3

回答已采纳

2回答

将字典传递给pyspark

、、

我必须将一些数据值映射到新的名称，所以我打算从sparkdf中发送列值，并将映射字段的字典发送到udf，而不是在.withColumn()之后编写大量的.withColumn()。def stringToStr_function(checkCol, dict1) : if(checkCol != None and checkCol==key): return value stringToStr_udf = udf(stringToStr_functio

浏览 3提问于2018-10-29得票数 4

回答已采纳

1回答

将PySpark数据类型转换为字典

、、、、

基本上，我有我想要的翻译PySpark<=>Pandas类型。我知道如何检索PySpark类型。但我不知道如何将PySpark类型转换为可用的字典。这是我的代码，如果我有字典格式的PySpark类型--例如我想要达到的目标是"dict“： <

浏览 16提问于2022-06-10得票数 0

回答已采纳

1回答

在pyspark中创建数据字典

、、、

我正在面对挑战，当我添加动态列在pyspark中。= lag(df.k).over(w),date_add(df.date,605)).otherwise(col('next_date')))

浏览 1提问于2017-03-09得票数 0

回答已采纳

2回答

是否有一种方法可以将类型字典的列添加到火花放电中的星体数据？

、、

这就是我如何在pyspark中创建具有原始数据类型的数据schema = StructType(fields)va

浏览 2提问于2020-05-31得票数 5

回答已采纳

2回答

熊猫通过将所有列转换为json来连接dataframe

("Spark", 22000,'30days',1000.0), df= pd.DataFrame(technologies,columns = ['Courses','Fee

浏览 6提问于2022-06-28得票数 -2

回答已采纳

2回答

将文件读取并附加到spark数据文件中

我已经创建了一个空的dataframe，并开始添加它，通过读取每个文件。但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？from pyspark.sql import SparkSession files=glob.glob(fpath +'*.sas7bda

浏览 1提问于2019-09-06得票数 3

回答已采纳

点击加载更多