腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
DF
:
如何
添加
文字
空
dict
'{}‘
列
、
{"str_a":"blah","str_b":"blah","
dict
_obj":{}}{"str_a如果
添加
一个
空
列
,则打印输出类似于:{"
dict
_object":null}。但是,如果批处理中的单个记录包含&quo
浏览 14
提问于2021-06-02
得票数 1
1
回答
在Spark dataframe中
添加
可
空
列
、
、
、
、
在星火中,
文字
列
在
添加
时是不可
空
的:spark = SparkSession.builder.getOrCreate()
浏览 3
提问于2021-07-29
得票数 4
回答已采纳
2
回答
Python -使用
文字
字符串传递操作符?
、
、
、
我有一个
列
、名称(键)及其数据类型(值)的字典。数据类型是
文字
字符串,我试图将我的
PySpark
df
中的
列
转换为定义的数据类型,即
df
.withColumn(f'{k}', col(f'{
浏览 5
提问于2022-05-23
得票数 -1
2
回答
在
pyspark
DataFrame中创建某个类型的
空
数组
列
、
、
、
我尝试向
df
添加
一个包含字符串数组的
空
数组的
列
,但最终
添加
了一个字符串数组的
列
。我试过这个: import
pyspark
.sql.functions as F
df
=
df
.withColumn('newCol', F.array([])) 我
如何
在
pyspark
中做到这一点?
浏览 91
提问于2019-08-28
得票数 9
回答已采纳
1
回答
将向量
列
添加
到吡咯DataFrame中
、
、
、
如何
将Vectors.dense
列
添加
到
pyspark
中?import DenseVector sqlCtx = SQLContext(sc) sdf = sqlCtx.createD
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
1
回答
PYSPARK
:-在不丢失null值的情况下分解dataframe中的数组:“DataFrame”对象没有属性“_get_object_id”
、
、
、
调用下面的对象时出错是在不丢失
空
值的情况下分解dataframe中的数组,但在调用
列
时我得到错误,说对象没有属性‘_ code.This _ object _id’。需要帮助,在其他方式调用
列
,可以工作。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql import Row from
pyspark
.sql.types import ArrayTy
浏览 2
提问于2018-07-05
得票数 2
2
回答
AssertionError: col应该是
列
、
、
、
如何
在
PySpark
中创建一个新
列
并用今天的日期填充该
列
?这就是我试过的:now = datetime.datetime.now()我知道这个错误: AssertionError: col应该是
列
浏览 4
提问于2017-12-20
得票数 30
回答已采纳
1
回答
我
如何
将一只
空
的熊猫数据转换成“火花放电数据”?
、
、
、
、
我想要一种安全的方法,把熊猫的数据转换成火花放电数据,它可以处理熊猫数据为
空
的情况(比如在应用了某种过滤器之后)。例如,以下内容将失败:import pandas as pdcols = ['col_1', 'col_2', 'col_3']spark_
df
= spark.createDataframe(pandas_
df</e
浏览 17
提问于2022-08-16
得票数 1
1
回答
在
PySpark
中以分布式方式应用udf函数
、
、
、
、
假设我有一个非常基本的火花DataFrame,它由几个
列
组成,其中一个
列
包含我想要修改的值。|| value || lang ||| 4 | ua | 比方说,我希望为每个特定的类
添加
一个新
列
,其中我将向给定的值
添加
一个浮点数(这与最后一个问题没有多大关系,但实际上我在那里用sklearn做了一个预测,但为了简单起见,假设我们在
添加
内容,我们的想法是以某种方式修改这个值)。因此,给定一个
dict
cla
浏览 1
提问于2018-04-10
得票数 0
回答已采纳
1
回答
如何
在
pyspark
中创建行值相同的新
列
?
、
、
**How do I create a data frame like this using
pyspark
?
浏览 2
提问于2021-02-16
得票数 0
回答已采纳
1
回答
将函数应用于两
列
、
、
假设我有两个
PySpark
DataFrames
df
1和
df
2。
df
1['a']值,并将最近的值作为
df
1中的一个新
列
添加
。import IntegerType return abs(x-y)
浏览 2
提问于2016-11-02
得票数 10
回答已采纳
1
回答
将大型数组
列
拆分为多个
列
-
Pyspark
3| 4| 2| 3| 4|提供的解决方案工作,但我的一些数组非常长(最大332)。
浏览 6
提问于2018-08-02
得票数 5
回答已采纳
1
回答
PySpark
RDD:
列
数不匹配
、
、
、
、
我希望使用
pyspark
与其中一个
列
一起构建一个数据文件,该
列
是数据集的另外两个
列
的的结果。为此,我创建了一个在rdd.map()函数中调用的函数,如下所示:from
pyspark
.sql import Row .toDF() 虽然架构定义与最终的dataf
浏览 3
提问于2020-08-20
得票数 0
1
回答
pyspark
.sql.utils.AnalysisException: Parquet数据源不支持
空
数据类型
、
、
、
、
我试图在
PySpark
中的dataframe
PySpark
中
添加
一个
列
。我试过的密码:
df
1 =
df
1.withColumn("empty_column", F.lit(None)) 但我知道这个错误:
pyspark
.sql.utils.AnalysisException: Parquet数据源不支持
空
数据类型。
浏览 23
提问于2022-10-18
得票数 3
回答已采纳
2
回答
将字典传递给
pyspark
、
、
我必须将一些数据值映射到新的名称,所以我打算从sparkdf中发送
列
值,并将映射字段的字典发送到udf,而不是在.withColumn()之后编写大量的.withColumn()。def stringToStr_function(checkCol,
dict
1) : if(checkCol != None and checkCol==key): return value stringToStr_udf = udf(stringToStr_functio
浏览 3
提问于2018-10-29
得票数 4
回答已采纳
1
回答
将
PySpark
数据类型转换为字典
、
、
、
、
基本上,我有我想要的翻译
PySpark
<=>Pandas类型。我知道
如何
检索
PySpark
类型。但我不知道
如何
将
PySpark
类型转换为可用的字典。这是我的代码,如果我有字典格式的
PySpark
类型--例如我想要达到的目标是"
dict
“: <
浏览 16
提问于2022-06-10
得票数 0
回答已采纳
1
回答
在
pyspark
中创建数据字典
、
、
、
我正在面对挑战,当我
添加
动态
列
在
pyspark
中。= lag(
df
.k).over(w),date_add(
df
.date,605)).otherwise(col('next_date')))
浏览 1
提问于2017-03-09
得票数 0
回答已采纳
2
回答
是否有一种方法可以将类型字典的
列
添加
到火花放电中的星体数据?
、
、
这就是我
如何
在
pyspark
中创建具有原始数据类型的数据schema = StructType(fields)va
浏览 2
提问于2020-05-31
得票数 5
回答已采纳
2
回答
熊猫通过将所有
列
转换为json来连接dataframe
("Spark", 22000,'30days',1000.0),
df
= pd.DataFrame(technologies,columns = ['Courses','Fee
浏览 6
提问于2022-06-28
得票数 -2
回答已采纳
2
回答
将文件读取并附加到spark数据文件中
我已经创建了一个
空
的dataframe,并开始
添加
它,通过读取每个文件。但其中一个文件的
列
数比前一个文件多。
如何
仅为所有其他文件选择第一个文件中的
列
?from
pyspark
.sql import SparkSession files=glob.glob(fpath +'*.sas7bda
浏览 1
提问于2019-09-06
得票数 3
回答已采纳
点击加载更多
相关
资讯
一个Python大数据处理利器:PySpark入门指南
Python也太好用了吧!一个plotly库就能实现交互式数据可视化
Pandas中高效的“For循环”
10个Pandas的另类数据处理技巧
python数据分析之pandas二
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券