腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
拆分
pyspark
dataframe
中
的
Array
列
、
、
、
、
我有一个如下所示
的
数据框 col1 [a1_b1_c1, a2_b2_c2, a3_b3_c3] [aaa2_bbb2_ccc1, aaa2_bbb2_cc2, aaa3_bbb3] 现在我想
拆分
元素,需要形成下面提到
的
数据帧, newcol1[c1,c2,c3]
浏览 66
提问于2021-07-29
得票数 1
回答已采纳
1
回答
使用map函数将Spark
Dataframe
转换为RDD
、
、
我正在尝试将spark数据框
中
的
列
拆分
为多个值。因此,我分隔了要
拆分
的
列
,并检查了其类型:O:
pyspark
.sql.
dataframe
.
DataFrame
当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(la
浏览 0
提问于2016-06-22
得票数 0
1
回答
Databricks:如何将行
的
值转换为数组类型
、
假设我有下面的数据帧col1 a b c有什么想法吗?
浏览 16
提问于2019-11-07
得票数 0
1
回答
如何使用
PySpark
正确导入CSV文件
、
、
、
、
(delimiter=',') \我
的
file是一个有10
列
的
.csv,由','分隔。然而,最后一篇专栏包含了一些文本,其中也包含了大量
的
","。按","
拆分
将导致每一行
的
不同
列
大小,而且,我没有将整个文本放在一
列
中
。我只是在寻找一种很好
的
方法来将.csv文件加载到在最后一个索引
浏览 1
提问于2022-05-25
得票数 2
回答已采纳
1
回答
PYSPARK
:-在不丢失null值
的
情况下分解
dataframe
中
的
数组:“
DataFrame
”对象没有属性“_get_object_id”
、
、
、
调用下面的对象时出错是在不丢失空值
的
情况下分解
dataframe
中
的
数组,但在调用
列
时我得到错误,说对象没有属性‘_ code.This _ object _id’。需要帮助,在其他方式调用
列
,可以工作。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql import Row from
p
浏览 2
提问于2018-07-05
得票数 2
1
回答
左反团员
、
、
、
我有一个
dataframe
,它有两个
列
a和b,其中b
列
中
的
值是a
列
中值
的
a子集。,其中anti_b
列
中
的
值是来自a
列
的
任何值,这样a!=anti_b和行(a,anti_b)就不会出现在原始
的
数据格式
中
。-+ 这可以通过一个crossJoin和对
array
_contains
的
调用来实现,但是它非常慢而且效率很低。
浏览 2
提问于2019-11-18
得票数 0
1
回答
从CSV中将字符串数组读取为
Pyspark
中
的
数组
、
、
我有一个 包含如下数据
的
文件 ID|Arr_of_Str 2|["PQR", "ABC DEF"] 我想读这篇文章 文件,但是当我使用 ,它将其作为字符串读取。string (nullable = true) 预期: df.printSchema() |-- ID: integer (nullable = true) |-- Arr_of_Str:
array
浏览 45
提问于2019-12-12
得票数 2
回答已采纳
1
回答
如何连接
Pyspark
中
的
特定
列
、
、
在pandas
中
,
Pyspark
中
特定
列
连接由以下代码执行: datamonthly=datamonthly.merge(df[['application_type','msisdn','periodloan']],how='left',on='msisdn') 我使用
Pyspark
尝试了类似的逻辑 datamonthly = datamonthly.join(datalabel ,
浏览 13
提问于2021-08-30
得票数 1
回答已采纳
1
回答
如何在
PySpark
中
迭代数组
列
在
PySpark
中
,我使用了
dataframe
_a:| str1 |
array
_of_str || apple | 2 |我想要创建一个数组joined_result类型
的
新
列
,它将
array
_of_str (
dataframe
浏览 1
提问于2020-01-09
得票数 1
回答已采纳
1
回答
在CSV文件
中
处理JSON对象并保存到
PySpark
DataFrame
、
、
、
、
如果我尝试将文件读取为CSV,那么JSON对象将在其他
列
中
重叠。 我得到
的
产出如下options(header="true", delimiter = ',
浏览 2
提问于2020-09-23
得票数 1
1
回答
pyspark
dataframe
拆分
动态
列
、
、
(我不是python开发人员) 我们有一个由外部开发
的
库,用于重新计算温度测量
中
的
误差。这可以很好地工作,但现在我们注意到,我们
的
两种传感器类型产生不同
的
日志文件(欧洲和澳大利亚不同)。Auto202012101237.TXT")data2 = data21.filter(~col("_c0").contains(header2)) 这会产生一个只有_c0
列
的
好文件因此,欧洲版本<e
浏览 13
提问于2021-01-21
得票数 0
1
回答
PySpark
将
列
拆分
到具有应用架构
的
新数据帧
、
、
、
如何通过逗号将字符串列
拆分
为具有应用模式
的
新数据帧?作为示例,下面是一个包含两
列
(id和value)
的
pyspark
DataFrame
df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value
列
并将其
拆分
到一个新
的
Da
浏览 18
提问于2021-11-10
得票数 1
1
回答
如何将多个
dataframe
列
转换为一个numpy数组
列
、
、
我有一个数据帧,如下所示 from
pyspark
import SparkContext, SparkConf,SQLContext config = SparkConfwithColumnRenamed("_2","word1").withColumnRenamed("_3","word2").withColumnRenamed("_4","word3") 现在我需要将第一
列
和其余列作为numpy
浏览 18
提问于2019-10-02
得票数 0
回答已采纳
1
回答
如何在
pyspark
中使用pandas_udf
拆分
dataframe
中
的
字符串
、
、
我只有一
列
的
dataframe
。我想使用
pyspark
中
的
pandas_udf
拆分
字符串。因此,我有以下代码: from
pyspark
.sql.functions import pandas_udf, PandasUDFType def split_msg_c6)).drop("_c6") 但这是行不通
的
。 任何帮助都非常感谢!
浏览 17
提问于2019-10-03
得票数 0
回答已采纳
2
回答
将包含最近vaues
的
列
添加到
PySpark
Dataframe
、
、
、
、
我有一个
PySpark
dataframe
(比如df),它有两个
列
( Name和Score)。
dataframe
的
列
中
的
数值。下面是前面提到
的
numpy数组:我希望将
列
Score 每一行
的
值与 bin_
array
中
的
值进行比
浏览 4
提问于2019-10-11
得票数 3
回答已采纳
1
回答
如何在
Pyspark
Dataframe
中
训练和测试
拆分
的
时间序列数据
、
、
、
我想对排序后
的
Pyspark
数据帧进行基于时间
的
训练测试
拆分
。假设前300行将在训练集中,下200行将在测试
拆分
中
。我可以用以下命令选择前300行: train = df.show(300) 但是如何从
Pyspark
dataframe
中选择最后200行呢?
浏览 14
提问于2019-03-13
得票数 1
4
回答
如何使用
PySpark
将向量
拆分
为
列
、
、
、
、
上下文:I有一个包含2
列
的
DataFrame
:word和vector。其中,“向量”
的
列
类型为VectorUDT。问题:提前感谢
浏览 10
提问于2016-07-14
得票数 68
回答已采纳
1
回答
如何将numpy.
array
作为新
列
添加到
pyspark
.SQL
DataFrame
?
、
、
、
、
下面是创建
pyspark
.sql
DataFrame
的
代码import pandas as pddf = pd.
DataFrame
(np.
array
([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),samplingRatio=0.1)a
浏览 0
提问于2015-08-11
得票数 6
1
回答
用电火花将稠密向量转换成数据
、
、
、
首先,我尝试了下面链接
中
的
所有内容来修复我
的
错误,但是没有一个有效。 我正试图将密集向量转换为
dataframe
(最好是星火),并附带列名并遇到问题。我在
中
的
列
是使用创建
的
一个向量,现在我想将它转换回一个
dataframe
,因为我想在向量
中
的
一些变量上创建图。转换为Pandas
dataframe
,之后我无法将值
拆分
为不同
的
列</em
浏览 0
提问于2018-09-27
得票数 3
回答已采纳
2
回答
Spark unionAll多个数据帧
、
、
sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")df1.unionAll(df2).unionAll(df3)Seq(df1, df2, df3)
浏览 3
提问于2016-06-03
得票数 49
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券