腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
FInd数据帧中的第一个非零元素
、
、
我正在
处理
一个
pyspark
dataframe
,并尝试查看是否有一种方法可以提取spark
dataframe
中第一个非零元素的索引。我自己添加了索引
列
,因为
pyspark
不支持它,而不是pandas。
浏览 29
提问于2021-10-08
得票数 0
1
回答
如何
处理
pyspark
dataframe
列
、
、
我有一个>4k
列
的
pyspark
df,没有任何标签/标题。根据
列
值,我需要对每一
列
应用特定的操作。我使用pandas也做了同样的事情,但我不想使用pandas,而是想直接在spark
dataframe
上应用
列
转换。如果df有大于4k的
列
而没有任何label.also,我不想在特定的df
列
索引上应用转换。
浏览 4
提问于2017-02-08
得票数 0
1
回答
将ML VectorUDT特性从.mllib转换为.ml类型进行线性回归
、
、
/w4s3yhez1497323663423/basma.csv/") data.count() .toDF() from
pyspark
.ml.feature
浏览 3
提问于2017-06-14
得票数 5
回答已采纳
2
回答
可以从Scala调用python函数吗?
、
、
、
、
我正在创建一个火花作业,它要求使用用python编写的函数将
列
添加到
dataframe
中。其余的
处理
是使用Scala完成的。我已经找到了
如何
从
pyspark
调用Java/Scala函数的示例: 我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个
dataframe
发送到python函数,让函数操作数据并添加其他
列
,然后将结果数据返回给调用的Scala函数?如果这是不可能的,我目前的解决方案是运行一个
pyspark</
浏览 3
提问于2017-09-15
得票数 5
1
回答
windowPartitionBy和
pyspark
中的重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么的吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
2
回答
如何
在
pyspark
中合并重复的
列
?
、
、
我有一个
pyspark
dataframe
,其中一些
列
具有相同的名称。我想将具有相同名称的所有
列
合并到一
列
中。例如,输入
dataframe
: ? 我
如何
在
pyspark
中做到这一点?
浏览 57
提问于2021-06-18
得票数 2
回答已采纳
2
回答
列
的值为null,并在中进行交换。
、
、
、
、
我正在使用
pyspark
==2.3.1。我用熊猫对数据进行了数据预
处理
,现在我想把我的预
处理
功能转换成熊猫的火花放电。但是,当使用
pyspark
读取数据CSV文件时,许多值将变为空
列
,而该
列
实际上有一些值。如果我试图对这个
dataframe
执行任何操作,那么它将与其他
列
交换
列
的值。我也尝试过不同版本的火花放电。谢谢
列
"property_type“的值为null,但实际的
浏览 5
提问于2022-02-16
得票数 0
回答已采纳
1
回答
Pyspark
:获取嵌套结构
列
的数据类型
、
、
、
我目前正在
处理
一些相当复杂的json文件,我应该将它们转换并写入增量表。问题是,当涉及到
列
的数据类型时,每个文件都有细微的差异。有人能给我解释一下检索嵌套结构
列
的数据类型的一般方法吗?在互联网上,我只能找到
如何
对它们做选择:https://sparkbyexamples.com/
pyspark
/
pyspark
-select-nested-struct-columns/ 如果我有这样的格式编辑: Json文件当然已经写在
datafr
浏览 42
提问于2021-10-22
得票数 0
1
回答
Pyspark
数据框架操作的单元测试用例
、
、
、
我已经用python写了一些带有sql上下文的代码,即
pyspark
,通过将csv转换为
pyspark
dataframe
来对csv执行一些操作(df操作,如预
处理
、重命名列名、创建新
列
并将其附加到相同的
dataframe
中等)。有谁能帮我在
pyspark
的
dataframe
上写单元测试用例吗?或者给我一些数据帧上的测试用例的来源?
浏览 1
提问于2016-04-14
得票数 3
4
回答
如何
选择最后一行,以及
如何
按索引访问
PySpark
数据?
、
、
、
来自类似于
PySpark
SQL数据文件的abc 20 A
如何
获得最后一行。以及
如何
通过第12或200号index.like行访问数据行。在熊猫里我能做到df.ix[rowno or index] # by index我只是好奇
如何
以这样的方式或替代的方式访问
pyspark
。
浏览 7
提问于2016-09-17
得票数 16
回答已采纳
4
回答
PySpark
计算相关性
、
、
、
、
我想使用
pyspark
.mllib.stat.Statistics.corr函数来计算
pyspark
.sql.
dataframe
.
DataFrame
对象的两
列
之间的相关性。
如何
将df['some_name']
列
转换为rdd of Vectors.dense对象?
浏览 12
提问于2016-06-03
得票数 16
回答已采纳
1
回答
在
pyspark
数据帧中用数字替换字符串
、
我刚接触
pyspark
,我想在
pyspark
dataframe
列
中动态地用数字替换名称,因为我的
dataframe
中有超过500,000个名称。
如何
继续?
浏览 9
提问于2019-07-25
得票数 0
1
回答
如何
估计星火
DataFrame
中每
列
的大小(以字节为单位)?
、
我有一个非常大的星火
DataFrame
和许多
列
,我想作出一个明智的判断是否保持在我的管道中,部分取决于它们有多大。所谓“有多大”,我指的是缓存这个
DataFrame
时内存中字节的大小,我希望这是对
处理
这些数据的计算成本的一个不错的估计。有些
列
是简单类型(例如,双列、整数列),而另一些
列
是复杂类型(例如数组和可变长度映射)。我尝试过的一种方法是在没有
列
的情况下缓存
DataFrame
,然后查看Spark中的Storage,然后取不同的内容。但是对于一个<e
浏览 0
提问于2019-02-25
得票数 2
回答已采纳
1
回答
PySpark
PCA:
如何
将数据行从多
列
转换为单列DenseVector?
、
、
、
、
我能够将Hive表导入到:>>> hiveContext = HiveContext(sc)>>> type(
dataframe
) <class '
pyspark
.sql.
dataframe
.
Da
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
1
回答
向类添加功能的最佳方法-
PySpark
、
、
、
、
有一段时间,我在寻找
如何
将多个
列
一次重命名为一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我对最后一段感兴趣,其中通过赋值语句将方法添加到
pyspar
浏览 6
提问于2020-07-09
得票数 1
1
回答
将向量
列
添加到吡咯
DataFrame
中
、
、
、
如何
将Vectors.dense
列
添加到
pyspark
中?import pandas as pdfrom
pyspark
.sql import SQLContext py_df = pd.
DataFrame
.from_dict({"time": [59., 115., 156., 421.], &qu
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
2
回答
使用list并替换
pyspark
列
、
假设我有一个列表new_id_acc = 6,8,1,2,4,我有像这样的
PySpark
DataFrame
id_acc | name | 20| XYZ | 34 | RAH | 19 | SPD | 我想用new_id_acc值替换
pyspark
列
id_acc,我该
如何
实现并做到这一点我尝试过,发现除了常量值之外,可以使用lit(),但是没有找到任何
如何
<e
浏览 27
提问于2019-05-14
得票数 1
1
回答
星火
DataFrame
如何
区分不同的VectorUDT对象?
、
、
、
、
我正在尝试理解
DataFrame
列
类型。当然,
DataFrame
不是一个物化的对象,它只是一组Spark的指令,将来要转换成代码。但我认为,这个类型列表代表了在执行操作时JVM中可能出现的对象类型。import
pyspark
import
pyspark
.sql.functions as Fd() 四个向量值的
列
在printSchema() (或schema)中看起来
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
1
回答
如何
使用
pyspark
将数值转换为分类变量
有一系列数值变量的
pyspark
数据帧。 例如 我的
dataframe
有一个从1到100的
列
值。1-10 - group1<== 1到10的
列
值应包含group1作为值11-20 - group2。。。91-100 group10
如何
使用
pyspark
dataframe
实现这一点?
浏览 15
提问于2019-04-10
得票数 1
回答已采纳
点击加载更多
相关
资讯
如何对 dataframe中的某一列数据 开根号呢?
DataFrame的数据处理
Python使用DataFrame打印指定列的方法
使用Python逐行处理DataFrame
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券