腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
pyspark
中
的
dataframe
编码
为
0
和
1
、
、
我正在尝试找到
pyspark
数据框
中
具有多个条件
的
列
的
特定单词,并创建一个单独
的
列作为"label“。如果"body“列
中
的
单词与列表(猫
和
狗)匹配,则将创建”
0
“
和
”
1
“标签。("label", ( when( col("body").like(('% + i + %
浏览 7
提问于2021-08-13
得票数 0
回答已采纳
1
回答
从Ignite 2.8 (as数据库)加载数据时,Spark
dataframe
编码
错误
、
、
我在Windows 10上使用Spark 2.4
和
Ignite 2.8 当我把
pyspark
dataframe
放到点火表
中
时,它保存得很好。但是,当我
将
这些数据从Ignite读回
Pyspark
时,
dataframe
又回到了系统默认
编码
(CP1251)。我不明白如何用正确
的
编码
重新获得正确
的
数据。" ndf=
浏览 13
提问于2020-04-09
得票数 0
回答已采纳
1
回答
基于
PySpark
数据
的
自定义聚合
、
、
、
、
我有一个
PySpark
DataFrame
,它有一个列作为一个热
编码
向量。我想在群后通过矢量加法来聚合不同
的
热
编码
向量。例如df[userid,action] Row
1
: ["1234","[
1
,
0
,
0
]] Row2: ["1234", [
0
1
0
]] 我希望输出
为
row:["1234", [
浏览 4
提问于2016-12-07
得票数 12
1
回答
将
Dataframe
激发到StringType
、
、
、
在
PySpark
中
,如何
将
Dataframe
转换为普通字符串?我
将
PySpark
与Kafka一起使用,而不是硬
编码
代理名称,而是在
PySpark
中
参数化了Kafka broker名称。这些变量
为
带有字符串
的
Dataframe
类型。 当我
将
dataframe
传递给
Pyspark
连接细节以替换值时,我
将
面
浏览 0
提问于2021-03-05
得票数 0
1
回答
如何在Scala中将
DataFrame
转换为DynamicFrame对象
、
、
我正在尝试
将
一些
pySpark
代码转换为Scala,以提高性能。在AWS (它使用Apache )
中
,会自动
为
您生成一个脚本,它通常使用DynamicFrame对象加载、转换
和
写入数据。但是,DynamicFrame类并不具有与
DataFrame
类相同
的
所有功能,有时您必须将其转换回
DataFrame
对象,反之亦然,以执行某些操作。下面是我如何在
DataFrame
中将DynamicFrame对象转换为
pySpark
对
浏览 1
提问于2018-05-17
得票数 3
回答已采纳
1
回答
星火
DataFrame
如何区分不同
的
VectorUDT对象?
、
、
、
、
我正在尝试理解
DataFrame
列类型。当然,
DataFrame
不是一个物化
的
对象,它只是一组Spark
的
指令,将来要转换成代码。但我认为,这个类型列表代表了在执行操作时JVM
中
可能出现
的
对象类型。import
pyspark
import
pyspark
.sql.functions as Fd&g
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
1
回答
Pyspark
-> StringIndexer:用数字替换“无”值
、
我有几个“无”值
的
数据框架。通过StringIndexer,
将
字符串列转换为浮动列后,"None“值被替换为number。谢谢。(self.rawData, columnName) @staticmethod def TransformNominalToNumeric(
dataFrame
inputCol = inputColumn, outputCol =
浏览 1
提问于2018-04-29
得票数 0
2
回答
在databricks SQL中选择describe表或显示列
的
结果
、
、
、
我需要运行一个查询,如果表中有一个特定
的
列,它将提供一个输出,如果没有,则给出一些其他值。我尝试了以下查询: THEN
1
ELSE
0
*但这带来了一个错误。是否有方法在SELECT语句中访问SHOW COLUMNS或DESCRI
浏览 8
提问于2022-04-08
得票数 -1
2
回答
pyspark
.pandas
和
熊猫有什么区别?
、
开始在Databricks上使用
PySpark
,我看到我可以在pandas
的
同时导入
pyspark
.pandas。有什么不同吗?我想这不像koalas,对吧?
浏览 13
提问于2022-09-20
得票数 0
1
回答
将
向量列添加到吡咯
DataFrame
中
、
、
、
如何
将
Vectors.dense列添加到
pyspark
中
?import DenseVector sdf.withColumn("features", DenseVector(
1
)) 给出anaconda3/lib/python3
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
1
回答
迭代两个数据,比较
和
更改熊猫或火星雨中
的
值。
、
、
Dataframe
1
:Pants Germany Red
0
最初,我所有的文章都将标志'Buy‘设置
为
零。Red 我希望检查文章、国家/产地
和
颜色列是否匹配(所以请检查是否可以在
dataframe
2
中
找到
dataframe
1
中<
浏览 3
提问于2019-09-23
得票数 0
回答已采纳
1
回答
在CSV文件
中
处理JSON对象并保存到
PySpark
DataFrame
、
、
、
、
如果我尝试
将
文件读取
为
CSV,那么JSON对象将在其他列
中
重叠。df.show(5)但是
浏览 2
提问于2020-09-23
得票数 1
1
回答
向类添加功能
的
最佳方法-
PySpark
、
、
、
、
有一段时间,我在寻找如何
将
多个列一次重命名为一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper,其中通过赋值语句
将
方法添加到
pyspark
.
DataFrame
类
中
。问题是,我正在创建一个Github来存储我
的
所有函数
和
ETL,我认为如果我能够应用上面显示
的
逻辑,就可以非常容易地创建一个__init__.
浏览 6
提问于2020-07-09
得票数 1
1
回答
如何
将
所有的日期格式转换为日期列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在
将
csv文件读取
为
具有2个日期列
的
PySpark
数据帧。但是,当我尝试打印模式时,两列都被填充
为
字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将
date列
中
的
行值转换为时间戳格式?我已经尝试了很多东西,但所
浏览 16
提问于2020-12-30
得票数 2
2
回答
从
PySpark
DataFrame
列
中
删除元素
我知道
PySpark
DataFrames是不可变
的
,所以我想创建一个新列,该列是根据应用到
PySpark
DataFrame
的
现有列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该列是唯一int列表(在给定列表
中
不重复int),例如:[
1
,2][2,3] 上面是一个玩具例子,因为我
的
实际
DataFrame
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
2
回答
如何使用matplotlib绘制
pyspark
sql结果
、
、
、
我对
pyspark
是个新手。我想使用matplotlib绘制结果,但不确定使用哪个函数。我寻找了一种
将
sql结果转换为pandas然后使用plot
的
方法。
浏览 9
提问于2017-07-10
得票数 14
回答已采纳
2
回答
PySpark
上分类输入
的
随机森林回归
、
、
、
然而,对我来说,
Pyspark
上
的
ML似乎完全不同--特别是当涉及到处理分类变量、字符串索引
和
OneHotEncoding时(当只有数值变量时,我能够通过以下示例执行RF回归)。虽然有很多处理分类变量
的
示例,比如
和
,但我没有成功地使用它们
中
的
任何一个,因为它们
中
的
大多数都超出了我
的
理解(可能是因为我不熟悉Python ML)。我
将
感谢任何人谁可以帮助解决这个问题。从这里开始我
的
困惑
浏览 4
提问于2017-09-23
得票数 5
1
回答
在
PySpark
数据帧
中
添加优先级列
、
、
我有一个
dataframe
(input_
dataframe
)
PySpark
,如下所示:我想要一个function(update_col_check),来更新这个数据文件
的
column(col_check)。函数应该检查该列
的
值是否
为
1
,然后
将
col_check
的
值更新
浏览 0
提问于2017-08-13
得票数 0
2
回答
如何删除星火表列
中
的
空白
、
、
、
、
我想从特定列(Purch_location)
中
的
所有值
中
删除空格。我使用
的
是spark表,而不是
dataframe
或SQL表(但如果需要,我可以使用
dataframe
或SQL表)。
0
||02/11/2017| Groceries4|
浏览 6
提问于2017-12-03
得票数 2
1
回答
基于2个spark数据帧
中
的
匹配zip,创建用于距离计算
的
纬度
和
经度对
、
、
、
我有一个
pyspark
dataframe
A,它有3列:-69 40 trp我有另一个
pyspark
dataframe
B,它具有相同
的
列,但捕获
的
值将不同:-68 43 trp我希望根据
dataframe
B
中
匹配
的
邮政
编码
为
A
的
每个记录创建纬度经度对。因此,输出RDD
浏览 2
提问于2017-11-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
PySpark,一个大数据处理利器的Python库!
非 0即1,如何将庞大 Excel 数据表中的所有非 0 值批量替换为 1?
遇见YI算法之初识Pyspark(二)
大数据下Python的三款大数据分析工具
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券