腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
pyspark
中
的
dataframe
编码
为
0
和
1
python
、
dataframe
、
pyspark
我正在尝试找到
pyspark
数据框
中
具有多个条件
的
列
的
特定单词,并创建一个单独
的
列作为"label“。如果"body“列
中
的
单词与列表(猫
和
狗)匹配,则将创建”
0
“
和
”
1
“标签。("label", ( when( col("body").like(('% + i + %
浏览 7
提问于2021-08-13
得票数 0
回答已采纳
1
回答
从Ignite 2.8 (as数据库)加载数据时,Spark
dataframe
编码
错误
apache-spark
、
pyspark
、
ignite
我在Windows 10上使用Spark 2.4
和
Ignite 2.8 当我把
pyspark
dataframe
放到点火表
中
时,它保存得很好。但是,当我
将
这些数据从Ignite读回
Pyspark
时,
dataframe
又回到了系统默认
编码
(CP1251)。我不明白如何用正确
的
编码
重新获得正确
的
数据。" ndf=
浏览 13
提问于2020-04-09
得票数 0
回答已采纳
1
回答
基于
PySpark
数据
的
自定义聚合
apache-spark
、
pyspark
、
apache-spark-sql
、
aggregate-functions
、
user-defined-functions
我有一个
PySpark
DataFrame
,它有一个列作为一个热
编码
向量。我想在群后通过矢量加法来聚合不同
的
热
编码
向量。例如df[userid,action] Row
1
: ["1234","[
1
,
0
,
0
]] Row2: ["1234", [
0
1
0
]] 我希望输出
为
row:["1234", [
浏览 4
提问于2016-12-07
得票数 12
1
回答
将
Dataframe
激发到StringType
json
、
apache-spark
、
pyspark
、
apache-kafka
在
PySpark
中
,如何
将
Dataframe
转换为普通字符串?我
将
PySpark
与Kafka一起使用,而不是硬
编码
代理名称,而是在
PySpark
中
参数化了Kafka broker名称。这些变量
为
带有字符串
的
Dataframe
类型。 当我
将
dataframe
传递给
Pyspark
连接细节以替换值时,我
将
面
浏览 0
提问于2021-03-05
得票数 0
1
回答
如何在Scala中将
DataFrame
转换为DynamicFrame对象
scala
、
apache-spark-sql
、
aws-glue
我正在尝试
将
一些
pySpark
代码转换为Scala,以提高性能。在AWS (它使用Apache )
中
,会自动
为
您生成一个脚本,它通常使用DynamicFrame对象加载、转换
和
写入数据。但是,DynamicFrame类并不具有与
DataFrame
类相同
的
所有功能,有时您必须将其转换回
DataFrame
对象,反之亦然,以执行某些操作。下面是我如何在
DataFrame
中将DynamicFrame对象转换为
pySpark
对
浏览 1
提问于2018-05-17
得票数 3
回答已采纳
1
回答
星火
DataFrame
如何区分不同
的
VectorUDT对象?
apache-spark
、
dataframe
、
pyspark
、
apache-spark-mllib
、
apache-spark-ml
我正在尝试理解
DataFrame
列类型。当然,
DataFrame
不是一个物化
的
对象,它只是一组Spark
的
指令,将来要转换成代码。但我认为,这个类型列表代表了在执行操作时JVM
中
可能出现
的
对象类型。import
pyspark
import
pyspark
.sql.functions as Fd&g
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
1
回答
Pyspark
-> StringIndexer:用数字替换“无”值
apache-spark
、
pyspark
我有几个“无”值
的
数据框架。通过StringIndexer,
将
字符串列转换为浮动列后,"None“值被替换为number。谢谢。(self.rawData, columnName) @staticmethod def TransformNominalToNumeric(
dataFrame
inputCol = inputColumn, outputCol =
浏览 1
提问于2018-04-29
得票数 0
2
回答
在databricks SQL中选择describe表或显示列
的
结果
pyspark
、
apache-spark-sql
、
databricks
、
azure-databricks
我需要运行一个查询,如果表中有一个特定
的
列,它将提供一个输出,如果没有,则给出一些其他值。我尝试了以下查询: THEN
1
ELSE
0
*但这带来了一个错误。是否有方法在SELECT语句中访问SHOW COLUMNS或DESCRI
浏览 8
提问于2022-04-08
得票数 -1
2
回答
pyspark
.pandas
和
熊猫有什么区别?
pandas
、
pyspark
开始在Databricks上使用
PySpark
,我看到我可以在pandas
的
同时导入
pyspark
.pandas。有什么不同吗?我想这不像koalas,对吧?
浏览 13
提问于2022-09-20
得票数 0
1
回答
将
向量列添加到吡咯
DataFrame
中
apache-spark
、
dataframe
、
pyspark
、
apache-spark-ml
如何
将
Vectors.dense列添加到
pyspark
中
?import DenseVector sdf.withColumn("features", DenseVector(
1
)) 给出anaconda3/lib/python3
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
1
回答
迭代两个数据,比较
和
更改熊猫或火星雨中
的
值。
pandas
、
pyspark
、
pyspark-dataframes
Dataframe
1
:Pants Germany Red
0
最初,我所有的文章都将标志'Buy‘设置
为
零。Red 我希望检查文章、国家/产地
和
颜色列是否匹配(所以请检查是否可以在
dataframe
2
中
找到
dataframe
1
中<
浏览 3
提问于2019-09-23
得票数 0
回答已采纳
1
回答
在CSV文件
中
处理JSON对象并保存到
PySpark
DataFrame
python
、
json
、
csv
、
pyspark
、
apache-spark-sql
如果我尝试
将
文件读取
为
CSV,那么JSON对象将在其他列
中
重叠。df.show(5)但是
浏览 2
提问于2020-09-23
得票数 1
1
回答
向类添加功能
的
最佳方法-
PySpark
python
、
pandas
、
dataframe
、
oop
、
pyspark
有一段时间,我在寻找如何
将
多个列一次重命名为一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper,其中通过赋值语句
将
方法添加到
pyspark
.
DataFrame
类
中
。问题是,我正在创建一个Github来存储我
的
所有函数
和
ETL,我认为如果我能够应用上面显示
的
逻辑,就可以非常容易地创建一个__init__.
浏览 6
提问于2020-07-09
得票数 1
1
回答
如何
将
所有的日期格式转换为日期列
的
时间戳?
apache-spark
、
datetime
、
pyspark
、
apache-spark-sql
我使用
的
是
PySpark
版本3.0.1。我正在
将
csv文件读取
为
具有2个日期列
的
PySpark
数据帧。但是,当我尝试打印模式时,两列都被填充
为
字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将
date列
中
的
行值转换为时间戳格式?我已经尝试了很多东西,但所
浏览 16
提问于2020-12-30
得票数 2
2
回答
从
PySpark
DataFrame
列
中
删除元素
pyspark
我知道
PySpark
DataFrames是不可变
的
,所以我想创建一个新列,该列是根据应用到
PySpark
DataFrame
的
现有列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该列是唯一int列表(在给定列表
中
不重复int),例如:[
1
,2][2,3] 上面是一个玩具例子,因为我
的
实际
DataFrame
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
2
回答
如何使用matplotlib绘制
pyspark
sql结果
python
、
pandas
、
matplotlib
、
pyspark-sql
我对
pyspark
是个新手。我想使用matplotlib绘制结果,但不确定使用哪个函数。我寻找了一种
将
sql结果转换为pandas然后使用plot
的
方法。
浏览 9
提问于2017-07-10
得票数 14
回答已采纳
2
回答
PySpark
上分类输入
的
随机森林回归
string
、
machine-learning
、
pyspark
、
one-hot-encoding
然而,对我来说,
Pyspark
上
的
ML似乎完全不同--特别是当涉及到处理分类变量、字符串索引
和
OneHotEncoding时(当只有数值变量时,我能够通过以下示例执行RF回归)。虽然有很多处理分类变量
的
示例,比如
和
,但我没有成功地使用它们
中
的
任何一个,因为它们
中
的
大多数都超出了我
的
理解(可能是因为我不熟悉Python ML)。我
将
感谢任何人谁可以帮助解决这个问题。从这里开始我
的
困惑
浏览 4
提问于2017-09-23
得票数 5
1
回答
在
PySpark
数据帧
中
添加优先级列
apache-spark
、
pyspark
、
spark-dataframe
我有一个
dataframe
(input_
dataframe
)
PySpark
,如下所示:我想要一个function(update_col_check),来更新这个数据文件
的
column(col_check)。函数应该检查该列
的
值是否
为
1
,然后
将
col_check
的
值更新
浏览 0
提问于2017-08-13
得票数 0
2
回答
如何删除星火表列
中
的
空白
python
、
apache-spark
、
pyspark
、
databricks
、
sparktable
我想从特定列(Purch_location)
中
的
所有值
中
删除空格。我使用
的
是spark表,而不是
dataframe
或SQL表(但如果需要,我可以使用
dataframe
或SQL表)。
0
||02/11/2017| Groceries4|
浏览 6
提问于2017-12-03
得票数 2
1
回答
基于2个spark数据帧
中
的
匹配zip,创建用于距离计算
的
纬度
和
经度对
python
、
pyspark
、
rdd
、
cartesian-product
我有一个
pyspark
dataframe
A,它有3列:-69 40 trp我有另一个
pyspark
dataframe
B,它具有相同
的
列,但捕获
的
值将不同:-68 43 trp我希望根据
dataframe
B
中
匹配
的
邮政
编码
为
A
的
每个记录创建纬度经度对。因此,输出RDD
浏览 2
提问于2017-11-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
大数据下Python的三款大数据分析工具
PySaprk之DataFrame
Dataiku DSS Code Recipe 介绍
我用Rust徒手重写了一个Spark,并把它开源了
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券