腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
编写
python
函数
,
在
pyspark
dataframe
中
自动
执行
数据
标注
、
、
、
、
我有一个名为ARRIVAL DELAY的列,根据它的值,我必须
编写
一个
python
函数
来
自动
执行
数据
标记。例如。小于5为早(0),5到20为准时(1),大于20为晚(2)。但该
函数
必须提前、按时和延迟地确定每个类别的范围(例如,使用bin大小)我的代码目前是硬编码的。from
pyspark
.sql.functions import when,col,lit flightsDf = flightsDf.withColumn("multiCl
浏览 34
提问于2021-09-12
得票数 1
1
回答
在
使用
PySpark
时,如何在Spark
中
实现
Python
数据
结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新
编写
一个现有的
Python
应用程序。然而,我仍然对如何在
PySpark
中使用常规
Python
对象感到困惑。我了解Spark
中
的分布式
数据
结构,如RDD、
DataFrame
、Datasets、vector等。Spark有自己的转换操作和动作操作,如.map()、.reduceByKey()来操作这些对象。但是,如果我
在
PySpark
中<
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
2
回答
pyspark
.pandas和熊猫有什么区别?
、
开始
在
Databricks上使用
PySpark
,我看到我可以
在
pandas的同时导入
pyspark
.pandas。有什么不同吗?我想这不像koalas,对吧?
浏览 13
提问于2022-09-20
得票数 0
1
回答
Pyspark
数据
框架操作的单元测试用例
、
、
、
我已经用
python
写了一些带有sql上下文的代码,即
pyspark
,通过将csv转换为
pyspark
dataframe
来对csv
执行
一些操作(df操作,如预处理、重命名列名、创建新列并将其附加到相同的
dataframe
中等)。我希望为它
编写
单元测试用例。我没有在
数据
帧上
编写
单元测试用例的想法。有谁能帮我
在
pyspark
的
dataframe
上写单元测试用例吗?或者给我一些
浏览 1
提问于2016-04-14
得票数 3
2
回答
可以从Scala调用
python
函数
吗?
、
、
、
、
我正在创建一个火花作业,它要求使用用
python
编写
的
函数
将列添加到
dataframe
中
。其余的处理是使用Scala完成的。我已经找到了如何从
pyspark
调用Java/Scala
函数
的示例: 我发现用另一种方式发送
数据
的唯一例子是使用pipe。我是否可以将整个
dataframe
发送到
python
函数
,让
函数
操作
数据
并添加其他列,然后
浏览 3
提问于2017-09-15
得票数 5
1
回答
如何在Scala中将
DataFrame
转换为DynamicFrame对象
、
、
我正在尝试将一些
pySpark
代码转换为Scala,以提高性能。
在
AWS (它使用Apache )
中
,会
自动
为您生成一个脚本,它通常使用DynamicFrame对象加载、转换和写入
数据
。但是,DynamicFrame类并不具有与
DataFrame
类相同的所有功能,有时您必须将其转换回
DataFrame
对象,反之亦然,以
执行
某些操作。下面是我如何在
DataFrame
中将DynamicFrame对象转换为
pySpark
对
浏览 1
提问于2018-05-17
得票数 3
回答已采纳
2
回答
如何在
Pyspark
中使用Scala类
、
、
、
、
我已经搜索了一段时间了,如果有任何方法
在
Pyspark
中使用一个
Pyspark
类,我还没有找到任何关于这个主题的文档或指南。假设我
在
Scala
中
创建了一个简单的类,它使用了一些apache-spark库,如下所示: def exe():
DataFrame
= { import sqlContext.impli
浏览 3
提问于2016-03-15
得票数 29
回答已采纳
1
回答
在
PySpark
(本地)上编程与
在
Jupyter Notebook上使用
Python
编程
、
、
最近我一直
在
使用
pySpark
,所以我已经习惯了它的语法、不同的API和HiveContext
函数
。很多时候,当我开始处理一个项目时,我并不完全知道它的范围是什么,或者输入
数据
的大小,所以有时我最终需要分布式计算的全部功能,而在另一些情况下,我最终得到了一些
在
我的本地计算机上运行良好的脚本。我的问题是,与常规的
Python
/Pandas相比,将
pySpark
作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?我这么问主要是因为
在
浏览 0
提问于2016-07-27
得票数 1
1
回答
PySpark
:根据值
中
的字符列出列名
、
在
PySpark
中
,我试图清理一个
数据
集。一些列的值中有不需要的字符(=“")。我将dataset作为一个
DataFrame
读取,并且我已经创建了一个用户定义的
函数
,它可以成功地删除字符,但是现在我很难
编写
一个脚本来识别我需要在哪些列上
执行
UserDefinedFunction。假设列总是包含类似的条目,我只使用
数据
集的最后一行。
DataFrame
(df): id value1 valu
浏览 0
提问于2018-09-24
得票数 1
回答已采纳
2
回答
斯卡拉是星火的必备品吗?
、
在
它的文档
中
,它说它可以
在
Scala或
Python
中使用。 一些博客说,火花依赖于scala (例如,)。因此,我想知道:scala是Spark的必修课吗?
浏览 2
提问于2014-12-21
得票数 6
1
回答
我必须遵守
pyspark
sql
中
的命令顺序吗?
、
我正在学习
pyspark
sql,我不确定
函数
的顺序是否必须是下一个?
在
何处指定此顺序? 我检查了,但它没有提到任何关于尊重命令顺序的内容。
浏览 2
提问于2019-09-18
得票数 0
1
回答
PySpark
DataFrame
写入空(零字节)文件
、
、
我正在使用Spark3.1.1版本的
PySpark
DataFrame
API进行本地设置。在读取
数据
、
执行
一些转换等之后,我将
DataFrame
保存到磁盘。输出目录与part-0000*文件一起创建,输出目录
中
也有_SUCCESS文件。但是,我的part-0000*总是空的,即零字节。 我试着用parquet和csv格式
编写
它,结果是一样的。在
编写
之前,我调用了df.show()以确保
DataFrame
中有
数据
。d
浏览 8
提问于2022-05-11
得票数 1
1
回答
将Scala
中
的列表转换为
Python
或
dataFrame
、
、
、
、
我
在
Scala中有一个名为dataList的2d列表,我想将它转换为Pandas
DataFrame
。val dataList: List[List[Int]] = tempData.toList<class 'py4j.java_gateway.JavaObject'> 据我所知,我必须使用py4j来访问
Python
中
的集合。但是,我认为我必须使用一个嵌套循环来访
浏览 4
提问于2016-04-23
得票数 4
回答已采纳
2
回答
用于分配新列的列的值
、
在
python
中
,您可以使用df.loc[df"A".isin(1,2,3),"newColumn"] ="numberType",
编写
一个过滤器并为一个新列赋值。这在火花放电
中
是如何工作的?
浏览 2
提问于2022-11-21
得票数 0
回答已采纳
1
回答
传递由:
PySpark
引起的
函数
错误的java.io.EOFException映射转换
当我试图将一个
函数
传递给Spark的map方法时,我遇到了一些问题。我的问题似乎是
在
功能,但不确定它。) ->
DataFrame
:objc[54297]: +[__NSCFConstantString initialize] may ha
浏览 34
提问于2022-10-28
得票数 0
2
回答
udf (用户定义的
函数
)是如何在火花放电
中
工作的?
、
、
、
我想了解udf
在
火花放电
中
的工作原理。每次我们
在
dataframe
之上使用udf时,
python
都会打开吗?
浏览 0
提问于2018-11-26
得票数 1
回答已采纳
1
回答
星星之火与火星之火的语义差异?
、
在
语义上,火花是一个框架。def sum(a,b): return a-b2)如果我
在
火花上使用
py
浏览 3
提问于2020-03-02
得票数 0
回答已采纳
1
回答
为什么我不应该在
Python
转换中使用collect()?
、
TL;DR:我听说某些
PySpark
函数
在
转换
中
是不可取的,但是我不知道哪些
函数
是错误的,它们为什么是错误的? 为什么我不能只
在
某些情况下将
数据
collect()到一个列表
中
,并对行进行迭代呢?
浏览 6
提问于2020-09-25
得票数 1
1
回答
星火
DataFrame
如何区分不同的VectorUDT对象?
、
、
、
、
我正在尝试理解
DataFrame
列类型。当然,
DataFrame
不是一个物化的对象,它只是一组Spark的指令,将来要转换成代码。但我认为,这个类型列表代表了
在
执行
操作时JVM
中
可能出现的对象类型。()root |-- SparseVector'> DenseVector <class '<
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
1
回答
我是否需要使用普通的
python
,除了
pyspark
,或者
pyspark
拥有我所需要的所有东西?
、
、
、
我知道
python
在库
中
是非常全面的,但是当我们切换到
pyspark
时,如果我们需要的东西还没有
在
pyspark
中
可用呢?而且,继续使用
python
可能更容易一些,因为我已经知道了
python
.So: 我可以运行我的普通
python
代码的火花,但仍然得到所有的好处,如速度?你能把它们混合在一起,用
python
编写
一部分代码,用
pyspark
编写
一部分代码吗?
浏览 4
提问于2017-08-30
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券