腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4971)
视频
沙龙
1
回答
如何将
pandas
udf
应用于
大型
矩阵
数据
帧
、
、
、
、
我对Spark和
Pandas
真的很陌生。我想将
pandas
UDF
应用于
没有任何列名的
大型
numpy.ndarray
矩阵
。我应该如何定义
UDF
函数的输入? 这就是我所做的。row是cassandra
数据
库中的一行,'b2‘是
数据
库中图像的列名。
浏览 12
提问于2019-08-02
得票数 0
1
回答
PySpark
数据
帧
Pandas
UDF
返回空
数据
帧
、
、
、
我正在尝试按照groupby('Key').apply(
UDF
)方法将
pandas
_
udf
应用于
我的PySpark
数据
帧
以进行一些过滤。为了使用
pandas
_
udf
,我定义了一个输出schema,并在列Number上有一个条件。作为一个例子,这里的简化思想是我只希望返回具有奇数Number的行的ID。这就带来了一个问题,有时在一个组中没有奇怪的Number,因此
UDF
只返回一个空的
数据
帧<
浏览 2
提问于2020-05-18
得票数 3
1
回答
将文本预处理函数
应用于
scala spark中的dataframe列
、
、
我想创建一个函数来处理我在处理文本
数据
时遇到的问题。我熟悉Python和
pandas
数据
帧
,我通常认为解决问题的过程是使用一个函数,然后使用
pandas
apply方法将该函数
应用于
列中的所有元素。我需要对三个独立的
数据
帧
进行大约20次替换,所以用这种方法解决这个问题需要60行代码。有没有一种方法可以在一个函数中进行所有替换,然后将其
应用于
scala中
数据
帧
列中的所有元素?, " &quo
浏览 9
提问于2019-12-26
得票数 0
回答已采纳
1
回答
使用panda.read_csv与使用numpy.loadtext时的输出差异
、
参考代码: import numpy as npdata = pd.read_csv('ex1data2.txt', sep = ',', header = None
浏览 78
提问于2021-06-29
得票数 2
回答已采纳
1
回答
数据
帧
上的spark GROUPED_MAP
udf
是否并行运行?
、
、
、
我正在尝试应用一个PandasUDFType.GROUPED_MAP函数,该函数将一个
数据
帧
作为输入,并产生一个
数据
帧
作为输出。当我执行sdf.groupby(key).apply(
pandas
_
udf
)时,它是基于可用资源将函数并行
应用于
多个组,还是按顺序将函数
应用于
一个组后另一个组?我还没有更改spark的任何默认设置。如果我想在组上并行执行
udf
,我还可以采用哪些替代方法?
浏览 41
提问于2020-08-11
得票数 0
0
回答
使用MinMaxScaler归一化邻接
矩阵
(以
pandas
表示)
、
、
、
我有一个项目与项目的邻近度
矩阵
(dm);两个项目(例如,item0,item1)之间的值是指这两个项目一起出现的次数。
如何将
pandas
中的所有值从0缩放到1?from sklearn import preprocessing但是,我不确定
如何将
scaler
应用于
pandas
数据
帧
。
浏览 0
提问于2016-07-06
得票数 0
回答已采纳
1
回答
Spark中的用户定义函数(
UDF
)是否在集群工作节点上并行运行?
、
假设我在python中创建了一个函数,所以将一个数字求幂为2: def squared(s):%sql select id, squaredWithPython(id) as id_s
浏览 33
提问于2019-10-10
得票数 0
回答已采纳
2
回答
Pyspark:在
数据
帧
的不同组上应用kmeans
、
、
、
使用Pyspark,我希望将kmeans单独
应用于
数据
框架的组,而不是一次性
应用于
整个
数据
框架。目前,我使用了一个For循环,它在每个组上迭代,应用kmeans并将结果附加到另一个表。
浏览 0
提问于2017-11-10
得票数 12
1
回答
pandas
_
udf
和to_
pandas
的区别是什么?
、
当我用熊猫清理大
数据
的时候,我有两种方法:一种是从pyspark 2.3+清洁
数据
中使用sdf,另一种是通过toPandas()将sdf转换成pdf,然后使用熊猫进行清洁。
浏览 1
提问于2019-01-21
得票数 1
回答已采纳
1
回答
不能在pyspark中使用python eval()作为
pandas
udf
,但在python
udf
中使用相同
、
、
、
、
我是pyspark中的
pandas
udf
的新手,需要帮助为
大型
数据
帧
(>1亿行)中的每一行应用
udf
。我的dataframe中有一列,其中包含使用dataframe中的列的多个条件。同样,在
Pandas
udf
中尝试运行失败时,会抛出Python异常"PythonException:从
UDF
抛出异常:'TypeError: eval() arg1必须是字符串、字节或代码对象‘“ 示例代码如下from pys
浏览 29
提问于2021-06-25
得票数 0
1
回答
Pyspark -调用返回Series.interpolate()作为结果的
pandas
_
udf
时出错
、
、
、
我试图创建一个返回interpolation函数的
UDF
,但该函数返回一个序列,带有索引并抛出异常。from pyspark.sql.types import FloatType def
udf
_interpolate(v):df = spark.createDataFrame([ (nam
浏览 16
提问于2019-02-07
得票数 1
1
回答
如何在Python中将.astype()方法
应用于
数据
帧
?
、
、
我想使用.astype方法将
数据
帧
(
pandas
)中的多个列转换为"category“类型。通常,问题是
如何将
方法(.astype)
应用于
数据
帧
?我知道
如何将
方法
应用于
数据
帧
中的列,但是,将其
应用于
数据
帧
并不成功,即使使用for循环也是如此,因为for循环返回一个序列,而.cat.codes方法不适用于该序列。
浏览 9
提问于2020-07-07
得票数 1
回答已采纳
1
回答
Pyspark是spark.lapply的替代品?
、
、
、
我有一个计算密集型的python函数,在for循环中反复调用(每次迭代都是独立的,即令人尴尬的并行)。我正在寻找spark.lapply (来自SparkR)的一种功能,以利用星火集群。
浏览 1
提问于2019-08-05
得票数 0
1
回答
我需要一些建议来加速python代码的
数据
清理
、
、
、
、
我正在使用python notebook (jupyter)运行一个辅助
数据
分析项目。
数据
集有大约1.3行,我要做的第一件事是从
数据
集中的'date‘列中提取日、月和年。我估计可能需要一个半小时才能完成
数据
处理过程。我想知道是否有人可以对我的代码提出一些建议来提高速度?calendar_total.append(new_calendar)同样,我们的目标是从'day‘列中提取年/月/日,并将
浏览 4
提问于2017-02-02
得票数 0
1
回答
如何将
所有有窗口的值传递给pyspark
、
、
、
、
我想在dataframe上执行以下操作: from pyspark.sql import SparkSessionss = SparkSession.builderfrom pyspark.sql.functions import
udf
我也试过熊猫
UDF
。我用熊猫获得了我的预期产量(见下文)。但是,“应用”方法不返回窗口列。
浏览 0
提问于2019-02-15
得票数 1
2
回答
如何在DataFrame中跨组使用QuantileDiscretizer?
、
、
、
show_name: string (nullable = true)这是关于客户观看某个特定节目的次数的
数据
该
数据
集总共有1.33亿行,具有192个不同的show_names。 对于每个单独的节目,我应该将客户分成3类(1,2,3)。
浏览 0
提问于2017-05-03
得票数 5
1
回答
如何将
返回
pandas
数据
帧
的函数
应用于
一系列输入,以便返回单个
数据
帧
?
、
、
、
我在Python语言中使用
Pandas
,它返回一个alpha_vantage
数据
框表。 我已经编写了一个函数,如下所示,它接受一个股票名称,重置
数据
帧
的索引并将其重命名。
如何将
此函数
应用于
几个输入,以便为它们返回单独的
数据
帧
?目前,我必须手动完成此操作,并为每个输入单独运行该函数。 如果我用股票列表创建一个
pandas
序列,并将函数
应用于
该序列,是否有效?'compact') ticker
浏览 18
提问于2021-02-07
得票数 0
回答已采纳
2
回答
将numpy
矩阵
转换为一组
pandas
级数
、
、
问:有没有一种快速的方法将2D Numpy
矩阵
转换为一组
Pandas
系列?例如,(100 x5) ndarray,到5个系列,每个系列有100行。背景:我需要使用随机生成的不同类型的
数据
(浮点数、字符串等)创建一个
pandas
数据
帧
。目前,对于float,我创建了一个numpy
矩阵
,对于strings,我创建了一个字符串数组。然后,我将所有这些内容与axis=1结合起来,形成一个
数据
帧
。这不会保留每个单独列的
数据
类型
浏览 29
提问于2021-04-29
得票数 0
回答已采纳
1
回答
pyspark
pandas
udf
RuntimeError:返回的列数与指定的架构不匹配
、
、
我有下面定义的
pandas
udf
schema2 = StructType([ StructField('sensorid', IntegerType(), True),def PreProcessconfidence']) df['s
浏览 76
提问于2020-08-14
得票数 5
1
回答
从熊猫到
pandas
_
udf
转换申请
、
、
、
如何将
以下示例代码转换为
pandas
_
udf
: some code that applies to each row(非分组),该函数适用于熊猫
数据
的每一行,并生成一个输出。理想情况下,我将df_contracts_courses作为火花
数据
,并将
pandas
_
udf
函数直接应用到它。我试着编写,将一个单调递增的ID添加到spark,并根据该ID进行分组,并将panadas
浏览 14
提问于2022-10-17
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
pandas指南:做更高效的数据科学家
Python一行命令生成数据分析报告
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
这样做能让你的 pandas 循环加快 71803 倍
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券