腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
有没有org.apache.spark.functions.transform
的
等价物?
、
、
、
org.apache.spark.functions.transform
将
一个
函数
应用于
数组
的
每个
元素
(在Spark3.0中是新
的
),然而,
pyspark
docs没有提到等效
的
函数
(有
pyspark
.sql.DataFrame.transform-但它用于转换DataFrames,而不是数组
元素
)
浏览 12
提问于2020-12-06
得票数 0
1
回答
PySpark
将
函数
应用于
行
的
唯一
元素
、
我在
PySpark
中工作,并将一个事务表作为Spark DataFrame导入,如下所示: User_ID Date Product_NameC 2019-10-01 Product 1 A 2019-12-01 Product 1 我正在尝试做
的
是创建一个结果表,对于每个
唯一
的
User_ID,计算该用户是否购买了比产品2更多
的
产品1,然后将在这个新表<em
浏览 11
提问于2020-10-03
得票数 1
回答已采纳
1
回答
使用
PySpark
统计每个窗口
的
用户数
、
、
、
、
我正在使用Kafka流式传输一个JSON文件,
将
每一
行
作为一条消息发送。其中一个关键字是用户
的
email。下面是我
的
浏览 2
提问于2018-11-21
得票数 0
1
回答
火花流DStream
元素
与RDD
、
、
、
我目前正在使用
pyspark
.streaming.kafka.createDirectStream的卡夫卡消费者(用火药厂) 火花流提供了一种称为离散流或DStream
的
高级抽象,它表示连续
的
数据流DStreams可以从卡夫卡、弗卢姆和动态等源
的
输入数据流中创建,也可以通过在其他DStreams上应用高级操作来创建。在内部,DStream被表示为RDDs
的
序列。本质上,我希望
将
一组
函数
应用于
DStream中
的
每个
元素<
浏览 4
提问于2016-02-29
得票数 0
2
回答
从
PySpark
DataFrame列中删除
元素
我知道
PySpark
DataFrames是不可变
的
,所以我想创建一个新列,该列是根据应用到
PySpark
DataFrame
的
现有列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该列是
唯一
int列表(在给定列表中不重复int),例如:[1,2][2,3] 上面是一个玩具例子,因为我
的
实际DataFrame有一个最大长度为52个
唯一
ints
的
列表。我想要生成一
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
1
回答
使用
PySpark
并行化自定义
函数
、
我熟悉使用UDF将自定义
函数
逐行
应用于
DataFrame。但是,我想知道如何将自定义
函数
并行
应用于
我
的
DataFrame
的
不同子集。下面是一个简化
的
例子:import pandas as pd
浏览 1
提问于2018-07-20
得票数 2
1
回答
我是否需要使用普通
的
python,除了
pyspark
,或者
pyspark
拥有我所需要
的
所有东西?
、
、
、
我
的
公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的,但是当我们切换到
pyspark
时,如果我们需要
的
东西还没有在
pyspark
中可用呢?而且,继续使用python可能更容易一些,因为我已经知道了python.So: 你能把它们混合在一起,用python编写一部分代码,用
pyspa
浏览 4
提问于2017-08-30
得票数 0
2
回答
PySpark
中
的
窗口
函数
和条件过滤器
、
、
是否有一种方法可以有条件地
将
筛选器
应用于
pyspark
中
的
窗口
函数
?对于col1中
的
每个组,我希望只保留在col2中有X
的
行
。如果一个组在X中没有col2,我希望保留该组中
的
所有
行
。
浏览 2
提问于2019-11-20
得票数 0
回答已采纳
1
回答
PySpark
-
将
列合并为包含列表
的
列
我有一个3列
的
星火数据。如果帮助,列1是
唯一
的
键,没有重复。Col1 | Col2 | Col3 || 11 | 'a' | 13 |由此产生
的
数据文件:-------------------- |
浏览 7
提问于2022-08-19
得票数 0
回答已采纳
1
回答
用
PySpark
计算形状值
、
、
、
、
我正在寻找一种方法来减少在我
的
大型数据集上计算SHAP值所需
的
计算时间(大约180米
行
,6个特性),我遇到了这个,讨论了如何在SHAP上使用
PySpark
。我是
PySpark
新手,我正在努力弄清楚如何使用本文中提供
的
代码片段来运行我
的
代码。 我现在使用下面的代码运行SHAP,其中还使用了X_values来适应我
的
隔离森林模型。代码片段演示了如何在
PySpark
中使用Pandas并行化应用扩展程序。我们定义了一个名为calculate_
浏览 6
提问于2022-07-28
得票数 2
2
回答
如何应用二维numpy数组/矩阵中每个
元素
的
函数
/映射值?
(sigmoid/logistic):def myfunc(z):我希望获得一个新
的
NumPy数组/矩阵,其中每个
元素
都是
将
myfunc
函数
应用于
原始矩阵中相应
元素
的
结果。map(myfunc, mymatrix)失败是因为它尝试
将
myfunc
应用于
行
,而不是
应用于
每个
元素<
浏览 2
提问于2017-03-04
得票数 60
1
回答
pyspark
.sql.functions -计数以考虑空值:
、
我试图让
pyspark
.sql.functions.count()
函数
或
pyspark
.sql.functions.count_distinct()
函数
在计算列中不同
元素
的
数量时考虑null值。从我
的
研究来看,这似乎与count_distinct()以与相同
的
方式工作有关。| 4| 4|
浏览 12
提问于2022-06-07
得票数 0
1
回答
PySpark
安全列类型转换
、
如果我
将
一个列强制转换为不同
的
类型,那么任何无法强制转换
的
数据都会被静默转换为NULL: df = sc.parallelize([('a', '1'), ('b', 'NAN'), ('c', 'foo
浏览 4
提问于2017-09-29
得票数 0
1
回答
将
特定功能
应用于
星火数据框架中结构化列
的
有效途径?
、
、
、
、
计算每一
行
中
元素
总数
的
最有效方法是什么?在上面的示例中,中,预期
的
结果数据框架是这样
的
:6…from
pyspark
.sql.types import IntegerType如果由于某种原因而没有
将
字段存储在一起,则map()在计算每个数组
的
长度之前强制对其进行提取。 更广泛地说,“纯粹
的
”火花方式会更有效,但它是逃避我。对
浏览 0
提问于2016-11-13
得票数 2
2
回答
Pyspark
:如何提取每个键
的
最低值?
、
我
的
数据帧df:A 1 5A 2 6B 5 5 我想从C1中每个不同值
的
C2中提取最低值作为新
的
数据帧。
浏览 9
提问于2020-05-31
得票数 0
回答已采纳
2
回答
将
每个spark数据帧
元素
与相同数据帧
的
所有其余
元素
进行比较
、
、
、
我正在寻找一种有效
的
方法,
将
一些映射
函数
应用于
数据帧中
的
每一对
元素
。+---+---++---+---+| 2| b|| 4| d|a -> cb -> cc -> d 通过比较,我指的是自定义
函数
,它接受这两
浏览 6
提问于2020-11-20
得票数 0
3
回答
熊猫.groupby
将
返回一个地址
、
、
我真的不明白为什么在为“课程”创建一个带有groupby
的
Dataframe时,我会得到一个入口位置输出?代码:technologies = ({print(df2) Courses Fee Duration Discount 0
浏览 22
提问于2022-10-22
得票数 0
回答已采纳
1
回答
如何
将
groupBy和聚合
函数
应用于
PySpark
DataFrame中
的
特定窗口?
、
、
、
我想将groupBy和后续
的
agg
函数
应用于
PySpark
DataFrame,但仅
应用于
特定窗口。这可以通过一个例子得到最好
的
说明。假设我有一个名为df
的
数据集 df.show() | ID| Timestamp| Condition|0| 48| +-----+--------
浏览 19
提问于2021-02-10
得票数 2
回答已采纳
2
回答
计算
PySpark
中每一
行
的
唯一
值
、
、
、
、
我有
PySpark
DataFrame: StructField("col1", StringType"cc", "dd"),我需要计算每一
行
中
唯一
值
的
计
浏览 6
提问于2022-10-17
得票数 1
回答已采纳
2
回答
当调用多个参数时,Haskell列出了非穷举模式。
、
、
type StudentMark = (String, Int)capMarks :: [StudentMark] -> [StudentMark]下面是我
的
capMark
函数
:它应该返回: [("Jo", 3
浏览 2
提问于2016-01-22
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark数据分析基础:PySpark原理详解
遇见YI算法之初识Pyspark(二)
Hype软件内置的JavaScript函数介绍
机器学习实践:如何将Spark与Python结合?
PySpark,大数据处理的Python加速器!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券