腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
窗口
PySpark
多
列
、
、
、
||19 |2017-10-03|2017-09-22 | +---+----------+-----------+ 我知道有很多方法可以
使用
不同的Window API来完成我所要求的工作,但是我想
使用
pyspark
API来完成以下工作。、(时间范围无关,但为了保持一致性,我们
使用
week)内的出现次数。
使用
这些结果添加另一个包含计数的
列
。 挑战是获得正确的Window组合来考虑这两个日期
列
。
浏览 22
提问于2020-06-14
得票数 2
回答已采纳
1
回答
Pyspark
pyspark
.sql.functions行为怪异
、
、
、
当我们有超过3个节点来分发数据时,
pyspark
.sql.functions下的"last“函数在spark上返回不一致的结果。from
pyspark
.sql.types import DoubleType numeric = sqlContext.createDataFrame
浏览 1
提问于2017-02-02
得票数 1
1
回答
TypeError:'Column‘对象是不可调用的--
使用
窗口
函数
、
、
#尝试在
PySpark
中
使用
窗口
函数Join_transaciones3F.row_number().OVER(Window.parti
浏览 10
提问于2022-11-14
得票数 0
1
回答
根据组中的其他项为组中的项分配值
、
、
、
、
spark.createDataFrame(input,['group','input']).show(10,truncate=False) 以下是所需的输出:我正在
使用
pyspark
,但是如果有人知道如何在python中实现这一点,那么我可以将其转换为
pyspark
。
浏览 5
提问于2019-06-25
得票数 0
回答已采纳
1
回答
比较2种
pyspark
dataframe
列
和基于它的另一
列
的更改值
我遇到了一个问题,我从我编写的图形算法中生成了一个数据帧。问题是,在每次运行图形代码之后,我希望基本组件的值基本保持不变。df = spark.createDataFrame( (1, 'A1'), (1, 'A3'), (2, 'B2'), (4, 'C1'),
浏览 4
提问于2020-01-14
得票数 0
2
回答
pyspark
是否支持
窗口
函数(例如first、last、lag、lead)?
、
pyspark
是否支持
窗口
函数(例如first, last, lag, lead)? 例如,如何按一
列
分组并按另一
列
排序,然后按SparkSQL或数据框选择每个组的第一行(这就像
窗口
函数一样)?我发现
pyspark
.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。
浏览 2
提问于2015-03-24
得票数 3
1
回答
如何将排名添加到中
、
、
我有一个有两个
列
- id和count的。我想通过反向计数增加一个排名。因此,最高的计数有1级,第二最高的2级,等等。testDF =spark.createDataFrame((DJS232,437232 232,437232),"id","count")from
pyspark
.sql import8589934592||FKLDFKL| 368|25769803776|然后,我尝试
浏览 3
提问于2020-10-11
得票数 0
回答已采纳
1
回答
在组中对排序
、
、
、
我想在每个"time"组中对
列
"id"进行排序。如果我只对"time"排序,会比
使用
orderby()对两
列
进行排序更有效吗?
浏览 0
提问于2018-04-10
得票数 6
1
回答
未更新火花配置
、
、
从spark中,在Executors
窗口
中,我可以看到分配给每个执行器的内存是6GiB,如下图所示:我试图
使用
以下代码更新spark.driver.memory、spark.executor.memory和spark.executor.
pyspark
.memory:spark =
pyspark
.sql.SparkSession.builder.appNamespark.driver.memo
浏览 4
提问于2021-07-09
得票数 0
2
回答
用电火花改变多
列
的DataType
、
、
我正试图用
pyspark
更改
多
列
(100
列
)的数据类型,我试图创建一个循环或其他可以帮助更改100
列
(任何帮助)的内容,将不胜感激。这是帮助我更改3
列
的语法: IntegerTypedfcontract2 = dfcontract \ .withColumn
浏览 12
提问于2022-07-19
得票数 0
回答已采纳
1
回答
用
窗口
函数替换火花放电中的NA
、
、
、
我想用基于分区
列
的注解替换NA,在
pyspark
中
使用
窗口
函数吗? 所需产出:
浏览 4
提问于2020-02-26
得票数 1
回答已采纳
1
回答
多
列
排序(包括
PySpark
中的计数)
、
、
当其中一个
列
是计数时,我正试图解决如何在dataframe中按多个
列
排序。但这不起作用,大概是因为一旦我运行count(),dataframe仅限
浏览 12
提问于2022-03-09
得票数 0
1
回答
如何
使用
多个隐式反馈的ALS?
、
、
、
在
PySpark
中给出的ALS示例中,根据本文档-- ),
使用
的数据在一
列
中具有显式反馈。这些数据是这样的:收人品的收视率高我知道我们可以通过将implicitPrefs设置为False来
使用
隐式反馈但是,它只接受一
列
。如何
使用
多
列
? 我发现了一个问题:,但是它与星火法和交替最小二乘法无关。我是否必须根据这个答案手动分配加权方
浏览 5
提问于2022-06-17
得票数 0
2
回答
使用
多
列
的
PySpark
sampleBy
、
、
、
我想从
PySpark
上的数据框架中进行分层抽样。有一个sampleBy(col, fractions, seed=None)函数,但它似乎只
使用
一个列作为一个层。有没有办法
使用
多
列作为一个地层?
浏览 5
提问于2017-05-09
得票数 5
回答已采纳
1
回答
按特定顺序为每个唯一ID连接多个字符串行
、
、
、
、
我想要创建一个表,其中每一行都是唯一的ID,places
列
由一个人访问的所有地点和城市组成,按访问日期排序,
使用
Pyspark
或Hive。另外,对于每一
列
,我需要继续单独执行这个步骤。我还尝试
使用
windows函数,如本文()所述,但它控制了一个错误:java.lang.UnsupportedOperationException:
窗口
操作中不支持'collect_list(')。我想:2-对
多</em
浏览 0
提问于2019-06-26
得票数 0
回答已采纳
1
回答
当
使用
PySpark
在CSV中读取时,是否可以覆盖一种
列
类型?
、
、
我试图
使用
PySpark
读取包含
多
列
的CSV文件。inferschema选项非常适合推断大多数列的数据类型。如果我只想覆盖被错误推断的
列
类型之一,那么最好的方法是什么?我可以
使用
这段代码,但它使
PySpark
只导入了模式中指定的一个
列
,这是我不想要的。
浏览 1
提问于2021-08-27
得票数 2
回答已采纳
1
回答
pySpark
映射
多
列
、
、
、
我需要能够
使用
多
列
比较两个数据格式。
pySpark
尝试 # get PrimaryLookupAttributeValue values from reference table in a dictionary to compare them
浏览 4
提问于2020-05-15
得票数 1
回答已采纳
1
回答
如何在
pyspark
dataframe中找到不带group by的累积频率
、
、
我在
pyspark
dataframe中有一个count
列
,如下所示:a 3 50 我想要一个结果数据帧为Count Percent CCount CPercent b 3 50 6 100 我不能
使用
熊猫数据帧我找到了指向
窗口
分区的答案,但我没有这样的列作为分区依据。请大家用
pyspark</
浏览 5
提问于2017-03-20
得票数 0
2
回答
将MinMaxScaler应用于
PySpark
中的
多
列
、
、
我想将MinMaxScalar of
PySpark
应用于
PySpark
数据帧df的
多
列
。到目前为止,我只知道如何将其应用于单个
列
,例如x。from
pyspark
.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于
PySpark
中的许多
列
,有什么方
浏览 0
提问于2020-02-18
得票数 17
回答已采纳
1
回答
使用
多个
窗口
过滤
PySpark
数据的行
、
、
、
、
我正在尝试基于时间戳[(start1, stop1), (start2, stop2), ...]的元组列表来筛选
Pyspark
。每个元组表示一个时间
窗口
。2||2018-09-01 20:17:00| 5|ts是时间戳的一
列
,var是感兴趣的变量的
列
。-----+ |2018-09-01 20:13:00| 1| +-----
浏览 1
提问于2018-09-02
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
EXCEL冻结窗口:冻结首行首列、冻结多行多列、同时冻结行列
如何使用pyspark统计词频?
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
批量插入多列
PySpark算子处理空间数据全解析(5):如何在PySpark里面使用空间运算接口
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券