腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(824)
视频
沙龙
1
回答
按
一列
对
Spark
df
进行
分组
,
并将
一列
的
结果
拆
分为
多
列
-
旋转
和
选择性
合并
、
、
、
、
我有以下
spark
df
请注意,只有在已经通过运行以下命令安装了
spark
的
情况下,您才可以在本地运行此命令。否则,在Databricks集群上复制该问题,该集群将自动初始化
spark
上下文。=
spark
.sparkContext
spark
_dataframe = pd.DataFrame({'id' : ['867', '430', '658', '157', &
浏览 25
提问于2020-07-03
得票数 1
回答已采纳
1
回答
按
星火数据帧所有
列
分组
并计数
、
、
、
我希望使用
Spark
对数据帧
的
每
一列
执行Group。Dataframe将有大约。1000
列
。val
df
= sqlContext .format("org.apache.
spark
.sql.cassandra")channelDf.group
浏览 0
提问于2019-08-12
得票数 1
回答已采纳
1
回答
按
栏
分组
,然后在熊猫中
按
索引绘制盒图
、
我有一个大
的
数据,我想
按
某
一列
分组
,并使用方框图以图形方式检查每个组
的
分布情况。我发现
df
.boxplot()会对数据文件
的
每
一列
都这样做,
并将
它放在一个图中,正如我所需要
的
。问题是,在
进行
了groupby操作之后,我
的
数据都在
一列
中,索引中有组标签,所以我不能对
结果
调用box图。以下是一个例子:
df
= DataFrame(
浏览 2
提问于2013-12-19
得票数 6
回答已采纳
1
回答
Python Groupby字符串
的
一部分
、
我正在按英国邮政编码
对
交易列表
进行
分组
,但我只想
按
邮政编码
的
第一部分
进行
分组
。因此,英国邮政编码
分为
向外
和
向内两部分,由空格分隔。例如W1 5DA。subtotals =
df
.groupby('Postcode').count() 是我现在这样做
的
方式,我现在考虑
的
方式是在DataFrame中添加另
一列
,只包含邮政编码
列
<e
浏览 24
提问于2017-02-01
得票数 2
回答已采纳
2
回答
海运条形图:没有为MultiIndex定义isna
、
、
、
我想使用seaborn barplot()从
多
索引系列创建条形图。我通过两个变量
对
我
的
数据集
进行
了
分组
: module_7_a_
df
= module_7_
df
.groupby(by=['Reported Race "MONRACE"', 'Hispanic Origin"HISPORIG"'])['SENTENCE CAP "SENSPCAP"'].
浏览 144
提问于2021-06-19
得票数 0
4
回答
Pandas -
按
一列
分组
,
按
另
一列
排序,从第三
列
获取值
、
、
、
我想以pandas数据帧为例,
按
一列
对
其
进行
分组
,
按
另
一列
对
其
进行
排序,并从第三
列
中提取第一个元素并填充原始数据帧。 这是我最初
的
df
。我会
按
col_1
分组
,
按
col_2 (升序)排序,从col_3中取出第一个元素,然后用
结果
填充col_4。
df
_in = pd.DataFrame({
浏览 120
提问于2019-06-01
得票数 2
回答已采纳
1
回答
下面的代码(pandas.DataFrame.groupby())做了什么?
、
、
我读了一篇关于预测巨型数据集
的
生存能力
的
博客。在清理数据时,博主使用以下代码填充空
的
Age值: #Age was the most intricate column to be filled.谢谢你
的
帮助,这真让我头疼。
浏览 1
提问于2021-07-19
得票数 1
1
回答
.CSV文件拆分日期: 2016年1月16日至2016年1月16日1月1日
、
、
、
、
这就是我遇到问题
的
地方,我需要获取我
的
.csv文件
的
' date‘
列
,该
列
列出
的
日期为1/16/2016,
并将
其分隔,以便我可以为过滤后
的
.csv输出文件仅选择月份。我要阅读
的
最后
一列
如下: NAME,MONTH,INFO 整个“日期”
列
分为
两年- 2016年
和
2017年。我需要获取2016年
的
名称、月份
和<
浏览 1
提问于2018-02-15
得票数 1
1
回答
为什么BigDecimal
的
火花BigDecimal(min/max)总是返回0?
、
、
我试图
按
DataFrame
的
一列
进行
分组
,并在每个
结果
组中生成BigDecimal
列
的
min
和
max值。
结果
总是产生一个很小
的
(大约0)值。(
对
双列
的
类似min/max调用会产生预期
的
、非零
的
值。)如果我创建以下DataFrame: import org.apache.
浏览 0
提问于2019-02-11
得票数 6
回答已采纳
2
回答
熊猫数据分类词典
、
、
、
Subject_2 Music Day 7我希望
对
这些
列
进行
分层
分组
pivot,并获得了所需
的
结果
。
df
.pivot('Subject_id', 'Subject', 'Score').to_dict('index') 但是如果我再试
一列
(一层更深<
浏览 3
提问于2018-01-15
得票数 5
回答已采纳
1
回答
如何
按
内容将excel排序
结果
输出到单独
的
列
中
、
、
、
我有一个excel
列
,我想
对
结果
进行
排序,
并将
结果
输出到一个单独
的
表中。我希望将输出分类为不同
的
列
,这样输出表中
的
每
一列
都应该有它自己
的
内容类型,只有在原始表中显示
的
次数一样
多
。例如,如果原始
列
如下所示:LeftRight我要下一张纸显示:Right L
浏览 0
提问于2020-06-16
得票数 0
回答已采纳
1
回答
在pandas dataframe python中创建子
列
、
、
我有一个包含
多
列
的
数据帧
df
= pd.DataFrame({"cylinders":[2,2,1,1],1 2 100 6200 3 1 70 1200 我想创建一个新
的
数据帧,并用中位数和平均值创建两个权重子
列
,同时用
浏览 21
提问于2019-01-13
得票数 1
回答已采纳
2
回答
我需要在R中使用循环,但不知道从哪里开始
、
我有一个计算,我必须为23个人执行(他们为每个人分配了不同数量
的
行,所以在excel中很难做到。我想做
的
是把每个人完成测试所用
的
总时间分成5个时间类别(20%),这样我就可以更详细地了解他们
的
反应时间。 我将手动完成此操作,但这将需要相当长
的
一段时间,因为他们每个人都有8组数据。我希望有人能告诉我使用循环
的
最好方法,或者让这个过程自动化一点。我试着理解这些例子,但恐怕我没有这方面的技能。因此,我会像下面这样手工操作,我只是根据每个主题
进行
过滤。我从选择相关
的</
浏览 0
提问于2020-10-13
得票数 0
1
回答
Pandas
按
列
值将数据帧拆
分为
两个数据帧-不使用GroupBy
、
我想根据
列
值将我
的
Pandas数据帧
按
行拆
分为
两个数据帧。 对于可以
按
列
值
对
行
进行
分组
的
情况,有许多问题
和
答案。 但是,在我
的
示例中,我希望在特定
列
中具有唯一字符串
的
行上拆分我
的
数据帧。我
的
计划是获取具有唯
一列
值
的
行
的
行索引,如下所示: split_row_
浏览 12
提问于2020-08-26
得票数 0
回答已采纳
3
回答
如何将两
列
合并
为新
的
DataFrame?
、
、
我有两个DataFrames (
Spark
2.2.0
和
Scala2.11.8)。第一个DataFrame
df
1有一个名为col1
的
列
,第二个
df
2也有一个名为col2
的
列
。两个DataFrames中
的
行数相等。我尝试过join,但我认为应该有其他方法来实现它。 另外,我尝试应用withColumm,但它没有编译。val resul
浏览 1
提问于2017-11-24
得票数 3
回答已采纳
1
回答
从python中
的
另一个数据帧中计数具有特定模式
的
每组数据帧中
的
元素数。
、
、
我试图计算一个数据帧中一个组
的
元素数,并根据第二个数据帧中某
一列
的
某种条件将其分配给另一个数据帧中
的
另
一列
。,并计数
df
1中具有相同id并具有字符串‘
df
1’
和
df
1
的
1-1部分
的
元素数,以便输出如下所示1 aaa-1-1 3 return <e
浏览 2
提问于2019-12-11
得票数 1
回答已采纳
1
回答
根据非
分组
列
中
的
条件
对
多
列
进行
分组
并附加值
、
我想
对
我
的
dataframe中
的
几个
列
进行
分组
,然后将一个新
列
附加到原始dataframe中,其中包含一个非聚合值,该值由
分组
之外
的
另
一列
中
的
条件确定。1,0,0,0,1,0,0,0,1,0,0,1], }) 我想
按
浏览 4
提问于2021-08-24
得票数 1
回答已采纳
1
回答
如何根据开始日期
列
和
合并
为
一列
来选择不同
列
的
部分
、
我需要从不同
的
列
中选择值(同
一列
的
不同版本,例如datecol、col1_v1、col1_v2、col1_v3...)基于日期栏
的
开始
和
结束日期(因为每个版本都在特定日期开始
和
结束),
并将
它们
合并
到单个
列
中我已经获得了作为键值
对
的
开始
和
结束日期,并且使用.between函数,我能够根据日期条件之间
的
筛选条件来获得每
一列
的
浏览 0
提问于2019-09-23
得票数 0
1
回答
使用
spark
sql计算收入贡献
、
、
我有一张这样
的
桌子----- -----burger 500pizza1000pizza 1000 我需要计算汉堡
和
披萨
的
收入贡献。一种方法是首先获得单个项目的mrp总和,并存储在一个变量中,然后获得所有项目的总mrp
的
总和,执行division.But这将需要对单个项目
进行
循环。我想用
spark
浏览 1
提问于2017-07-19
得票数 1
3
回答
火花DataFrame总结
、
假设我有一个类似于这样
的
Spark
:----------------- Sue F 2 Gil M 2 Kim F 3我想要创建这样一个单一值
的
报告:--------------------------------------- 2
浏览 1
提问于2018-05-11
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel数据合并必须掌握的3个技巧
Pandas,数据处理与分析的得力助手!
R包系列——stringr包
Python模块-Pandas(三)排序、运算及高级函数使用
MySQL索引优化&聚簇索引&字段选择性&范围查询&组合索引的字段顺序
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券