首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >提取具有特殊值的数据

提取具有特殊值的数据
EN

Stack Overflow用户
提问于 2020-12-28 01:50:55
回答 3查看 60关注 0票数 3

我有一个这样的数据集:

代码语言:javascript
运行
复制
df = pd.DataFrame({'scientist':["Wendelaar Bonga"," Sjoerd E.", "Grätzel"," Michael", "Willett", "Walter C.",
                             "Kessler", "Ronald C.", "Witten, Edward", "Wang, Zhong Lin"],
               'SubjectField': ["Biomedical Engineering", "Inorganic & Nuclear Chemistry",
                                "Organic Chemistry", "Biomedical Engineering", "Developmental Biology",
                                "Mechanical Engineering & Transports", "Biomedical Engineering", "Microbiology",
                                "Cardiovascular System & Hematology", "Biomedical Engineering"]})

我想要计算每个主题领域的科学家数量,并提取具有超过2个科学家的主题领域。这是我用来计算科学家数量的代码

代码语言:javascript
运行
复制
 number_of_scientists_in_fields=data.groupby(['SubjectField'])['scientist'].count()

如何提取拥有2个以上科学家的主题领域?

EN

回答 3

Stack Overflow用户

发布于 2020-12-28 01:54:43

使用value_counts,如下所示:

代码语言:javascript
运行
复制
fields = df.value_counts('SubjectField').to_frame('count')
res = fields[fields['count'] > 2]
print(res)

输出

代码语言:javascript
运行
复制
                        count
SubjectField                 
Biomedical Engineering      4
票数 2
EN

Stack Overflow用户

发布于 2020-12-28 02:31:35

另一种方法,可能没有Dani的好,可能是这样的:

代码语言:javascript
运行
复制
> df2 = df[df.SubjectField.duplicated(keep=False)]
> df2.groupby('SubjectField').count()
                        scientist
SubjectField
Biomedical Engineering          4

但是,此示例将包括2个或更多(不大于2)

票数 1
EN

Stack Overflow用户

发布于 2020-12-28 04:02:35

您只需创建一个Series,然后使用> 2对其进行过滤

使用Groupby.count

代码语言:javascript
运行
复制
In [2554]: x = df.groupby('SubjectField')['scientist'].count()
In [2559]: ans = x[x > 2]

In [2560]: ans
Out[2560]: 
SubjectField
Biomedical Engineering    4
Name: scientist, dtype: int64
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65468699

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档