文章/答案/技术大牛

发布

社区首页 >问答首页 >如何按职务名称筛选数据集？

问如何按职务名称筛选数据集？
EN

Stack Overflow用户

提问于 2018-11-25 20:47:25

回答 1查看 447关注 0票数 1

我试图提取“数据科学家”和“高级数据科学家”职位的公司、职务描述、评审和位置。一开始，我试图为数据科学家获得一个输出，但未能做到。数据集重复了这两项工作，我正在尝试详细说明所有提到“数据科学家”或“高级数据科学家”的实例。

dataset['position']=dataset.position.str.lower()
dataset
        position            company     description      reviews     location
0   data scientist lead     ALS TDI   This position is...  30.0    Atlanta
1   NaN                      xyz        qualified candid.. 4000.0   Texas
2   data scientist           xcv       python desireable..  232.0    toronto
3   data scientist           intel     CS Degree needed..  322145.0   Newyork
4   senior data scientist   amazon     python, excel....   23222.0     montreal
.
.
5000  data scientist/machine  yahoo   sql needed plus...  Nan            Atlanta

我使用下面的内容创建了一个数据，它显式地记录了只显示“数据科学家”的位置，而不是索引0和5000中的变体。

filtered = dataset[dataset['position'].str.contains('data scientist', na=False)]

但是它不能工作，因为它提供了字符串中包含“数据科学家”(包括“高级数据科学家”和“数据科学家/机器”)的所有记录。

pandas

dataframe

filtering

data-science

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-11-26 00:25:41

pd.Series.str.contains用于查找包含给定字符串的的值。

ps.Series.eq，或等效的相等运算符==，用于查找等于给定字符串的值。

pd.DataFrame.query提供了一种通过字符串查询数据的方法。

因此，您可以使用以下其中之一：

filtered = dataset[dataset['position'].eq('data scientist')]
filtered = dataset[dataset['position'] == 'data scientist']
filtered = dataset.query('position == "data scientist"')

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53471802

复制

相似问题

问如何按职务名称筛选数据集？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何按职务名称筛选数据集？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何按职务名称筛选数据集？
EN