我试图提取“数据科学家”和“高级数据科学家”职位的公司、职务描述、评审和位置。一开始,我试图为数据科学家获得一个输出,但未能做到。数据集重复了这两项工作,我正在尝试详细说明所有提到“数据科学家”或“高级数据科学家”的实例。
dataset['position']=dataset.position.str.lower()
dataset
position company description reviews location
0 data scientist lead ALS TDI This position is... 30.0 Atlanta
1 NaN xyz qualified candid.. 4000.0 Texas
2 data scientist xcv python desireable.. 232.0 toronto
3 data scientist intel CS Degree needed.. 322145.0 Newyork
4 senior data scientist amazon python, excel.... 23222.0 montreal
.
.
5000 data scientist/machine yahoo sql needed plus... Nan Atlanta
我使用下面的内容创建了一个数据,它显式地记录了只显示“数据科学家”的位置,而不是索引0和5000中的变体。
filtered = dataset[dataset['position'].str.contains('data scientist', na=False)]
但是它不能工作,因为它提供了字符串中包含“数据科学家”(包括“高级数据科学家”和“数据科学家/机器”)的所有记录。
发布于 2018-11-26 00:25:41
pd.Series.str.contains
用于查找包含给定字符串的的值。
ps.Series.eq
,或等效的相等运算符==
,用于查找等于给定字符串的值。
pd.DataFrame.query
提供了一种通过字符串查询数据的方法。
因此,您可以使用以下其中之一:
filtered = dataset[dataset['position'].eq('data scientist')]
filtered = dataset[dataset['position'] == 'data scientist']
filtered = dataset.query('position == "data scientist"')
https://stackoverflow.com/questions/53471802
复制相似问题