我有一个应该由grep过滤/不匹配的列表。假设我们有一个字符串: This is a keyword string, that should not match 所以本例中的行应该被过滤掉,因为其中包含了keyword。在这种情况下,因为单词important包含在字符串中,所以它应该匹配,并且不会被过滤。还有很多单词,不仅仅是important,还有像
我的问题基本上是这样的。我有一个pandas dataframe,它的一个列包含相当多的文本(通常是20到200个单词)。这个数据帧大约有600k行。最重要的是,我有一个单词列表,大约有15万个条目长,需要从数据帧中的字符串中过滤掉。我目前正在使用这个方法来做这件事:
for word in uncommon_