我有一个包含371个唯一分类条目的大型数据框,但是其中一些条目是相似的,在某些情况下,我想合并可能已经分离的某些类别,例如,我有3个我知道的类别:
3d
3d_platformer
3d_vision
我想把它们合并到一个一般的3d类别下。我觉得这应该可以在小范围内实现,但我也想将其扩展到所有类别。问题是我不知道所有类别的名称。因此,简而言之,完整的问题是:
如何搜索相似的分类名称,然后用一个组名替换所有相似的名称,而不是单独搜索?
发布于 2021-10-22 20:46:57
正则表达式能帮上忙吗?
df.col = df.col.str.replace(r'3d.*', '3d')
如果你正在寻找更像语义的身份,像Gensim这样的NLP库可以提供字符串相似度计算方法:
https://betterprogramming.pub/introduction-to-gensim-calculating-text-similarity-9e8b55de342d
您可以尝试使用您的类别名称作为语料库。
https://stackoverflow.com/questions/69682781
复制相似问题