我正在做一个项目,在这个项目中,我需要发现一些混乱的单词(不是英语词典的一部分)。我的要求是消除用户输入中所有不识别的单词,然后使用其余的进行进一步处理。
输入:
I want to learn data anfjsdnfj science.
在这里,“anfjsdnfj”是一个乱码单词,应该在初始处理中删除。这些词的来源可能是声音不清(在音频输入的情况下),或者是无意中对设备的触摸。
如何对这种单词做机构化处理呢?
发布于 2018-07-26 14:36:15
你可以用pyenchant:
import enchant
dct = enchant.Dict("en_US")
# Valid word
print(dct.check("Cat"))
# Output
True
# invalid word
print(dct.check("Catu"))
# Output
False
https://stackoverflow.com/questions/-100005788
复制相似问题