我想知道在机器学习,深度学习,或自然语言处理中的术语,当它们之间没有空格时,将单词分割成一个段落。
示例:“我想做饭”
变成:“我想做饭”
这并不容易,因为您没有字符来对单词进行标记。
感谢您的帮助
发布于 2019-02-21 08:57:23
您可以使用polyglot
包实现这一点。有一个用于形态分析的选项。
这种分析是基于对遇到语素(“语法的原始单位,一种语言话语中最小的独立有意义的元素”)最频繁的单词进行训练的morfessor模型。
from polyglot.text import Text
blob = "Wewillmeettoday."
text = Text(blob)
text.language = "en"
print(text.morphemes)
输出将为:
WordList([u'We', u'will', u'meet', u'to', u'day', u'.'])
请注意,如果您想开始使用多语言,您应该首先仔细阅读文档,因为有一些事情需要考虑,例如特定于语言的模型的downloading。
https://stackoverflow.com/questions/54802849
复制相似问题