首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >没有空格时的单词标记化

没有空格时的单词标记化
EN

Stack Overflow用户
提问于 2019-02-21 08:52:57
回答 1查看 445关注 0票数 0

我想知道在机器学习,深度学习,或自然语言处理中的术语,当它们之间没有空格时,将单词分割成一个段落。

示例:“我想做饭”

变成:“我想做饭”

这并不容易,因为您没有字符来对单词进行标记。

感谢您的帮助

EN

回答 1

Stack Overflow用户

发布于 2019-02-21 08:57:23

您可以使用polyglot包实现这一点。有一个用于形态分析的选项。

这种分析是基于对遇到语素(“语法的原始单位,一种语言话语中最小的独立有意义的元素”)最频繁的单词进行训练的morfessor模型。

documentation

代码语言:javascript
运行
AI代码解释
复制
from polyglot.text import Text

blob = "Wewillmeettoday."
text = Text(blob)
text.language = "en"
print(text.morphemes)

输出将为:

代码语言:javascript
运行
AI代码解释
复制
WordList([u'We', u'will', u'meet', u'to', u'day', u'.'])

请注意,如果您想开始使用多语言,您应该首先仔细阅读文档,因为有一些事情需要考虑,例如特定于语言的模型的downloading

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54802849

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文