首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在spacy中表示一个未知/空白的单词?

如何在spacy中表示一个未知/空白的单词?
EN

Stack Overflow用户
提问于 2019-08-02 02:42:30
回答 1查看 211关注 0票数 2

我正在处理来自音频文本的文本,其中有一些未知的单词。每个未知词都有标记(例如“商店不认识他”)。我正在寻找表示“未知”单词的最佳方法,以便最大限度地减少spacy句子依存分析的混乱。

什么是最好的替代品,以增加spacy的句子依存解析器在最广泛的句子范围内工作得最好的几率?是空格/‘’或'___‘或'...’或者这无关紧要吗?没有结构来确定\何时发生/在何处发生。

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-02 16:33:16

如果单词是未知的,最好简单地删除它们并截断多余的空格。如果未知的单词/标记不包括在spacy词汇表中,它们无论如何都会搞乱依存关系解析,用特殊字符替换它们也是如此。

代码语言:javascript
运行
复制
He / to the store

输出:

代码语言:javascript
运行
复制
He ROOT
/ punct
to prep
the det
store pobj

然而,

代码语言:javascript
运行
复制
He to the store

输出:

代码语言:javascript
运行
复制
He ROOT
to prep
the det
store pobj

如果你删除了它们,那么基本上你得到的依赖关系解析对于其余的转录是正确的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57315220

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档