首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >spaCy未能正确解析医学文本

spaCy未能正确解析医学文本
EN

Stack Overflow用户
提问于 2017-09-25 12:04:22
回答 1查看 497关注 0票数 4

最近,我在用spaCy将一些医学文本分割成句子时,遇到了一些问题。也许你可以解释一下,为什么会出现这些问题?

如果单词的长度为1,且句子以一个圆点结尾,则句子的结尾将不被识别。例如:

术前、术后血流动力学及肌钙蛋白I (此处无分裂)治疗对心脏手术患者的心肌和心肌线粒体辅酶Q(10)水平无明显影响,提高线粒体效率,提高心肌对体外缺氧复氧应激的耐受性。

另一个问题是字符+/-,它被视为句子的结尾。例如,整个句子被分成几个句子,如下所示:

  • VO(2 2max)显著下降3.6 +/-
  • 2.1、14 +/-
  • 2.5和27.4 +/-
  • 占3.6%,增加5 +/-
  • 4、9.4 +/-
  • 6.4和18.7 +/-
  • 在1000米、2500米和4500米处分别占7%。

以上都应该是一句话!

有时,句子在单词和特殊字符(特殊字符、数字和长度小于3的单词)之间被打断。

接受左室辅助装置的患者(n = 68)与接受最佳医疗管理的患者(n = 61)的1年生存率分别为52%和28%,2年分裂术的生存率分别为29%和13% (P= .008,log秩检验)。

非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2017-09-26 03:30:52

斯派西的英语模型是关于网络数据的培训--主要是博客帖子之类的东西。显然,普通的博客文章与你正在研究的医学文献完全不一样,所以spaCy非常困惑。这个问题并不是spaCy特有的,它也会出现在任何设计用于“典型”英语(不包括医学论文和使用统计建模)的系统中。

医学文本是相当臭名昭著的,因为NLP技术有问题,在其他情况下有效,所以你可能想四处寻找一些专门为之量身定做的东西。或者,您可以尝试根据您的数据制作一个小的培训集,并创建一个新的spaCy模型。

尽管如此,+/-问题看起来确实很奇怪,可能是基于令牌化问题或其他问题,而不是模型问题--我建议您提交一个bug报告这里

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46404803

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档