文章/答案/技术大牛

发布

社区首页 >问答首页 >spaCy未能正确解析医学文本

问spaCy未能正确解析医学文本
EN

Stack Overflow用户

提问于 2017-09-25 12:04:22

回答 1查看 497关注 0票数 4

最近，我在用spaCy将一些医学文本分割成句子时，遇到了一些问题。也许你可以解释一下，为什么会出现这些问题？

如果单词的长度为1，且句子以一个圆点结尾，则句子的结尾将不被识别。例如：

术前、术后血流动力学及肌钙蛋白I (此处无分裂)治疗对心脏手术患者的心肌和心肌线粒体辅酶Q(10)水平无明显影响，提高线粒体效率，提高心肌对体外缺氧复氧应激的耐受性。

另一个问题是字符+/-，它被视为句子的结尾。例如，整个句子被分成几个句子，如下所示：

VO(2 2max)显著下降3.6 +/-
2.1、14 +/-
2.5和27.4 +/-
占3.6%，增加5 +/-
4、9.4 +/-
6.4和18.7 +/-
在1000米、2500米和4500米处分别占7%。

以上都应该是一句话！

有时，句子在单词和特殊字符(特殊字符、数字和长度小于3的单词)之间被打断。

接受左室辅助装置的患者(n = 68)与接受最佳医疗管理的患者(n = 61)的1年生存率分别为52%和28%，2年分裂术的生存率分别为29%和13% (P= .008，log秩检验)。

非常感谢!

nlp

spacy

回答 1

Stack Overflow用户

发布于 2017-09-26 03:30:52

斯派西的英语模型是关于网络数据的培训--主要是博客帖子之类的东西。显然，普通的博客文章与你正在研究的医学文献完全不一样，所以spaCy非常困惑。这个问题并不是spaCy特有的，它也会出现在任何设计用于“典型”英语(不包括医学论文和使用统计建模)的系统中。

医学文本是相当臭名昭著的，因为NLP技术有问题，在其他情况下有效，所以你可能想四处寻找一些专门为之量身定做的东西。或者，您可以尝试根据您的数据制作一个小的培训集，并创建一个新的spaCy模型。

尽管如此，+/-问题看起来确实很奇怪，可能是基于令牌化问题或其他问题，而不是模型问题--我建议您提交一个bug报告这里。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46404803

复制

相似问题

问spaCy未能正确解析医学文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问spaCy未能正确解析医学文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问spaCy未能正确解析医学文本
EN