最近,我在用spaCy将一些医学文本分割成句子时,遇到了一些问题。也许你可以解释一下,为什么会出现这些问题?
如果单词的长度为1,且句子以一个圆点结尾,则句子的结尾将不被识别。例如:
术前、术后血流动力学及肌钙蛋白I (此处无分裂)治疗对心脏手术患者的心肌和心肌线粒体辅酶Q(10)水平无明显影响,提高线粒体效率,提高心肌对体外缺氧复氧应激的耐受性。
另一个问题是字符+/-
,它被视为句子的结尾。例如,整个句子被分成几个句子,如下所示:
以上都应该是一句话!
有时,句子在单词和特殊字符(特殊字符、数字和长度小于3的单词)之间被打断。
接受左室辅助装置的患者(n = 68)与接受最佳医疗管理的患者(n = 61)的1年生存率分别为52%和28%,2年分裂术的生存率分别为29%和13% (P= .008,log秩检验)。
非常感谢!
发布于 2017-09-26 03:30:52
斯派西的英语模型是关于网络数据的培训--主要是博客帖子之类的东西。显然,普通的博客文章与你正在研究的医学文献完全不一样,所以spaCy非常困惑。这个问题并不是spaCy特有的,它也会出现在任何设计用于“典型”英语(不包括医学论文和使用统计建模)的系统中。
医学文本是相当臭名昭著的,因为NLP技术有问题,在其他情况下有效,所以你可能想四处寻找一些专门为之量身定做的东西。或者,您可以尝试根据您的数据制作一个小的培训集,并创建一个新的spaCy模型。
尽管如此,+/-
问题看起来确实很奇怪,可能是基于令牌化问题或其他问题,而不是模型问题--我建议您提交一个bug报告这里。
https://stackoverflow.com/questions/46404803
复制相似问题