问利用CoreNLP将文本分割成句子时的错误
EN

Stack Overflow用户

提问于 2016-07-22 14:02:37

回答 1查看 46关注 0票数 0

我正在做与金融市场相关的新闻文章的文本分析。这些新闻提要中的示例文本

总部位于旧金山的永久投资组合家族基金( value.Viacom )的总裁兼投资组合经理迈克尔·卡基诺( Michael Cuggino )告诉总部位于纽约的S·穆奥公司( S. Muoio & Co )的负责人Reuters.Salvatore Muoio表示：“我们必须从哥伦比亚广播公司那一边对此进行更多的评估，以确保他们不会对一笔糟糕的交易进行投资。”该家族拥有哥伦比亚广播公司和维亚康姆的有表决权股份。他告诉总部位于纽约的S.Muoio&Co( Viacom有投票权股票的主要所有者)表示，竞购Viacom的过程将使value.Viacom等公司更好地与有线和卫星分销商进行更好的谈判，以获得更高的收费。威瑞森、苹果和发现号的Muoio said.Representatives拒绝置评。

我正在使用斯坦福CoreNLP库进行分析。

在上述案文中

Reuters.Salvatore

应该是

Reuters. Salvatore

由于这个错误，coreNLP解析器会抛出句子maxlen警告，有时还会抛出NullPointerException，因为它不能正确地将文本分割成句子。

这种类型的错误在一些文本中随机发生。我如何让CoreNLP处理这类文本？

java

stanford-nlp

Stack Overflow用户

发布于 2016-09-15 15:07:23

如果跳过太长的句子对于您的用例来说是可以接受的(因此它至少继续处理其余的数据)，也许这就是您所需要的：Setting max Length for Sentence in StanfordCoreNLP。

票数 0

查看全部 1 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38528421

复制

相似问题

问利用CoreNLP将文本分割成句子时的错误
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用CoreNLP将文本分割成句子时的错误EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用CoreNLP将文本分割成句子时的错误
EN