我正在做与金融市场相关的新闻文章的文本分析。这些新闻提要中的示例文本
总部位于旧金山的永久投资组合家族基金( value.Viacom )的总裁兼投资组合经理迈克尔·卡基诺( Michael Cuggino )告诉总部位于纽约的S·穆奥公司( S. Muoio & Co )的负责人Reuters.Salvatore Muoio表示:“我们必须从哥伦比亚广播公司那一边对此进行更多的评估,以确保他们不会对一笔糟糕的交易进行投资。”该家族拥有哥伦比亚广播公司和维亚康姆的有表决权股份。他告诉总部位于纽约的S.Muoio&Co( Viacom有投票权股票的主要所有者)表示,竞购Viacom的过程将使value.Viacom等公司更好地与有线和卫星分销商进行更好的谈判,以获得更高的收费。威瑞森、苹果和发现号的Muoio said.Representatives拒绝置评。
我正在使用斯坦福CoreNLP库进行分析。
在上述案文中
Reuters.Salvatore应该是
Reuters. Salvatore由于这个错误,coreNLP解析器会抛出句子maxlen警告,有时还会抛出NullPointerException,因为它不能正确地将文本分割成句子。
这种类型的错误在一些文本中随机发生。我如何让CoreNLP处理这类文本?
发布于 2016-09-15 15:07:23
如果跳过太长的句子对于您的用例来说是可以接受的(因此它至少继续处理其余的数据),也许这就是您所需要的:Setting max Length for Sentence in StanfordCoreNLP。
https://stackoverflow.com/questions/38528421
复制相似问题