首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >利用CoreNLP将文本分割成句子时的错误

利用CoreNLP将文本分割成句子时的错误
EN

Stack Overflow用户
提问于 2016-07-22 14:02:37
回答 1查看 46关注 0票数 0

我正在做与金融市场相关的新闻文章的文本分析。这些新闻提要中的示例文本

总部位于旧金山的永久投资组合家族基金( value.Viacom )的总裁兼投资组合经理迈克尔·卡基诺( Michael Cuggino )告诉总部位于纽约的S·穆奥公司( S. Muoio & Co )的负责人Reuters.Salvatore Muoio表示:“我们必须从哥伦比亚广播公司那一边对此进行更多的评估,以确保他们不会对一笔糟糕的交易进行投资。”该家族拥有哥伦比亚广播公司和维亚康姆的有表决权股份。他告诉总部位于纽约的S.Muoio&Co( Viacom有投票权股票的主要所有者)表示,竞购Viacom的过程将使value.Viacom等公司更好地与有线和卫星分销商进行更好的谈判,以获得更高的收费。威瑞森、苹果和发现号的Muoio said.Representatives拒绝置评。

我正在使用斯坦福CoreNLP库进行分析。

在上述案文中

代码语言:javascript
运行
复制
Reuters.Salvatore

应该是

代码语言:javascript
运行
复制
Reuters. Salvatore

由于这个错误,coreNLP解析器会抛出句子maxlen警告,有时还会抛出NullPointerException,因为它不能正确地将文本分割成句子。

这种类型的错误在一些文本中随机发生。我如何让CoreNLP处理这类文本?

EN

回答 1

Stack Overflow用户

发布于 2016-09-15 15:07:23

如果跳过太长的句子对于您的用例来说是可以接受的(因此它至少继续处理其余的数据),也许这就是您所需要的:Setting max Length for Sentence in StanfordCoreNLP

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38528421

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档