首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >斯坦福NLP:保留标点符号?

斯坦福NLP:保留标点符号?
EN

Stack Overflow用户
提问于 2017-05-02 03:54:54
回答 1查看 601关注 0票数 1

我在找像这样的句子

幼儿教育学士学位,心理学

  • 我用斯坦福分析器对课文进行注释。
  • 然后,我迭代每句话,并使用NER (命名实体识别)识别“学士学位”。
  • 通过对三元组的处理,我可以看到对象后面是"BE IN“,很可能是大学专业。
  • 因此,我发送的对象短语,以进一步分析。我的麻烦是我不知道如何分开

幼儿教学

从…

心理学

我为这个过程的代码循环通过对象三重,并保持它,如果特定的POS要求得到满足。

代码语言:javascript
运行
复制
private void processTripleObject(List<CoreLabel> objectPhrase )
{
    try
    {
        StringBuilder sb = new StringBuilder();
        for(CoreLabel token: objectPhrase)
        {
            String pos = token.get(CoreAnnotations.PartOfSpeechAnnotation.class);

            TALog.getLogger().debug("pos: "+pos+"  word "+token.word());
            if(!matchDegreeNameByPos(pos))
            {
                return;
            }

            sb.append(token.word());
            sb.append(SPACE);
        }

        IdentifiedToken itoken = new IdentifiedToken(IdentifiedToken.SKILL, sb.toString());

    }
    catch(Exception e)
    {
        TALog.getLogger().error(e.getMessage(),e);
    }

由于教学和心理学之间的逗号不在符号中,我不知道如何识别这一鸿沟。

有人能告诉我吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-05-02 16:58:46

注意,如果没有找到POS标记,token.get(CoreAnnotations.PartOfSpeechAnnotation.class)将返回令牌。使用CoreNLP 3.7.0和"tokenize ssplit pos"注解器进行测试。然后,您可以检查pos是否包含您感兴趣的标点符号字符串。例如,我刚刚测试的一些代码:

代码语言:javascript
运行
复制
String punctuations = ".,;!?";
for (CoreMap sentence : document.get(CoreAnnotations.SentencesAnnotation.class)) {
    for (CoreLabel token: sentence.get(CoreAnnotations.TokensAnnotation.class)) {
        // pos could be "NN" but could also be ","
        String pos = token.get(CoreAnnotations.PartOfSpeechAnnotation.class);
        if (punctuations.contains(pos)) {
            // do something with it
        }
    }
}
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43729848

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档