首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么是CoNLL数据格式?

什么是CoNLL数据格式?
EN

Stack Overflow用户
提问于 2014-12-11 13:45:51
回答 2查看 41.1K关注 0票数 60

我是文本挖掘的新手。我使用的是一个开源的jar (Mate解析器),它在依赖项解析后提供CoNLL 2009格式的输出。我想使用依存关系解析结果进行信息提取。但是我能够理解一些输出,但不能理解CoNLL数据格式。有谁能帮助我理解CoNLL数据格式吗?任何类型的指针都将不胜感激。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-12-11 22:49:38

由于CoNLL每年都是不同的共享任务,因此有许多不同的CoNLL格式。here描述了CoNLL 2009的格式。每行表示一个单词,其中包含一系列以制表符分隔的字段。_%s表示空值。Mate-Parser's manual表示,它使用了CoNLL 2009的前12列:

代码语言:javascript
运行
复制
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

其中一些列的定义来自早期的共享任务( 2006和2007年使用的CoNLL-X format ):

  • ID (句子中的索引,从1)
  • FORM开始)(单词形式itself)
  • LEMMA (单词的引理或stem)
  • POS ( speech)
  • FEAT的一部分)由|)
  • HEAD分隔的形态特征列表(句法母体的索引,0表示ROOT)
  • DEPREL ( HEAD和这个单词之间的句法关系)

这些列的变体(例如,PPOS而不是POS)以P开头,表明该值是自动预测的,而不是黄金标准值。

更新:现在还有一种CoNLL-U数据格式,它扩展了CoNLL-X格式。

票数 68
EN

Stack Overflow用户

发布于 2021-02-12 09:07:46

作为对@dmcc答案的更新:

  • CoNLL是NLP (TSV制表符分隔值,即CSV以分隔符为分隔符)
  • 中的TSV格式的传统名称。它起源于在自然语言学习会议上组织的一系列共享任务(因此得名)
  • 并非所有这些任务都使用" CoNLL“格式,有些任务具有JSON或XML格式
  • 存在独立于CoNLL开发的"CoNLL”格式,最显著的是CoNLL-U

<代码>H19CoNLL格式在列的选择和顺序上有所不同<代码>H210<代码>F211

在CoNLL格式中,

注释(

  • )是关于跨越多个单词的特定单词的字符串值( word
  • annotations
  • )。注释有时使用特殊的符号,例如圆括号(表示短语的开始和结束)或IOBES注释(例如,B-NP: begin of NP,I- NP :在NP的中间,E- NP : NP的结尾,S-NP: NP在当前单词处开始和结束,O: no NP annotation)
  • some CoNLL格式有一列或多列数字标识符作为第一列,这些列之后的下一列(或者如果没有ID,则第一列)通常包含单词
  • 句子中第一个单词的ID是1。如果没有提供ID列,则ID是句子中前面的单词的数量加1。
  • 在依存句法中,单词之间的语法关系保持,在单独的列中为HEAD (=父单词的ID )和EDGE/DEPendency标记从属词如果依存语法中的单词没有父词(即,它是句法词根),则将其HEAD设置为0

在使用声称支持(某些) "CoNLL格式“的工具或库时要小心。不同的CoNLL格式具有不同的列顺序,开发人员可能没有意识到这一点。因此,如果它们从另一种(或未指定的) CoNLL格式获取数据,它们很可能不会按预期工作。

对于不同的CoNLL格式之间的转换,您可以考虑使用CoNLL-RDF (https://github.com/acoli-repo/conll-rdf),分别是CoNLL-Transform (https://github.com/acoli-repo/conll-transform) (免责声明:由我的实验室开发。)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27416164

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档