文章/答案/技术大牛

发布

问什么是CoNLL数据格式？
EN

Stack Overflow用户

提问于 2014-12-11 13:45:51

回答 2查看 41.1K关注 0票数 60

我是文本挖掘的新手。我使用的是一个开源的jar (Mate解析器)，它在依赖项解析后提供CoNLL 2009格式的输出。我想使用依存关系解析结果进行信息提取。但是我能够理解一些输出，但不能理解CoNLL数据格式。有谁能帮助我理解CoNLL数据格式吗？任何类型的指针都将不胜感激。

nlp

text-parsing

text-mining

information-extraction

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-12-11 22:49:38

由于CoNLL每年都是不同的共享任务，因此有许多不同的CoNLL格式。here描述了CoNLL 2009的格式。每行表示一个单词，其中包含一系列以制表符分隔的字段。_%s表示空值。Mate-Parser's manual表示，它使用了CoNLL 2009的前12列：

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

其中一些列的定义来自早期的共享任务( 2006和2007年使用的CoNLL-X format )：

ID (句子中的索引，从1)
FORM开始)(单词形式itself)
LEMMA (单词的引理或stem)
POS ( speech)
FEAT的一部分)由|)
HEAD分隔的形态特征列表(句法母体的索引，0表示ROOT)
DEPREL ( HEAD和这个单词之间的句法关系)

这些列的变体(例如，PPOS而不是POS)以P开头，表明该值是自动预测的，而不是黄金标准值。

更新：现在还有一种CoNLL-U数据格式，它扩展了CoNLL-X格式。

票数 68

Stack Overflow用户

发布于 2021-02-12 09:07:46

作为对@dmcc答案的更新：

CoNLL是NLP (TSV制表符分隔值，即CSV以分隔符为分隔符)
中的TSV格式的传统名称。它起源于在自然语言学习会议上组织的一系列共享任务(因此得名)
并非所有这些任务都使用" CoNLL“格式，有些任务具有JSON或XML格式
存在独立于CoNLL开发的"CoNLL”格式，最显著的是CoNLL-U

<代码>H19CoNLL格式在列的选择和顺序上有所不同<代码>H210<代码>F211

在CoNLL格式中，

注释(

)是关于跨越多个单词的特定单词的字符串值( word
annotations
)。注释有时使用特殊的符号，例如圆括号(表示短语的开始和结束)或IOBES注释(例如，B-NP: begin of NP，I- NP :在NP的中间，E- NP : NP的结尾，S-NP: NP在当前单词处开始和结束，O: no NP annotation)
some CoNLL格式有一列或多列数字标识符作为第一列，这些列之后的下一列(或者如果没有ID，则第一列)通常包含单词
句子中第一个单词的ID是1。如果没有提供ID列，则ID是句子中前面的单词的数量加1。
在依存句法中，单词之间的语法关系保持，在单独的列中为HEAD (=父单词的ID )和EDGE/DEPendency标记从属词如果依存语法中的单词没有父词(即，它是句法词根)，则将其HEAD设置为0

在使用声称支持(某些) "CoNLL格式“的工具或库时要小心。不同的CoNLL格式具有不同的列顺序，开发人员可能没有意识到这一点。因此，如果它们从另一种(或未指定的) CoNLL格式获取数据，它们很可能不会按预期工作。

对于不同的CoNLL格式之间的转换，您可以考虑使用CoNLL-RDF (https://github.com/acoli-repo/conll-rdf)，分别是CoNLL-Transform (https://github.com/acoli-repo/conll-transform) (免责声明:由我的实验室开发。)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27416164

复制

相似问题

问什么是CoNLL数据格式？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是CoNLL数据格式？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是CoNLL数据格式？
EN