我是文本挖掘的新手。我使用的是一个开源的jar (Mate解析器),它在依赖项解析后提供CoNLL 2009格式的输出。我想使用依存关系解析结果进行信息提取。但是我能够理解一些输出,但不能理解CoNLL数据格式。有谁能帮助我理解CoNLL数据格式吗?任何类型的指针都将不胜感激。
发布于 2014-12-11 22:49:38
由于CoNLL每年都是不同的共享任务,因此有许多不同的CoNLL格式。here描述了CoNLL 2009的格式。每行表示一个单词,其中包含一系列以制表符分隔的字段。_
%s表示空值。Mate-Parser's manual表示,它使用了CoNLL 2009的前12列:
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
其中一些列的定义来自早期的共享任务( 2006和2007年使用的CoNLL-X format ):
ID
(句子中的索引,从1)FORM
开始)(单词形式itself)LEMMA
(单词的引理或stem)POS
( speech)FEAT
的一部分)由|)HEAD
分隔的形态特征列表(句法母体的索引,0表示ROOT
)DEPREL
( HEAD
和这个单词之间的句法关系)这些列的变体(例如,PPOS
而不是POS
)以P
开头,表明该值是自动预测的,而不是黄金标准值。
更新:现在还有一种CoNLL-U数据格式,它扩展了CoNLL-X格式。
发布于 2021-02-12 09:07:46
作为对@dmcc答案的更新:
<代码>H19CoNLL格式在列的选择和顺序上有所不同<代码>H210<代码>F211
在CoNLL格式中,
注释(
在使用声称支持(某些) "CoNLL格式“的工具或库时要小心。不同的CoNLL格式具有不同的列顺序,开发人员可能没有意识到这一点。因此,如果它们从另一种(或未指定的) CoNLL格式获取数据,它们很可能不会按预期工作。
对于不同的CoNLL格式之间的转换,您可以考虑使用CoNLL-RDF (https://github.com/acoli-repo/conll-rdf),分别是CoNLL-Transform (https://github.com/acoli-repo/conll-transform) (免责声明:由我的实验室开发。)
https://stackoverflow.com/questions/27416164
复制相似问题