我希望使用Senseval-2粗略意义数据集,但有相同的描述(关于数据集的格式)。
它应该有决策数据,即是否应该合并两个意义。中间值是置信度度量吗?此外,他们还使用了Wordnet 1.7的预发布版本。我可以使用Wordnet 1.7来做同样的事情吗?
文件中的示例如下所示:
物料%5:00:00:物理:00 3物料%5:00:00:世俗:00
物料%3:00:03::3物料%5:00:00:世俗:00
材料%3:00:04::2材料%3:00:01::
材料%3:00:02::
发布%5:00:00:00:成功(A):00
当前%3:00:01::
当前%3:00:02::
当前%3:01:00::
石头%3:01:00::
石头%5:00:00:彩色:00
空气%1:15:00::4空气%1:27:00::
空气%1:19:00::4空气%1:27:00::
空气%1:27:01::4空气%1:27:00::
空气%1:04:00::
空气%1:10:02::
空气%1:07:00::
空气%1:10:01::
上诉%1:04:00::3上诉%1:10:00::
上诉%1:10:02::3上诉%1:10:00::
发布于 2013-09-06 12:05:44
通过检查,中间的数字实际上描述了有多少个意义处于相同的合并意义中。例如:
matrial%5:00:00:physical:00 3 material%5:00:00:worldly:00
material%3:00:03:: 3 material%5:00:00:worldly:00
基本上说,有三个意义,这被认为是相同的material%5:00:00:worldly:00
,这是两行中提供的两个意义,以及意义本身。
您还可以看到,没有合并的意义没有数量,例如air%1:04:00
,而对于sense material%3:00:04:: 2 material$2:00:01::
,您可以看到有两个意义。因此,您可以通过将第一个位置的意义映射到第二个位置的意义来进行合并。
https://stackoverflow.com/questions/15110269
复制相似问题