我正在开发一个自动摘要系统,我想用我的黄金摘要来评估我的输出摘要。对于每个案例,我有多个长度不同的摘要。所以我在这里有点困惑。我的问题是,我应该如何用这些黄金总结来评估我的总结。我应该用每个黄金摘要来评估矿山,然后对结果进行平均,还是假设黄金摘要的并集为黄金摘要,然后用它来评估矿山?
提前谢谢你
发布于 2018-12-11 17:23:25
ROUGE measure将您的摘要与所有参考摘要进行比较。
例如,ROUGE-N是根据您的摘要和每个参考摘要之间的相似n元语法计数之和除以在所有参考摘要中出现的n元语法总数来计算的。
This paper on ROUGE会帮你的。
https://stackoverflow.com/questions/53612466
复制相似问题