我们分别设计了对应的评测方法,供直接用户使用,如下表所示:
类别 指标
推荐任务 Hit@{1, 10, 50}, MRR@{1, 10, 50}, NDCG@{1, 10, 50}
对话任务 PPL, BLEU...Distinct-{1, 2, 3, 4}
策略任务 Accuracy, Hit@{1,3,5}
这里的推荐任务的若干指标均为常用的基于排序的指标;对话任务的指标包括评估概率分布(PPL),关联度(BLEU...安装与使用
CRSLab 可以在以下几种系统上运行:
Linux
Windows 10
macOS X
CRSLab 需要在 Python 3.6 或更高的环境下运行。...0.0154 0.0259
TG-ReDial 0.00793 0.0251 0.0524 0.00793 0.0122 0.0134 0.00793 0.0152 0.0211
生成任务
Model BLEU...@1 BLEU@2 BLEU@3 BLEU@4 Dist@1 Dist@2 Dist@3 Dist@4 Average Extreme Greedy PPL
HERD 0.120 0.0141 0.00136