这是GitHub存储库:https://github.com/brmson/dataset-sts
STS基准数据集包含大约4000对相似和不相似的句子以及它们的语义相似度得分。
我正在尝试完成的任务:我有另一个自定义数据集,其中也有成对的相似和不相似句子。(只有200对)
我想组合这两个数据集(STS &我的自定义数据集),并使用它来微调Bert模型。(Bert语句转换器:https://github.com/UKPLab/sentence-transformers)
但是,该模型需要所有句子对的语义相似度得分。如何计算自定义数据集中句子分数?
它的计算方式必须与STS基准数据集中句子对的计算方式相同。
这个帖子非常相似,但它没有完全回答我正在寻找的问题:Bert fine-tuned for semantic similarity
发布于 2020-02-25 16:46:57
STS数据集是手动标注的,也就是说,我们人类在循环中说出了句子的相似性。在SemEval数据集中,有一个相当复杂的注释过程,其中每个句子对都由多个人注释,以确保某些共识。这也是您可以获取自定义数据集的方式。
STS分数是人工标注人员判断的相似性分数与您的模型估计的相似性之间的相关系数。
https://stackoverflow.com/questions/60360584
复制相似问题