首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >STS基准数据集中的语义相似度得分是如何计算的?

STS基准数据集中的语义相似度得分是如何计算的?
EN

Stack Overflow用户
提问于 2020-02-23 16:55:06
回答 1查看 1.5K关注 0票数 0

这是GitHub存储库:https://github.com/brmson/dataset-sts

STS基准数据集包含大约4000对相似和不相似的句子以及它们的语义相似度得分。

我正在尝试完成的任务:我有另一个自定义数据集,其中也有成对的相似和不相似句子。(只有200对)

我想组合这两个数据集(STS &我的自定义数据集),并使用它来微调Bert模型。(Bert语句转换器:https://github.com/UKPLab/sentence-transformers)

但是,该模型需要所有句子对的语义相似度得分。如何计算自定义数据集中句子分数?

它的计算方式必须与STS基准数据集中句子对的计算方式相同。

这个帖子非常相似,但它没有完全回答我正在寻找的问题:Bert fine-tuned for semantic similarity

EN

回答 1

Stack Overflow用户

发布于 2020-02-25 16:46:57

STS数据集是手动标注的,也就是说,我们人类在循环中说出了句子的相似性。在SemEval数据集中,有一个相当复杂的注释过程,其中每个句子对都由多个人注释,以确保某些共识。这也是您可以获取自定义数据集的方式。

STS分数是人工标注人员判断的相似性分数与您的模型估计的相似性之间的相关系数。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60360584

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档