前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >陈丹琦重新定义了文本相似性问题,提出C-STS,GPT-4也不能很好解决

陈丹琦重新定义了文本相似性问题,提出C-STS,GPT-4也不能很好解决

作者头像
zenRRan
发布2023-08-22 14:31:49
2920
发布2023-08-22 14:31:49
举报
文章被收录于专栏:深度学习自然语言处理

陈丹琦的这个工作不错,之前的文本相似度基本只是一个分数,而其实可以分为很多不同视角下的相似情况,这里相当于重新定义了任务。另外,数据构建也是通过模型生成,一切都很方便快捷。最后实验也表明GPT4也时而会出错,这个开拓的方向可以继续深入研究个探讨。

下面站在作者角度具体了解下吧。

论文:C-STS: Conditional Semantic Textual Similarity 地址:https://arxiv.org/abs/2305.15093 单位:Princeton、Allen AI等

语义文本相似性(STS)一直是NLP中的一项基石任务,它测量一对句子之间的相似程度,在信息检索,问答和嵌入方法中得到了应用。

然而,这是一项固有的模棱两可的任务,句子相似性取决于感兴趣的特定方面。

我们通过提出一项称为条件STSC-STS)的新任务来解决这种歧义,该任务以自然语言阐明的方面(此处为条件)来衡量相似性。

例如,句子“NBA球员投三分球”和“一个人将网球抛向空中发球”之间的相似性对于“球的运动”条件更高(向上)。和较低的“球的大小”(一大一小)。

C-STS具有双重优势:(1)它降低了STS的主观性和模糊性, (2)可以使用不同的条件进行细粒度的相似性评估。

数据的智能构建过程

C-STS 包含来自不同领域的近 20,000 个实例,我们评估了几个最先进的模型,以证明即使是性能最高的微调和上下文学习模型(GPT-4、Flan、SimCSE)也发现它具有挑战性,Spearman 相关分数为 <50。

我们鼓励社区在 C-STS 上评估他们的模型,以提供更全面的语义相似性和自然语言理解视图。

实验与分析

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 实验与分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档