前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据集】开源 | XL-Sum,一个全面和多样化的数据集,包括来自BBC的100万专业注释的文章-摘要对,涵盖44种语言

【数据集】开源 | XL-Sum,一个全面和多样化的数据集,包括来自BBC的100万专业注释的文章-摘要对,涵盖44种语言

作者头像
CNNer
发布2021-09-23 17:33:32
7220
发布2021-09-23 17:33:32
举报
文章被收录于专栏:CNNerCNNer

获取完整原文和代码,公众号回复:10051258882

论文地址: http://arxiv.org/pdf/2106.13822v1.pdf

代码: 公众号回复:10051258882

来源: Bangladesh University of Engineering and Technology (BUET)

论文名称:XL-Sum Large-Scale Multilingual Abstractive Summarization for 44 Languages

原文作者:Tahmid Hasan

内容提要

当代关于抽象文本摘要的研究主要集中在像英语这样的高资源语言上,这主要是因为低/中资源语言的数据集可用性有限。在这项工作中,我们提出了XL-Sum,一个全面和多样化的数据集,包括来自BBC的100万专业注释的文章-摘要对,使用一套精心设计的启发式提取。该数据集涵盖了从低资源到高资源的44种语言,其中许多语言目前没有公共数据集可用。XL-Sum具有高度的抽象性、简练性和高质量。我们使用XL-Sum对目前最先进的预训练多语言模型mT5进行了微调,并对多语言和低资源的摘要任务进行了实验。与使用类似的单语言数据集获得的结果相比,XL-Sum得出了具有竞争力的结果:在我们基准测试的10种语言上,我们显示出高于11分的ROUGE-2分数,其中一些超过了多语言训练获得的15分。此外,对低资源语言的个别锻炼也提供了有竞争力的表现。据我们所知,XL-Sum是最大的抽象摘要数据集,从单个数据源收集的样本数量和涵盖的语言数量来看。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档