专栏首页arxiv.org翻译专栏多语言姿态检测:加泰罗尼亚独立语料库(CS.CL)
原创

多语言姿态检测:加泰罗尼亚独立语料库(CS.CL)

姿态检测旨在确定给定文本相对于特定主题或主张的态度。尽管最近几年对姿势检测进行了很好的研究,但大多数工作都集中在英语上。这主要是由于其他语言中相对缺少带注释的数据。在IberEval 2018上发布的TW-10全民公决数据集是以前的工作,旨在以加泰罗尼亚语和西班牙语提供多语言立场注释数据。不幸的是,TW-10加泰罗尼亚子集非常不平衡。本文通过为加泰罗尼亚语和西班牙语提供一种新的多语种姿态检测数据集来解决这些问题,目的是促进在多语种和跨语言环境中进行姿态检测的研究。该数据集带有一个主题的注释,即加泰罗尼亚的独立性。我们还提供了一种基于Twitter用户分类的半自动方法来注释数据集。我们使用许多监督方法(包括线性分类器和深度学习方法)对新语料库进行实验。将我们的新语料库与TW-1O数据集进行的比较显示,平衡态语料库在姿势检测的多语言和跨语言研究中既有好处,也有潜力。最后,我们在TW-10数据集上建立了针对加泰罗尼亚语和西班牙语的最新技术成果。

原文题目:Multilingual Stance Detection: The Catalonia Independence Corpus

原文:Stance detection aims to determine the attitude of a given text with respect to a specific topic or claim. While stance detection has been fairly well researched in the last years, most the work has been focused on English. This is mainly due to the relative lack of annotated data in other languages. The TW-10 Referendum Dataset released at IberEval 2018 is a previous effort to provide multilingual stance-annotated data in Catalan and Spanish. Unfortunately, the TW-10 Catalan subset is extremely imbalanced. This paper addresses these issues by presenting a new multilingual dataset for stance detection in Twitter for the Catalan and Spanish languages, with the aim of facilitating research on stance detection in multilingual and cross-lingual settings. The dataset is annotated with stance towards one topic, namely, the independence of Catalonia. We also provide a semi-automatic method to annotate the dataset based on a categorization of Twitter users. We experiment on the new corpus with a number of supervised approaches, including linear classifiers and deep learning methods. Comparison of our new corpus with the with the TW-1O dataset shows both the benefits and potential of a well balanced corpus for multilingual and cross-lingual research on stance detection. Finally, we establish new state-of-the-art results on the TW-10 dataset, both for Catalan and Spanish.

原文作者:Elena Zotova, Rodrigo Agerri, Manuel Nuñez, German Rigau

原文地址:https://arxiv.org/abs/2004.00050

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 无需探索实时出价的最佳出价策略(CS.LG)

    在预算约束下使效用最大化是广告商在实时出价(RTB)系统中的主要目标。使效用最大化的策略称为最佳出价策略。较早的最优竞标策略研究采用了基于模型的批量强化学习方法...

    蔡小雪7100294
  • 姿势指导可见部分匹配的被遮挡人ReID (CS.CV)

    由于外观因各种障碍而变化很大,特别是在人群场景中,对人员进行重新识别是一项艰巨的任务。为了解决这个问题,我们提出了一种姿势指导的可见零件匹配(PVPM)方法,该...

    蔡小雪7100294
  • NetDP:用于蚂蚁信用支付中的默认预测的工业规模分布式网络表示框架(CS.LG)

    蚂蚁信用支付是蚂蚁商业风险组中的消费信贷服务。与信用卡类似,贷款违约是该信贷产品的主要风险之一。因此,有效的违约预测算法是公司减少损失和增加利润的关键。但是,我...

    蔡小雪7100294
  • 机器人控制器编程课程-教案02-基础

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    zhangrelay
  • 【CodeForces 602C】H - Approximating a Constant Range(dijk)

    In Absurdistan, there are n towns (numbered 1 through n) and m bidirectional rai...

    饶文津
  • IOS5开发-控件位置适应屏幕旋转代码

    - (void)willRotateToInterfaceOrientation:(UIInterfaceOrientation)toOrientation  ...

    阿新
  • HDUOJ----2489 Minimal Ratio Tree

    Minimal Ratio Tree Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768...

    Gxjun
  • HDUOJ----(1031)Design T-Shirt

    Design T-Shirt Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/327...

    Gxjun
  • Playrix Codescapes Cup (Codeforces Round #413, rated, Div. 1 + Div. 2)(A.暴力,B.优先队列,C.dp乱搞)

    A. Carrot Cakes time limit per test:1 second memory limit per test:256 megabytes...

    Angel_Kitty
  • Ceph用户邮件列表Vol45-Issue3

    https://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/commit/?id=af5e5...

    用户2772802

扫码关注云+社区

领取腾讯云代金券