首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NLP领域“劣币驱逐良币”,谁是罪魁祸首?

作者 | Ehud Reiter

编译 | 夕颜

出品 | AI科技大本营(ID:rgznai100)

【导读】“劣币驱逐良币”的现象在很多领域都存在,包括自然语言研究领域。很多研究人员为了更容易让研究成果成功发表或获得奖项,往往会选择使用更容易走捷径的训练数据集,尽管这些数据集并不一定是最好和最合适的。本文中,阿伯丁大学计算机科学系教授和 Arria NLG 首席科学家 Ehud Reiter 就以自己的亲身经历为例,讨论了他对于这个话题的看法。

以下为博文翻译:

我一直认为 NLP 研究人员应该使用合适的高质量数据集进行训练和评估,这是件“轻而易举”的事情。但我现在开始有一个令人沮丧的想法:其实上 NLP 领域在“鼓励”研究人员使用劣质和不合适的数据集。

初级研究员:使用不良数据集更容易发表论文和资金

大约一年前,一位初级研究员问我在哪里可以找到 Weathergov 语料库。我向他解释说,Weathergov 语料库包含基于规则的 NLG 系统的输出,因此在 Weathergov 上进行机器学习主要是对基于规则的系统进行逆向工程(即窃取编写该规则的人员的 IP),而不是我们通常认为的 NLG 练习。我建议他改用 SumTime 语料库,该语料库包含人工编写的天气预报。

但是,这位研究人员告诉我,如果他使用 Weathergov 而不是 SumTime,那么在 ACL 等会议上发表论文要容易得多(当然,使用 Weathergov 的 ACL 论文要多于使用 SumTime),并向我指出 NAACL 2018 论文的第一作者被授予谷歌奖学金,这篇论文就是基于 Weathergov。换句话说,对于他来说很明显,为了出版、资金和职业发展,最好的方法就是使用 Weathergov。所以,为什么我不能帮他这个忙呢?

我不能责怪这个与我联系的研究员,他只不过是屈从于这个激励机制。但是我认为,年轻的研究人员来说把使用有问题的数据集当做“取得成功”的踏脚石,这对于该领域是一个非常不好的信号。

审稿:我们不能质疑数据集是否曾经被使用过

最近的一次互动加强了我的这种想法。我在审查论文时担心一些论文使用的数据集是没有代表性或不合适的。但是,当我提出这一担忧时,另一位审稿人说,由于这些数据集已被以前的研究人员使用,因此因为这个理由拒绝一篇论文是不公平的。换句话说,其他审稿人认为,如果一个数据集已经在发表的论文中使用几次,再对其在论文中的使用提出质疑就不合适了。

我真的对这一点感到很不安,尤其是考虑到会议和(特别是)研讨会审查质量良莠不齐。在我看来,在以前发表的论文中使用过某个数据集并不意味着它具有代表性和适当性,因为我已经看到很多论文(甚至在 ACL 等声望很高的会议)都使用了非常不合适的数据集。我确实感谢许多研究人员持有不同的观点,并专注于展现他们的技术在现有数据集上有所改进,而不必担心这些数据集的相关性和适当性。但老实说,我认为,如果我们想在自然语言处理方面取得进展,无论是在实践上还是在理论上,我们都需要使用合理的数据集。

格莱欣法则:不良数据集会驱逐好的数据集吗?

这让我感到非常沮丧,我有时想知道是否存在对 NLP 数据集起作用的“格莱欣法则”。创建良好的数据集是一项艰巨的工作;从 Internet 上随机获取一些内容,而不必担心注释的代表性、质量、多样性、可靠性等则简单得多。因此,如果 NLP 社区不能识别“好的”和“坏的”数据集(毕竟,我们仍然可以抽出数以万计的论文,无论数据集的质量如何,其最新技术水平都提高了0.5%),那么人们很可能会继续创建和使用质量较差的数据集。换句话说,我们可以忽略质量,发表更多的论文,评审也似乎并不在乎...

对此可以采取什么措施?

社区可以做些什么来鼓励使用好的数据集吗?我不知道,但肯定的是评估指标并不理想。15 年来,我们深知 BLEU 和其他指标存在的问题,但我们仍然在不合适的场景下使用它们。如果审稿人,特别是期刊和声望会议的审稿人,坚持采用适当的数据集和评估技术将会有所帮助,但我不知道这种可能性有多大。

我曾经在《英国医学杂志》(BMJ)上发表过一篇论文,这本杂志专门设有一位特别审稿人,其职责仅是检查统计分析和其他评估细节的质量。这比一定适用于 NLP 会议(过大、过短的时间审查范围),但也许有可借鉴之处?

在小范围内,我们至少应该让研究人员了解数据集的问题。我见过人们使用不良数据集(甚至是评估技术),因为他们没有意识到这些问题,而了解这些问题的人不会发布这些信息。通常,我对此无能为力,但是在 SIGGEN 的 NLG 数据集列表中(https://aclweb.org/aclwiki/Data_sets_for_NLG),如果发现数据集问题,我将进行更新。例如,SIGGEN 列表确实会告诉你如何获取 WeatherGov,但也明确指出,它是由计算机生成的预报而不是人工编写的预报。

https://ehudreiter.com/2019/08/01/do-we-encourage-inappropriate-data-sets/

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191028A0M2ZM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券