专栏首页arxiv.org翻译专栏维基百科文章质量的一维扩展排序回归

维基百科文章质量的一维扩展排序回归

组织复杂的同行生产项目和推进开放合作的科学知识都依赖于衡量质量的能力。英语维基百科的文章质量评级被维基百科社区成员和学术研究人员广泛使用,目的是跟踪知识差距和研究政治极化如何影响合作。即便如此,测量质量仍然存在许多方法上的挑战。在评估质量时,最广泛使用的系统在离散顺序尺度上使用标签,但这样的标签可能不利于统计和机器学习。之前的工作通过假设不同的质量水平是“均匀间隔的”来处理这个问题。这种假设与直觉相悖,即提高维基百科条目的质量需要付出多少努力。此外,先前工作中的模型适合于对高质量文章进行过采样的数据集。这限制了他们对文章或修订的代表性样本的准确性。我描述了一种扩展维基媒体基金会的ORES文章质量模型以解决这些限制的技术。我的方法使用加权有序回归模型来构建一维连续的质量度量。虽然我的方法和以前的方法得到的分数是相关的,但我的方法提高了研究数据集的准确性,并提供了证据,证明“均匀间隔”假设在英语维基百科的实践中是没有根据的。最后,我建议在未来的研究中使用质量分数,并包括完整的代码、数据和模型。

原文题目:Measuring Wikipedia Article Quality in One Dimension by Extending ORES with Ordinal Regression

原文:Organizing complex peer production projects and advancing scientific knowledge of open collaboration each depend on the ability to measure quality. Article quality ratings on English language Wikipedia have been widely used by both Wikipedia community members and academic researchers for purposes like tracking knowledge gaps and studying how political polarization shapes collaboration. Even so, measuring quality presents many methodological challenges. The most widely used systems use labels on discrete ordinal scales when assessing quality, but such labels can be inconvenient for statistics and machine learning. Prior work handles this by assuming that different levels of quality are "evenly spaced" from one another. This assumption runs counter to intuitions about the relative degrees of effort needed to raise Wikipedia encyclopedia articles to different quality levels. Furthermore, models from prior work are fit to datasets that oversample high-quality articles. This limits their accuracy for representative samples of articles or revisions. I describe a technique extending the Wikimedia Foundations' ORES article quality model to address these limitations. My method uses weighted ordinal regression models to construct one-dimensional continuous measures of quality. While scores from my technique and from prior approaches are correlated, my approach improves accuracy for research datasets and provides evidence that the "evenly spaced" assumption is unfounded in practice on English Wikipedia. I conclude with recommendations for using quality scores in future research and include the full code, data, and models.

原文链接:https://arxiv.org/abs/2108.10684

原文作者:Nathan TeBlunthuis

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 码农的数学和算法入门

    虽然是段子,但其实也挺写实的,因为你打开各大招聘网站,会发现越是高薪的IT岗位,对数学的要求越高。其实,我曾经也不太明白数学为什么对程序员很重要,不明白为什么在...

    FunTester
  • 逻辑回归 – Logistic regression

    逻辑回归(Logistic Regression)主要解决二分类问题,用来表示某件事情发生的可能性。

    easyAI
  • 单细胞测序(scRNA-seq)通关||数据处理必知必会

    其实单细胞测序已有十年的历史了,十年来,通量不断提升,成本不断降低,已经到了“旧时王谢堂前燕,飞入寻常百姓家”的历史阶段。不信请看《Nature Methods...

    百味科研芝士
  • 学界 | 谷歌大脑提出通过多文档摘要方法生成维基百科,可处理较长序列

    机器之心
  • 这份GitHub 2.3k星的ML论文清单拿好,工作用得上

    在工作中动手实施自己的ML项目之前,了解领域里的前沿进展,吸收前人的经验,是很有必要的。

    量子位
  • 扩增子图表解读2散点图:组间整体差异分析(Beta多样性)

    作者: 刘永鑫 日期:2017-6-29 阅读时长:10 min 背景介绍(Introduction) 宏基因组学 宏基因组学目前的主要研究方法包括:16S/I...

    生信宝典
  • 知识图谱技术原理介绍

    知识图谱技术原理介绍(转载) 王昊奋 近两年来,随着LinkingOpen Data 等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互...

    小莹莹
  • 【NLP】十分钟快览自然语言处理学习总结

    摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛。笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述...

    WZEARW
  • 终于有人把搜索引擎讲明白了

    全世界每年产生1EB到2EB (1EB≈1018B)信息,相当于地球上每个人每年大概产生250MB信息。其中,纸质信息仅占所有信息的0.03%。静态网页有上百亿...

    华章科技
  • 【智能】自然语言处理概述

    1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用...

    陆勤_数据人网
  • 常见搜索系统流程-思维导图

    知识不是信息,学习不是记忆。知识可以说是一种对一系列问题的解决模型或者算法。学习是理清问题和答案之间的关系,得到的就是知识。参加课程、阅读就是获得信息或者例子,...

    pooky
  • 易生信-扩增子教程01-基本概念

    距离上次《生信宝典》联合《宏基因组》组织的扩增子分析线下培训结束己经有三个多月了。

    生信宝典
  • 长文 | 一文读懂什么是机器学习

    关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 在进入正题前,我想大家心中可能会有一...

    昱良
  • (含源码)「自然语言处理(NLP)」Question Answering(QA)论文整理(五)

    本次整理的关于QA的八篇paper,主要涉及到增强Ranker-Reader、SearchQA的大型数据集、PullNet集成框架、改进的加权抽样训练策略、开...

    ShuYini
  • 教你如何高效地实现信息搜索

    搜索是为了解决一个问题,但解决问题可能不是通过一次提问就能搞定的,搜索也是如此,可能需要进行一系列搜索才能发现答案。

    1480
  • CVPR2021谷歌发表超70篇论文,第一作者半数为华人!

    近日,CV界三大顶会之一的2021CVPR在clubhouse拉开了帷幕。今年,会议收到了21000名作者的7000篇投稿,经过7400名审稿人和280名区域主...

    新智元
  • 万字长文带你了解推荐系统全貌!

    如果说互联网的目标就是连接一切,那么推荐系统的作用就是建立更加有效率的连接,推荐系统可以更有效率的连接用户与内容和服务,节约了大量的时间和成本。

    Datawhale
  • 十大经典排序算法整理汇总(附代码)

    本文整理并总结了十大经典的排序算法(冒泡排序、选择排序、插入排序、快速排序、归并排序、希尔排序、计数排序、基数排序、桶排序、堆排序)的时间复杂度、空间复杂度等性...

    godweiyang
  • 成功预测98.5%人类蛋白质结构再登Nature,从头说说AlphaFold2的雄心壮志

    7月22日,DeepMind创始人哈撒比斯在官网上发布了一篇名为《把AlphaFold的力量交到全世界的手中》的文章。

    大数据文摘

扫码关注云+社区

领取腾讯云代金券