专栏首页arxiv.org翻译专栏将Facebook用户的人口统计数据与人口普查数据进行比较,以生成修正因子(cs.SI)
原创

将Facebook用户的人口统计数据与人口普查数据进行比较,以生成修正因子(cs.SI)

世界各地的人口普查和代表性抽样调查是指导政府投资和公共政策的关键数据来源。然而,这些来源的获取非常昂贵,而且收集相对不频繁。在过去的十年里,越来越多的人对利用社交媒体的数据来补充传统的数据来源产生了兴趣。然而,社交媒体用户并不能代表普通人群。因此,基于社交媒体数据的分析需要,我们可以进行统计调整,比如后分层,以消除偏见,并做出可靠的统计声明。只有当我们掌握了人口群体使用社交媒体的频率信息时,这些调整才有可能实现。这些数据与官方统计数据相比较,更便于研究人员进行适当的统计校正系数。在本文中,我们利用Facebook广告平台来实施相当于Facebook用户总体水平的普查。我们的汇编包括七个人口属性的人口分布,例如性别、政治倾向和教育程度在美国不同的地理位置(国家、州和城市)。通过将Facebook上的数据与美国人口普查局(U.S. Census)和盖洛普公司(Gallup)提供的官方报告进行比较,我们发现了非常高的相关性,尤其是在政治倾向和种族方面。我们还发现了官方统计数据可能低估人口数量的例子,比如移民问题。我们使用收集到的信息来计算所有计算属性的偏差校正因子,以评估不同的人口群体在facebook上或多或少的代表程度,并得出感兴趣的特定受众的实际分布。我们提供了第一个全面的分析来评估Facebook用户在几个方面的偏见。这些信息可以用来及时地产生经偏差调整的人口估计数和人口统计数,并在官方统计数据发布之间以精细的地理粒度产生。

原文题目:How Biased is the Population of Facebook Users? Comparing the Demographics of Facebook Users with Census Data to Generate Correction Factors

原文:Censuses and representative sampling surveys around the world are key sources of data to guide government investments and public policies. However, these sources are very expensive to obtain and are collected relatively infrequently. Over the last decade, there has been growing interest in the use of data from social media to complement more traditional data sources. However, social me- dia users are not representative of the general population. Thus, analyses based on social media data require statistical adjustments, like post-stratification, in order to remove the bias and make solid statistical claims. These adjustments are possible only when we have information about the frequency of demographic groups using social media. These data, when compared with official statistics, enable researchers to produce appropriate statistical correction fac- tors. In this paper, we leverage the Facebook advertising platform to compile the equivalent of an aggregate-level census of Facebook users. Our compilation includes the population distribution for seven demographic attributes such as gender, political leaning, and educational attainment at different geographic levels for the U.S. (country, state, and city). By comparing the Facebook counts with official reports provided by the U.S. Census and Gallup, we found very high correlations, especially for political leaning and race. We also identified instances where official statistics may be underes- timating population counts as in the case of immigration. We use the information collected to calculate bias correction factors for all computed attributes in order to evaluate the extent to which different demographic groups are more or less represented on Face- book, and to derive the actual distributions for specific audiences of interest. We provide the first comprehensive analysis for assessing biases in Facebook users across several dimensions. This information can be used to generate bias-adjusted population estimates and demographic counts in a timely way and at fine geographic granularity in between data releases of official statistics.

原文作者:Filipe N. Ribeiro, Fabrício Benevenuto, Emilio Zagheni

原文链接: https://arxiv.org/abs/2005.08065

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 通过引文分析看待计算机科学;索尔顿和伯格马克(Digital Libraries)

    在过去的二十年里,计算机科学经历了迅猛和多样化的发展 。为了更好地理解这门学科的结构,我们使用DBLP数据库对一组计算机科学文献进行了分析。为了深入了解该队列的...

    用户6869393
  • 以政策为导向的有组织犯罪招募模式(Social and Information Networks)

    犯罪组织利用其在领土和地方社区的存在来招募新的劳动力,以便开展其犯罪活动和业务。吸引个人的能力对于维持权力和控制这些群体定居的领土是至关重要的。本研究提出了一个...

    用户6869393
  • 人工智能、虚拟现实对消费者身体和心理能力的潜在影响(Computers and Society)

    随着面向社区和个人的大多数服务的逐渐数字化,人类正面临着新的挑战。虽然能源资源正在迅速减少,必须做出严格的选择以确保我们的环境的可持续性,但科学界和社会越来越关...

    用户6869393
  • 原创译文 | 为什么AI不能解决Facebook的虚假新闻问题

    转载声明 本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注:“转自:灯塔大数据;微信:DTbigdata” 导读:上一期了解了关于将...

    灯塔大数据
  • 观点 | IJCAI2019 PC 回应审稿质疑:几十年都是这样,而且我们需要创新

    今年 IJCAI 的投稿总数比去年增加了约 37%,所以录用率随着降低到了不足 20% 也算情有可原。不过意外的是,收到录用或者拒稿通知后,许多作者都通过种种途...

    AI科技评论
  • The Event Marketing Guide: Methods, Concepts, Definitions

    Human interaction is the base for built up socio-economic, political, psychologi...

    用户7608382
  • Nonparametric VAE for Hierarchical Representation Learning

    The recently developed variational autoencoders (VAEs) have proved to be an effe...

    用户1908973
  • 研究生英语主题练习

    science and technology (Mobile phone,Emai)—-口语练习 p.s.希望大家主要借鉴格式,忽略具体内容

    流川疯
  • 老兄,这看起来很不对劲 - 对比美国2009年H1N1病毒与中国2020年新冠病毒世界舆论的不同反映

    文章链接- https://www.linkedin.com/pulse/somethings-right-here-folks-look-usa-2009-h...

    用户6026865
  • 使用智能手机传感器的弱势道路使用者检测和递归量化分析(CS CY)

    随着自动驾驶汽车(AV)行业的快速发展,使用智能手机检测弱势道路使用者(VRU)对于协同式智能交通系统(C-ITS)的安全应用至关重要。这项研究探索了低功耗智能...

    小童

扫码关注云+社区

领取腾讯云代金券