前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >精选数据 | COVID-19 疫情微博社交媒体数据集

精选数据 | COVID-19 疫情微博社交媒体数据集

作者头像
数据科学人工智能
发布2022-03-30 12:12:07
2.2K0
发布2022-03-30 12:12:07
举报
文章被收录于专栏:数据科学和人工智能

下载该数据集需要填写申请表,请访问https://github.com/nghuyong/weibo-public-opinion-datasets

随着COVID-19在世界范围内的迅速发展,人们被要求保持“社会距离”和“居家隔离”。在这种情况下,广泛的社交互动转移到网络空间,特别是在Twitter和新浪微博等社交媒体平台上。在病毒大流行期间,人们通过发帖来分享信息、表达意见和寻求帮助,而社交媒体上的这些数据对于预防COVID-19传播的研究,如早期预警和疫情检测,都是很有价值的。

数据简介

我们发布了一个从新浪微博收集的全新的、细粒度的大规模COVID-19社交媒体数据集,名为Weibo-COV,包含了从2019年12月1日到2020年4月30日4000多万条微博发帖。此外,该数据集还包含了诸如职位信息、交互信息、位置信息和转载网络等综合信息。我们希望这一数据集能够从多个角度促进对COVID-19的研究,并使更好和快速的研究能够抑制这种流行病的传播。

数据集的字段说明如下表:

字段

字段说明

_id

微博ID

crawl_time

爬取帖子时间(GMT+8)

created_at

发帖时间(GMT+8)

like_num

点赞数

repost_num

回帖数

comment_num

评论数

content

微博内容

origin_weibo

原贴ID

geo_info

地址信息,经纬度

数据集中每日微博数量分布

数据来源和引用

北京理工大学毛先领教授团队。https://github.com/nghuyong/weibo-public-opinion-datasets 如果使用该数据集,请引用以下EMNLP2020论文:

代码语言:javascript
复制
@inproceedings{hu-etal-2020-weibo,
    title = "{W}eibo-{COV}: A Large-Scale {COVID}-19 Social Media Dataset from {W}eibo",
    author = "Hu, Yong  and
      Huang, Heyan  and
      Chen, Anfan  and
      Mao, Xian-Ling",
    booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020",
    month = dec,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.nlpcovid19-2.34",
    doi = "10.18653/v1/2020.nlpcovid19-2.34",
}
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据简介
  • 数据来源和引用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档