前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Github 项目推荐 | 在线新闻评论分析数据集——SOCC

Github 项目推荐 | 在线新闻评论分析数据集——SOCC

作者头像
AI研习社
发布2018-03-16 11:42:27
1.8K0
发布2018-03-16 11:42:27
举报
文章被收录于专栏:AI研习社

SOCC 是一个用于分析在线新闻评论的语料库,该语料库里包含了大量的新闻及相关的新闻评论。库中搜集的文章都是评论文章,不是纯的新闻资讯,它比当前任何可用的新闻评论语料库都大,并且保留了评论回答的结构和其他的元数据。除了原始的预料库,SOCC 还提供了四种标注形式:有建设性的、恶意的、否定的和评估的语料。

原始数据

该库包含 10339 条评论文章,加拿大日报英文版 303665 条评论主题的 663173 条评论,时间跨度从 2012 年的 1 月到 2016 年的 12 月。我们将语料库分成三个子语料库:文章语料库,评论语料库和评论线索语料库,分为三个 CSV 文件:gnm_articles.csv,gnm_comments.csv和gnm_comment_threads.csv。

注释语料库

注释语料库储存的是建设性的和恶意的语料,该库为一个 CSV 文件,其中包含 1,043 条注释评论,涉及科技、移民、恐怖主义、社会问题、宗教等多个领域的 10 篇文章。我们用 CrowdFlower 作为众包注释平台注释了建设性的评论,我们要求标注者先阅读文章,然后告诉我们显示的评论是否有建设性。

SFU 否定语料库

否定注释用 WebAnno 来执行,您可以在的 GitHub 页面(https://github.com/sfu-discourse-lab/WebAnno)上看到 WebAnno 服务器安装说明。指南目录包含注释指南的完整描述,注释可以从 WebAnno 的 .tsv 文件中作为项目使用。 这些文件是使用 WebAnno v.3 格式导出的。

SFU评估语料库

评估注释同样使用 WebAnno 来执行,结构与否定语料库的结构相同,但 .tsv文件略有不同。 指南目录中提供了评估注释指南。

论文:

  • The SFU Opinion and Comments Corpus: A corpus for the analysis of online news comments http://www.sfu.ca/~mtaboada/docs/publications/Kolhatkar_etal_SOCC.pdf
  • Using New York Times Picks to identify constructive comments. https://aclanthology.info/pdf/W/W17/W17-4218.pdf
  • Proceedings of the Workshop Natural Language Processing Meets Journalism http://nlpj2017.fbk.eu/
  • Constructive language in news comments. http://aclweb.org/anthology/W17-3002
  • Proceedings of the 1st Abusive Language Online Workshop https://sites.google.com/site/abusivelanguageworkshop2017

项目链接:

https://github.com/sfu-discourse-lab/SOCC

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 原始数据
  • 注释语料库
  • SFU 否定语料库
  • SFU评估语料库
  • 论文:
  • 项目链接:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档