SOCC 是一个用于分析在线新闻评论的语料库,该语料库里包含了大量的新闻及相关的新闻评论。库中搜集的文章都是评论文章,不是纯的新闻资讯,它比当前任何可用的新闻评论语料库都大,并且保留了评论回答的结构和其他的元数据。除了原始的预料库,SOCC 还提供了四种标注形式:有建设性的、恶意的、否定的和评估的语料。
该库包含 10339 条评论文章,加拿大日报英文版 303665 条评论主题的 663173 条评论,时间跨度从 2012 年的 1 月到 2016 年的 12 月。我们将语料库分成三个子语料库:文章语料库,评论语料库和评论线索语料库,分为三个 CSV 文件:gnm_articles.csv,gnm_comments.csv和gnm_comment_threads.csv。
注释语料库储存的是建设性的和恶意的语料,该库为一个 CSV 文件,其中包含 1,043 条注释评论,涉及科技、移民、恐怖主义、社会问题、宗教等多个领域的 10 篇文章。我们用 CrowdFlower 作为众包注释平台注释了建设性的评论,我们要求标注者先阅读文章,然后告诉我们显示的评论是否有建设性。
否定注释用 WebAnno 来执行,您可以在的 GitHub 页面(https://github.com/sfu-discourse-lab/WebAnno)上看到 WebAnno 服务器安装说明。指南目录包含注释指南的完整描述,注释可以从 WebAnno 的 .tsv 文件中作为项目使用。 这些文件是使用 WebAnno v.3 格式导出的。
评估注释同样使用 WebAnno 来执行,结构与否定语料库的结构相同,但 .tsv文件略有不同。 指南目录中提供了评估注释指南。
https://github.com/sfu-discourse-lab/SOCC