Github 项目推荐 | 中文突发事件语料库

Github 链接:

https://github.com/shijiebei2009/CEC-Corpus

中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

CEC 采用了 XML 语言作为标注格式,其中包含了六个最重要的数据结构(标记):Event、Denoter、Time、Location、Participant 和 Object。Event用于描述事件;Denoter、Time、Location、Participant 和 Object用于描述事件的指示词和要素。此外,我们还为每一个标记定义了与之相关的属性。与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。

具体内容可参见上海大学公开发表的相关硕士博士论文,以及期刊会议论文等。

本语料库的研究与开发由国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究(编号:61305053)”和“事件本体模型与应用技术”(编号:60975033)资助。

在此感谢上海大学语义智能实验室为CEC的标注工作作出贡献的各位硕士、博士研究生。

研究论文:

[1] 刘炜, 王东, 刘宗田, 刘菲京. 基于事件本体的文本事件要素抽取方法. 中文信息学报(已录用)

[2] 付剑锋, 刘宗田, 刘炜, 周文. 基于层叠条件随机场的事件因果关系抽取[J]. 模式识别与人工智能, 2011, 24(4):567-573.

[3] 朱莎莎, 刘宗田, 付剑锋, 朱芳. 基于条件随机场的中文时间短语识别[J]. 计算机工程, 2011, 37(15):164-167.

[4] 付剑锋, 刘宗田, 刘炜, 基于特征加权的事件要素识别[J], 计算机科学,2010年03期

[5] 刘宗田, 黄美丽等,面向事件的本体研究[J],计算机科学,2009年11期

[6] 刘炜, 王旭, 张雨嘉, 等. 一种面向突发事件的文本语料自动标注方法[J]. 中文信息学报, 2017, 31(2): 76-85.

[7] Xu-jie Zhang, Zong-tian Liu, Wei Liu, Jian-feng Fu. Research on event-based semantic annotation of Chinese[C]. Computer Science and Network Technology (ICCSNT), 2012 2nd International Conference on: 1883-1888.

[8] Fang Zhu, Zongtian Liu, Juanli Yang, Ping Zhu. Chinese event place phrase recognition of emergency event using Maximum Entropy[C]. Cloud Computing and Intelligence Systems (CCIS), 2011 IEEE International Conference on: 614-618.

[9] Jian-feng Fu, Wei Liu, Zong-tian Liu, Sha-sha Zhu. A Study of Chinese Event Taggability[C]. Communication Software and Networks, 2010. ICCSN '10. Second International Conference on: 400-404.

[10] Jianfeng Fu, Zongtian Liu, Wei Liu. Using dual-layer CRFs for event causal relation extraction. IEICE Electronics Express. 2011, Vol.8, No.5, 306–310. (2011,第三作者)

[11] Xujie Zhang, Zongtian Liu, Wei Liu, Junhui Yang, Shengnan Fei, Chinese Event Classification for Event Ontology Construction, Journal of Computational Information Systems , JCIS. 9: 9 (2013) 3511–3519

博士论文:

[1] 付剑锋. 面向事件的知识处理研究[D]. 上海:上海大学, 2010.

[2] 单建芳. 面向事件的文本表示研究[D]. 上海:上海大学, 2011.

[3] 仲兆满. 事件本体及其在查询扩展中的应用. 上海:上海大学, 2011.

[4] 张旭洁. 事件本体构建中几个关键问题的研究[D]. 上海:上海大学, 2012.

硕士论文:

[1] 费胜男. 意念事件研究[D]. 上海:上海大学, 2013.

[2] 朱莎莎.面向突发事件领域的事件时间要素抽取与推理研究[D]. 上海:上海大学, 2011.

Chinese Emergency Corpus (CEC)

Chinese Emergency Corpus (CEC) is built by Data Semantic Laboratory in Shanghai University. This corpus is divided into 5 categories – earthquake, fire, traffic accident, terrorist attack and intoxication of food. There are totally 332 texts in CEC, which are derived from Internet and processed by several steps.

CEC utilizes XML as a formation, including 6 tags -Denoter, Time, Location, Participant, Mean and Object- which describe the elements of event (Event). Furthermore, these tags have their own properties. Compared with ACE Corpus and TimeBank Corpus, the scale of CEC is not so large, but CEC has the all-sided annotation of event and event elements.

If you want to know more about CEC, you can refer to the related dissertations and papers, such as

Research on Event-Oriented Knowledge Processing written by Jianfeng Fu

a Study of Several Key Problems in Construction of Event Ontology written by Xujie Zhang.

Thank you, all of the postgraduates and PhDs in Data Semantic Laboratory in Shanghai University, for making a contribution to CEC.

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-05-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/5/27

Prefrontal cortex as a meta-reinforcement learning system

1404
来自专栏专知

【论文推荐】最新六篇聊天机器人相关论文—弱监督信息、内容驱动、对话管理系统、可扩展情感序列到序列、自主性

2262
来自专栏null的专栏

《数学之美》拾遗——TF-IDF

开篇序     在学习机器学习的过程中,我写了简单易学的机器学习算法的专题,依然还有很多的算法会陆续写出来。网上已经有很多人分享过类似的材料,我只是通过自己的理...

31610
来自专栏Python中文社区

基于TF-IDF算法抽取文章关键词

專 欄 ❈yonggege,Python中文社区专栏作者 博客:https://www.zhihu.com/people/yonggege ❈ 0. 写在前面...

5959
来自专栏量子位

谷歌跨界医学新动作:基因突变定位模型又更!新!了!

去年12月,谷歌大脑发布了快速找出基因突变位点的深度学习模型DeepVariant,用图像识别的思路来精准定位出基因序列中突变的位点。

701
来自专栏iOSDevLog

机器学习研究和开发所需的组件列表

Here is a list of components that are needed for the successful machine learning...

1012
来自专栏大数据

季节性单位根

正如MAT8181课程中所讨论的那样,至少有两种非平稳的时间序列:存在趋势的和存在单位根(这种类型被称为 单整的)。单位根测试不能用来评估一个时间序列是否平稳,...

3485
来自专栏AI研习社

用金庸、古龙群侠名称训练 LSTM,会生成多么奇葩的名字?

AI 研习社按:本文转载自 Magicly 博客,获作者授权。阅读原文请见:http://magicly.me/2017/04/07/rnn-lstm-gene...

39511
来自专栏算法+

MTCNN人脸检测 附完整C++代码

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neura...

2.5K5
来自专栏iOSDevLog

Scikit-Learn教程:棒球分析 (一)

一个scikit-learn教程,通过将数据建模到KMeans聚类模型和线性回归模型来预测MLB每赛季的胜利。

1992

扫码关注云+社区

领取腾讯云代金券