专栏首页机器学习AI算法工程实体识别+表格识别,A股上市公司公告信息抽取(附数据集+视频)

实体识别+表格识别,A股上市公司公告信息抽取(附数据集+视频)

数据说明 本次比赛将提供3种类型的数据: 1、原始公告pdf,以{公告id}.pdf命名; 2、公告pdf转换的html文件,以{公告id}.html命名; 3、公告对应的结构化数据,以表格的格式给出,每种公告类型提供一份数据,每篇公告可能会对应多条数据,格式说明如下:

公告抽取赛题要求参赛选手从公告文本中抽取出1条或多条结构化数据,需要抽取的字段(Slot)是提前设定好的。

AI项目体验地址 https://loveai.tech

一、解决方案整体流程

二、结构提取

本次采用的是从HTML文件开始,在提取过程种保留了HTML的文档的结构,主要是标题,层次结构,表格信息等。

工具(Tools):Beautifulsoup

表格:表头识别、表格跨页合并、rowspan处理

段落标题:数字开头、内容矫正

图片:删除

三、文本预处理

全角字符转换:% -> %

空行、空格删除:

数字格式转换:68,059,079股 -> 68059079

数字单位转换:合计金额不低于4亿元人民币 ->合计金额不低于 400000000元人民币

格式纠错:表格转换错误,语句非正常断句等(HTML转换问题)。

四、表格处理

这里要注意,表格的描述信息应该加入到表格的判断中来。

五、实体识别

1、训练集反向标注实体建立实体识别训练集

2、BiLSTM-CRF训练NER模型(Tensorflow)

3、调用模型预测实体

在标注的时候注意实体间的关系,主键需要在统一句话中才标注,其他属性与部分主键同时出现才标注,这样可以控制标注数据集的假阳性。

六、实体关系确认

1、实体约束:明确的规则,ref [round2] FDDC_announcements_submit_notice_20180806.pdf

2、实体格式转换:日期、数量、金额,顿号分割等

3、实体过滤:例如全称和简称的位置关系、交易标的和标的公司的位置关系等

4、枚举的实体:锁定期、评估方法、认购方式

5、缩写、指代

6、主键组合:同一个句子里面的实体组合主键

7、属性关联主键:主键与属性出现在同一个句子的进行组合

8、条件规则过滤:关键词匹配句子过滤

9、去重

七、模型优化

1、实体标注技巧(Entity annotation skills):

按句子级别标注,同一个句子中包含所有主键则纳入训练集(primary key in one sentence)

简称、指代替换(full-short refer replacement)

信息损失,数字精度、日期简写(number precision、 date abbreviation)

2、奥卡姆剃刀:当公告结果只有一个主键时,其属性值不会产生歧义,往往属性不与主键在一个句子。

3、语义纠错:明显的单位错误,例如“万元”写成“元”,通过值域判断。

4、篇章语义:复杂文档会根据目录结构选择性阅读,而非整篇通读。

本文分享自微信公众号 - 机器学习AI算法工程(datayx)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 农业知识图谱(KG):农业领域的信息检索,命名实体识别,关系抽取,分类树构建,数据挖掘

    (以上部分除了neo4j在官网下,wiki.zh.bin在亚马逊s3下载,其它均可直接用pip3 install 安装)

    机器学习AI算法工程
  • 如何训练一个性能不错的深度神经网络

    本文主要介绍8种实现细节的技巧或tricks:数据增广、图像预处理、网络初始化、训练过程中的技巧、激活函数的选择、不同正则化方法、来自于数据的洞察、集成多个深度...

    机器学习AI算法工程
  • 用R语言对上海市链家二手房数据分析

    via : https://mp.weixin.qq.com/s/DS4fFs0-rLD0UPkdTwQ5k 如果你手上有一批数据,你可能应用统计学、挖掘算...

    机器学习AI算法工程
  • 8-函数类型详解

    在python中函数(function)或方法(method)的参数类型有哪些,每种参数类型要怎么传参才能调用,默认参数要怎么设置才算合理。在python有一个...

    用户3106371
  • Dart语言详解(二)——基本语法

    文档归档: https://github.com/yang0range/flutterfile

    Demo_Yang
  • Dart语言详解(二)——基本语法

    之前,详细的介绍了一下Dart语言的前世今生,接下来,我们就该深入的了解Dart语言,了解Dart语言的基本数据类型,语法等相关的内容

    Demo_Yang
  • NOI.AC NOIP2018 全国热身赛 第四场

    神TM T3模数为啥是\(1e9 + 9\)啊啊啊啊,而且我也确实是眼瞎。。。真是血的教训啊。。

    attack
  • 【技术分享】机器学习之数据清洗与特征提取

    导语:本文详细的解释了机器学习中,经常会用到数据清洗与特征提取的方法PCA,从理论、数据、代码三个层次予以分析。

    腾讯智能钛AI开发者
  • h5ai 目录列表程序完整安装使用教程

    用户1203875
  • 简单分页的性能优化

    采用网上常见的分页方式,在sqlserver事件分析器中观察,发现 ? 几个主要的sql查询中,耗费最大的是查询所有的记录数。 将其从分页程序中剔除,前后的效果...

    用户1075292

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动