前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >实体识别+表格识别,A股上市公司公告信息抽取(附数据集+视频)

实体识别+表格识别,A股上市公司公告信息抽取(附数据集+视频)

作者头像
机器学习AI算法工程
发布2019-10-28 16:16:39
2K0
发布2019-10-28 16:16:39
举报

数据说明 本次比赛将提供3种类型的数据: 1、原始公告pdf,以{公告id}.pdf命名; 2、公告pdf转换的html文件,以{公告id}.html命名; 3、公告对应的结构化数据,以表格的格式给出,每种公告类型提供一份数据,每篇公告可能会对应多条数据,格式说明如下:

公告抽取赛题要求参赛选手从公告文本中抽取出1条或多条结构化数据,需要抽取的字段(Slot)是提前设定好的。

AI项目体验地址 https://loveai.tech

一、解决方案整体流程

二、结构提取

本次采用的是从HTML文件开始,在提取过程种保留了HTML的文档的结构,主要是标题,层次结构,表格信息等。

工具(Tools):Beautifulsoup

表格:表头识别、表格跨页合并、rowspan处理

段落标题:数字开头、内容矫正

图片:删除

三、文本预处理

全角字符转换:% -> %

空行、空格删除:

数字格式转换:68,059,079股 -> 68059079

数字单位转换:合计金额不低于4亿元人民币 ->合计金额不低于 400000000元人民币

格式纠错:表格转换错误,语句非正常断句等(HTML转换问题)。

四、表格处理

这里要注意,表格的描述信息应该加入到表格的判断中来。

五、实体识别

1、训练集反向标注实体建立实体识别训练集

2、BiLSTM-CRF训练NER模型(Tensorflow)

3、调用模型预测实体

在标注的时候注意实体间的关系,主键需要在统一句话中才标注,其他属性与部分主键同时出现才标注,这样可以控制标注数据集的假阳性。

六、实体关系确认

1、实体约束:明确的规则,ref [round2] FDDC_announcements_submit_notice_20180806.pdf

2、实体格式转换:日期、数量、金额,顿号分割等

3、实体过滤:例如全称和简称的位置关系、交易标的和标的公司的位置关系等

4、枚举的实体:锁定期、评估方法、认购方式

5、缩写、指代

6、主键组合:同一个句子里面的实体组合主键

7、属性关联主键:主键与属性出现在同一个句子的进行组合

8、条件规则过滤:关键词匹配句子过滤

9、去重

七、模型优化

1、实体标注技巧(Entity annotation skills):

按句子级别标注,同一个句子中包含所有主键则纳入训练集(primary key in one sentence)

简称、指代替换(full-short refer replacement)

信息损失,数字精度、日期简写(number precision、 date abbreviation)

2、奥卡姆剃刀:当公告结果只有一个主键时,其属性值不会产生歧义,往往属性不与主键在一个句子。

3、语义纠错:明显的单位错误,例如“万元”写成“元”,通过值域判断。

4、篇章语义:复杂文档会根据目录结构选择性阅读,而非整篇通读。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、解决方案整体流程
  • 二、结构提取
  • 三、文本预处理
  • 四、表格处理
  • 五、实体识别
  • 六、实体关系确认
  • 七、模型优化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档