前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AlexNet做文档布局分析 (版面分析)&数据集

AlexNet做文档布局分析 (版面分析)&数据集

作者头像
机器学习AI算法工程
修改2020-09-02 14:04:18
2.7K0
修改2020-09-02 14:04:18
举报

文档布局分析 (Document Layout Analysis) 是识别和分类文本文档的扫描图像中的感兴趣区域(RoI, Regions of Interest) 的过程。阅读系统需要从非文本区域分割文本区域,并按正确的阅读顺序排列。将文本正文,插图,数学符号和嵌入文档中的表格等不同区域(或块)的检测和标记称为几何布局分析。但文本区域在文档中扮演不同的逻辑角色(标题,标题,脚注等),这种语义标记是逻辑布局分析的范围。

项目相关代码 和预训练模型 、数据集 获取:

关注微信公众号 datayx 然后回复 版面分析 即可获取。

AI项目体验地址 https://loveai.tech

样本解释:

坐标文件(BBox):首行格式为:图片名称、图片宽度、图片高度;下面为每个区域的坐标信息,格式为:编号、类型、左上 X 坐标、左上 Y 坐标、右下 X 坐标、右下 Y 坐标,其中类型有 3 种,text 表示文本,image 表示图片,table 表示表格。

掩膜图片(Mask):红色表示文本区域,绿色表示图片区域,蓝色表示表格区域

图像分割(Segmentation)是指将图像分成若干具有相似性质的区域的过程,从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。

基于图论的方法、基于像素聚类的方法和基于深度语义的方法这三大类

边界框回归:相比传统的图像分类,目标检测不仅要实现目标的分类,而且还要解决目标的定位问题,即获取目标在原始图像中的位置信息。

AlexNet是在LeNet的基础上加深了网络的结构,学习更丰富更高维的图像特征。AlexNet的特点:

更深的网络结构

使用层叠的卷积层,即卷积层+卷积层+池化层来提取图像的特征

使用Dropout抑制过拟合

使用数据增强Data Augmentation抑制过拟合

使用Relu替换之前的sigmoid的作为激活函数

多GPU训练

文档布局分析 & 扭曲文档图像恢复

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档