首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ICDAR 2019表格识别论文与竞赛综述(上)

注:“论文名称”一列中,论文名称前标有*号论文表示其未使用基于深度学习方法。每一种方法“效果”一列中展示均为论文中最好效果。...对于Closed Table,作者先删除表格中所有行和线,之后使用距离方法确定每个单元格边界,然后对单元格边界进行水平和竖直方向投影来获得行和分割间隙,最后使用HPP(Horizontal...作者尝试了三种行分隔符,包括任意生成水平线组成“栅格分隔符”,可以文本区域分为上下两个部分“二分分隔符”和有一定倾斜角并且不会穿过文本基线“倾斜分隔符”。...作者首先使用基于规则方法得到上述行分隔符候选,然后将它们和文本区域构成一个图,文本区域和分隔符作为顶点,文本区域之间如果没有其他文本阻挡,则他们之间存在一条边,而文本区域和分隔符分隔符分隔符之间如果距离不超过一个预设视觉范围...每个模块中,除了常规尺度特征提取部分,作者还提出了投影池化(Projection Pooling)操作,它输出实际上就是求取每一行或平均特征值,用于每一行或整体特征整合到原先局部特征上

6.4K74

常用表格检测识别方法——表格结构识别方法 (下)

之后Li等人(2012)使用OCR引擎抽取表单中文本内容和文本位置,使用关键词 来定位表头,然后表头信息和表投影信息结合 起来,得到分隔符和行分隔符来得到表格结构。...其次,它使用最先进文本识别技术来提取所有的文本框。最后,CluSTi使用具有最优参数水平和垂直聚类技术文本框组织成正确行和。...该方法利用一种新spatial CNN分割线预测模块每个检测表格划分为一个单元网格,然后使用一个GridCNN单元合并模块来恢复生成单元格。...有一个大接受域也是至关重要,因为确定行和分隔符位置可能需要全局上下文。例如,始终左对到相同位置文本表示分隔符。SFCN输出被作为RPN和CPN输入。...图片结论:论文提出了一种新表格结构提取方法。它由一对深度学习模型组成,这些模型一起一个表格图像分割成基本单元格网格,然后单元格合并在一起,以恢复跨越多行和单元格

2.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

Power Query 真经 - 第 5 章 - 从平面文件导入数据

用户【控制面板】【区域】设置使用 “.” 作为十进制分隔符和 “,” 作为数字千分位分隔符 。...它们不仅包含一个 “$” 字符,而且数值使用逗号作为千位数分隔符使用句号作为小数。 5.2.3 提取数据 在一个新工作簿中,执行如下操作。 创建一个新查询,【自文件】【 CSV / 文本】。...数据集中一列都可以使用不同使用区域设置】进行设置,这使得用户在导入地区数据时有了巨大灵活性。...当然,有时原始数据可能会很看着乱,至少这个功能已经可以很好地数据分成几列。另一方面,如果用户不得不导入和清洗无分隔符文本文件,就知道这有痛苦。...在这种情况下,不需要任何类型分隔符。因为马上就要以不同方式来分割这一列,所以名称在此时并不重要。 然后,您可以选择使用分隔符并为 (新) 提供一个新名称。

5.1K20

常用表格检测识别方法——表格结构识别方法(上)

Itonori(1993)根据表格中单元格二维布局 规律性,使用连通体分析抽取其中文本块,然后 对每个文本块进行扩展对齐形成单元格,从而得到 每个单元格物理坐标和行列位置。...之后Li等人(2012)使用OCR引擎抽取表单中文本内容和文本位置,使用关键词 来定位表头,然后表头信息和表投影信息结合 起来,得到分隔符和行分隔符来得到表格结构。...其次,它使用最先进文本识别技术来提取所有的文本框。最后,CluSTi使用具有最优参数水平和垂直聚类技术文本框组织成正确行和。...所示工作表格行、单元格划分。所有表格组件估计边界都通过连接组件分析进行了增强。根据行和分隔符位置,然后为每个单元格分配行和号。此外,还利用特殊算法优化单元格边界。...该方法利用一种新spatial CNN分离线预测模块每个检测表格划分为一个单元网格,然后使用一个GridCNN单元合并模块来恢复生成单元格

1.2K30

Power Query 真经 - 第 7 章 - 常用数据转换

就像在 Excel 数据透视表中一样,会发现默认值是数字【求和】和基于文本是【计数】。但与 Excel 不同是,还会发现一个【不要聚合】 选项,将在本书后面的章节中将使用这个选项。...7.3.1 分为 将从 “Cooks: Grill/Prep/Line" 开始,因为这看起来相当简单。 右击 “Cooks: Grill/Prep/Line" 【拆分列】【按分隔符】。...7.3.2 分为多行 要做下一步是拆分 “Days” ,来每天分开。做到这一点一个方法是每天拆分成新,然后对这些使用【逆透视】功能 。...图 7-24 对 “State” 应用筛选器为包含 “ia”,且 “Sales” 要大于 1000 【警告】 当配置筛选器时,创建一个单一应用步骤,当选择这个步骤时,只有最初一列显示出活动筛选器图标...如果想要留下一个更清晰检查线索,需要将每个筛选器作为单独步骤来应用。 7.4.2 按上下文筛选 乍一看,无论用户试图筛选哪一列,筛选器下拉菜单看起来都非常相似。

7.2K31

单列文本分为,Python可以自动化

标签:Python与Excel,pandas 在Excel中,我们经常会遇到要将文本拆分。Excel中文本分为,可以使用公式、“分列”功能或Power Query来实现。...为了自动化这些手工操作,本文展示如何在Python数据框架中将文本分为。...对于了解Excel并且倾向于使用公式来解决此问题的人,第一反应可能是:好,我创建一个可能包含FIND函数和LEFT函数或MID函数等公式,然后向下拖动以将其应用于所有单元格。...图4 要在数据框架列上使用此切片方法,我们可以执行以下操作: 图5 字符串.split()方法 .split()方法允许根据给定分隔符文本分为多个部分。...看一个例子: 图6 上面的示例使用逗号作为分隔符字符串拆分为两个单词。从技术上讲,我们可以使用字符作为分隔符。注意:返回结果是两个单词(字符串)列表。 那么,如何将其应用于数据框架

6.9K10

【NLP】ACL2020表格预训练工作速览

如果K=1,为了尽可能获得表中信息,TaBert构建了一个合成行,每一列都是从对应列选取n-gram覆盖率最高一个值,作为合成行这一列值。这样做动机是,与描述相关值可能存在于多行中。...具体来说就是从输入表中随机选取20%,在每一行线性化过程中遮蔽掉它们名称和数据类型。给定一列表示,训练模型使用标签分类目标来预测其名称和类型。...0表示自然语言描述 序数ID:如果一列值可以被转换为浮点数或日期,就将它们进行排序,基于它们叙述给定对应embedding(0表示无法比较,1表示最小,以此类推) 历史答案:在轮对话设置中,当前问题可能指示了之前问题或者其答案...对于表,首先添加每个单元格第一个单词,然后逐渐添加单词知道达到最大序列长度。为每个表生成10个这样序列。 ?...训练模型去选取某一列值,loss计算分为3部分: 选择平均交叉熵损失: 为交叉熵loss, 为指示函数 单元格选择平均交叉熵损失: 表示col所有单元格 对于不适用聚合操作情况

5.7K10

翻译 | 简单而有效EXCEL数据分析小技巧

下面的截图中,A列有五种形式内容,而B只有两种,这是因为我们已经内容转换成了小写。 ? 5. TRIM():这是一个简单方便函数,可以被用于清洗具有前缀或后缀文本内容。...通常,当你数据库中数据进行转储时,这些正在处理文本数据将会保留字符串内部作为词与词之间分隔空格。并且,如果你对这些内容不进行处理,后面的分析中将产生很多麻烦。 ? 6....2.文本分列:假设你数据存储在一列中,如下图所示: ? 如上如所示,我们可以看到A单元格内容被“;”所区分。我们需要将其进行分列,建议使用EXCEL文本分列功能。...上图中,有两个选项,“分隔符号”和“固定宽度”。我选择“分隔符号”是因为有分隔符“;”。如果我们希望按照宽度分列,例如:前四个字符为第一列,第五到第十个字符为第二,则可以选择按固定宽度分列。...3.Ctrl + Home:定位到单元格A1 4.Ctrl + End:导航到包含数据最右下角单元格 5.ALT + F1: 创建基于所选数据集图表。

3.4K100

【技能get】简单而有效 EXCEL 数据分析小技巧

下面的截图中,A列有五种形式内容,而B只有两种,这是因为我们已经内容转换成了小写。 ? 5. TRIM():这是一个简单方便函数,可以被用于清洗具有前缀或后缀文本内容。...通常,当你数据库中数据进行转储时,这些正在处理文本数据将会保留字符串内部作为词与词之间分隔空格。并且,如果你对这些内容不进行处理,后面的分析中将产生很多麻烦。 ? 6....2.文本分列:假设你数据存储在一列中,如下图所示: ? 如上如所示,我们可以看到A单元格内容被“;”所区分。我们需要将其进行分列,建议使用EXCEL文本分列功能。...上图中,有两个选项,“分隔符号”和“固定宽度”。我选择“分隔符号”是因为有分隔符“;”。如果我们希望按照宽度分列,例如:前四个字符为第一列,第五到第十个字符为第二,则可以选择按固定宽度分列。...3.Ctrl + Home:定位到单元格A1 4.Ctrl + End:导航到包含数据最右下角单元格 5.ALT + F1: 创建基于所选数据集图表。

3.4K90

利用Pandas库实现Excel条件格式自动化

条件格式 基于以上,我们其实可以通过函数方式进行多种条件综合,让Excel表格可视化丰富多彩,比如以下截图展示就是色阶效果!...,有两种方法:①一列设置为索引(这里不做演示),②采用subset指定 指定颜色为灰色 显示全部最大值 那么,Excel如何显示最大值呢?...文本渐变色 文本渐变色顾名思义就是对单元格文本进行颜色渐变,可以通过df.style.text_gradient()来操作,其参数和背景渐变色基本一致。 4....数组,其中每个元素都是一个带有 CSS 属性字符串-值对。...此方法根据axis关键字参数一次传递一个或整个表 DataFrame 一列或行。对于按使用axis=0、按行使用axis=1,以及一次性使用整个表axis=None。

6K41

对比Excel,一文掌握Pandas表格条件格式(可视化)

,有两种方法:①一列设置为索引(这里不做演示),②采用subset指定 指定颜色为灰色 显示全部最大值 那么,Excel如何显示最大值呢?...文本渐变色 文本渐变色顾名思义就是对单元格文本进行颜色渐变,可以通过df.style.text_gradient()来操作,其参数和背景渐变色基本一致。 4....formatter 显示格式 subset用于指定操作或行 na_rep用于指定缺失值格式 precision用于指定浮点位数 decimal用于用作浮点数、复数和整数十进制分隔符字符,默认是...数组,其中每个元素都是一个带有 CSS 属性字符串-值对。...此方法根据axis关键字参数一次传递一个或整个表 DataFrame 一列或行。对于按使用axis=0、按行使用axis=1,以及一次性使用整个表axis=None。

5K20

转-RobotFramework用户说明书稿第2.1节

Robot Framework基于首个单元格文本来识别这些测试数据表。所有可识别表格之外参数都自动忽略。...因为ACSII属于UTF-8子类,因此ASCII编码也是被支持。 纯文本格式 纯文本格式与TSV格式有点类似,但是在每个单元格之间分隔符有所区别。...TSV格式使用是制表分隔符Tabs,但是纯文本中你可以通过两个或者更多空格或者两侧带空格竖线( | )进行分隔。 同TSV格式相似,每个测试数据表之前都必须有一个或者多个星号。...注意,在纯文本文件中,多个“Tab”字符会被当作一个分隔符,在TSV格式中却会被当作多个。 空格分隔格式 作为分隔符空格个数可以不同,但至少要有两个空格,这样就能够很好地对齐数据。...这些测试数据表以第1单元进行命名,最后一列列出了不同别名。这些别名也被用作表名。

5K20

可视化输出表格数据

计算和绘制表格相关全局变量 cols_len[NF]:存储了每一列最大长度, 每最大长度等于该最长元素长度 rows[NR][NF]:文件每行每数据记录到rows二维数组中 rows...、中、下分隔符,第14-16表示左、中、右分隔符 # 自定义颜色:第一个参数表示表格框架颜色,第二个参数表示表格内容颜色,第三个参数表示其他颜色 # 最后可以传入16个颜色参数,表示style中每个字符颜色...、中、下分隔符,第14-16表示左、中、右分隔符 # ${string/substring/replacement}: 使用$replacement, 来代替第一个匹配$substring..., 每最大长度等于该最长元素长度 # rows[NR][NF]: 文件每行每数据记录到rows二维数组中 # rows[NR][0]: 第0存储前一行和后一行数...构造改行内容 line_content = "" # 对于一行内每一个单元格, 计算单元格文本cell_txt 和 对应空白字符填充数fill_len

3.5K20

一个VBA自定义函数,使用文本格式连接唯一值单元格

标签:VBA实用代码 一个单元格区域内有一组数字,这些数字中存在多个相同数字,想要将这些数字中唯一值提取出来并组合成一串数字文本,如下图1所示。...strAnswer As String Dim strTemp As String Dim CompMethod As VbCompareMethod '为InStr函数设置文本比较模式...End If End If Next rng '返回结果字符串 ConcatenateUnique = strAnswer End Function 这个函数仅指定单元格区域中唯一值使用可选格式字符串连接起来...此函数在每个值之间插入分隔符字符串,默认分隔符设置为” ”。 这段代码来自strugglingtoexcel.com。通常,我们会考虑使用Dictionary对象,在连接符合要求值之前获取唯一列表。...然而,这段代码另辟蹊径,使用了VBA中InStr函数,在连接之前检查是否已将值添加到结果中,如果没有则添加。巧妙实现方法!

1.7K20

走进AI时代文档识别技术 之表格图像识别

遍阅近几年比较有实操价值论文,可分为以下三种思路: 1)利用OCR检测文本,从文本空间排布信息推导出有哪些行、有哪些、哪些单元格需合并,由此生成电子表格; 2)运用图像形态学变换、纹理提取、边缘检测等手段...校正方法使用投影变换,也即拟合一个单应矩阵H,使得HX=X',X一列是在每条直线上以固定距离采样齐次坐标,X'对应列是该点校正后齐次坐标。...我们对一个完整表格定义如下: 1)所有单元格单元格定义为[起始行,结束行,起始,结束] 2)每一行行高(像素) 3)每一列宽(像素) 4)每个单元格字号大小(像素) 5)每个单元格对齐方式...字号可由OCR文本高度确定,但是由于返回高度总有一些不一样,实际表格中常常不会有太多字号,经常是同一列单元格用一样字号。...至此,表格所有单元格,每一行行高,每一列宽,每个单元格字号大小,每个单元格对齐方式,每个单元格文字内容都已经识别出来了。

15.4K60

做完这套面试题,你才敢说懂Excel

问题3:产品线固定为:电脑用品、工业用品、工艺收藏、户外运动、家居园艺,并制作为下拉选项,输入其他值时提醒:非有效产品线 如上图所示,需求是对“产品线”制作下拉菜单,使得产品线为固定几个选项。...即高小明在成员中,是第4个。 用match匹配出位置信息后,我们再嵌套index引用函数,match匹配出来位置信息作为index第二个参数传回给index。...如下: 但是,如果要连接比较多文本,用文本连接符来连,虽然简单,但容易出错,特别是中间还要连接分隔符。...即高小明在成员中,是第4个。 用match匹配出位置信息后,我们再嵌套index引用函数,match匹配出来位置信息作为index第二个参数传回给index。...如下: 但是,如果要连接比较多文本,用文本连接符来连,虽然简单,但容易出错,特别是中间还要连接分隔符

4.5K00

2.4 数据清洗12招

1 首行作标题 我们把数据获取到查询器中往往首行标题是未识别的状态,只需单击第一行作为标题。 ?...如果我们想要删除空白项目,点击筛选箭头,删除空选项。 ? 4 拆分 拆分和提取都是非常强大文本处理功能,在2.3章节文件夹下多个文件汇总中有举例说明,请参照上一章内容,在这里不做过多赘述。...可能你会发现在转换和添加选项卡中都有提取功能而且长得一模一样,区别在于添加是在后面添加一列提取出选中长度、字符、范围等,而转换中是在当前列中操作。 ?...9 移动 这个最简单,尝试一下鼠标按住某一列拖动来移动位置,这个良心设计比起Excel真是好用得多。此外,你也会看见移动功能下有特定选项供使用。 ?...11 格式 在拆分列选项旁边还有个ABC格式选项,里面包含了几种常见而非常好用文本处理功能,更改大小写;修整功能是除去文本首尾空格和文本间不必要空格(Excel里对应使用Trim函数,比如" Power

2.4K30

Excel表格中格式转换这些套路,你都get了吗?

下面图片中对“购买数量”这一列求和,结果就是错误。 再比如,直接用对文本格式做“描述统计分析”,就会报下面的错误 这是因为只有数值格式才能进行计算,而这一列文本格式,无法进行计算。...这时候,就需要将这一列转换为数值格式。 下面介绍3种文本转换为数值格式方法。 方法1)使用“数据”-“分列”功能 方法2)使用value函数 新建一列作为辅助,用于存放转换后数值。...在这个案例数据上,我新建是F。在这一列F2单元格里输入下图中value函数:=value(D2),表示让这一单元格值等于D2单元格值。...选中D数字区域,然后点击鼠标右键:“选择性粘贴”-“乘”;单击“确定” 问题2:如何数字格式转为文本格式?...、编码),需要转为文本格式 3)“假”日期格式无法通过右键单元格来改变日期显示形式 上面这些格式问题,都可以使用Excel分列功能解决。

2.2K20
领券