学习
实践
活动
专区
工具
TVP
写文章

SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法

本文授权转载自:CSIG文档图像分析与识别专委会 ? 对应到图2中,蓝色框表示文字块单元,绿色线段表示文字块单元之间的吸引关系,红色线段表示文字块单元之间的排斥关系,为了表示的方便,只画了其中两行文字中的文字块单元以及单元关系。 其中的节点V代表多尺度的图像金字塔中的文字块单元,边E代表在同一层以及跨层的文字块单元之间的连接关系。其中每个边对应这两个吸引和排斥权重值: ? 和 ? 。 遍历所有有效的文字块单元关系,可以得到组合好的文字块单元组,对应图2中,不同的文字块单元组用不同的颜色表示。最后,利用每组文字块单元,可以提取出对应的文字区域的外接检测框。 ? Fig.3. 原文作者:Jun Tang, Zhibo Yang, Yongpan Wang, Qi Zheng, Yongchao Xu, Xiang Bai 撰稿:汤 俊 编排:高 学 审校:殷 飞 发布:金连

1.3K10

ICDAR 2019论文:自然场景文字定位技术详解

自然场景图像中的文字识别应用广泛,其中文字定位是最重要的一步,但技术上极具挑战。本文提出了一个高效的场景文本检测框架,取得了明显的效果提升。 自然场景文字定位是文字识别中非常重要的一部分。 ICDAR是由国际模式识别学会(IAPR)组织的专业会议之一,专注于文本领域的识别与应用。ICDAR大会每两年举办一次,目前已发展成文字识别领域的旗舰学术会议。 为了提高自然场景的文本检测和识别水平,国际文档分析和识别会议(ICDAR)于2003年设立了鲁棒文本阅读竞赛(“Robust Reading Competitions”)。 图 7 小文字块和近邻连接 基于第(2)小节构建的特征金字塔特征图,将每层特征图上特征点用于检测小文字块和文字块连接关系。 图 8 连接关系示意图 最后基于检测出的小文字块以及文字块连接,组合出文本框(如图9),具体组合过程如下: (a) 将所有具有连接关系的小文字块组合起来,得到若干小文字块组; (b) 对于每组小文字块

98731
  • 广告
    关闭

    文字识别特惠,1000次资源包低至1元!!

    基于行业前沿的深度学习技术,将图片上的文字内容智能识别成为可编辑的文本。有效地代替人工录入信息。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    读懂命名实体识别

    命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 简单的讲,就是识别自然文本中的实体指称的边界和类别。 在MUC-6之前,大家主要是关注人名、地名和组织机构名这三类专业名词的识别。 甚至有一些工作不限定“实体”的类型,而是将其当做开放域的命名实体识别和分类。 03 常见方法 早期的命名实体识别方法基本都是基于规则的。 值得一提的是,由于深度学习在自然语言的广泛应用,基于深度学习的命名实体识别方法也展现出不错的效果,此类方法基本还是把命名实体识别当做序列标注任务来做,比较经典的方法是 LSTM+CRF、BiLSTM+CRF

    81910

    【独家】一读懂文字识别(OCR)

    并且出现了许多相关的识别系统,如:紫光通推出的名片识别系统(e一card)、身份证识别系统(e验通)和“慧视”屏幕文字图像识别系统等等。 4.2手写体识别应用 4.2.1通笔(联机手写) 笔顺和连笔是影响联机手写汉字识别系统识别率的两个主要因素。 ,通笔的研制者提出了一种富有创造性的结构法与统计法相结合的新技术,较好地解决了单纯的结构识别方法难以适应手写汉字字形及笔顺变化的问题。 五 学习资料 5.1 博客推荐 5.1.1中OCR博客 博主中文OCR系列博客,内容讲解比较直白,比较容易理解,可以比较清楚了解汉字识别整个流程。 编辑:胡蝶 【一读懂】系列往期回顾: 【独家】一读懂非关系型数据库(NoSQL) 【独家】一读懂回归分析

    13.1K143

    一种去水印的营业执照识别方法

    营业执照识别,主要包括图片去水印,图片中文字检测,图片文字块识别。 类别的标定:双向LSTM层判断是否为文字块rpn_score,并获取与真实文字块距离的信息rpn_bbox; C.通过rpn_score及rpn_bbox信息获取图片中文字块的信息; 图片文字块识别 A .训练样本的生成,收集营业执照图片,利用CTPN算法检测到文字块区域,利用边缘检 测算法检测到图片边缘及非平滑区域。 3MaxPooling+3Bn,利用卷积获取局部信息,在更高层将局部的信息综合起来就得到了全局的信息;利用pooling进行降维操作; C.序列的标定:双向LSTM层获得属于每个类别的概率; D.翻译层:去除重复的识别结果及非字符 ; 图像去水印效果图: 营业执照检测识别效果

    81440

    自然场景文本检测识别技术综述

    ·SegLink 将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。 同一本行上各个字符图像间可以互为上下文,在训练阶段让检测模型学习图像中蕴含的这种上下文统计规律,可以使得预测阶段有效提升文本块预测准确率。 如下图所示,该模型能够同时从6种尺度的特征图中检测小文字块。同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。 PixelLink模型 自然场景图像中一组文字块经常紧挨在一起,通过语义分割方法很难将它们识别开来,所以PixelLink模型尝试用实例分割方法解决这个问题。 训练阶段,使用了平衡策略,使得每个文字块在总LOSS中的权值相同。训练过程中,通过预处理增加了各种方向角度的文字块实例。

    4.5K20

    自然场景文本检测识别技术综述

    ·SegLink 将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。 同一本行上各个字符图像间可以互为上下文,在训练阶段让检测模型学习图像中蕴含的这种上下文统计规律,可以使得预测阶段有效提升文本块预测准确率。 同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。换句话说,位置邻近、并且尺寸接近的文字块都有可能被预测到同一单词中。 ? 训练阶段,使用了平衡策略,使得每个文字块在总LOSS中的权值相同。训练过程中,通过预处理增加了各种方向角度的文字块实例。 ? Total-Text 该数据集共1555张图像,11459本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。

    2.1K20

    【NLP】一了解命名实体识别

    导读:从1991年开始,命名实体识别逐渐开始走进人们的视野,在各评测会议的推动下,命名实体识别技术得到了极大地发展,从最初的基于规则和字典的方法,到现在热门的注意力机制、图神经网络等方法,命名实体识别已经在各开放数据集上取得了很高的准确率 、细粒度命名实体识别、嵌套命名实体识别、命名实体链接。 普通的命名实体识别任务只会识别出其中的地名“中国”和“爱尔兰”,而忽略了整体的组织机构名。 ? 图2 学者们提出了多种用于嵌套命名实体识别的方法。 Ju 等动态堆叠多个扁平命名实体识别层,并基于内部命名实体识别提取外部实体。如果较短的实体被错误地识别,这类方法可能会遭受错误传播问题的困扰。嵌套命名实体识别的另一系列方法是基于超图的方法。 Xia等提出了 MGNER 架构,不仅可以识别句子中非重叠的命名实体,也可以识别嵌套实体,此外不同于传统的序列标注任务,它将命名实体识别任务分成两部分开展,首先识别实体,然后进行实体分类。

    89420

    带你看透通用文字识别 OCR

    OCR技术通常包括三个步骤:图像预处理、字符识别识别输出处理。图像预处理的目的是对原始图像进行改进,以便在后续步骤中获得更好的识别结果。 识别输出处理主要是改善识别结果,以降低识别错误率,包括拼写检查,空格检查,格式更正等等。OCR技术已经被应用在许多地方,包括文件转录、图书出版、发票处理、社会安全号码自动识别等。 它具有识别准确率高,运行速度快,识别范围广的优势,可以精确识别出内容,为工作过程中提供了高效的帮助。 通用文字识别在多个行业及商业应用中得到了广泛应用,那么就少不了API的使用。 识别结果包含文字在图片中的位置信息,方便进行版式的二次处理。传入要识别的图片即可返回图片中的文字识别结果。 使用通用文字识别技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验。

    11950

    弄懂CNN及图像识别(Python)

    一、卷积神经网络简介 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算的前馈神经网络,是基于图像任务的平移不变性(图像识别的对象在不同位置有相同的含义 在图像处理中,图像数据具有非常高的维数(高维的RGB矩阵表示),因此训练一个标准的前馈网络来识别图像将需要成千上万的输入神经元,除了显而易见的高计算量,还可能导致许多与神经网络中的维数灾难相关的问题。 7、Output-输出层 Output层也是全连接层,采用RBF网络的连接方式(现在主要由Softmax取代,如下示例代码),共有10个节点,分别代表数字0到9(因为Lenet用于输出识别数字的),如果节点 i的输出值为0,则网络识别的结果是数字i。

    19820

    独家 | 一读懂语音识别(附学习资源)

    将原始波形进行识别并不能取得很好的识别效果,频域变换后提取的特征参数用于识别,而能用于语音识别的特征参数必须满足以下几点: 特征参数能够尽量描述语音的根本特征; 尽量降低参数分量之间的耦合,对数据进行压缩 声学模型 声学模型是语音识别系统中非常重要的一个组件,对不同基本单元的区分能力直接关系到识别结果的好坏。语音识别本质上一个模式识别的过程,而模式识别的核心是分类器和分类决策的问题。 通常,在孤立词、中小词汇量识别中使用动态时间规整(DTW)分类器会有良好的识别效果,并且识别速度快,系统开销小,是语音识别中很成功的匹配算法。 但是,在大词汇量、非特定人语音识别的时候,DTW 识别效果就会急剧下降,这时候使用隐马尔科夫模型(HMM)进行训练识别效果就会有明显提升,由于在传统语音识别中一般采用连续的高斯混合模型GMM来对状态输出密度函数进行刻画 这样可以不断根据已有的识别结果来为下一次识别进行改进,而目前在语音识别上,普遍上还是仅仅将语音与文本做简单的匹配从而进行识别,对于语言中具体信息间的联系利用还是非常不足的,因此如果可以建造一个更好的模型

    1.6K60

    移动设备上的多位数字识别

    对于多位数字识别,也有人进行门牌号码、车辆VIN(Vehicle Identification Number,车辆识别码)识别之类的研究。 分割 使用轮廓查找器分割数字块,并将其调整为28×28,以便于识别。此外,系统还基于数字的位置来计算哪些数字位属于同一个数。 识别 使用CNN识别每个图像块中的数字。 分割数字块 即使将图像尺寸调整为640×480,对于图像识别来说仍然太大。此外,用户可能想在同一页面上写多个数字,一次性找出每个数字是有用的。因此,分割步骤被引入进来,解决掉这两个问题。 在第二步中,我们使用空格从左到右扫描合并的边界框(每列之间的空列),分割出数字块。数字块的大小调整为28×28,所以它与CNN的输入大小兼容。分段的数字块如图1(e)所示。 使用MATLAB进行大小端格式转换后,每个输入图像是一个28×28的数字块,有着灰色背景和白色数字。我们计算图像均值,对每个图像减去均值,以形成最终的输入块。

    79220

    Android OCR文字识别 实时扫描手机号(极速扫描单行文本方案)

    200*300的图片都要好几秒 所以在没有优化的情况下,直接用tess-two 来作文字识别,只能是拍一张照,然后等待识别结果,比如识别文章、扫描身份证等,如果像我的需求,需要识别面单上的手机号,可能一分钟需要扫描几十个手机号 ,我之后还尝试了几种方案,这里列举一下 1、tess-two 适用场景:小区域连续扫描解析 (比如识别手机号、单词 等) 优点:免费开源、本地解析、英文数字识别率可观 缺点:识别速度慢、需要做大量优化 ,每当遇黑色像素点时,更新宽度,space 超过宽度的1/11时,归0,文字块结束 int textWidth = 0; //当前文字开始X坐标,文字块宽度 = 结束点 return newBmp; } ---- 更新 图1:捕捉到有 11 位字符的文字块,取到文字块的精准位置,交给tess-two解析 图2:捕捉到有 12 位字符的文字块 ,不符合手机号码特征,则不进行位置获取和内容识别,直接跳过 之前的算法还有一些缺陷,会有少数不符合手机号特征的文字块也被捕捉到了,我又换了一种算法,可以捕捉到文字块的精准位置,和包含多少个字符(

    71021

    学界 | 一概览语音识别中尚未解决的问题

    选自Awni 机器之心编译 参与:Nurhachu Null、路雪 深度学习应用到语音识别领域之后,词错率有了显著降低。但是语音识别并未达到人类水平,仍然存在多个亟待解决的问题。 本文从口音、噪声、多说话人、语境、部署等多个方面介绍了语音识别中尚未解决的问题。 深度学习被应用在语音识别领域之后,词错率有了显著地降低。 然而,尽管你已经读到了很多这类的论文,但是我们仍然没有实现人类水平的语音识别。语音识别器有很多失效的模式。认识到这些问题并且采取措施去解决它们则是语音识别能够取得进步的关键。 下一个五年 语音识别领域仍然存在不少开放性挑战问题,包括: 将语音识别能力扩展至新的领域、口音,以及远场、低信噪比的语音中。 在语音识别过程中结合更多的语境信息。 音源和声源分离。 语义错误率和新型的语音识别器评价方法 超低延迟和超高效的推理 我期待语音识别未来五年能够在这些方面取得进展。 ?

    65160

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 语音识别

      语音识别

      腾讯云语音识别(ASR) 为开发者提供语音转文字服务的最佳体验。语音识别服务具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求……

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券