如何检测图片的某个区域是否为空？或者如何在正方形图像中检测字符或数字的存在？ - 腾讯云开发者社区

文章/答案/技术大牛

发布

计算机视觉方向简介 | 手机产品条码检测方案

设计中传输带为黑色，条码背景为白色，它们的反射能力有很大差距，因此漫射式光电传感器能很好地利用该点检测产品条码是否进入相机的拍摄范围。...（分割出来的条码） 2.5 条码识别与检测条码图像经过处理后最终得到的是只有黑白条空组成的二值图像, 该点的颜色信息在阔值变换时已经定义 ,用 255 和 0 表示白色和黑色, 则接下來的任务就是对此图像所包含的数字或英文字母信息进行译码...字符识别的算法有很多，由于该方案中只需要识别简单的数字和英文字母，因此通过简单的 OCR 算法对其条码下方的数字、英文字母字符进行字符检测，再与识别的条码字符相比较，一致则显示该产品条码检测通过...这个扫描线会与图中曲线存在交点，这些交点会将山头分割成一个又一个区域。该条码字符为 13 位，加上条码突出来的几点一共为 18 个区域，因此，当扫描线将山头分割成 18 个区域时停止。...字符分割出来后，最后用 ORC神经网络匹配，把分割出来的字符与字符库里的字符图片进行匹配，最终把字符识别出来。把识别出来的字符串与条码识别出来的字符串对比，即可检测出该条码是否准确。

7733 0

基于机器视觉的手机产品条码检测方案

1.1K4 1

您找到你想要的搜索结果了吗？

是的

没有找到

Android OpenCV（四十）：QR二维码检测与识别

QR码使用四种标准化编码模式（数字、字母数字、字节（二进制）和日文（Shift_JIS））来存储数据。QR码常见于日本，为目前日本最通用的二维空间条码，在世界各国广泛运用于手机读码操作。...除了标准的QR码之外，也存在一种称为“微型QR码”的格式，是QR码标准的缩小版本，主要是为了无法处理较大型扫描的应用而设计。微型QR码同样有多种标准，最高可存储35个字符。...检测QR二维码 public boolean detect(Mat img, Mat points) 参数一：img，待检测是否含有QR二维码的灰度图像或者彩色（BGR）图像。...参数二：points，检测到的QR二维码的最小区域四边形的4个顶点坐标集合。返回值：布尔类型，true，代表检测到QR二维码；false，代表未检测到QR二维码。...public boolean detectMulti(Mat img, Mat points) 参数一：img，待检测是否含有QR二维码的灰度图像或者彩色（BGR）图像。

3.5K3 0

目标检测之R-CNN系列综述

Uijlings 2012 提出的在 Two-Stage 的目标检测中，一般是分为两个步骤，1) 先选取有可能存在目标的候选框，2) 然后对候选框进行预测，判断是否是对应的类别。...重复以上的迭代过程，直到最开始的集合 S 为空，得到了图像的分割结果，得到候选的区域边界，也就是初始框。下图就是上述过程的可视化，难怪有大佬会说，学目标检测，应该先学分割，哈哈哈～ ?...通过线性回归模型对边框进行校准，减少图像中的背景空白，得到更精确的定位缺点 R-CNN 存在冗余计算，因为 R-CNN 的方法是先生成候选区域，再对区域进行卷积，其中候选区域会有一定程度的重叠，造成后续...Faster R-CNN 网络创新与 selective search 方法相比，RPN 网络将候选区域的选择从图像中移到了 feature map 中，因为 feature map 的大小远远小于原始的图像...Faster rcnn 中 iou 大于 0.7 或者与一个 gt 的 iou 最大的 anchor 为正样本，iou 小于 0.3 的 anchor 为负样本。

9221 0

深度学习教程 | CNN应用：目标检测

，检测图像中是否包含某些目标，并对他们准确定位并标识。...对于目标定位问题，其模型如下所示： [目标定位] 为了定位图片中汽车的位置，可以让神经网络多输出 4 个数字，标记为 b_x 、 b_y 、 b_h 、 b_w (注意上图中 P_c 是一个表示目标物是否存在的...，边框的位置可能无法完美覆盖目标(如下图蓝框)，或者大小不合适，或者最准确的边框并非正方形，而是长方形。...YOLO 算法将原始图片划分为 n \times n 网格，并将目标定位一节中提到的图像分类和目标定位算法，逐一应用在每个网格中，每个网格都有标签如： \left[\begin{matrix}P_c...[交互比IoU] 如上图右侧所示，橙色方框为真实目标区域，蓝色方框为检测目标区域。两块区域的交集为绿色部分，并集为紫色部分。

1.1K5 1

OCR大突破：Facebook推出大规模图像文字检测识别系统——Rosetta

通过进行大量的评估实验，我们解释了这种实用系统是如何用于构建 OCR 系统，以及如何在系统的开发期间部署特定的组分。...从图像中获取这样的文本信息是非常重要的，这也能促进许多不同的现实应用，如图像搜索和推荐等。在光学字符识别任务中，给定一张图像，我们的 OCR 系统能够正确地提取所覆盖或嵌入的文本图片。...该模型假设所有图像都具有相同的大小并且存在最大可识别字符数量 k。对于较长的单词，单词中只有 k 个字符能够被识别出。...与其他工作不同的是，我们在此不使用显式循环神经网络结构 (如 LSTM 或 GRU) 或任何的注意力机制，而直接生成每个字符的概率。...表2 以各种卷积结构为主体的 Faster-RCNN 模型的推理时间。表中的数字为相对于 ResNet-50 的改进。

2.9K7 0

连通域的原理与Python实现

它通过对二值图像中目标像素的标记，让每个单独的连通区域形成一个被标识的块，进一步的我们就可以获取这些块的轮廓、外接矩形、质心、不变矩等几何参数。连通区域的定义一般有两种，分为4邻接和8邻接。...从连通区域的定义可以知道，一个连通域是由具有相同像素值的相邻像素组成像素集合，因此，我们就可以通过这两个条件在图像中寻找连通区域，对于找到的每个连通域，我们赋予其一个唯一的标识（ Label ），以区别其他连通域...Two-Pass 算法两遍扫描法（ Two-Pass ），正如其名，指的就是通过扫描两遍图像，将图像中存在的所有连通域找出并标记。 ?...其中，每个正方形边长为10像素，所以数字1切割坐标为左20、上20、右40、下70。以此类推可以知道剩下3个数字的切割位置。代码如下： ? 那么，如果字符位置不固定怎么办呢？...如果栈不为空，则继续探测周围8个像素，并执行第2步；如果栈空，则代表探测完了一个字符块。探测结束，这样就确定了若干字符。代码如下： ? 调用后输出结果和使用投影法是一样的。

5.2K1 0

HarmonyOS学习路之开发篇—AI功能开发（二维码生成及文字识别）

关键字提取可以在大量信息中提取出文本想要表达的核心内容，可以是具有特定意义的实体，如：人名，地点，电影等。也可以是一些基础但是在文本中很关键的词汇。...由于QR二维码是通过正方形阵列承载信息的，建议二维码图片采用正方形，当二维码图片采用长方形时，会在QR二维码信息的周边区域留白。...码生成开发场景介绍码生成能够根据给定的字符串信息，生成相应的二维码图片。常见应用场景举例：社交或通讯类应用：根据输入的联系人信息，生成联系人二维码。...同步与异步模式区别在于detect()的最后一个参数VisionCallback是否为空。若非空则为异步模式。...输入参数不合法（图片尺寸错误） 201 输入参数不合法（为空） 210 输入参数合法 500 服务绑定异常 521 服务绑定异常断开 522 服务已连接 600 模型文件异常 601 模型文件不存在

7232 0

基于 Jetson 在 Aerial 系统内进行深度学习

在这篇文章中，我们将介绍构建此类系统的一些约束和挑战，并解释我们如何在 Jetson TK1 开发人员工具包中使用深度学习来在可变条件下实现人类级别的准确性。...blob 检测算法能够检测图片中的显著性区域，而且可以在缩小的图像上执行来以精度换取速度。使用目标的大小及凸性等标准可以进一步筛选候选者。...图 5：Blob 检测和形状分类阶段。字符分割在这一步，被分类成确定形状（圆，正方形等等）的碎片经过预处理生成目标内字符的二进制掩码。我们假设碎片的背景是相对均匀的，在目标周围进行严格的剪切。...因此最终，我们训练了一个传统的神经网络来处理这一步。除了字母数字类，我们还训练了网络来对旋转字符和无目标类进行区分。前一阶段的字符的二进制掩码被馈入到网络中，每旋转 15°便独立分成一部分。...我们进一步验证了在实验中的图片以及过去几年的比赛中的图片。这些图片中出现的少量的目标比大量的验证更有质量。这个设置模仿了真实的竞赛场景，有利于比较不同网络的特点。总结与展望 ......

8651 0

【深度学习基础】一步一步讲解卷积神经网络

在这个视频中，你会看到如何在一张图片中进行边缘检测。让我们举个例子，给了这样一张图片，让电脑去搞清楚这张照片里有什么物体，你可能做的第一件事是检测图片中的垂直边缘。...同样，你可能也想检测水平边缘，比如说这些栏杆就是很明显的水平线，它们也能被检测到，结果在这。所以如何在图像中检测这些边缘？看一个例子，这是一个6×6的灰度图像。...观察发现，特征检测如垂直边缘检测如果适用于图片的某个区域，那么它也可能适用于图片的其他区域。...直观感觉是，一个特征检测器，如垂直边缘检测器用于检测图片左上角区域的特征，这个特征很可能也适用于图片的右下角区域。因此在计算图片左上角和右下角区域时，你不需要添加其它特征检测器。...通过上述操作你可以构建一个高效的猫咪检测器或其它检测器。恭喜你完成了这一周的课程，你已经学习了卷积神经网络的所有基本构造模块，以及如何在高效图片识别系统中整合这些模块。

1.1K1 0

腾讯数平精准推荐 | OCR技术之检测篇

图1 场景图片示例场景文字识别这一问题在15~20年前就出现了相关的研究工作[1-3]，它与传统OCR的重要区别是需要将照片或视频中的文字识别出来，其主要分为两个步骤：对照片中存在文字的区域进行定位...数平精准推荐团队场景文本检测技术 1、文本检测技术文本检测是场景文本识别的前提条件，要解决的问题是如何在杂乱无序、千奇百怪的复杂场景中准确地定位出文字的位置。...其中，连通域提取环节会将图像中的所有连通域提取出来作为备选，文字连通域判别环节则会根据分类器或者启发式规则判断提取的连通域到底是文字连通域还是背景连通域。 ?...网络、Rotation-ROI-Pooling，其中几个关键点如下：场景图像中并非所有文字都是水平的，存在着大量其他排列分布的场景文本，如倾斜文本、垂直文本。...（2）基于联结文本建议网络的文本检测方法一般物体检测中只有一个独立的目标（如人、猫、狗等）,与一般物体检测不同的是，文本是一个Sequence（字符、字符的一部分、多字符组成的一个Sequence）。

10.4K12 0

合合信息亮相WAIC大会—推动AI鉴伪技术革新，打造可信数字世界【人工智能大会最新AI安全技术成果】

面对日益狡猾和强大的伪造技术，AI鉴伪技术的发展面临着严峻的核心挑战：如何在浩如烟海且不断进化的多模态数据中，精准、高效地识别出那些刻意隐藏的伪造痕迹？...它并非停留在整体判断，而是为图像中的每一个像素点打上真伪概率标签，并精确计算伪造像素的占比，最终为整张图像或视频帧的“真伪概率”进行量化打分。这种精细化的分析极大提升了鉴别的准确性和可解释性。...参与者可以亲眼目睹，一份看似普通的身份证、发票或合同图像，如何在几秒钟内被数字工具轻易篡改关键信息（如姓名、身份证号、金额、日期或条款）。...平台通过深度学习和图像处理技术，能够精确地定位篡改发生的具体区域，例如被修改的数字、替换的图片，甚至是PS过的印章或签名。...每一处篡改都会以可视化的方式标记出来，确保用户能够直观地查看到文档中篡改的痕迹。例如，在身份证篡改的检测中，平台能清晰标示出修改过的区域，为后续审核和取证提供了明确、直观的依据。

3422 0

【AIDL专栏】白翔：基于合成数据的场景文本深度表示方法

二、TextBoxes：基于神经网络的文本检测如报告开始所述，文本识别需要完成两个任务，一个任务是检测文字所在区域(Scene Text Detection)，另外一个任务是对文本区域进行识别(Scene...在RNN中，如果输入一个序列，比如一段字符串或一段语音，会得到上下文相关的建模，而文字也可以类似地看待。但是检测到的文字区域本身还是图像，所以需要进行特征提取转化成序列。...将所得序列交给递归神经网络，最后转化成可理解单词，如英文字符或数字。这么看就非常地简单和直接， RNN这个模型做了两件事情，一个是判定上下文的关系，另外一个是序列的输出。 ?...对于低质量的视频图像怎么去做识别、检索、理解，也是需要讨论的。实际应用中会遇到很差的视频或图像，在这种情况下如何去识别，也是研究的趋势。...六、总结与展望未来的趋势是以文字为源头，把所有通过文字、视频、图像得到的任务信息进行整合，然后进行后续的其他任务，比如自然语言处理、舆情分析、图像理解等等。

1.2K3 0

稀疏&集成的卷积神经网络学习

模型表示涉及到物体具有那些重要属性或特征以及这些特征如何在模型库中表示，有些物体模型定义为一系列局部的统计特征，即generative模型，有些是采用物体的特征以及物体特征之间的相互关系定义的，比如位置关系等...人在成长或者学习过程中，会通过观察A类事物的多个具体事例来得到对A类事物性质和特点的认识，然后以后遇到一个新的物体时，人脑会根据这个事物的特征是否符合A类事物性质和特点，而将其分类为A类或者非A类。...一般匹配过程是这样的：用一个扫描子窗口在待检测的图像中不断的移位滑动，子窗口每到一个位置，就会计算出该区域的特征，然后用我们训练好的分类器对该特征进行筛选，判定该区域是否为目标。...然后因为目标在图像的大小可能和你训练分类器时使用的样本图片大小不一样，所以就需要对这个扫描的子窗口变大或者变小（或者将图像变小），再在图像中滑动，再匹配一遍。...生成性方法检查在给定物体类别的条件下，图像中出现物体的可能性，并以此判定作为检测结果的得分，鉴别性方法检查图像中包含某个类别出现的可能性与其他类的可能性之比，从而将物体归为某一类。

7312 0

AIGC席卷智慧办公，金山办公如何架构文档智能识别与理解的通用引擎？

如今，智慧办公是企业办公领域数字化转型的题中之义。作为国内最早开发的软件办公系统之一，金山办公如何应用深度学习实现复杂场景文档图像识别和技术理解？...早期计算机领域一般采用手工特征提取的方式进行文本检测，如SWT、MSER等算法得到文本所在位置，再利用基于模板的方法或者机器学习的方法对文本区域进行分类得到文本内容。...而基于分割的方案则是通过语义分割的方式先得到文本区域的mask，再利用轮廓检测的方法得到其坐标，如EAST、DBNet等。而文本识别则是发展为以CRNN为代表的序列预测方案。...但是也存在许多的缺陷，如密集文本会出现粘连问题、小字和符号检出率低、变形褶皱文本检测困难、印章或水印签名干扰等。所以还需要通过方案或模型的进一步改造适应特殊场景的需求。...获取到粗体位置后，根据检测位置切分粗体区域和非粗体区域来实现字符粗体的识别。文字斜体是反映字体是否倾斜的一种状态，特别是在某些英文的场景下，斜体可以让文档更具美感。

2.8K1 1

模式识别新研究：微软OCR两层优化提升自然场景下的文字识别精度

如文字中包含多种语言，每种语言含有多种字母，每个字母又可以有不同的大小、字体、颜色、亮度、对比度等；文字通常以文本行的形式存在，但文本行可能有不同的排列和对齐方式，横向、竖向、弯曲都有可能；因拍摄图像的随意性...如文字可能不是写在平面上而是在曲面上；文字区域附近有非常复杂的纹理和噪声；图像中的非文字区域有着跟文字区域非常相似的纹理，比如窗户、树叶、栅栏、砖墙等。这些复杂背景会极大增加误检率。...阶段①：采用对比极值区域CER检测方法一个字母或文字通常可以分为若干个连通区域，如o就拥有一个连通区域，i则拥有两个连通区域，文本检测首先要从图像中切割出可能存在的文字，即候选连通区域，然后再对其进行文字...尤其在图像模糊、分辨率低或者噪声较多时，提取出来的CER有可能会含有冗余像素或者噪声，这些冗余像素或者噪声的存在会使得后面的文字/非文字分类问题变得更为复杂。...算法提取出来的候选连通区域结果示例阶段②：基于浅层神经网络的文字/非文字分类算法当获得了高质量的候选连通区域，就需要对其中的字符进行分辨，确定其是否为文字或非文字，微软亚洲研究院团队提出了一套基于浅层神经网络的文字

2.2K5 0

稀疏&集成的卷积神经网络学习

1K5 0

物体识别技术长篇研究

；第三，即使解决了之前的问题，如何才能准确地从图像中提取出这些几何形状也存在困难。...3、图像颜色特征提取：图像的颜色特征描述了图像或图像区域的物体的表面性质，反映出的是图像的全局特征。一般来说，图像的颜色特征是基于像素点的特征，只要是属于图像或图像区域内的像素点都将会有贡献。...具体方法是：首先将图像从 RGB 颜色空间转换到视觉均衡的颜色空间；然后将视觉均衡的颜色空间量化；最后，采用色彩分割技术自动地将图像分为几个区域，用量化的颜色空间中的某个颜色分量来表示每个区域的索引，这样就可以用一个二进制的颜色索引集来表示一幅图像...对于物体识别这个特定课题，模型主要建模的对象是特征与特征之间的空间结构关系；主要的选择准则，一是模型的假设是否适用于当前问题；二是模型所需的计算复杂度是否能够承受，或者是否有尽可能高效精确或者近似的算法...实例式图像检索在较新的专业图像搜索引擎中应用较多，该方法是提供一张图片实例或者由用户绘制一个大概的形状，系统自主综合可视特征寻找相似图片。

2.3K0 0

ORB 特征

其中，Fast 和 Brief 分别是特征检测算法和向量创建算法。ORB 首先会从图像中查找特殊区域，称为关键点。关键点即图像中突出的小区域，比如角点，比如它们具有像素值急剧的从浅色变为深色的特征。...二元特征向量又称为二元描述符，是仅包含 1 和 0 的特征向量。在 BRIEF 中每个关键点由一个二元特征向量描述，该向量一般为 128-512 位的字符串，其中仅包含 1 和 0。...这里显示的随机对中的第一个像素，是一个蓝色正方形，它是从以关键点为中心的高斯分布中抽取的一个像素，标准偏差或分散趋势为 σ。这里显示为黄色正方形的像素，是随机对中的第二个像素。...缩放不变性和旋转不变性 ORB 使用 FAST 检测图像中的关键点，并且通过额外的几个步骤确保无论对象的大小或位置如何都能检测到图像中的对象。给定一个图像 ORB 算法首先开始构建图像金字塔。...因此一开始的 4x4 正方形区域现在变成 2x2 正方形。图像的下采样包含更少的像素，并且以 1/2 的比例降低大小。

4071 0

异常检测最新研究总结（一）

所以可以看到此篇文章的实验都是在比较简单的数据集上（例如MNIST, cifar10等）做的实验，而且只能将图片分类为正常或异常，而不能定位到异常的位置。...我觉得后续如何在只用正常样本的特征情况下，重构出清晰的图，从而定位到异常区域位置也是一个可以挖的点。 2.2 Memory的进一步改进[2] ?...此外，为了定位异常的位置，而不是仅仅判断某张图片是否为异常，teacher和students的输入是图片的patch，而不是整张图像。...所以文章中采用了三种边长的正方形patch: 17, 33和64（单位为pixel）。将这三种patch size的结果做算数平均就得到了multi-scale的结果；如何pretrain模型。...如上结构图所示，模型主要由三个部分组成： Neural Batch Sampler 如《异常检测最新研究总结（三）》中所说，当需要定位图像中的异常区域时，一般模型的处理单位为图像的patch而不是整张图像

1.7K1 0

点击加载更多

计算机视觉方向简介 | 手机产品条码检测方案

基于机器视觉的手机产品条码检测方案

Android OpenCV（四十）：QR二维码检测与识别

目标检测之R-CNN系列综述

深度学习教程 | CNN应用：目标检测

OCR大突破：Facebook推出大规模图像文字检测识别系统——Rosetta

连通域的原理与Python实现

HarmonyOS学习路之开发篇—AI功能开发（二维码生成及文字识别）

基于 Jetson 在 Aerial 系统内进行深度学习

【深度学习基础】一步一步讲解卷积神经网络

腾讯数平精准推荐 | OCR技术之检测篇

合合信息亮相WAIC大会—推动AI鉴伪技术革新，打造可信数字世界【人工智能大会最新AI安全技术成果】

【AIDL专栏】白翔：基于合成数据的场景文本深度表示方法

稀疏&集成的卷积神经网络学习

AIGC席卷智慧办公，金山办公如何架构文档智能识别与理解的通用引擎？

模式识别新研究：微软OCR两层优化提升自然场景下的文字识别精度

稀疏&集成的卷积神经网络学习

物体识别技术长篇研究

ORB 特征

异常检测最新研究总结（一）

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐