在线ocr转换_在线转换ocr_ocr 在线转换 - 腾讯云开发者社区

html、ocr

我要找一个OCR软件，渲染覆盖HTML到一个图像。我目前正在使用一些未命名的产品。它有一个OCR功能，可以对带有图像的PDF文档进行内联OCR。内联OCR非常方便，它允许搜索带有图像的PDF文档中的文本。也可以直接在文档中突出显示文本，OCR文本与底层图像对齐。不幸的是，我无法从未命名的产品中导出或存储内联OCR。有没有其他软件可以执行和导出在线OCR？我特别感兴趣的是导出到HTML中，其中包含与底层图像对齐的定位段落。另请参阅：

浏览 3提问于2013-05-13得票数 5

3回答

一种PDF到Mobi转换器

pdf、document-converter、ocr、kindle

我是kindle的所有者，在通过免费的在线软件将拥有不可选择对象的pdfs转换为kindle支持的格式时，我面临着许多问题。是否有一个应用程序或网站可以准确地做到这一点(例如通过OCR )？

浏览 0提问于2015-01-15得票数 0

回答已采纳

1回答

预处理图像后检测白文本，用OCR + tesseract 4 (python)提取白文本。

python-3.x、ocr、tesseract

我试图使用tesseract OCR从图像(如在线美容产品图像)中提取文本，但大多数情况下，它无法检测到白色文本。问题是文本是混合的(，一些文本是黑色的，白色的，另一些是白色的，在黑色的上)，有什么方法可以克服这一点，提高OCR检测白文本的能力吗？经过预处理后，请找到附加图像( OCR作为输入的图像)。文本提取的结果如下：答:如果3éue a.‘一次，一次湿疹手部修复霜。BRe ie ccm Sec意味着se gern EgencuC es De Uae ene ai Ml. TS邱考尔4“：3 alas :E Risted& recowiniendeda _a PEC Ry

浏览 7提问于2020-03-23得票数 0

7回答

需要良好的OCR打印源代码清单，有什么想法吗？

ocr

在我的工作中，有时我需要一些打印的源代码，并手动将源代码输入到文本编辑器中。不要问为什么。显然，输入它需要很长的时间，而且总是需要额外的时间来调试输入错误(oops遗漏了一个"$“签名)。我决定尝试一些OCR解决方案，比如： Microsoft已构建在OCR 中结果:遗漏了所有的空格，漏掉了所有的下划线，错误地解释了许多标点符号。结论:比手工输入代码要慢。各种在线网络OCR应用程序结果:与Microsoft文档映像相似或更糟结论:比手工输入代码要慢。我觉得源代码非常容易OCR，因为字体是无衬线和单空格。你们中

浏览 10提问于2009-12-11得票数 13

回答已采纳

1回答

扫描pdf至doc

pdf

有没有人知道是否有一个免费的在线OCR转换器，可以转换大扫描的pdf文件(例如，我想转换一个扫描的28 of大小的pdf文档)？我试过很多ocr转换器，但都失败了。

浏览 0提问于2016-01-17得票数 0

1回答

NameError:未定义名称“”pytesseract“”

python-3.x、path、tesseract、python-tesseract、pytesser

无法识别Pytesseract。我已经尝试了在线文档中记录的所有修复，包括将tesseract OCR添加到我的Path变量中，将pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'命令路径整合到我的脚本中，卸载并重新安装pytesseract和tesseract。

浏览 67提问于2020-03-06得票数 2

1回答

测试CCSN样本代码

java、ocr、simulator

我想开发一个用于扫描和解析(OCR)文档的java应用程序。我已经从下载了示例代码。但我的佳能扫描仪并没有使用示例code.Have，任何人都知道有任何模拟器、或虚拟扫描器用于测试CSSN OCR 。(申请或在线服务)？

浏览 2提问于2013-11-01得票数 1

回答已采纳

1回答

Tesseract.js代码在线可用不起作用

javascript、tesseract.js

我正在尝试这个在线提供的tesseract.js代码，但它不起作用。我没有得到任何输出。尽管包含了CDN，但我认为它没有识别出任何tesseract函数。 <html> <head> <title>Test ocr</title> <script src='https://cdn.jsdelivr.net/gh/naptha/tesseract.js@v1.0.14/dist/tesseract.min.js'></script> </head>

浏览 55提问于2019-02-04得票数 0

0回答

目录: assets/tessdata

android、ocr、tesseract

我已经从github下载了一个OCR文本识别器。我的问题是:我想在不在线的情况下启动我的应用程序，但每次我在手机上安装apk时，它都会开始下载英语和tesseract OCR引擎。我找到了一个在线指南，上面说我必须在assets文件夹中创建一个名为"tessdata“的文件夹，并将eng.traineddata和osd.traineddata放在这个文件夹中。我试过了，但当我第一次安装应用程序时，下载过程仍然开始。要使此应用完全脱机，我可以做些什么？

浏览 9提问于2016-07-13得票数 2

2回答

免费的在线OCR程序与商业OCR程序相比如何？

ocr

与在线免费提供的软件相比，商业OCR软件会有多好？更具体地说:阅读图片中的文本(如书籍封面等)

浏览 5提问于2010-05-04得票数 0

回答已采纳

1回答

如何使用分隔符识别和打印字符串

string、python-3.7

我正在尝试制作一个“测验扫描器”，它使用OCR在线扫描测验，这样我就可以自己从在线来源汇编测验，以便能够离线回答它们。我厌倦了复制和粘贴的事情，只使用OCR代替。我对光学字符识别部分没有问题，因为我现在遇到的问题是，我需要将问题从选择中分离出来，从正确和错误的选择中分离出来。下面是我尝试分离它们的一个过于简化的代码。我需要将它们分开，因为我想将其导出到excel中的电子表格中。真的需要你的帮助，一如既往的堆栈溢出社区 import re scannedmcq = 'Insert Question Here @ A(correct) > B > C > D

浏览 26提问于2020-03-29得票数 0

回答已采纳

1回答

在r中的pdf上执行ocr时出错

r、pdf、ocr、tesseract、lapply

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。 pdftoppm version 4.00 Copyright 1996-2017 Glyph & Cog, LLC Usage: pdftoppm [options] <PDF-file> <PPM-root> -f <int> : first page to print -l <int> : last page to print -r <number> :

浏览 3提问于2017-09-20得票数 0

1回答

在线程中使用时，Tesseract OCR崩溃

ocr、tesseract

我得到了一个奇怪的预言与ocr。一切都很好，就像ocr部分。正确识别字符。但是它在完成所有计算之后就会崩溃，只有在我在线程中运行代码时才会发生这种情况。 void server(boost::asio::io_service & io_service, unsigned short port) { tcp::acceptor a(io_service, tcp::endpoint(tcp::v4(), port)); for (;;) { a.accept(sock); //b

浏览 6提问于2015-11-20得票数 0

回答已采纳

1回答

AWS lambda返回作为OCR结果的代码

python、amazon-web-services、aws-lambda、python-tesseract

我已经将Pytesseract层导入到AWS.And的Lambda控制台中，也使用过它，但是每当tesseract ocr检测到英语以外的语言时，它都会返回如下代码 {"statusCode": 200, "body": "\"\\u09ad\\u09bf\\u09a7\\u09cd\\u09be\\u09ac\\u09c1\\u09af\\u09bc\\u09c7\\u09b\\u09a4\\u09be\\u09b0\\u0995\\u09be ""} 我已经链接了所有的代码below.Can，有人告诉我出了什么问题，here

浏览 21提问于2021-01-12得票数 0

2回答

线程结束后消除ProgressBar的最佳方法

android、multithreading

当线程正在执行OCR计算时，我有一个不确定的ProgressBar旋转，我希望在线程结束后将该条设置为View.GONE。但是，我不确定在线程结束时注册的最佳方法。显然，我不能在线程的末尾将其设置为View.GONE，否则我就会不恰当地触摸视图。不太确定是否需要任何代码，因为这个问题非常普遍，但是如果需要的话，我很乐意提供。

浏览 0提问于2014-12-11得票数 0

回答已采纳

2回答

如何在uipath中使用google文本读取pdf

uipath

我在uipath是新的，我使用PDF活动来读取与Google的Pdf文本，因为我想得到包含图像的pdf文本。首先，我只使用Pdf文本，它工作得很好。然后，我使用Pdf与OCR，然后它显示了这个错误。但是当我运行它时，它给出了一个错误：- "Google OCR : Error performing OCR: TessErrorLoadEngine" Please help me to read the Pdf file.

浏览 9提问于2017-09-11得票数 0

1回答

高新ECM含量转换

alfresco

我使用Alfresco将TIFF转换为PDF，使用Tiger OCR库() 我的自定义转换xml (ocr-转换器-上下文)是 <?xml version='1.0' encoding='UTF-8'?> <!DOCTYPE beans PUBLIC '-//SPRING//DTD BEAN//EN' 'http://www.springframework.org/dtd/spring-beans.dtd'> <beans> <bean id="transformer.O

浏览 1提问于2011-04-15得票数 0

1回答

按文件夹从R中指定路径分配的文件

r、dplyr

我有csv文件，它指示指向它们文件夹中的jpg文件的路径。列指示必须在其中复制jpg的文件夹的名称，在行中，它们的原始文件夹中有指向jpg的路径(必须从这些路径中复制)。通过dput()共享示例 mydata=structure(list(x1 = structure(c(2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 1L, 1L, 1L), .Label = c("", "C:\\Users\\OCR\\Downloads\\OCR pass 2\\input\\17992279.png", "C:\\Users\\

浏览 2提问于2019-10-31得票数 0

回答已采纳

0回答

OCR-行驶证驾驶证识别可以识别日本驾驶证么？

文字识别、腾讯云测试服务

下午客服人员和我打电话说, OCR-行驶证驾驶证识别可以进行日本驾驶证识别的. 但是, 为什么在线接口 https://cloud.tencent.com/act/event/ocrdemo 测试的时候, 没有返回任何内容呢? image.png

浏览 375提问于2019-07-08

1回答

Mat和Pix的不同Tesseract结果

c++、opencv、ocr、tesseract、leptonica

目标在使用OpenCV Mat时，与使用Leptonica Pix对Tesseract进行OCR时获得相同的质量结果。环境 C++17，OpenCV 3.4.1，Tesseract 3.05.01，Leptonica 1.74.4，VisualStudioCommunity2017，Windows10Pro 64位描述我与Tesseract和OCR合作，发现了我认为是一种奇怪的行为。这是我的输入图像：这是我的密码： #include "stdafx.h" #include <iostream> #include <opencv2/opencv

浏览 1提问于2018-03-23得票数 2

回答已采纳

1回答

最好的方式解析屏幕截图拼字游戏的数据结构？

computer-vision、vision

我想要将一个在线拼字游戏的截图解析成一个数据结构，这样我就可以通过一个求解器来运行它，以获得最好的移动。我没有计算机视觉方面的经验，但在大学课程中对ML有一定的基础知识。任何想法都将不胜感激！我尝试过谷歌搜索“如何解析游戏图像”和相关主题，我有一些使用OCR库的经验，但最困难的部分是不知何故知道如何拆分图像，因此OCR可以确定字符。

浏览 20提问于2019-02-05得票数 0

回答已采纳

2回答

在C#中使用Microsoft 2013时莫迪OCR错误

c#、ms-office、ocr、modi

我计划在我的项目中使用OCR，并搜索更多的OCR方法，但没有找到任何正确的方法。最后，我听说了莫迪的事，我试过了。但是它抛出了以下错误：使用CLSID {40942A6C-1520-4132-BDF8-BDC1F71F547B}检索组件的COM类工厂失败，原因如下: 80040154 我正在使用Microsoft Office 2013和visual studio 2012。我使用的代码如下： private void button1_Click(object sender, EventArgs e) { CheckFileType(@"E:\\&

浏览 3提问于2013-08-29得票数 0

1回答

使用Movidius NCS2的OpenCV在使用Darknet神经网络时出现错误

python、opencv、intel、openvino、movidius

我正在尝试使用英特尔Movidius神经计算棒2执行光学字符识别。我使用的光学字符识别网络基于YOLO，因此将图形结构保存为.cfg文件，并将权重保存为.weights文件。我使用的是OpenCV，它与Openvino一起安装在Raspberry Pi 3b+上。我的代码如下： import cv2 # load network ocr_net = cv2.dnn.readNetFromDarknet('ocr-net.cfg', 'ocr-net.weights') ocr_net.setPreferableTarget(cv2.dnn.DNN_TARGE

浏览 5提问于2019-10-17得票数 0

2回答

网站来自JPG模板，来自OCR的图像

template

有人给了我一些jpg，并期望我从他们创建一个网站。有了一个在线工具，我可以对他们进行OCR。是某种工具让我从jpg中创建一个合适的站点吗？在标签中放置jpg和OCRed文本可以吗？

浏览 0提问于2013-02-10得票数 0

回答已采纳

1回答

ImageMagick用于检测数字

imagemagick

我很想知道ImageMagick是否能检测到图像中的数字？如果可以这样做，那么编写代码的最佳方法是什么？如果ImageMagick不能这样做，还有其他方法来检测图像上的数字吗？编辑:我不寻找一个OCR程序或使用OCR程序。我已经使用OCR通过杂技，如果它是一个独特的真实类型或opentype字体，OCR进程将破坏图像。

浏览 0提问于2013-02-04得票数 0

回答已采纳

1回答

使用支持向量机库的python绑定LIBSVM时出错

python-3.x、libsvm

我正在尝试测试来自J.E.Solem的“用Python编程计算机视觉”(第8.4章)一书中的OCR示例。此示例为支持向量机库LIBSVM使用python绑定。我使用的是LIBSVM-3.22 (最后一个)。我得到了以下错误=> Traceback (most recent call last): File "SVM.py", line 49, in <module> prob = svm_problem(labels,features) File "/home/pyimagesearch/.virtualenvs/py3cv3/l

浏览 2提问于2018-02-26得票数 1

1回答

如何根据子集合中的值选择对象？

c#、linq、ef-core-5.0

我有一份文件清单。文档是这样的： class Document { string Name; string Description; List<Page> Pages; } 页面是这样的： class Page { string OCR; } 在fluent LINQ中对ef core 5的以下查询是什么？：我想获取名称、描述或OCR中包含"text“的所有文档。可以通过一个流畅的LINQ查询获取文档吗？我想出了这个，但我不知道如何添加OCR位： Documents.Where ( x =&g

浏览 20提问于2021-01-06得票数 1

回答已采纳

1回答

如果一个OCR具有很高的针对性，它能在瞬间运行吗？(小字典)

ocr、tesseract

我正在寻找一个开源的ocr (可能是tesseract)，它使用字典来匹配单词。例如，我知道此ocr将仅用于搜索某些名称。假设我有一个主来宾列表(写的)，我想用ocr在不到一秒钟的时间内扫描这个列表，并将其与人名数据库进行核对。我知道传统的ocr可以尝试读取每个字母，然后我可以将结果与100个名字进行交叉比较，但这太耗时了。如果ocr只关注这100个单词，而不关注其他单词，那么它应该能够在瞬间完成所有这些。也就是说，没有必要猜测一个单词可能是"Jach“，因为"Jach”在我的数据库中不是一个名字。ocr应该能够推断出它是"Jack“，因为它是数据库中的实际名称。这

浏览 3提问于2013-02-07得票数 2

回答已采纳

1回答

将扫描的PDF表格转换为Excel

python、excel、pdf、ocr

我有一个扫描的PDF，其中有一些表格格式的随机数据，并希望将其复制到Excel工作表。我试过使用数字PDF，使用'tabula‘来提取表格，但扫描的PDF需要OCR(我在google上看到的)。我知道涉及到OCR (Tesseract)，但不知道我应该采取什么方法来解决这个问题。

浏览 7提问于2019-06-20得票数 0

1回答

Seam PDF -左对齐"p:data“键

pdf、seam

我有以下代码可根据数据生成pdf： <p:barchart is3D="true" legend="false" orientation="horizontal" width="520"> <p:series key="Gráfico"> <ui:repeat var="ocr" value="#{myBean.value}" > <p:data key="#{ocr[0]}&#

浏览 0提问于2012-08-16得票数 6

1回答

自动将图片文件上载到免费的联机OCR资源

vba、excel

我试图上传一个.jpg文件到一个免费的在线OCR网站。我在这个项目中使用Excel： Sub getOcrText() Dim ocrAddress As String: ocrAddress = "http://www.free-online-ocr.com" Dim picFile As String: picFile = "C:\Users\310217955\Documents\pdfdown\test.jpg" Dim elementCollection As Variant Dim IE As New InternetExplorerMed

浏览 4提问于2015-10-19得票数 1

回答已采纳

1回答

印刷在金属板上的文字上的OCR

opencv、computer-vision、ocr、tesseract、opencv3.0

我正在从事一个OCR项目，其目标是读取金属板上印有邮票的序列号：我使用OpenCV为OCR准备图像，并为OCR本身使用Tesseract。这是一个理想的过程：在整个版面的图片中，裁剪到序列号的一般位置。为OCR准备裁剪图像。应用OCR。我目前的程序是：手动裁剪到序列号。转换为灰度。锋利。使用Canny边缘检测。运行Tesseract OCR。然而，我的成功是非常有限的。我的主要问题是：什么样的处理优化了OCR？做边缘检测是个好的开始吗？也许我可以使用加盖邮票的文字字体作为我的优势吗？我是否可以使用

浏览 3提问于2015-06-17得票数 8

2回答

OCR扫描文件并检索元数据

javascript、metadata、ocr、alfresco、alfresco-share

我正在使用Alfresco社区6.1。我有数千张发票要扫描，OCR它们(接近100%的识别)和检索所需的元数据(合作伙伴，发票号码，金额，单位，货币，.)。根据检索到的这些元数据，我需要对发票进行一些操作(将它们移动到适当的文件夹，应用一些工作流.)。作为第一批批准：对于OCR，我使用了，但结果并不十分准确(远远不是100%)。为了检索结果，我将OCRed转换成一个纯文本文件，然后使用javascript和document.content搜索它的内容。但是由于OCR不准确，我无法判断它是否是在文档中搜索的最佳解决方案。所以我的问题是：如何使OCR结果更加准确？

浏览 4提问于2019-09-26得票数 1

1回答

Python -呈现一个Slanted字体

python、image、image-processing、fonts、python-imaging-library

这个问题与我的中的堆栈溢出中的答案是一致的。我正在创建一个将文本转换为图像的程序。我想用字体OCR A渲染它。但是由于OCR A字体，没有对应的斜体字体文件，我不得不手动做垂直字体的倾斜。直立字体斜字型下面是我的初始代码： from PIL import Image from PIL import ImageDraw from PIL import ImageFont import numpy as np #Returns the text size in terms of width and height. def getSize(txt, font):

浏览 4提问于2020-02-15得票数 1

4回答

数据错配。C#中要访问的UPDATE语句

c#、sql、ms-access、insert-update、type-mismatch

我正在从一个textboxes数据库中将数据加载到access中，以便进行编辑和更新。当我保存数据时，我得到Data Type Mismatch错误. 我希望像下面那样更新OCR标题，但只在选定的行上更新，这是我试图通过识别OCR标题上方文本框中的OCR号来完成的，因此我只能更新该特定行，而不是所有这些行。 string strSql = "UPDATE Responses SET [OCR Title] = '" + textBox6.Text + "' where OCR = '" + textBox5.Text + "

浏览 1提问于2014-01-09得票数 1

回答已采纳

1回答

OCR -使用tesseract 3.0和imagemagick 6.6.5从图像中获取文本

linux、imagemagick、tesseract

我正在尝试构建一个shell脚本，它允许我搜索图像中的文本。基于文本，脚本将尽力从图像中获取文本。我想要你对此输入，因为这个脚本似乎适用于大多数图像，但不是那些文本字体颜色类似于文本周围较小环境的图像。 # !/bin/bash # # imt-ocr.sh is image magick tessearc OCR tool that is used for finding out text in image # # Arguments: # 1 -- image filename (with path) # 2 -- text to search in image

浏览 1提问于2012-08-16得票数 6

1回答

如何提高OCR结果

open-source、ocr、tesseract

我试图改进OpenSource OCR软件的结果。我正在使用tessaract，因为我发现它仍然产生比gocr更好的效果，但是由于输入质量差，它有很大的问题。所以我试着用我在网上找到的各种工具来预演这张照片：开纸弗雷德的ImageMagick脚本: TEXTCLEANER 使用GIMP 但是我无法用这个糟糕的测试文档获得好的结果：(实际上只是为了测试，我不需要包含这个文件) 这个在线服务在这个测试文档中运行得非常好：。我想知道是否可以使用智能预处理来获得与tesseract类似的结果。与商业引擎相比，OpenSource的OCR引擎真的那么糟糕吗？甚至谷歌也用tes

浏览 3提问于2015-09-29得票数 1

1回答

带有文件插入的汉字OCR

google-drive-api

我试图OCR一个文件插入到谷歌驱动器。正在插入的图像包含汉字。当OCRing时，图像会像往常一样转换为Google，但是没有一个文本被提取出来。根据文档，您应该使用"ocrLanguage“，其值为ISO639-1代码。但是没有提到支持哪种语言。我尝试使用"zh“，API拒绝它为无效值。我尝试使用“zh”，这是我在旧的Google文档中找到的。这不会返回错误，但不会发生OCR。我试过使用"“，但也没有OCR。根据docs，这个参数只是一个提示，如果OCR引擎能够计算出语言，它就会被覆盖。所以我的问题是：是否有人成功地使用了包含汉字的OCR图像？有

浏览 3提问于2014-07-25得票数 1

1回答

为什么这个图像上的英语单词不能识别？

tesseract、python-tesseract

我使用tesseract 4.0来识别英语单词，但是在这个图像上失败只识别，没有任何单词被识别，任何人都可以给小费，谢谢 r=pytesseract.image_to_string('6.jpg', lang='eng') print(r) 更新：我试着用在线网站进行OCR。而且很管用，但为什么？我怎么才能用tesseract来识别它呢？

浏览 5提问于2020-12-25得票数 0

1回答

tessnet c#给出错误的结果

c#、ocr

我正在尝试运行tessnet，图像只包含数字，但它总是给我"~“，结果，我不明白为什么……代码如下： private void button1_Click(object sender, EventArgs e) { tessnet2.Tesseract ocr = new tessnet2.Tesseract(); ocr.SetVariable("tessedit_char_whitelist", "0123456789"); ocr.Init(@"C:\U

浏览 2提问于2014-09-05得票数 1

1回答

将Sub/Idx转换为Srt

software-recommendation、video

之前有一个类似的问题：如何将IDX/SUB字幕转换为文本SRT字幕文件？早在6年前就被问到了，解决方案是处理OCR。有一些在线工具可以实现这种转换，他们只是要求上传Sub+Idx文件并完成这项工作。我想知道是否有任何桌面软件为Ubuntu，可以做到离线。

浏览 0提问于2018-07-31得票数 4

1回答

如何将jpg文件目录转换为以文件名为书签的pdf？

pdf、pdftk、bookmarks

我有一个目录的jpg文件，是扫描我的手写笔记。如何将它们转换为一个将文件名作为书签的pdf文件？ (我最终也想加入ocr。如前所述，我们可以使用.jpg将.pdf文件转换为img2pdf .jp --output combined.pdf，然后可以使用ocrmypdf combined.pdf combined_ocr.pdf添加ocr。我的问题主要是如何确保pdf文件有书签(由文件名创建)，以便文档易于浏览。

浏览 0提问于2021-09-23得票数 0

2回答

如何通过API网关将AWS Lambda中的"pdf“和"html”文件作为“事件”传递？

python、amazon-web-services、aws-lambda、event-handling

我试图将"pdf“或"html”文件直接传递到lambda函数中。但是我不明白它应该以什么正确的格式接收？我能够理解如何使用以下代码通过lambda函数传递“图像”文件:但是如何发送pdf或html文件呢？ def write_to_file(save_path, data): with open(save_path, "wb") as f: f.write(base64.b64decode(data)) def ocr(img): ocr_text = pytesseract.image_to_string(img, config = &#

浏览 1提问于2020-05-06得票数 0

回答已采纳

1回答

计算器数字识别

ocr、calculator、digit

我必须在记分板、计算器和类似的设备显示器上识别一组数字。我在大多数流行的ocr中尝试了这个图像，但都没有成功。如何对此图像进行预处理以使其与ocr框架一起工作？如何从那里获取这些数字？

浏览 0提问于2013-07-04得票数 0

1回答

OCR :C#/..net从图像中提取URL

c#、.net、image-processing、ocr

在处理OCR图像时，任何一个都可以帮助我只从图像中提取URL吗？我查过了，所有的OCR都是付费版本的。有没有免费图书馆。

浏览 13提问于2022-09-12得票数 0

回答已采纳

1回答

在修改和部署更新之后，查询非常缓慢。

mysql

我运行一个测试服务器和一个生产服务器。当我对测试服务器上的db结构进行一些更改时，我会保存所有的SQL查询，以便在部署更新时在生产服务器上运行这些查询。今天，我在生产服务器上部署了一些更新，但是现在至少有一个查询太慢了，所以会超时(需要几分钟)。它过去需要1-2秒在测试服务器上，相同的查询仍然像以前一样平稳地运行。查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_ocr_pending,dv.time,dv.label,dv.is_pdf_broken,dv.is_pdf_scan,dv.is_pic,dv.file_sha1,d

浏览 0提问于2019-01-06得票数 0

回答已采纳

6回答

关于在黑板图像上使用OCR的建议

image、image-processing、ocr、computer-vision、image-recognition

我正在试着得到一张OCR可读的黑板图像。当然，大多数OCR软件不喜欢肮脏的图像。我应该尝试通过什么图像处理来清理图像？

浏览 3提问于2010-05-18得票数 1

回答已采纳

2回答

QT c++中来自png图像的不精确的tesseract OCR数据

c++、ocr、tesseract

我正在使用QT中的Tesseract OCR c++库从png映像中使用以下代码获取文本 const char* lang = "eng"; QString filename = "D:/image.png"; tesseract::TessBaseAPI tess; tess.Init(NULL, lang, tesseract::OEM_DEFAULT); tess.SetPageSegMode(tesseract::PSM_AUTO); FILE* fin = fopen(filename.toStdString().c_str(), "rb&

浏览 5提问于2017-07-26得票数 0

3回答

用嵌入式字体从PDF文件中提取文本

linux、pdf、imagemagick、ocr、tesseract

我有一个PDF文件包含一些表格数据。我必须从其中提取表格数据。我试过以下几点，但没有成功：选择文本并将其粘贴到记事本/excel工作表上。(我得到的是垃圾人物) 用作Acrobat的文本保存。它也是给垃圾字符，而不是实际的文本。尝试ApachePDFBox命令行实用程序从PDF中提取文本。它也是给垃圾字符，而不是真正的文本。最后，我正在尝试一个OCR解决方案。我正在使用.tif将pdf文件转换为ImageMagick图像，并通过tesseract OCR处理这些图像。然而，OCR解决方案并不十分精确(大约80%的单词匹配)。我尝试改变由PDF创建的图像的密

浏览 2提问于2012-09-07得票数 4

回答已采纳

1回答