腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在终端中运行命令,并在输出中包含输入名
、
、
、
、
我在Dolphin服务菜单文件中有这一行,该文件包含用于
PDF
处理的许多其他命令:它的优点是提供表单MY_
PDF
_
ocr
.
pdf
的输出文件,从而保留输入文件的名称。为此,我可以用这句话: Exec=konsole --noclose -e ocrmypdf "%u&
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程: 我应该用自动售货
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
1
回答
执行
OCR
时出错- Microsoft Azure Computer Vision API
、
我正在使用Microsoft Azure Computer Vision进行
OCR
PDF
提取。当我尝试执行
OCR
时,它给出的错误
为
Read
PDF
With
OCR
: Error performing
OCR
: MicrosoftAzureComputerVisionErrorRunEngine
浏览 31
提问于2020-07-01
得票数 0
1
回答
带有图像的
PDF
文件的
OCR
、
、
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
4
回答
运行反引号/exec()时的PHP路径问题
、
、
即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;java -jar /
OCR
/
ocr
.jar /Folder/Sub\ Folder/filetoocr.
pdf
/
浏览 1
提问于2010-04-15
得票数 0
3
回答
更改windows批处理中的文件扩展名
、
、
、
到目前为止,我只想将扩展从".
pdf
.
OCR
.
pdf
“更改为".
pdf
”,我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么?
浏览 5
提问于2015-08-27
得票数 1
回答已采纳
2
回答
如何向只包含图像的
PDF
中添加文本?
、
我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描,同时使用Foxit PhantomPDF向
PDF
中的图像添加文本。这两种解决方案都带来了不错的
OCR
,但是也有一些缺陷,比如在非文本上出现错误,或者99%的文本在页面上被漏掉,因为页面的角落中有3-4个单词与页面上的所有其他文本一样,它们都是90度旋转的。最先进的
OCR
解决方案是将图像转换为可搜索的
PDF
,还是将(隐藏的)文本添加到仅包含图像的现有
PDF
中(添加搜索功能)?
浏览 0
提问于2018-05-25
得票数 0
1
回答
在r中的
pdf
上执行
ocr
时出错
、
、
、
、
在r中的
pdf
上尝试
OCR
,这给了我错误。运行代码后,也会生成"i.txt“文件,但仍然会出现错误。'"D:/Software_for_
PDF
_
OCR
/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/
PDF
_
OCR
_File/test.
pdf
-f 1 -lD:/
PDF
_
OCR
_File/t
浏览 3
提问于2017-09-20
得票数 0
1
回答
无法对内容复制设置
为
不允许的
PDF
文件执行
OCR
、
、
、
由于安全原因,我无法上传
PDF
文件,但可以创建一个内容复制设置
为
不允许的
pdf
文件,然后尝试对此文件执行
OCR
。
OCR
返回一个错误,指出文件受密码保护或类似的东西。谁能告诉我有没有一种方法可以对这样的文件执行
OCR
?
浏览 5
提问于2020-07-19
得票数 2
1
回答
使用Python PyPDF2从扫描的
pdf
(图像)中提取文本
、
、
、
我一直在尝试从扫描的
PDF
中提取文本(具有不可选文本的图像)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.getPage
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
2
回答
是否有将我的图像/文档标准化为
PDF
的.NET库?
、
、
我需要一个工具或库,将摄取该文件和执行
OCR
,如果必要,但保存作为一个标准化的
PDF
文件存档的目的(
PDF
/A)。是否有一个工具或.NET库可以实现这一点?如果文档已经可搜索,则不应再次使用
OCR
。
浏览 0
提问于2021-02-22
得票数 2
1
回答
将xml
ocr
/文本信息从一个
pdf
导入/嵌入到另一个
pdf
、
我正在尝试优化图像扫描
pdf
的质量/文件大小,同时保持
ocr
质量。我可以尝试在高质量
pdf
文档的
ocr
之后进行下采样,但与使用photoshop和导出较低dpi/优化的页面并使用这些页面创建
pdf
相比,我使用的工具(主要是acrobat)不会创建较小的文件大小。如果可能的话,一个更好的解决方案是获取一个已经
ocr
的image-
pdf
文档(对于当前情况是800m),并将
ocr
层应用于较低rez下采样的文档。我可以用pdfminer成功
浏览 3
提问于2012-07-16
得票数 1
1
回答
我想将tika解析配置
为
仅在
PDF
上执行
OCR
、
、
我正在尝试操作tika配置文件(使用tika服务器),以便从
OCR
处理中排除除
PDF
之外的所有文档。我尝试了许多组合,例如从默认解析器中排除
OCR
,但将
PDF
解析器配置
为
进行内联处理。我从默认解析器中排除了
PDF
和Tesseract。不走运。我最终运行了两个tika实例,一个配置了
OCR
,另一个没有配置,并根据扩展名将文件定向到代码中的一个或另一个。
浏览 31
提问于2020-08-27
得票数 0
2
回答
CodeIgniter base_url()用于href,getcwd()用于file_exists()
、
在视图中,我希望同时显示一个内联
PDF
-查看器(使用<object src=''></object>)和
OCR
‘’ed输出。控制器中的代码可以概括如下: * Fetch the path to the
pdf
of the document (
OCR
is preferred) $
ocr
_src = ge
浏览 3
提问于2016-10-18
得票数 0
回答已采纳
1
回答
更新多个列,使其与另一列相等
、
例如,
OCR
0000000006和
OCR
0000000008都有统一的标题06000146.
pdf
。
OCR
0000000001 Yes 100 06000093.
pdf
OCR
0000000004
OCR
0000000006 No 95
浏览 0
提问于2014-03-22
得票数 0
1
回答
.NET库,用于将文档扫描到可搜索的
PDF
(带有条形码支持)
、
、
我需要开发一个应用程序,可以扫描文档并生成可搜索的
PDF
,可以从桌面应用程序(例如WPF)或web浏览器预览。还可以从扫描的文档中扫描条形码。要求:生成可搜索的
PDF
(
OCR
) 从扫描文件中扫描条形码。(仅限窗户)(桌面应用程序)用于预览
PDF
的嵌入式web浏览器。
浏览 0
提问于2020-02-03
得票数 1
1
回答
如何快速从图像中扫描可搜索的
pdf
?
、
、
、
、
我想扫描文件与tesseract框架中的迅速和生成
pdf
文件,可以搜索。 实际上,我使用此代码将图像转换为文本,但我希望生成主格式的图片,但格式将随着转换为文本而改变,并生成
pdf
文件。
浏览 2
提问于2020-10-13
得票数 0
回答已采纳
1
回答
如何区分PHP中的“文本”
PDF
和“图像”
PDF
?
、
、
、
、
当我已经知道
PDF
是基于文本还是基于图像时,这两种解决方案都能很好地工作。但是,为了自动化将许多
PDF
转换为文本的过程,我需要能够判断
PDF
是基于文本的还是基于图像的,这样我就知道在
PDF
上运行哪一组进程。在PHP中有没有任何方法来分析一个
PDF
并判断它是基于文本的还是基于图像的,这样我就知道是使用Xpdf还是Ghostscript/Tesseract了?
浏览 5
提问于2016-09-23
得票数 1
回答已采纳
1
回答
两种输入文件类型同时在GNU并行?
、
、
、
-l deu_frak && rm {.}.pgm' export -f generate_pgm PGM="$1" find .{}; par
浏览 2
提问于2017-07-25
得票数 1
1
回答
Azure计算机视觉返回带有矢量图形的
pdf
的垃圾
、
Azure Computer Vision (
OCR
) API
为
发送的
pdf
片段返回垃圾。
Pdf
有一个可见的文本,比方说:4893759678,但实际上它是矢量图形(不是文本)。对于有数字图像(光栅图形)的
pdf
中的某些部分,它确实分析ok;它返回
ocr
文本。 如何修复它或如何指示Azure
为
矢量图形做
ocr
。我不能轻易地改变pdfs本身。
浏览 3
提问于2021-10-19
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PDF怎么用OCR来识别文字,这个人工智能OCR工具绝了
通用 PDF OCR 到 Word API 数据接口
告别「复制+粘贴」,基于深度学习的OCR,实现PDF转文本
对PDF进行ocr文字识别怎么操作?扫描识别软件推荐
[windows] Umi-OCR 免费 · 离线 · 文字识别软件 支持PDF识别 开源
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券