腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
为什么
pdf
2image给我一个空白的图像文件?
、
、
、
、
我试图使用Tesseract
OCR
在多个大
pdf
文件上执行
OCR
(~400-600页)。我不一定要从所有页面中提取文本,但我只想要几页(页码已知)。
PDF
文件似乎已经在上面执行了某种
OCR
,但这不是一个好工作。当我运行
用
木星编写的代码时:from PIL import Imageimport cv2我
浏览 10
提问于2021-06-06
得票数 2
1
回答
更新多个列,使其与另一列相等
、
例如,
OCR
0000000006和
OCR
0000000008都有统一的标题06000146.
pdf
。
OCR
0000000001 Yes 100 06000093.
pdf
OCR
0000000004
OCR
0000000006 No 95
浏览 0
提问于2014-03-22
得票数 0
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程: 我应该用自动售货
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
1
回答
有没有办法检查FSCrawler会使用哪种
pdf
策略?
我正在使用FSCrawler的REST功能来扫描上传的
PDF
。我目前使用的是
ocr
pdf
策略,但是
ocr
_and_text等待响应的时间太长了。我想把
pdf
同步地发送到fscrawler以使用文本提取,如果这不起作用,发送到一个异步的
ocr
后台任务。 有没有办法
用
FSCrawler做到这一点?或者有没有办法拥有多个
pdf
策略?
浏览 6
提问于2020-08-03
得票数 1
4
回答
运行反引号/exec()时的PHP路径问题
、
、
即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;java -jar /
OCR
/
ocr
.jar /Folder/Sub\ Folder/filetoocr.
pdf
/
浏览 1
提问于2010-04-15
得票数 0
1
回答
在终端中运行命令,并在输出中包含输入名
、
、
、
、
我在Dolphin服务菜单文件中有这一行,该文件包含用于
PDF
处理的许多其他命令:它的优点是提供表单MY_
PDF
_
ocr
.
pdf
的输出文件,从而保留输入文件的名称。为此,我可以
用
这句话: Exec=konsole --noclose -e ocrmypdf
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
2
回答
使Tess4J从
PDF
文件中获取图像
、
、
、
如何让Tess4J从
PDF
文件中获取图像?我
用
Asprise测试了这个例子,但我在Tess4J上找不到任何这样的例子import com.asprise.util.
ocr
.
浏览 0
提问于2013-05-16
得票数 0
回答已采纳
1
回答
检测景观格式的图像,并将其分割成两幅肖像。
、
、
、
、
我已经扫描了
PDF
格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。for i in *.
pdf
; # Créer le fichier
PDF
avec
OCR
ocrmyp
浏览 2
提问于2020-04-20
得票数 1
11
回答
免费的
OCR
软件,使
PDF
可搜索(与可搜索的文本在正确的地方)
、
、
、
、
是否有任何免费的
OCR
软件(用于Linux和/或Windows)可以像Acrobat那样将
PDF
扫描文档作为输入并输出可搜索的
PDF
?使用可搜索的
PDF
格式,我的意思是OCRed文本在原始文本上是不可见的,可以
用
鼠标选择并复制。我知道Linux上的gscan2
pdf
可以这样做,但是文本被放置在页面的左上角,而且太小了,与背景扫描页面上的文本完全不同步。这是因为gscan2
pdf
将整个页面提供给
OCR
引擎。它应该将图像分解成小图像,
用<
浏览 0
提问于2014-04-20
得票数 72
回答已采纳
1
回答
检查是否已从Word/Google Docs导出
PDF
、
、
、
我正在做一些OCRing
PDF
的工作,我很好奇是否有一种方法可以检查一个
PDF
是否已经从Word (或Google Docs)导出。我可以检查
PDF
是否已经
用
Xpdf的pdffonts进行了
OCR
。我知道Word和Google Docs会自动
OCR
导出的
PDF
,所以如果我发现
PDF
没有
OCR
,我就知道它没有导出。但是,如果它已经光学字符识别,有没有办法检查的
PDF
是否从Word/Google Docs导出
浏览 2
提问于2013-06-14
得票数 0
1
回答
使用Ghostscript将扫描的
PDF
转换为纯文本
、
、
我知道有一种方法可以使用将scannedPDF文档转换为
OCR
'd
PDF
文档,使用以下命令:它使用开源来做到这一点。根据,它可以转换成另一个
PDF
文档,而不仅仅是简单的文本(而tesseract也可以转换成纯文本)。 看起来我遗漏了一些与用法相关的东西
浏览 1
提问于2021-03-04
得票数 0
1
回答
将xml
ocr
/文本信息从一个
pdf
导入/嵌入到另一个
pdf
、
我正在尝试优化图像扫描
pdf
的质量/文件大小,同时保持
ocr
质量。我可以尝试在高质量
pdf
文档的
ocr
之后进行下采样,但与使用photoshop和导出较低dpi/优化的页面并使用这些页面创建
pdf
相比,我使用的工具(主要是acrobat)不会创建较小的文件大小。如果可能的话,一个更好的解决方案是获取一个已经
ocr
的image-
pdf
文档(对于当前情况是800m),并将
ocr
层应用于较低rez下采样的文档。我可以
用
p
浏览 3
提问于2012-07-16
得票数 1
1
回答
如何判断特定字体是否包含
PDF
::API2中的特定字符
、
、
、
、
我在Perl应用程序中使用
PDF
::API2将
OCR
输出嵌入到相应的图像后面,这样就可以搜索得到的
PDF
,因为可以
用
pdftotext提取
OCR
输出。目前,只要应用程序在
OCR
输出中看到非ASCII字符,它就会从
PDF
核心字体切换到TTF。然而,这真的很麻烦,因为核心字体包括大多数西欧字符。TTF仅对希腊语、俄语、日语等语言是必需的。
浏览 0
提问于2012-02-21
得票数 4
2
回答
在
PDF
上使用Asprise和Java的
OCR
、
在这里,我是新手,我在编译代码时遇到了这个错误: PDFReader reader = new PDFReader(new File("CBufferedImage image = reader.getPageAsImage(i); /////null pointer exception here System.out.println("
OCR
result:\n" +
浏览 1
提问于2014-02-24
得票数 0
7
回答
如何将
pdf
转换成文本可搜索的
pdf
?
、
、
我有一些扫描文件的
pdf
,我想能够搜索他们。我
怎么
能这么做?治夹心三明治 (软件中心说它是一个很差的软件包,我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt,但在导出到
pdf<
浏览 0
提问于2014-05-29
得票数 36
回答已采纳
1
回答
上传
pdf
文件与gdata docs python v3.0与
ocr
、
、
、
、
我已经获得了以下用于将
pdf
文件上传到google docs的实现(取自gdata API示例): """Upload a document,doc, media=media)现在,我想对上传的文件执行
OCR
但是我不确定如何在gdata文档python API中启用
OCR
识别。所以我的问题是
浏览 0
提问于2011-12-31
得票数 2
回答已采纳
1
回答
在r中的
pdf
上执行
ocr
时出错
、
、
、
、
在r中的
pdf
上尝试
OCR
,这给了我错误。运行代码后,也会生成"i.txt“文件,但仍然会出现错误。'"D:/Software_for_
PDF
_
OCR
/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/
PDF
_
OCR
_File/test.
pdf
-f 1 -lD:/
PDF
_
OCR
_File/t
浏览 3
提问于2017-09-20
得票数 0
2
回答
如何用魔杖改变图片的对比度?
、
、
、
、
下面的图片用在Tesseract
OCR
上:我处理图片的代码是:with image[450:6200, 840:3550] as cropped: image = Image.open(io.BytesIO(imageBlob))虽然我的
OCR
有时会混淆和复制8与3,并返回07:44/14:183而不是0
浏览 5
提问于2020-01-07
得票数 1
回答已采纳
3
回答
更改windows批处理中的文件扩展名
、
、
、
到目前为止,我只想将扩展从".
pdf
.
OCR
.
pdf
“更改为".
pdf
”,我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么?
浏览 5
提问于2015-08-27
得票数 1
回答已采纳
1
回答
带有图像的
PDF
文件的
OCR
、
、
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券