腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
、
、
、
、
我对一些
pdf
文件有问题。我需要将它们转换为jpg图像,使它们可用于
OCR
,但当我转换其中的一些,魔杖
转
我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为
pdf
文件的文件中,其中空间颜色变成了CMYK。Tesseract
OCR
仅接受空间颜色RGB。我已经写了一个可以转换的python脚本,但我想解决这个问题。你能帮我一下吗?原页
pdf
? 已将
pdf
转换为jpg
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
1
回答
在
PDF
中用python执行
OCR
有可能吗?
、
、
、
在
PDF
中用python执行
OCR
有可能吗?我正在尝试构建一个程序,从每一个
PDF
表格中提取一些信息,比如Autodesk BIM360所做的事情。
浏览 6
提问于2022-05-26
得票数 -2
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程: 我应该用自动售货
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
4
回答
运行反引号/exec()时的PHP路径问题
、
、
即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;java -jar /
OCR
/
ocr
.jar /Folder/Sub\ Folder/filetoocr.
pdf
/
浏览 1
提问于2010-04-15
得票数 0
1
回答
如何
使用doc取器在
PDF
文件中搜索文本?
、
、
我试图在
PDF
文件中找到一些文本,但结果并不准确!举个例子,我有两个
PDF
文件,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个
PDF
文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个
PDF
文件?
PDF
文件之间有什么区别吗?在一个
PDF
中,我只有文本,而其他
PDF
是文本和图像,这是从扫描页面。陷阱是什么? P.S.:这两个
PDF
文件位于同一个目录中。
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
1
回答
在修改和部署更新之后,查询非常缓慢。
查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_
ocr
_pending,dv.time,dv.label,dv.is_
pdf
_broken,dv.is_
pdf
_scan,dv.
ocr
_recall_id,dv.
ocr
_vatno,cv.name
ocr
_vatno_name,dv.
ocr
_vatno_country,dv.
ocr
_is_vatno_verified,dv.
ocr
浏览 0
提问于2019-01-06
得票数 0
回答已采纳
1
回答
从
PDF
中获取树的文件(最好使用Python)
、
、
、
、
我想制作一系列文件,其中包含了这个
PDF
()中的树。文件的名称将是左边对应的树号(t0、t1等)。 我试图使用python提取相关信息和树,但我遇到了麻烦。我怎样才能从这个
PDF
中获取我想要的文件呢?能用Python完成吗?还有更简单的方法吗?或者,我获得
PDF
的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP
浏览 0
提问于2018-09-20
得票数 0
回答已采纳
3
回答
如何
使用任何Java库使现有的
PDF
文本可搜索?用
OCR
、
、
如何
使用任何java库生成可搜索的文本?开源或付费。
如何
使用PDFBox将
OCR
应用于
pdf
?
如何
使
pdf
文本可编程搜索使用pdfbox,我搜索了很多。没有找到任何解决办法。有人能粘贴
OCR
PDFBox的代码吗?
浏览 8
提问于2014-04-04
得票数 0
回答已采纳
2
回答
在WinForm中寻找
OCR
库
、
、
是否有任何免费/付费的
OCR
库能够捕获
PDF
格式的发票数据?需要有一个低的错误率。我们需要对这些数据进行进一步的处理。
浏览 0
提问于2019-06-10
得票数 1
1
回答
如何
区分PHP中的“文本”
PDF
和“图像”
PDF
?
、
、
、
、
当我已经知道
PDF
是基于文本还是基于图像时,这两种解决方案都能很好地工作。但是,为了自动化将许多
PDF
转换为文本的过程,我需要能够判断
PDF
是基于文本的还是基于图像的,这样我就知道在
PDF
上运行哪一组进程。在PHP中有没有任何方法来分析一个
PDF
并判断它是基于文本的还是基于图像的,这样我就知道是使用Xpdf还是Ghostscript/Tesseract了?
浏览 5
提问于2016-09-23
得票数 1
回答已采纳
1
回答
在终端中运行命令,并在输出中包含输入名
、
、
、
、
我在Dolphin服务菜单文件中有这一行,该文件包含用于
PDF
处理的许多其他命令:它的优点是提供表单MY_
PDF
_
ocr
.
pdf
的输出文件,从而保留输入文件的名称。为此,我可以用这句话: Exec=konsole --noclose -e ocrmypdf "%u&
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
1
回答
如何
将jpg文件目录转换为以文件名为书签的
pdf
?
、
、
如何
将它们转换为一个将文件名作为书签的
pdf
文件? (我最终也想加入
ocr
。如前所述,我们可以使用.jpg将.
pdf
文件转换为img2
pdf
.jp --output combined.
pdf
,然后可以使用ocrmypdf combined.
pdf
combined_
ocr
.
pdf
添加
ocr
。我的问题主要是
如何
确保
pdf
文件有书签(由文件名创建),以便文档易于浏览。
浏览 0
提问于2021-09-23
得票数 0
3
回答
具有自动旋转支撑的.TIFF图像
OCR
软件
、
、
、
是否有任何应用程序(例如Acrobat )可以使用
OCR
自动旋转它们,以确保它们的文本朝右?我知道有一种方法可以通过命令行界面来实现,但是我真的很想找到一个带有GUI的应用程序。
浏览 0
提问于2016-06-30
得票数 0
1
回答
在r中的
pdf
上执行
ocr
时出错
、
、
、
、
在r中的
pdf
上尝试
OCR
,这给了我错误。运行代码后,也会生成"i.txt“文件,但仍然会出现错误。'"D:/Software_for_
PDF
_
OCR
/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/
PDF
_
OCR
_File/test.
pdf
-f 1 -lD:/
PDF
_
OCR
_File/t
浏览 3
提问于2017-09-20
得票数 0
3
回答
更改windows批处理中的文件扩展名
、
、
、
到目前为止,我只想将扩展从".
pdf
.
OCR
.
pdf
“更改为".
pdf
”,我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么?
浏览 5
提问于2015-08-27
得票数 1
回答已采纳
7
回答
如何
将
pdf
转换成文本可搜索的
pdf
?
、
、
我有一些扫描文件的
pdf
,我想能够搜索他们。我怎么能这么做?治夹心三明治 (软件中心说它是一个很差的软件包,我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt,但在导出到
pdf
Gscan
浏览 0
提问于2014-05-29
得票数 36
回答已采纳
1
回答
带有图像的
PDF
文件的
OCR
、
、
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
1
回答
用于文件检索的“登录”
、
假设我有30个等级考试,都是
OCR
评分和
PDF
格式的注解。我怎么能让学生们取回它呢?我的第一个想法是将所有文件
转
储到我的网站/~name/handback/,然后创建一个java脚本输入框,要求输入学生编号x,然后打开相应的x.
pdf
。如果我让每个学生在学期开始时给我一个密码,我
如何
存储和使用它们? 有人能提供一个最低限度的工作示例或资源,我可以学习
如
浏览 2
提问于2016-06-23
得票数 0
回答已采纳
1
回答
使用Python PyPDF2从扫描的
pdf
(图像)中提取文本
、
、
、
我一直在尝试从扫描的
PDF
中提取文本(具有不可选文本的图像)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.getPage
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
3
回答
如何
使用TesseractOCRParser和Tika命令行实用工具启用TikaConfig?
、
、
、
、
我已经安装了apache 1.8,它运行得非常完美,除非
OCR
部件不能工作。我安装了Tesseract,它也在正常工作。当我试图发送一个有图像的
pdf
时,我得到以下信息。警告:除非您将TesseractOCRParser从默认解析器中排除在外,否则将安装Tesseract
OCR
并将其自动应用于图像f iles。这里有一些关于
如何
使用命令行实用程序和TikaConfig的信息,但我不知道
如何
使用它启用TesseractOCRParser。 任何帮助,都非常感谢。
浏览 1
提问于2018-08-02
得票数 3
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券