腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
、
、
、
、
我对一些
pdf
文件有问题。我需要将它们转换为jpg图像,使它们可用于
OCR
,但当我转换其中的一些,魔杖
转
我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为
pdf
文件的文件中,其中空间颜色变成了CMYK。Tesseract
OCR
仅接受空间颜色RGB。我已经写了一个可以转换的python脚本,但我想解决这个问题。你能帮我一下吗?原页
pdf
? 已将
pdf
转换为jpg
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
1
回答
在
PDF
中用python执行
OCR
有可能吗?
、
、
、
在
PDF
中用python执行
OCR
有可能吗?我正在尝试构建一个程序,从每一个
PDF
表格中提取一些信息,比如Autodesk BIM360所做的事情。
浏览 6
提问于2022-05-26
得票数 -2
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程: 我应该用自动售货
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
4
回答
运行反引号/exec()时的PHP路径问题
、
、
即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;java -jar /
OCR
/
ocr
.jar /Folder/Sub\ Folder/filetoocr.
pdf
/
浏览 1
提问于2010-04-15
得票数 0
1
回答
使用python从
PDF
中提取扫描页面
、
我有很多
PDF
文件,基本上是扫描文档,所以每一页都是一个扫描图像。我想要执行
OCR
并从这些文件中提取文本。我尝试过pytesseract,但它不直接对
pdf
文件执行
OCR
,因此,作为一项工作,我希望从
PDF
文件中提取images,将它们保存在目录中,然后直接在这些图像上使用pytesseract执行
OCR
。在python中有没有从
pdf
文件中提取扫描图像的
方法
?或者有任何
方法
可以直接对
pdf
文件执行
OCR</
浏览 1
提问于2018-05-26
得票数 0
回答已采纳
1
回答
在修改和部署更新之后,查询非常缓慢。
查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_
ocr
_pending,dv.time,dv.label,dv.is_
pdf
_broken,dv.is_
pdf
_scan,dv.
ocr
_recall_id,dv.
ocr
_vatno,cv.name
ocr
_vatno_name,dv.
ocr
_vatno_country,dv.
ocr
_is_vatno_verified,dv.
ocr
浏览 0
提问于2019-01-06
得票数 0
回答已采纳
3
回答
将
pdf
的内容读取为字符串
、
、
如何将
PDF
的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。
PDF
来自一个url,我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.
pdf
, encoding: NSUTF8StringEncoding, error: nil) 但是,我认为这是无
浏览 14
提问于2015-08-02
得票数 0
回答已采纳
1
回答
如何在perl中安装
PDF
::
OCR
2模块?
、
、
、
我正在尝试使用perl从扫描的
PDF
中获取文本,所以我在perl中使用了
PDF
::
OCR
2模块,但我无法安装此模块,安装Image::
OCR
::Tesseract模块失败,我使用的是CentOS7,这是我在安装过程中的错误NOT OK reports LEOCHARRE/
PDF
-
OCR
2t
浏览 17
提问于2016-08-19
得票数 0
2
回答
如何将
pdf
格式转换为eBook格式
、
是否有
方法
将
PDF
文档转换为eBook格式,如epub、azw或mobi?我正在寻找一个应用程序,这是快速的转换。我刚试过口径。10分钟后,甚至没有达到2%的转换。所以请不要有口径。CLI是首选。
浏览 0
提问于2013-04-26
得票数 9
回答已采纳
1
回答
是否可以使用Google脚本将位于Google中的不可搜索的
PDF
转换为可搜索的
PDF
?
、
、
、
我想使用Google 将不可搜索的
PDF
转换成可搜索的
PDF
,其中的文本是覆盖在
PDF
上的。
PDF
位于我的谷歌驱动器,我不想上传文件到另一个网站或下载的文件,以进行转换。我没有找到任何显示文本可以被覆盖的资源,类似于Acrobat如何进行
OCR
转换。那么,是否有可能使用气体进行覆盖呢?我只看到人们转换成文本或文档文件。
浏览 1
提问于2019-07-09
得票数 1
回答已采纳
1
回答
在终端中运行命令,并在输出中包含输入名
、
、
、
、
我在Dolphin服务菜单文件中有这一行,该文件包含用于
PDF
处理的许多其他命令:它的优点是提供表单MY_
PDF
_
ocr
.
pdf
的输出文件,从而保留输入文件的名称。为此,我可以用这句话: Exec=konsole --noclose -e ocrmypdf "%u&
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
2
回答
使用Perl从
PDF
中提取图像/文本
、
、
我正在尝试使用Perl从
PDF
文件中提取文本/图像/表格。有没有一种
方法
可以使用Perl模块从
PDF
中提取文本/图像/表格?
浏览 0
提问于2016-04-27
得票数 2
1
回答
在r中的
pdf
上执行
ocr
时出错
、
、
、
、
在r中的
pdf
上尝试
OCR
,这给了我错误。运行代码后,也会生成"i.txt“文件,但仍然会出现错误。'"D:/Software_for_
PDF
_
OCR
/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/
PDF
_
OCR
_File/test.
pdf
-f 1 -lD:/
PDF
_
OCR
_File/t
浏览 3
提问于2017-09-20
得票数 0
3
回答
更改windows批处理中的文件扩展名
、
、
、
到目前为止,我只想将扩展从".
pdf
.
OCR
.
pdf
“更改为".
pdf
”,我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么?
浏览 5
提问于2015-08-27
得票数 1
回答已采纳
2
回答
如何向只包含图像的
PDF
中添加文本?
、
我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描,同时使用Foxit PhantomPDF向
PDF
中的图像添加文本。这两种解决方案都带来了不错的
OCR
,但是也有一些缺陷,比如在非文本上出现错误,或者99%的文本在页面上被漏掉,因为页面的角落中有3-4个单词与页面上的所有其他文本一样,它们都是90度旋转的。最先进的
OCR
解决方案是将图像转换为可搜索的
PDF
,还是将(隐藏的)文本添加到仅包含图像的现有
PDF
中(添加搜索功能)?
浏览 0
提问于2018-05-25
得票数 0
1
回答
检查
PDF
可搜索是否已被
OCR
或
PDF
可搜索的事实
、
、
、
、
是否有任何Python
方法
来识别
PDF
是否是
OCR
的(文本的质量很差)和可搜索的
PDF
(文本的质量是完美的)?4) doc_info =
pdf
_file.getDocumentInfo()我发现: result = get_doc_info(
PDF
_SEARCHABLE_HAS_BEEN_OCR
浏览 6
提问于2021-09-16
得票数 0
回答已采纳
1
回答
带有图像的
PDF
文件的
OCR
、
、
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
1
回答
如何使用doc取器在
PDF
文件中搜索文本?
、
、
我试图在
PDF
文件中找到一些文本,但结果并不准确!举个例子,我有两个
PDF
文件,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个
PDF
文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个
PDF
文件?
PDF
文件之间有什么区别吗?在一个
PDF
中,我只有文本,而其他
PDF
是文本和图像,这是从扫描页面。陷阱是什么? P.S.:这两个
PDF
文件位于同一个目录中。
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
1
回答
用于文件检索的“登录”
、
假设我有30个等级考试,都是
OCR
评分和
PDF
格式的注解。我怎么能让学生们取回它呢?我的第一个想法是将所有文件
转
储到我的网站/~name/handback/,然后创建一个java脚本输入框,要求输入学生编号x,然后打开相应的x.
pdf
。这显然不是一个好的
方法
,因为一个学生谁知道别人的ID可以下载他们的整个考试。我怎么才能解决这个问题?如果我让每个学生在学期开始
浏览 2
提问于2016-06-23
得票数 0
回答已采纳
1
回答
使用Python PyPDF2从扫描的
pdf
(图像)中提取文本
、
、
、
我一直在尝试从扫描的
PDF
中提取文本(具有不可选文本的图像)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.getPage
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
点击加载更多
相关
资讯
pdf转word,教你pdf转word的方法
pdf转excel,分享pdf转excel的方法
pdf转jpg,分享pdf转jpg的方法
PDF转DWG方法
Word转PDF怎么转-Word转PDF适合新手的方法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券