腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
PDF
中用python执行
OCR
有可能吗?
、
、
、
在
PDF
中用python执行
OCR
有可能吗?我正在尝试构建一个程序,从每一个
PDF
表格中提取一些信息,比如Autodesk BIM360所做的事情。
浏览 6
提问于2022-05-26
得票数 -2
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
、
、
、
、
我对一些
pdf
文件有问题。我需要将它们转换为jpg图像,使它们可用于
OCR
,但当我转换其中的一些,魔杖
转
我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为
pdf
文件的文件中,其中空间颜色变成了CMYK。Tesseract
OCR
仅接受空间颜色RGB。我已经写了一个可以转换的python脚本,但我想解决这个问题。你能帮我一下吗?原页
pdf
? 已将
pdf
转换为jpg
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M
将
所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程: 删除
PDF
原始文件中的/
PDF
-扫描&
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
1
回答
在修改和部署更新之后,查询非常缓慢。
查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_
ocr
_pending,dv.time,dv.label,dv.is_
pdf
_broken,dv.is_
pdf
_scan,dv.
ocr
_recall_id,dv.
ocr
_vatno,cv.name
ocr
_vatno_name,dv.
ocr
_vatno_country,dv.
ocr
_is_vatno_verified,dv.
ocr
浏览 0
提问于2019-01-06
得票数 0
回答已采纳
4
回答
运行反引号/exec()时的PHP路径问题
、
、
即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;java -jar /
OCR
/
ocr
.jar /Folder/Sub\ Folder/filetoocr.
pdf
/
浏览 1
提问于2010-04-15
得票数 0
1
回答
带有图像的
PDF
文件的
OCR
、
、
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
1
回答
AttributeError:模块“ocrmypdf”没有属性“
ocr
”
、
、
我正在使用ocrmypdf库
将
扫描的
pdf
转换成可搜索的
pdf
,但我得到了这个错误。这是我目前正在运行的代码ocrmypdf.
ocr
('/content/drive/MyDrive/Dataset 2020/
OCR
/1081975.
pdf
', 'output.
pdf
')AttributeError: module '
浏览 5
提问于2020-11-24
得票数 1
回答已采纳
1
回答
两种输入文件类型同时在GNU并行?
、
、
、
-l deu_frak && rm {.}.pgm' export -f generate_pgm PGM="
浏览 2
提问于2017-07-25
得票数 1
1
回答
如何
将
jpg文件目录转换为以文件名为书签的
pdf
?
、
、
如何将它们转换为一个
将
文件名作为书签的
pdf
文件? (我最终也想加入
ocr
。如前所述,我们可以使用.jpg
将
.
pdf
文件转换为img2
pdf
.jp --output combined.
pdf
,然后可以使用ocrmypdf combined.
pdf
combined_
ocr
.
pdf
添加
ocr
。我的问题主要是如何确保
pdf
文件有书签(由文件名创建),以便文档易于浏览。
浏览 0
提问于2021-09-23
得票数 0
1
回答
在终端中运行命令,并在输出中包含输入名
、
、
、
、
我在Dolphin服务菜单文件中有这一行,该文件包含用于
PDF
处理的许多其他命令:它的优点是提供表单MY_
PDF
_
ocr
.
pdf
的输出文件,从而保留输入文件的名称。为此,我可以用这句话: Exec=konsole --noclose -e ocrmypdf "%u&
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
2
回答
如何向只包含图像的
PDF
中添加文本?
、
我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描,同时使用Foxit PhantomPDF向
PDF
中的图像添加文本。这两种解决方案都带来了不错的
OCR
,但是也有一些缺陷,比如在非文本上出现错误,或者99%的文本在页面上被漏掉,因为页面的角落中有3-4个单词与页面上的所有其他文本一样,它们都是90度旋转的。最先进的
OCR
解决方案是
将
图像转换为可搜索的
PDF
,还是
将
(隐藏的)文本添加到仅包含图像的现有
PDF
中(添加搜索功能)?
浏览 0
提问于2018-05-25
得票数 0
2
回答
如何
将
pdf
格式转换为eBook格式
、
是否有方法
将
PDF
文档转换为eBook格式,如epub、azw或mobi?我正在寻找一个应用程序,这是快速的转换。我刚试过口径。10分钟后,甚至没有达到2%的转换。所以请不要有口径。CLI是首选。
浏览 0
提问于2013-04-26
得票数 9
回答已采纳
1
回答
将
扫描的
pdf
文件转换为文本可搜索的
pdf
文件
、
、
我想将扫描的
pdf
文件转换为可文本搜索的
pdf
文件。我想给出一个输入作为扫描的
PDF
,然后我的预期输出是可搜索的
PDF
。有几个工具,给我们的文本作为输出从扫描的
pdf
文件,但我想文本可搜索的
pdf
文件作为输出,而不仅仅是文本。请帮助我给任何开放源代码的网络api或付费网络api服务的链接,或任何工具,可以转换为文本搜索的
pdf
文件。 我在我的web应用程序中使用PHP语言。
浏览 25
提问于2017-07-09
得票数 1
1
回答
在r中的
pdf
上执行
ocr
时出错
、
、
、
、
在r中的
pdf
上尝试
OCR
,这给了我错误。运行代码后,也会生成"i.txt“文件,但仍然会出现错误。'"D:/Software_for_
PDF
_
OCR
/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/
PDF
_
OCR
_File/test.
pdf
-f 1 -lD:/
PDF
_
OCR
_File/t
浏览 3
提问于2017-09-20
得票数 0
1
回答
在子文件夹中批处理
OCR
文件,并以新名称保存新文件
、
、
、
、
我有以下代码,
OCR
的所有
PDF
文件都在一个特定的文件夹中(d:\exttmp2),但它没有按我的意愿重命名这些文件,也没有
将
新文件放在正确的位置。
OCR
运行正常,但我希望
将
OCR
‘’ed文件重命名为:<parent folder path>-<filename>_ocred.
pdf
。以这种方式命名它们将不会产生任何文件覆盖。当前,代码
OCR
是文件,但它将新文件保存到它们所在的文件夹之上的文件夹中。它还将文件名保存为"
浏览 2
提问于2021-06-09
得票数 0
回答已采纳
3
回答
更改windows批处理中的文件扩展名
、
、
、
到目前为止,我只想将扩展从".
pdf
.
OCR
.
pdf
“更改为".
pdf
”,我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么?
浏览 5
提问于2015-08-27
得票数 1
回答已采纳
7
回答
如何
将
pdf
转换成文本可搜索的
pdf
?
、
、
我有一些扫描文件的
pdf
,我想能够搜索他们。我怎么能这么做?治夹心三明治 (软件中心说它是一个很差的软件包,我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt,但在导出到
pdf<
浏览 0
提问于2014-05-29
得票数 36
回答已采纳
1
回答
从
PDF
中获取树的文件(最好使用Python)
、
、
、
、
我想制作一系列文件,其中包含了这个
PDF
()中的树。文件的名称将是左边对应的树号(t0、t1等)。 我试图使用python提取相关信息和树,但我遇到了麻烦。具体来说,当我尝试
将
树提取为图像(使用)时,没有出现任何树(大概是因为树不是正确的格式)。然而,当我尝试将其全部提取为文本(如)时,树会丢失它们的所有格式(以及它们的一些信息,我认为)。我怎样才能从这个
PDF
中获取我想要的文件呢?能用Python完成吗?还有更简单的方法吗?或者,我获得
PDF
的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#
浏览 0
提问于2018-09-20
得票数 0
回答已采纳
3
回答
将
pdf
的内容读取为字符串
、
、
如何
将
PDF
的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。
PDF
来自一个url,我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.
pdf
, encoding: NSUTF8StringEncoding, error: nil)
浏览 14
提问于2015-08-02
得票数 0
回答已采纳
3
回答
为什么
pdf
2image给我一个空白的图像文件?
、
、
、
、
我试图使用Tesseract
OCR
在多个大
pdf
文件上执行
OCR
(~400-600页)。我不一定要从所有页面中提取文本,但我只想要几页(页码已知)。
PDF
文件似乎已经在上面执行了某种
OCR
,但这不是一个好工作。0].show()这就是输出应该是什么样子: 我确实认为在
PDF
上进行的
OCR
在这里引起了一些问题。我也尝试了
OCR
,手动
将
页面转换成图像(剪短工具),
OCR
引擎工作了。我
浏览 10
提问于2021-06-06
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券