腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在终端中运行命令,并在输出中包含输入名
、
、
、
、
我在Dolphin服务菜单
文件
中有这一行,该
文件
包含用于
PDF
处理的许多其他命令:它的优点是提供表单MY_
PDF
_
ocr
.
pdf
的输出
文件
,从而保留输入
文件
的名称。为此,我可以用这句话: Exec=kon
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
3
回答
更改windows批处理中的
文件
扩展名
、
、
、
我正在尝试重命名很多
文件
。到目前为止,我只想将扩展从".
pdf
.
OCR
.
pdf
“更改为".
pdf
”,我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么?
浏览 5
提问于2015-08-27
得票数 1
回答已采纳
1
回答
将扫描的
pdf
转换为R中可搜索的
pdf
、
我有一个
pdf
,大约50页扫描表。我需要最终把它刮到R中,这样我就可以清理数据并将其导出为.csv。环顾在线,我所能得到的最远就是将扫描的
pdf
作为一个字符对象读取到R中,但这会使格式发生很大的变化,因此表中的列都错对齐了,并出现了无序。有没有一种方法可以将扫描的
pdf
转换成可读的
pdf
,这样我就可以在tabulizer中抓取它了?还是另一种将扫描的pdfs抓取到表中的方法?
浏览 5
提问于2022-11-16
得票数 0
1
回答
两种输入
文件
类型同时在GNU并行?
、
、
、
-l deu_frak && rm {.}.pgm' b) 首先将所
浏览 2
提问于2017-07-25
得票数 1
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件
进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程: 删除
PDF
原始
文件
中的
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
1
回答
如何使用doc取器在
PDF
文件
中搜索文本?
、
、
我试图在
PDF
文件
中找到一些文本,但结果并不准确!举个例子,我有两个
PDF
文件
,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个
PDF
文件
和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个
PDF
文件
?
PDF
文件
之间有什么区别吗?在一个
PDF
中,我只有文本,而其他
PDF
是文本和图像,这是从扫描页面。陷阱是什么? P.S.
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
1
回答
使用python从
PDF
中提取扫描页面
、
我有很多
PDF
文件
,基本上是扫描文档,所以每一页都是一个扫描图像。我想要执行
OCR
并从这些
文件
中提取文本。我尝试过pytesseract,但它不直接对
pdf
文件
执行
OCR
,因此,作为一项工作,我希望从
PDF
文件
中提取images,将它们保存在目录中,然后直接在这些图像上使用pytesseract执行
OCR
。在python中有没有从
pdf
文件
中提取扫描图像的方法?或者有任何方法可以直
浏览 1
提问于2018-05-26
得票数 0
回答已采纳
1
回答
在子
文件
夹中批处理
OCR
文件
,并以新名称保存新
文件
、
、
、
、
我有以下代码,
OCR
的所有
PDF
文件
都在一个特定的
文件
夹中(d:\exttmp2),但它没有按我的意愿重命名这些
文件
,也没有将新
文件
放在正确的位置。目前,所有
文件
都在‘exexttmp2’的子
文件
夹中。
OCR
运行正常,但我希望将
OCR
‘’ed
文件
重命名为:<parent folder path>-<filename>_ocred.
pdf
。它还将
文件
浏览 2
提问于2021-06-09
得票数 0
回答已采纳
1
回答
检测景观格式的图像,并将其分割成两幅肖像。
、
、
、
、
我已经扫描了
PDF
格式的
文件
。这些
文件
包含一页纵向格式和两页横向格式的页面。for i in *.
pdf
; # Créer le fichier
PDF
avec
OCR
ocrmyp
浏览 2
提问于2020-04-20
得票数 1
1
回答
如何将jpg
文件
目录转换为以
文件
名为书签的
pdf
?
、
、
我有一个目录的jpg
文件
,是扫描我的手写笔记。如何将它们转换为一个将
文件
名作为书签的
pdf
文件
? (我最终也想加入
ocr
。如前所述,我们可以使用.jpg将.
pdf
文件
转换为img2
pdf
.jp --output combined.
pdf
,然后可以使用ocrmypdf combined.
pdf
combined_
ocr
.
pdf
添加
ocr
。我的问题主要是如何确保<e
浏览 0
提问于2021-09-23
得票数 0
1
回答
是否可以使用Google脚本将位于Google中的不可搜索的
PDF
转换为可搜索的
PDF
?
、
、
、
我想使用Google 将不可搜索的
PDF
转换成可搜索的
PDF
,其中的文本是覆盖在
PDF
上的。
PDF
位于我的谷歌驱动器,我不想上传
文件
到另一个网站或下载的
文件
,以进行转换。我没有找到任何显示文本可以被覆盖的资源,类似于Acrobat如何进行
OCR
转换。那么,是否有可能使用气体进行覆盖呢?我只看到人们转换成文本或文档
文件
。
浏览 1
提问于2019-07-09
得票数 1
回答已采纳
4
回答
运行反引号/exec()时的PHP路径问题
、
、
我试图从命令行运行一个java jar
文件
,在执行过程中它会给出一个路径。在这条路径上,他们是空格,这是导致问题的原因。即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;endforeach; 如果您可以看到子
文件
浏览 1
提问于2010-04-15
得票数 0
11
回答
免费的
OCR
软件,使
PDF
可搜索(与可搜索的文本在正确的地方)
、
、
、
、
是否有任何免费的
OCR
软件(用于Linux和/或Windows)可以像Acrobat那样将
PDF
扫描文档作为输入并输出可搜索的
PDF
?使用可搜索的
PDF
格式,我的意思是OCRed文本在原始文本上是不可见的,可以用鼠标选择并复制。我知道Linux上的gscan2
pdf
可以这样做,但是文本被放置在页面的左上角,而且太小了,与背景扫描页面上的文本完全不同步。这是因为gscan2
pdf
将整个页面提供给
OCR
引擎。它应该将图像分解成小图像,用单行文本或小段落发送到<em
浏览 0
提问于2014-04-20
得票数 72
回答已采纳
1
回答
从
PDF
中获取树的
文件
(最好使用Python)
、
、
、
、
我想制作一系列
文件
,其中包含了这个
PDF
()中的树。
文件
的名称将是左边对应的树号(t0、t1等)。 我试图使用python提取相关信息和树,但我遇到了麻烦。我怎样才能从这个
PDF
中获取我想要的
文件
呢?能用Python完成吗?还有更简单的方法吗?或者,我获得
PDF
的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP
浏览 0
提问于2018-09-20
得票数 0
回答已采纳
1
回答
更新多个列,使其与另一列相等
、
其中一份
文件
是原件。我需要更新我的表,以使组Id等于原始文档。因此,如果所有文档属于同一组,则它们必须具有相同的统一标题。例如,
OCR
0000000006和
OCR
0000000008都有统一的标题06000146.
pdf
。
OCR
0000000001 Yes 100 06000093.
pdf
OCR
0000
浏览 0
提问于2014-03-22
得票数 0
4
回答
如何识别需要
OCR
的
PDF
文件
?
、
我有超过30,000个
pdf
文件
。有些
文件
已经是
OCR
,有些则不是。有没有办法找出哪些
文件
已经
OCR
,哪些
pdf
只有图像? 如果我通过
OCR
处理器运行每个
文件
,这将是永远不会发生的。
浏览 8
提问于2011-10-12
得票数 9
回答已采纳
1
回答
如何使用Apache Tika Server从
PDF
中提取内联图像并将其保存为
文件
?
、
我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy", "no_
ocr
" 响应
浏览 48
提问于2021-06-02
得票数 0
3
回答
为什么
pdf
2image给我一个空白的图像
文件
?
、
、
、
、
我试图使用Tesseract
OCR
在多个大
pdf
文件
上执行
OCR
(~400-600页)。我不一定要从所有页面中提取文本,但我只想要几页(页码已知)。
PDF
文件
似乎已经在上面执行了某种
OCR
,但这不是一个好工作。pytesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-
OCR
/tesseract.exe" images =
浏览 10
提问于2021-06-06
得票数 2
7
回答
如何将
pdf
转换成文本可搜索的
pdf
?
、
、
我有一些扫描
文件
的
pdf
,我想能够搜索他们。我怎么能这么做?治夹心三明治 (软件中心说它是一个很差的软件包,我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt,但在导出到
pdf<
浏览 0
提问于2014-05-29
得票数 36
回答已采纳
1
回答
在r中的
pdf
上执行
ocr
时出错
、
、
、
、
在r中的
pdf
上尝试
OCR
,这给了我错误。运行代码后,也会生成"i.txt“
文件
,但仍然会出现错误。'"D:/Software_for_
PDF
_
OCR
/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/
PDF
_
OCR
_File/test.
pdf
-f 1 -lD:/
PDF
_
OCR
_Fi
浏览 3
提问于2017-09-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
pdf文件压缩,怎样压缩pdf文件?
pdf文件太大怎么变小?压缩PDF文件指南
深度解析丨文件智能比对(OCR),只盖审批通过的文件
pdf文件怎么编辑?pdf文件如何转换其他格式?
pdf文件压缩,怎么压缩pdf文件比较简单?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券