腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
tesseract
python
3
读取
一个
目录
中
的
所有
pdf
文件
并转
换为
文本文件
?
、
如何
使用
tesseract
python
3
读取
一个
目录
中
的
所有
pdf
文件
并转
换为
文本文件
? 下面的代码用于
读取
一个
pdf
文件
并转
换为
文本文件
。但我想
读取
目录<
浏览 33
提问于2019-06-18
得票数 0
3
回答
Tesseract
批处理将图像转
换为
可搜索
的
PDF
和多个相应
的
文本文件
、
、
、
我
使用
tesseract
批量将图像列表转
换为
可搜索
的
PDF
以及包含OCRd文本
的
TXT
文件
。然而,我真正想要做
的
是在每个映像
的
基础上输出多个TXT
文件
,
使用
相同
的
图像名称。我意识到我可以循环遍历图像
文件
列表并在每个映像
的
基础上执行
tesseract
,但是这并不理想,因为我还必须再次运行
tesseract
来生成合
浏览 1
提问于2019-08-01
得票数 0
回答已采纳
2
回答
如何
使用
批处理
文件
将
文件
移动到相应
的
文件
夹
中
@echo off java -jar pdfbox-app-1.7.1.jar PDFToImage %%j move %%~ni.txt %%~ni) 将
pdf
文件
转
换为
jpg
文件
。对于
所有
的JPG
文件
,它都会生成相应
的
文件
夹
浏览 5
提问于2013-03-08
得票数 0
回答已采纳
4
回答
Tesseract
ocr
PDF
作为输入
、
、
我正在构建
一个
OCR项目,我正在为.Net
使用
一个
包装器。包装器没有展示
如何
将
PDF
作为输入处理
的
示例。
使用
PDF
作为输入,
如何
使用
c#生成可搜索
的
PDF
?我
使用
鬼怪脚本库将
Pdf
转换成图像,然后用它来输入
Tesseract
,它工作得很好,但是我没有保存
Pdf
的
原始形状,我只得到了文本
浏览 21
提问于2015-04-15
得票数 23
1
回答
将多个
PDF
文件
转
换为
文本(R语言)
、
、
、
我正在
使用
R
中
的
"
tesseract
“库将"
PDF
文件
转
换为
文本”,如下所示:library(
tesseract
) pngfile <- pdftools::
pdf
_convert然而,我正在寻找
一个
有点“自动”来导入和转换
所有
的
pdf
文件
。目前,我
所有
的
pdf
<
浏览 4
提问于2021-07-31
得票数 0
2
回答
用
Python
将
PDF
文件
转
换为
文本文件
、
、
、
、
我已经花了好几天
的
时间在网上研究
如何
从
pdf
文件
中
获取特定
的
信息。最终,我能够
使用
Python
从
文本文件
中
获取
所有
信息(我通过转到
PDF
文件
-> file ->
文件
问题是
如何
让
Python
完成这些任务(打开
PDF
文件
(打开它-非常容易打开(“
文件</em
浏览 3
提问于2016-07-21
得票数 3
回答已采纳
1
回答
需要
使用
Tesseract
API实现批量
PDF
提取
、
、
、
我有大量
的
PDF
文档,我需要从中提取文本。用于进一步处理
的
提取文本。我以线性
的
方式
使用
Tesseract
API对一小部分文档进行了这一操作,并获得了所需
的
输出。然而,我面临着将
Tesseract
API实现到Hadoop (Map)方法
中
的
问题。当Teserract将这些
文件
转
换为
中间图像
文件
时,我对在HDFS
中
如何
处理<em
浏览 4
提问于2017-06-17
得票数 0
回答已采纳
1
回答
基于
Tesseract
的
图像文本识别
、
、
、
、
我想创建
一个
pdf
文件
与文本识别从扫描图像。
tesseract
-c textonly_
pdf
=1 test.tif test
pdf
如何</e
浏览 2
提问于2021-11-09
得票数 0
1
回答
将png
文件
转
换为
txt
文件
、
我有100个扫描
的
PDF
文件
,我需要把它们转换成
文本文件
。library("
tesseract
") dest <- "P:\\TEST\\images to text" #making loop for=
浏览 1
提问于2019-04-08
得票数 0
回答已采纳
2
回答
在windows命令提示符下从
文本文件
执行命令
、
、
我
的
文本文件
记录了
所有
必须执行
的
命令(每行
一个
命令)。
如何
请求windows命令提示符从该
文本文件
中
读取
每个命令并执行它?我确实尝试过研究这个问题,我得到
的
解决方案是
使用
批处理
文件
。我不知道什么是批处理
文件
。请帮帮忙。
tesseract
.exe
浏览 2
提问于2018-08-29
得票数 0
1
回答
如何
使用
pytesseract从
pdf
文件
的
图像中提取文本
、
、
我正在尝试
使用
下面的代码从
pdf
文件
的
图像中提取文本。
PDF
文件
是合同文档,是合同
的
扫描副本。
pdf
文件
中
的
所有
页面都是图像。当我尝试
使用
下面的代码提取数据时,我得到
一个
错误,说它无法
读取
文件
/无法识别图像
文件
。(Image.open('C:\\Users\\Adminis
浏览 3
提问于2018-09-27
得票数 0
1
回答
我想识别我计算机上
所有
pdfs
的
文本,并保存它们而不从它们
的
位置移动它们。有可能吗?
、
、
我尝试
使用
“识别多个
文件
中
的
文本”。加载它需要几个小时,当它加载时,它生成
的
文件
列表也包括word文档。Adobe说,除非我删除了问题
文件
,否则我无法继续。所以我也手动移除
浏览 4
提问于2017-09-12
得票数 0
回答已采纳
2
回答
用R做OCR
、
、
、
、
我一直试图在R内做OCR (
读取
PDF
数据作为扫描图像)。一直在读到这个@ lapply(myfiles, function(i){ # conve
浏览 7
提问于2015-08-13
得票数 14
1
回答
如何
从内存向
Tesseract
提供图像
、
、
、
我正在
使用
Tesseract
在数百万个
PDF
上做OCR,我试图尽可能多地提高性能。 我目前
的
流程是
使用
convert将
PDF
转
换为
PNG
文件
(每页
一个
),然后在每个
文件
上
使用
Tesseract
。在分析过程
中
,我发现很多时间都花在将
文件
写入磁盘,然后再次
读取
它们,所以我想将
所有
这些都转移到内存
中
浏览 0
提问于2016-08-24
得票数 4
2
回答
GNU并行
中
的
嵌套循环并行化
、
、
、
我有
一个
小bash脚本OCR
文件
(稍加修改
的
脚本)。每个
文件
的
基本流程是: FILES=/home/tgr/只能
使用
一个
核心
的
事实,这个过程非常缓慢(大约需要)。
3
浏览 0
提问于2013-09-20
得票数 9
回答已采纳
1
回答
两种输入
文件
类型同时在GNU并行?
、
、
、
是否可以同时
使用
的
一个
实例拥有两个输入
文件
类型?find .-l deu_frak && rm {.}.pgm' 将它们移动到相应
的
文件
夹
中
浏览 2
提问于2017-07-25
得票数 1
1
回答
如何
将多页
PDF
文件
转
换为
多个图像.jpeg与C++
中
的
重要人物?
、
、
我正在尝试
使用
c++
中
的
贵宾
读取
.
PDF
并转
换为
.jpeg
文件
。问题是代码将
所有
页面保存在
一个
文件
.jpeg
中
。
如何
保存在许多.jpeg
文件
中
?我
的
代码 voptions->set("dpi",150
浏览 8
提问于2022-07-13
得票数 0
回答已采纳
4
回答
从扫描创建copy+pastable
PDF
、
、
我有
PDF
文件
,这是从扫描仪创建
的
。
PDF
只包含图像。OCR:从图像
中
读取
文本一页
的
处理时间不应超过20秒。如果有API,
Pytho
浏览 0
提问于2018-06-05
得票数 1
1
回答
如何
在
Python
中
使用
tesseract
获取图像中最大
的
文本?
、
、
、
我正在尝试提取
PDF
文件
的
标题。
文件
的
元数据并没有真正
的
帮助。因此,我正在考虑将每个
PDF
文件
的
第一页转
换为
图像,并
使用
Tesseract
读取
此图像。我可以假设在图像上找到
的
最大文本是标题。我
使用
fitz
读取
PDF
,并加载要存储为图像格式
的
第一页。OpenCV
读取</
浏览 1
提问于2021-03-25
得票数 0
1
回答
高效
的
OCR微调
、
、
、
我正在从事
一个
项目,涉及OCRing
的
数量非常多
的
PDF
。每个
PDF
都是
一个
普通
的
办公类型文档
的
图像。每个
PDF
页面都存储在单独
的
文件
中
。有没有办法比我现在
的
方法更快(也就是用更少
的
计算时间)?对于这种规模
的
项目,任何小
的
性能改进都会带来计算成本/时间
的
大幅减少。目前,调用
T
浏览 1
提问于2013-04-22
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python打卡No.5
python玩转PDF文档
NLTK自然语言处理之情感极性分析
Python 文件与目录操作方法总结
Python编程:文件读写
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券