腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
R
中
的
新
Tesseract
OCR
引擎
将
许多
.
pdf
文件
转
换为
.
txt
文件
r
、
ocr
、
tesseract
、
file-conversion
我
的
主管希望我
将
.
pdf
文件
转
换为
.
txt
文件
,以便通过关键字提取算法进行处理。.
pdf
文件
是扫描过
的
法庭
文件
。她还希望
将
每个.
txt
文件
保存为"docketnumber_date_documentdescription.
txt
",例如"d2_5_23_2020_complaint.
txt<
浏览 30
提问于2021-09-24
得票数 0
回答已采纳
2
回答
php exec()和
tesseract
说“无法打开输入
文件
”
php
、
exec
、
tesseract
我
使用
Ghostscript
将
PDF
文件
中
的
图像剥离到jpg
中
,并运行
Tesseract
保存
txt
内容,如下所示: 位于c:\engine\gs\
Tesseract
中
的
Ghostscript位于c:\engine\
tesseract
\web
中
pdf
/jpg/
txt
=/tmp
浏览 4
提问于2012-04-17
得票数 1
回答已采纳
9
回答
什么是最好
的
,最简单
的
OCR
解决方案?
software-recommendation
、
scanning
、
ocr
我想扫描大量
的
文件
,我已经躺在附近,尽量少麻烦。我想通过简单
的
扫描将它们转换成图像,然后
使用
OCR
将它们转
换为
文本。有一个好
的
OCR
应用程序
的
图形用户界面,将给我一个好
的
结果按下一个按钮?
浏览 0
提问于2010-12-05
得票数 97
回答已采纳
3
回答
为什么
pdf
2image给我一个空白
的
图像
文件
?
python
、
pdf
、
ocr
、
pdftoppm
、
pdf2image
我试图
使用
Tesseract
OCR
在多个大
pdf
文件
上执行
OCR
(~400-600页)。我不一定要从所有页面中提取文本,但我只想要几页(页码已知)。
PDF
文件
似乎已经在上面执行了某种
OCR
,但这不是一个好工作。pytesseract.pytesseract.
tesseract
_cmd =
r
"C:/Program Files/
Tesseract
-<
浏览 10
提问于2021-06-06
得票数 2
3
回答
Tesseract
批处理
将
图像转
换为
可搜索
的
PDF
和多个相应
的
文本
文件
linux
、
python-3.x
、
ocr
、
tesseract
我
使用
tesseract
批量
将
图像列表转
换为
可搜索
的
PDF
以及包含OCRd文本
的
TXT
文件
。myconfig包含
tesseract
首选项以指定输出类型(tessedit_create_text 1和tessedit_create_
pdf
1) 这给我留下了outfile.
pdf
和outfile.
txt
然而,我真正想要做
的
是在每个映像<em
浏览 1
提问于2019-08-01
得票数 0
回答已采纳
4
回答
一种基于
OCR
的
PDF
文本提取方法
java
、
pdf
、
text-parsing
是否有人尝试过
使用
OCR
库和Java从
PDF
中提取文本?你认为什么是最可靠
的
文本提取库?我见过
的
大多数方法(
tesseract
、GOCR)都是C库,需要编写一些JNI代码。我熟悉pdfbox,它现在是Apache 0.8.x版
的
孵化器项目,但是它
的
文本提取并不总是准确
的
。我正在寻找一种更可靠
的
替代方法。我还没有尝试过Asprise,在尝试
的
过程
中
,我想了解更多关于JavaPDF<e
浏览 2
提问于2009-04-22
得票数 6
1
回答
将
多个
PDF
文件
转
换为
文本(
R
语言)
r
、
pdf
、
dplyr
、
tesseract
我正在
使用
R
中
的
"
tesseract
“库
将
"
PDF
文件
转
换为
文本”,如下所示:library(
tesseract
) text <-
tesseract
::
浏览 4
提问于2021-07-31
得票数 0
1
回答
开放源码在线文档编辑器
document-management
有人能告诉我一些在线实现文档管理
的
开源项目吗?谢谢。
浏览 1
提问于2013-07-25
得票数 2
回答已采纳
3
回答
如何
使用
任何Java库使现有的
PDF
文本可搜索?用
OCR
java
、
ocr
、
pdfbox
如何
使用
任何java库生成可搜索
的
文本?开源或付费。 如何
使用
PDFBox
将
OCR
应用于
pdf
?如何使
pdf
文本可编程搜索
使用
pdfbox,我搜索了很多。没有找到任何解决办法。有人能粘贴
OCR
PDFBox
的
代码吗?
浏览 8
提问于2014-04-04
得票数 0
回答已采纳
1
回答
如何
使用
jTessBoxEditor提高文本识别的准确性?
python
、
ocr
、
tesseract
、
python-tesseract
、
pdf-extraction
我一直在尝试从扫描
的
pdf
文档中提取数据。我已经
将
pdf
文件
转
换为
jpeg
文件
(我在下面附上了图像链接),裁剪具有不同字体
的
单词和数字,合并为tiff
文件
,并
使用
jTessBoxEditor训练字体生成
新
的
语言,我
使用
该语言在
Tesseract
-
OCR
中提取
文件
中
的
数据。但我
浏览 21
提问于2020-08-31
得票数 1
1
回答
在尝试解析具有文本包含图像
的
pdf
时
使用
Apache tika解析器
的
问题
java
、
scala
、
apache-tika
、
runtimeexception
、
pdfparser
我
使用
这两个依赖项:- tika核心2.6.0tika解析器标准包2.6.0 .Parsing在这些情况下很好地工作:-
pdf
文件
和文本。
pdf
文件
与图像。文本
文件
和其他扩展名。对于下面的用例-
pdf
文件
和图像
中
的
文本,
pdf
分析器运行时异常
的
解析失败。 有人能在这里建议如何解决失败
的
案件吗?(PDFTextStripper.java:365) ~org.ap
浏览 19
提问于2022-11-11
得票数 0
10
回答
光学字符识别软件推荐?
software-recommendation
我看到一些电子书/论文显然是从他们
的
纸质版本
中
扫描出来
的
,但电子图书/论文中
的
文本却能惊人地被复制出来。我想直接扫描
的
版本一定是由一些光学字符识别软件处理
的
。所以我想知道什么是推荐
的
光学字符识别软件?尤其是那些要么是Ubuntu
的
,要么是免费
的
?如果那些在Windows上要好得多,请告诉我。我特别感兴趣
的
那些
OCR
,可以接受一个扫描
的
pdf
<e
浏览 0
提问于2010-10-22
得票数 15
回答已采纳
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
python
、
ocr
、
rgb
、
cmyk
、
wand
我对一些
pdf
文件
有问题。我需要将它们转
换为
jpg图像,使它们可用于
OCR
,但当我转换其中
的
一些,魔杖
转
我
的
jpg在那里有一个黑色
的
背景文本。我看到这是一个关于空间颜色
的
常见问题。这似乎发生在word转
换为
pdf
文件
的
文件
中
,其中空间颜色变成了CMYK。
Tesseract
OCR
仅接受空间颜色
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
1
回答
通过SOLR对
Tesseract
的
OCR
支持
solr
、
ocr
、
tesseract
、
apache-tika
好日子,我正在尝试
将
SOLR配置为
使用
Tesseract
OCR
引擎
从图像中提取文本,但还没有成功。SOLR从结构化文本文档(.xls、.
pdf
、doc等)中提取精细文本,但它不想调用
Tesseract
模块进行文本识别。我在用 /usr
浏览 6
提问于2020-01-16
得票数 0
2
回答
GNU并行
中
的
嵌套循环并行化
bash
、
parallel-processing
、
tesseract
、
gnu-parallel
我有一个小bash脚本
OCR
文件
(稍加修改
的
脚本)。每个
文件
的
基本流程是: FILES=/home/tgr/: *[0-9]\+$" | sed 's/.* &
浏览 0
提问于2013-09-20
得票数 9
回答已采纳
1
回答
将
扫描
的
pdf
文件
转
换为
文本可搜索
的
pdf
文件
php
、
pdf
、
ocr
我想将扫描
的
pdf
文件
转
换为
可文本搜索
的
pdf
文件
。我想给出一个输入作为扫描
的
PDF
,然后我
的
预期输出是可搜索
的
PDF
。有几个工具,给我们
的
文本作为输出从扫描
的
pdf
文件
,但我想文本可搜索
的
pdf
文件
作为输出,而不仅仅是文本。我搜索了一下,找到了一个解决方案
浏览 25
提问于2017-07-09
得票数 1
1
回答
使用
openjpeg2运行
tesseract
4.1 -无法生成
pdf
输出
pdf
、
output
、
tesseract
Can't open
PDF
Warning: Invalid resolution 0Estimating resolution as 275但是,它试图读取一个名为
PDF
的
文件
,但我不知道如何获得
PDF
输出
浏览 4
提问于2019-12-17
得票数 0
回答已采纳
2
回答
‘`
tesseract
cri`可以
将
结果放到STDOUT
中
吗?
tesseract
使用
tesseract
-
ocr
#3.02.02。
tesseract
sourc.png result是否有
将
结果
转
储到stdout
中
的
选项?
浏览 0
提问于2014-06-22
得票数 24
回答已采纳
2
回答
在Heroku上与Django一起
使用
Tesseract
python
、
django
、
heroku
、
tesseract
我想添加
OCR
功能到我
的
Django应用程序上运行在Heroku上。我怀疑最简单
的
方法是
使用
。我注意到,对于
Tesseract
的
API,有很多python包装器,但是在Heroku上安装和运行
Tesseract
的
最佳方法是什么呢?可能是通过像这样
的
定制构建包吗?
浏览 10
提问于2013-10-22
得票数 1
回答已采纳
3
回答
使用
R
在
PDF
中
存储
Tesseract
输出
r
、
pdf
、
ocr
、
tesseract
我正在尝试
使用
R
接口来测试
tesseract
来创建一个包含嵌入式文本
的
PDF
文件
。我已经看到了前面的问题,但是它是关于
使用
命令行接口进行
tesseract
的
。这个问题是关于
R
界面的。我
将
tessedit_create_
pdf
选项设置为1,但没有得到
新
的
pdf
文件
。我没有看到设置输出
文件
浏览 9
提问于2021-08-29
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
怎么识别图片中的文字?这三种方法了解一下
pdf转换txt怎么转?这样转换很简单
PDF文档为什么不能编辑?怎么转到TXT文档?
怎么将语音识别为汉字?一次看懂
如何让pdf转换成word?介绍四款软件
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券