腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1370)
视频
沙龙
4
回答
一种基于
OCR
的
PDF
文本提取方法
、
、
是否有人尝试过使用
OCR
库和
Java
从
PDF
中提取文本?你认为什么是最可靠的文本提取库?我见过的大多数方法(tesseract、GOCR)都是C库,需要编写一些JNI代码。
浏览 2
提问于2009-04-22
得票数 6
4
回答
运行反引号/exec()时的PHP路径问题
、
、
我试图从命令行运行一个
java
jar文件,在执行过程中它会给出一个路径。在这条路径上,他们是空格,这是导致问题的原因。即$f = `
java
-jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;
java
-jar /
OCR</em
浏览 1
提问于2010-04-15
得票数 0
1
回答
如何使用doc取器在
PDF
文件中搜索文本?
、
、
我试图在
PDF
文件中找到一些文本,但结果并不准确!举个例子,我有两个
PDF
文件,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个
PDF
文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个
PDF
文件?
PDF
文件之间有什么区别吗?在一个
PDF
中,我只有文本,而其他
PDF
是文本和图像,这是从扫描页面。陷阱是什么? P.S.:这两个
PDF
文件位于同一个目录中。
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
1
回答
如何从
PDF
中提取音乐符号?
、
、
、
我试图用另一种内置字体渲染
PDF
格式的音乐符号,但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_
pdf
.txt Betlem.
pdf
iconv.exe -f MAC
浏览 5
提问于2019-07-22
得票数 0
回答已采纳
3
回答
OCR
图形纸
我想把一个扫描过的图形纸笔记本(有手写)的
pdf
格式转换成一个文本文件。谢谢
浏览 6
提问于2009-06-20
得票数 1
1
回答
是否可以使用Google脚本将位于Google中的不可搜索的
PDF
转换为可搜索的
PDF
?
、
、
、
我想使用Google 将不可搜索的
PDF
转换成可搜索的
PDF
,其中的文本是覆盖在
PDF
上的。
PDF
位于我的谷歌驱动器,我不想上传文件到另一个网站或下载的文件,以进行转换。我没有找到任何显示文本可以被覆盖的资源,类似于Acrobat如何进行
OCR
转换。那么,是否有可能使用气体进行覆盖呢?我只看到人们转换成文本或文档文件。
浏览 1
提问于2019-07-09
得票数 1
回答已采纳
1
回答
不安装Tesseract的Apache Tika
OCR
、
、
、
我正在使用将
PDF
文件解析为文本。一些
PDF
文件可以包含扫描文档。Apache使用Tesseract将文本
识别
为图像。(AbstractPDF2XHTML.
java
:428) at org.apache.pdfbox.text.
浏览 5
提问于2017-09-16
得票数 6
2
回答
Tesseract
OCR
混淆了0到8的斜线
、
、
我曾在终端字体上训练过tesseract,但无论如何,我都无法让它
识别
出0。我正在使用jTessEditor创建培训tif和框。即使在验证时,它也会将所有的0读为8s。我遗漏了什么吗?
浏览 8
提问于2018-10-31
得票数 22
2
回答
哪种软件可用于
PDF
扫描,可以提取信息并发送到发票程序?
、
、
、
、
我在一家公司当实习生,他们需要精确扫描
PDF
格式的发票。该程序,即
java
库,需要能够提取发票的某些部分,这样用户就不必手动重新键入信息。
浏览 0
提问于2019-09-12
得票数 0
4
回答
哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的文本
pdf
?
、
、
、
、
我需要将扫描文档转换为mac上可搜索的文本
PDF
。它不需要免费,只需要比Acrobat更低的成本。
浏览 0
提问于2015-03-02
得票数 2
回答已采纳
2
回答
在WinForm中寻找
OCR
库
、
、
是否有任何免费/付费的
OCR
库能够捕获
PDF
格式的发票数据?需要有一个低的错误率。我们需要对这些数据进行进一步的处理。
浏览 0
提问于2019-06-10
得票数 1
1
回答
我想从
OCR
数据中提取表信息。
、
、
、
我想从
OCR
数据中提取表格信息,我有原始文本和它的文本。我试过pytesseract,但找不到实际的实现。我试过这个: 这种方法对我一点用也没有。我希望从
OCR
数据中获得此表的表格结构,以供进一步处理。
浏览 3
提问于2019-01-20
得票数 0
1
回答
带有Aspris库的
java
-
OCR
、
、
、
这是我使用Aspris库编写的代码,但"recognize“方法有问题:
Ocr
ocr
= new
Ocr
();String s =
ocr
.recognize(theImage,
Ocr
.RECOGNIZE_TYPE_ALL,
Ocr
.OUTPUT_FORMAT_PLAINTEXT); <
浏览 3
提问于2015-08-14
得票数 0
1
回答
如何判断
pdf
文件中隐藏的文本层是否来自
OCR
?
我见过一些
pdf
文件后,
OCR
有非常准确的文本(无论是在
识别
率,在文本对齐图像)。 如果
pdf
文件中隐藏的文本层是否来自
OCR
,那么Unix/Linux工具会帮助我知道什么呢?
浏览 0
提问于2014-12-07
得票数 2
1
回答
如何快速从图像中扫描可搜索的
pdf
?
、
、
、
、
我想扫描文件与tesseract框架中的迅速和生成
pdf
文件,可以搜索。 实际上,我使用此代码将图像转换为文本,但我希望生成主格式的图片,但格式将随着转换为文本而改变,并生成
pdf
文件。
浏览 2
提问于2020-10-13
得票数 0
回答已采纳
4
回答
如何在
java
/ jsp或javascript中读取扫描的
pdf
文件的内容
、
、
、
如何在
java
/jsp或javascript中读取扫描的
pdf
文件的内容,您能告诉我如何通过开发代码来实现这一点吗? 预先感谢您的回复
浏览 2
提问于2011-01-11
得票数 0
1
回答
保存并重新加载Abbyy的光学字符
识别
结果
、
、
、
假设我已经在Abbyy FindeReader中对多个
PDF
进行了光学字符
识别
。是否可以稍后在Abbyy FineReader中重新加载光学字符
识别
结果,以便纠正光学字符
识别
错误?我的想法是,我希望将执行
OCR
和(稍后)更正
OCR
结果分开
浏览 36
提问于2020-10-09
得票数 0
回答已采纳
2
回答
黑名单字符不会被Tesseract
OCR
忽略
、
、
我使用Tessearct来
识别
图像的字符。但我希望
OCR
忽略数字字符。_tesseract->SetVariable("tessedit_char_blacklist", "0123456789");如上文所示,
OCR
将12
转
换为fl,这是我不想要的。我希望12被
浏览 2
提问于2013-03-04
得票数 3
回答已采纳
2
回答
在
PDF
上使用Asprise和
Java
的
OCR
、
在这里,我是新手,我在编译代码时遇到了这个错误: PDFReader reader = new PDFReader(new File("C)at com.asprise.util.
pdf
.as.b(Unknown Source)at
浏览 1
提问于2014-02-24
得票数 0
1
回答
检查是否已从Word/Google Docs导出
PDF
、
、
、
我正在做一些OCRing
PDF
的工作,我很好奇是否有一种方法可以检查一个
PDF
是否已经从Word (或Google Docs)导出。我可以检查
PDF
是否已经用Xpdf的pdffonts进行了
OCR
。我知道Word和Google Docs会自动
OCR
导出的
PDF
,所以如果我发现
PDF
没有
OCR
,我就知道它没有导出。但是,如果它已经光学字符
识别
,有没有办法检查的
PDF
是否从Word/Google Docs导出
浏览 2
提问于2013-06-14
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
智聆口语评测
活动推荐
运营活动
广告
关闭
领券