腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用python从PDF中
提取
扫描页面
、
我有很多PDF
文件
,基本上是扫描文档,所以每一页都是一个扫描图像。我想要执行
OCR
并从这些
文件
中
提取
文本。我尝试过pytesseract,但它不直接对pdf
文件
执行
OCR
,因此,作为一项工作,我希望从PDF
文件
中
提取
images,将它们保存在目录中,然后直接在这些图像上使用pytesseract执行
OCR
。在python中有没有从pdf
文件
中
提取
扫描图像的方法?或者有任何方法可以直接对pdf
浏览 1
提问于2018-05-26
得票数 0
回答已采纳
1
回答
HowTo从PDF中
提取
嵌入的光学字符识别数据?
、
、
、
我有嵌入
OCR
数据的PDF
文件
。(所以我已经对它们进行了orcd ),所以它们是可搜索的。现在我想
提取
这个
OCR
数据,因为我想放入我的tomcat6搜索服务器。为此,我需要普通的
OCR
数据。所以我的问题是,有没有可能从pdf
文件
中
提取
嵌入的
OCR
数据?如果能得到带有坐标的
文件
就好了。但它也足以获得纯文本
文件
。
浏览 2
提问于2011-03-02
得票数 2
1
回答
在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题
、
、
、
、
我使用这两个依赖项:- tika核心2.6.0tika解析器标准包2.6.0 .Parsing在这些情况下很好地工作:- pdf
文件
和文本。pdf
文件
与图像。文本
文件
和其他扩展名。对于下面的用例- pdf
文件
和图像中的文本,pdf分析器运行时异常的解析失败。 有人能在这里建议如何解决失败的案件吗?
浏览 19
提问于2022-11-11
得票数 0
2
回答
文件
tesseract.exe不存在
、
pytesseract库当我尝试使用image_to_text方法时,它给了我一个 应该变成我搜索并没有在我的Python
文件
夹
浏览 6
提问于2017-06-29
得票数 4
回答已采纳
1
回答
从pdf图像
文件
中
提取
文本
、
、
、
我有一个图像
文件
,我想从给定的图像中
提取
文本,我尝试了各种
OCR
引擎,但我无法找到左侧实体和右侧实体之间的关系,因为
OCR
引擎只是
提取
没有实体之间关系的文本。例如事务(公司借款),account#1: Cash account#2: Loan payable 我尝试过使用各种
OCR
引擎和PyPDF2和pdftotext进行文本
提取
。
浏览 1
提问于2019-08-27
得票数 2
1
回答
在AWS中存储和执行大文本搜索
、
、
、
我需要从S3中的PDF和图像
文件
中获取
OCR
(光学字符识别)数据,以便用户可以对这些
OCR
数据执行搜索。我正在使用AWS
提取
的文本
提取
来获取
OCR
数据。我计划将
OCR
数据存储在Dynamo中,并在其中执行搜索查询。请提前帮忙谢谢!
浏览 1
提问于2020-04-06
得票数 1
回答已采纳
2
回答
从PDF中
提取
文本,并将
提取
的文本保存在Excel或其他地方
、
我想要一个简单的方法,从pdf中
提取
文本,并将文本保存到Excel中。 谢谢!
浏览 16
提问于2020-07-13
得票数 0
1
回答
从pdf
文件
中
提取
文本和包含文本的图像
、
、
我正在从pdf
文件
中
提取
文本,该
文件
具有行文本和一些具有文本的图像报告。我应该使用哪种
OCR
技术来
提取
行文本和图像中的文本。我已经尝试了一些
OCR
技术,要么是做
OCR
,要么是从pdf中读取文本。
浏览 14
提问于2019-07-19
得票数 0
3
回答
为什么pdf2image给我一个空白的图像
文件
?
、
、
、
、
我试图使用Tesseract
OCR
在多个大pdf
文件
上执行
OCR
(~400-600页)。我不一定要从所有页面中
提取
文本,但我只想要几页(页码已知)。PDF
文件
似乎已经在上面执行了某种
OCR
,但这不是一个好工作。import cv2 pytesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-
OCR
我不知道
怎么</
浏览 10
提问于2021-06-06
得票数 2
1
回答
带有图像的PDF
文件
的
OCR
、
、
我让Tika在PDF
文件
上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的PDF
文件
,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
1
回答
如何使用
OCR
从jpg
文件
中
提取
数值
、
、
、
我创建了以下代码并执行:
Ocr
ocr
= new
Ocr
();String s =
ocr
.recognize(theImage,
Ocr
.RECOGNIZE_TYPE_ALL,
Ocr
.OUTPUT_FORMAT_PLAINTEXT); Out
浏览 2
提问于2015-11-25
得票数 0
回答已采纳
1
回答
PDFBox:区分透明文本和非透明文本
、
、
、
我有一个任务,在那里,我必须
提取
文本,是背后的图像,并已从图像本身
OCR
编辑。这一案文是透明的。问题是,有一个图像,它的背后有文字,不是
OCR
编辑的,它只是正常的文本,它是不透明的。这是一个具有代表性的pdf
文件
:图像
OCR
文本应该在第2页、第3页、第12页上
提取
,而文本也在第4页上
提取
。在第4页,图像后面没有
OCR
文本,但是图像下面有规则文本。我需要过滤掉它,因为我只需要
OCR
文本。
浏览 6
提问于2021-07-13
得票数 0
回答已采纳
1
回答
使用GNU并行组合两个命令用于
OCR
项目
、
、
、
、
在编写文本
文件
之后,我想编写一个脚本,它运行一个命令到
OCR
pdfs,它删除结果图像。time find .如果我运行上面的命令,第一个命令将
提取
图像并占用我的磁盘空间,然后第二个命令将执行
OCR
操作,然后删除图像作为最后一步。所以, 删除刚
浏览 1
提问于2017-07-11
得票数 1
2
回答
是否可以通过编程方式从视频中
提取
文本?
、
我知道我们可以用
ocr
从图像中
提取
文本。但是我需要
提取
视频中的文本,就像视频演讲中的文本一样。换句话说,是否有可能将视频转录成文本。这有可能吗?如果是的话,请建议我如何使用java或任何其他语言。
浏览 5
提问于2017-07-15
得票数 0
1
回答
如何下载谷歌扫描的.pdf OCRed?
、
如何通过谷歌下载内容为.pdf的OCRed
文件
?
浏览 0
提问于2012-11-26
得票数 2
1
回答
OCR
分析获取复选框或单选按钮值
、
、
、
我需要解析
OCR
图像
文件
并获取所有文本和复选框值,如何从
OCR
解析中获取复选框或单选按钮值,以及哪一个
OCR
Api给出了从图像中
提取
的校正结果。
浏览 3
提问于2014-03-01
得票数 2
2
回答
使用VB.net将PDF转换为文本
文件
、
、
我有一个扫描的PDF
文件
,我需要一个VB.net源代码,将扫描的PDF转换为文本格式。
浏览 0
提问于2009-09-29
得票数 0
1
回答
视频中的vb.net字符检测与图像
提取
、
、
、
、
示例:档案持续时间:46分钟如果视频上有字幕或文字,请捕获该帧并
提取
到图像中。不是
OCR
,只是捕捉和
提取
图像但我不知道该
怎么
做。你们能给我辅导一下吗?图像
提取
后
浏览 1
提问于2020-04-16
得票数 2
回答已采纳
1
回答
如何使用jTessBoxEditor提高文本识别的准确性?
、
、
、
、
我一直在尝试从扫描的pdf文档中
提取
数据。我已经将pdf
文件
转换为jpeg
文件
(我在下面附上了图像链接),裁剪具有不同字体的单词和数字,合并为tiff
文件
,并使用jTessBoxEditor训练字体生成新的语言,我使用该语言在Tesseract-
OCR
中
提取
文件
中的数据。但我无法
提取
准确的数据。tesseract-
ocr
的文本识别准确率很低。
浏览 21
提问于2020-08-31
得票数 1
2
回答
如何在pdf
文件
中复制图像中的文本?
、
、
如何在pdf
文件
中从图像中复制文本?
浏览 0
提问于2014-09-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PDF文件怎么提取图片?两种办法快速提取
ISO文件怎么打开?如何提取ISO中的文件?
怎么批量提取文件名到excel?
pdf文件中的图片怎么提取?教你快速提取PDF中的图片
使用OCR软件怎样提取图片中的文字?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券