腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在Firebase Google cloud
OCR
文本
识别中检测人民币符号?
、
我正在使用Firebase Google云
文本
识别
OCR
。我在
扫描
文本
和货币。在这种情况下,我可以很容易地
扫描
文本
,但是,一些符号,如日元,元是没有检测到的。我正在使用应用程序中的firebase google cloud
ocr
API服务
扫描
文本
。
浏览 2
提问于2019-06-07
得票数 0
1
回答
Google Drive API
扫描
文档
、
我需要包含将文档
扫描
到我的应用程序中的功能。可以使用新的Google drive API来
扫描
文档吗?我尝试使用OpenCV来处理图像,但是没有得到好的结果。
浏览 1
提问于2014-07-17
得票数 2
1
回答
我想从
OCR
数据中提取表信息。
、
、
、
我想从
OCR
数据中提取表格信息,我有原始
文本
和它的
文本
。我试过pytesseract,但找不到实际的实现。我试过这个: 这种方法对我一点用也没有。我希望从
OCR
数据中获得此表的表格结构,以供进一步处理。
浏览 3
提问于2019-01-20
得票数 0
1
回答
Itext从pdf中获得特殊信件
、
、
我尝试了许多
ocr
解决方案,但它们都给出了糟糕的结果。我有没有办法提取所有这些pdf数据,就像他们在pdf中使用itext的方式一样。
浏览 4
提问于2015-06-08
得票数 0
回答已采纳
1
回答
如何使用doc取器在PDF文件中搜索
文本
?
、
、
我试图在PDF文件中找到一些
文本
,但结果并不准确!举个例子,我有两个PDF文件,其中有一个词domiciiado。在一个PDF中,我只有
文本
,而其他PDF是
文本
和图像,这是从
扫描
页面。陷阱是什么? P.S.:这两个PDF文件位于同一个目录中。
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
3
回答
检测倒过来的pdf页面
、
、
、
我们使用php、pypdfocr和pdftotext来进行
OCR
,并从已
扫描
或传真给我们的文档中提取
文本
。问题是,当文档被倒转
扫描
或传真时,或者某些页面打算被读取时(因此
文本
在页面上旋转了90度)。我尝试过的事情: 对于有90度
文本
的页面,产生的
OCR
文本
层并不坏,但是,倒过来的页面,
OCR
会把每个单词都翻转到适当的位置,这样如果文
浏览 4
提问于2015-08-05
得票数 3
回答已采纳
1
回答
使用python从PDF中提取
扫描
页面
、
我有很多PDF文件,基本上是
扫描
文档,所以每一页都是一个
扫描
图像。我想要执行
OCR
并从这些文件中提取
文本
。我尝试过pytesseract,但它不直接对pdf文件执行
OCR
,因此,作为一项工作,我希望从PDF文件中提取images,将它们保存在目录中,然后直接在这些图像上使用pytesseract执行
OCR
。在python中有没有从pdf文件中提取
扫描
图像的方法?或者有任何方法可以直接对pdf文件执行
OCR
?
浏览 1
提问于2018-05-26
得票数 0
回答已采纳
2
回答
如何以编程方式验证PDF文件是否为第一代文件?
、
我从概念上理解什么是第一代PDF文件(将文档直接打印到PDF,而不是
扫描
副本或打印和
扫描
副本)。但是,我做了一些研究,没有发现任何可以通过编程验证的第一代PDF的属性。我找到了一种产品,可以让人检查PDF是否包含
文本
、图像,或者两者都包含:,但出于预算和其他原因,我正在寻找一种自己编程的方法。此外,我不确定确定文件包含
文本
是否足以验证它是第一代文件。
浏览 0
提问于2011-07-27
得票数 1
回答已采纳
1
回答
带有图像的PDF文件的
OCR
、
、
我让Tika在PDF文件上使用Tesseract,但是如果我给它一个同时具有可搜索
文本
和图像的PDF文件,
文本
是OCRed两次。有什么办法可以避免这种情况吗?即使它要经过两次,一次是笔直的
文本
,另一次是图像。
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
1
回答
识别pdf类型
、
Apache Tika中有没有检查pdf类型的选项:原生pdf (纯)或
扫描
pdf? 如果没有,也许我可以在Tika使用的tesseract中检查它。
浏览 28
提问于2020-09-23
得票数 0
2
回答
PDF和
文本
层
、
、
根据这个站点的,当添加一个
文本
层时,PDF是可搜索的。如果
扫描
仪在图像上执行
OCR
,它是否将
文本
存储在“
文本
层”中?或者是"XMP“字段?这只
浏览 2
提问于2012-07-10
得票数 15
回答已采纳
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个PDF文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档
扫描
到/PDF-S1500M/-我想使用对
文本
进行
OCR
。我想(每天)自动化这个过程: 我应该用自动售货机吗?
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
2
回答
用
OCR
将
文本
文档
扫描
到PDF
、
、
我需要
扫描
文本
文件到PDF。操作系统Windows或Linux。预算-无限。
浏览 0
提问于2016-10-03
得票数 2
2
回答
使用VB.net将PDF转换为
文本
文件
、
、
我有一个
扫描
的PDF文件,我需要一个VB.net源代码,将
扫描
的PDF转换为
文本
格式。
浏览 0
提问于2009-09-29
得票数 0
2
回答
如何区分
扫描
的PDF和常规的
文本
PDF
、
、
我正在处理多个PDF文件的
OCR
任务。其中一些是
扫描
的(不可搜索的),另一些只是原生的(可搜索的)PDF。image1 = image_read_pdf (file.list1[1], density=150)用于
文本
的pdf由于
OCR
浏览 7
提问于2021-04-10
得票数 1
11
回答
免费的
OCR
软件,使PDF可搜索(与可搜索的
文本
在正确的地方)
、
、
、
、
是否有任何免费的
OCR
软件(用于Linux和/或Windows)可以像Acrobat那样将PDF
扫描
文档作为输入并输出可搜索的PDF?使用可搜索的PDF格式,我的意思是OCRed
文本
在原始
文本
上是不可见的,可以用鼠标选择并复制。我知道Linux上的gscan2pdf可以这样做,但是
文本
被放置在页面的左上角,而且太小了,与背景
扫描
页面上的
文本
完全不同步。这是因为gscan2pdf将整个页面提供给
OCR
引擎。它应该将图像分解成小图像,用单行<em
浏览 0
提问于2014-04-20
得票数 72
回答已采纳
3
回答
谷歌图书是如何工作的?有没有开源的替代方案?
、
、
这个过程基本上是“高质量
扫描
”吗?在这些高质量的图像上,是否有任何开源的解决方案来“大规模生成”“水印”?假设你有一张原始图片。当用户在线查看它时,我重新创建了图像并在图像" on - the -fly“上添加了水印和其他一些
文本
。python中是否存在这样的库?谢谢
浏览 4
提问于2009-10-06
得票数 0
回答已采纳
1
回答
用于从PDF中提取数据的自然语言处理
、
我有许多不同格式的
扫描
pdf与许多不同的领域。把它想象成一张已经
扫描
过的发票。我需要从
扫描
的pdf中提取信息,并输出字段和每个字段中的
文本
。 我有一个
OCR
工具,它可以很好地提取原始格式的所有
文本
。不知何故,我使用NLP必须能够从原始
文本
中提取字段及其值。由于发票的格式有很多种,因此在这种情况下不能使用
OCR
。NLP如何帮助我解决这个问题?
浏览 6
提问于2017-10-05
得票数 0
9
回答
什么是最好的,最简单的
OCR
解决方案?
、
、
我想
扫描
大量的文件,我已经躺在附近,尽量少麻烦。我想通过简单的
扫描
将它们转换成图像,然后使用
OCR
将它们转换为
文本
。有一个好的
OCR
应用程序的图形用户界面,将给我一个好的结果按下一个按钮?
浏览 0
提问于2010-12-05
得票数 97
回答已采纳
1
回答
如何快速从图像中
扫描
可搜索的pdf?
、
、
、
、
我想
扫描
文件与tesseract框架中的迅速和生成pdf文件,可以搜索。 实际上,我使用此代码将图像转换为
文本
,但我希望生成主格式的图片,但格式将随着转换为
文本
而改变,并生成pdf文件。
浏览 2
提问于2020-10-13
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
天若OCR—扫描件、图片轻松转文字
全能扫描工具,支持OCR文字识别,全平台
如何判断某个发票扫描OCR软件好不好?
告别「复制+粘贴」,基于深度学习的OCR,实现PDF转文本
OCR扫描识别技术在档案数字化中的应用
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券