腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
关于一个好的自由软件/网站将
pdf
转换为EPUB的建议
、
我发现,当我将一个包含大量
文本
的
pdf
文件转换成EPUB格式(例如书籍)时,它们会在同一句话之间被分割成段落,我
使用
过-量程,Toepub.com和许多在大坏网站上可以找到的网站;-)。
浏览 0
提问于2019-11-14
得票数 0
4
回答
哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的
文本
pdf
?
、
、
、
、
我需要将扫描文档转换为mac上可搜索的
文本
PDF
。它不需要免费,只需要比Acrobat更低的成本。
浏览 0
提问于2015-03-02
得票数 2
回答已采纳
1
回答
如何
使用
doc取器在
PDF
文件中搜索
文本
?
、
、
我试图在
PDF
文件中找到一些
文本
,但结果并不准确!举个例子,我有两个
PDF
文件,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个
PDF
文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个
PDF
文件?
PDF
文件之间有什么区别吗?在一个
PDF
中,我只有
文本
,而其他
PDF
是
文本
和图像,这是从扫描页面。陷阱是什么? P.S.:这两个
PDF
文件
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
2
回答
如何用谷歌翻译图片上的文字?
如果我遇到一个含有未知
文本
的图片文件,我可以为它拍另一张照片,然后用我的手机
使用
进行翻译,但我如何在我的电脑上翻译它呢?我试着输入谷歌翻译的图片链接,但显示无法打开文件。
浏览 18
提问于2014-08-06
得票数 0
回答已采纳
2
回答
Tesseract
OCR
混淆了0到8的斜线
、
、
我曾在终端字体上训练过tesseract,但无论如何,我都无法让它
识别
出0。我正在
使用
jTessEditor创建培训tif和框。即使在验证时,它也会将所有的0读为8s。我遗漏了什么吗?下面是0的一个示例,它将其读取为8:我
使用
以下参数: --psm 10 -c tessedit_char_whitelist=0123456789# --oem 3 -l terminus
浏览 8
提问于2018-10-31
得票数 22
2
回答
如何在
pdf
文件中复制图像中的
文本
?
、
、
我可以
使用
evince文档查看器
使用
文本
查看
pdf
图像,但是我不能选择图像中的
文本
来复制和粘贴。如何在
pdf
文件中从图像中复制
文本
?
浏览 0
提问于2014-09-19
得票数 0
3
回答
手写
文本
识别
php
有没有什么PHP开源方法可以把这些手写
文本
转换成机器
文本
?有没有人分享一下这个领域的经验?
浏览 6
提问于2011-08-08
得票数 7
回答已采纳
10
回答
光学字符
识别
软件推荐?
我看到一些电子书/论文显然是从他们的纸质版本中扫描出来的,但电子图书/论文中的
文本
却能惊人地被复制出来。我想直接扫描的版本一定是由一些光学字符
识别
软件处理的。所以我想知道什么是推荐的光学字符
识别
软件?尤其是那些要么是Ubuntu的,要么是免费的?如果那些在Windows上要好得多,请告诉我。我特别感兴趣的那些
OCR
,可以接受一个扫描的
pdf
文件作为输入,但仍然产生作为输出的另一个
pdf
文件看起来与输入一个,但其
文本
可复制。请每个答案限
浏览 0
提问于2010-10-22
得票数 15
回答已采纳
11
回答
免费的
OCR
软件,使
PDF
可搜索(与可搜索的
文本
在正确的地方)
、
、
、
、
是否有任何免费的
OCR
软件(用于Linux和/或Windows)可以像Acrobat那样将
PDF
扫描文档作为输入并输出可搜索的
PDF
?
使用
可搜索的
PDF
格式,我的意思是OCRed
文本
在原始
文本
上是不可见的,可以用鼠标选择并复制。我知道Linux上的gscan2
pdf
可以这样做,但是
文本
被放置在页面的左上角,而且太小了,与背景扫描页面上的
文本
完全不同步。这是因为gscan2
pdf
将整个页面提
浏览 0
提问于2014-04-20
得票数 72
回答已采纳
1
回答
是否有任何不基于
OCR
的通用布局分析库或工具?
、
我正在寻找布局分析库或工具(最好是开源的),可以应用于
文本
PDF
,以
识别
主要
文本
内容与侧栏,章节标题,章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具,它们
使用
光学字符
识别
和图像
识别
来
识别
布局。有没有库可以在没有
OCR
的情况下做同样的事情?可以从
文本
PDF
中提取
文本
和图像,并将包含
文本
和图像位置的输入提供给该
浏览 2
提问于2013-05-08
得票数 2
回答已采纳
2
回答
OCR
将覆盖HTML传输到图像?
、
我要找一个
OCR
软件,渲染覆盖HTML到一个图像。我目前正在
使用
一些未命名的产品。它有一个
OCR
功能,可以对带有图像的
PDF
文档进行内联
OCR
。内联
OCR
非常方便,它允许搜索带有图像的
PDF
文档中的
文本
。也可以直接在文档中突出显示
文本
,
OCR
文本
与底层图像对齐。不幸的是,我无法从未命名的产品中导出或存储内联
OCR
。有没有其他软件可以执行和导出
在线
OCR</
浏览 3
提问于2013-05-13
得票数 5
4
回答
一种基于
OCR
的
PDF
文本
提取方法
、
、
是否有人尝试过
使用
OCR
库和Java从
PDF
中提取
文本
?你认为什么是最可靠的
文本
提取库?我见过的大多数方法(tesseract、GOCR)都是C库,需要编写一些JNI代码。我熟悉pdfbox,它现在是Apache 0.8.x版的孵化器项目,但是它的
文本
提取并不总是准确的。我正在寻找一种更可靠的替代方法。
浏览 2
提问于2009-04-22
得票数 6
3
回答
将
pdf
的内容读取为字符串
、
、
如何将
PDF
的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的
文本
元素。
PDF
来自一个url,我将它加载到一个web视图中并
使用
NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.
pdf
, encoding: NSUTF8StringEncoding, err
浏览 14
提问于2015-08-02
得票数 0
回答已采纳
1
回答
如何快速从图像中扫描可搜索的
pdf
?
、
、
、
、
我想扫描文件与tesseract框架中的迅速和生成
pdf
文件,可以搜索。 实际上,我
使用
此代码将图像转换为
文本
,但我希望生成主格式的图片,但格式将随着转换为
文本
而改变,并生成
pdf
文件。
浏览 2
提问于2020-10-13
得票数 0
回答已采纳
1
回答
如何在蟒蛇的景观方向上阅读
pdf
?
、
、
、
我有一个
pdf
文件,是在肖像方向,但在一些页面,
文本
是在景观方向。当
使用
PyPDF2读取上面的页面时,我从extractText()函数获得以下
文本
:Out24:"U ~ 00 w.T.-O.O.O.mó00 woNN p 00 a+ -fl n~n a O ;~ 0 ~^ o a. ~… 下面是我试图提取
文本
的页面示例:
浏览 1
提问于2018-04-03
得票数 0
回答已采纳
1
回答
如何判断
pdf
文件中隐藏的
文本
层是否来自
OCR
?
我见过一些
pdf
文件后,
OCR
有非常准确的
文本
(无论是在
识别
率,在
文本
对齐图像)。 如果
pdf
文件中隐藏的
文本
层是否来自
OCR
,那么Unix/Linux工具会帮助我知道什么呢?
浏览 0
提问于2014-12-07
得票数 2
1
回答
快速检查
PDF
文件上的
OCR
文本
层
、
有没有什么程序可以让我在
PDF
渲染的基础上叠加
PDF
的
文本
(
OCR
)层?如果这可以用程序来完成,那会更方便,如果不能,一些cli命令或脚本也可以工作。
浏览 2
提问于2017-11-18
得票数 1
1
回答
Acrobat
OCR
识别
的访问
文本
、
、
我有
PDF
文件已经被“
识别
”
使用
OCR
文本
识别
->
识别
文本
使用
功能在Acrobat。有什么想法吗?
浏览 0
提问于2010-06-25
得票数 0
回答已采纳
1
回答
我想从
OCR
数据中提取表信息。
、
、
、
我想从
OCR
数据中提取表格信息,我有原始
文本
和它的
文本
。我试过pytesseract,但找不到实际的实现。我试过这个: 这种方法对我一点用也没有。我希望从
OCR
数据中获得此表的表格结构,以供进一步处理。
浏览 3
提问于2019-01-20
得票数 0
3
回答
操作
PDF
文件,Windows Forms C#
、
、
、
我有
pdf
页面,我想打印/保存从C#的windows窗体应用程序,但是我想修改文件之前,在添加一个用户编写的最终评论页面(只有
文本
)。 谁能给我指出一个简单的
pdf
库,它用简单的代码做这件事。
浏览 2
提问于2010-11-08
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券