腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
将扫描的
PDF
转换
为可搜索的
PDF
( R)
、
、
、
、
我正在尝试使用tesseract和pdftools包将一系列扫描的
PDF
转换
成可搜索的
PDF
。我已经完成了两步。现在我需要写回一个可搜索的
pdf
。读取扫描
PDF
eg <- download.file("https://www.fujitsu.com/global/Images/sv600_c_automatic.
pdf
",
浏览 22
提问于2021-09-01
得票数 1
3
回答
使用R在
PDF
中存储Tesseract输出
、
、
、
我正在尝试使用R接口来测试tesseract来创建一个包含嵌入式文本的
PDF
文件。我已经看到了前面的问题,但是它是关于使用命令行接口进行tesseract的。这个问题是关于R界面的。我将tessedit_create_
pdf
选项设置为1,但没有得到新的
pdf
文件。我没有看到设置输出文件的选项。如何使tesseract创建一个带有嵌入式文本的
pdf
?下面的代码在内存中生成很好的文本,但是没有
PDF
文件。tesseract(language = "eng", options =
浏览 9
提问于2021-08-29
得票数 1
2
回答
如何在R中逐行读取
PDF
?
、
、
我使用pdftools包中的read_
pdf
()函数逐行读取
PDF
文件,但突然之间,它没有改变脚本、任何参数或行中的任何内容,而是开始读取整个页面,而不是逐行分隔元素。我怎样才能让它回到逐行分离?
浏览 8
提问于2022-09-30
得票数 0
回答已采纳
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
、
、
、
、
我对一些
pdf
文件有问题。我需要将它们
转换
为jpg图像,使它们可用于
OCR
,但当我
转换
其中的一些,魔杖转我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在
word
转换
为
pdf
文件的文件中,其中空间颜色变成了CMYK。Tesseract
OCR
仅接受空间颜色RGB。我已经写了一个可以
转换
的python脚本,但我想解决这个问题。你能帮我一下吗?原页
pdf
? 已将
pdf</e
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
1
回答
使用R突出显示
PDF
文件中的文本
、
我想用R高亮显示
PDF
文档中的一些文本,我想搜索
PDF
文档中的一些文本,如果找到的话突出显示文本。我在寻找能做到这一点的包裹。有没有一种方法,我们可以突出显示一个
PDF
文件使用R?
浏览 2
提问于2017-03-08
得票数 2
3
回答
如何在没有microsoft.office.interop的情况下将
PDF
转换
为文档?
、
、
、
、
我需要
转换
成.doc文件使用C#的
PDF
文件。虽然这台计算机没有安装Office,但它没有文件系统。有没有什么好办法让我这么做呢?我做了一些研究,大多数人都在使用互操作服务。
浏览 2
提问于2011-04-23
得票数 0
回答已采纳
1
回答
检查是否已从
Word
/Google Docs导出
PDF
、
、
、
我正在做一些OCRing
PDF
的工作,我很好奇是否有一种方法可以检查一个
PDF
是否已经从
Word
(或Google Docs)导出。我可以检查
PDF
是否已经用Xpdf的pdffonts进行了
OCR
。我知道
Word
和Google Docs会自动
OCR
导出的
PDF
,所以如果我发现
PDF
没有
OCR
,我就知道它没有导出。但是,如果它已经光学字符识别,有没有办法检查的
PDF
是否从
Word
&
浏览 2
提问于2013-06-14
得票数 0
4
回答
如何在c#中将
PDF
文件
转换
为
WORD
文件
、
、
、
有没有人知道一个.Net组件,可以通过编程将
PDF
转换
为
Word
或RTF?我不想使用
OCR
和Adobe相关解决方案。
浏览 1
提问于2011-04-20
得票数 7
4
回答
是否有任何web应用程序可以将
PDF
转换
为
word
(或html),并为表提供良好的支持?
、
是否有一个web应用程序可以将
PDF
文件
转换
为
word
(或html)文件,包括恢复表?(我希望将
PDF
规范
转换
成我可以用来驱动系统测试的格式) 我还没有接受一个答案,如果有人想写一个答案,比较不同的选择,我会接受它。
浏览 0
提问于2010-07-17
得票数 1
回答已采纳
3
回答
PDF
到XML-XSL - Java的
转换
?
、
、
、
如何将
PDF
转换
为XML并在XSL中捕获其结构/样式?
浏览 3
提问于2012-07-16
得票数 2
2
回答
ITextSharp在C#中无法读取
pdf
中的文本
、
、
我有两个
pdf
文件。在Sercurity选项卡上,两个文件都设置了Security方法:无安全性和文档程序集:不允许,页提取:不允许。其他项目是允许的。我使用standart ITextSharp方法从
pdf
中检索文本: for我在SodaPDF中打开了这个文件并将其
转换
为txt文件,但是这个文件也是空的(而第一个文件被
转换
为txt,没有任何问题)。是否可以从C#或任何其他应用程序读取此文件中的文
浏览 4
提问于2014-05-21
得票数 0
回答已采纳
2
回答
如何将
PDF
转换
为JSON/EXCEL/
WORD
文件?
、
、
、
、
我需要从
pdf
文件中获取数据及其标头,以便进一步与DB数据进行比较 我试着使用pdfbox,google vision
ocr
,itext,但是所有的库都没有结构和头文件。示例: Date\nNumber\nStatus\n12\12\2020\n442334\delivered 我会尝试将
pdf
转换
为excel/
word
并从中获取数据,但为了实现这一点,我需要读取
pdf
并将数据写入excel/
word
。
浏览 54
提问于2020-04-17
得票数 0
回答已采纳
3
回答
有没有办法制作一个无法
转换
成
word
的
pdf
?
、
、
、
我们有一个生成
PDF
文件的系统。但是任何人都可以使用在线
pdf
to
word
转换
器来
转换
这些文件。在Yii或PHP中有什么选项可以阻止这种情况吗?
浏览 0
提问于2016-03-07
得票数 0
4
回答
以最快的方式批量/批量地将
PDF
转换
成可搜索的文本?(千)
、
、
、
我想知道是否有人有任何软件建议,以大规模
OCR
大约1000个
PDF
文件。可以;
转换
为文本、
word
文档或使
PDF
可搜索。我只需要一种高效的方法来分析
转换
后的文件。编辑:我基本上是在寻找一种方法,将5000~扫描的
PDF
转换
为可搜索的
PDF
,甚至是文本文件。
浏览 0
提问于2019-05-06
得票数 0
1
回答
无法使用TIKA提取文本
、
、
我们有一个
pdf
,这是一个手写的文件,并使用扫描仪
转换
为
pdf
。我正在使用TIKA 1.13,但无法从这样的file.After解析中提取文本,我只能得到"\n\n“作为文本。
浏览 21
提问于2016-09-16
得票数 1
1
回答
如何将所有图像
转换
为
Word
文档中的文本?
、
这些图片中有文字,我找不到一个工具,可以很容易地做到这一点,最好没有任何安装。
浏览 0
提问于2011-02-17
得票数 0
4
回答
哪些工具可以在Mac上将扫描过的纸张文件
转换
成可搜索的文本
pdf
?
、
、
、
、
我需要将扫描文档
转换
为mac上可搜索的文本
PDF
。它不需要免费,只需要比Acrobat更低的成本。
浏览 0
提问于2015-03-02
得票数 2
回答已采纳
1
回答
Adobe Acrobat/Python
PDF
输出不同
、
、
、
、
我注意到,当我使用
OCR
将扫描的
PDF
文档
转换
为文本时,根据我提取数据的方式,我会得到非常不同的输出。在上面的照片中-你可以看到一段
PDF
,它已经被
OCR
‘
转换
成相当高质量的文本。如果我在Adobe中选择它并将其复制到
word
或txt文档中,它会粘贴得非常好。谢谢! 问候你,马诺
浏览 12
提问于2018-02-23
得票数 1
回答已采纳
2
回答
PDF
和文本层
、
、
根据这个站点的,当添加一个文本层时,
PDF
是可搜索的。如果扫描仪在图像上执行
OCR
,它是否将文本存储在“文本层”中?或者是"XMP“字段
浏览 2
提问于2012-07-10
得票数 15
回答已采纳
1
回答
如何使用C#从扫描的
PDF
文档中提取文本?
、
、
、
该应用程序正在寻找
PDF
文档中的特定模式,并根据该模式将其上传到任何需要的位置。它与
PDF
没有任何问题,
PDF
是用数字方式编写的(
Word
、Nodepad等)。然后
转换
成
PDF
格式。我找到了多个第三方库,它们可以处理这个任务-> iText7、LeadTools、ABBYY、WhatsMate
PDF
到text API、SautinSoft .NET Offce Edition。我有一个想法,把
PDF
转换
成任何图像类型(jpg,
浏览 18
提问于2021-01-05
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券