腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
7
回答
PDF
转
文本
工具
或
Java
库
?
java
、
pdf
我需要将
PDF
转换为普通
文本
(这是我们县登记处的“投票声明”)。这些文件很大(2000页左右),并且主要包含表格。一旦我将它转换成
文本
,然后我将使用我正在编写的程序来解析它,并将数据放入数据
库
中。我已经尝试过Adobe Reader中的“另存为
文本
”功能,但它并不像我希望的那样精确,特别是在将表格数据分隔为CSV时。那么,有什么推荐的
工具
或
Java
库
可以做到这一点吗?
浏览 0
提问于2009-02-24
得票数 3
2
回答
从
PDF
中提取
文本
: PDFLib和
PDF
对
pdf
2xml
java
、
php
、
pdf
、
text-extraction
我正在寻找一个
库
(如果可能的话,在
Java
或
PHP中可用),以便从
PDF
中提取
文本
。有许多可用的软件,包括:你会选择哪种
工具
?你觉得他们怎么样? 非常感谢您的帮助!
浏览 4
提问于2010-09-21
得票数 3
回答已采纳
1
回答
Clojure -将
PDF
/Doc文件提取为简单
文本
的最佳方法
file-upload
、
clojure
我正在寻找一个简单的解决方案来解析每个上传到我的应用程序中的文件,并转换成简单的
文本
。我的web应用程序运行在Clojure上,并且更喜欢API来解析各种文件类型。
浏览 2
提问于2014-12-04
得票数 3
回答已采纳
5
回答
如何使用任何编程语言直接搜索
PDF
中的字符串
search
、
pdf
是否可以使用任何编程语言在
PDF
中搜索特定字符串,而无需将其转换为
文本
或
文档文件。我想直接搜索一个字符串而不是转换它,我试图将它转换为
文本
,然后搜索该字符串,但它给了我错误的结果。 谢谢!金姆
浏览 1
提问于2011-04-29
得票数 0
4
回答
使用
Java
或
.NET
库
对来自ColdFusion的
PDF
进行光学字符识别?
java
、
pdf
、
coldfusion
、
ocr
我希望采取一个
PDF
,并从中提取任何
文本
。然后,我想使用ColdFusion的available Verity搜索来搜索内容。任何见解
或
经验都将非常感谢……谢谢! 编辑:根据我对CF的了解,当
文本
嵌入
到
PDF
中时,索引
PDF
文件就能正常工作。我要处理的
PDF</e
浏览 1
提问于2009-01-30
得票数 1
回答已采纳
10
回答
以编程方式识别
PDF
文件中的扫描
文本
pdf
、
ocr
我有一个
PDF
文件,其中包含我们需要导入
到
数据
库
中的数据。这些文件似乎是
pdf
扫描打印的字母数字
文本
。看起来是10点。新罗马时代。 是否有任何
工具
或
组件可以让我识别和解析这个
文本
?
浏览 8
提问于2008-10-01
得票数 31
回答已采纳
7
回答
从
PDF
文件中提取
文本
c#
、
java
、
pdf
我需要从
PDF
文件中提取
文本
。该
文本
可能是表格格式,它将用于外部方和我们的系统之间的数据自动传输。 我在这里发现了一些想法,但我认为这家伙更多的是在谈论一次性的情况,我说的更像是日常生活:
浏览 18
提问于2009-08-14
得票数 7
回答已采纳
3
回答
c#从
PDF
读取行
c#
、
pdf
、
.net-2.0
我希望能够从
pdf
中逐行读取,将其与字符串(文件名)进行比较,如果该字符串出现在该行中,则将该行写入列表。到目前为止,我快速浏览了ITextSharp和PDFSharp,但它们似乎不是适合这项工作的
工具
,因为它们最关注的是更改和打印
pdf
。有没有人知道另一种从
pdf
中读行的方法,或者我应该继续尝试使用ITextSharp & PDFSharp?
浏览 13
提问于2009-01-20
得票数 6
回答已采纳
2
回答
从.
PDF
文件中提取数据
c#
我需要从.
PDF
文件中提取数据并将其加载到SQL2008中。谁能告诉我该怎么做??
浏览 5
提问于2011-02-07
得票数 3
5
回答
从
PDF
(google应用程序引擎)中提取
文本
java
、
google-app-engine
、
pdf
有没有免费的
Java
库
可以从
PDF
中提取
文本
,与Google应用程序引擎兼容?有没有其他方法可以从
PDF
中提取
文本
?
浏览 6
提问于2010-03-28
得票数 2
回答已采纳
1
回答
是否调整
PDF
页面大小并自动换行?
.net
、
pdf
、
itextsharp
、
pdfsharp
是否可以在不调整所有内容的情况下更改
PDF
文档中页面的大小?我希望所有的
文本
包装他们的内容根据新的大小。 我还没能找到任何关于这方面的信息。看到
PDF
库
在写入
文本
时是如何工作的,我猜这是不可能的,但也许有一种方法可以绕过它。我主要是寻找一些.Net代码,PDFSharp,iTextSharp,
PDF
Clown,
或
任何其他.Net
库
是好的,如果一些
工具
已经允许这一点,我也会感兴趣的。当然,一些
Java
iText代码
浏览 5
提问于2011-11-17
得票数 0
回答已采纳
3
回答
从矢量图形和
文本
服务器端
或
闪存生成
PDF
的最简单方法
flash
、
pdf-generation
、
server-side
、
vector-graphics
好吧,问题是:格列茨 back2dos
浏览 3
提问于2009-08-06
得票数 1
回答已采纳
3
回答
如何使用任何
Java
库
使现有的
PDF
文本
可搜索?用OCR
java
、
ocr
、
pdfbox
有
java
库
吗?如何使用任何
java
库
生成可搜索的
文本
?开源
或
付费。 如何使用PDFBox将OCR应用于
pdf
?如何使
pdf
文本
可编程搜索使用pdfbox,我搜索了很多。没有找到任何解决办法。
浏览 8
提问于2014-04-04
得票数 0
回答已采纳
1
回答
使用Tesseract的hOCR文件/确定是否有高质量的
文本
层
tesseract
、
hocr
我有一个Tesseract 4.0设置,我们正在使用一个LSTM模型的OCR;传入的扫描
PDF
被解构成单独的300dpi上采样的PNG,然后去偏斜和OCR‘,然后重新组装成一个
PDF
与
文本
层,同时也保存每个页面有时,我们收到的
PDF
已经被专业地转录了
文本
层,在这些层上运行Tesseract会导致准确性的损失。1)有没有办法确定
PDF
是否已有
文本
层并确定该
文本
浏览 11
提问于2018-02-14
得票数 2
1
回答
我需要关于在网络上显示(和/
或
转换)
pdf
文件的建议
java
、
html
、
pdf
、
struts-1
拥有免费账户的用户可以上传文档,付费客户随后可以搜索并查看
或
下载这些文档。上传者只能查看他们拥有的文档,而付费客户可以查看任何内容。目前我们只支持Word文档( .doc
或
.docx)和纯
文本
。我们使用JODConverter
库
在Word和html之间进行转换;html是存储在数据
库
中的内容和显示给用户的内容。 我们也想接受
PDF
,但我不确定显示
PDF
或
将其转换为html的最佳方式是什么。我已经看到了使用Google docs进行动态转换的建议,但考虑
浏览 2
提问于2012-03-24
得票数 3
2
回答
在基于struts的web应用中生成
pdf
的最佳方式是什么?
struts
、
pdf-generation
我有生成
PDF
的要求,这也是在各种格式。 生成包含大量对齐的
PDF
的最佳方法是什么?
浏览 1
提问于2013-06-24
得票数 2
回答已采纳
1
回答
检查文档中的
文本
adobe
、
livecycle
、
livecycle-designer
我有一个
PDF
文档在输入,我必须检查文件是否包含
文本
。你能帮帮我吗? 谢谢。
浏览 0
提问于2014-01-02
得票数 0
回答已采纳
2
回答
用于从
pdf
中提取单词坐标的
库
/
工具
java
、
pdf
、
coordinates
、
highlighting
我正在寻找一个(最好是
Java
-)
库
或
命令行
工具
来从pdfs中提取单词坐标。input-
pdf
包含
文本
或
图像,后面带有ocr-text。我的用例: 在
Java
web应用程序中,我想用它来突出显示,而不需要额外的软件(例如Adobe Reader等)。相反,我希望将匹配的页面转换为图像,并将其呈现在网页中。
浏览 0
提问于2010-12-06
得票数 1
8
回答
在servlet中动态生成
PDF
文件?
java
、
jsp
、
servlets
、
pdf-generation
有没有办法在不接收
文本
和图像的情况下动态创建
PDF
?
浏览 0
提问于2009-08-19
得票数 4
回答已采纳
3
回答
PDF
文档操作
pdf
、
pdf-manipulation
我有几个具有以下属性的
PDF
:“文档”中的每一页都有诸如“第3页(共26页)”之类的
文本
。我希望能够自动识别
PDF
中每个“文档”的第一页和最后一页(注意:这与
PDF
的第一页和最后一页不同,因为每个
PDF
可能包含几个“文档”),并将这些文档提取到新的
PDF
中,以便以后打印和存档。我不确定我能带来什么
工具
来解决这个问题,也不确定有什么
库
可以解决这个问题。 有什么建议吗?最好是免费的,可
浏览 4
提问于2009-04-08
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券