腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
R
提取
PDF
中
每个
单词
的
字体
r
、
pdf
、
fonts
我需要
提取
每个
单词
的
字体
类型。我一直在尝试
提取
pdf
的
内容,并
使用
它们所
使用
的
字体
对它们进行分类。谁能帮帮我。提前感谢 我尝试
使用
pdftool,但
pdf
_font函数只提供
字体
类型。但我希望它与
单词
相对应。
pdf
_fonts("D:\\12342903.
pdf
&q
浏览 30
提问于2019-06-07
得票数 2
1
回答
使用
iText从
pdf
文件
中
获取文本
字体
itext
我一直在尝试
提取
属性(
字体
、
字体
大小、颜色等)。
使用
iText库对
pdf
文档
中
的
每个
单词
进行编码。我可以从
每个
页面
提取
文本,但不能
提取
属性。此外,我也没有找到任何可以提供相同功能
的
东西。请帮帮我。
浏览 0
提问于2012-02-06
得票数 1
回答已采纳
1
回答
我
如何
获得
字体
文件或PDFont文件
中
的
每个
单词
?
java
、
pdfbox
有没有办法获得
字体
的
每一个字
的
PDF
文件
使用
PDFBox?我已经尝试过了,但它只列出了该页面上
使用
的
所有
字体
。PDDocument pdfDocument = PDDocument.load(new File("xxofd.
pdf
"));
浏览 77
提问于2021-09-09
得票数 0
回答已采纳
1
回答
解析
PDF
文件并输出单个字符位置
parsing
、
pdf
、
svg
、
pdftotext
我试图通过识别
每个
字符和
每个
单词
的
内容和位置,从(数字)
PDF
中
提取
文本信息。我试过什么虽然上述方法适用于大多数“基本”
字体
,但有两种(主要)情况下这种方法失败: 在脚本
字体
(或一些极端斜体
字体
)<
浏览 1
提问于2019-05-16
得票数 0
回答已采纳
2
回答
如何
使用
itext读取
pdf
?
java
、
pdf
、
itext
现在我有错误了:2018年5月8日12:27:47下午toUnicode 和空洞
的
结果
浏览 0
提问于2018-05-08
得票数 0
回答已采纳
1
回答
如何
计算锁定
pdf
中
的
特定字数
pdf
、
word-count
如何
计算锁定
的
pdf
文件
中
的
特定字数?我用谷歌搜索了很久,还是没有找到解决方案。
浏览 0
提问于2013-03-24
得票数 1
1
回答
在python
中
读取基于联机
的
pdf
文件,并将数据分离到列-OSError
中
python
我与python有一个问题,在获得一个基于网络
的
pdf
文件到python。下面是我写
的
代码import pandas as pdreader = PdfReader(
r
"http://www.meteo.gov.lk/images/mergepdf/20221004MERGED.
pdf
")for page
浏览 10
提问于2022-10-05
得票数 -2
1
回答
如何
在
PDF
中找到一个
单词
的
页码和
字体
大小?
java
、
pdf
、
itext
我想在
PDF
中
搜索一个
单词
,我想要它停留在哪个页面,以及由java代码显示
单词
的
字体
大小。我
使用
的
是itext,所以可以
使用
itext吗?如果不是,有什么库可以用于此目的?
浏览 2
提问于2016-06-16
得票数 0
1
回答
Microsoft Word
中
哈希值
的
不同结果
file
、
hash
、
ms-word
我有一个Microsoft文档,我正在尝试获取它
的
散列值,问题是当我再次保存该文档时,它将产生不同
的
散列值。示例: 我
的
文档
的
第一个哈希值是"abc",当我打开该文档并保存它时,不作任何更改,然后再次尝试获取它
的
散列值,它将生成"def"哈希值。是否有任何方法在我
的
文档中产生相同
的
散列值?不做任何改动就把它保存起来?因为我正在创建重复
的
文件查找程序,这是我遇到
的
问题,我无法解决。
浏览 0
提问于2014-01-13
得票数 0
2
回答
如何
从文本字段中
提取
特定字段
python-3.x
我正在尝试从文本字段中
提取
经验域。但转换
PDF
为文本文件后,出现了几个额外
的
行,因为我不能正确
提取
数据。下面是转换后生成
的
文本字段。有人能告诉我
如何
从这个文件中
提取
经验域吗?下面的代码可以很好地处理那些没有空行
的
文本文件。with open('E:/cvparser/sampath.txt', '
r
', encoding = 'utf-8') as f:
浏览 0
提问于2019-07-23
得票数 1
1
回答
iText
PDF
错误字符转换
java
、
pdf
、
itext
我有一份
PDF
文件要读,这让我很崩溃。现在问题来了。当我将粘贴文本从
pdf
复制到记事本时,我会得到一堆难以理解
的
字符.经过大量
的
研究,我找到了答案。
pdf
包含所有
字体
,但不包含对应
的
cmap,以允许输出文本。我找到了,它引用了旧版本
的
itext(我
使用
的
是5.5.5版本)。如果可能的话,我想要实
浏览 19
提问于2015-03-27
得票数 2
回答已采纳
1
回答
如何
使用
pdfbox获得
pdf
的
最大fontsize
object
、
font-size
、
pdfbox
、
pdf-extraction
我
使用
pdfbox从
pdf
中
提取
一些信息,但是
如何
提取
每个
对象
的
信息?如果其中一个包含流,我
如何
解码该流以显示? 我能从一个
pdf
框
中
得到最大
字体
大小
的
吗?我想如果我能得到
每个
对象
的
字体
大小并对它们进行排序,那么我就得到了具有最大
字体
大小
的
对象?
浏览 8
提问于2015-03-23
得票数 1
2
回答
PDF
阅读器-查找
单词
的
算法
algorithm
、
pdf
当输入Ctrl+F时,
pdf
阅读器
如何
找到特定
的
单词
/表达式? 有比线性搜索更快
的
算法来执行这样
的
任务吗?
浏览 3
提问于2017-10-14
得票数 1
回答已采纳
1
回答
如何
使用
jTessBoxEditor提高文本识别的准确性?
python
、
ocr
、
tesseract
、
python-tesseract
、
pdf-extraction
我一直在尝试从扫描
的
pdf
文档中
提取
数据。我已经将
pdf
文件转换为jpeg文件(我在下面附上了图像链接),裁剪具有不同
字体
的
单词
和数字,合并为tiff文件,并
使用
jTessBoxEditor训练
字体
生成新
的
语言,我
使用
该语言在Tesseract-OCR中
提取
文件
中
的
数据。但我无法
提取
准确
的
数据。tesserac
浏览 21
提问于2020-08-31
得票数 1
5
回答
使用
一些实用程序或脚本将嵌入
的
PDF
字体
提取
到外部ttf文件
中
pdf
、
fonts
、
scripting
、
flash
、
extract
是否可以
使用
某些实用程序或脚本将嵌入到
PDF
文件
中
的
字体
提取
到外部ttf文件? 如果系统
中
存在嵌入(或未嵌入)到
PDF
文件
的
字体
。
使用
pdf
2swf和从swftools
提取
工具,我能够确定在
PDF
文件中
使用
的
字体
的
名称。然后我可以在运行时编译相应
的
系统<
浏览 10
提问于2009-12-17
得票数 2
回答已采纳
1
回答
从
PDF
的
每一页中
提取
标题?
pdf
我面临
的
第一个挑战是
如何
提取
中
每个
页面的标题。这
PDF
是每一篇论文
的
第一页
的
汇编。因此,每一页都有一个论文标题,与传统
的
学者论文略有不同。有人知道这件事吗?
浏览 15
提问于2013-08-06
得票数 2
回答已采纳
1
回答
我需要
使用
itext7或itextsharp从
pdf
文件中
提取
文本,并在
使用
粗体
字体
的
所有
单词
周围放置html标记以表示粗体。
itext
、
itext7
、
text-extraction
我
使用
的
是iText7,我想从
pdf
中
提取
所有文本,并将html标记为粗体(.)围绕
使用
粗体
字体
的
所有
单词
并将其保存在文本文件
中
。有什么指示吗?我能够独立
提取
文本,也能
提取
所有的粗体
单词
,但不能相互关联。下面是我用于
提取
文本
的
代码片段: PdfDocument MyDocument = new PdfDocument(new PdfReader(
浏览 4
提问于2020-07-17
得票数 3
1
回答
基于Python
中
的
头文本
提取
PDF
页面
python
、
pdf
、
ocr
、
finance
、
pypdf
我有一份“亚洲涂料有限公司”
的
年度报告。我想
提取
“综合资产负债表页”(这是
PDF
中
的
216页)。我
使用
了PyPDF并创建了一个函数,该函数
提取
所有文本,搜索关键术语“综合资产负债表”,并返回找到它
的
页码。但是,我希望我
的
功能能够识别包含‘综合资产负债表’这个词
的
页面为一个头和所需
的
表(也就是这个
pdf
中
的
216页)。这是我
的
代码
浏览 10
提问于2022-01-21
得票数 2
1
回答
将特殊字符字节从
PDF
读取到unichar或NSString
ios
、
pdf
、
text
、
nsstring
、
ligature
首先,这个解决方案不适用于结扎:因此,为了简单起见,让我们说我有这个字符:最后,我想将它转换为这个( "fi“结扎
的<
浏览 4
提问于2014-07-18
得票数 0
回答已采纳
1
回答
将
PDF
文档
中
的
文本
提取
为单独
的
新文件名文档
pdf
、
c++
、
c#
、
c
我有大量
的
PDF
文件(>2k文件),它们看起来类似于这个(
PDF
样本图像)
提取
将类似于以下内容: samplepdf_A.
pdf
-缩进A
中
的
文本(lorem ipsum)
浏览 0
提问于2022-05-09
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
来自Dropbox的OCR最佳实践-利用机器学习和计算机视觉打造一个 OCR 解决方案
手把手教你如何用 Python从PDF 文件中导出数据
如何在word、PPT、Excel以及PDF中添加带√的方框?
Python自然语言处理:使用SpaCycle库进行标记化、词干提取和词形还原
手把手教你如何用Python从PDF文件中导出数据
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券