腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
python-3
中
分析
PDF
中
的
特定
文本
字符串
?
python
、
python-3.x
、
text
、
nltk
、
text-classification
我正在编写一些代码来标识
PDF
文档
中
的
命名实体(NER)。我当前
的
代码分三个步骤工作。首先,它将
PDF
转换为
文本
字符串
。其次,它将
文本
标记化。第三,对
文本
进行分类。现在,此代码对
文本
字符串
中
的
每个标记(单词)进行分类。但是,我希望程序只对
文本
的
某一部分进行分类。该部分始终位于单词"Body"和"Cl
浏览 12
提问于2020-01-28
得票数 0
1
回答
转换
PDF
文件为XML文件,最好使用ITextSharp
c#
、
xml
、
pdf
、
itext
我有一个
PDF
文档,我需要从中读取数据。我发现,当我将上述
PDF
转换为XML文档时,可以从其中读取方便
的
标记,因此我需要一种方法来在代码中将我
的
文件转换为xml,这样我就可以使用映射文件将数据内容读取到数据库
中
。
浏览 2
提问于2012-06-22
得票数 3
1
回答
pdf
的
x,y窗口内
的
OCR
pdf
、
ocr
我需要找到一个开放源码或基于linux
的
实用程序,它允许我在设置文件
中
设置x,y坐标。然后我想按顺序打开
pdf
,在文件
中
查找名字、姓氏和账号,并用由姓氏和文件号组成
的
文件名保存文件。
浏览 0
提问于2011-01-08
得票数 3
1
回答
字符串
拆分,用于检测
PDF
中
的
文本
页更改
vb.net
、
pdf
、
split
、
itext
我试图
分析
一个
PDF
文档与itextsharp library...the
的
最终意图是阅读所有的
文本
,并分割它
的
每一行。拆分函数工作良好,我获得了一个
字符串
数组,<e
浏览 12
提问于2021-09-16
得票数 0
回答已采纳
1
回答
如
何在
iTextSharp
中
识别
PDF
的
一部分?
c#
、
loops
、
pdf
、
itextsharp
、
sections
我想知道是否有可能通过部分(页眉、正文、页脚等)检索
PDF
中
的
文本
。我可以获取
文本
及其
特定
坐标,但我不想为这些部分定义自己
的
x和y坐标。我想知道是否有一种更有活力
的
方式来解决这个问题。也许在XrefObjects
中
循环。任何帮助都将不胜感激。在进阶时谢谢。
浏览 0
提问于2016-03-02
得票数 0
2
回答
在C#
中
从
PDF
中提取格式信息
c#
、
.net
我需要制定一个程序,可以
分析
和理解在某些
PDF
中
的
特定
结构和格式
的
内容
的
上下文和语义关系。下面是一个示例,其中显示了这种
PDF
的
一段内容: 因此,我需要一个
PDF
阅读库,它不仅可以提取
文本
,还可以提取
PDF
中
的
流星数据,
如
字体大小、字体样式(粗体、塔利)、背景色、表及其子元素、表格单元格背景颜色是否有任何免费
的</
浏览 11
提问于2016-11-18
得票数 4
回答已采纳
1
回答
在
字符串
中
查找第一次约会
php
、
date-parsing
我有一个
pdf
文件,我
分析
了使用“
pdf
解析器”插件。从页面
文本
中
,我需要在
特定
字符串
(搜索
字符串
)之后找到第一次约会。我可以找到搜索
字符串
和我使用
的
日期提取。date_parse($string) 它提取日期,月份
的
罚款,但我认为由于大
字符串
(有更多
的
日期,数字),它没有填充正确
的
年份,它提供了一个随机数,甚至没有出现在文档
中
浏览 2
提问于2018-01-04
得票数 1
回答已采纳
1
回答
如何使用VB.NET从带有标识-H字体
的
PDF
文件中提取
文本
vb.net
、
pdf
我有
PDF
文件。我
的
问题是如何使用VB.Net从
pdf
文件
中
读取标识-H
文本
。下面是我
的
代码: Dim sbPDFText As New Stri
浏览 3
提问于2014-08-15
得票数 1
回答已采纳
2
回答
Java
文本
提取
java
、
pdfbox
我一直使用pdfbox从
PDF
中提取
文本
信息。我成功地
分析
了
文本
的
所有属性,
如
字号、字体、大小、位置等。例句:“你好吗?”被解析为“you”和"u“(两个单独
的
字符串
)
浏览 2
提问于2010-07-28
得票数 5
3
回答
如
何在
pdf
.js
中
从用户选择
中
检索
文本
?
javascript
、
pdf
、
pdf.js
这个问题是
特定
于
pdf
.js,一个基于javascript
的
pdf
渲染器。我正在构建一个自定义版本,在这里我需要提取我在
pdf
中选择
的
文本
。在其他文章
中
,您可以从一个页面或整个
pdf
文档(
如
one )
中
获取
文本
,但我希望获取用户选择
的
特定
文本
,并警告它或在控制台中打印它。
浏览 11
提问于2018-02-23
得票数 8
回答已采纳
1
回答
当我尝试读取
PDF
时,PDFBox读取空
字符串
c#
、
.net
、
parsing
、
pdf
、
pdfbox
我正在尝试使用
pdf
box从文件
中
读取
文本
,以便在文件系统
中
对其进行排序。我正在使用C#。我可以从互联网上读取示例
pdf
,但出于某种原因,我试图读取
的
pdf
只返回一个没有实际字符
的
字符串
。string[] args) string fileName = @"C:\Users\Development\Desktop\purchaseOrder.
pdf
doc.clo
浏览 5
提问于2018-08-09
得票数 0
1
回答
PDF
批注突出显示和搜索
文本
ios
、
objective-c
、
iphone
如
何在
ios
中
处理
PDF
文档?如何才能做到这一点?
浏览 2
提问于2015-08-25
得票数 0
1
回答
Elasticsearch标准令牌器不处理"a.b“条目?
elasticsearch
、
tokenize
我使用
的
是ElasticSearch 0.90.7,所以我认为
的
答案不适用(不过我看到
的
是类似的)。}}'curl -XPUT "http://localhost:9200/testindex/article/1" -d'{}' curl -XPUT "http://l
浏览 4
提问于2014-01-17
得票数 2
回答已采纳
1
回答
iTextSharp提取每个字符和getRectangle
itextsharp
、
pdf-extraction
我想
分析
一个完整
的
PDF
字符
的
字符,并能够得到ASCII值,字体和该字符
的
矩形上
的
PDF
文档,我可以使用以后保存为一个位图。我尝试使用PdfTextExtractor.GetTextFromPage,但这使
PDF
中
的
整个
文本
成为
字符串
。
浏览 2
提问于2016-01-21
得票数 0
回答已采纳
2
回答
可选择
文本
的
PDF
查看器
pdf
在Ubuntu源代码中有一个很好
的
PDF
查看器可以让我选择和复制
文本
吗?Okular是一个很好
的
应用程序,因为它拥有比Document更多
的
工具。我看到repos有Okular,但我想避免安装它附带
的
所有KDE依赖项。然而,我真正需要做
的
就是从
pdf
中选择和复制
文本
。有什么能让我这么做?
浏览 0
提问于2015-12-15
得票数 7
回答已采纳
1
回答
PDF
Store
文本
如何
pdf
、
pdf-generation
、
text-extraction
我试图更好地理解
PDF
是如何存储
文本
的
。一般来说,当从MS Word (在我
的
例子
中
是SQL Server Reporting Services)之类
的
应用程序创建
PDF
时,
PDF
如何存储
文本
?我希望在这种
特定
场景
中
,生成
的
文档不会像从图像创建原始
PDF
文档那样经过OCR处理。 为了获得更多
的
细节,我正在尝试了解
PDF
的
浏览 2
提问于2013-03-26
得票数 9
回答已采纳
3
回答
有没有用objective-c或c编写
的
PDF
解析器?
iphone
、
objective-c
、
c
、
pdf
我正在写一个
pdf
阅读器iPhone应用程序。我现在要做
的
是在
pdf
文件
中
搜索
文本
,并突出显示搜索到
的
文本
。因此,我需要一个能够检测
文本
在什么位置
的
库。此外,我希望这个库能够处理unicode和中文字符。我试过xpdf,但它是用c++写
的</em
浏览 1
提问于2011-01-03
得票数 4
1
回答
我们应该使用什么python库来从
PDF
中提取包含复杂标题
的
表?
python
、
pdf
、
ocr
、
data-extraction
、
tabula
我尝试使用很多库来从
PDF
中提取表格,比如: camelot,tabula,PDFPlumber,PDFTabExtract…但是他们不会给出一个好
的
结果。主要
的
问题是头部是复杂
的
格式,而我有不同格式
的
头部。 使用camelot,我不能有一个适用于我
PDF
中所有页面的脚本。使用Tabula时,当表格有一个旋转
的
文本
标题时,我得到了一个令人困惑
的
数据帧。使用PDFPlumber时,我遇到了流表
的
问题(它只适用于晶格表)
浏览 13
提问于2019-06-10
得票数 0
8
回答
PDF
中
的
Copy+pasting
文本
导致垃圾
pdf
、
pdfbox
它从
PDF
文件中提取纯
文本
。有几个
PDF
文件无法正确提取。提取器(PDFBox库)返回如下
字符串
: 我是检查每个文件,使这个提取
的
问题,所有这些文件
的
文本
也不能复制粘贴从
PDF
(Adobe和FoxIt阅读器)。在这个阅读器
浏览 5
提问于2010-05-28
得票数 15
1
回答
在注释
的
PDF
文件
中
搜索
文本
字符串
command-line
、
18.04
、
software-recommendation
、
pdf
、
pdfgrep
需要搜索
文本
字符串
不仅在
PDF
文件正文中,而且在注释
中
,我已经在Ubuntu18.04LTS上安装了Acrobat。它
的
搜索功能正常工作,但我想知道是否还有其他方法来完成这个任务(pdfgrep?)
浏览 0
提问于2018-12-18
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
tradestation指标策略帮助摘录2
手把手教你如何用 Python从PDF 文件中导出数据
手把手教你如何用Python从PDF文件中导出数据
word怎么转excel?教你几招
Python基础教程21.1 问题描述
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券