使用PHP提取PDF元数据字段_使用PHP为ADA编辑PDF中的元数据_使用PHP从pdf中提取内容 - 腾讯云开发者社区

php、forms、class、pdf

我们正在开发基于PHP和MySQL的应用程序。我们分发一份PDF格式的登记表。填写表格后，用户将上传PDF表格到我们的应用程序注册。我们希望从PHP中提取PDF格式的注册数据，并将这些数据保存到数据库中。有人能指出PHP类从PDF表单中提取字段值吗？

浏览 3提问于2011-09-14得票数 10

2回答

使用PHP提取PDF元数据字段

php、pdf、metadata

我在我的共享主机网络服务器上有一系列的PDF文件，我正在为它们写一个PHP脚本，以便在屏幕上对它们进行分类。我已经在PDF文件中添加了元数据--文档标题、作者和主题。文件名由作者和标题组成，因此我可以从中构造目录文本。但是，我也想显示“Subject”元数据字段的内容。因为我使用的是共享主机，所以我无法安装任何额外的PHP扩展。他们有PDFLib的免费版本，但不包括任何加载PDF文件或提取元数据的功能。这是目前为止仅显示文件名列表的脚本... function catalogue($folder){ $files = preg_grep('/^([^.])/', sc

浏览 82提问于2020-10-13得票数 2

回答已采纳

1回答

是否可以使用PHP从MS office文件和/或PDF中提取元信息？

php、pdf、metadata、ms-office

我有文件..。 .doc .docx .xls .xlsx and .pdf 在我的服务器上。是否可以(如果是，如何)使用PHP从这些文件中提取元数据？我在找像作者，关键词，标题等等的东西. 在office文档中，它是与文档属性一起存储的信息(2003年为File...Properties...Summary，2007年为Prepare...Properties )。在PDF中，它的信息可以在文档属性中找到。这是Windows服务器上的而不是。

浏览 0提问于2010-01-19得票数 6

回答已采纳

2回答

获取PDF中文本字段的尺寸和坐标

php、pdf

是否可以使用PHP或linux库获取PDF文档中所有文本字段的X/Y坐标和高度/宽度？我使用PDFTK来提取PDF中的所有文本字段，但它没有给我坐标和/或尺寸信息。如果没有，是否可以遍历PDF文档并计算文本字段的x、y和高度/宽度数据？

浏览 1提问于2011-02-06得票数 6

1回答

Solr元数据索引

solr、solr-cell

我是Solr的新手，我正在通过存储在数据库中的URL从二进制文件中提取元数据。我想知道哪些字段可用于从PDF(将启动为column=“”)索引。我还想知道如何在Solr中创建自定义字段。如何实现并映射到来自文件的特定元数据。如果有人有一个代码片段，可以告诉我，这将是非常感谢。提前谢谢你。

浏览 7提问于2013-03-14得票数 0

2回答

GSA源-已发布的元数据将被忽略

metadata、google-search-appliance

我们正在张贴“元数据和网址”的一些PDF的GSA馈送，这是无法通过正常的爬行。除了PDF的URL，我们还提交了额外的元数据。提要成功完成，PDF被添加到GSA索引(在索引诊断和结果XML中可用)。但是发布的元数据会被忽略，只有GSA本身通过抓取文档(作者等)提取的元数据才会被考虑。我们远远低于许可限制(甚至不到50% )。摘要记录如下所示： <record lock="true" action="add" mimetype="application/pdf" crawl-once="true" url="<

浏览 0提问于2015-04-10得票数 0

1回答

使用PDF元数据标识使用C#的文件

c#、asp.net、pdf、itext

方案-我有10家银行的声明，在pdf文件。它们都有不同的格式。每个文件都有一个相应的解析器来提取数据。现在，我们根据文件名将文件提供给解析器。但是现在源没有提供正确的文件名。因此，我们无法将文件路由到相应的解析器。我的怀疑，是每个pdf文件都有元数据，还是它是可选的？我可以使用元数据来区分PDF文件来将文件路由到相应的解析器。我使用下面的代码从我的文件中提取元数据，它看起来非常混乱。 5] 自动化这个过程的最佳方法是什么。提前谢谢。

浏览 1提问于2018-07-18得票数 0

1回答

PDFBox图像元数据

java、pdf、pdfbox

对于一个学校项目，我正在为PDF的图像提取器工作，为此，我使用了PDFBox库。我现在面临的问题是如何获取元数据，到目前为止，我只能从PDF本身获取元数据，而不是从PDF中的图像中获取元数据。可以用PDFBox从PDF中的所有图像中获取元数据吗？如果是的话，有人能给我举个例子吗？到目前为止，我发现的任何例子都是针对PDF本身的元数据，而不是针对图像。我还听说，当创建PDF时，它会从内部的对象中删除任何元数据，这是真的吗？希望堆叠溢出的人能帮我。

浏览 11提问于2011-04-01得票数 0

1回答

如何使用IBM Watson Explorer提取PDF URL的关键字属性？

pdf、keyword、ibm-watson、extraction

我想从PDF链接中提取PDF的关键字值。我正在爬行一个页面，其中包含一些PDF的链接。我想建立一个虚拟文档，在那里我必须将这些PDF入队。我不想抓取这些PDF的内容，但我只想从这些PDF中提取关键字。当我使用inspect source打开这些PDF链接时，它确实有一个关键字字段。但是它没有任何关键字的值。它看起来是这样的： <div class="row"> <span data-l10n-id="document_properties_keywords">Keywords:</span> <p id="k

浏览 17提问于2017-02-24得票数 2

1回答

Solr Cloud:如何将文档(pdf，office)元数据禁用为字段

solr、solrj、solrcloud、solr-schema

我对solr很陌生，在solr云模式下使用Solr 7.3.1，并尝试在Solr中索引pdf、office文档，在solr中使用内容提取。我创建了一个集合 bin\solr create -c tsindex -s 2 -rf 2 在SolrJ中，我的代码看起来像 public static void main(String[] args) { System.out.println("Solr Indexer"); final String solrUrl = "http://localhost:8983/solr/tsindex/";

浏览 0提问于2018-07-24得票数 0

回答已采纳

4回答

如何对JPG、TIFF和BMP等图像进行数字签名

digital-signature

我希望对我的图像集合进行数字签名，其中包括JPG，TIFF，BMP，SWf，Fla文件。我的问题是如何对这些图像进行数字签名？如果我签名JPG或Tiff，签名是否会附加到这些文件上(就像在PDF或MS word等文档文件中发生的那样)？如果是，则将其存储在文件元数据字段中，还是保留在外部？是否可以提取签名数据？请注意，我希望签署这些图像单独，不想得到转换为任何其他格式，如PDF。此外，我不希望使用电子邮件客户端签署它。

浏览 0提问于2012-09-07得票数 3

2回答

将元数据添加到PDF中

ruby、pdf、pdf-generation、metadata、prawn

我需要将元数据添加到我使用创建的PDF中。这些元数据稍后可能会被提取.该元数据将包含内部文档编号和下游工具所需的其他信息。将元数据与PDF的每一页相关联是很方便的。声称，我可以将每页的私有数据存储在“页面-片段词典”中。第14.5节规定：页块字典(PDF1.3)可以用来保存私有的符合标准的产品数据.数据可以通过页面对象中的可选XObject条目(参见表30)或表单字典(参见表95)与页面或表单PieceInfo相关联。从PDF1.4开始，私有数据也可以通过文档目录中的PieceInfo条目与PDF文档相关联(见表28)。我怎么能用对虾做一本“活页字典”呢？我用的是虾0.12.0。

浏览 4提问于2013-08-28得票数 8

3回答

单选按钮上的三值逻辑PHP

php

我有一个表单，我从数据库中提取数据并填写所有字段，以便用户编辑现有记录。当前设置单选按钮如下所示： <input type="radio" id="statusActive" value="1" name="status" <?php if ($departmentData->thresholdActive == "1"){ echo 'checked'; }else{ echo ''; } ?>> Active 三进制逻辑的方法是什么：如果POST为

浏览 0提问于2014-01-09得票数 2

2回答

无需加载完整文档即可获取PDF XMP元数据

c#、pdf、xmp

使用iTextSharp或iText等库，您可以通过PdfReader从PDF文档中提取元数据： using (var reader = new PdfReader(pdfBytes)) { return reader.Metadata == null ? null : Encoding.UTF8.GetString(reader.Metadata); } 这些类型库完全解析PDF文档，然后才能添加元数据。在我的例子中，这将导致系统资源的高使用率，因为我们每秒收到许多请求，并且PDF很大。有没有一种方法可以从PDF中提取元数据，而不必先将其完全加载到内存中？

浏览 66提问于2021-11-08得票数 1

回答已采纳

1回答

Perl CAM:PDF摘录pdf语言

perl、pdf

我正在使用CAM::PDF提取PDF元数据。我还有最后一个要求，那就是获得PDF阅读语言。我需要知道它是英语、法语等。 my $pdf = CAM::PDF->new($filePath) || die "<br/>Error: $filePath"; my $info = $pdf->getValue($pdf->{trailer}->{Info}); 在转储$info变量时，我没有看到任何关于语言类型的其他信息。这不可能得到PDF语言吗？

浏览 0提问于2013-09-26得票数 0

回答已采纳

1回答

使用Python从Adobe签名(e签名)Acroform中提取表单字段数据

python-3.x、pdf、data-extraction、form-fields

我正在尝试从电子签名的PDF表单中提取字段名和相应的字段值，我将其上传到Adobe 并获得了电子签名。参见链接：。在上传PDF表单之前，它是Acroform，即包含表单字段的可编辑PDF。从Acroform中，我能够使用PDFTK提取字段名和字段值。此外，在Adobe上签署此表单之后，尽管PDF不再是可编辑的(字段被锁定)，我仍然可以使用PDFTK从PDF文档中提取数据。但是，在使用Adobe 请求和获取签名之后，我很难使用PDFTK和Python提取字段名和值。Adobe确实单独提供了表单字段，但我正在寻找一种解决方案，它使用Python (可以在.py脚本中包含诸如PDFTK之类的s

浏览 5提问于2021-06-07得票数 0

1回答

如何在MediaWiki网站上添加包含全文的PDF文件的引用

mediawiki、mediawiki-extensions

我有一个MediaWiki网站，有大约1000个额外的文件，是在网页目录是自动索引。我希望这些页面出现在MediaWiki索引中。我想出了两种方法：编写一个mediawiki插件，为每个目录创建一个页面，为每个项目创建一个项目符号列表，并提供一个下载对象的链接。编写一个python程序，它使用mediaWiki API为每个项目创建一个mediawiki页面，并包含完整的元数据。然后，我可以提取文本并将提取的文本放在页面上，以及MediaWiki预先格式化的文本。然而，其中一些文档相当长，因此我认为另一种方法是从PDF中提取文本并将其放入MediaWiki索引中。对于多页

浏览 2提问于2019-10-14得票数 0

1回答

Apache从哪里获得它的“计数”？

java、pdf、apache-tika

如果我有以下代码可读取PDF中的段落数(Office.PARAGRAPH_COUNT)： TikaInputStream pdfStream = TikaInputStream.get(new File("some-doc.pdf")); ContentHandler handler = new DefaultContentHandler(); Metadata pdfMeta = new Metadata(); ParseContext pc = new ParseContext(); Parser parser = TikaConfig.getDefaultConfig

浏览 1提问于2013-02-21得票数 0

回答已采纳

1回答

将隐藏(生物特征)数据附加到pdf上的数字签名

java、pdf、itext、digital-signature

我想知道是否有可能，使用iText (我用来签名的)或Java中的其他工具，在pdf上添加生物特征数据。我会解释得更清楚:当我在sign tablet上签名时，我会收集签名信息，比如钢笔压力、签名速度等。我想把这些信息(java中的变量)和pdf上的签名存储在一起。显然是隐藏的和加密的，比如签名信息。 pdf上有没有某种隐藏的数据字段，或者可以包含这种信息的东西？我认为将其存储在元数据字段中是不合适的，比如author等。

浏览 0提问于2013-06-06得票数 9

回答已采纳

1回答

云存储用于Firebase:下载所有文件的元数据

firebase-storage、angularfire2

问:有没有办法下载的元数据--所有的--云存储中的文件？参考:我看了一下AngularFire2的文档，虽然我可以下载一个文件的元数据，但我不知道如何为存储中的所有文件提取元数据。代码:我正在成功地为一个文件提取元数据。 Component.TS fileUrl: Observable<string>; fileCollection: Observable<any>; constructor(firestorage: AngularFireStorage) { const ref = firestorage.ref('nforms/').

浏览 0提问于2019-08-10得票数 0

回答已采纳

1回答

PDF生成器标识

parsing、pdf、signature

识别自动生成的PDF的生成器/检测模式的最佳方法是什么？我一直在使用Tabula和文本分析来提取文件识别后的数据，但我很难将文件分派到正确的解析器。显然，PDF没有关于作者的元数据，并且文件名可以更改，因此不是一个准确的身份识别来源。谢谢，亚瑟

浏览 12提问于2020-10-01得票数 0

1回答

在Woocommerce中查找和显示产品自定义字段值

php、wordpress、woocommerce、product、custom-fields

我试图向我的Woocommerce电子邮件模板显示一个自定义字段值，该模板是作为产品导入的一部分创建的。这个自定义字段称为'Reference‘。我该怎么做？编辑：这样做是可行的： <td class="td" style="text-align:<?php echo esc_attr( $text_align ); ?>; vertical-align:middle; font-family: 'Helvetica Neue', Helvetica, Roboto, Arial, sans-serif

浏览 0提问于2018-10-26得票数 2

回答已采纳

1回答

如何更改上传到WordPress媒体库的PDF的获取图像？

images

任何帮助都将不胜感激。我上传了一个PDF到WordPress媒体库。然后我将获取该链接，并在另一个平台LearnWorlds上使用它。LearnWorlds从上传到WordPress库的媒体中提取元数据。现在，它只是在拉实际的PDF，而不是任何图像-例如pdf的封面。LearnWorlds告诉我必须更改图像上的元数据。您如何在WordPress中这样做，以便在获取项目时封面也显示出来？

浏览 0提问于2021-12-07得票数 0

1回答

pdftk填充的texraea是不可滚动的

multiline、php-pdftk

我正在使用php pdftk从mysql数据库中提取数据，并将其放在PDF上的一堆不同字段中。我的问题是，一些字段可能有很长的文本，然而，它似乎不会显示向上/向下滚动条，甚至不能向上或向下滚动来阅读所有文本。我想知道是否有一个特定的pdftk标签或东西，我应该用来确保如果字段有多行，我可以看到一个滚动条，上下滚动，准备所有将输入的内容。下面是pdf的样子。当我通过浏览器中的iframe加载它时，注意到标记为HPI的文本区域为多行文本，但没有滚动条或指示，您可以向上或向下滚动。但是，如果我在adobe中打开模板pdf文件，并在该字段中键入一串内容(参见下面的屏幕截图)，您就可以在标记为HP

浏览 8提问于2020-06-20得票数 2

1回答

使用lua读取文件元数据

lua、metadata

我想知道是否有更好的代码/库允许读取文件元数据？到目前为止，我已经尝试使用LuaFileSystem和LuaCom (Scripting.FileSystemObject)，但是到目前为止还没有一个能够提取所有数据。当我指的是所有的数据，除了通常的标准数据，比如访问日期、创建日期、修改日期等，我想要更多的数据，比如pdf中的数据，它将包含其他数据，比如作者和标题，以及图像，它将包含比特深度、分辨率等数据。

浏览 1提问于2012-05-07得票数 1

1回答

Perl在Mysql中插入商标符号

mysql、perl、pdf、character-encoding、dbi

我编写了一个perl脚本，它使用CAM模块从PDF文件中提取PDF元数据。然后，我使用DBI将这些数据插入到MySQL中。我遇到了一个包含特殊字符的PDF文件。我可以确认MySQL模式和DB表被设置为UTF8。我将perl脚本设置为使用utf8 by use utf8;，我还将DBI连接设置为使用此mysql_enable_utf8 => 1。我现在可以保存一些符号(版权，注册)，但商标符号被转换为撇号/重音。我读到设置$dbh->do('SET NAMES utf8')会帮助解决这个问题，但是在我的场景中，它会在第一次遇到一个符号之后剪掉所有的文本。我猜问题是

浏览 6提问于2013-10-18得票数 1

回答已采纳

1回答

如何对存储在mongodb中的元数据进行分类

java、mongodb、metadata、taxonomy

我已经提取了一些文件(pdf，html，txt，doc)的元数据，并以json格式存储在mongodb中。我的mongodb集合中的示例文档如下 {"Author: ":null,"Title: ":"java Syllabus","File name: ":"sample.htm"} {"Author: ":null,"Title: ":"php Syllabus","File name: ":"sample1.htm"} {"

浏览 0提问于2013-06-26得票数 1

1回答

处理元数据的linux工具

pdf、metadata、ffprobe、exiftool、djvu

有用于PDF的pdfinfo，用于图像的exifinfo，用于多媒体的for等等。用于提取文件类型的集合或标准化工具集是否依赖于linux中所有文件的元数据(如pdf、image、doc、odt)？或者甚至是特定于大多数常见文件类型的文件格式的独特工具，例如ppt、epub和我们通常在因特网下载中发现的其他文件类型。

浏览 41提问于2020-11-21得票数 0

回答已采纳

1回答

Rackspace Cloud Files Container的元数据搜索功能

php、file、search、architecture、cloud

这是一个关于Rackspace Cloud Files的架构问题。我已经成功地将云文件功能(PHP/MySQL - Classes/Package)添加到我的一个项目(域)中，并希望以某种方式为其他项目(域/子域)提供这些文件(PDF等)的搜索功能。似乎云文件中的元数据不能直接搜索，而不需要请求容器中的所有对象信息(效率不是很高)。 PHP Cloud Files包提供了一种按文件“前缀”进行搜索的方法，但不是通过元搜索。这个前缀通常用于在容器中创建伪目录。我想搜索云文件中提供的元数据(高效)。我可能最终会有几个域共享一个云文件容器的文件与每个文件的元数据。我是否应该创建一个可从所有域访问的

浏览 2提问于2011-06-27得票数 3

回答已采纳

3回答

文本提取项目-仅从PDF中提取特定行/项的最佳工具？

python、ruby、pdf、text、automator

我正在做一个项目，它将从pdf文档中提取指定的文本。我没有这种提取的经验。有一个问题是，我们不只是想转储文档中的所有文本。更确切地说，是否有一种方法只提取pdf中的某些字段？有一个概念的pdf模板，可以用来做这样的事情？我正在尝试使用苹果的自动化-这是能够得到所有的文本，但没有指定的文本。理想情况下，我希望页面中的某个人有30行离散的文本，并将其中的20行指定为“目录项”，并让Automator脚本只使用这20行。对于这方面的最佳工作流/提取工具有什么想法吗？我希望只使用消费者级别的项目，如Apple页面、Automator和ruby或python作为脚本语言。 thx 编辑#1看起来像标

浏览 2提问于2012-03-25得票数 2

1回答

从PDF中提取实际的文本标题

pdf、title、extraction

从PDF中提取标题(使用其元数据)似乎有很多问题。然而，大多数标题似乎并不存在于元数据中。我在使用时发现了这个问题。实际上是否有从pdf中检索文本标题的方法？我试图导出到一个文本文件，然后搜索，但没有一致的格式。有没有任何方法可以将pdf导出到带有格式的文档，然后检查字体大小>= 14？

浏览 1提问于2011-07-18得票数 1

1回答

pdf文件-使用acrobat/livecycle添加输入字段，但文件受密码保护

pdf、passwords、adobe、acrobat、livecycle

我们有一些政府表单，我们希望能够从mysql数据库中填写，并使用php脚本自动打印。我下载了Adobe Acrobat和LiveCycle Designer的演示，并开始使用它。唯一的问题是我们使用的pdf文件是用密码锁定的.更具体地说-文档汇编页面提取，不允许创建模板页面。访问pdf添加字段的最佳方式是什么？有没有办法“解锁”或重新导入为pdf。作为最后的手段，我可能会扫描文档并重新导入

浏览 1提问于2010-09-10得票数 0

3回答

PDF数据提取-需要建议

algorithm、pdf、data-structures、data-extraction

我创建了一个pdf提取工具。样品屏幕附加。用户可以加载一个pdf文件并选择他想要的数据区域。然后我获取pdf坐标和页码，然后将其保存为模板。一旦用户给出pdf文件列表，工具就能够根据模板文件提取数据。现在的问题是，有时在一些pdfs中，提取所需的部分数据被转移到下一页。(移动的原因是；我将给出一个示例。如果您认为您购买的项目清单，“总价值”打印的的位置取决于您购买的项目数量:如果它是一个长长的列表总数是底部，否则，中间或接近顶部)。因此，现在我考虑的是，识别pdf的结构，而不是获取坐标.。但我没有明确的想法去做。请分享任何东西，你认为这对解决这个问题有帮助。我再次重申，我正试图从pd

浏览 1提问于2011-03-17得票数 2

回答已采纳

1回答

在Wordpress循环中调用自定义字段值？

php、wordpress、custom-post-type、custom-fields、custom-field-type

我正在尝试调用自定义字段的元数据，并希望将其用作页面的自定义帖子类型循环的标志字段。字段是'tt_freemium‘。下面的代码提取所有内容并忽略flag字段。啊哈。我做错了什么？ <?php $args = array( 'post_type' => 'membercontent', 'tt_freemium' => 'true', 'orderby' => 'post_date', 'order' => 'DESC', &#

浏览 31提问于2019-02-12得票数 0

2回答

没有数据丢失的jpg到pdf

pdf、conversion、jpeg

试图制造这样的东西：第一步： convert img.jpg img.pdf 第二步： pdfimages -j img.pdf img1 对HEX中的源图像和提取图像进行比较，显示出不同的差异。如何在不丢失数据的情况下进行这样的转换？

浏览 0提问于2012-03-14得票数 4

回答已采纳

1回答

是否可以使用winforms应用程序中的c#从文件中提取元数据？

c#、winforms、metadata、computer-forensics

我想知道是否有人对如何从C#中的文件中提取元数据有任何想法，我想创建一个应用程序，用户已经上传了一个文件，例如PDF或JPEG文件，它将从文件中提取所有元数据并输出它？其中一些元数据将包括：作者创建日期修改日期文件大小

浏览 7提问于2019-12-11得票数 0

2回答

使用Lotus Notes编辑PDF中的元数据

pdf、pdf-generation、lotus-notes、lotus

我有一个应用程序，其中有pdf附件内的文件。需要编辑pdf元数据并附加或添加文档信息(来自文档的一些字段值)到该pdf。我想将这些值添加到元数据中，以便在打印pdf时看不到这些值。如果我们去任何pdf的文件属性，我们可以找到作者和其他信息，它应该类似地显示我想要插入的字段值。所有上述功能都必须使用Lotus Notes完成，可能是任何工具都可以帮助。

浏览 1提问于2013-12-10得票数 0

1回答

无法使用正则表达式提取器提取jmeter中的编码PDF数据？

jmeter

我有一个web服务，它返回编码的pdf，但当我尝试使用正则表达式提取器(JMeter)提取其中的数据时，它不会提取。我检查变量的值，它显示为空值。我用谷歌搜索了不同的网站，但没有成功。提取数据后，我会将其保存到一个文件中。我在谷歌上搜索并推荐了各种网站，但都没有成功。下面是一些参考资料：当我在调试采样器中看到时，我的变量中没有任何东西。

浏览 0提问于2019-09-06得票数 1

1回答

用PHP从PDF内容中读取pdf标题

pdf

如何从PDF内容中获取PDF标题？PDF元数据未获取PDF标题。我想得到PDF的标题和PDF文件的标题在php。

浏览 24提问于2016-09-06得票数 0

4回答

PHP:从PDF中将fdf字段提取为数组

php、arrays、forms、pdf、fdf

我想从可填充的pdf中将可用字段提取为数组。像这样的数组：array('firstname','secondname','address'); 我不需要这些字段的值，如果它们被填充的话。用PHP做这件事最简单的方法是什么？

浏览 0提问于2012-01-12得票数 1

回答已采纳

1回答

为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？

tesseract、apache-tika

我使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我已经设法用ResursiveParserWrapper而不是解析器解析包含图像的pdf文档，它工作得很好，但是客户端希望在其他地方完成与Tesseract OCR相关的所有配置，并使用现有代码从所有支持的格式中提取OCR文本。现有的代码使用简单解析器来提取数据。谁能帮我解释一下，当我们要从包含扫描图像的图像或pdfs中提取数据时，为什么我们使用RecursiveParserWrapper而不是普通的解析器。

浏览 3提问于2018-06-25得票数 0

2回答

如何在PDF文件中隐藏文本？

java、pdf、pdf-generation、steganography

如何将文本添加到不可见的pdf文档中？文档操作应该用java完成。usecase是在文档签名和存档之前，向文档添加进一步的元数据(大约40 to的专有格式)。我试过：大小为0,0的注释字段 .txt文件附件但是，这让PDF的读者很恼火，因为他们看到了不同的地方(注释/附件栏)。是否有注释对象或语法来注释PDF文档中的行？编辑:我尝试在PDF对象之间添加文本。这是可行的，问题是: acrobat阅读器在关闭窗口时要求重新保存文件。在%EOF之后添加文本不是解决方案，因为签名不应用于元数据，元数据是所需的特性。

浏览 0提问于2013-05-16得票数 1

回答已采纳

4回答

H型:非法十六进制数字x

php、sql-server

我正在从一个应用程序到另一个应用程序进行数据转换。MSSQL表之一将PDF和DOC等文档存储为十六进制字符串。我被要求转换这些十六进制字符串并写入文件。我搜索并找到了一个网站，建议如下： $hex = file_get_contents('hex.txt'); file_put_contents('converted.pdf', pack('H*', $hex)); 其中hex.txt从表中提取数据。但是，我得到了错误。 PHP警告: pack()：类型H:非法十六进制数字x in . 下面是提取的十六进制字符串的缩短版本。 0

浏览 8提问于2014-02-25得票数 2

1回答

通过对GSA中现有元数据的实体识别来提取内容

regex、search、google-search-appliance

当在GSA中使用实体识别时，它是只处理站点/文档的“内容”，还是也提取现有元数据的某些部分？我有一个元数据，我希望只提取与正则表达式匹配的元数据内容字段的特定部分。这可能与GSA实体识别有关吗？或者是谷歌搜索设备中的一个不同的工具。

浏览 1提问于2015-12-09得票数 0

6回答

在PHP中读取PDF元数据

php、pdf、metadata

我正在尝试读取附加到任意PDF的元数据:标题、作者、主题和关键字。有没有可以读取PDF元数据的PHP库，最好是开源的？如果有，或者没有，如何使用库(或缺少库)来提取元数据？需要说明的是，我对创建或修改PDF或它们的元数据不感兴趣，我也不关心PDF的正文。我看过许多库，包括FPDF (每个人似乎都推荐它)，但它似乎只用于PDF创建，而不是元数据提取。

浏览 2提问于2010-12-21得票数 12

回答已采纳

3回答

在使用工厂设计模式方面有点复杂。

java、design-patterns

正如人们所说的，“如果我们有一个超类和n个子类，并且根据提供的数据，我们必须返回其中一个子类的对象，我们使用一个工厂模式”。情境：我有20个客户，更多可以随时间添加。每个文件都将提供一个文件，从中提取数据并插入到数据库中。每个客户端都有自己的维护文件的风格，即数据字段将位于不同的位置。解决方案:为此，我想我必须使用工厂设计模式，我创建了20个类，每个类对每个字段都有自己的实现，比如如何从文件中的哪个位置提取它。随着新客户端的添加，我只创建一个新的类，我就完成了，不需要其他任何更改。，我在这里之前是对的吗？复杂性：现在的问题是客户端提供的文件可以是4种格式(PDF、XLS(X)、HTML

浏览 2提问于2012-07-11得票数 3

2回答

如何将更多元数据添加到pdf文件中，以便我有更多的信息

debian、pdf、pdftk

很多时候，如果我遇到一些有趣的内容、辩论等涉及到一些pdf的内容，我就很幸运，我经常让作者把内容/pdf邮寄给我，或者在IM或其他什么网站上给我发同样的内容。随着时间的推移，我忘记了上下文或者是谁给我发送的内容。虽然我不知道限制，但我很确定至少可以添加几个字段。例如，这里是一个pdf文件的元数据，我现在正在查看。 File Size : 3.6 MB File Modification Date/Time : 2019:11:24 01:11:52+05:30 File Access Date/Time : 2019:11

浏览 0提问于2019-11-25得票数 2

回答已采纳

1回答

php & mysql:获取查询提取的数据库、表和字段的列表

php、mysql、sql

我需要提取由这样一个查询提取的数据库、表和字段的列表，其中包含两个单独的数据库-- DataBase 'customer‘，包含一个表’DataBase‘，其中包含一个表’DataBase‘，其中包含一个带有供应商列表的表’DataBase‘。某些客户也是供应商，我需要从“姓名”+资金中提取资金。在这种情况下(如果客户也是供应商)，他们将共享相同的“id”密钥。 select C.name, C.surname, C.balance as MONEY_IN, S.balance as MONEY_OUT from customer.register C, suppl

浏览 1提问于2018-12-28得票数 0

1回答

上载一些PDF文件时的mediawiki数据库错误

apache-2.2、php、postgresql、mediawiki

我正在一个带有Apache、PHP和PostgreSQL9.0的Gentoo Linux盒上运行一个私有mediawiki服务器。有时，当我们中的一个人试图上传PDF文件(这也是我见过的唯一类型)时，我们会得到错误： MediaWiki内部误差异常:异常'DBUnexpectedError‘与消息’数据库错误发生查询:更新图像集img_size = '1129473'，img_width = '1287'，img_height = '1789'，img_bits = '0'，img_media_type = 'OF

浏览 0提问于2011-08-31得票数 2

回答已采纳

1回答