文章/答案/技术大牛

发布

社区首页 >问答首页 >PDF元数据中关键字的分隔符

问PDF元数据中关键字的分隔符
EN

Stack Overflow用户

提问于 2017-06-17 19:28:37

回答 3查看 4K关注 0票数 14

我找不到关于PDF文件的元数据中的关键字和关键字短语是用逗号分隔还是用带空格的逗号分隔的“正式”文档。

下面的示例演示了两者之间的区别：

关键词，关键词短语，另一个关键词短语
关键词，关键词短语，另一个关键词短语

有高质量的推荐信吗？

我在网上找到的资料质量很低。例如，Adobe新闻网页说“关键字必须用逗号或分号分隔”，但在示例中，我们看到在第一个关键字之前有一个带有以下空格的分号，以及在每个相邻关键字之间有一个空格的分号。我们在这个例子中没有看到关键字短语。

pdf

delimiter

keyword

回答 3

Stack Overflow用户

发布于 2017-06-17 19:56:36

关键字元数据字段是单个文本字段，而不是列表。你可以选择任何视觉上令你满意的东西。运行在关键字数据上的搜索引擎可能有其他的偏好，但我可以想象，无论是逗号还是分号，都可以与大多数现代搜索引擎一起工作。

参考资料: PDF 32000-1:2008页550 at 1. Adobe；2. 互联网档案馆

例如，ExifTool解析逗号分隔的值，但是如果它找不到逗号，它将在空格上拆分：

# separate tokens in comma or whitespace delimited lists
my @values = ($val =~ /,/) ? split /,+\s*/, $val : split ' ', $val;
foreach $val (@values) {
    $et->FoundTag($tagInfo, $val);
}

票数 9

Stack Overflow用户

发布于 2018-02-05 15:01:54

我没有“高质量的参考资料”，但是，如果我使用latex生成了一个pdf，我会按照以下方式来做:添加到我的main.tex行中：

\usepackage[a-1b]{pdfx}

然后编写一个文件main.xmpdata并添加以下行：

\Title{My Title}
\Author{My Name}
\Copyright{Copyright \copyright\ 2018 "My Name"}
\Kewords{KeywordA\sep
         KeywordB\sep
         KeywordC}
\Subject{My Short Discription}

在用pdflatex生成pdf之后，我使用一个基于"pdfminer.six“的python脚本来提取元数据。

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1

fp = open('main.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
parser.set_document(doc)

if 'Metadata' in doc.catalog:
    metadata = resolve1(doc.catalog['Metadata']).get_data()
    print(metadata)  # The raw XMP metadata

然后，带有关键字的部分如下所示：

...<rdf:Bag><rdf:li>KeywordA</rdf:li>\n     <rdf:li>KeywordB...

使用“”查看"main.pdf“的属性，我在属性中找到关键字部分中的以下条目：

;KeywordA;KeywordB;KeywordC

票数 3

Stack Overflow用户

发布于 2020-08-30 16:39:49

CommonLook声称“在电子文档可访问性方面是全球领先企业，提供软件产品和专业服务，从而能够更快、更经济、更可靠地实现对领先的PDF和文档可访问性标准(包括WCAG、PDF/UA和Sect508)的遵守。”

他们在PDF元数据上提供了以下建议：

专业提示:当您在元数据中输入关键字时，用分号分隔它们，而不是逗号。

虽然没有给出进一步的理由，为什么这是首选的选择。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44608608

复制

相似问题

问PDF元数据中关键字的分隔符
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF元数据中关键字的分隔符EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF元数据中关键字的分隔符
EN