我找不到关于PDF文件的元数据中的关键字和关键字短语是用逗号分隔还是用带空格的逗号分隔的“正式”文档。
下面的示例演示了两者之间的区别:
有高质量的推荐信吗?
我在网上找到的资料质量很低。例如,Adobe新闻网页说“关键字必须用逗号或分号分隔”,但在示例中,我们看到在第一个关键字之前有一个带有以下空格的分号,以及在每个相邻关键字之间有一个空格的分号。我们在这个例子中没有看到关键字短语。
发布于 2017-06-17 19:56:36
关键字元数据字段是单个文本字段,而不是列表。你可以选择任何视觉上令你满意的东西。运行在关键字数据上的搜索引擎可能有其他的偏好,但我可以想象,无论是逗号还是分号,都可以与大多数现代搜索引擎一起工作。
参考资料: PDF 32000-1:2008页550 at 1. Adobe;2. 互联网档案馆
例如,ExifTool解析逗号分隔的值,但是如果它找不到逗号,它将在空格上拆分:
# separate tokens in comma or whitespace delimited lists
my @values = ($val =~ /,/) ? split /,+\s*/, $val : split ' ', $val;
foreach $val (@values) {
$et->FoundTag($tagInfo, $val);
}
发布于 2018-02-05 15:01:54
我没有“高质量的参考资料”,但是,如果我使用latex生成了一个pdf,我会按照以下方式来做:添加到我的main.tex行中:
\usepackage[a-1b]{pdfx}
然后编写一个文件main.xmpdata并添加以下行:
\Title{My Title}
\Author{My Name}
\Copyright{Copyright \copyright\ 2018 "My Name"}
\Kewords{KeywordA\sep
KeywordB\sep
KeywordC}
\Subject{My Short Discription}
在用pdflatex生成pdf之后,我使用一个基于"pdfminer.six“的python脚本来提取元数据。
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1
fp = open('main.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
parser.set_document(doc)
if 'Metadata' in doc.catalog:
metadata = resolve1(doc.catalog['Metadata']).get_data()
print(metadata) # The raw XMP metadata
然后,带有关键字的部分如下所示:
...<rdf:Bag><rdf:li>KeywordA</rdf:li>\n <rdf:li>KeywordB...
使用“”查看"main.pdf“的属性,我在属性中找到关键字部分中的以下条目:
;KeywordA;KeywordB;KeywordC
发布于 2020-08-30 16:39:49
CommonLook声称“在电子文档可访问性方面是全球领先企业,提供软件产品和专业服务,从而能够更快、更经济、更可靠地实现对领先的PDF和文档可访问性标准(包括WCAG、PDF/UA和Sect508)的遵守。”
他们在PDF元数据上提供了以下建议:
专业提示:当您在元数据中输入关键字时,用分号分隔它们,而不是逗号。
虽然没有给出进一步的理由,为什么这是首选的选择。
https://stackoverflow.com/questions/44608608
复制相似问题