我正在使用CAM::PDF提取PDF元数据。我还有最后一个要求,那就是获得PDF阅读语言。我需要知道它是英语、法语等。
my $pdf = CAM::PDF->new($filePath) || die "<br/>Error: $filePath";
my $info = $pdf->getValue($pdf->{trailer}->{Info});
在转储$info变量时,我没有看到任何关于语言类型的其他信息。这不可能得到PDF语言吗?
我编写了一个perl脚本,它使用CAM模块从PDF文件中提取PDF元数据。然后,我使用DBI将这些数据插入到MySQL中。我遇到了一个包含特殊字符的PDF文件。我可以确认MySQL模式和DB表被设置为UTF8。我将perl脚本设置为使用utf8 by use utf8;,我还将DBI连接设置为使用此mysql_enable_utf8 => 1。
我现在可以保存一些符号(版权,注册),但商标符号被转换为撇号/重音。我读到设置$dbh->do('SET NAMES utf8')会帮助解决这个问题,但是在我的场景中,它会在第一次遇到一个符号之后剪掉所有的文本。
我猜问题是