我需要从两种html中抓取https链接。
一个是这样的
<a href="javascript:void(0)" onclick="javascript:newwindow1('https://hello.com/uploads/order/8c25ce592gfgfgfh99.pdf');">
this is some content Lorem Ipsum Lorem Ipsum Lorem Ipsum <img src="/img/pdf.jpg" width=
是一个很好的分析PDF的软件。当我使用它从PDF中提取文本时。如何逐句提取文本?现在我只能按单词、行、页进行提取。例如,在PDF中提供以下内容:
I want to extract text from pdf
Sentence by sentence. Is there
anybody can help?
word模式每次返回一个单词(即I;want;to;extract...),line模式每次返回一行(即我想从pdf中提取文本;句子在那里;任何男孩都可以帮助?)。页面模式返回整个段落。我想要得到的是每次的句子(例如,我想逐句从PDF中提取文本;有没有人可以帮助我?)
我试图用"."拆分一个字符串,但是数组中什么都没有。文件名是"Head-First-Java-2nd-edition.pdf",在拆分后,我想提取扩展名,但不知道为什么它会给出空白数组。
my @fileInfo = split(/./, $filename);
&logMsg("Array is: @fileInfo");
MP3音频不是附件,它们不显示在Acrobat的附件面板上,它们显示在评论面板上,Adobe /Acrobat只能将它们导出到Acrobat的数据文件中,这是一个类似于pdf的数据文件。
不幸的是,PDF文件不能作为档案打开,从中提取文件。
那么,我如何提取MP3's?有任何免费的Linux或Windows软件可以轻松地做到这一点吗?
我尝试过这些程序的免费试用,它们要么只显示评论(甚至不能播放),要么直接导出到.fdf,要么无法显示评论,要么只能提取附件和图像:
洗发水PDF Pro 2
代码行业主PDF编辑器
Foxit高级PDF编辑器
Nitro PDF Pro
Systools