使用校验和从动态链接中抓取PDF_使用R从网页中抓取表格和链接_如何从网址不变的网页中抓取pdf链接？ - 腾讯云开发者社区

、

我一直在尝试从这样的页面中抓取PDF：https://www.oecd-ilibrary.org/science-and-technology/oecd-digital-economy-papers_使用BeautifulSoup没有用。如何抓取实际的pdf文档？

浏览 10提问于2021-08-15得票数 0

回答已采纳

4回答

Asp.net内核中的Paytm校验和

、、

在为.NET生成校验和的Paytm中，必须导入动态链接库，但我不能使用ASP.NET核心中的动态链接库。请让我知道如何生成和验证校验和。

浏览 2提问于2017-07-04得票数 1

1回答

我应该配置什么来停止nutch重新索引或再次获取。对于一个url，它应该只索引一次。

、

对于给定的url，我只想抓取一次。

浏览 2提问于2014-08-20得票数 0

2回答

如何在HyperLedger结构中上传证书文件？

、、

例如，假设我有两个组织:一个客户组织和一个养鸭组织。如果顾客计划购买鸭肉，他们想知道鸭肉对他们是否健康。我想“确认”鸭子在处理鸭肉的过程中使用认证文件是好的。因此，我有一个关于如何在HyperLedger Fabric上上传证书文件(比如PDF)的问题。

浏览 24提问于2022-08-09得票数 0

1回答

联系问题？

、、、

我已经研究过恶意软件与IAT的勾结，我还有几个问题：这些是如何检测到的?我在这里读到了这个问题：找到挂钩函数和API的方法是什么？，但我仍然很困惑，你能提供一个基本的一步一步的解释吗？除了可能导致检测工具中假阳性的抗病毒外，api挂钩还有合法的用途吗？

浏览 0提问于2017-08-03得票数 1

1回答

如何使用javascript从带有html5 <embed>标记的帧中保存PDF

、、、

我有一个网站，动态创建一个PDF后，一些用户选择在其框架之一。它使用HTML5标记来显示PDF文件。检测何时加载pdf (我们需要先确定帧吗？)将pdf保存到本地存储位置(iOS)

浏览 4提问于2013-12-16得票数 0

1回答

PDF/DOCX数据提取并创建具有唯一ID的链接

、、

我想添加唯一的ID在我的链接末尾或在html代码的某个地方，这是在我的发票。该链接将人们带到一个页面，在那里他们接受贸易条款，然后发送电子邮件作为确认。我可以在Word中编辑发票，然后在word docx或PDF中将其发送给我的客户。有没有办法从这些文档中提取工作id或他们的名字，并将其添加到他们点击的链接中，然后将该信息与确认电子邮件一起转发，以便我可以跟踪谁接受了条款？<?

浏览 0提问于2013-06-23得票数 0

回答已采纳

1回答

从导致pdf文件的锚元素中提取信息

、、

我使用Scrapy从网站抓取和刮取数据，主要由html页面和pdf文件组成(我已经修改了IGNORED_EXTENSIONS以允许抓取pdfs)。我脑海中浮现的一件事是爬行页面，从页面中提取所有链接，并将它们保存在文本文件中。它起了作用，只是我最终得到了很多重复的链接，被破坏的链接(比如403,404,500)，或者很多我并不关心的链接。在“构造函数”中<

浏览 0提问于2016-12-12得票数 1

2回答

为什么通过pdftk将多页PDF反复爆破到各个页面会改变这些页面的md5校验和？

、、、、

我正在使用进行一些测试，并发现将一个多页PDF文件分解成单独的单页PDF文件，然后为每个页面PDF生成一个md5哈希校验和(数字指纹)，每次我执行该突发时都会产生一个不同的散列。我的测试过程是：为10个单页PDF文件

浏览 0提问于2012-07-10得票数 3

回答已采纳

2回答

如何逐行读取pdf文件并创建CSV

、、、

这是我的pdf T26 | Texan 26 | 1009 West 26th | 307 | 6x3 | ...

浏览 3提问于2014-09-17得票数 0

2回答

XML:使用C#搜索特定文本的元素

、、

我正在尝试获取来自不同网站的PDF链接列表。首先，我使用Web客户机类下载页面源代码。然后我使用将HTML转换为XML。因此，对于一个特定的站点，我将获得一个如下所示的标记：我需要抓取所有包含&quo

浏览 0提问于2012-03-09得票数 1

回答已采纳

2回答

如何从PDF中抓取信息？

、

我正在使用Mozenda (Mozenda.com)来抓取一个在线数据库，但是其中一些数据在PDF文件中。Mozenda似乎不支持抓取这些文件，所以我正在寻找另一种解决方案。任何有

浏览 0提问于2011-12-16得票数 1

1回答

ABC PDF* -创建256色图像*

我正在使用ABCpdf7动态创建pdf文档-这是我不理解的东西。当我从url创建pdf文档时，pdf文档中的图像似乎是256色。有谁知道如何设置ABCpdf来创建全彩色图像。如果我指定了图像url -图像是以全色创建的-但我不能一下子抓取一个页面。

浏览 1提问于2009-12-11得票数 3

2回答

我的目标是拥有一个python脚本，它将访问特定的网页，提取每个页面上所有在文件名中有特定单词的pdf文件，将它们转换为html/xml，然后遍历html文件从pdfs的表中读取数据。到目前为止，我已经导入了机械化(用于浏览页面/查找pdf文件)和pdfminer，但是我不知道如何在脚本中使用它来执行命令行中的相同功能。如果这对于堆栈溢出来说太具体了，我很抱歉，但是我在使用google搜索和稀疏文档来拼凑如何编写这

浏览 2提问于2014-02-18得票数 0

回答已采纳

1回答

循环遍历PDF文件数组，并从每个文件复制文本

我看到它是超级容易抓取一个PDF文件，保存它，并从文件中获取所有的文本。library(pdftools)txt <- pdf_text("sample.pdf

浏览 2提问于2018-05-03得票数 0

回答已采纳

3回答

流体模板:传递一个javascript作为参数值？

、、

对于f:link显示操作，在我的流体列表模板中，我想向参数传递一个javascript变量，基本上是uid (将那个特定的对象传递给showAction)，但是它不像我想要的那样工作。

浏览 1提问于2018-02-05得票数 0

回答已采纳

2回答

从链接读取文件的隐藏扩展名

我需要从一些链接中读取pdf扩展文件，这些链接是我从web上抓取的。链接保存在$link变量中。但有时，扩展名没有写在链接中，例如: 490之外的http://tstc.bz/docs/490是一个pdf文件，当我点击它时，扩展名就会存在。如何读取隐藏的扩展名？if (strtolower(pathinfo($link,PATHINFO_EXTENSION))

浏览 0提问于2012-11-26得票数 1

2回答

如何阻止Scrapy CrawlSpider访问超过要求的URL？

、

我想写一个抓取pdfs从网站。到目前为止，爬虫在下载pdf方面运行良好。然而，它遵循许多链接的方式，即使我已经尝试了几件事来防止它这样做。基本上我只想从页面上拉.pdf，任何链接，这不是以.pdf结束不应该被抓取。到目前为止，下面的代码工作正常，只有pdf使用parse_docs()方法保存，然而，我希望非pdf链接永远不会被发送到parse_docs()函数。我也尝试过在

浏览 28提问于2019-10-08得票数 1

1回答

如何使用IBM Watson Explorer提取PDF* URL的关键字属性？*

、、、

我想从PDF链接中提取PDF的关键字值。我正在爬行一个页面，其中包含一些PDF的链接。我想建立一个虚拟文档，在那里我必须将这些PDF入队。我不想抓取这些PDF的内容，但我只想从这些PDF中提取关键字。当我使用inspect source打开这些PDF链接时，它确实有一个关键字字段。但是它没有任何关键字的值。data-l10n-id="document_properties

浏览 17提问于2017-02-24得票数 2

2回答

从与数据库中的数据不同的链接复制文档

、

我从网络上抓取了pdf链接，我想通过检查数据库中存在的文档的名称(我从链接中获得)来复制数据库中还不存在的pdf。代码如下：$sql = mysql_query("SELECT doc_name

浏览 3提问于2012-10-12得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云