使用scrapy查询数据库中的PDF，然后下载它们_什么是索引以及如何使用它们来优化数据库中的查询？ - 腾讯云开发者社区

、

一些pdf不会以".pdf“结尾，因此，我们只能在检查响应头之后才能知道。我想避免下载这样的pdf。在Scrapy中，在响应完全下载后检查报头很容易。如何下载并检查响应头，然后再下载正文？

浏览 5提问于2018-01-31得票数 4

回答已采纳

2回答

使用scrapy查询数据库中的PDF，然后下载它们

、、

我刚接触scrapy和python，所以请记住:) 我正在做一项研究，我需要从政府网站上下载大量公开可用的PDF文档。问题是，大约有11000页的搜索结果，每个页面都有10个PDFS。我想要做的是使用scrapy编写一个脚本： 1)将预定义的搜索参数(例如，关键字、企业名称、起始日期、截止日期等)传递到站点上的文档搜索引擎2)运行搜索查询并获得结果3)自动下载作为查询结果显示的所有PDF(而不仅仅是结果的第一页)到我的机器/将它们上传到google驱动器有什么我可以使用的建议吗？我还没有找到任何可以做到这一点的东西--任何帮助都会非常感谢，这是为了一个非常好的原因！这就是我到目前为止所

浏览 34提问于2020-01-25得票数 0

1回答

如何使用Scrapy来解析PDF而没有特定的. PDFs链接？

、、、、

我试着下载PDF，但在的情况下，我没有看到任何.pdf链接，这些链接可以被Scrapy抓取。此示例显示了URL .pdf中缺少的。 Scrapy也能够处理getfile.asp链接来检测文件本身吗？这是获取特定页面上所有pdf链接的方法： import scrapy from scrapy.pipelines.files import FilesPipeline class PdfPipeline(FilesPipeline): # to save with the name of the pdf from the website instead of hash def

浏览 1提问于2022-02-10得票数 0

回答已采纳

1回答

可以完全下载pdf文件吗？

、、、

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全下载所有的pdf文件，但它太慢了。我想知道scrapy filespipelines是否有类似的方法？

浏览 19提问于2019-07-11得票数 0

1回答

刮除文件管道不下载文件

、、

我的任务是建立一个网络爬虫，下载所有的.pdf在一个给定的网站。蜘蛛运行在本地机器和刮擦轮毂上。出于某种原因，当我运行它时，它只下载一些而不是所有的pdfs。通过查看输出JSON中的项就可以看出这一点。我已经设置了MEDIA_ALLOW_REDIRECTS = True，并尝试在scrapinghub上运行它以及在本地运行它。这是我的蜘蛛 import scrapy from scrapy.loader import ItemLoader from poc_scrapy.items import file_list_Item from scrapy.spiders import Crawl

浏览 0提问于2019-07-16得票数 1

回答已采纳

1回答

使用scrapy按扩展名类型保存网页上的文件

、、

我对Python非常陌生，我正在尝试使用scrapy下载并保存这个网站中的pdf文件：。以下是我的代码： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class legco(BaseSpider): name = "legc

浏览 3提问于2015-03-09得票数 2

回答已采纳

1回答

使用Scrapy从网站查找和下载pdf文件

、

我的任务是使用Scrapy从网站上提取pdf文件。我对Python并不陌生，但Scrapy对我来说是一个非常新的东西。我一直在用控制台和一些基本的爬虫进行实验。我已经找到并修改了下面的代码： import urlparse import scrapy from scrapy.http import Request class pwc_tax(scrapy.Spider): name = "pwc_tax" allowed_domains = ["www.pwc.com"] start_urls = ["http://www.

浏览 0提问于2016-03-21得票数 22

回答已采纳

1回答

刮刮CSV

、

我正试着从这个网站上抓取所有的CSV: transparentnevada.com 当您导航到一个特定的代理，即，并点击下载记录，有一个链接到许多CSV。我想下载所有的CSV。我的蜘蛛跑了起来，似乎爬过所有的记录，但没有下载任何东西： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.http import Request class Spider2(CrawlSpider): #name of

浏览 0提问于2017-08-11得票数 1

回答已采纳

1回答

在Scrapy中，下载嵌套在已生成项dict的to下的文件

要在Scrapy中下载文件，需要将关键字'fileurls‘添加到生成的条目dict中，并带有要下载的urls的值。但我的文件嵌套在生成的字典的顶层以下的某个地方。一个项目看起来像这样： { "title": "foo", "files": { "drawings": [ { "caption": "bar", "fileurl": "http://foo.com/foo/foo.pdf"

浏览 5提问于2019-02-21得票数 1

回答已采纳

2回答

在Scrapy的Crawlspider中，有没有办法在锚标签中获取文本？

、

我有一个爬虫蜘蛛爬行给定的网站上的某些部门，并下载该网站的pdf。一切都很好，但随着pdf链接，我也需要锚标签内的文本。例如： <a href='../some/pdf/url/pdfname.pdf'>Project Report</a> 考虑到这个锚标签，在回调中我得到了响应对象，以及这个对象，我需要在标签中包含文本，例如'Project Report‘。是否有任何方法可以将此信息与响应对象一起获取。我已经通过https://docs.scrapy.org/en/latest/topics/selectors.html链接，但它不是我正在

浏览 19提问于2019-04-01得票数 1

2回答

需要使用scrapy下载给定网址中的所有.pdf文件

、、

**我尝试运行这个刮取查询，从给定的URL **下载所有相关的PDF。我尝试用“刮擦爬行mySpider”来执行这个命令。 import urlparse import scrapy from scrapy.http import Request class pwc_tax(scrapy.Spider): name = "sec_gov" allowed_domains = ["www.sec.gov"] start_urls = ["https://secsearch.sec.gov/search?utf8=%3F&am

浏览 1提问于2018-10-25得票数 0

回答已采纳

1回答

如何使用Scrapy解析PDF？

、、、

我想下载在一个网站上找到的所有PDF，例如。我也试图使用规则，但我认为这不是必要的。这是我的方法： import scrapy from scrapy.linkextractors import IGNORED_EXTENSIONS CUSTOM_IGNORED_EXTENSIONS = IGNORED_EXTENSIONS.copy() CUSTOM_IGNORED_EXTENSIONS.remove('pdf') class PDFParser(scrapy.Spider): name = 'stadt_koeln_amtsblatt'

浏览 8提问于2022-02-08得票数 0

回答已采纳

1回答

使用jade从MongoDB下载PDF

、、、、

我使用的是Node、express、Jade和一个MongoDB。到目前为止，我可以查询数据库并在网页中显示数据。在数据库中，我正在存储PDF，我希望能够从网页上下载这些文件。我目前可以获得一个字符串(随机字符)的形式的pdf数据，并在网页上显示它们，但我想有一个按钮，用户可以下载它作为pdf。要将pdf插入到数据库中，请使用下面的python代码打开它，使用pyMongo插入它。 file = Binary(open(filePath, "rb").read(), 0) 提前谢谢。

浏览 0提问于2017-10-13得票数 0

1回答

Scrapy抓取了0个页面，无法下载pdf

、、

我是scrapy的新手。我正在尝试使用scrapy下载这个pdf。我不清楚为什么它不能工作。 import scrapy class Hawaii_spider(scrapy.Spider): name = "hawaii" allowed_domains = ["hawaii.edu"] def parse_listing(self, response): file_urls = ["http://www2.hawaii.edu/~kinzie/documents/CV%20&%20pubs/Kauh

浏览 0提问于2015-11-19得票数 0

1回答

不同相对url中的刮取液url

、、

我试图提取的pdf以及10k表单(以html格式)使用Scrapy。为了提取它们，我使用以下css选择器：most_recent = response.css("div.view_btn > a::attr(href)").getall()，它按预期返回['/Click/29665', '/Click/19504']。但是pdf和html的url在每个相对的url中。刮伤怎么能得到绝对和“正确”的url？ (“更正”url = ) 我需要url，因为scrapy将响应发送到另一个函数，以便下载pdf文件：yield Request(mos

浏览 1提问于2021-08-28得票数 1

回答已采纳

1回答

尝试在Pycharm中使用Scrapy下载PDF

、、、、

我一直在尝试让Scrapy从一个网站下载所有的PDF文件，但是我似乎无法让它真正下载这些文件。爬虫运行得很好，可以访问url的所有页面，但是没有任何内容被下载。我是Python和webscraping的新手，所以我不确定我是忽略了还是不理解如何将别人的问题与我的问题联系起来。我遵循了Scrapy网站和其他网站上的一些教程和演练，但我就是不能理解它。此外，我也想只下载包含"spec_sheet“的文件，如果可能的话(位于下载部分的任何灯的网站，并也命名的PDF是什么，他们在网站上，而不是一个随机的字母和数字字符串，当他们下载。任何帮助都将不胜感激！ import scrapy f

浏览 43提问于2021-01-19得票数 2

1回答

Python/Scrapy:自定义管道没有使用自定义文件名的效果/下载文件

、

这是我的的后续问题.我想下载PDF并将它们保存在带有自定义文件名的硬盘上。对于自定义文件名，我根据这个pipelines.py在中尝试了以下代码 class PrangerPipeline(object): def process_item(self, item, spider): return item def file_path(self, request, response=None, info=None): original_path = super(PrangerPipeline, self).file_path(request,

浏览 1提问于2019-02-21得票数 3

回答已采纳

1回答

刮刮-不能下载文件

、

我无法让Scrapy的文件下载管道工作。日志中没有错误。我遗漏了什么？ **我知道fspider.py还没有完成运行爬行器--我现在只是在使用scrapy parse调试器测试parse_list fspider.py: import scrapy from scrapy.spiders import CrawlSpider class FSpider(CrawlSpider): name = 'fsp' allowed_domains = 'hdr.undp.org' start_urls = ['http://hdr.undp.org

浏览 1提问于2018-02-13得票数 0

回答已采纳

1回答

如何检测服务器上的文件是否已随Python/Scrapy更改

、

这是对问题的跟进. 我想每天下载PDF文件。到目前为止，我的Scrapy代码已经起作用了。现在我想知道PDF文件是否已经改变。有内置的机制吗？，我在文档中找不到提示。如果没有，我将下载相应的PDF文件，并使用此模型将其与前一天的PDF文件进行比较：

浏览 0提问于2019-03-12得票数 0

回答已采纳

1回答

使用Scrapy下载PDF文件

、、、

我正在使用一个Python web抓取框架Scrapy从一个网站抓取pdf文件。网站需要遵循相同的会话，才能允许您下载pdf。它在Scrapy上工作得很好，因为它是自动的，但当我在几秒钟后运行脚本时，它开始给我假的pdf文件，就像我试图在没有会话的情况下直接访问pdf一样。为什么会这样&你知道如何克服这个问题吗？

浏览 1提问于2011-11-13得票数 0

2回答

使用Scrapy时获取twisted.defer.CancelledError

、、

每当我运行scrapy命令时，就会出现以下错误支持： 2016-03-12 00:16:56 [scrapy] ERROR: Error downloading <GET http://XXXXXXX/rnd/sites/default/files/Agreement%20of%20FFCCA(1).pdf> Traceback (most recent call last): File "/usr/lib/python2.7/dist-packages/twisted/internet/defer.py", line 577, in _runCallbacks

浏览 4提问于2016-03-11得票数 0

回答已采纳

1回答

如果再次加载FilesPipeline的话，file_urls会刮擦

、

我是新来的。我使用FilesPipeline下载一些.pdf文件。我发现，如果file_urls of Scrapy.Item的值相同，则下载过程将不会重新开始。我需要的是再下载一次。我该怎么解决这个问题。谢谢。

浏览 0提问于2021-07-19得票数 0

回答已采纳

1回答

带Scrapy和Python3的pdf的批量下载

、、、、

我想从尼加拉瓜国民议会的网站上大量下载Python3/Scrapy免费下载的pdfs (1843年至1900年的一份旧报纸，名为Gaceta)。我是编程和python的绝对初学者，但我尝试从一个(n个未完成的)脚本开始： #!/usr/bin/env python3 from urllib.parse import urlparse import scrapy from scrapy.http import Request class gaceta(scrapy.Spider): name = "gaceta" allowed_domains = [&

浏览 0提问于2018-05-03得票数 0

回答已采纳

1回答

如何使用scrapy通过扩展名为链接的链接下载文件

、

我正在使用scrapy来抓取一个网站，我可以从页面下载文件，但是所有正在下载的都是纯文本文件。如何使用扩展类型下载？我正在下载脚本，因此，在我的下载上有适当的扩展类型是必要的。例如，如果我从exploit-db下载漏洞，我去下载它们的链接应该是：，我从那里提取的下载链接是，如果我正常点击它，它将下载一个ruby文件。但是通过scrapy，它被保存为文本文件。有没有办法通过scrapy以.rb的形式下载？

浏览 0提问于2016-06-20得票数 0

1回答

加速抓取python3脚本

、、、、

我想用以下脚本从尼加拉瓜国民议会的网站上大量下载pdfs (1843年至1900年一份名为Gaceta的旧报纸)，其中包括Python3/Scrapy (见原问题)： #!/usr/bin/env python3 # -*- coding: utf-8 -*- # A scrapy script to download issues of the Gaceta de Nicaragua (1843-1961) # virtualenv -p python3 envname # source envname/bin/activate # scrapy runspider gaceta_down

浏览 3提问于2018-05-13得票数 2

回答已采纳

1回答

使用Scrapy:如何从一些提取的链接下载pdf文件

、

我已经创建了一些从网站中提取链接的代码(PDF链接)，现在我需要下载这些PDF文件，但是我很难做到这一点。这是代码： import scrapy class all5(scrapy.Spider): name = "all5" start_urls = [ 'https://www.alloschool.com/course/alriadhiat-alaol-ibtdaii', ] def parse(self, response):

浏览 0提问于2019-07-28得票数 0

回答已采纳

2回答

相同文件下载

、

我有一个问题，我的脚本，以便相同的文件名，和pdf正在下载。在没有下载文件的情况下，我检查了结果的输出，得到了唯一的数据。当我使用管道时，它会以某种方式产生副本供下载。这是我的剧本： import scrapy from environment.items import fcpItem class fscSpider(scrapy.Spider): name = 'fsc' start_urls = ['https://fsc.org/en/members'] def start_requests(self): fo

浏览 1提问于2022-07-30得票数 1

回答已采纳

3回答

FPDF:使用AJAX输出PDF

、、、

我有一个PHP文件，其中我生成一个PDF文件使用FPDF。如果我执行该文件，它会在浏览器上生成并加载pdf文件。但是，当我尝试使用按钮生成PDF文件时，通过使用AJAX，它不起作用。我使用AJAX，因为在生成PDF文件之前，我需要向PHP发布一些变量，以便在数据库中进行查询。我在网上寻找解决方案，但我仍然不知道如何实现这一点。我想在浏览器上加载pdf，而不是下载 PHP： $pdf->Output('name.pdf','I'); AJAX： var IDDocument = 15; var Document = 'Invoice';

浏览 2提问于2019-06-11得票数 2

回答已采纳

1回答

ValueError:使用媒体管道时请求url: h中缺少的方案

、

我正在尝试从一个网站下载pdf，我遵循刮伤网站提供的指示，但我得到了以下错误： File "/home/joseph/ENV/lib/python3.5/site-packages/scrapy/http/request/__init__.py", line 58, in _set_url raise ValueError('Missing scheme in request url: %s' % self._url) ValueError: Missing scheme in request url: h 2017-09-12 17:47:40 [sc

浏览 2提问于2017-09-12得票数 0

回答已采纳

1回答

使用Scrapy下载.asp网站上的所有pdf文件时出现问题

、

我有一个问题，当下载多个pdf文件在.asp网站上使用Scrapy。这是该网站的网址：https://ceo.maharashtra.gov.in/searchlist/SearchRollPDF.aspx。现在，如果你浏览这个网站，它会向上面的同一个URL发送多个表单请求，并为同一页面生成最新更新的HTML内容。现在，我已经完成了每一步，包括解决验证码，最后，我已经到达了可以下载pdfs的最后一步。当您填写所有表单详细信息(包括验证码)时，您将看到多个下载相同数量的独特pdf文件的链接。这就是我遇到问题的地方。现在，当您单击任何链接时，它会向上面的URL发送一个POST请求，

浏览 0提问于2019-09-14得票数 1

3回答

必要的建议: php应用程序架构

、、

我的网络应用程序()允许用户公开分享他们的文档，比如Ms word和pdf。用户可以搜索和下载其他用户上传的文档。目前app使用以下技术当用户上传任何文件时：它从文档中提取文本并存储在数据库中。它将文件名存储为数据库记录标题。当用户搜索文件时：它将查询与数据库中存在的存储数据进行匹配，并显示结果以供下载在上以图形形式给出的当前实现的技术有人建议我改进我目前的方法吗？

浏览 3提问于2010-12-30得票数 1

回答已采纳

1回答

ICML的抓取纸

、

我想用Scrapy从ICML程序中抓取文件，我的代码是 items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html import scrapy from scrapy.item import Item, Field class PapercrawlerItem(scrapy.Item): # define the fie

浏览 0提问于2019-06-18得票数 0

回答已采纳

2回答

下载CSV和PDF中的SQL结果

、、

我想下载从SQL查询以Excel(CSV)和PDF格式获取的结果。 SQL查询 $sql = 'SELECT name, address, phone, city FROM users'; 我要这些记录在CSV和PDF中。当用户单击Excel时，Excel文件将被下载，当单击PDF时，文件将被下载。请帮我做这个。谢谢

浏览 1提问于2017-03-06得票数 0

1回答

下载PDF文件时出错

我有以下(简化)代码： import os import scrapy class TestSpider(scrapy.Spider): name = 'test_spider' start_urls = ['http://www.pdf995.com/samples/pdf.pdf', ] def parse(self, response): save_path = 'test' file_name = 'test.pdf' self.save_page

浏览 0提问于2018-03-26得票数 0

回答已采纳

2回答

重复抓取的数据

、、

我是python的新手，但由于工作原因需要擦除。我在scrapy上花了一两个星期，我最终对它感到满意，除了下面的代码，而不是输出一行数据，而是重复它五次。下面是一个示例(仅使用1个url)：导入scrapy class AdamSmithInstituteSpider(scrapy.Spider): name = "adamsmithinstitute" start_urls = [ "https://www.adamsmith.org/research?month=March-2018", ] def parse(self, response):

浏览 2提问于2018-07-10得票数 1

1回答

刮取:为绝对路径和相对路径启用文件管道？

、、、、

问题：在我的代码(请参阅下面的“当前代码”一节)中，我遗漏了哪些内容使我能够使用Scrapy从绝对路径和相对路径下载文件？我很感激你的帮助。我对所有这些组件如何协同工作以及如何获得所需的行为感到迷茫。后台：我使用了浏览Scrapy文档、在GitHub上找到类似的示例以及拖网搜索StackOverflow以获得答案的组合，但我无法让Scrapy文件管道以我想要的方式工作。我正在寻找相当基本的目标网站，这些网站有许多文件，主要是PDF和JPG，它们作为绝对路径或相对路径在a href或img src选择器下链接。我想下载所有这些文件。我的理解是，response.follow将遵循相对路径和绝对

浏览 2提问于2018-02-04得票数 0

1回答

Python下载文件夹中的图像

、

我有一个Python和Scrapy的问题，我使脚本仍然有效，并将所有的数据放在MongoDB上，但当他抓取时，他仍然只在数据库中拍摄照片，但我想以此结构下载/项目/照片/链接页面/名称.jpg 这里有我的代码！这是Itmes.py import scrapy from PIL import Image class RedditItem(scrapy.Item): ''' Defining the storage containers for the data we plan to scrape '''

浏览 3提问于2018-02-28得票数 0

1回答

刮除-存档和压缩所有下载的图像

、、

我正在使用Scrapy从一个大型的在线数据库下载图像。我用过ImagesPipeline ITEM_PIPELINES = {'scrapy.contrib.pipeline.images.ImagesPipeline': 1} IMAGES_STORE = './images' 它就像一种魅力！问题：--我在images文件夹(>100000)中有很多图像填充。我想知道是否有办法更好地处理这个卷：下载新图像时，将其附加到归档文件中，当爬行完成后，压缩归档文件。或在下载了许多图像(例如，1000)之后，将这些图像存储在自己的新文件夹

浏览 1提问于2015-07-23得票数 0

2回答

从file_path重写FilesPipeline

、

我想修改下载文件的输出文件夹，基于，file_path可以被覆盖，我尝试了下面的代码，但似乎我没有工作。顺便说一句，我是刚开始吃蟒蛇的。 pipelines.py from scrapy.pipelines.files import FilesPipeline class secFilesPipeline(FilesPipeline): def file_path(self, request, response=None, info=None): ## start of deprecation warning block (can be removed in the futu

浏览 5提问于2017-09-12得票数 1

回答已采纳

1回答

抓取进入下一页并下载所有文件

、、、、

我对抓取和python很陌生，我可以从URL获得详细信息，我想进入链接并下载所有文件(.htm和.txt)。我的密码 import scrapy class legco(scrapy.Spider): name = "sec_gov" start_urls = ["https://www.sec.gov/cgi-bin/browse-edgar?company=&match=&CIK=&filenum=&State=&Country=&SIC=2834&owner=exclude&Find=Find+

浏览 1提问于2018-11-15得票数 1

回答已采纳

1回答

如何从python列表中创建类似菜单的树？

、、、、

我有包含文件夹的列表中的文件名。该列表包含2000个文件名，如下所示 Countries/US/newyork/file1.pdf Countries/Australia/Sydney/file1.pdf Countries/Canada/Toronto/bla/blabla/file2.pdf 诸若此类。我想在数据库中索引这些文件，这样我就可以有分层的目录结构。在我的Django应用程序中，我想首先显示根级菜单，如下所示 countries --- US , Australia, canada 然后，如果有人点击了country，它就会进入第二级文件夹，依此类推，最后，如果没有更多的文件

浏览 0提问于2013-06-21得票数 0

回答已采纳

1回答

如何使用文件管道用Python/Scrapy下载(PDF)文件？

、

在Windows 10上使用Python3.7.2，我很难让Scrapyv1.5.1下载一些PDF文件。我跟踪了，但似乎错过了什么。Scrapy为我提供了所需的PDF URL，但没有下载任何。此外，也不会引发错误(至少)。有关守则是： scrapy.cfg： [settings] default = pranger.settings [deploy] project = pranger settings.py： BOT_NAME = 'pranger' SPIDER_MODULES = ['pranger.spiders'] NEWSPIDER_MODUL

浏览 1提问于2019-02-20得票数 1

回答已采纳

1回答

安装Scrapy windows 7

、、、、

我正在尝试通过上的官方Scrapy指南安装Scrapy 在所说的指南中，它提到你需要4个已经安装的软件来完成安装。所以我成功地安装了Python 2.9.10，安装了'pip.‘’。并检查它们是通过'python/pip --version‘安装的，这是Scrapy安装指南中建议的检查方法。但是，我很困惑如何安装点3，即'lxml‘和点4’pyOpenSSL‘。对于第3点，还有另一个复杂的安装指南()。如果我没有‘静态二进制分发’，那么我需要再下载两个文件，我继续下载了，安装完全不清楚，就像一堆随机的文件名，我的电脑甚至不能识别'.rpm‘文件。通常有一个&

浏览 0提问于2015-06-05得票数 1

1回答

下载图片会导致值重复并给出错误

、

Spider运行正常，并将数据保存在mongodb中，但突然开始在数据库、json和csv中保存重复的值，我删除了下载图像的代码，它工作得很好，但我需要图像，有人能帮我吗？提前谢谢。 items.py 导入scrapy class BucketItem(scrapy.Item): # define the fields for your item here like: store_name = scrapy.Field() category = scrapy.Field() sub_category = scrapy.Field() name = scrapy.Field() unit = s

浏览 0提问于2019-11-05得票数 0

2回答

如何阻止Scrapy CrawlSpider访问超过要求的URL？

、

我想写一个抓取pdfs从网站。到目前为止，爬虫在下载pdf方面运行良好。然而，它遵循许多链接的方式，即使我已经尝试了几件事来防止它这样做。据我所知，我可以限制scrapy的Crawlspider使用LinkExtractor的规则来跟踪链接。我已经构建了一个自定义的Linkextractor (也尝试在没有自定义LinkExtractor的情况下直接构建规则，但结果是相同的。) 基本上我只想从页面上拉.pdf，任何链接，这不是以.pdf结束不应该被抓取。到目前为止，下面的代码工作正常，只有pdf使用parse_docs()方法保存，然而，我希望非pdf链接永远不会被发送到parse_d

浏览 28提问于2019-10-08得票数 1

1回答

使用SQL对表中的数据进行分类/分组

、、

我已经将特定文件的物理位置与下载计数器一起存储在我的数据库中，以便通过较短的urls (如/Download/a4s )提供下载。每个文件都有一个通过外键分配的categoryId，外键只描述它属于哪个课程/讲座，以便进行简单的概述。表fileCategories基本上如下所示 categoryId | categoryName --------------------------- 1 | Lecture 1 2 | Lecture 2 3 | Personal Stuff 假设我有一个files表，它与我省略的其他列类似 fileId

浏览 1提问于2015-10-21得票数 0

回答已采纳

1回答

刮伤不会产生结果(爬行0页)

试图找出刮刮是如何工作的，并使用它来查找论坛上的信息。 items.py import scrapy class BodybuildingItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() pass spider.py from scrapy.spider import BaseSpider from scrapy.selector import Selector from bodybuilding.items import Bodybuildi

浏览 4提问于2017-10-06得票数 0

回答已采纳

1回答

将Scrapy指向本地缓存，而不是执行正常的爬行过程

、、

我使用管道将Scrapy爬行中的文档缓存到数据库中，这样，如果我更改了项目解析逻辑，就可以重新解析它们，而不必再次访问服务器。让Scrapy从缓存中处理而不是尝试执行常规抓取的最好方法是什么？我喜欢scrapy对CSS和XPath选择器的支持，否则我会用lxml解析器单独访问数据库。有一段时间，我根本没有缓存文档并以正常的方式使用Scrapy -即时解析项目-但我发现更改项目逻辑需要耗费大量的时间和资源。相反，我现在将文档正文与项解析一起缓存，并且我希望能够让Scrapy遍历数据库中的这些文档，而不是爬行目标URL。我该如何修改Scrapy，让我可以选择传递一组文档，然后像从web上下

浏览 1提问于2015-09-05得票数 3

2回答

用base64编码字符串生成PDF

、、

我正在使用一个API，它为我提供了base64编码的内容。我们可以通过将内容保存到.pdf文件来下载PDF文件。在API文档中，很清楚地提到了包含发票内容的PDF。使用Base64字符串对内容进行编码，以创建一个Base64 64编码的.pdf文件。您可以查询此字段以下载发票PDF以获取特定的发票。查询后，可以将字符串保存到.pdf文件中，然后在任何PDF阅读器中查看该文件。我正在使用TCPDF编写PDF文件中的内容。但是它生成一个空白的PDF文件。 $PDF =新PDF(“测试标题”，“测试主题”)； $PDF->GetTCPDF()->write(0，0，&#

浏览 3提问于2015-06-14得票数 0

回答已采纳

1回答