Spider运行正常,并将数据保存在mongodb中,但突然开始在数据库、json和csv中保存重复的值,我删除了下载图像的代码,它工作得很好,但我需要图像,有人能帮我吗?提前谢谢。
items.py
导入scrapy
class BucketItem(scrapy.Item):
# define the fields for your item here like:
store_name = scrapy.Field()
category = scrapy.Field()
sub_category = scrapy.Field()
name = scrapy.Field()
unit = s
在页面中,用户必须键入一些字段才能下载最重要的西班牙广播公司的频道时间表。一旦用户填写表单并单击Exportar按钮,浏览器将自动开始下载扩展名为formato下拉列表的文件。
现在,从我的Chrome浏览器可以很容易地获得文件。但是,我想用一个Scrapy脚本自动完成这个任务,下面您可以找到我到目前为止所做的工作:
from scrapy.item import Item, Field
from scrapy.http import FormRequest
from scrapy.spiders import Spider
from scrapy.selector import Select
我试着下载PDF,但在的情况下,我没有看到任何.pdf链接,这些链接可以被Scrapy抓取。此示例显示了URL .pdf中缺少的。
Scrapy也能够处理getfile.asp链接来检测文件本身吗?
这是获取特定页面上所有pdf链接的方法:
import scrapy
from scrapy.pipelines.files import FilesPipeline
class PdfPipeline(FilesPipeline):
# to save with the name of the pdf from the website instead of hash
def
我对scrapy和python很陌生,我可以下载所有的文件,但是我只想下载特定的Type文件"EX-10",这样它就可以下载下面的文件。( Ex-10.1,Ex-10.2至EX-10.99)。
我的密码
import scrapy, os
class legco(scrapy.Spider):
name = "sec_gov"
start_urls = ["https://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&SIC=2834&owner=exclude&matc
我试图爬行一个网站,搜索所有的JS文件来下载它们。我刚接触Scrapy,我发现我可以使用CrawlSpider,但我似乎对LinkExtractors有一个问题,因为我的解析器没有执行。
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class JSDownloader(CrawlSpider):
name = 'jsdownloader'
allowed_domains = ['example
使用Python版本2.7.10,我下载了Scrapy,而在版本1.4.0上,我质疑我到底需要在哪里安装这些东西?我将文件名从scrapy.py更改为scrapy123.py,但无济于事。我很沮丧!高可用性
收到臭名昭著的错误:
Traceback (most recent call last):
File "/Users/william/PycharmProjects/scrapy123.py", line 1, in <module>
import scrapy
ModuleNotFoundError: No module named 'sc
试图找出刮刮是如何工作的,并使用它来查找论坛上的信息。
items.py
import scrapy
class BodybuildingItem(scrapy.Item):
# define the fields for your item here like:
title = scrapy.Field()
pass
spider.py
from scrapy.spider import BaseSpider
from scrapy.selector import Selector
from bodybuilding.items import Bodybuildi
我用python编写了一个脚本,从一个网站下载一些图片。当我运行脚本时,我可以在控制台中看到图像的链接(它们都是.jpg格式的)。但是,当我打开当下载完成时应该保存图像的文件夹时,我在里面什么都没有。我在哪里犯错误?
这是我的蜘蛛(我在逃避崇高的文本编辑器):
import scrapy
from scrapy.crawler import CrawlerProcess
class YifyTorrentSpider(scrapy.Spider):
name = "yifytorrent"
start_urls= ['https://www.yify
我在scrapy项目的spiders目录中创建了以下文件。我面临的问题是middlewares.py内部的函数,即process_request和process_response没有被调用。这可能是什么原因呢?
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
def start_requests(self):
urls = [
'https://liv.ai/'
]
for url in u
我创建了一个脚本,使用python的scrapy模块从一个洪流站点下载并重命名多个页面上的电影图像,并将它们存储在桌面文件夹中。在下载这些图像并将其存储在桌面文件夹中时,我的脚本也是一样的。然而,我现在所要做的是动态地重命名这些文件。由于我没有使用item.py文件,而且我也不希望这样做,我很难理解pipelines.py文件的逻辑将如何处理重命名过程。
我的蜘蛛(It downloads the images flawlessly):
from scrapy.crawler import CrawlerProcess
import scrapy, os
class YifySpider(s
import scrapy
from scrapy.crawler import CrawlerProcess
from scrapy.pipelines.files import FilesPipeline
from urllib.parse import urlparse
import os
class DatasetItem(scrapy.Item):
file_urls = scrapy.Field()
files = scrapy.Field()
class MyFilesPipeline(FilesPipeline):
pass
class Dat