Scrapy:meta['proxies']还是meta['proxy']？

Scrapy中使用meta['proxy']来设置代理，而不是meta['proxies']。

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地抓取网页数据。它提供了丰富的功能和灵活的配置选项，使开发者能够轻松地编写和管理爬虫程序。

在Scrapy中，meta是一个字典，用于存储请求的元数据。其中，meta['proxy']用于设置请求的代理。代理是一种通过中间服务器转发请求和响应的技术，可以隐藏真实的IP地址，实现匿名访问和绕过访问限制。

使用代理可以带来以下优势：

提高爬虫的稳定性和可靠性：通过使用代理，可以避免被目标网站封禁IP，减少被反爬虫机制识别的风险。
提高爬取效率：通过使用多个代理IP，可以实现并发请求，加快数据抓取速度。
实现地理位置伪装：通过选择不同地区的代理IP，可以模拟不同地理位置的访问，获取特定地区的数据。

在Scrapy中，可以通过以下方式设置代理：

在Spider中使用meta['proxy']属性：可以在Spider的start_requests方法中设置请求的meta属性，如：

yield scrapy.Request(url, meta={'proxy': 'http://代理IP:端口号'})

在settings.py配置文件中设置DOWNLOADER_MIDDLEWARES：可以在Scrapy的配置文件中添加中间件，实现全局的代理设置。

腾讯云提供了一系列与云计算相关的产品，其中包括云服务器、云数据库、云存储等。如果您需要在腾讯云上部署Scrapy爬虫，可以考虑使用以下产品：

云服务器（CVM）：提供弹性的虚拟服务器，可以根据实际需求灵活调整计算资源。
云数据库MySQL版（CDB）：提供高可用、可扩展的关系型数据库服务，适用于存储爬取的数据。
对象存储（COS）：提供安全、可靠的云端存储服务，适用于存储爬取的图片、文件等非结构化数据。

您可以通过访问腾讯云官网了解更多关于这些产品的详细信息和使用指南。

参考链接：

Scrapy官方文档：https://docs.scrapy.org/
腾讯云官网：https://cloud.tencent.com/

为什么代理程序在Scrapy中失败，但是在python请求库下发出了成功的请求？

、、、、

我有一个包括100个代理的列表，为了测试它们，我向google提出了一个请求并检查了响应。当通过python请求运行这些请求时，每个请求都会成功返回，但是在Scrapy下尝试相同的请求时，99%的代理失败。我是不是漏掉了什么东西，还是在“刮刮”中使用了错误的代理？代理以格式存储在文件中。 http://123.123.123.123:8080 https://234.234.234.234:8080 http://321.321.321.321:8080 ... 下面是我用来用python请求测试它们的脚本 import requests proxyPool = [] with open(

浏览 1提问于2020-10-01得票数 1

回答已采纳

4回答

如何使用Socks5代理擦伤请求？

、、、

问题：如何用代理socks5请求我知道我可以用实现但：我想设置一个中间件，或者在scrapy.Request中做一些修改 import scrapy class BaseSpider(scrapy.Spider): """a base class that implements major functionality for crawling application""" start_urls = ('https://google.com') def start_requests(sel

浏览 12提问于2019-11-28得票数 7

回答已采纳

1回答

通过代理的Scrapy请求似乎不起作用，我是不是遗漏了什么？

、、、

我一直在尝试使用代理，但我似乎不能让它工作，我的settings.py： BOT_NAME = 'linkmailscraper' SPIDER_MODULES = ['linkmailscraper.spiders'] NEWSPIDER_MODULE = 'linkmailscraper.spiders' # Retry many times since proxies often fail RETRY_TIMES = 5 # Retry on most error codes since proxies fail for differ

浏览 26提问于2021-03-11得票数 0

2回答

刮除: 403错误对所有请求

、、、

我的刮痕爬虫使用，它在我的电脑上工作。但是，当我在vps上运行它时，它会在每个请求上返回403错误。 2018-05-26 09:43:18 [scrapy.proxies] DEBUG: Proxy user pass not found 2018-05-26 09:43:18 [scrapy.proxies] DEBUG: Using proxy <http://104.237.210.29:2716>, 20 proxies left 2018-05-26 09:43:19 [scrapy.downloadermiddlewares.retry] DEBUG: Retryin

浏览 2提问于2018-05-26得票数 0

回答已采纳

1回答

抓取:使用代理下载错误

、、

我可以在不使用代理的情况下抓取页面。但是，当我添加代理时，scrapy会给出Error downloading: Connection was refused by other side: 61: Connection refused或[<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion.>]，或者引发超时异常。代理都在http类型中。下面是我添加到setting.py中

浏览 4提问于2016-07-02得票数 0

回答已采纳

2回答

除非有有效的响应，否则无法一个一个地使用代理。

、、、、

我在python的scrapy中编写了一个脚本，使用get_proxies()方法生成的代理进行代理请求。我使用requests模块获取代理，以便在脚本中重用它们。但是，问题是，我的脚本选择使用的代理可能不是好的代理，因此有时它无法获取有效的响应。如何让我的脚本继续尝试使用不同的代理，直到有一个有效的响应？到目前为止我的剧本： import scrapy import random import requests from itertools import cycle from bs4 import BeautifulSoup from scrapy.http.request im

浏览 2提问于2019-02-21得票数 6

回答已采纳

2回答

在scrapy中使用try/ get子句无法获得想要的结果

、、、

我在scrapy中编写了一个脚本，通过get_proxies()方法使用新生成的代理发出代理请求。我使用requests模块获取代理，以便在脚本中重用它们。我要做的是解析它的中的所有电影链接，然后从它的中获取每部电影的名称。下面的脚本可以使用代理的旋转。我知道有一个更容易的方法来改变代理，就像这里描述的，，但是我仍然想坚持我在这里尝试的方式。这是我当前的尝试(它一直使用新的代理来获取有效的响应，但每次得到503 Service Unavailable)： import scrapy import random import requests from itertools import c

浏览 1提问于2019-04-29得票数 1

回答已采纳

1回答

从scrapy函数中向API提出请求

、

我在和刮伤一起工作。我希望在每个请求的基础上旋转代理，并从返回单个代理的api中获得代理。我的计划是向api发出请求，获得一个代理，然后使用它来根据以下内容设置代理： http://stackoverflow.com/questions/4710483/scrapy-and-proxies 我将使用以下方法分配它： request.meta['proxy'] = 'your.proxy.address'; 我有以下几点： class ContactSpider(Spider): name = "contact" def parse(

浏览 0提问于2016-09-10得票数 0

回答已采纳

1回答

为什么scrapy不使用随机代理下载器中间件？

我正在使用与scrapy，以便通过轮换代理从I做请求。这完全停止了工作，而我的IP被使用了。所以我想知道是不是有后备，或者我不小心更改了配置。我的设置如下所示： DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400, 'scrapy.downloadermidd

浏览 2提问于2018-12-27得票数 0

1回答

如何在scrapy中使用旋转代理？

这是我在pip install scrapy-rotating-proxies之后用setting.py写的 ROTATING_PROXY_LIST = ['http://209.50.52.162:9050'] DOWNLOADER_MIDDLEWARES = { 'rotating_proxies.middlewares.RotatingProxyMiddleware': 610, 'rotating_proxies.middlewares.BanDetectionMiddleware': 620 } 如果我像这样运行爬行器，sc

浏览 10提问于2021-05-03得票数 0

回答已采纳

1回答

如何在python的Scrapy代码中设置环境变量？

我想使用代理连接的剪贴画，并希望使用说的http和https。最简单的方法是设置环境变量http_proxy和https_proxy。但是如果我设置了变量，我在使用我的公司系统时会有一些冲突。我想把这些设置放到python代码中。因此，我使用HttpProxyMiddleWare Scrapy提供并编写了一些代码，如下所示。 import base64 class ProxyMiddleWare(object): def process_reqeust(self, reqeust, spider): http_proxy = "http://70.10.1

浏览 3提问于2015-12-15得票数 2

1回答

使用专用代理

、、、

我正在使用自定义配置的VM作为代理服务器(通过squid)，现在我尝试将它用于我的刮板。我正在使用来旋转我的ip列表定义，但问题是，我的代理在第一次尝试时就被视为死了，即使我已经验证了代理地址是活的并且工作得很好(我通过在火狐中设置一个代理来测试它，并试图同时浏览http和https网页。为测试目的，代理服务器是无密码的。刮擦设置 DOWNLOADER_MIDDLEWARES = { "scrapy.downloadermiddlewares.useragent.UserAgentMiddleware": None, "scrapy.downloade

浏览 16提问于2022-12-02得票数 0

回答已采纳

1回答

Scrapy使用代理获取错误-- twisted.python.failure.Failure OpenSSL.SSL.Error

、、、

我是scrapy的新手，我正在尝试使用一些代理来抓取一些craigslist页面，但我得到了一些错误，如下所示。我尝试了scrapy shell "https://craigslist.org"命令，它似乎工作得很好。据我所知，如果我想使用代理，我必须构建定制的Downloader Middleware。我已经在这里这样做了： class ProxyConnect(object): def __init__(self): self.proxies = None with open(os.path.join(os.getcwd(), &#

浏览 0提问于2016-06-04得票数 1

1回答

Scrapy错误:下载<GET>时出错，无法打开连接通道

、

我知道这个问题是在这里问的但我没有找到解决方案，因为我没有足够的声誉，我不能在那里发表评论并寻求答案。下面是我的settings.py文件代码 DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110, 'clientemails.middlewares.ProxyMiddleware': 100, } PROXIES = [{'ip_port': '74.118.91.233:8080'

浏览 1提问于2015-09-19得票数 2

1回答

如何使用自动旋转代理的scrapy？

、、

我有一个来自storm proxy的自动旋转代理，但我不知道如何正确使用scrapy。对于我发出的所有请求，IP都保持不变。storm proxies的支持表明，需要关闭当前连接才能更改IP。但我不知道如何关闭连接或每次创建一个新请求，或者有其他方法吗？这是我现在的代码。 import scrapy import scraper_helper class EbayfastSpider(scrapy.Spider): name = 'test' custom_settings = { 'CONCURRENT_REQUESTS'

浏览 25提问于2021-05-04得票数 1

回答已采纳

1回答

使用Scrapy和Crawlera抓取HTTPS页面

、、、

我想，如果有可能爬行https网页使用scrapy +爬虫。到目前为止，我使用的Python请求具有以下设置： proxy_host = 'proxy.crawlera.com' proxy_port = '8010' proxy_auth = 'MY_KEY' proxies = { "https": "https://{}@{}:{}/".format(proxy_auth, proxy_host, proxy_port), "http": "http://{}@

浏览 10提问于2019-01-05得票数 1

3回答

是否可以通过带有Scrapy的代理访问https页面？

、、、

我可以通过Scrapy中的代理成功地访问http页面，但我不能访问https站点。我研究过这个话题，但对我来说还不清楚。是否可以通过带有Scrapy的代理访问https页面？我需要补点什么吗？或者添加一些自定义代码？如果可以确认这是一个标准的功能，我可以跟进更多的细节。希望这是一件容易的事。编辑：下面是我添加到设置文件中的内容： DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110, 'test_website.middlewares.P

浏览 2提问于2015-08-12得票数 2

1回答

scrapy在第三次尝试后崩溃

、

我想使用代理来抓取一个网站，但在第三次尝试后，crowler崩溃了。这是我正在使用的代码。我有一个很大的代理数据库，我使用的是scrapy-rotating-proxies库。所以我得到了代理并将它们设置为ROTATING_PROXY_LIST。crowler启动并在一段时间后崩溃，没有检查下一个代理，也没有下载页面。 import scrapy,sqlite3 from scrapy.crawler import CrawlerProcess from rotating_proxies.policy import BanDetectionPolicy from rotating_proxi

浏览 34提问于2020-10-21得票数 0

1回答

在Scrapy中根据url设置代理

、、、、

我有一个网址列表，其中一些包含.onion站点和其他清晰的网站，我想知道是否有一种方法来设置Scrapy，以便根据该URL，它要么为普通的.com和.net站点使用专用的清除网络代理，要么为.onion站点使用Socks5代理。 def random_dedicate_proxy(): dedicated_ips = [ proxy1, proxy2, proxy3 ] dedicated_proxies = [{'http':'http://' + ip, 'https':'https:

浏览 4提问于2017-05-08得票数 0

回答已采纳

1回答

无法在Scrapy项目中使用代理

、、、、

我一直试图抓取一个网站，似乎已经确定并阻止了我的IP，并正在抛出一个429太多的请求响应。我从这个链接安装了scrapy：，并按照给定的说明执行。我从这里得到了一个代理列表：，现在是我的settings.py和proxylist.txt的样子： Settings.py BOT_NAME = 'project' SPIDER_MODULES = ['project.spiders'] NEWSPIDER_MODULE = 'project.spiders' # Retry many times since proxies often fail R

浏览 2提问于2017-11-07得票数 5

回答已采纳

1回答

Scrapy:meta['proxies']还是meta['proxy']？

、

我在scrapy方面是新手。我在scrapy爬虫中使用了一个自定义代理，但我发现如果我使用request.meta“代理”，爬虫会工作得很好，而不是使用request.meta“proxy”。这与不同如果我使用request.meta‘’proxy‘，这是我调试消息的一部分。 2018-09-07 15:48:45 [scrapy.core.engine] INFO: Spider opened 2018-09-07 15:48:45 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0

浏览 51提问于2018-09-07得票数 0

1回答

使用叶代理代理进行刮取，ValueError:端口不能转换为整数值。

、、

我是个喜欢刮擦三个月的人。因为我真的很喜欢刮擦，所以我最后很沮丧，并且兴奋地从Leafpad购买了一个代理包。不幸的是，当我把它们上传到我的爬行蜘蛛时，我重新看到了ValueError：我用刮-旋转-代理来整合代理。我添加了代理，它们不是数字，而是字符串urls，如下所示： ROTATING_PROXY_LIST = [ "us-retail-fast.resdleafproxies.com:5000:ksre9jXXXXXXXXI38HJg5:XXX9nh", "us-retail-fast.resdleafproxies.com:5000:ksr

浏览 4提问于2022-02-20得票数 0

回答已采纳

1回答

在Scrapy中编程重置TCP连接

、、、、

我目前正在抓取一个网站，禁止IP，如果它在短时间内请求太多的页面。当发生这种情况时，它会在响应中给出一个403 status code。如果IP地址不更新，crawler将使以下所有请求失败。因此我添加了一个HTTP代理，它是一个托管数百个IP的集线器，并为每个TCP连接分配一个随机的IP。 >>> import requests >>> proxies = {"https": "https://user:pass@proxyservice.com"} >>> s = requests.Session()

浏览 18提问于2019-06-27得票数 1

1回答

python中的Scrapy TCP连接超时问题

我在python中的"start_requests“函数中有一个问题。我正在使用代理和端口从另一个网站抓取数据。但是我得到了： scrapy.extensions.logstats信息:已爬网1页(以0页/分钟)，抓取0个项目(以0项/分钟) scrapy.downloadermiddlewares.retry调试:正在重试 (失败2次)：TCP连接超时: 110:连接超时。我的代码是： def get_proxy(self): self.conn = MySQLdb.connect( settings['MYSQL_HOST'],

浏览 25提问于2020-02-06得票数 0

1回答

如何将代理与scrapy -request和scrapy一起使用

、、、

我希望有人能帮助我，我正在尝试使用scrapy -request包和scrapy，这样我就可以渲染整个页面。()我似乎不能将代理传递给它，我看到了 from scrapy_requests import HtmlRequest yield HtmlRequest(url=url, callback=self.parse, render=True) 为scrapy继承。请求我尝试过通过元参数传递代理，就像您要做的那样 yield scrapy.Request(url=url,meta=proxy) 但这并不管用。因此，我开始摆弄它附带的中间件，并将spider_open函数编辑为 de

浏览 0提问于2021-03-02得票数 0

1回答

如何在Scrapy中使用下载器中间件

、、、

我正在使用刮除一些网页。我编写了我的自定义ProxyMiddleware类，在其中我用process_request(self，request，spider)方法实现了我的需求。这是我的代码(复制)： class ProxyMiddleware(scrapy.downloadermiddlewares.httpproxy): def __init__(self, proxy_ip=''): self.proxy_ip = proxy_ip def process_request(self,request,spider): ip = random.choice(

浏览 1提问于2015-10-08得票数 5

1回答

Python Scrapy代理在几轮之后就死了？

、

我想建立一个与scrapy亚马逊爬虫。它起作用了，但在经过大约10个好的代理之后，每个下一个代理都会获得Proxy <IP:PORT> is DEAD 我不明白为什么..。那是我的中间件 DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400, 'rota

浏览 18提问于2019-11-07得票数 1

1回答

用旋转的代理程序运行刮擦飞溅

、、、

我试着用刮擦带飞溅和旋转代理。这是我的settings.py： ROBOTSTXT_OBEY = False BOT_NAME = 'mybot' SPIDER_MODULES = ['myproject.spiders'] NEWSPIDER_MODULE = 'myproject.spiders' LOG_LEVEL = 'INFO' USER_AGENT = 'Mozilla/5.0' # JSON file pretty formatting FEED_EXPORT_INDENT = 4 # Suppr

浏览 1提问于2018-01-22得票数 3

1回答

如何用刮刀实现丙氧基齿条

、

最近，我从Proxy齿条上购买了IP轮转服务，我想和Scrapy一起使用。但是，作为他们的python示例，我很难用Scrapy实现。请帮帮我。这是他们的代码，但我想用刮伤来申请 import requests username = "vranesevic" password = "svranesevic" PROXY_RACK_DNS = "megaproxy.rotating.proxyrack.net:222" urlToGet = "http://ip-api.com/json" proxy = {"htt

浏览 1提问于2020-11-11得票数 1

回答已采纳

2回答

Scrapy在启动后立即完成

我不知道为什么，但我的抓痕大多数时候是在它开始后立即停止爬行。有时他的工作与爬行，但大多数时候，他开始，获得200页和即时停止。 2019-11-08 08:15:41 [scrapy.core.engine] INFO: Spider opened 2019-11-08 08:15:41 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2019-11-08 08:15:41 [scrapy.extensions.telnet] INFO

浏览 2提问于2019-11-08得票数 2

2回答

Python不重试超时连接

、、、

我用了一些代理程序来爬行一些网站。下面是我在settings.py做的事情： # Retry many times since proxies often fail RETRY_TIMES = 10 # Retry on most error codes since proxies fail for different reasons RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408] DOWNLOAD_DELAY = 3 # 5,000 ms of delay DOWNLOADER_MIDDLEWARES = {

浏览 6提问于2013-12-12得票数 9

回答已采纳

2回答

Scrapy忽略settings.py

scrapy忽略我的settins.py 我的scraper.py import scrapy class BlogSpider(scrapy.Spider): name = 'blogspider' start_urls = ['https://www.doctolib.de/directory/a'] def parse(self, response): if not response.xpath('//title'): yield Request(url=resp

浏览 10提问于2017-02-12得票数 0

1回答

如何在刮刮中使用代理文件？

、、

我拿到了proxybroker的代理名单。 sudo pip install proxybroker proxybroker grab --countries US --limit 100 --outfile proxies.txt 使用grep将<Proxy US 0.00s [] 104.131.6.78:80>格式转换为104.131.6.78:80。 grep -oP \([0-9]+.\){3}[0-9]+:[0-9]+ proxies.txt > proxy.csv proxy.csv中的所有代理都采用以下格式。 cat proxy.csv 104.1

浏览 0提问于2017-10-27得票数 2

2回答

Python3.5："TypeError:内存视图:需要一个类似字节的对象，而不是‘str’。“

、

我使用python 3.5.2和scrapy 1.1.1。运行以下代码时出错： #-*- coding:utf-8-*- import random import base64 class ProxyMiddleware(object): def process_request(self, request, spider): proxy = random.choice(PROXIES) if proxy['user_pass'] is not None: request.meta['proxy

浏览 2提问于2016-07-24得票数 8

回答已采纳

1回答

错误Web抓取页不能重新连接，但可以重新启动

、、、、

我正在抓取一个网站，有时它会发送给我这个信息，并且不会重新连接到目标网页。 2020-08-18 22:37:30 [rotating_proxies.middlewares] INFO: Proxies(good: 1, dead: 0, unchecked: 0, reanimated: 0, mean backoff time: 0s) 2020-08-18 22:38:00 [scrapy.extensions.logstats] INFO: Crawled 116421 pages (at 35 pages/min), scraped 116421 items (at 35 item

浏览 0提问于2020-08-19得票数 0

回答已采纳

1回答

如果一个代理是好的，那么如何只坚持该代理，直到被禁止，然后转移到另一个，在刮刮-代理-轮换？

、

昨天，我问了一个，从答案我发现我需要使用代理来刮那个网站。所以我在这个脚本中实现了。这里是已更改的settings.py ROTATING_PROXY_LIST_PATH = '/my/path/proxies.txt' DOWNLOADER_MIDDLEWARES = { 'rotating_proxies.middlewares.RotatingProxyMiddleware': 610, 'rotating_proxies.middlewares.BanDetectionMiddleware': 620, } ROBO

浏览 5提问于2019-10-06得票数 2

1回答

无法在Scrapy Cloud上加载代理列表

、

模块im使用指定的"“设置，如果链接到pc上现有的txt磁贴，则在PC上可以正常工作。我尝试了几种时间不同的方式在settings.py文件中的剪贴云。除了上传到"“之外，我还将文件"proxylist.txt”添加到与项目设置相同的文件夹中。我将名称替换为: PROXY_LIST = '‘或PROXY_LIST = 'proxylist.txt’或PROXY_LIST = '/proxylist.txt‘PROXY_LIST = '../proxylist.txt’ 如果我在我的PC上像PROXY_LIST = 'prox

浏览 2提问于2017-05-29得票数 0

1回答

python scrapy转换为exe文件使用pyinstaller

、、

我正在尝试转换一个scrapy脚本到一个exe文件。main.py文件如下所示： from scrapy.crawler import CrawlerProcess from amazon.spiders.amazon_scraper import Spider spider = Spider() process = CrawlerProcess({ 'FEED_FORMAT': 'csv', 'FEED_URI': 'data.csv', 'DOWNLOAD_DELAY': 3,

浏览 2提问于2018-05-24得票数 2

1回答

为什么python scrapy显示"twisted.internet.error.TimeoutError“错误

、

我正在尝试使用python scrapy删除一个页面。经过一些报废操作后，scrapy正在退出显示 twisted.internet.error.TimeoutError error 下面是我的代码： #infobel_spider.py from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http.request import Request from scrapy.http import FormRequest from infobel.items im

浏览 0提问于2012-05-01得票数 1

回答已采纳

1回答

如何在Scrapy中使用带有密码的PROXY_LIST？

、

我需要使用不同的代理以避免被禁止。我读过和我把我的代理放在proxylist.txt里 http://xx.xx.xxx.xxx:port http://xxx.xxx.xx.xxx:port http://xx.xx.xxx.xxx:port http://xxx.xxx.xx.xxx:port 我把它设置在custom_settings中 class MyClass(scrapy.Spider): reload(sys) sys.setdefaultencoding('utf8') start_time = time.time() nam

浏览 1提问于2017-10-04得票数 2

回答已采纳

1回答

使用代理中间件抓取Amazon

、、

class HttpProxyMiddleware(object): ###never retry these errors def __init__(self, settings): socket.setdefaulttimeout(3) self.proxies = [] self.proxy_index = 1 ##plant proxies self.proxy_list = settings.get('PROXY_LIST') fin = open(s

浏览 1提问于2016-06-08得票数 0

1回答

刮擦误差

、、、、

这就是我想要做的。我想刮一些网站的电子邮件。我有一个文件，我可以用它输入所有的url列表。这就是我试图提取电子邮件的方式： import scrapy import datetime import re from scrapy.spiders import CrawlSpider from techfinder.items import EmailItem from scrapy.selector import HtmlXPathSelector class DetectSpider(scrapy.Spider): name = "test" start_

浏览 1提问于2017-02-09得票数 0

回答已采纳

3回答

刮擦不改变代理

、、

当我试图用Scrapy测试代理时，我有一个问题。我想用httpbin.org检查代理，并制作爬虫： class CheckerSpider(scrapy.Spider): name = "checker" start_urls = ( 'https://www.httpbin.org/ip' ) connection = get_connection() def start_requests(self): with self.connection.cursor() as cursor:

浏览 3提问于2016-02-23得票数 3

回答已采纳

1回答

什么是正确的使用代理在刮刮？

、、、

我的密码是 import scrapy from scrapy import log from scrapy.exceptions import IgnoreRequest class BlogSpider(scrapy.Spider): name = 'blogspider' start_urls = ['https://www.*****'] custom_settings = { 'DOWNLOAD_DELAY': '5', 'scrapy.downlo

浏览 3提问于2017-02-11得票数 0

2回答

start_requests :如何同时使用init_request和Scrapy？

、

我需要在开始抓取器之前对服务进行初始调用(初始调用给了我一些cookie和头文件)，我决定使用InitSpider并覆盖init_request方法来实现这一点。然而，我也需要使用start_requests来构建我的链接，并向特定的爬行器添加一些元值，如代理等，但我面临着一个问题。每当我覆盖start_requests时，我的爬虫就不再调用init_request，并且我不能进行初始化，为了让init_request正常工作，就不能覆盖start_requests方法，这在我的例子中是不可能的。对我的代码的任何建议或可能的解决方案： class SomethingSpider(InitSp

浏览 65提问于2021-06-21得票数 1

回答已采纳

3回答

如何在DJANGO中使用python获取客户端IP地址？

、

我有一个用python编程开发的django网站。我想存储观众唯一的ip地址时，有人访问我的网站。为此，我包含了如下代码。 def get_client_ip(request): """get the client ip from the request """ #remote_address = request.META.get('REMOTE_ADDR') remote_address = request.META.get('HTTP_X_FORWARDED_FOR')or re

浏览 0提问于2014-12-30得票数 1

2回答

TypeError：“_sre.SRE_Match”对象没有特性“”getitem“”

、

我目前收到了这个错误，不知道这是什么意思。这是一个糟糕的python项目，这是我看到的错误： File "/bp_scraper/bp_scraper/httpmiddleware.py", line 22, in from_crawler return cls(crawler.settings) File "/bp_scraper/bp_scraper/httpmiddleware.py", line 12, in __init__ if parts[1]: TypeError: '_sre.SRE_Match' obj

浏览 0提问于2014-03-11得票数 19

2回答

Privoxy和Tor的刮除:如何更新IP

、、、

我在和Scrapy，Privoxy和Tor打交道。我已经安装好并正常工作了。但是Tor每次都与同一个IP连接，所以我很容易被禁止。是否有可能告诉Tor每隔X秒或连接重新连接？谢谢! 关于配置的编辑:对于用户代理池，我执行了以下操作： (如注释中所述，我必须放置一个_ init _.py文件)，对于Privoxy和Tor，我遵循 (我必须用终端手动创建私有用户和私有组)。它奏效了:) 我的蜘蛛是这样的 from scrapy.contrib.spiders import CrawlSpider from scrapy.selector import Selector from scrapy.h

浏览 5提问于2017-07-10得票数 21

回答已采纳

1回答

如何使用Scrapy1.4.0从javascript中刮取数据？

、

对不起我的英语。我刚开始学刮痕，我需要一些指导。我在刮掉一些网站时遇到了问题。这是我的蜘蛛 import scrapy from bs4 import BeautifulSoup as bs class SomeSiteSpider(scrapy.Spider): name = 'somesite' def start_requests(self): urls = [ 'http://somesite.ru/proxies/' ] for url in urls:

浏览 2提问于2017-05-20得票数 0

回答已采纳

1回答

在http代码上调用process_exception

、、

我想改变代理服务取决于http响应代码(例如。在code=500或404上，我希望触发process_exception以更改代理地址。我已经创建了我自己的proxyMiddleware，我在process_request中设置了代理，也为ex设置了代理。当超时代理出现时，默认情况下调用process_exception。但是如何在自定义http状态下触发它呢？从刮伤的医生那里：当下载处理程序或process_request() (从下载器中间件)引发异常(包括IgnoreRequest异常)时，Scrapy调用IgnoreRequest() 但我不知道如何做到这一点。编辑我的蜘

浏览 2提问于2015-03-26得票数 2