Scrapy -当访问被拒绝时如何抓取网站[Lowes]

文章/答案/技术大牛

发布

1回答

、、、

因此，我正在尝试为Lowe的网站创建一个网络摩天大楼，但似乎该网站不允许使用机器人。当在scrapy shell上运行时，我得到：twisted.internet.error.TimeoutError: User timeout caused connection failure: 然后我运行命令：curl -v "https://www.lowes.com/pd/ZLINE-KITCHEN-BATH-ZLINE-24-2-8-cu-ft-Dual-Fuel-Range-w

浏览 34提问于2021-04-15得票数 0

1回答

Scrapy-查找正确的CSS选择器

、、

# -*- coding: utf-8 -*-from ..items import LowesspiderItem name = 'lowes' start_urls = ['https://www.lowes.com/pdart-pd

浏览 5提问于2020-03-28得票数 0

回答已采纳

2回答

如何为scrapy编写规则以添加访问过的urls

、、

当scrapy关闭时，它会忘记所有的urls。我想给scrapy一组网址，已抓取，当它是开始。如何向爬虫添加规则，让爬虫知道哪些urls被访问过？tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) 只需使用parse告诉爬虫抓取哪个我<

浏览 0提问于2012-11-28得票数 3

1回答

如果我想要抓取的图像被cloudflare保护并给出1020错误，有没有办法使用cheerio抓取网站？

、、、、

我正在尝试创建一个漫画抓取网站作为个人项目，当我完成整个网站时，我知道图像不能被我的网站抓取或查看，当我试图转到图像的链接时，我得到了1020错误，说明访问被拒绝，有什么方法可以绕过这个错误而不从网站所有者那里获得授权令牌，如果答案是否定的，那么谁能解释一下cloudflare是如何防止图像被抓取的，因为据我所知，前端的所有东西都可以被

浏览 92提问于2021-02-06得票数 2

回答已采纳

1回答

如何在使用scrapy框架进行抓取时排除已抓取的urls

、、

我正在抓取一个新闻网站，该网站提取新闻数据并将其转储到MongoDB。from MongoDB # do scraping hereclass NewsCraw

浏览 13提问于2021-05-12得票数 0

回答已采纳

1回答

如何使用scrapy或selenium抓取动态页面？

、、、、

我正在尝试抓取web动态页面，但使用scrapy时，我不能检索所有信息，因为我想要的信息是动态的。我试着使用Selenium，但与Scrapy不同的是，你不能指定头部，网站阻止了我。(我不能说出这个网站的名字，因为抓取是非法的，但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的页面(用脚本很难解决重新验证码)，因为网站会检测到我是机器人。我想拥有所有的动态信息，并有权访问网站，但不可能与seleni

浏览 23提问于2019-06-13得票数 0

1回答

抓取Justdial

、

我想从Justdial中抓取学校名称、地址和电话号码的数据。我已经准备好脚本了。我使用Scrappy和selenium。上面写着访问被拒绝。对于任何其他网站，当我使用scrappy使用fetch时，我们可以获得源代码，但对于Justdial，它显示访问被拒绝。import scrapy name = 'school&#x

浏览 17提问于2021-10-07得票数 0

1回答

不确定在Anaconda平台上加载Scrapy的位置

、

当涉及到抓取网站的话题时，我太天真了。到目前为止，我已经从预先生成的数据集中手动抓取或抓取数据。不过，我想解决一个分析问题，由于其规模，这个问题需要解决。因此，我决定尝试学习如何在python中刮刮。Scrapy是我被推荐使用的工具，所以这也是我将要使用的工具。我正在尝试按照教程加载我的第一个Scrapy项目，但遇到了一个障碍。当我尝试在Spyder中输入启动项目的代码来启动新项目时： impor

浏览 13提问于2020-01-29得票数 0

2回答

使用Selenium抓取lowes.com与BeautifulSoup价格问题

、、、

我正在尝试获取lowes.com产品的详细信息，下面是我尝试运行的脚本 from bs4 import BeautifulSoupdriver.close() 当我尝试执行此脚本时，price元素导致错误，该元素不存在，当我查看使用selenium打开的chrome

浏览 16提问于2021-05-06得票数 2

回答已采纳

1回答

403禁止或拒绝访问某些网站的原因？

、

当使用bs4从网站抓取时，它将响应对象显示为拒绝访问和禁止访问，如何解决此问题？

浏览 0提问于2017-11-03得票数 0

1回答

抓取响应: twisted.internet.error.TCPTimedOutError: TCP连接超时: 10060

、、、、

我从3个月前开始从一个网站上抓取数据，但今天我不能再访问这个网站，也不能用我的网络浏览器。该网站仍然可以通过移动电话访问。当我在Scrapy shell中测试链接时，我会收到以下消息： twisted.internet.error.TCPTimedOutError: TCP connection timed out: 10060你觉得我被列入黑名单了吗？我在Windows10下通过docker使用python3 + scrap

浏览 194提问于2020-01-16得票数 1

回答已采纳

1回答

Scrapy和硒:让scrapy等待硒？

、、、

我有一个蜘蛛，我用它来抓取一个网站。我只需要为我的项目的一部分javascript。所以我用scrapy抓取了站点的一部分，然后在selenium中打开URL。当URL打开时，scrapy仍在继续。如何让scrapy等待我的selenium逻辑完成？提前谢谢。

浏览 0提问于2016-12-16得票数 0

2回答

刮痕不爬行

、、、、

//div[@class='lotusMeta']/span[3]/span/text()").extract()我想抓取的信息： c:\Users\~\crawlKMSS>scrapy crawl kmss 2015-07-28 17:54:59 [scrapy] INFO: Scrapy 1.0.1 started[scrapy</em

浏览 1提问于2015-07-28得票数 0

1回答

如何在Scrapy中有条件地重试和重新整理当前页面？

、、

我是Scrapy的新手，对Python也不是很熟悉。我已经设置了一个抓取器来从网站上抓取数据，但是虽然我使用的是代理，但如果同一个代理被使用太多次，那么我的请求就会显示一个页面，告诉我访问太多页面太快(HTTP状态代码200)。因为我的抓取器看到的是页面的状态代码为on，它找不到所需的数据并移动到下一页。我可以确定何时通过HtmlXPathSelector显示这些页面，但是我如何通知Scrapy重试该页面呢？

浏览 1提问于2013-03-25得票数 3

回答已采纳

1回答

Selenium python:如何避免访问被拒绝

、、

我试图在抓取一个网站时点击一个链接来阅读那里的数据。当我单击该链接时，将打开“拒绝访问”页面。有没有可能跳过这个？import scrapyfrom selenium import webdriver name = 'getdata

浏览 0提问于2021-04-02得票数 0

1回答

重新登录到Scraped网站以恢复Scrapy工作

、

有没有办法让爬虫在恢复之前暂停的抓取作业时登录到网站？编辑:为了澄清，我的问题实际上是关于Scrapy爬虫，而不是一般的cookie。也许一个更好的问题是，当Scrapy爬虫在作业目录中被冻结后复活时，是否有任何方法被调用。

浏览 0提问于2012-05-09得票数 1

1回答

使用Scrapy下载PDF文件

、、、

我正在使用一个Python web抓取框架Scrapy从一个网站抓取pdf文件。为什么会这样&你知道如何克服这个问题吗？

浏览 1提问于2011-11-13得票数 0

1回答

Scrapy -遇到重复项目时停止crawler

、、、

有很多网站我必须硬编码页面跟随(爬行项目后增加页码)，其中一些网站在最后一页后返回到第一页。例如，如果一个网站有25页的项目，向第26页发送请求会得到first page的响应。在这一点上，Scrapy的复制过滤器工作得很好，不会抓取项目，但爬虫会继续运行。当重复过滤器像这样被触发时，有没有办法停止抓取进程？ yield <e

浏览 0提问于2019-09-29得票数 1

1回答

从网站上抓取隐藏部件

、、、

目前，我正试图从中抓取文章和评论。文章部分和上的评论但就评论而言，事情变得艰难起来。当我使用Scrapy直接访问page_source时，注释部分将被隐藏(没有内容)。我在想，也许网站承认我的请求是一个非浏览器的请求，并拒绝显示他们。然后我使用Chromeriver (来自webdriver)访问这个网站，但是只有第一页给了我一些

浏览 3提问于2015-06-21得票数 1

1回答

无法从该网站获得回复，postal.co.uk

在本网站输入关键字后，我试图抓取结果，但被定向到另一个只有“受限”的网站，通过使用带有关键字的链接：，我尝试在其标题中添加一个引用程序，当使用命令: scrapy.http.Request(url=')但仍然无法解决它时，请帮助.谢谢。

浏览 4提问于2022-01-11得票数 0

点击加载更多