Scrapy不抓取任何页面_scrapy 抓取js页面_Scrapy不能抓取所有页面 - 腾讯云开发者社区

python、scrapy

我正在抓取网站https://oa.mo.gov/personnel/classification-specifications/all。我需要到每个位置页面，然后提取一些信息。爬虫不会显示任何错误，但也不会爬行任何页面： import scrapyfrom scrapy.linkextractorsimport

浏览 20提问于2019-01-30得票数 2

回答已采纳

1回答

使用Scrapy抓取ajax页面

python、selenium、scrapy

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改第二个问题是，我面临的问题是scrapy无法抓取登录页面<

浏览 2提问于2013-06-19得票数 0

回答已采纳

1回答

Scrapy不抓取页面

python、scrapy

我不知道这个爬虫出了什么问题，但它不会抓取任何页面：from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector

浏览 2提问于2014-04-26得票数 1

1回答

从呈现的网站抓取时出现的问题

python、html、xpath、web-scraping、scrapy

我正试图从这个网站上刮掉一件衣服的价格：response.xpath('//span[@data-id="current-price"]/text()').extract()谢谢!

浏览 13提问于2017-02-24得票数 0

回答已采纳

2回答

如何抓取一个网站只给定域网址与scrapy

python、web-crawler、scrapy、scrape

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

2回答

使用Python Scrapy时的HTTP 403响应

python、http、scrapy

我一直在测试下面的Scrapy代码，以递归地抓取www.whoscored.com站点上的所有页面，该站点用于足球统计：from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selectorfrom scrapy.item impor

浏览 0提问于2014-07-18得票数 11

回答已采纳

2回答

Requests / BeautifulSoup VS robots.txt

python、web-scraping、beautifulsoup、scrapy、python-requests

我正在尝试抓取某个网站，只有一个输入。现在我已经用Scrapy构建了它，在所有的调整(包括不遵守robots.txt)之后，它工作得很好，并且它自动地运行在数据挖掘的循环上。现在我需要做一些东西，它将通过输入抓取单个页面问题是，我唯一能够访问的页面是robots.txt页面，并且我无法在网上找到任何关于robots.txt的信息。

浏览 35提问于2019-12-05得票数 1

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

python、beautifulsoup、scrapy、web-crawler

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

在newzealand.com上抓取一些数据的xpath是什么？

python、web-scraping、scrapy

我想知道是否有人能告诉我如何在上选择xpath？例如：我无法使用上面的选择器获取response.xpath中的数据，有人能帮我吗？

浏览 1提问于2015-08-19得票数 0

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

javascript、html、reactjs、selenium、scrapy

我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

如何使用爬行ajax页面

python-3.x、selenium、scrapy、selenium-chromedriver

我对Scrapy很陌生，我需要刮一页，而且我在抓取这一页时遇到了困难。from selenium import webdriver from scrapy.selector impor

浏览 1提问于2018-05-09得票数 0

回答已采纳

1回答

如何使用Scrapy更新价格

python、web-scraping、beautifulsoup、scrapy、scrapy-splash

我正在开发价格下降通知应用程序，我正在考虑使用Scrapy，但是，我不确定如何使用它，我是否需要在特定间隔后定期检查产品价格，或者有任何其他方法来做到这一点。

浏览 2提问于2021-06-13得票数 0

1回答

Scrapy:如何在不重新下载html的情况下重现结果？

python、web-scraping、scrapy、reproducible-research

在使用Scrapy将HTML下载到我的硬盘后(例如，使用带有字段HTML的内置项目导出器，或者将所有HTML文件存储到一个文件夹中)，我如何使用Scrapy再次从硬盘读取数据并执行管道中的下一步？

浏览 10提问于2017-06-20得票数 0

1回答

Scrapy表示没有抓取任何页面/项目？

python、logging、scrapy

我的爬虫当前正在从网站上抓取xml。这样做是成功的，因为我可以看到通过数据库管道存储的项。2013-04-12 11:58:03-0400 [traffics] INFO: Dumping Scrapy-04-12 11:58:03-0400 [traffics] INFO: Spider closed (finished) 当它确实在爬行(并随后将它们保存到数据库中

浏览 0提问于2013-04-19得票数 1

1回答

登录页面上的抓取内容未通过管道传递

scrapy

我有一个elasticsearch管道，它将索引所有抓取的内容到elasticsearch。我的问题是从start_urls页面抓取的内容被编入了索引。在scrapy中有什么设置可以实现它吗？scrapy是否只考虑从start_url页面抓取页面中的抓取内容？

浏览 0提问于2014-08-26得票数 0

2回答

Scrapy CrawlSpider不会抓取第一个登录页面

python、scrapy、web-crawler

我是Scrapy的新手，我正在做一个抓取练习，我正在使用CrawlSpider。尽管Scrapy框架工作得很好，而且它遵循相关的链接，但我似乎不能让CrawlSpider抓取第一个链接(主页/登录页)。相反，它会直接抓取规则确定的链接，但不会抓取链接所在的登录页面。我不知道如何修复这个问题，因为不建议覆盖CrawlSpider的解析方法。修改follow=True/False也不会产生任何好的结果。

浏览 0提问于2013-04-05得票数 16

回答已采纳

1回答

如何从xpath中抓取业务名称并获取csv文件

python、scrapy

i am trying to scrape yellow page by using scrapy and python getting all other result right but not

浏览 20提问于2020-04-05得票数 0

回答已采纳

1回答

如何并行运行Selenium-scrapy

python、selenium、web-scraping、scrapy、multiprocessing

我正在尝试使用scrapy和selenium来抓取javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站，使用scrapy从当前页面抓取到不同列表的所有链接，并将它们存储在一个列表中(到目前为止，这是最好的方法，因为尝试使用seleniumRequest然后，我循环遍历URL列表，在selenium驱动程序中打开它们，并从页面中抓取信息。到目前为止，这个网站每分钟抓取16个页面，考虑到这

浏览 36提问于2021-02-05得票数 0

回答已采纳

1回答

使用Scrapy递归地从页面上找到的每个表中抓取数据

python、scrapy

我有下面这段代码，它从一个web页面中抓取一个命名表：from scrapy.selector import Selectorfrom scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml','crawl','

浏览 4提问于2014-07-30得票数 0

1回答

使用scrapy抓取重定向的urls

python、scrapy

我正在尝试使用抓取来抓取www.mywebsite.com。我如何告诉scrapy我需要它来抓取重定向的url？我只需要它来爬行重定向的网址，而不是其他网址，导致的网站(如facebook页面等) 2016-11-27 14:48:42 [scrapy

浏览 1提问于2016-11-27得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云