Scrapy不会抓取整个网站_Scrapy新手-如何抓取整个网站_Scrapy不会抓取url - 腾讯云开发者社区

、、

我要写一个基于scrapy的Gui应用程序，用户输入一个网站的URL，然后点击“爬网”按钮，整个网站就会被抓取并存储在内置的scrapy-db (sqlite)中。如何使用scrapy帮助我抓取网站？

浏览 4提问于2012-03-09得票数 0

1回答

页面未完全处理

、

我正在尝试从雅虎财经网站抓取新闻文章，为此，我想使用他们的网站地图页面我遇到的问题是，在跟随一个链接之后，例如，scrapy不会处理整个页面--只处理标题。所以我不能访问不同文章的链接。是否有一些内部请求需要我发送到该页面？我仍然通过在浏览器中停用javascript获得整个页面，并且我使用scrapy 1.6 谢谢。

浏览 13提问于2019-11-04得票数 0

1回答

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy splash和Selenium的比较如何？

浏览 3提问于2018-04-18得票数 12

回答已采纳

2回答

用scrapy逐个抓取网站列表

、、、

我正在尝试用scrapy抓取一个网站列表。我试着把网站的urls列表作为start_urls，但是后来我发现我用不起这么多的内存。有没有办法让scrapy一次抓取一个或两个网站？

浏览 0提问于2013-01-13得票数 2

回答已采纳

1回答

如何从收到的响应中抓取html代码？

、、、、

我试图爬行-抓取一个网站与抓取和飞溅。我想从图像中的响应中抓取特定的html代码。以下是响应及其标头： ? 下面是响应(我想要抓取的html )： ? 我可以使用Inspect工具找到该HTML。我的代码返回的是html，我可以用"View page source“工具看到它。因此，这意味着Javascript在嵌入代码之前会对代码进行修改。但是，启动角色是运行javascript并返回HTML，不是吗？？response.body返回页面的源代码，而不是我在上面提到的响应中需要的html代码。 import scrapy from scrapy_splash import

浏览 18提问于2019-05-30得票数 1

5回答

Scrapy -如何识别已经抓取的urls

、、

我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外，在SgmlLinkExtractor上是否有明确的文档或示例。

浏览 1提问于2010-10-06得票数 15

2回答

如何用Scrapy抓取整个网站？

、、

我无法抓取整个网站，Scrapy只能在表面抓取，我想抓取更深的部分。我已经用谷歌搜索了5-6个小时，但没有任何帮助。我的代码如下： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from scrapy.spider import BaseSpider from

浏览 0提问于2013-03-19得票数 11

1回答

抓取抓取整个网站的爬虫

、、

我正在使用scrapy抓取我拥有的旧网站，我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件，或者一个包含所有内容的数据库。但是我确实需要能够让蜘蛛抓取整个东西，而不是我必须放入我当前必须做的每个单独的url。 import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["www.example.com"] start_urls = [ "http://www.example.com/contactus

浏览 1提问于2016-04-25得票数 15

回答已采纳

1回答

关于XPath选择器的问题(用于Scrapy)

、、、

目的:从div类list_area daily_all中抓取文本数据。使用scrapy shell，我首先“抓取”了我想要抓取数据的网站：https://comic.naver.com/webtoon/weekday.nhn 使用'scrapy shell‘脚本：scrapy shell 'https://comic.naver.com/webtoon/weekday.nhn' 使用xpath，我想从div类"list_area daily_all“中抓取所有文本数据： response.xpath("//div[@id='wrap'

浏览 18提问于2019-06-10得票数 2

1回答

使用Scrapy抓取ajax页面

、、

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改你们有没有用scrapy抓取javapages的好主意？第二个问题是，我面临的问题是scrapy无法抓取登录页面

浏览 2提问于2013-06-19得票数 0

回答已采纳

1回答

使用Scrapy从详细页中提取数据

、、、

我正在尝试从这个网站抓取代理机构的电话号码：列表视图详细信息视图电话号码隐藏在详细信息页面中。那么，有没有可能通过像上面的详细视图url和抓取电话号码这样的url浏览网站呢？我在这段代码中的尝试是： from scrapy.item import Item, Field class AgencyItem(Item): Phone = Field() from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtra

浏览 0提问于2013-04-24得票数 2

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

2回答

如何使用Scrapy创建Twitter爬虫？

、、

我试过使用Scrapy从Pinterest这样的网站上抓取数据，这些网站不需要登录会话进行数据抓取，但如何使用Scrapy抓取和爬行Twitter，因为要访问Twitter追随者和其他数据，我们需要首先登录。

浏览 0提问于2014-12-18得票数 2

1回答

将数据输出到CSV时出现剪贴式格式问题。确保项目数据打印在单独的行上

、、、

我使用Scrapy从网站的第一页抓取信息，并将数据导出为.csv文件，如下所示： scrapy crawl spidername -o data.csv 我想要获得form的输出： {'Title': [u'Message'], 'Link': [u'url'], 'Text': [u'Hello World']} {........... .....} etc 但相反，我在一个{}中获得了所有内容，即 {[all 'Title' data], [all 'Link&

浏览 1提问于2015-10-19得票数 0

1回答

Scrapy -遇到重复项目时停止crawler

、、、

有很多网站我必须硬编码页面跟随(爬行项目后增加页码)，其中一些网站在最后一页后返回到第一页。例如，如果一个网站有25页的项目，向第26页发送请求会得到first page的响应。在这一点上，Scrapy的复制过滤器工作得很好，不会抓取项目，但爬虫会继续运行。当重复过滤器像这样被触发时，有没有办法停止抓取进程？我不想像这样硬编码页码，因为它可能会随着时间的推移而改变。 if self.page < 25: yield scrapy.Request(...)

浏览 0提问于2019-09-29得票数 1

1回答

无法使用Scrapy从下拉列表中进行抓取

、、、

我正在尝试从网站上嵌入的JS下拉列表中抓取市场列表：https://e27.co/startups 使用scrapy shell，我试图从“markets”下拉菜单中抓取市场列表，但无法这样做。在运行了scrapy shell 'https://e27.co/startups'之后，我尝试了同时使用response.css()和response.xpath()。对于css选择器： response.css('#startups-page > div > div.search-block.box-view > div.row.mbt-s >

浏览 9提问于2019-06-13得票数 0

回答已采纳

1回答

你能在用Scrapy刮的时候设置条件吗？

、、

我想知道我是否可以设置一些存储信息必须满足的条件(使用Scrapy版本1.7.3进行web抓取)。例如，在抓取IMDB的网站时，只存储评分大于7的电影。或者我必须在查看输出文件时手动执行此操作？(我目前正在将数据输出为CSV文件)

浏览 10提问于2019-10-13得票数 1

回答已采纳

2回答

404:有没有办法避免在使用scrapy进行抓取时被网站屏蔽？

、、、

我试着使用Scrapy来抓取一些网站上大约70k个项目。但每次它抓取了大约200个项目后，其余的项目都会弹出错误： scrapy] DEBUG: Ignoring response <404 http://www.somewebsite.com/1234>: HTTP status code is not handled or not allowed 我相信这是因为我的爬虫被网站屏蔽了，我试着使用随机用户代理建议的，但根本解决不了问题。有什么好的建议吗？

浏览 5提问于2016-02-03得票数 0

1回答

抓取在一个引号内包含href的链接

、

我使用Scrapy抓取一些网站，我有问题的链接，href的有一个引号href=' '，而不是双引号href=" "。当我允许用allow()抓取所有链接时，结果将只包含由双引号组成的链接。我该如何克服这个问题呢？

浏览 1提问于2012-01-16得票数 0

2回答

无法使用刮伤认证fandromeda

、、

我刚开始刮刮网站上的一些数据，但我需要先进行身份验证，然后才能开始抓取所需的数据，如下所示我正在尝试使用from_response方法来尝试登录到站点。 import scrapy from scrapy.spiders import CrawlSpider from scrapy.http import Request, FormRequest from scrapy.selector import Selector from fandromeda.items import FandromedaItem class FandromedaC(CrawlSpider): name

浏览 4提问于2016-12-01得票数 0

回答已采纳

2回答

如何在Scrapy中抓取多个级别的页面到一个项目？

、

我发现的所有Scrapy示例都谈到了如何抓取单个页面，或者如何抓取多个级别的页面，当每个最深的页面被保存为一个独立的Item时。但我的情况有点复杂。例如，网站结构是： A (List page of books) --> B (Book summary page) ----> C (Book review pages) ----> D (Book download pages) 因此，Item的定义如下所示： class BookItem(scrapy.Item): name = scrapy.Field() type = scrapy.Field()

浏览 6提问于2021-07-30得票数 1

回答已采纳

1回答

如何获取Python Scrapy工具抓取的项目数？

、

我正在使用Python Scrapy工具从网站提取数据。我能够抓取数据。现在我想要从一个特定的网站上刮下来的项目的计数。我怎样才能得到抓取的项目数？在Scrapy中有内置的类吗？任何帮助都将不胜感激。谢谢..

浏览 0提问于2013-10-24得票数 1

1回答

使用Scrapy解析文档

、、、

我有一个问题，我想解析一个网站，并从它抓取每个文章的链接，但问题是Scrapy没有抓取所有的链接和抓取其中的一些随机次数。 import scrapy from tutorial.items import GouvItem class GouvSpider(scrapy.Spider): name = "gouv" allowed_domains = ["legifrance.gouv.fr"] start_urls = [ "http://www.legifrance.gouv.fr/affichCo

浏览 3提问于2016-02-03得票数 0

2回答

从子目录中为托管在Heroku上的Django项目运行非Django命令？

、、

我已经在Heroku上部署了一个Django应用程序。应用程序本身运行良好。我可以运行诸如heroku run python project/manage.py syncdb和heroku run python project/manage.py shell之类的命令，并且运行得很好。我的Django项目使用了名为Scrapy的Python web抓取库。Scrapy附带了一个名为scrapy crawl abc的命令，它可以帮助我抓取我在scrapy应用程序中定义的网站。当我在本地机器上运行诸如scrapy crawl spidername之类的抓取命令时，应用程序能够抓取日期并将其复制到

浏览 1提问于2012-01-27得票数 3

回答已采纳

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

、、、、

请注意，我是一个新手，当涉及到网络技术。我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

scrapy避免爬虫注销

、

我正在使用scrapy库来方便抓取网站。网站使用身份验证，我可以使用scrapy成功登录页面。该页面有一个URL，该URL将注销用户并销毁会话。如何确保scrapy在爬行时避免注销页面？

浏览 1提问于2013-07-11得票数 1

回答已采纳

1回答

每次使用Scrapy运行蜘蛛以获取Json或csv文件时，我都会得到一个空文件。

、、、、

这是我的密码： import scrapy class shopjimmyspider(scrapy.Spider): name = "shopjimmy" start_urls = ['https://www.shopjimmy.com/categories/tv-parts/boards/t-con-boards.html'] def parse(self, response): for products in response.css('article.card.card--cart-disabled&#

浏览 1提问于2022-03-09得票数 1

3回答

新手问题-无法让教程文件正常工作

、

我完全是Python和Scrapy的新手，所以我从尝试复制教程开始。根据教程，我正在尝试抓取www.dmoz.org网站。我按照下面的指示编写dmoz_spider.py from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): name = "dmoz.org" allowed_domains = ["dmoz.org&#

浏览 2提问于2010-12-17得票数 3

1回答

每次运行相同的scrapy项目时，结果都不同

我对Scrapy非常陌生。我设法创建了一个Scrapy项目，运行它来抓取网站，并将废弃的信息保存在csv文件中。然而，每次我运行它，似乎被抓取的网页的数量和顺序都不同。我很确定这个网站在这段时间内是静态的。一般来说，这是正常的吗？

浏览 0提问于2014-03-08得票数 0

1回答

Scrapy和硒:让scrapy等待硒？

、、、

我有一个蜘蛛，我用它来抓取一个网站。我只需要为我的项目的一部分javascript。所以我用scrapy抓取了站点的一部分，然后在selenium中打开URL。当URL打开时，scrapy仍在继续。如何让scrapy等待我的selenium逻辑完成？提前谢谢。

浏览 0提问于2016-12-16得票数 0

1回答

如何抓取有加载器的网站？

、、

我正在尝试抓取包含加载屏幕的网站。当我浏览网站时，它显示正在加载..一秒钟，然后它就加载了。但问题是，当我尝试使用scrapy抓取它时，它什么也得不到(可能是因为加载)。我可以使用scrapy解决这个问题吗?还是应该使用其他一些工具？如果你想看，这里有该网站的链接

浏览 16提问于2019-10-20得票数 0

回答已采纳

1回答

Scrapy不让我登录asp.net页面(ASPX)

、

嗨，我有问题让我的抓取蜘蛛脚本登录到aspx (asp.net)网站该脚本本应抓取一个网站的产品信息(这是一个供应商的网站，所以我们被允许这样做)，但无论什么原因，该脚本不能登录到网页使用下面的脚本，有一个用户名和密码字段以及一个图像按钮，但当脚本运行它根本不起作用，我们被重定向到主页…我相信这与页面的asp.net有关，显然我需要传递更多的信息，但我已经诚实地尝试了所有方法，我不知道下一步该做什么！我做错了什么？ import scrapy class LeedaB2BSpider(scrapy.Spider): name = 'leedab2b' s

浏览 10提问于2021-02-01得票数 0

回答已采纳

3回答

如何使用代理池

、、、

我正在使用Scrapy，并试图通过创建一个定制的DownloaderMiddleware来使用代理池。我遇到了一些麻烦，想在这里得到一些帮助(我查看了Scrapy网站的文档，但没有代码示例) 我的python代码是： import random class ProxyRotator(object): proxy_pool = ['ip1...', 'ip2...', 'ip3...'] def process_request(self, request, spider): request.meta['p

浏览 11提问于2016-02-17得票数 2

回答已采纳

2回答

Scrapy、Selenium或机械化来抓取web数据？

、、、

我想从一个网站上抓取一些数据。基本上，该网站有一些表格显示，并显示了大约50条记录。对于更多的记录，用户必须单击某个按钮，这会使ajax调用get并显示接下来的50条记录。我以前有Selenium webdriver(Python)的知识。在Selenium中，我可以非常快速地完成此操作。但是，Selenium更像是一种自动化测试工具，而且速度非常慢。我做了一些研究和开发，发现使用Scrapy或机械化，我也可以做同样的事情。我应该选择Scrapy，或者Mechanize，或者Selenium？

浏览 1提问于2014-01-06得票数 11

1回答

如何使用scrapy或selenium抓取动态页面？

、、、、

我正在尝试抓取web动态页面，但使用scrapy时，我不能检索所有信息，因为我想要的信息是动态的。我试着使用Selenium，但与Scrapy不同的是，你不能指定头部，网站阻止了我。(我不能说出这个网站的名字，因为抓取是非法的，但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的页面(用脚本很难解决重新验证码)，因为网站会检测到我是机器人。我想拥有所有的动态信息，并有权访问网站，但不可能与selenium和scrapy没有给我所有我想要的信息，我认为这是因为当scrapy阅读它时页面没有完全加载。

浏览 23提问于2019-06-13得票数 0

1回答

使用scrapy抓取重定向的urls

、

我正在尝试使用抓取来抓取www.mywebsite.com。使用url www.mywebsite.freehost.com将www.mywebsite.com托管在免费主机上。我将免费主机重定向到我的付费域名。这里的问题是scrapy忽略了重定向，最终结果是抓取了0个页面。我如何告诉scrapy我需要它来抓取重定向的url？我只需要它来爬行重定向的网址，而不是其他网址，导致的网站(如facebook页面等) 2016-11-27 14:48:42 [scrapy] INFO: Spider opened 2016-11-27 14:48:42 [scrapy] INFO: Crawle

浏览 1提问于2016-11-27得票数 1

2回答

PHPCrawl可以用于抓取网站吗?与Scrapy有何不同？

、、、、

我想刮几个网站，很多人建议使用Scrapy。它是基于Python的，因为我非常熟悉PHP，所以我寻找了替代方案。我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫，或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。它怎么能和Python上的Scrapy相比呢？请建议我哪一个是最好的用来抓取网站。谢谢

浏览 0提问于2012-11-22得票数 0

回答已采纳

1回答

尝试使用Scrapy刮取数据，但只得到空白答案

、

我目前正在尝试从这个网站上抓取特定的数据，但是当我在此之后使用cmd爬行时，json和csv文件就会变成空白，我做错了什么呢？ import scrapy class RatesSpider(scrapy.Spider): name = 'rates' allowed_domains = ['https://www.ratehub.ca/best-mortgage-rates/5-year/fixed'] start_urls = ['http://https://www.ratehub.ca/best-mortgage-rate

浏览 2提问于2021-04-12得票数 1

回答已采纳

1回答

在PyQt4主循环中集成抓取/扭曲事件循环

、、、

我正在开发一个PyQt4工具，这是使用抓取网站抓取。我启动了一个新的进程多进程，以便从ui运行Scrapy爬行器。一切正常~ ui是阻塞的，Scrapy是抓取的。我希望有一个非阻塞的ui，尽管我希望在PyQt主循环中集成Twisted事件循环。有没有人知道如何尽可能简单地实现这一点？我不熟悉Scrapy / PyQt / Multiprocessing / Twisted。我用的是PyQt4，python2.7和Scrapy 0.12.0.2546的on buntu12.04盒子。提前谢谢。

浏览 2提问于2013-02-24得票数 1

回答已采纳

1回答

如何使用Scrapy进行多页抓取？

、、、

#----\ #-----*-----\ #----/ \ \ #----\ \ #-----*-------- * <-- START #----/ / / #----\ / #-----*-----/ #----/ 这是一个我想用scrapy处理的网站的结构，其中*是一个页面，-表示链接。我想抓取#页的数据。我已经做了一个可以从一个页面抓取数据的抓取器。 import scrapy class MyItem(scrapy.Item): topic

浏览 2提问于2017-03-07得票数 1

1回答

PHP cURL vs Python Scrapy？

、、

我已经开始使用Python Scrapy抓取网站数据，尽管我在PHP cURL方面有丰富的经验。我不知道哪个更适合抓取数据和操作返回值，以及速度和内存使用情况。 Python Scrapy中的(yield)函数应该做些什么呢？

浏览 0提问于2013-05-21得票数 0

6回答

如何从url中删除查询？

、、、

我正在使用scrapy抓取一个网站，它似乎是在每个URL末尾的查询字符串追加随机值。这就把爬行变成了一种无限循环。如何让scrapy忽略URL的查询字符串部分？

浏览 2提问于2011-12-20得票数 15

回答已采纳

1回答

Scrapy crawlera身份验证问题

、、、、

我一直在尝试使用scrapy-crawlera作为使用scrapy抓取一些数据的代理。我在settings.py中添加了以下行： DOWNLOADER_MIDDLEWARES = { 'scrapy_crawlera.CrawleraMiddleware': 610, } CRAWLERA_ENABLED = True CRAWLERA_APIKEY = 'MY_CRAWLERA_API_KEY' 在新更改的scrapinghub网站app.zyte.com中，我创建了一个智能代理管理器帐户，我的应用程序接口密钥来自我的帐户设置。我得到这样的警告：WARN

浏览 10提问于2021-03-09得票数 1

1回答

scrapy下载html页面，但可以使用xpath或css获取数据。

、

我正在尝试刮这个，当我执行scrapy shell "https://redsea.com/en/apple-iphone-x-64gb-silver.html"时，它下载html页面，我可以在浏览器中使用view(response)查看下载的html：但是，当我试图获取任何数据-product名称时，例如，通过response.css('.page-title')，它会给出空的响应：抓取一个使用rest获取数据的网站，使用scrapy，只需下载没有数据的网站结构html，而刮取不能获得这些数据是有意义的。但在本例中，scrapy使用数据下载h

浏览 0提问于2017-11-07得票数 3

回答已采纳

1回答

只爬行一次URL的刮伤蜘蛛

、、、、

我正在写一只抓取蜘蛛，它每天爬行一组URL。然而，其中一些网站是非常大的，所以我不能抓取整个网站每天，我也不想产生大量的流量，必要的这样做。一个古老的问题()提出了类似的问题。然而，被更新的响应只是指向一个代码片段()，它似乎需要一些请求实例，尽管这一点在响应中没有解释，也没有在包含代码片段的页面上解释。我试图理解这一点，但发现中间件有点混乱。一个完整的刮板示例，无论它是否使用链接中间件，都可以在不撤销URL的情况下多次运行。我已经在下面发布了代码来启动业务，但是我不一定需要使用这个中间件。任何能够每天爬行和提取新URL的刮痕蜘蛛都可以。显然，一种解决方案是只编写一本刮过的URL的字典，

浏览 4提问于2016-06-10得票数 6

回答已采纳

1回答

抓取器正在获取相关链接。

、

我已经创建了一个使用scrapy.The爬虫爬虫的网站和抓取链接。**所使用的技术：**Python，Scrapy Error抓取相对urls，因为刮刀器无法抓取网页。我要爬虫只取无源网址。救命啊！！ import scrapy import os class MySpider(scrapy.Spider): name = 'feed_exporter_test' # this is equivalent to what you would set in settings.py file custom_settings = {

浏览 2提问于2021-06-29得票数 1

1回答

获取给定域的RSS链接

、、

我有一个文件，它有一个域名列表。我需要抓取域(即整个网站)，以获得rss链接。递归地抓取网站的每一页，从每个页面获取rss链接，并写入与域对应的json文件--这是我的代码，仅用于一个网站： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector class AppleSpider(CrawlSpider): name

浏览 4提问于2013-12-20得票数 0

回答已采纳

1回答