Python scrapy:如何通过检测同一级别的类来抓取链接？

Python scrapy是一个用于爬取网页数据的开源框架。通过使用scrapy，可以方便地编写爬虫程序来抓取网页内容。

要通过检测同一级别的类来抓取链接，可以使用scrapy的选择器（Selector）来定位和提取需要的链接。以下是一个示例代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 使用选择器定位需要的链接
        links = response.css('.my-class a::attr(href)').getall()
        for link in links:
            yield response.follow(link, callback=self.parse_link)

    def parse_link(self, response):
        # 处理链接对应的页面数据
        # ...

在上述代码中，parse方法使用选择器response.css('.my-class a::attr(href)').getall()来定位所有具有my-class类的元素下的链接。然后，通过response.follow方法来跟踪这些链接，并指定回调函数parse_link来处理链接对应的页面数据。

需要注意的是，选择器的具体语法可以根据实际情况进行调整，以适应不同网页的结构。

推荐的腾讯云相关产品：腾讯云服务器（CVM）和腾讯云数据库（TencentDB）。腾讯云服务器提供了稳定可靠的云计算资源，可以用于部署和运行爬虫程序。腾讯云数据库提供了高性能、可扩展的数据库服务，可以存储和管理爬取到的数据。

腾讯云服务器产品介绍链接：https://cloud.tencent.com/product/cvm 腾讯云数据库产品介绍链接：https://cloud.tencent.com/product/cdb

页面内容是否对你有帮助？

有帮助

没帮助

抓取内存错误(请求太多)Python2.7

、、、、

我一直在运行一个抓取爬虫在抓取一个大网站，我宁愿不提。我使用教程蜘蛛作为模板，然后创建了一系列启动请求并让它从那里爬行，使用如下所示： def start_requests(self): f = open('zipcodes.csv', 'r') lines = f.readlines() for line in lines: zipcode = int(line) yield self.make_requests_from_url("http://www.e

浏览 1提问于2015-06-16得票数 1

回答已采纳

2回答

Python 3 web抓取选项

、

我是Python的新手，所以很抱歉这是一个新手问题。我正在尝试构建一个涉及web抓取的程序，我注意到Python3的web抓取模块似乎比Python2.x系列少得多。美汤、机械化和scrapy -这三个模块向我推荐--似乎都是不兼容的。我想知道这个论坛上有没有人有使用python3进行网络抓取的好选择。任何建议都将不胜感激。谢谢，威尔

浏览 1提问于2011-08-11得票数 5

2回答

PHPCrawl可以用于抓取网站吗?与Scrapy有何不同？

、、、、

我想刮几个网站，很多人建议使用Scrapy。它是基于Python的，因为我非常熟悉PHP，所以我寻找了替代方案。我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫，或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。它怎么能和Python上的Scrapy相比呢？请建议我哪一个是最好的用来抓取网站。谢谢

浏览 0提问于2012-11-22得票数 0

回答已采纳

5回答

Scrapy -如何识别已经抓取的urls

、、

我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外，在SgmlLinkExtractor上是否有明确的文档或示例。

浏览 1提问于2010-10-06得票数 15

1回答

如何从网站上抓取二级网页

、、、、

我想问你如何使用python + Beautiful soup或Scrapy来抓取网页，如果有2个级别的页面，一个简短的描述+一个到职位帖子完整细节的链接，那么它包含了例如招聘公告？我需要从招聘公告的标题中抓取数据，然后更深入地提取完整的描述，并将这些数据添加到数据库或文本文件中？问题是转到第二层，在那里完整的描述和获得完整的细节，包括图像链接，如果存在的话…有人这么做过吗？提前谢谢你。

浏览 0提问于2019-09-26得票数 1

1回答

Scrapy速度极慢:可能是瓶颈

、、、

我需要帮助来找到我的基于scrapy/python的刮刀的瓶颈。我们正在从亚马逊(目前是意大利)获取产品，但我们正在与总体请求吞吐量作斗争。我们使用的是backconnect旋转代理: StormProxies (50个线程计划)+ Proxyrotator (100个线程)+ TOR，但即使是250+可用线程，我们每秒也只能抓取1/2个URL……我们在OVH专用服务器上运行它，8核x 16 as内存，redis celery和docker作为附加工具我是一名IT技术人员，该软件是由我的印度开发人员开发的，如果你需要更多的信息或代码，请联系我！提前感谢

浏览 0提问于2019-09-05得票数 0

1回答

引发ValueError(‘request url中缺少的方案：%s’‘% self._url) ValueError: request url中缺少的方案: javascript:void(0)；

、、

这是我的蜘蛛密码 spider.py import scrapy class ExampleSpider(scrapy.Spider): name = 'moneycontrol' # allowed_domains = ['moneycontrol.com'] start_urls = ['https://www.moneycontrol.com/india/stockpricequote/'] def parse(self, response): stoke_link_list = resp

浏览 2提问于2020-08-20得票数 1

回答已采纳

1回答

如何将Keep_Fragments参数设置为True？

我正在尝试抓取一个使用Js的站点，但scrapy一直将下一个页面的url作为副本丢弃，并停止抓取。根据我的理解，scrapy通过检查请求所指向的资源的散列来检查重复项，默认情况下会丢弃URL中的片段。可以通过更改request_fingerprint模块中的Keep_Fragments命令来更改此行为。(参见下面的scrapy发布说明摘录) “scrapy.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹(问题4104)” 我的问题是，如何实际修改这个参数？

浏览 20提问于2020-09-09得票数 0

回答已采纳

2回答

Delphi中的网页抓取

、

你知道Delphi的网页抓取库吗？就像美丽的汤或者Python的Scrapy？

浏览 1提问于2013-02-05得票数 4

回答已采纳

1回答

Scrapy正在展示notImplementedError，我不知道为什么

、

我的Scrapy代码不能工作，我不确定为什么。我的蜘蛛是一个在Reddit上爬行王座游戏的测试。下面是我的代码： import scrapy class Redditbot2Spider(scrapy.Spider): name = 'redditbot2' allowed_domains = ['www.reddit.com'] start_urls = ['https://www.reddit.com/r/gameofthrones/'] def parse(self, response): titl

浏览 0提问于2018-09-05得票数 1

1回答

PHP cURL vs Python Scrapy？

、、

我已经开始使用Python Scrapy抓取网站数据，尽管我在PHP cURL方面有丰富的经验。我不知道哪个更适合抓取数据和操作返回值，以及速度和内存使用情况。 Python Scrapy中的(yield)函数应该做些什么呢？

浏览 0提问于2013-05-21得票数 0

1回答

抓取抓取从csv或数组中保存链接

、、、

import scrapy class LinkSpider(scrapy.Spider): name = "articlelink" allow_domains = ['topart-online.com'] start_urls = ['https://www.topart-online.com/de/Blattzweige-Blatt-und-Bluetenzweige/l-KAT282?seg=1'] BASE_URL = 'https://www.topart-online.com/d

浏览 3提问于2020-07-28得票数 0

回答已采纳

1回答

使用scrapy getting crawlspider处理经过身份验证(已登录)的用户会话

、、、

你好，我怎么才能让我的爬虫蜘蛛工作，我能够登录，但什么都没有发生，我真的没有得到不刮。另外，我一直在看抓取文档，我真的不明白抓取的规则。为什么在“成功登录，让我们开始爬行！”之后什么也没有发生！我在else语句的末尾也有这个规则，但删除了它，因为它甚至没有被调用，因为它在我的else块中。所以我把它移到了start_request()方法的顶部，但是得到了错误，所以我删除了我的规则。 rules = ( Rule(extractor,callback='parse_item',follow=True), )

浏览 0提问于2013-07-13得票数 7

回答已采纳

3回答

在网络抓取过程中，我怎么能假装在某个国家呢？

、、、

我想刮一个网站，但它应该看起来像我来自一个特定的(例如，美国)国家(以确保我的结果是有效的)。我在Python (Scrapy)工作。对于抓取，我使用旋转的用户代理(请参阅：)。用户代理是我所需要的。但是，我能不能结合这一要求，假装我在一个特定的国家？如果有一些可能性(在刮伤，Python)，请告诉我。感谢你！示例如何在脚本中使用用户代理 DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 'scrapy_fake_usera

浏览 0提问于2019-07-14得票数 0

回答已采纳

1回答

从csv文件读取start_urls

、、、、

因此，我正在使用刮板库开发一个刮刀器，为了方便使用，我想让它从一个.csv文件中抓取它的启动urls。我已经对这个话题做了一些研究，我相信它正确地从.csv抓取了url，但是我遇到了一些奇怪的错误。如果有人能看一看，告诉我我做错了什么，那就太好了。我的蜘蛛看起来像这样，我的物品是非常基本的，因为我并没有用它做任何事情。最后，我会将信息存储回项目中，这样我就可以将它写回一个.csv，但现在我只想让爬行正常工作。 from scrapy.spider import BaseSpider from scrapy.contrib.spiders import CrawlSpider, Rule fro

浏览 0提问于2015-03-20得票数 3

回答已采纳

1回答

爬虫蜘蛛和分页的问题。仅提取第一页中的值

、、

我的任务是从我的一个供应商: www.sportsshoes.com获取库存更新。我面临的问题是，尽管爬虫蜘蛛访问了分类页面的每个页面，但它只给出了第一个页面的返回数据。如果我尝试单独抓取每个页面，也会出现这种情况，即，即使我将其分配给抓取类别的第三个页面，它也只返回第一个页面的结果。我的代码： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Htm

浏览 2提问于2014-06-26得票数 0

1回答

scrapy.crawler与scrapy.spider的差异？

、

我对抓取很陌生，对爬虫和蜘蛛也很困惑。这两种方式似乎都能抓取网站并解析项目。在Scrapy有一个class(/usr/local/lib/python2.7/dist-packages/scrapy/crawler.py) Crawler和一个CrawlerSpider 。有人能告诉我他们之间的区别吗？我应该在什么条件下使用哪一种？提前谢谢！

浏览 5提问于2012-11-27得票数 3

回答已采纳

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

、

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1 我的代码： import scrapy class MarketSpider(scrapy.Spider): name = 'market' allowed_domains = ['coinmarketcap.com

浏览 3提问于2018-12-02得票数 0

8回答

python网站语言检测

、、、

我正在写一个机器人，可以检查数以千计的网站，无论他们是英语或不是。我使用Scrapy (python 2.7框架)来抓取每个网站的第一页，有人能给我推荐一下检查网站语言的最好方法吗？任何帮助都将不胜感激。

浏览 1提问于2012-07-16得票数 5

回答已采纳

1回答

从单独的脚本运行Scrapy -o JSON

、、、

我有一个python3脚本，我在其中调用了2个抓取爬行器，以便在代码中的某个时刻输出一个JSON文件。目前，我通过运行如下所示的bat脚本来做到这一点： subprocess.call(["scrapy.bat"]) Bat脚本： cd C:\Python\crawler\crawler\spiders scrapy crawl project1 -o project1.json scrapy crawl project2 -o project2.json 我想知道是否有可能在python脚本中做完全相同的事情，而不使用bat脚本。

浏览 20提问于2020-07-30得票数 1

回答已采纳

1回答

刮取规则不调用解析方法。

、、

我是新刮刮，并试图抓取一个域，跟踪所有内部链接，并用模式/示例/*抓取网址的标题。爬行工作，但是由于输出文件是空的，所以标题的抓取不起作用。很可能我弄错了规则。这是正确的语法使用规则，以实现我想要的？ import scrapy class BidItem(scrapy.Item): url = scrapy.Field() title = scrapy.Field() spider.py import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Crawl

浏览 1提问于2018-11-22得票数 1

回答已采纳

1回答

我在Python中的Scrapy代码在抓取多个Urls时不一致

、、

我在Python中的Scrapy代码在抓取多个Urls时不一致。下面是一个打印屏幕，在这里你可以看到一些urls不能抓取，而另一些却可以。下面是我的代码： import scrapy from scrapy_splash import SplashRequest from scrapy_spider.items import ScrapySpiderItem pages=0 urllist=[] class SystemspiderSpider(scrapy.Spider): name = "systemspider" #start_urls = [

浏览 3提问于2020-12-25得票数 0

5回答

如何使用py文件运行scrapy

、

嗨，我在scrapy上工作，我用scrapy startproject example创建了一个scrapy文件夹，并编写了爬行器来抓取url中的所有数据，我已经使用scrapy crawl spider_name命令运行了爬行器，它工作得很好，能够提取数据。但是我有一个要求，我需要用创建的单个爬虫文件运行scrapy，我的意思是单个py文件，类似于 python -u /path/to/spider_file_inside_scrapy_folder_created.py 在创建包含spider.py文件的scrapy项目文件夹后，是否可以在没有scrapy crawl命令的情况下运行爬行

浏览 1提问于2012-09-29得票数 8

回答已采纳

4回答

爬虫数据表单网站使用Scrapy1.5.0-Python

、

我尝试用Scrapy (1.5.0)- Python从网站上抓取数据。项目目录： stack/ scrapy.cfg stack/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py stack_spider.py 这是我的items.py imp

浏览 3提问于2018-06-06得票数 0

回答已采纳

1回答

Scrapy教程：_init_()最多接受2个参数(3个给定)

、、、

PS C:\users\steve\tutorial>抓取器 Traceback (most recent call last): File "c:\python27\scripts\scrapy-script.py", line 9, in <module> load_entry_point('scrapy==1.0.3', 'console_scripts', 'scrapy')() File "C:\Python27\lib\site-packages\scrapy-1.0.3-py2.7.

浏览 1提问于2015-10-19得票数 0

回答已采纳

1回答

如何在任何地方提取任意深度的链接？

我正在抓取dell.com网站，我的目标是像这样的页面。我如何设置链接提取规则，以便他们在任何深度的任何地方都能找到这些页面？据我所知，默认情况下没有深度限制。如果我这样做了： rules = ( Rule ( SgmlLinkExtractor(allow=r"productdetail\.aspx"), callback="parse_item" ), ) 它不工作:它只爬行起始页。如果我这样做了： rules = ( Rule ( SgmlLinkExtractor(allow=r&#

浏览 1提问于2014-08-08得票数 2

1回答

如何让Scrapy的SitemapSpider在深度大于1的情况下爬行？

、、

我正在尝试使用Scrapy来记录网站内发生的每个链接。我使用的是SitemapSpider，但查看生成的CSV显示，爬行器从未获得超过1的深度-我希望它跟踪它遇到的每个链接，并从这些链接中抓取链接。深度限制默认情况下是无限制的，但我在settings.py中添加了DEPTH_LIMIT 5作为测试，它没有任何效果。 (此外，"other_urls“的规定似乎没有效果--该URL的结果不会显示在CSV中。) import scrapy from tutorial.items import fffItem from scrapy.spiders import SitemapSpider

浏览 0提问于2016-02-23得票数 0

1回答

如何在使用scrapy框架进行抓取时排除已抓取的urls

、、

我正在抓取一个新闻网站，该网站提取新闻数据并将其转储到MongoDB。我的爬虫是用以下规则定义的： rules = [Rule( LinkExtractor( allow=["foo.tv/en/*", "https://fooports.tv/*"] # only such urls 我目前所做的是，它从数据库中获取已经抓取的urls，如果在数据库中找到这些urls，则不处理这些urls，例如： urls_visited = get_visited

浏览 13提问于2021-05-12得票数 0

回答已采纳

3回答

抓取多个URL的抓取方法

、

我有一个项目，这需要大量的数据收集来完成。我一直在关注Scrapy，到目前为止，它给我留下了深刻的印象，但我正在寻找最好的方法来做以下事情： 1)我想要抓取多个URL，并为每个要抓取的URL传递相同的变量，例如，假设我想返回来自Bing、Google和Yahoo的关键字"python“的顶部结果。我想要抓取http://www.google.co.uk/q=python、http://www.yahoo.com?q=python和http://www.bing.com/?q=python (不是实际的URL，但你已经明白了) 我找不到使用关键字指定动态URL的方法，我能想到的唯一选

浏览 8提问于2012-08-28得票数 1

1回答

从startUrls数组中获取所有页面href

、、

我遇到的问题是:我试图抓取一个有多个产品类别的网站，对于每个类别的产品，它都有几个页面，每个页面中有24个产品。我能够获得所有的起始urls，并抓取每个页面，我能够获得所有页面的urls (端点，然后将其转换为完整的urls)。我应该说，不是每个类别我都有产品页面，也不是每个起始url都是一个类别，因此它可能不具有我正在寻找的结构。但他们中的大多数都是这样的。我的意图是:从所有类别的所有页面中，我想提取页面中显示的每个产品的href。我使用的代码如下所示： import scrapy class MySpider(scrapy.spiders.CrawlSpider): nam

浏览 1提问于2020-10-15得票数 0

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

1回答

Scrapy spider运行并关闭，但没有抓取数据，并且有3个DEBUGS和1个错误。

、、、、

我正在用Python运行一个scrapy and pillow项目，无论我尝试多少次，都会遇到相同的错误。我的items.py如下： import scrapy class Refrigerator(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name = scrapy.Field() price=scrapy.Field() model = scrapy.Field() sku = scrapy.Field()

浏览 0提问于2018-05-20得票数 0

1回答

无法理解在哪里查找源代码，以便创建一个web抓取器

、、

我是python的新手，从今年夏天开始断断续续地自学。我正在阅读scrapy教程，偶尔阅读更多关于html/xml的内容来帮助我理解scrapy。我自己的项目是模仿scrapy教程，以便抓取。我想得到一个线程标题的列表以及线程的网址，应该是简单的！我的问题在于不理解xpath，我猜也不理解html。当查看gamefaqs站点的源代码时，我不确定要查找什么才能拉出链接和标题。我想说的是，只需查看锚点标记并抓取文本，但我对如何操作感到困惑。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSele

浏览 1提问于2012-11-20得票数 1

回答已采纳

2回答

使用Scrapy抓取递归页面数据

、、

我正在尝试使用python和Scrapy从中抓取商店位置数据。我已经设法抓取了单个页面，但我想将其设置为遍历链接末尾的1000个递归id的列表。任何帮助都将不胜感激。免责声明:我不知道我在做什么 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from subway.items import SubwayFinder class MySpider(BaseSpider): name = "subway" allowed_domains = ["htt

浏览 0提问于2014-02-13得票数 0

1回答

以编程方式调用同一个蜘蛛

、、

我有一个蜘蛛，爬行链接的网站通过。当同一个蜘蛛用不同的数据完成执行时，我想再次启动它。如何重新启动同一爬虫？这些网站是通过数据库传递的。我希望爬虫在一个无限循环中运行，直到所有的网站都被爬行。目前，我必须一直启动爬虫scrapy crawl first。是否有任何方法启动爬虫一次，它将停止时，所有的网站爬行？我搜索了同样的，并找到了一个解决方案，一旦它关闭/完成了抓取器。但我不知道如何以编程方式调用蜘蛛表单closed_handler方法。以下是我的代码： class MySpider(CrawlSpider): def __init__(self, *args, **k

浏览 7提问于2016-05-03得票数 0

回答已采纳

4回答

从包含正则表达式的urls中抓取

、、

我一直在尝试从网站上抓取数据。我想从一些我不知道名字的网站上的老师那里得到信息。每个老师在网站上都有一个遵循一定规律的页面。举个例子，这个老师Lois Bank存储在：。所以模式是老师的名字，斜杠，一个数字，破折号t。在我尝试使用CrawlSpider使用正则表达式从主页爬行之前，因为我试图访问的页面没有链接到主页，所以它不起作用，访问它们的唯一方法是在搜索框中搜索老师的名字。我试着写了下面的爬虫，但它不能工作： from scrapy.selector import HtmlXPathSelector from scrapy.contrib.linkextractors.sgml im

浏览 0提问于2011-06-28得票数 0

1回答

无法将scrapy模块作为库导入

、

我正在尝试从python脚本运行爬行器，下面是一个抓取的文档： from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider from scrapy.utils.project import get_project_settings spider = FollowAllSpider(domain='scrapinghub.co

浏览 2提问于2014-04-17得票数 0

1回答

Scrapy用规则爬行所有链接吗？

、

代码来源：是python和scrapy的新手。我搜索递归蜘蛛并找到了这个。我有几个问题：接下来是怎么做的？它只是从页面中获取href链接并将其添加到请求队列中吗？抓取是从网页的哪一部分抓取的？下面的代码会刮掉网页上的所有链接吗？让我说我想从这个网站抓取和下载每一个文件我可能会这样做的方式是刮刮这个网站上的每一个链接，并检查URL的内容标题和下载，如果它是一个文件。这可行吗？抱歉，如果这是个糟糕的问题..。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.

浏览 0提问于2016-03-24得票数 0

3回答

Scrapy找不到自定义函数

、

我已经实现了我自己的函数，用于排除包含某些单词的urls。然而，当我在我的parse方法中调用它时，Scrapy告诉我该函数没有定义，尽管它已经定义了。我没有使用规则对象，因为我从api中获得了我想要抓取的Urls。下面是我的设置： class IbmSpiderSpider(scrapy.Spider): ... def checkUrlForWords(text): ... return flag def parse(self, response): data = json.loads(response.bo

浏览 24提问于2019-06-21得票数 2

回答已采纳

2回答

从论坛中的主题中提取特定字段

、、、、

我正在做一个数据挖掘项目，我需要在论坛的线程中分析讨论的进展。我感兴趣的是提取信息，如帖子的时间，帖子作者的统计数据(no。帖子、加入日期等)、帖子文本等。但是，在使用标准的抓取工具(如python中的Scrapy )时，我需要编写正则表达式来检测页面的html源中的这些字段。由于这些标签随论坛类型的不同而不同，因此解决每个论坛的正则表达式成为一个主要问题。有没有这样的正则表达式的标准库，以便可以根据论坛的类型使用它们？或者，是否有其他技术可以从论坛页面中提取这些字段。

浏览 1提问于2011-04-02得票数 0

回答已采纳

3回答

刮擦蜘蛛:处理有错误定义的字符编码的页面。

、、

更新:通过从命令行运行此错误，可以简单地再现此错误： scrapy shell http://www.indiegogo.com/Straight-Talk-About-Your-Future 我在用Scrapy抓取一个网站。我刮到的每一页都声称被编码为UTF-8： <meta content="text/html; charset=utf-8" http-equiv="Content-Type"> 但有时，这些页面包含的字节不属于UTF-8，我得到的Scrapy错误如下： exceptions.UnicodeDecodeError: 'u

浏览 9提问于2012-05-24得票数 5

回答已采纳

1回答

如何报废网站上的所有页面(第1页直到无穷大)

、、、、

伙计们，我想从上抓取一切都好，我抓取它的成功然后我在想，如果我想抓取所有的页面(第一页直到无限取决于数据库文章)会怎么样？我刚开始使用python和scrapy，在此之前我使用的是java和c#...their两种语言它与python非常不同，但对我来说还可以。这是我的消息来源 import datetime import urlparse import socket import scrapy from scrapy.loader.processors import MapCompose, Join from scrapy.loader import ItemLoader from s

浏览 1提问于2016-07-25得票数 0

回答已采纳

2回答

如何在Scrapy Crawler中跟踪下一页以抓取内容

、、

我能够从第一页抓取所有的故事，我的问题是如何移动到下一页，继续抓取故事和名字，请检查下面的代码。 # -*- coding: utf-8 -*- import scrapy from cancerstories.items import CancerstoriesItem class MyItem(scrapy.Item): name = scrapy.Field() story = scrapy.Field() class MySpider(scrapy.Spider): name = 'cancerstories' allowed_doma

浏览 2提问于2016-02-10得票数 2

回答已采纳

1回答

pkg_resources.DistributionNotFound: Scrapy==1.3.0

、、

我在我的AWS-EC2实例上运行scrapy。但是它抛出了下面的错误。 $ scrapy Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5, in <module> from pkg_resources import load_entry_point File "/usr/lib/python2.7/dist-packages/pkg_resources/__init__.py", line 3020, in <module>

浏览 0提问于2017-02-08得票数 0

4回答

在批处理文件中使用scrapy crawl命令时继续批处理脚本命令

、、

我使用scrapy从网页抓取信息。我已经写了爬虫代码，它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。总而言之，我有一个批处理文件，我首先在其中使用"Scrapy Crawl“命令，然后运行我的python文件来优化抓取的信息。问题是，批处理脚本在"Scrapy Crawl“命令的末尾停止，并且不会继续执行批处理文件中后面的行。我该如何解决这个问题？批处理文件的内容： CD "spiders_folder" scrapy crawl mySpider -o outputData.json -t json python refineDat

浏览 1提问于2013-05-09得票数 1

回答已采纳

1回答

Scrapy和硒:让scrapy等待硒？

、、、

我有一个蜘蛛，我用它来抓取一个网站。我只需要为我的项目的一部分javascript。所以我用scrapy抓取了站点的一部分，然后在selenium中打开URL。当URL打开时，scrapy仍在继续。如何让scrapy等待我的selenium逻辑完成？提前谢谢。

浏览 0提问于2016-12-16得票数 0

1回答

Python Scrapy不爬行网站

、、、

我对python很陌生，并试图通过一个小例子，但是我遇到了一些问题！我只能抓取第一个给定的网址，但我不能抓取超过一个网页的或整个网站的问题！请帮助我，或给我一些建议，我如何可以爬行整个网站或更多的网页，在一般情况下. 我所做的例子很简单..。我的items.py import scrapy class WikiItem(scrapy.Item): title = scrapy.Field() 我的wikip.py (蜘蛛) import scrapy from wiki.items import WikiItem class CrawlSpider(scrapy.S

浏览 4提问于2016-05-19得票数 0

1回答

如何让Scrapy只抓取Xpath中的链接？

、、

我是Scrapy的新手，我想做的是做一个爬虫，它只会跟踪给定start_urls上的HTML元素中的链接举个例子，假设我只想让一个爬虫程序遍历start_urls设置为的AirBnB清单我不想抓取URL中的所有链接，而是只想抓取xpath中的链接目前，我正在使用以下代码来抓取所有的链接，我如何才能使其仅抓取//*[@id="results"] from scrapy.selector import HtmlXPathSelector from tutorial.items import DmozItem from scrapy.contrib.sp

浏览 0提问于2012-12-25得票数 6

回答已采纳

1回答

名为Anchor和Miss的Python Scrapy Skip

、、

当我从urllib2+bs4切换到Scrapy时，我注意到Scrapy在默认设置中“巧妙地处理”了一些问题。我不太确定我是否正确，如果我错了，请纠正我。 (1)默认情况下，Scrapy不会抓取重复URL，那么什么是重复URL？我注意到在Scrapy抓取的网址中，没有，例如，他们对待下面的链接是一样的。我知道这是合乎逻辑的，因为它们实际上是同一页，但是....我不知道对于一些可能需要这个功能的人来说，这是不是一个好主意。 www.abc.com/page1 www.abc.com/page1#top www.abc.com/page2#bot (2)默认情况下，Scrapy只遵循下的链接。在那

浏览 3提问于2013-09-21得票数 2

2回答

Scrapy不爬行

、、

我正在尝试运行一个递归抓取，由于我编写的抓取不能正常工作，我从web上拉出一个例子并尝试。我真的不知道问题出在哪里，但是爬网没有显示任何错误。有没有人能帮我。此外，是否有任何逐步调试工具，以帮助了解爬行流的蜘蛛。任何关于这方面的帮助我们都非常感谢。 MacBook:spiders hadoop$ scrapy crawl craigs -o items.csv -t csv /System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/zope/__init__.py:1: UserWarning: M

浏览 1提问于2013-02-08得票数 2

回答已采纳