为什么scrapy在这个例子中不能工作？

在这个例子中，Scrapy可能无法工作的原因可能有以下几点：

网站反爬虫策略：Scrapy是一个强大的网络爬虫框架，但某些网站可能会实施反爬虫策略，如IP封锁、验证码、JavaScript渲染等，这可能导致Scrapy无法成功获取所需的数据。
网页结构变化：如果网站的网页结构经常发生变化，Scrapy的爬取规则可能无法适应新的结构，从而导致无法正确提取数据。
动态网页内容：Scrapy是基于静态网页爬取的，无法直接处理动态内容。如果目标网页使用Ajax、JavaScript等技术动态加载数据，Scrapy可能无法获取到完整的页面内容。
反爬虫技术：某些网站可能使用了高级的反爬虫技术，如验证码识别、用户行为分析等，这些技术会增加Scrapy爬取数据的难度。

要解决这些问题，可以考虑以下方法：

使用其他爬虫框架：如果Scrapy无法工作，可以尝试其他爬虫框架，如BeautifulSoup、Requests、Selenium等，根据具体情况选择最适合的框架。
通过模拟浏览器行为：对于动态网页内容，可以使用Selenium等工具模拟浏览器的行为，加载动态内容后再进行数据提取。
分析反爬虫策略：对于反爬虫策略，可以分析网站的反爬虫机制，尝试绕过IP封锁、验证码识别等策略，提高爬取成功率。
更新爬虫规则：如果网页结构发生变化，需要及时更新爬虫规则，确保能够正确提取数据。

总之，要解决Scrapy无法工作的问题，需要具体分析具体情况，结合相关技术和工具进行调试和优化。

在Scrapy中获取http.response对象的最简单方法

、

我对Scrapy很陌生，我正在尝试将网页的内容放到响应对象中(如果我正确理解的话)。我正在跟踪，但是它在刮伤外壳中工作。我想让它直接在python代码中工作。我写的代码是为了报废 import scrapy from scrapy.http import HtmlResponse URL = 'http://doc.scrapy.org/en/latest/_static/selectors-sample1.html' response = HtmlResponse(url=URL) print response.selector.xpath('//titl

浏览 2提问于2016-06-13得票数 5

回答已采纳

3回答

在Scrapy中下载文件时出现错误302

、

为什么我会收到这个错误？ [scrapy] WARNING: File (code: 302): Error downloading file from <GET <url> referred in <None> 我的浏览器中的URL下载似乎没有任何问题，302只是一个重定向。为什么scrapy不能简单地按照重定向下载文件呢？ process = CrawlerProcess({ 'FILES_STORE': 'C:\\Users\\User\\Downloads\\Scrapy', 'USER_AGENT&

浏览 5提问于2016-05-22得票数 1

1回答

如何使用scrapy在两个顺序请求中进行回调

、

如果爬行器被重定向，那么它应该再次请求，但使用不同的参数。不执行第二个请求中的回调。如果我在start和checker方法中使用不同的urls，它可以很好地工作。我认为请求正在使用lazy loads，这就是为什么我的代码不能工作，但不确定。 from scrapy.http import Request from scrapy.spider import BaseSpider class TestSpider(BaseSpider): def start(self, response): return Request(url = 'http://loca

浏览 0提问于2013-05-16得票数 1

回答已采纳

1回答

PyInstaller --隐藏-导入通配符？

、、、

我正在尝试从Scrapy项目中创建可执行文件。我已经注意到，我必须告诉PyInstaller，它必须加载哪些残缺的模块。问题是有很多这样的模块。 pyinstaller --onefile main.py --hidden-import scrapy.spiderloader --hidden-import scrapy.statscollectors --hidden-import scrapy..... 是否可以将PyInstaller设置为预导入所有模块？像--hidden-import scrapy.*这样不能工作的东西。

浏览 0提问于2017-10-23得票数 6

1回答

为什么Scrapy不返回函数的值？

、、

代码： import scrapy from scrapy.spiders import CrawlSpider from scrapy import Request class TestSpider(CrawlSpider): name = "test_spyder" allowed_domains = ["stackoverflow.com"] start_urls = ['https://stackoverflow.com/tags'] def parse(self, response): title_1 =

浏览 1提问于2019-01-26得票数 0

回答已采纳

1回答

Scrapy: scrapy服务器需要一个项目，为什么？

、、

我想使用以下命令运行scrapy服务器： scrapy server 它失败了，因为没有project.Then我创建了一个空项目来运行服务器，并成功部署了另一个项目。但是，scrapy服务器不能与这个项目一起工作，并告诉我它找不到蜘蛛。为什么？这意味着我必须为每个项目运行不同的服务器？

浏览 2提问于2013-06-24得票数 4

2回答

空提取结果- Scrapy

、、、

我试图使用Scrapy抓取数据，但我的json/csv是空的。这不是我的第一个刮板，我真的不明白为什么这个不能工作。这是我的刮刀。 import scrapy import itertools from ..items import NumItem from scrapy.selector import Selector from scrapy.http import HtmlResponse import json import pandas as pd from pandas import DataFrame class ColekaSpider(scrapy.Spider):

浏览 9提问于2020-12-15得票数 0

1回答

刮痕怎么处理磅号？

、

我是Python和Scrapy的新手，我正在尝试测试字符串(使用xpath选择器提取)是否包含磅符号(英国货币-£)。在源文件的顶部，我指定了编码： # -*- coding: latin-1 -*- 我正在做这个测试： if '£' in price: ... 但是，我得到了一个错误exceptions.UnicodeDecodeError：'ascii‘编解码器不能解码字节0xc2。如果我将测试更改为 price = price.encode('utf-8') if '£' in price: ... 它起作用了。有人能解释为什么

浏览 1提问于2014-10-15得票数 2

回答已采纳

1回答

如何将Visual Stuido代码连接到virtualenv或我的关于virtualenv的问题？

、、、

我安装了Scrapy框架。在scrapy文档中，它告诉我应该为Scrapy创建一个Anaconda的虚拟环境，所以我就这么做了。它在anaconda虚拟环境中工作，但在vscode中，它会给我一个警告。无法解析导入"scrapy“ 在虚拟环境的cmd中一切正常，但是编辑器给了我一个警告。我该怎么办？

浏览 10提问于2021-08-22得票数 0

2回答

使用scrapy我得到一个空项目

、

我想使用python和scrapy从网页中抓取一些信息，但当我尝试这样做时，我的项目的输出是空的…… 首先，我用scrapy开始了一个新项目。然后，我在items.py文件中编写了以下代码： import scrapy class KakerlakeItem(scrapy.Item): info=scrapy.Field() pass 接下来，我使用以下代码在爬行器的文件夹中创建了一个新文件： import scrapy from kakerlake.items import KakerlakeItem class Kakerlakespider(scrapy.Spide

浏览 3提问于2015-11-07得票数 2

1回答

为什么在Python中运行时，我的刮掉的JSON导出不能工作？

、、、

我已经创建了一个python脚本，我希望能够从运行python文件开始，而不是使用终端。我一直在用以下方法- os.system("scrapy crawl preorder") 但是，当我添加JSON导出( scrapy )时，它正常运行，但没有创建JSON文件。在终端中运行时，相同的命令可以工作。 os.system("scrapy crawl preorder -O test.json") 那么，为什么JSON导出不能工作呢？这是完整的密码- import scrapy, os from scrapy.crawler import CrawlerPr

浏览 4提问于2022-10-20得票数 -1

1回答

某些网络的Scrapy返回302

、、

在某个特定的网络中使用scrapy时，我得到了302。它可以在我的办公室网络中工作，但不能在我的家庭网络中工作。它在我的一个移动网络中工作，但在另一个移动网络中不工作(获得302)。你们知道为什么会发生这种事吗？

浏览 1提问于2019-01-03得票数 1

1回答

在Xpath中，这个BeautifulSoup表达式的等价物是什么？

、、

我试图用scrapy和BeautifulSoup抓取这个link，但是由于某种原因，BeautifulSoup不能在爬行器中工作，它只能在scrapy shell中工作。我知道这听起来可能很愚蠢，但是，如何将其转换为Xpath呢？ soup.find('li', {'class': 'at-listing__list-icons_location'}) 我试过了 response.xpath('//li[contains(text(),"at-listing__list icons_location")]/../desc

浏览 13提问于2020-08-12得票数 0

回答已采纳

1回答

Scrapy请求返回NotImplementedError

、

我的垃圾代码不能工作，我不明白为什么。我只是刚刚开始抓取，所以我现在并不真正关心哪个网站。我知道这个问题与我选择的url无关。下面是我的代码： import scrapy class Twitter(scrapy.Spider): name = "twitter_following" start_urls = ['https://www.digitalocean.com']

浏览 0提问于2017-07-15得票数 0

1回答

Scrapy抓取了0个页面，无法下载pdf

、、

我是scrapy的新手。我正在尝试使用scrapy下载这个pdf。我不清楚为什么它不能工作。 import scrapy class Hawaii_spider(scrapy.Spider): name = "hawaii" allowed_domains = ["hawaii.edu"] def parse_listing(self, response): file_urls = ["http://www2.hawaii.edu/~kinzie/documents/CV%20&%20pubs/Kauh

浏览 0提问于2015-11-19得票数 0

1回答

将命令从批处理文件解析并运行到交互式shell中

、、、

我正在尝试从批处理文件中运行scrapy shell，到目前为止工作的是启动批处理文件和交互式shell。然后，我希望能够将命令解析到scrapy控制台(在shelp()之后的命令行)。我的代码： call C:/Users/<user_name>/Anaconda3/Scripts/activate.bat scrapy shell <url> < printing log stats > 2020-03-09 13:38:33 [asyncio] DEBUG: Using selector: SelectSelector In [1]: #

浏览 4提问于2020-02-28得票数 0

2回答

重复的请求发布到scrapy FormRequest

、、

我正在尝试学习如何在网站上抓取FormRequest的工作方式，我有以下抓取代码： import scrapy import json from scrapy.utils.response import open_in_browser class Test(scrapy.Spider): name = 'go2' def start_requests(self): url = 'http://www.webscrapingfordatascience.com/jsonajax/results2.php' payl

浏览 1提问于2019-08-12得票数 3

1回答

Cron作业不运行，但在shell上手动运行时命令是可以的。

、、

我的crontab中有以下条目： 0,30 7-18 * * 1-5 cd /path/to/scrapers && scrapy crawl funny_quotes &>> $(date "+/home/foobar/logs/\%Y\%m\%d.funny.log" 这个条目应该在工作日每半小时运行一次，每次运行时都将输出附加到日志文件中。我使用在线测试了语法，语法是正确的。然而，这个任务没有运行。更糟糕的是，日志文件是创建的(但是没有内容-文件大小0)，所以我没有诊断信息可供参考。当我在命令中输入命令时，命令cd /path/t

浏览 5提问于2017-10-27得票数 1

回答已采纳

1回答

使用CrawlerProcess顺序运行两个爬行器时出现ReactorNotRestartable错误

、、、

我正在尝试连续运行两个爬行器，以下是我的模块的结构 class tmallSpider(scrapy.Spider): name = 'tspider' ... class jdSpider(scrapy.Spider): name = 'jspider' ... process = CrawlerProcess(get_project_settings()) process.crawl('tspider') process.crawl('jspider') process.start(sto

浏览 158提问于2020-07-09得票数 0

1回答

无法用Python与Scrapy(1.5.1)发送电子邮件

、、

我是Python和Scrapy的新手。我想要做的就是发送一封简单的电子邮件，只使用Scrapy。我已经从创作者的网页上读到了，我一定是遗漏了什么，但我不能完全把手指放在上面。以下是代码： from scrapy import mail mailer = mail.MailSender(smtphost='smtp-mail.outlook.com', mailfrom='someone@hotmail.com', smtpuser='someone@

浏览 1提问于2018-09-20得票数 1

回答已采纳

2回答

从python脚本运行scrapy

、、、

我一直在尝试从python脚本文件运行scrapy，因为我需要获取数据并将其保存到我的数据库中。但是当我用scrapy命令运行它时 scrapy crawl argos 该脚本运行良好，但当我尝试使用脚本运行它时，请使用以下链接 http://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script 我得到了这个错误 $ python pricewatch/pricewatch.py update Traceback (most recent call last): File "pricewatc

浏览 1提问于2014-05-10得票数 1

1回答

Scrapy:连接到MySQL

、、、

我正在编写一个Scrapy爬虫，我想它发送数据到一个数据库。但我不能让它工作也许是因为管道。这是我的蜘蛛： from scrapy.contrib.spiders import CrawlSpider from scrapy.selector import Selector from scrapy.http import Request class YourCrawler(CrawlSpider): name = "bookstore" start_urls = [ 'https://example.com/materias/?novedade

浏览 5提问于2017-07-09得票数 0

1回答

带有外键的scrapy djangoitem

、、

这个问题是在这里被问到的，没有一个公认的答案，所以我在这里重新提出这个问题，并定义了一个更清晰的最小设置： django模型： class Article(models.Model): title = models.CharField(max_length=255) content = models.TextField() category = models.ForeignKey('categories.Category', null=True, blank=True) 注意，category是如何定义的在这里并不重要，但是它使用了ForeignKey。

浏览 1提问于2014-06-21得票数 6

1回答

物品装载机在刮擦中不能正常工作

、

我试着研究项目加载器，下面的代码不能正常工作:它只给我"start_url“值，而不是"SUBJECT”和"CREATOR2“值(它们根本不出现，不只是一个空槽)。我搞不懂它为什么这么做。我需要使用项目加载器，特别是用于"CREATOR2“值，这个值有时在xpath上，有时在另一个上。 import scrapy from bibtime.items import BibtimeItem, BibtimeLoader from scrapy.loader import ItemLoader from scrapy.contrib.loader.processo

浏览 0提问于2016-05-16得票数 3

回答已采纳

1回答

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

、、

这是一个简单的抓取蜘蛛 import scrapy class ExampleSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["https://www.dmoz.org"] start_urls = ('https://www.dmoz.org/') def parse(self,response): yield scrapy.Request(self.start_urls[0],callback=self.parse2)

浏览 1提问于2016-08-15得票数 8

回答已采纳

1回答

回到基础: Scrapy

、

scrapy是新手，我绝对需要一些指针。我已经看过了一些例子，但我没有得到一些基本的东西。我运行的是scrapy 1.0.3 蜘蛛： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from matrix_scrape.items import MatrixScrapeItem class MySpider(BaseSpider): name = "matrix" allowed_domains = ["https://www.kic

浏览 1提问于2015-11-14得票数 3

1回答

Python Scrapy不爬行网站

、、、

我对python很陌生，并试图通过一个小例子，但是我遇到了一些问题！我只能抓取第一个给定的网址，但我不能抓取超过一个网页的或整个网站的问题！请帮助我，或给我一些建议，我如何可以爬行整个网站或更多的网页，在一般情况下. 我所做的例子很简单..。我的items.py import scrapy class WikiItem(scrapy.Item): title = scrapy.Field() 我的wikip.py (蜘蛛) import scrapy from wiki.items import WikiItem class CrawlSpider(scrapy.S

浏览 4提问于2016-05-19得票数 0

2回答

在Python环境中安装Scrapy包

、、、

这是我第一次尝试Python和Scrapy。我使用以下命令在名为scrapy-env的虚拟环境中安装了Scrapy： pip install virtualenv virtualenv `scrapy-env` cd `scrapy-env` pip install scrapy 现在，我正在尝试编写我的第一个Python文件，它是一个蜘蛛，我在下面的路径下创建了一个名为spider1.py的文件： ~/scrapy-env/spider_practice/spider_practice/spiders/spider1.py 我使用的是吡喃编辑器，它抱怨没有安装Scrapy包：如

浏览 1提问于2020-06-10得票数 1

1回答

为什么我使用Scrapy shell得到一个空列表？

、、、

这个网站是"https://www.jbhifi.com.au/collections/laptops“。我正试图在href中搜索“下一页”。 ? 但是为什么scrapy shell返回一个空列表呢？我使用的语句是： response.css("li.ais-pagination--item ais-pagination--item__next a").xpath("@href") 请告诉我如何使用Scrapy刮这个。我怀疑这是因为这个类以"ais“开头(但不知道为什么会导致这个问题)。我以前也遇到过这种情况。有什么解决方案吗？干杯!

浏览 28提问于2020-01-07得票数 0

1回答

无法导入Scrapy的设置模块或其scrapy.cfg

、、、

这是一个相当长的帖子，但经过广泛的研究，我找不到解决办法。我在OSX10.8上有一个混合Django 1.4.1 /Scrapy0.14.4项目，我使用Django项目的manage.py命令控制Scrapy，如描述的。例如，调用 python manage.py scrapy crawl example_spider 没有问题。现在，我想设置scrapyd web服务来部署我的蜘蛛。但是，当我执行 python manage.py scrapy server 然后我得到了这个例外： scrapy.exceptions.NotConfigured: Unable to find scrapy

浏览 7提问于2012-08-31得票数 10

1回答

Scrapy框架- Colorize日志记录

、、、

我正在尝试让Scrapy输出彩色日志。我对Python日志记录不是很熟悉，但我的理解是我必须制作自己的格式化程序，并让Scrapy使用它。我成功地使用Clint制作了一个格式化程序来对输出进行着色。我的问题是我不能让它在Scrapy中正常工作。我本以为爬行器中的记录器对象会有一个处理程序，然后我会切换该处理程序的格式化程序。当我查看spider.logger.logger内部的内容时，我发现handler是一个空列表。我尝试在一个新的流处理程序中添加我的格式化程序。 crawler.spider.logger.logger.addHandler(sh)，其中sh是使用我的颜色格式化程序的处理

浏览 8提问于2017-02-08得票数 4

回答已采纳

1回答

蜘蛛只爬行最后的网址，但不是全部。

、、

我想使用Scrapy抓取存储在csv文件中的多个urls。我的代码工作(没有显示错误)，但它只刮最后一个url，但不是所有它们。这是我的代码的图片。请告诉我我做错了什么。我想刮掉所有的urls，把刮过的文本放在一起保存。我已经在StackOverflow上尝试了很多建议。我的密码- import scrapy from scrapy import Request from ..items import personalprojectItem class ArticleSpider(scrapy.Spider): name = 'articles' with

浏览 6提问于2022-11-18得票数 -2

回答已采纳

1回答

Python Scrapy:返回抓取的URL列表

、、、

我使用scrapy来刮掉单个域的所有链接。我正在追随域上的所有链接，但保存了域中的所有链接。下面的刮板可以正常工作，但是我不能从刮板内部访问成员变量，因为我是用CrawlerProcess运行它的。 import scrapy from scrapy.crawler import CrawlerProcess class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['https://example.com'] on_domain_urls = set()

浏览 14提问于2020-04-30得票数 0

1回答

一次运行Scrapy脚本，处理输出，并加载到数据库？

、

我已经成功地编写了一个从网页抓取数据的Scrapy项目，当我在命令行使用scrapy crawl dmoz -o items.json -t json调用它时，它成功地将抓取的数据输出到JSON文件中。然后，我编写了另一个脚本，获取该JSON文件，加载它，更改数据的组织方式(我不喜欢它的默认组织方式)，并将其作为第二个JSON文件输出。然后使用Django的manage.py loaddata fixture.json命令将第二个文件的内容加载到Django数据库中。现在，我感觉到我会因为在三个独立的步骤中做这件事而被嘲笑，但我不太确定如何将所有这些都放在一个脚本中。首先，我不能让我的Sc

浏览 0提问于2013-02-03得票数 1

回答已采纳

1回答

刮擦什么也没有

、、、

我正在尝试从网站获取国家和--这是我尝试过的代码： import scrapy class GdpDebtSpider(scrapy.Spider): name = 'gdp_debt' allowed_domains = ['worldpopulationreview.com'] start_urls = ['http://worldpopulationreview.com/countries/countries-by-national-debt/'] def parse(self, response):

浏览 16提问于2022-10-03得票数 0

1回答

Scrapy可以在shell中工作，但不能在代码中工作。

、、

我在scrapy中开发我的第一个爬虫时遇到了一个问题。我能够在scrapy shell中获得适当的信息，但是当我在代码中实现它时，它不能工作。我在这里读过类似的帖子，但我仍然不能找出我做错了什么。 import scrapy from scrapy.loader import ItemLoader from ..items import ScrapingamazonItem class AmazonSpiderSpider(scrapy.Spider): name = 'amazon_spider' start_urls = ['https://ww

浏览 15提问于2020-09-26得票数 0

回答已采纳

2回答

Crontab运行时出现错误

我正在用crontab编程的方式在服务器上运行一些刮擦蜘蛛。我尝试了几个命令，终于有了这个crontab，它没有运行，也没有给我任何有用的错误。 #!/bin/bash PATH=/root/ 47 9,22 * * * cd Travel/lastsecond && scrapy crawl tours 这个crontab不起作用，在syslog中我得到了以下内容： Feb 13 09:47:01 d4bd CRON[18641]: (root) CMD (cd Travel/lastsecond && scrapy crawl tours) Feb 13 0

浏览 0提问于2018-02-13得票数 0

回答已采纳

2回答

未能导入items.py文件上的模块- Scrapy

、、

我是Python的新手，目前正在学习如何使用蜘蛛进行网络抓取。在本教程之后，我开始使用Python进行相对导入。这是我当前文件夹的结构(由scrapy startproject p1提供)：我的items.py文件： # Define here the models for your scraped items # # See documentation in: # https://docs.scrapy.org/en/latest/topics/items.html import scrapy class Test(scrapy.Item): # define t

浏览 1提问于2021-07-08得票数 2

回答已采纳

1回答

当dont_filter=False时，刮掉请求回调不起作用

、、、

我正在使用Scrapy1.1.0和Python3.5来从一个网站抓取数据。下面的代码正在工作..。 class ImdbSpider(scrapy.Spider): name = "imdbFav" allowed_domains = ["http://www.imdb.com"] start_urls = [ "http://www.imdb.com/title/tt0203166/" ] recommendRegex = re.compile(r'\/title\/([A-Za-

浏览 2提问于2016-07-15得票数 1

1回答

硒与Scrapy结合

、、、、

是否有任何方法有效地将Selenium集成到Scrapy中，以实现其页面呈现功能(以便生成屏幕截图)？在Scrapy已经处理完这个请求之后，我看到的很多解决方案只是在WebDriver上抛出一个Scrapy请求/响应URL，然后就可以完成了。这会产生两倍多的请求，在许多方面失败(需要登录的站点，具有动态或伪随机内容的站点，等等)，并使许多扩展/中间件失效。有什么“好”的方法让这两个人一起工作吗？有没有更好的方法来生成我正在抓取的内容的截图？

浏览 3提问于2015-07-13得票数 6

1回答

使用cookies的scrapy身份验证登录

、、、、

我刚接触scrapy，因为网上评论很好，所以我决定试一试。我正在尝试用scrapy登录一个网站。通过使用selenium收集所需的cookie并将它们添加到mechanize中，我已经成功地使用selenium和mechanize组合登录。现在我正试着用scrapy和selenium做一些类似的事情，但似乎不能让任何东西工作。我真的不知道是不是什么都能用。有谁能帮帮我。下面是我开始做的事情。我可能甚至不需要用scrapy传输cookie，但我不能分辨这个东西是否真正登录过。谢谢 from scrapy.spider import BaseSpider from scrapy.http impo

浏览 3提问于2012-06-26得票数 10

回答已采纳

1回答

Python是否有可能进入每个产品页面并刮取数据？

、、

我对python和web抓取很陌生，我想知道是否有可能用刮伤从产品页面中抓取。示例:我在amazon.com上搜索监视器，我希望scrapy转到每个产品页面并从那里刮取，而不是只是从搜索结果页面中抓取数据。我读过一些关于xpath的文章，但我不确定是否可以使用这个方法，而且我发现的所有其他资源似乎都在使用其他东西，比如漂亮的汤等等。我正确地拥有了一个从搜索结果页面中抓取的刮擦项目，但是我想将它改进为从产品页面中刮取。编辑：以下是我根据您的建议修改的spider.py： class TestSpiderSpider(scrapy.Spider): name = 'testscra

浏览 3提问于2020-11-10得票数 0

回答已采纳

2回答

使用python scrapy提取链接和文本

、、、

我是Python和Scrapy的新手。我想从网站提取信息，包括文件的链接，名称和有效到。我试过这段代码，但它不能工作。如果有人能给我解释和帮助，我将不胜感激。这是文件vodafone.py import scrapy from scrapy.linkextractor import LinkExtractor from scrapy.spiders import Rule, CrawlSpider from vodafone_scraper.items import VodafoneScraperItem class VodafoneSpider(scrapy.Spider):

浏览 0提问于2017-08-20得票数 0

1回答

Scrapy Parser -不输出数据

我不确定为什么我在scrapy shell中的结果可以工作，而我的脚本却不能。我想解析列出的列，并使用脚本将数据输出到外部json文件。我已经在scrapy shell上进行了测试，并收到了成功的结果。但是，我的脚本失败了。 Scrappy shell测试： scrapy shell https://wiki.dspt.info/index.php/Basic_Item_IDs_Page_1 >>> response <200 https://wiki.dspt.info/index.php/Basic_Item_IDs_Page_1> >>>

浏览 11提问于2019-04-29得票数 0

回答已采纳

1回答

代码错误与Scrapy教程

、、

我正在努力学习Scrapy和复习基础教程，我正在使用Anaconda。我在一个安装了刮痕的环境中工作。我输入了代码，但一直有错误。以下是代码： import scrapy class FirstSpider(scrapy.Spider): name = "FirstSpider" def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrap

浏览 3提问于2018-06-06得票数 0

回答已采纳

1回答

Scrapy:在shell中使用xpath检索的数据，但没有在项中检索

、、、、

我正在建立一个简单的网络刮刀，使用刮除，以获得一个足球队的结果，从BBC网站。来自页面()的相关HTML如下： <tr class="report" id="match-row-EFBO755964"> <td class="statistics show" title="Show latest match stats"> <button>Show</button> </td> <td class="match-competition

浏览 4提问于2014-12-30得票数 1

回答已采纳

1回答

我遵循了“刮除”的教程，但是没有选择的信息被打印出来。

我是一个飞毛腿的初学者，我遵循官方的教程学习。我做的正是website.when上的内容，我试着在屏幕上打印站点，没有相关信息被打印出来。这是我的代码： items.py class DmozIterm(scrapy.Item): #define item for Dmoz title=scrapy.Field() link=scrapy.Field() desc=scrapy.Field() domzSpider.py import scrapy class DmozSpider(scrapy.Spider): name = "dmoz&#

浏览 0提问于2016-09-05得票数 0

1回答

只获取for循环中的第一个元素

、、、、

我不明白为什么下面的代码在使用Scrapy Selector时不能工作。在刮擦的外壳中(为了便于复制，但在蜘蛛中这个问题仍然是一样的)： from scrapy.selector import Selector body = '''<html> <body> <li> <p>1</p> <p>2</p> <p>3</p> </li> <li> <p>4</p>

浏览 1提问于2022-06-02得票数 -1

1回答

从链接中提取刮痕

、、

我试图在某些链接中提取信息，但我不能进入链接，我从start_url中提取，我不知道为什么。这是我的代码： import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from tutorial.items import DmozItem from scrapy.selector import HtmlXPathSelector class DmozSpider(scrapy.Spider

浏览 3提问于2015-06-10得票数 1

回答已采纳

1回答

在Scrapy [Python]中使用递归蜘蛛

、、、、

简介你好，我用Scrapy来获取雅虎答案中的数据。我的成就是把所有的问题和答案都集中在一个精确的部分。 --我尝试使用scrapy和selenium --首先，我尝试在一节中记录一个问题列表，这个列表是在蜘蛛类中记忆的。之后，我使用For循环来解析每个页面。 for url in self.start_urls_mod: yield scrapy.Request(url, callback=self.parse_page) i = i + 1 parse_page方法是用于抓取问题页、最佳答案和所有其他答案的结构。这个很好用。当我尝试使用页面右侧下面链接上的

浏览 2提问于2015-10-14得票数 0

回答已采纳