Scrapy在表中第10行之后返回'None‘

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。它可以自动化地浏览网页、提取数据，并将数据存储到数据库或其他数据存储系统中。

对于给定的问题，Scrapy在表中第10行之后返回'None'的可能原因有以下几种：

数据未正确加载：Scrapy可能在爬取网页时未正确加载所需的数据。这可能是由于网络连接问题、网页结构变化或其他原因导致的。
数据提取规则错误：Scrapy使用选择器来提取网页中的数据，如果提取规则设置不正确，可能导致无法提取到所需的数据。需要检查提取规则是否正确并进行调整。
数据不存在：在表的第10行之后，可能没有数据可供提取。需要确认表中是否存在数据，并且确保提取的范围正确。

针对这个问题，可以采取以下步骤进行排查和解决：

检查网络连接：确保网络连接正常，可以尝试访问其他网页来确认网络是否正常工作。
检查网页结构：使用浏览器开发者工具或其他工具查看网页的HTML结构，确认所需数据是否存在于表中，并确定正确的提取规则。
调整提取规则：根据网页结构和数据位置，调整Scrapy的提取规则，确保正确提取所需数据。可以使用XPath或CSS选择器来指定提取规则。
调试代码：在Scrapy的代码中添加日志输出或调试语句，以便跟踪代码执行过程并查看是否有错误或异常发生。
检查数据存储：确认数据存储系统是否正常工作，例如数据库是否可用、表是否存在等。

对于云计算领域的相关产品和服务，腾讯云提供了一系列解决方案，包括但不限于：

云服务器（Elastic Compute Cloud，ECS）：提供可扩展的计算资源，用于部署和运行应用程序。
云数据库（Cloud Database，CDB）：提供高可用性、可扩展的数据库服务，支持多种数据库引擎。
云存储（Cloud Object Storage，COS）：提供安全可靠的对象存储服务，用于存储和管理大规模的非结构化数据。
人工智能服务（AI Services）：提供各种人工智能相关的服务，如图像识别、语音识别、自然语言处理等。
云安全服务（Cloud Security）：提供网络安全、数据安全等方面的解决方案，保护用户的云计算环境和数据安全。

更多腾讯云产品和服务的详细介绍可以参考腾讯云官方网站：https://cloud.tencent.com/

Scrapy在表中第10行之后返回'None‘

python、web-scraping、xpath、scrapy

基本上，我将获得表中前10行的文本，然后是后面90行的“None”。如果我使用不同的xpath表达式(有人建议我这样做，但我个人并不完全理解)，它会给出后90个表达式，而不是前10个表达式。起初我认为这是因为tbody，所以我从xpath表达式中删除了它。我所针对的标签的类在第10行之后也会发生变化，所以我不确定这是否会有所不同。class CryptocurrenciesSpider(scrapy.Spider): name = '

浏览 22提问于2021-04-09得票数 2

1回答

ModuleNotFoundError:没有名为“scrapy_user_agents”的模块

python、web-scraping、scrapy

第184号，在爬行返回self.crawler.crawl(*args，**kwargs)文件第1613行中，在unwindGenerator返回_cancellableInlineCallbacks(gen)文件"c:\users\\scraping\venv\lib\site-packages\scrapy\middleware.py"，第53行中，在from_crawler

浏览 0提问于2019-08-13得票数 1

回答已采纳

1回答

不适当地部署Scrapy代理

python、selenium、proxy、web-scraping、scrapy

"，结果= result.throwExceptionIntoGenerator(g) _inlineCallbacks第393行中，在throwExceptionIntoGenerator返回g.throw(self.type、self.value、self.tb)文件第43行中，在文件"/Users/jiajiefan/data_mining/lib/python2.7/site-pac

浏览 6提问于2017-06-16得票数 0

1回答

可读性IXML xpath不工作。

python、scrapy

-1.3.1-py2.7.egg\scrapy\utils\defer.py"，第102行，在iter_errback中文件"c:\python27\lib\site-packages\scrapy-1.3.1-py2.7.egg\scrapy\spidermiddlewares\offsite.py"，第29行，在process_spider_output中文件&quo

浏览 2提问于2017-02-15得票数 0

3回答

自定义项目命令："ImportError:没有模块名为命令“

python、scrapy

返回‘选项’def short_desc(self)：返回‘运行所有蜘蛛的def运行(self，args，选项)：get_project_settings= spider_name的self.crawler.spiders.list/bin/scrapy"，第9行，在load_entry_point('Scrapy==1.0.0rc2'，‘console_script’，‘scrapy’)(文件)第12

浏览 2提问于2015-06-15得票数 2

1回答

刮伤教程扭曲错误

python、scrapy

扭曲临界:跟踪(最近一次调用)：文件_inlineCallbacks第12行60，在_inlineCallbacks结果=g.send(结果)文件第90行中，在爬行"f:\myproj~1\scrapy\lib\site-packages\scrapy\crawler.py"，(*exc_info)文件第72行中，在爬行self.engine = self._create_engine()文件<e

浏览 0提问于2016-11-05得票数 0

回答已采纳

1回答

Scrapy停止抓取，但继续爬行

python、scrapy、web-crawler

我试图从一个网站的几个页面中抓取不同的信息。在第16页之前，一切正常:页面被抓取，抓取，我的数据库中的信息存储，但是在第16页之后，它停止抓取，但继续抓取。page=16> (referer: None)>page=17> (referer: None)> ----------

浏览 0提问于2018-01-24得票数 4

1回答

无法爬行多个页面

python、xpath、web-scraping、scrapy

\programdata\anaconda3\lib\site-packages\scrapy\spidermiddlewares\referer.py"，第339行，在返回(r表示结果

浏览 0提问于2019-05-29得票数 0

回答已采纳

1回答

Scrapy第一教程dmoz返回en错误"TypeError:不能使用类的实现者。使用类声明函数之一。“

python-2.7、scrapy、dmoz

"，第1207行，在run_script execfile中(script_filename、命名空间、命名空间)文件"/Library/Python/

浏览 1提问于2014-06-19得票数 0

2回答

如何在Scrapy/Twisted中使用线程，即如何在响应回调中对阻塞代码执行异步调用？

python、multithreading、scrapy、twisted

我需要在Scrapy中运行一些多线程\多处理工作(因为我有一些使用阻塞调用的库)，并在完成之后将请求发送回Scrapy引擎。但是Scrapy parse回调必须只返回None、Request或BaseItem对象。

浏览 0提问于2014-09-15得票数 3

回答已采纳

1回答

运行时请求URL更改不起作用

python-3.x、scrapy

我使用Scrapy用Python编写了一个脚本。代码运行以获取包含该代码的所有存在页。当开始刮取时，它在第一个页面加载时工作得很好，并且按照脚本逻辑获得第二个页面。但是在加载第2页之后，我无法获得加载新页面的xpath，所以我可以这样向前移动，获得所有的网页编号。from scrapy import Spider start_

浏览 5提问于2022-06-10得票数 1

回答已采纳

1回答

错误:蜘蛛必须返回请求，BaseItem，dict或None，GET中的“set”

python、web-scraping、scrapy

我试图索引goanime1.com中包含“Url.The /”的页面，该页面在以前只工作过不同的站点，但由于原因，像这样的错误出现在我的日志中-- scrapy.core.scraper错误: Spider必须返回请求，BaseItem、dict或None，在中得到“set”。:蜘蛛必须返回请求，BaseItem必须返回请求，BaseItem必须返回dict或None，g

浏览 0提问于2019-08-13得票数 0

回答已采纳

1回答

防止忽略非200响应状态-刮伤

python、web-scraping、scrapy、web-crawler、http-status-code-502

GatewayCRITICAL:security_daily_history中那样工作，但它没有，我在设置中设置了RETRY_TIMES = 4，但是蜘蛛在失败1次之后忽略了502状态。为了再现这个问题，总是返回502状态代码。我在以

浏览 1提问于2020-10-31得票数 0

2回答

是否可以使用基于文本标准的scrape来刮取HTML表？

python、web-scraping、scrapy

我正在蘸我的手指在网刮，我正在尝试刮刮和在主寄存器内的链接使用Scrapy。每个说客都有一个链接，可以跟随这个链接获得他们的客户列表(例如，和；但是，这些嵌套的表在每个页面中并不一致。例如，对于APF，客户端的xpath是//_[@id="main"]/table[7]__，a_nd从第20行开始，对于APF*，它是//*[@id="main"]/table[6]，从第24行开始。常见的情

浏览 1提问于2022-09-11得票数 0

回答已采纳

1回答

(ValueError: request :h中缺少的方案)

python、scrapy、python-3.6

我试图从wikia站点上的一个表中下载图片，但是当我通过命令行运行该项目时，它一直给我"ValueError: request url: h中缺少的方案“。行，在_runCallbacks current.result =回调(current.result，*args，**kw)中文件"C:\Miniconda3\lib\site-packages\scrapy\pipelines\media.py"，第79行，在process_item

浏览 7提问于2017-10-29得票数 0

回答已采纳

2回答

scrapy:了解项目和请求如何在回调之间工作

python、scrapy

我在与Scrapy做斗争，我不明白在回调之间传递项目到底是如何工作的。也许有人能帮我。我们正在创建一个新的对象项，还是这是在parse_page1中创建的对象项？什么反应，元“物品”是什么意思？我们传递给请求的只有3个信息，如链接和回调，我们没有添加任何额外的参数，我们可以参考.item['other_url'] = response.url <- -我们正在为对象项的other_url赋值 return item <-作为请求的结果，我们将返回ite

浏览 1提问于2015-11-07得票数 3

回答已采纳

2回答

使用scrapy跟踪新闻链接

python-3.x、web-scraping、scrapy、web-crawler、scrapy-spider

因此，我认为我的步骤是： import scrapy namestart_requests(self): url = 'https://www.lacuarta.com/etiqueta

浏览 1提问于2019-02-14得票数 0

回答已采纳

1回答

不可能拿到那块地

python、scrapy

我一直在尝试使用检查工具和一个插件创建我的xpath表达式。我自己也试过了。它在网页中起作用，但在脚本中不起作用。有人知道会发生什么吗？谢谢!)：.core.scraper 第653行，在_runCallbacks current.result = callback(current.result，*args，**kw)文件"C:\Users\eric\Documents\Web Scraping\0 - Projets\Scrapy</e

浏览 0提问于2017-09-21得票数 0

1回答

Scrapy <TD>解析对齐的麻烦

parsing、html-table、scrapy、html-parsing

我尝试只解析html表中item和Skill Cap列的数据：http://ffxi.allakhazam.com/dyn/guilds/Alchemy.html 在解析时，我遇到了对齐问题，因为我的脚本是从其他列解析的import scrapy name = "recipe_table" start_urls = ['http://

浏览 22提问于2019-05-10得票数 0

回答已采纳

1回答

Python + Scrapy:从脚本运行爬虫时运行"ImagesPipeline“的问题

python、scrapy、scrapy-pipeline

我有一个Scrapy项目，它成功地抓取源网站，返回所需的项，然后使用ImagePipeline从返回的图像链接下载(然后相应地重命名)图像.但只有当我使用"runspider".从终端运行时，才能运行每当我使用来自终端或CrawlProcess的“爬行”从脚本运行蜘蛛，它返回项目，但不下载图片，我想，完全错过ImagePipeline。我读到，在以这种方式运行时，我需要导入我的设置，以便正确地加载管道，这在研究了“爬行”和“运行蜘蛛”之间的区别之后是有意义的，但我仍然

浏览 0提问于2019-08-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy在表中第10行之后返回'None‘

相关·内容

Scrapy在表中第10行之后返回'None‘

ModuleNotFoundError:没有名为“scrapy_user_agents”的模块

不适当地部署Scrapy代理

可读性IXML xpath不工作。

自定义项目命令："ImportError:没有模块名为命令“

刮伤教程扭曲错误

Scrapy停止抓取，但继续爬行

无法爬行多个页面

Scrapy第一教程dmoz返回en错误"TypeError:不能使用类的实现者。使用类声明函数之一。“

如何在Scrapy/Twisted中使用线程，即如何在响应回调中对阻塞代码执行异步调用？

运行时请求URL更改不起作用

错误:蜘蛛必须返回请求，BaseItem，dict或None，GET中的“set”

防止忽略非200响应状态-刮伤

是否可以使用基于文本标准的scrape来刮取HTML表？

(ValueError: request :h中缺少的方案)

scrapy:了解项目和请求如何在回调之间工作

使用scrapy跟踪新闻链接

不可能拿到那块地

Scrapy <TD>解析对齐的麻烦

Python + Scrapy:从脚本运行爬虫时运行"ImagesPipeline“的问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐