Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >Python / Scrapy - code跳过产品，即使列出的所有产品的xpath都相同

问Python / Scrapy - code跳过产品，即使列出的所有产品的xpath都相同
EN

Stack Overflow用户

提问于 2020-11-30 12:39:08

回答 2查看 62关注 0票数 0

试图从包含历史产品数据的www.archive.org中抓取信息。我下面的代码尝试单击列出的每个产品，scrape每个产品的信息，并对后续页面执行相同的操作。

问题是它跳过了一些产品(特别是20个)，即使xpath：

 products = response.xpath("//article[contains(@class,'product result-prd')]")

对所有产品都是一样的。请看我下面的完整代码。

class CurrysSpider(scrapy.Spider):
    name = 'currys_mobiles_2015'
    #allowed_domains = ['www.currys.co.uk']
    start_urls = ['https://web.archive.org/web/20151204170941/http://www.currys.co.uk/gbuk/phones-broadband-and-sat-nav/mobile-phones-and-accessories/mobile-phones/362_3412_32041_xx_xx/xx-criteria.html']

    def parse(self, response):
        products = response.xpath("//article[contains(@class,'product result-prd')]") # done

        for product in products:
            brand = product.xpath(".//span[@data-product='brand']/text()").get() # done
            link = product.xpath(".//div[@class='productListImage']/a/@href").get() # done
            price = product.xpath(".//strong[@class='price']/text()").get().strip() # done
            description = product.xpath(".//ul[@class='productDescription']/li/text()").getall() # done

            absolute_url = link # done
           
            yield scrapy.Request(url=absolute_url,callback=self.parse_product,
             meta={'brand_name':brand,
            'product_price':price,
            'product_description':description}) # done

        # process next page
        next_page_url = response.xpath("//ul[@class='pagination']//li[last()]//@href").get()
        absolute_next_page_url = next_page_url

        if next_page_url:
            yield scrapy.Request(url=absolute_next_page_url,callback=self.parse)


    def parse_product(self, response):
        .....

希望您能就此提供一些反馈。

EN

回答 2

Stack Overflow用户

发布于 2020-11-30 15:06:01

尝试查看这些产品是否存在于页面html中或通过js加载。只需使用ctrl+U并检查这些产品的html body即可。

票数 0

EN

Stack Overflow用户

发布于 2020-11-30 22:27:35

可能是由于JS加载的原因，单个页面没有正确加载，因为其余代码看起来没有问题(尽管我建议使用normalize-space($xpath)而不是.strip() )。

为了测试这一点(在Chrome上)，访问你的目标网页，打开Chrome Dev Tools(F12)，点击"Console“和Ctrl+Shift+P弹出命令窗口。

接下来，键入“禁用Javascript”，并在出现时选择该选项。现在，使用Ctrl+R来刷新页面，这就是你的web抓取器得到的“视图”。现在检查您的Xpath表达式。

如果您确实有问题，请考虑使用scrapy-splash或scrapy-selenium来加载此JS。

编辑:我会检查内存泄漏的可能性。根据scrapy docs的说法，在回调中使用meta属性有时会导致泄漏。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65073750

复制

相关文章

VBA编程With语句

大家好，本节介绍用于处理对象和集合的语句之一的with语句，内容相对比较简单，with语句的问题在上节时有引出。

无言之月

2019/10/13

2.9K0

EXCEL VBA语句集300

编程算法 node.js

定制模块行为 (1) Option Explicit ‘强制对模块内所有变量进行声明 Option Private Module ‘标记模块为私有，仅对同一工程中其它模块有用，在宏对话框中不显示  Option Compare Text ‘字符串不区分大小写  Option Base 1 ‘指定数组的第一个下标为1 (2) On Error Resume Next ‘忽略错误继续执行VBA代码,避免出现错误消息 (3) On Error GoTo ErrorHandler ‘当错误发生时跳转到过程中的某个位置 (4) On Error GoTo 0 ‘恢复正常的错误提示 (5) Application.DisplayAlerts=False ‘在程序执行过程中使出现的警告框不显示 (6) Application.ScreenUpdating=False ‘关闭屏幕刷新 Application.ScreenUpdating=True ‘打开屏幕刷新 (7) Application.Enable.CancelKey=xlDisabled ‘禁用Ctrl+Break中止宏运行的功能  工作簿 (8) Workbooks.Add() ‘创建一个新的工作簿 (9) Workbooks(“book1.xls”).Activate ‘激活名为book1的工作簿 (10) ThisWorkbook.Save ‘保存工作簿 (11) ThisWorkbook.close ‘关闭当前工作簿 (12) ActiveWorkbook.Sheets.Count ‘获取活动工作薄中工作表数 (13) ActiveWorkbook.name ‘返回活动工作薄的名称 (14) ThisWorkbook.Name ‘返回当前工作簿名称 ThisWorkbook.FullName ‘返回当前工作簿路径和名称 (15) ActiveWindow.EnableResize=False ‘禁止调整活动工作簿的大小 (16) Application.Window.Arrange xlArrangeStyleTiled ‘将工作簿以平铺方式排列 (17) ActiveWorkbook.WindowState=xlMaximized ‘将当前工作簿最大化  工作表 (18) ActiveSheet.UsedRange.Rows.Count ‘当前工作表中已使用的行数 (19) Rows.Count ‘获取工作表的行数(注：考虑向前兼容性) (20) Sheets(Sheet1).Name= “Sum” ‘将Sheet1命名为Sum (21) ThisWorkbook.Sheets.Add Before:=Worksheets(1) ‘添加一个新工作表在第一工作表前 (22) ActiveSheet.Move After:=ActiveWorkbook. _ Sheets(ActiveWorkbook.Sheets.Count) ‘将当前工作表移至工作表的最后 (23) Worksheets(Array(“sheet1”,”sheet2”)).Select ‘同时选择工作表1和工作表2 (24) Sheets(“sheet1”).Delete或 Sheets(1).Delete ‘删除工作表1 (25) ActiveWorkbook.Sheets(i).Name ‘获取工作表i的名称 (26) ActiveWindow.DisplayGridlines=Not ActiveWindow.DisplayGridlines ‘切换工作表中的网格线显示，这种方法也可以用在其它方面进行相互切换，即相当于开关按钮 (27) ActiveWindow.DisplayHeadings=Not ActiveWindow.DisplayHeadings ‘切换工作表中的行列边框显示 (28) ActiveSheet.UsedRange.FormatConditions.Delete ‘删除当前工作表中所有的条件格式 (29) Cells.Hyperlinks.Delete ‘取消当前工作表所有超链接 (30) ActiveSheet.PageSetup.Orientation=xlLandscape 或ActiveSheet.PageSetup.Orientation=2 ‘将页面设置更改为横向 (31) ActiveSheet.PageSetup.RightFooter=ActiveWorkbook.FullName ‘在页面设置的表尾中输入文件路径 ActiveSheet.PageSetup.Le

Tony老师

2020/03/05

2K0

File 和 Font 是访问非托管资源（本例中为文件句柄和设备上下文）的托管类型的示例。有许多其他类别的非托管资源和封装这些资源的类库类型。所有此类类型都必须实现 IDisposable 接口。

祝你万事顺利

2019/05/29

1.1K0

C# Dictionary通过Value找Key[通俗易懂]

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/163555.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/15

7930

VBA-ADO-SQL-002单条件查询语句

输入“工号姓名性别年龄部门工资奖金”

哆哆Excel

2022/10/25

6880

VBA-ADO-SQL-002单条件查询语句

c#知识点2.0 语句

主要说一下我认为比较重要的东西。 foreach循环格式: foreach(类型循环变量 in 变量的取值集合) 变量值集合类型必须是一个集合，而循环变量必须和它的类型一致，如果不一致，需要显示转换，循环变量是一个只读的局变量 ---- goto语句可以用于任何语句的跳转，可以跳进跳出循环语句，共同语句需要指明标签，使goto语句跳转到标签处。尽量少用goto，代码可读性差，容易造成程序混乱。 ---- 异常处理异常程序运行时遇到的错误，或者程序意外的行为，在异常发生时，采用

热心的社会主义接班人

2018/04/27

5990

Excel VBA解读（164）：错误处理技术之On Error语句

好的应用程序应该能够捕获错误并进行相应的处理，而不是VBA弹出的错误消息。正如上文提到的，有两种方法处理运行时错误。对于可预见的错误，编写特定的代码来处理它们。对于不可预见的意外错误，则使用VBA错误处理语句来处理。

fanjy

2020/01/13

9.9K0

Excel VBA解读（164）：错误处理技术之On Error语句

c#之dynamic类型通过属性获取值（get value by key）

c#dynamic key null 语法

即 d.GetType().GetProperty("value2").GetValue(d, null);注意这个写的时候没有代码提示，但是是可以的。

Vincent-yuan

2021/02/25

5.5K0

c#之dynamic类型通过属性获取值（get value by key）

VBA操作VBA——VBA工程对象

前面的VBA意思是指VBA程序，后面的VBA是指VBA工程对象（代码和组织代码的模块、类等）。

xyj

2020/07/28

3.6K0

VBA操作VBA——VBA工程对象

Spring @Value("#{}")和@Value("${}")

jdbc properties url

二.@Value("${}") 用于获取配置文件中的属性值，通常用于获取写在application.properties中的内容，例如在配置文件中：

赵哥窟

2022/04/02

1.2K0

C# 在线编译字符串型语句

ConstructEvaluator(items); //调用解析字符串构造函数进行解析

静谧的小码农

2019/01/11

8290

【C# 基础精讲】条件语句：if、else、switch

c#编程程序基础语法

条件语句是C#编程中用于根据条件执行不同代码块的关键结构。C#支持if、else和switch三种常见的条件语句，它们允许根据表达式的结果决定程序的执行路径。在本文中，我们将详细介绍这三种条件语句的语法和使用方法。

繁依Fanyi

2023/10/12

4930

【C# 基础精讲】条件语句：if、else、switch

VBA破解VBA密码

'如果是xlsm的请另存为xls后运行破解 Sub MoveProtect() Dim FileName As String FileName = Application.GetOpenFilename("Excel文件（.xls & .xla）,.xls;.xla", , "VBA破解") If FileName = CStr(False) Then Exit Sub Else If Dir(FileName) = "" Then Exit Sub Else FileCopy File

林万程

2018/06/21

3K4

006 C# 自动生成信息卡

c#vba java python windows server

首先，我会在Word里建立一张信息卡模板，放在文件夹~c003\bin\Debug\。

职场编码

2020/05/30

1.9K0

【内卷到底】Excel催化剂免费提供VBA解密功能，除打开密码外，其余所有密码均可秒级破解

vba c#.net 开源

VBA密码破解，在一般地插件里，都是收费方式提供，Excel催化剂，全功能免费，最新推出VBA解密功能，还要公开核心源代码，这免费程度够诚意了么？

Excel催化剂

2022/03/31

2.8K1

【内卷到底】Excel催化剂免费提供VBA解密功能，除打开密码外，其余所有密码均可秒级破解

vba python kotlin

https://insights.stackoverflow.com/survey/2020#community-visiting-stack-overflow

量化投资与机器学习微信公众号

2020/06/21

2.5K0

【C# 基础精讲】try-catch语句块

c#基础异常异常处理最佳实践

try-catch语句块是C#中用于异常处理的关键机制。异常是在程序执行过程中可能出现的错误或意外情况，而try-catch语句块允许您在执行代码时捕获并处理这些异常，从而保证程序的稳定性和健壮性。本文将深入探讨try-catch语句块的结构、用法和最佳实践。

繁依Fanyi

2023/10/12

2560

【C# 基础精讲】try-catch语句块

VBA操作VBA——代码操作

vba 编程算法

有了前面VBA工程对象的基础，要操作代码就容易了，只要找到对象对应的属性、方法就可以。

xyj

2020/07/28

2.5K0

VBA操作VBA——提取数字

vba 数据处理

会使用Excel的人都知道数字和文本是应该分开列来存储的，可是总是会碰上一些人仅仅是把Excel当作制作表格的一个简单工具，至于使用函数进行数据处理是根本不会的！

xyj

2020/07/28

4.3K0

Integer.MAX_VALUE+Integer.MAX_VALUE= ？

integer max 二进制计算机数据

大家好，欢迎来到程序视点！我是小二哥。对于Integer.MAX_VALUE + Integer.MAX_VALUE = ?，主要考察大家对数据越界的理解！当然还有数据在计算机中二进制的表现形式！

程序视点

2023/09/27

3730

Integer.MAX_VALUE+Integer.MAX_VALUE= ？

相似问题

Excel VBA: IF ComboBox.Value语句

19

IS IN (Select语句，'value'，'value')

20

Vba类型-语句转换为C#

12

VBA函数返回'#VALUE!‘

10

VBA:函数返回#VALUE

20

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例