在Scrapy Amazon中更新Xpath

文章/答案/技术大牛

发布

1回答

抓取爬行类别和页面

、、、、

我不确定是应该在回调parse_data之后还是在parse_data函数中调用它import scrapy name = 'amazon0.1' allowed_domains('//*[@class="pagnLink"]/

浏览 4提问于2017-09-14得票数 1

回答已采纳

1回答

在亚马逊上学习scrapy。 link 在过去的一周里，我看到名称、评论和链接(href)的xpath发生了变化。这些是xpath REVIEWS = <span class="a-size-base a-color-base s-underline-text" style="" xpath="1"> TITLEs-underline-text s-underline-link-text a-text-normal" hre

浏览 8提问于2021-09-25得票数 0

1回答

如何将数据从scrapy插入到mysql

、、、、

我正在尝试使用scrapy从amazon获取数据，我可以在CSV中获得数据，但是我无法在mysql数据库中插入数据，请找到我的代码，我的蜘蛛是。(scrapy.Spider): allowed_domains = ["amazon.com"] start_urls = [item['title'] = sel.

浏览 6提问于2014-12-05得票数 1

回答已采纳

1回答

抓取AWS博客网站时Scrapy不返回任何内容

、

这是我在AWS博客网站首页抓取URL列表的尝试。但它不返回任何内容。我想可能是我的xpath出了问题，但不确定如何修复。import scrapy name = 'awsblog' allowed_domains = ['aws.amazon.com= response.xpath('//li[@class="m-card&qu

浏览 17提问于2019-11-06得票数 0

回答已采纳

2回答

用于以正确格式导出csv文件的Scrapy管道

、、、

爬虫代码如下：from amazon.items import AmazonItem name= "amazon" start_urls = [ 'http://www.amazon.co.uk/product-r

浏览 3提问于2015-04-29得票数 18

回答已采纳

1回答

错误: pyMySQL不适用于爬虫蜘蛛

、、、

当我在python中的scrapy项目中导入pyMysql库时，它提供了一个没有找到模块的错误。我想问如何在scrapy项目的python文件中导入pyMysql库。当我在简单的python中导入pyMySQL时，它是正常工作的。from amazon

浏览 0提问于2018-06-23得票数 1

回答已采纳

1回答

而抓取获取错误实例方法没有属性'getitem‘

、、、、

import scrapyfrom scrapy.selector import Selectorfrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom amazon.itemsimport AmazonItem class delhiveryspider(

浏览 3提问于2015-01-27得票数 1

回答已采纳

1回答

为什么我不能使用scrapy选择亚马逊页面中的某些元素？

、、、、

但是，我无法从scrapy响应中选择包含ASIN的表。如何选择表以便解析表中的数据？import scrapy name= 'amazon.com' yield scrapy.Request('https

浏览 2提问于2018-09-26得票数 1

1回答

回调函数出现故障

、

这是我的第一个scrapy项目，我需要帮助来返回parse_details的输出并在主parse中使用 import scrapy,csv,requestsfrom scrapy.selector import Selector else:

浏览 18提问于2019-04-17得票数 0

回答已采纳

2回答

编写规则以从div获取字符串以在链接中使用

、、

我正试图在亚马逊上构建一条关于“与此项目相关的赞助产品”的规则，但是，每个产品的ASIN都嵌入到xpath //ol/li/div/@data-asin中，我希望从其中生成以下链接格式f"https://www.amazon.com/dp/{ASIN} (对于与此项目相关的赞助产品中的每一项) scrapy shell https://www.amazon</e

浏览 0提问于2019-07-25得票数 0

回答已采纳

1回答

粗糙的Amazon绝对路径，但没有返回值

、、、、

我正在尝试使用Scrapy一些信息从amazon.co.uk使用绝对路径如下所示。但奇怪的是，没有任何价值回报。我对Scrapy很陌生： response.xpath('//*[@id="productReviews"]/tbody/tr&

浏览 1提问于2015-04-28得票数 2

回答已采纳

2回答

Scrapy:缺少xpath项会导致错误的数据写入我的管道

、、、

然而，在列出的一些Amazon电视上，它们并不都有相同的Xpath元素；有些有主(列出)价格，有些有"as New“价格，还有一些还有”使用时“的价格。我的问题是，当电视没有主(列出)价格时，我的CSV输出不会记录该项目的空值，而是使用下一个XPATH项，后者有主价格。是否有一种方法可以检查XPATH内容中是否存在项，如果没有，是否可以让爬行器或管道记录NULL或“？”。我的主要蜘蛛代码是： name =

浏览 2提问于2015-04-12得票数 0

1回答

服务器能读取刮刮发送的Request.Meta数据吗？

、、、

下面的代码基本上是Amazon 的示例。from HTMLParser import HTMLParser from scrapy.crawler import CrawlerProcess(scrapy.Spider): st

浏览 2提问于2017-08-02得票数 4

回答已采纳

2回答

Pipeline.py删除值而不是字段

、、、

我目前正在开发一个Scrapy脚本，从Amazon页面中提取产品信息。我正在运行的问题是异常处理，它只删除输出中的错误字段，而不是整个项/行。当前蜘蛛：from scrapy.selector import Selector "http://www.amazon.co.uk/dp/B004

浏览 3提问于2015-03-30得票数 1

回答已采纳

1回答

从被刮掉的链接中获取信息

、、

最后，我希望将标题存储在列中，链接存储在csv文件中的另一列中。我就是这样写这本书的。我只得到链接，而不是标题。import scrapy name = 'amazon_spider' start_urls = [&

浏览 0提问于2018-03-27得票数 0

回答已采纳

1回答

简陋的亚马逊分页前几页

目前，对于使用Scrapy的Amazon数据刮刀中的分页，我使用的是 next_page = response.xpath('//li[@class="a-last"]/a/@href').get()if next_page: yield<em

浏览 13提问于2021-08-30得票数 1

回答已采纳

2回答

在csv文件中没有保存任何内容。怎么了？

我尝试运行此代码并将其另存为csv文件，但在csv中什么也不包含。代码中有什么错误吗？请帮帮忙。提前感谢from scrapy.selector import Selector sel = Selector(response) sites = s

浏览 2提问于2014-02-01得票数 0

1回答

在实现下一页链接时，会丢失大量数据

、、

class A1Spider(scrapy.Spider): allowed_domains = ["www.amazon.com"] 'http://www.amazon.com/s/ref=nb_sb_noss_1?to determine the xpath. it is different from what

浏览 0提问于2016-06-01得票数 0

1回答

Scrapy IdentationError:应为标识块

、、

我需要你的帮助，我得到了这个错误，但我不知道为什么：yield scrapy.Request("https://www.amazon.es/s/ref=sr_pg_2?("https://www.amazon.es/s/ref=sr_pg_2?: ml_i

浏览 0提问于2018-09-01得票数 0

1回答

如何从mysql中获取数据，利用爬行器从web中提取数据

、、、、

我有一个蜘蛛和管道，并编写一个代码从web中提取数据并插入到正在运行的MySQL中。class AmazonAllDepartmentSpider(scrapy.Spider): allowed_domains = ["amazon.com" def parse(self, response): for sel in response.xpath('//

浏览 1提问于2014-12-11得票数 2

回答已采纳

点击加载更多

抓取爬行类别和页面

如何将数据从scrapy插入到mysql

抓取AWS博客网站时Scrapy不返回任何内容

用于以正确格式导出csv文件的Scrapy管道

错误: pyMySQL不适用于爬虫蜘蛛

而抓取获取错误实例方法没有属性'getitem‘

为什么我不能使用scrapy选择亚马逊页面中的某些元素？

回调函数出现故障

编写规则以从div获取字符串以在链接中使用

粗糙的Amazon绝对路径，但没有返回值

Scrapy:缺少xpath项会导致错误的数据写入我的管道

服务器能读取刮刮发送的Request.Meta数据吗？

Pipeline.py删除值而不是字段

从被刮掉的链接中获取信息

简陋的亚马逊分页前几页

在csv文件中没有保存任何内容。怎么了？

在实现下一页链接时，会丢失大量数据

Scrapy IdentationError:应为标识块

如何从mysql中获取数据，利用爬行器从web中提取数据

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐