如何在amazon爬行器中使用scrapy的Itemloader，以便从输出中删除所有换行符或额外的空格

在Amazon爬虫中使用Scrapy的ItemLoader可以方便地从输出中删除所有换行符或额外的空格。ItemLoader是Scrapy提供的一个方便的工具，用于加载和处理爬取的数据。

要在Amazon爬虫中使用ItemLoader，首先需要导入相关的模块和类：

from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join

接下来，定义一个ItemLoader类，并指定需要加载的Item类：

class AmazonItemLoader(ItemLoader):
    default_output_processor = TakeFirst()

在这个ItemLoader类中，我们使用了default_output_processor属性，并将其设置为TakeFirst()。这意味着在加载数据时，ItemLoader将只返回第一个非空的值，从而删除所有换行符或额外的空格。

然后，可以在Spider中使用ItemLoader来加载数据。假设我们有一个名为AmazonItem的Item类，其中包含了需要爬取的数据字段：

from scrapy import Spider
from myproject.items import AmazonItem

class AmazonSpider(Spider):
    name = 'amazon'
    start_urls = ['https://www.amazon.com']

    def parse(self, response):
        loader = AmazonItemLoader(item=AmazonItem(), response=response)
        loader.add_xpath('title', '//h1/text()')
        loader.add_xpath('price', '//span[@class="price"]/text()')
        loader.add_xpath('description', '//div[@class="description"]/text()')
        item = loader.load_item()
        return item

在这个示例中，我们使用了XPath选择器来提取数据，并使用add_xpath()方法将提取的数据添加到ItemLoader中。在加载数据时，ItemLoader会自动应用default_output_processor属性指定的处理器，从而删除所有换行符或额外的空格。

最后，通过调用loader.load_item()方法，可以获取加载后的Item对象，并将其返回给Spider进行后续处理。

这样，就可以在Amazon爬虫中使用Scrapy的ItemLoader来从输出中删除所有换行符或额外的空格。关于Scrapy的ItemLoader更多的用法和功能，可以参考腾讯云的相关产品文档：Scrapy ItemLoader。

页面内容是否对你有帮助？

有帮助

没帮助

如何在amazon爬行器中使用scrapy的Itemloader，以便从输出中删除所有换行符或额外的空格

python、scrapy

我正在尝试使用scrapy抓取amazon，除了作者字段之外，一切都很好，我得到的输出如下， 'B.ஷண்முகசுந்தரம்',] 在stackexchange上查看了一些答案后，我在items模块中编写了下面提到的代码，这样我就可以从author字段中删除</em

浏览 18提问于2020-05-08得票数 0

3回答

与Scrapy一起使用规范化空间

python、parsing、xpath、web-scraping、scrapy

下面是我正在处理的一个文档的模拟：<h4>Area</h4> <span class="bclass"><strong>Address:</strong> </span>我收到<

浏览 7提问于2015-11-24得票数 4

回答已采纳

2回答

用于以正确格式导出csv文件的Scrapy管道

python、csv、scrapy、pipeline

我根据下面alexce的建议做了改进。我需要的是像下面的图片。但是，每一行/每行都应该是一个评论:带有日期、评级、评论文本和链接。import scrapy name= "amazon" allowed_domains = [&

浏览 3提问于2015-04-29得票数 18

回答已采纳

1回答

将数据导出到csv时，我的输出可能由于制表符和空格的原因而混乱

python、web-scraping、scrapy

class Job(Item): b_url = Field() d_pub = Field() name = 'jobs' for i in response.css('.info-off

浏览 2提问于2016-08-23得票数 1

2回答

在scrapy项目加载器上使用正则表达式

python、regex、web-scraping、scrapy

我正在尝试弄清楚如何在scrapy项目加载器中使用regex。我曾尝试将lambda函数与split()一起使用，但得到了以下错误。无法定义拆分。您可以看到该函数在项目加载器类中被注释掉了。我要做的是删除日期之前的所有文本，包括日期项的"/“。日期项是我刚刚解析的url。如何将正则表达式与scrapy项目加载器</em

浏览 4提问于2018-02-20得票数 0

回答已采纳

5回答

在脚本文件函数中获取Scrapy* crawler输出/结果*

python、scrapy、web-crawler、twisted、scrapy-spider

我使用脚本文件在scrapy项目中运行爬行器，并且爬行器记录爬虫的输出/结果。但是我想在脚本文件中使用爬行器输出/结果，在某些函数中，.I不想将输出/结果保存在任何文件或DB中。下面是从获取的脚本代码 from twisted.internet

浏览 3提问于2016-10-25得票数 12

3回答

刮除:从列表中删除行提要/n

python、scrapy

考虑到抓取/python甚至编程，我是一个绝对的新手，但我需要学习和理解它。我创建了一个小蜘蛛，它爬行一个网站，并从网站中提取一些信息，并将其聚合到一个csv文件中。到目前为止，我已经获得了相当成功的输出，然而，我有一个网站内容本身的问题。站点项的xpath选择器以列表的形式生成内容；不过，我希望它将其转换为没有行提要等的单个字符串。我知道，规范化的空格和条带()将是可行

浏览 1提问于2020-07-09得票数 0

回答已采纳

2回答

移除Python中的前导/结尾和内部多个空格，但不移除制表符、换行符或返回字符

python、scrapy、whitespace

中问题的答案显示了分别从Python中的字符串中移除前导/结束、重复和所有空格的方法。但是头带()移除制表符和换行符，而leading ()只影响前导空格。使用.join(sentence.split())的解决方案似乎还删除了Unicode空白字符。假设我有一个字符串，在本例中是从使用Scr

浏览 4提问于2017-06-28得票数 1

回答已采纳

1回答

抓取:使用项目加载器返回新CSV行中的每个项目

python-2.7、csv、scrapy

我试图生成包含在特定类(标题、链接、价格)中的选择项的csv输出，该输出将在自己的列中解析每一项，并使用项目加载器和items模块在自己的行中分析每个实例。(我将详细介绍这段代码，如下面的‘工作行输出蜘蛛代码’)由发布如他在注释部分底部所指出的那样，使用

浏览 0提问于2018-09-13得票数 0

回答已采纳

3回答

BeautifulSoup中不必要的缩进

python、beautifulsoup

我正在尝试解析一个网页： pres_file = directory + "\\" + pres_number + ".html" with open(pres_fil

浏览 0提问于2021-06-18得票数 0

8回答

Python Scrapy错误。不再支持对多个爬行器运行'scrapy* crawl‘*

scrapy、scrapy-spider

我用Scrapy Python写了一个脚本，几个月来一直运行得很好(没有变化)。最近，当我在Windows Powershell中执行脚本时，它引发了下一个错误：..。Running 'scrapy crawl' with more than one spider is no longer supported提前谢谢。

浏览 11提问于2017-02-21得票数 4

1回答

在Scrapy中传递xPath翻译函数对特殊字符无效

python、xpath、scrapy

我正在构建一个Scrapy爬行器，它接受xpath查询作为输入参数。import scrapy from spotli

浏览 5提问于2016-08-03得票数 0

1回答

Scrapy loader数据在输入处理器中“消失”

python、scrapy

我正在使用Scrapy从网站中提取特定的价格数据。该站点的数据始终如下所示：或,其中，x是不带小数部分的货币格式的数字。<=[(Amazon Price)(Search Price)]:\s)[,\d]+(?=円)') 我从我正在抓取的网站上运行的每个测试用例都表明这个正则表达

浏览 4提问于2018-08-15得票数 0

回答已采纳

2回答

使用Scrapy抓取递归页面数据

python、web-scraping、scrapy

我正在尝试使用python和Scrapy从中抓取商店位置数据。我已经设法抓取了单个页面，但我想将其设置为遍历链接末尾的1000个递归id的列表。任何帮助都将不胜感激。免责声明:我不知道我在做什么from scrapy.selector import HtmlXPathSelector from

浏览 0提问于2014-02-13得票数 0

2回答

作为每行1个列表元素的抓取输出项

python、pandas、scrapy

我是scrapy的新手，在过去的一周或更长时间里，我到处寻找解决我问题的方法。我正在尝试为http://ufcstats.com/event-details/6420efac0578988b上的UFC1收集表格数据。我的爬行器工作得很好，它以字符串列表的形式返回每个项目。我想在它自己的行中输出每个item元素。我已经能够在

浏览 13提问于2019-09-07得票数 0

回答已采纳

2回答

从selenium/browser切换到单一蜘蛛的默认机制

python、ajax、selenium、web-scraping、scrapy

我遇到过带有Ajax隐藏元素的页面，我需要爬行这些元素。我发现了这个简洁的教程，它展示了如何在没有对服务器的额外调用的情况下使用Selenium来完成此操作(我也是这样)。然而，这个和其他来源提到了为此目的使用Selenium的性能成本。在本例中，驱动程序是在构造函数中启动的，所以我假设对蜘蛛的所有请求都将通过

浏览 5提问于2015-11-20得票数 0

回答已采纳

2回答

在文本中的数字前插入换行符

java、php、string

我有一个超过6000行的文本，但我从PDF中复制了它，我必须删除所有的换行符，因为在PDF中，在每个可见行的末尾都有额外的换行符。texttexttexttexttext3. texttexttexttext4. texttexttexttext ... texttexttext199. texttexttext200. texttexttext这样的东西现在的问

浏览 0提问于2012-02-29得票数 0

回答已采纳

2回答

我有一个文本文件，其中包含Strings和Ints，如下所示：test2 2test4 4test6 6 测试1-4都是在运行程序之前写入文本文件的，而测试5和6则是由writeHighScore()函数附加到文件中的。在文本文件测试5和6中，看起来很完美，但是当我用readHighScore()将它们读回控制台时，测试4和测试5之间有大量的换行符(大约10行)。有趣的是，测试5和测试6的显示具有正

浏览 2提问于2013-12-03得票数 0

回答已采纳

2回答

使命令提示符等待所有进程完成执行

batch-file、process、wait

我的批处理文件由几个命令组成。我希望该进程仅在所有进程执行后才终止。;p.waitFor();cd\cd tutorialstart <e

浏览 6提问于2015-03-27得票数 0

回答已采纳

6回答

responseText包含额外的空格字符(换行符、换行符)，如何防止和删除它们？

php、javascript、ajax、responsetext

我有一个调用php文件的ajax脚本。 php文件回显"yes“或"no"，我想使用字符串进行逻辑比较。在javascript中，我想要比较responseText中的字符串，看看它是否==为"yes“(或"no")。但这种比较失败了。所以我转义了responseText警告(转义( responseText ))，它显示我在responseText字符串的末尾隐藏了%0A和%0D (

浏览 3提问于2011-08-27得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在amazon爬行器中使用scrapy的Itemloader，以便从输出中删除所有换行符或额外的空格

相关·内容

如何在amazon爬行器中使用scrapy的Itemloader，以便从输出中删除所有换行符或额外的空格

与Scrapy一起使用规范化空间

用于以正确格式导出csv文件的Scrapy管道

将数据导出到csv时，我的输出可能由于制表符和空格的原因而混乱

在scrapy项目加载器上使用正则表达式

在脚本文件函数中获取Scrapy* crawler输出/结果*

刮除:从列表中删除行提要/n

移除Python中的前导/结尾和内部多个空格，但不移除制表符、换行符或返回字符

抓取:使用项目加载器返回新CSV行中的每个项目

BeautifulSoup中不必要的缩进

Python Scrapy错误。不再支持对多个爬行器运行'scrapy* crawl‘*

在Scrapy中传递xPath翻译函数对特殊字符无效

Scrapy loader数据在输入处理器中“消失”

使用Scrapy抓取递归页面数据

作为每行1个列表元素的抓取输出项

从selenium/browser切换到单一蜘蛛的默认机制

在文本中的数字前插入换行符

从文件中读取的C++数据有很大的差距吗？

使命令提示符等待所有进程完成执行

responseText包含额外的空格字符(换行符、换行符)，如何防止和删除它们？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐