如何将scrapy shell输出/响应存储为变量而不是html文件

Scrapy是一个用于爬取网站数据的Python框架，它提供了一个交互式的命令行工具scrapy shell，用于调试和测试爬虫。默认情况下，scrapy shell将输出/响应保存为HTML文件，但我们可以通过以下步骤将其存储为变量而不是HTML文件：

在命令行中运行scrapy shell命令，进入scrapy shell环境。
使用fetch函数获取要爬取的页面，例如：
使用fetch函数获取要爬取的页面，例如：
使用response变量来访问响应对象，例如：
使用response变量来访问响应对象，例如：
使用response.body可以获取响应的HTML内容，例如：
使用response.body可以获取响应的HTML内容，例如：
这样，你就可以将响应的HTML内容存储在变量html_content中，而不是保存为HTML文件。

需要注意的是，使用scrapy shell时，你可以通过response.xpath或response.css等方法来提取页面中的数据，而不仅仅是保存HTML内容。这使得你可以在交互式环境中快速测试和调试爬虫代码。

腾讯云相关产品和产品介绍链接地址：

腾讯云官网：https://cloud.tencent.com/
云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库 MySQL 版：https://cloud.tencent.com/product/cdb_mysql
云原生应用引擎（TKE）：https://cloud.tencent.com/product/tke
云存储（COS）：https://cloud.tencent.com/product/cos
人工智能（AI）：https://cloud.tencent.com/product/ai
物联网（IoT）：https://cloud.tencent.com/product/iotexplorer
移动开发（移动推送、移动分析）：https://cloud.tencent.com/product/mps
区块链（BCS）：https://cloud.tencent.com/product/bcs
元宇宙（Qcloud Metaverse）：https://cloud.tencent.com/product/qcloud-metaverse

请注意，以上链接仅供参考，具体产品选择应根据实际需求和腾讯云官方文档为准。

如何将scrapy shell输出/响应存储为变量而不是html文件

、

我尝试使用cmdline.execute将html代码存储到名为response的变量中，如以下代码所示，但在scrapy shell中无法存储和程序代码中断，谁能告诉我如何将原始html存储到变量中导入scrapy 从scrapy import cmdline linkedinnurl = "https://stackoverflow.com

浏览 7提问于2019-05-16得票数 2

回答已采纳

1回答

我们到底应该通过什么回应，而要求在邮件在刮刮？

、、

但是，我想要执行这个活动，而不是作为命令行参数。因此，我试图在子进程中使用上面的命令登录。","fetch", req], shell=True) TypeError:类型为“FormRequest”的参数不可迭代我还尝试将响应保存在html文件中，并将该文件作为响应读取with open("output.html","w&q

浏览 5提问于2020-10-13得票数 0

3回答

如何过滤Informix中的dbaccess输出？

、、

我想运行dbaccess <dbname> <sqlfile.sql>，并将输出存储到一个shell变量中。我知道有两种方法可以完成(一)输出到管道，(二)卸载到文件。我想使用一种方法(i)将查询输出存储到shell变量，但是随着查询输出，我得到了不需要的东西(连接到数据库、列标题、断开连接)--请参阅所附的图像。我不想使用方法(ii)，因为我需要将查询输出

浏览 5提问于2016-05-12得票数 2

回答已采纳

2回答

Crontab运行时出现错误

/bin/bash47 9,22 * * * cd Travel/lastsecond && scrapy crawl toursFeb 13 09:47:01 d4bd CRON[18641]: (root) CMD (cd Travel/lastsecond && scrapy crawl tours) Feb 13 09:47:01 d4bd CRON[18640]: (

浏览 0提问于2018-02-13得票数 0

回答已采纳

1回答

将模型(DisplayChildren)存储在字符串变量中，以便以后修改

在Orchard中，我可以看到菜单以MenuItem.cshtml格式输出，代码为DisplayChildren(model)。我想使用这个html输出并运行一个xslt转换来改变结构。如何将菜单项作为html获取并将其存储在本地变量中(而不是直接输出到流中)？

浏览 0提问于2012-08-24得票数 0

回答已采纳

2回答

将cmd命令的过滤输出存储在变量中

、、

我试图将cmd命令的输出存储为python中的变量。为了达到这个目的，我使用os.system()，但是os.system()只是运行这个过程，它不捕获输出。import os DeviceName = os.system("adb shell getprop | grep -e &#x

浏览 1提问于2018-09-17得票数 7

回答已采纳

2回答

我正在开始使用Scrapy，但是在LinuxMint17.2(基于Ubuntu的版本)上安装有两个问题。我不明白安装pip install scrapy和sudo apt-get install scrapy的区别是什么当我安装这两个中的一个时，我试着使用命令scrapy startprojecttutorial来学习Scrapy的第一个教程，它会给出错误/usr/bin: No such file or directory。

浏览 5提问于2015-10-22得票数 2

回答已采纳

5回答

在脚本文件函数中获取Scrapy crawler输出/结果

、、、、

我使用脚本文件在scrapy项目中运行爬行器，并且爬行器记录爬虫的输出/结果。但是我想在脚本文件中使用爬行器输出/结果，在某些函数中，.I不想将输出/结果保存在任何文件或DB中。下面是从获取的脚本代码from scrapy.crawler import CrawlerRunner from scrapy.utils.logimpo

浏览 3提问于2016-10-25得票数 12

2回答

确定SVN目录的总大小，并存储在python变量中

、

这将打印目录大小，但是如何将输出保存到python变量，而不是print。svn list -vR http://myIP/repos/test | awk '{sum+=$3; i++} END {print sum/1024000}'proc = subprocess.Popen(svnproc, stdout=subprocess.PIPE,

浏览 0提问于2014-09-23得票数 0

2回答

Scrapy - Xpath可以在shell中运行，但不能在代码中运行

、、、、

我正在尝试抓取一个网站(我得到了他们的授权)，我的代码在scrapy shell中返回了我想要的东西，但我的爬行器什么也得不到。我想要理解为什么xpath选择器与scrapy shell一起工作(我得到的正是我需要的链接)，但是当我在我的爬行器中运行它时，我总是得到一个null列表。感谢您的帮助:) 编辑：我尝试打印第一个响应(来自start_urls )的正文，它是正确的，我得到了我想要的页面。我已经对和网络爬行有了更多的经验，我意识到有时候，你在浏览器中得到的页面可能与你用Scrapy</em

浏览 36提问于2018-04-25得票数 1

回答已采纳

2回答

离线(本地)数据上的Python Scrapy

、、

我的计算机上有一个270MB的数据集(10000个html文件)。是否可以使用Scrapy在本地对此数据集进行爬网？多么?

浏览 0提问于2013-10-16得票数 17

1回答

如何访问中项文件中的蜘蛛文件数据？

、、、

FlipKart.py主蜘蛛文件，用于flipkart.com的报废名称、价格和链接from ..items import FlipkartScraperItem import scrapyfrom itemloaders.processors import TakeFirstTakeFirst text from data from itemloaders.proc

浏览 7提问于2022-11-20得票数 -1

回答已采纳

4回答

Shell脚本来检查git中的更改，然后循环遍历已更改的文件？

、、、

我正在尝试编写一个shell脚本，该脚本执行以下操作：下面是一个包含一些命令的脚本： #!看起来，git的工作方式不像普通的shell命令，在这里您可以得到0或1响应。如何获得这样的git命令或其他git命令，以

浏览 13提问于2012-12-05得票数 20

回答已采纳

4回答

将主机OS中的内容复制到Docker映像中，而不重新生成映像

、、、

也是：我不想每次运行容器时都复制新的内容(所以在运行时不是这样)，我只想有一个单独的命令，将更多的文件添加到一个现有的映像中，然后在另一个时间根据该图像运行一个新的容器。我在这里检查过： (但不确定OP是否试图和我一样)检查和 docker:守护进程的错误响应:无效的卷规范：'‘。\scrapy thirsty_bassi:/root/scrapy，它在PowerShell中没有显示输出，所以我认为它应该

浏览 6提问于2021-09-08得票数 5

回答已采纳

1回答

如何将变量放入makefile中的$(shell)命令？

、、

for循环中的变量传递给$(shell)？我可以在$(shell)之外访问var，但我不知道如何将其传入： A_LIST:= one two loop: @for iii in $(A_LIST) ; doone和two，因为它回显变量并将其存储在另一个变量中。我怀疑这是因为它正在寻找一个env var shell，但该值并不存在-那么我如何将iii的值传递到$iii中？这里有一个我不喜欢的坏方法

浏览 34提问于2020-07-03得票数 0

回答已采纳

5回答

将“测试”的结果赋值给变量

我正在编写一个脚本，在其中我需要在几个地方使用文件测试的输出，包括在shell函数中。我想将文件存在分配给一个shell变量，如：file_exists=[ -f $myfile ]。接下来，我进行测试，以确保可以将布尔表达式存储在变量中：thenfi2 --

浏览 0提问于2014-07-22得票数 30

回答已采纳

1回答

在抓取时获取变量而不是文本

、、

但是，当我试图用粗糙的shell或爬虫抓取页面时，我得到了一些变量而不是文本。D8%B1-%D9%85%D8%B4%D9%87%D8%AF-22-%D8%AF%DB%8C-96-%D8%A7%D8%B2-%D8%A7%D8%B5%D9%81%D9%87%D8%A7%D9%86response.css("table a h3 img").extract() 响应应该是这样的，就像在html</em

浏览 2提问于2018-01-11得票数 0

2回答

将html文件读入Powershell中的字符串

我需要读取html文件并将内容解析为字符串。<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns=&qu

浏览 5提问于2017-11-15得票数 0

回答已采纳

1回答

在python中使用scrapy* 1.5.1编码HTML错误*

、、、、

收到响应后，当我尝试将数据输出到文件时，编码中似乎存在错误。'http://www.bdfa.com.ar/plantel-Boca-Juniors-6.html', for url in urls: yield scrapy.RequestUTF-8 )，然后明确地将编码设置为UTF-8，只有某些部分编码正确，其他部分则不正确。例如，<title>Plantel de Club Atlét

浏览 1提问于2018-08-25得票数 0

2回答

从Emacs运行多字符串bash脚本。

、、、

我想运行以下bash脚本，它存储在Elisp字符串中，而不是存储在.sh文件中，然后将shell输出存储在变量中。 done我无法在由多个字符串组成的bash脚本上运行shell-com

浏览 2提问于2012-07-26得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将scrapy shell输出/响应存储为变量而不是html文件

相关·内容

如何将scrapy shell输出/响应存储为变量而不是html文件

我们到底应该通过什么回应，而要求在邮件在刮刮？

如何过滤Informix中的dbaccess输出？

Crontab运行时出现错误

将模型(DisplayChildren)存储在字符串变量中，以便以后修改

将cmd命令的过滤输出存储在变量中

刮擦初始化错误

在脚本文件函数中获取Scrapy crawler输出/结果

确定SVN目录的总大小，并存储在python变量中

Scrapy - Xpath可以在shell中运行，但不能在代码中运行

离线(本地)数据上的Python Scrapy

如何访问中项文件中的蜘蛛文件数据？

Shell脚本来检查git中的更改，然后循环遍历已更改的文件？

将主机OS中的内容复制到Docker映像中，而不重新生成映像

如何将变量放入makefile中的$(shell)命令？

将“测试”的结果赋值给变量

在抓取时获取变量而不是文本

将html文件读入Powershell中的字符串

在python中使用scrapy* 1.5.1编码HTML错误*

从Emacs运行多字符串bash脚本。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐