如何将scrapy输出到stdout以便从Python中读取

Scrapy是一个用于爬取网站数据的Python框架。默认情况下，Scrapy将爬取到的数据输出到文件中，而不是stdout。但是，你可以通过一些方法将Scrapy的输出重定向到stdout，以便从Python中读取。

一种方法是使用Python的sys模块来重定向stdout。你可以在Scrapy的项目中的settings.py文件中添加以下代码：

import sys

# 将Scrapy的输出重定向到stdout
sys.stdout = sys.__stdout__

这将把Scrapy的输出重定向回默认的stdout，然后你就可以从Python中读取它。

另一种方法是使用Scrapy的自定义管道（Pipeline）来将数据输出到stdout。你可以在Scrapy的项目中创建一个自定义的管道类，并在其中实现process_item方法来处理爬取到的数据。在process_item方法中，你可以将数据打印到stdout。以下是一个示例：

import sys

class StdoutPipeline(object):
    def process_item(self, item, spider):
        # 将数据打印到stdout
        print(item)
        return item

然后，在Scrapy的项目中的settings.py文件中启用这个自定义管道：

ITEM_PIPELINES = {
    'your_project_name.pipelines.StdoutPipeline': 300,
}

这样，当Scrapy爬取到数据时，它将通过自定义管道将数据输出到stdout。

需要注意的是，将Scrapy的输出重定向到stdout可能会导致一些日志信息丢失或混乱。因此，在实际应用中，你可能需要根据具体需求来选择是否将输出重定向到stdout。

希望以上信息对你有帮助！如果你需要了解更多关于Scrapy的内容，可以参考腾讯云的产品介绍页面：Scrapy产品介绍。

如何将scrapy输出到stdout以便从Python中读取

、、

我有一个爬虫，我想把它的结果输出到标准输出，这样它就可以被subprocess.check_output读取。我不想作为中介输出到文件中。我尝试添加标志'-o', 'stdout'，但它不起作用。test = subprocess.check_output([ '-a'

浏览 11提问于2019-02-08得票数 0

1回答

Bash在执行命令之前擦除输出文件

、、

我有一个从csv文件读取并打印到stdout的python脚本。默认输出必须是stdout，而不是直接输出到文件。当我在bash中执行此脚本时，如下所示：如果输出的file.csv与python脚本读取的内容相同，则会失败。原因是bash显然会在执行python程序之前擦除file.csv。如何在bash中执行此命令，以便在<em

浏览 1提问于2013-02-13得票数 1

回答已采纳

5回答

在脚本文件函数中获取Scrapy crawler输出/结果

、、、、

我使用脚本文件在scrapy项目中运行爬行器，并且爬行器记录爬虫的输出/结果。但是我想在脚本文件中使用爬行器输出/结果，在某些函数中，.I不想将输出/结果保存在任何文件或DB中。下面是从获取的脚本代码from scrapy.crawler import CrawlerRunnerfrom <

浏览 3提问于2016-10-25得票数 12

1回答

我对Scrapy和Python很陌生，因此我是个初学者。我希望能够让Scrapy读取一个包含大约100 k URL的种子列表的文本文件，让Scrapy访问每个URL，并提取每个种子URL上的所有外部URL(其他站点的URL)，并将结果导出到一个单独的文本文件中Scrapy只应该访问文本文件中的URL，而不是爬行并跟踪任何其他URL。我希望能够让Scrapy尽快工作，我有一个非常强大的服务器与1 1GBS线。我列表<

浏览 0提问于2016-08-28得票数 1

回答已采纳

1回答

如何在Hive中为用户定义的聚合函数编写Python UDF

、

我想使用Python对Hive中的聚合列(一个接一个组)进行一些聚合工作。我发现联非新议程就是为此目的而存在的。我只能找到一个Java示例。有用Python编写的例子吗？或者对于python来说，UDF和联非新议程没有什么区别？对于联非新议程，我只需要把它写得像个减速机？请给我建议。

浏览 1提问于2014-12-09得票数 1

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： class QuotesSpider(scrapy.Spid

浏览 1提问于2017-04-07得票数 2

1回答

将输出重定向到pygtk中的文本缓冲区

、

有没有办法将所有python输出重定向到pygtk中的文本视图？示例：那么如何将文本视图设置为sys.stdoutPS:我已经尝试将stdout和stderr设置为一个文件，然后读取该文件并将其添加到textview中。但是，有没有一种直接的方法让我可以直接输出

浏览 0提问于2014-08-27得票数 0

1回答

从子流程读取时将CSV捕获到字典中

、、、、

如何调用将CSV输出到STDOUT的子进程，并将其读取到dict中？我有一系列脚本，用于查询各种管理服务器，并将它们的数据库作为CSV转储到STDOUT。在一个单独的脚本中，我想调用它们，并将它们的输出捕获到一个字典中。下面的伪代码展示了这个概念： NetbrainOutput = subprocess.run(["python3", "../Python:Netbrain/net

浏览 8提问于2021-04-26得票数 1

回答已采纳

3回答

Python子进程？

、

我有一个正在运行的程序，它不断地从server.It中输出一些二进制数据，直到它被杀死才会停止。#p.communicate#blocks forever

浏览 0提问于2011-11-14得票数 2

1回答

这条“蟒蛇”是干什么的？

我看到这样的命令：这是为了什么？

浏览 0提问于2021-10-19得票数 0

回答已采纳

2回答

如何读取和检查python中的stdin/stdout？

但是我不知道如何运行python代码，所以它将从文件中读取，因为stdinIs print就像stdout注意:您需要编写完整的代码，所有输入都是从stdin和输出到stdout，如果您使用的是“”，类名是“解决方案”。

浏览 0提问于2012-02-17得票数 3

回答已采纳

1回答

使用shell并行启动python命令

、、、

我在python中有一个这样的命令：Python my_prog in2.fa ins.fa out2.fa我使用了GNU parallel的并行命令，并将1.fa、in2.fa和in3.fa中的文件组装到一个文件IN.fa中。我的问题是我不知道如何在并行命令中添加另一个或更多的参数。下面是我的命令： cat IN.fa

浏览 1提问于2016-12-28得票数 0

1回答

我应该使用Popen的等待或通信来读取Python* 3中的子进程中的标准输出吗？*

、

我试图在Python 3中运行一个子进程，并不断地读取输出。等待子进程终止。警告这将在使用stdout=PIPE和/或stderr=PIPE时死锁，子进程生成足够的输出到管道，从而阻塞等待OS管道缓冲区接受更多数据。使用communicate()来避免这种情况。这让我觉得我应该使用communicate，因为来自s

浏览 2提问于2016-06-01得票数 1

2回答

如何编写使用Linux管道的Python脚本？

、

在speaker.py中，我使用print将文本输出到STDOUT time.sleep(1)在listener.py中，我使用input从STDIN读取 line = input() break我试图用管道连接这两个脚本： python

浏览 5提问于2015-09-12得票数 4

回答已采纳

12回答

将stdout重定向到Python中的文件？

、

如何将stdout重定向到Python中的任意文件？当一个长时间运行的Python脚本(例如，web应用程序)从ssh会话中启动并返回，并且ssh会话关闭时，应用程序将引发IOError并在尝试写入标准输出时失败。我需要找到一种方法，使应用程序和模块输出到一个文件，而不是标准输出，以防止由于IOError而导致的失败。我已经尝试过sys.stdout = open('somefile', 'w'

浏览 0提问于2011-01-13得票数 381

回答已采纳

2回答

Python与java程序的通信不回显输入。

、、

Python与java程序通信：Sample.java System.out.println("Sum is: " + sum); // Print the sum }p = subprocess.Popen(['tim

浏览 4提问于2021-04-28得票数 0

2回答

Linux :从一个程序到另一个程序的标准

、、、、

我检查了，但没有找到我想要的答案我有program_1.py，它通过sys.stdin输入一个文件，并将数据输出到sys.stdout我尝试了一些类似于： Mu$ python program-1.py <sample

浏览 2提问于2014-10-29得票数 1

回答已采纳

7回答

用PHP代码打印Python输出

、、

我有一个刮板，它刮一个网站(用python编写)。在抓取站点的同时，那些即将用CSV编写的打印行。刮板是用Python编写的，现在我想通过PHP代码来执行它。我的问题是是否可以在通过PHP执行python输出时打印它。

浏览 14提问于2012-12-09得票数 10

1回答

如何从bash进程替换中捕获第一行stdout？

、、

我正在使用下面的bash块，它没有打印出预期输出的第一行： while true; do done <&3 当python3 -m http.server启动时，它打印出一行Serving HTTP on 0.0.0.0 port 8000，但上面的代码没有打印该行之后，python将在发生并打印这些请求时打印GET请求等内容。为什么巴什没有这第一

浏览 0提问于2015-06-10得票数 0

回答已采纳

1回答

如何将项转换为JSON字符串，以便将项导出到S3

、

我正在编写自己的Scrapy项目管道，以便将单个JSON文件输出到S3中。到目前为止，这是我的代码，但我无法解决如何将每个项序列化为JSON。/2.7.13/Frameworks/Python.framework/Versions/2.7/lib/python2.7/json/__init__.py", line 244, in dumpsreturn _default_

浏览 2提问于2017-01-01得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将scrapy输出到stdout以便从Python中读取

相关·内容

如何将scrapy输出到stdout以便从Python中读取

Bash在执行命令之前擦除输出文件

在脚本文件函数中获取Scrapy crawler输出/结果

用Scrapy从文本文件中从多个URL中抓取所有外部链接

如何在Hive中为用户定义的聚合函数编写Python UDF

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

将输出重定向到pygtk中的文本缓冲区

从子流程读取时将CSV捕获到字典中

Python子进程？

这条“蟒蛇”是干什么的？

如何读取和检查python中的stdin/stdout？

使用shell并行启动python命令

我应该使用Popen的等待或通信来读取Python* 3中的子进程中的标准输出吗？*

如何编写使用Linux管道的Python脚本？

将stdout重定向到Python中的文件？

Python与java程序的通信不回显输入。

Linux :从一个程序到另一个程序的标准

用PHP代码打印Python输出

如何从bash进程替换中捕获第一行stdout？

如何将项转换为JSON字符串，以便将项导出到S3

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐