使用scrapy在csv中存储数据时出现问题

文章/答案/技术大牛

发布

1回答

、

下面是我对scrapy spider的解析方法。在csv中，我的预期输出是三列和相应的值。尽管在终端输出中我得到了所有的三列(即使它显示了84个项目存储在output.csv中，这是正确的)。但在实际输出文件中，我只有第一栏“标题.帮助感谢” 编辑:在JSON中，所有数据都在那里 def parse(self, response):

浏览 32提问于2021-08-15得票数 0

回答已采纳

1回答

我不知道如何在表格中打印刮擦的数据

、、、

我见过一些东西，但我不能在桌子或.csv中播放这个来打印屏幕上的表格，有人能帮我吗？我迷路了 name = 'sinonimo' start_urls = ['https

浏览 1提问于2022-08-04得票数 0

2回答

scrapy shell:将结果输出到文件

、、、

我如何在刮板壳输出结果到一个文件，最好是csv？我在我的bpython shell中有一个有趣的元素列表，我可以把它们做成item。但是如何将其重定向到文件呢？

浏览 2提问于2016-12-20得票数 2

回答已采纳

1回答

如何将爬行器的项目附加到列表中？

、、、

我正在使用一种基本的蜘蛛，从网站上的链接中获取特定的信息。我的代码如下所示：from scrapy import Requestfrom properties importPropertiesItem, ItemLoader

浏览 1提问于2017-01-04得票数 0

回答已采纳

1回答

我正在抓取雅虎的股票数据！金融。我的问题是，使用LinkExtractor，如果每只股票有多个页面的数据，我如何组合给定股票的所有定价数据。，所以我使用规则来遵循每一页。然后，def stocks1将从给定页面收集数据。yield Request(current_page, self.finalize_stock, meta={'returns_pages': returns_pages}) 每个项目的数据通过另一个函数存储nump

浏览 0提问于2015-05-25得票数 2

4回答

从scrapy导出csv文件(不通过命令行导出)

、、、、

我成功地尝试从命令行将项目导出到csv文件中，如下所示：我的问题是:在代码中做同样的事情最简单的解决方案是什么？当我从另一个文件中提取文件名时，我需要它。结束场景应该是，我调用并将这些项写入filename.csv

浏览 1提问于2014-08-06得票数 20

回答已采纳

1回答

打开CSV文件时出错，因为“已超过最大行数”

、

我在Scrapy上工作，我从一个网页上获取数据，并试图将它们存储在csv文件中。The maximum number of rows has been exceeded.如何让Scrapy将所有2560行下载到一个csv文件中<

浏览 2提问于2012-06-04得票数 0

回答已采纳

1回答

Scrapy dmoz教程，csv文件中没有desc的数据。

、、

我按照Scrapy官方网站上的dmoz教程来抓取Python书籍和资源的标题、链接和描述。在本教程中，我使用了完全相同的蜘蛛，内容如下：from tutorial.items import DmozItem item['desc'] = sel.xpath('text()').extract()

浏览 3提问于2015-10-07得票数 1

回答已采纳

2回答

Scrapy :存储数据

、

我正在尝试遵循Scrapy教程，但我不理解的逻辑。scrapy crawl spidername -o items.json -t json 我不明白以下的意思：谢谢你的帮助

浏览 4提问于2012-12-28得票数 14

回答已采纳

1回答

抓取-在抓取和随机更改用户代理时访问数据

、、

当抓取在爬行时，是否可以访问数据？我有一个脚本，它找到一个特定的关键字，并在.csv中写入关键字以及找到它的链接。但是，我必须等待抓取完成爬行，当完成时，它将实际输出.csv文件中的数据。如果不允许我在一个问题中回答两个问题，我将把它作为一个单独的问题发布。# -*- coding: utf-8 -*- from scrapy.spider

浏览 1提问于2015-12-02得票数 0

回答已采纳

2回答

Python网络爬行和抓取

、、、、

Peru long: 456 name = "world" 'www.world.com'

浏览 10提问于2017-06-14得票数 2

回答已采纳

3回答

Scrapy pause/resume是如何工作的？

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。但是，下次运行爬行器时，将重新生成请求，并将(重复的) SHA1散列添加到文件中。我在Scrapy代码中跟踪了这个问题，看起来RFPDupeFilter打开了带有'a+‘标志的requests.seen文件。因此，它将始终丢弃文件中以前的值(至少这是我的Mac上的行为)。最后，关于爬行器状态，

浏览 0提问于2015-03-04得票数 8

1回答

刮刮-无法将数据上传到s3

、

我正在使用刮除，从一个网站的数据正在运行良好，但我不能上传刮数据到亚马逊的s3。看一看刮擦的文档，这就是我的settings.py中的内容FEED_FORMAT = 'csv'', 'csv': 'scrapy.exporte

浏览 0提问于2018-06-19得票数 0

1回答

在csv中存储刮取的数据

、、、、

我正在学习网络刮擦使用刮除。玩得很开心。唯一的问题是我不能以我想要的方式保存被刮掉的数据。import scrapyimport csv class Oneplus6Spiderscrapy的默认方式-o方法，也尝试使用csv。

浏览 1提问于2018-10-26得票数 0

1回答

从多个urls读取代码，然后写入最终的csv

、、

我需要使用Regex从多个urls的脚本标记中提取数据。我已经成功地实现了一个代码，完成了一半的工作。我有一个csv文件('links.csv ')，它包含了我需要的所有urls。我成功地读取了csv并将所有urls存储在名为'start_urls'的变量中。我的问题是，我需要一次一个地从'start_urls'读取urls，并执行我代码的下一部分。当我在终端中</e

浏览 0提问于2018-08-28得票数 0

回答已采纳

1回答

如何访问中项文件中的蜘蛛文件数据？

、、、

FlipKart.py主蜘蛛文件，用于flipkart.com的报废名称、价格和链接from ..items import FlipkartScraperItem allowed_domains = ['www.flipkart.com']name) 我想废除Flipkart移动电话数据，并将其存储在C

浏览 7提问于2022-11-20得票数 -1

回答已采纳

1回答

无法以json或csv格式存储抓取的数据

、、、

在这里，我想存储网站页面上给出的列表中的数据。('title::text').extract_first() and在scrapyshell中，它分别以shell显示预期的输出。下面是我的代码，它没有以json或csv格式存储数据： import scrapy

浏览 0提问于2017-03-06得票数 1

回答已采纳

1回答

你能在用Scrapy刮的时候设置条件吗？

、、

我想知道我是否可以设置一些存储信息必须满足的条件(使用Scrapy版本1.7.3进行web抓取)。例如，在抓取IMDB的网站时，只存储评分大于7的电影。或者我必须在查看输出文件时手动执行此操作？(我目前正在将数据输出为CSV文件)

浏览 10提问于2019-10-13得票数 1

回答已采纳

1回答

可抓取的导出到单行

、、、

我在试着用scrapy把店铺的位置拼凑成csv。我捕获了正确的数据，但输出如下所示(以"name“字段为例) import scrapy class QuotesSpider(scrapy.Spider

浏览 0提问于2020-06-02得票数 0

2回答

使用scrapy创建csv文件

、、、

我使用Python与Scrapy一起创建了一个脚本来解析电影名称，并且它的年数分布在一个洪流站点的多个页面上。这里的目标是将解析的数据写入CSV文件中，而不是使用Scrapy提供的内置命令，因为当我这样做时： scrapy crawl torrentdata -o outputfile.csv -t csv我在CSV文件中的每

浏览 0提问于2018-12-16得票数 2

点击加载更多