Scrapy每隔一行打印csv文件中的数据

文章/答案/技术大牛

发布

1回答

、、、、

我用python scrapy写了一个脚本，用来解析来自yellowpage的一些条目。当我执行我的脚本时，它确实可以完美地解析所有项。但是，每当涉及到将这些抓取的数据相应地写入csv文件时，我都会遇到问题，即当我打开csv文件并填充数据时，我看到数据每隔一行打印一次。怎样才能去掉空行？我在下面粘贴了脚本信息，供您参考。"items.p

浏览 5提问于2017-08-04得票数 0

2回答

我需要稍微调整一下我的简陋的代码，以摆脱冗余数据

、、

我用scrapy写了一段代码，从yellowpage上抓取咖啡店。总数据大约是870个，但我得到的是1200个左右的最小重复数。此外，在csv输出中，数据被放置在每隔一行中。文件夹名称"yellpg“和"items.py”包含class YellpgItem(Item): name

浏览 0提问于2017-04-05得票数 0

3回答

每隔一行读取一次并打印到新文件

我正在尝试读取CSV文件中的每隔一行，并将其打印到一个新文件中。不幸的是，我得到了一个空行，我无法删除它。lines = open( 'old.csv', "r" ).readlines()[::2]n = 0 for line in lines

浏览 1提问于2013-07-06得票数 6

回答已采纳

1回答

无法消除csv输出中的空白行

、、、、

然而，我遇到的唯一问题是csv输出中数据被刮掉的方式。它总是两行之间的一行(行)间隔。我的意思是:数据被打印在每一行。看到下面的图片，你就会明白我的意思。如果不是因为刮擦，我可以用换行符=‘’。但是，不幸的是，我在这里完全无助。如何消除csv输出中出现的空行？事先谢谢您来看一下。items.py包括： import sc

浏览 3提问于2017-08-27得票数 0

回答已采纳

1回答

如何在不附加关键字的情况下将字典附加到csv

、、、、

我需要将其保存为csv文件。但这个字典在每次迭代中都会更新，并将一个新的字典附加到现有的csv文件中。我在scrapy中使用它。category/', 'parse_category'), yield scrapy.Requestdf = pd.DataFrame.from_dic

浏览 12提问于2020-04-22得票数 0

回答已采纳

1回答

我的spider.py类中有两个爬行器，我想运行它们并生成csv文件。= scrapy.Field() product_price_jd = scrapy.Field() 我想生成一个包含四列的csv文件： product_name_tmall | product_price_tmall| product_name_jd | product_price_jd 我在pycharm的终端中执行了scrap

浏览 16提问于2020-07-08得票数 1

1回答

如何使用scrapy* python将多个网页抓取数据到csv文件中*

、、、、

我有下面的代码，它从一个网站抓取所有可用的网页。这完全是crawling有效页面，因为当我使用打印函数时-我可以从'items'列表中看到数据，但是当我尝试使用.csv作为目标文件转储统计数据时，我看不到任何输出。(在命令提示符中使用此命令：scrapy crawl craig -o test.csv -t csv)，请帮我把数据输出到一个csv文件中<

浏览 0提问于2015-05-01得票数 0

回答已采纳

2回答

使用cronjob运行杂乱无章但不符合预期的结果

、、

我正在使用cron作业来安排我的抓取程序每隔12小时运行一次。我已经创建了一个爬虫，它抓取数据并使用FEED_FORMAT将其存储在csv文件中。这是我的shell文件的内容 #!bin/bash PATH=$PATH:/usr/local/bin/scrapy<em

浏览 28提问于2020-03-26得票数 0

1回答

Scrapy dmoz教程，csv文件中没有desc的数据。

、、

我按照Scrapy官方网站上的dmoz教程来抓取Python书籍和资源的标题、链接和描述。在本教程中，我使用了完全相同的蜘蛛，内容如下：from tutorial.items import DmozItem item['desc'] = sel.xpath('text()').extract()

浏览 3提问于2015-10-07得票数 1

回答已采纳

1回答

如何访问中项文件中的蜘蛛文件数据？

、、、

FlipKart.py主蜘蛛文件，用于flipkart.com的报废名称、价格和链接from ..items import FlipkartScraperItem import scrapyfrom itemloaders.processors import TakeFirstname) 我想废除Flipkart移动电话

浏览 7提问于2022-11-20得票数 -1

回答已采纳

1回答

使用带有抓取命令的基本Spider类- parse()可以多次输出吗？

、

我运行下面的爬行器：from ..items import PythonlibrariesItem return item 命令：$ scrapycrawl lib

浏览 0提问于2017-04-17得票数 0

2回答

如何在csv文件中创建列并在python scrapy中插入行

、

请帮助我在csv文件中使用python scrapy创建列和在它们下面插入行。我需要将抓取的数据写入3列。因此，首先要创建三列，然后在每一行中输入数据。

浏览 0提问于2012-01-27得票数 0

2回答

Scrapy :存储数据

、

我正在尝试遵循Scrapy教程，但我不理解的逻辑。scrapy crawl spidername -o items.json -t json 我不明白以下的意思：谢谢你的帮助

浏览 4提问于2012-12-28得票数 14

回答已采纳

1回答

用scrapy从wordpress网站抓取

、、

我想用scrapy抓取一个wordpress站点。我的问题是我想要标题，文本，日期和作者。作者数据没有打印在正文上，整个文本也不在简短版本中。因此，我必须首先复制作者，然后访问该帖子的完整版本以获取文本。我想不出如何将数据从两个urls发送到同一csv线路。所以我想访问复制作者-->转到第一篇文章复制标题，日期和文本-->将数据存储到csv (作者，标题，日期，文本) -->返回，对第二篇文章做同样

浏览 11提问于2020-05-14得票数 3

回答已采纳

1回答

使用Pandas写入文件会创建空行

、

我正在使用pandas库将mysql数据库的内容写入csv文件。此外，它还将行号打印到我不想要的左边。第一列应该是“帐号”。下面是我的代码：read_sql = """ SELECT LinkedAccountId,Product

浏览 0提问于2019-05-31得票数 15

回答已采纳

2回答

备用CSV行删除

我有如下csv文件：1237我错误地把每个元素打印了两次。如何删除每个重复的行，并得到以下结果：13 7

浏览 0提问于2012-04-18得票数 0

回答已采纳

1回答

如何将爬行器的项目附加到列表中？

、、、

我正在使用一种基本的蜘蛛，从网站上的链接中获取特定的信息。我的代码如下所示：from scrapy import Requestfrom properties importPropertiesItem, ItemLoader class BasicSpider(scrapy</em

浏览 1提问于2017-01-04得票数 0

回答已采纳

1回答

Google API使用php追加CSV文件

、、、

尝试每隔30分钟将来自谷歌AdWords应用程序接口的新数据追加到CSV文件中。即不断添加到现有CSV文件的新行数据。 // Run the example.DownloadCriteriaReportExample($user, $filePath

浏览 1提问于2015-07-22得票数 1

1回答

抓取-在抓取和随机更改用户代理时访问数据

、、

当抓取在爬行时，是否可以访问数据？我有一个脚本，它找到一个特定的关键字，并在.csv中写入关键字以及找到它的链接。但是，我必须等待抓取完成爬行，当完成时，它将实际输出.csv文件中的数据。我也试图随机改变我的用户代理，但它不起作用。如果不允许我在一个问题中回答两个问题，我将把它作为一个单独的问题发布。# -

浏览 1提问于2015-12-02得票数 0

回答已采纳

1回答

使用抓取的爬行器写入csv文件时出现问题

、

我写了一个简单的爬行器，当我尝试将数据写入csv文件时得到一个错误。错误I get it ERROR:爬行器必须返回Request，BaseItem，dict或None，当我尝试打印结果时，得到了'str‘，一切似乎都很好，我只是不知道如何将其写入csv。我使用了scrapy crawl mmadness -o file.csv，但是除了这个错误什么都没有发生。已创建Csv文件，但该文件为

浏览 9提问于2019-01-10得票数 1

回答已采纳

点击加载更多