我正在尝试使用Python中的Scrapy在一些航班上运行航班搜索,然后将其导出为csv。这只是为了好玩,因为我对Scrapy有了更多的了解。
这是我所拥有的
from scrapy.item import Item, Field
from scrapy.http import FormRequest
from scrapy.spider import Spider
class DeltaItem(Item):
title = Field()
link = Field()
desc = Field()
class DmozSpider(Spide
我在seed.txt中用url-1成功地执行了一次爬行,我可以在MySQL数据库中看到爬行的数据。现在,当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时,新的爬行开始于抓取步骤,并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。
我尝试检查隐藏的种子文件,但没有找到,并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题?
我最近开始编写一个解析器,从一个.txt文件中读取一些数据,并将信息写入另一个文件中,但我的输出有问题。例如,当我打开解析器写入信息的文件时,它看起来像这样
House 9 = 130 square feet
House 10 = 140 square feet
房子编号10之前的所有房子都少了一个空间,因为房子的编号只有一个数字,因此当你打开输出文件时,这些房子的面积似乎向左移动了一个空间,它看起来不像一个统一的输出,我用和if语句解决了这个问题,但我的主管告诉我使用字符串格式化来解决这个问题,但到目前为止我还无法做到这一点。有没有办法让输出看起来像这样,使用字符串格式而不是if语句?
Ho