我使用CSVFeedSpider来抓取本地csv文件(foods.csv)。
下面是:
calories name price
650 Belgian Waffles $5.95
900 Strawberry Belgian Waffles $7.95
900 Berry-Berry Belgian Waffles $8.95
600 French Toast $4.50
950 Home
我试图通过提取子链接和它们的标题来抓取一个网站,然后将提取的标题及其相关链接保存到CSV文件中。我运行以下代码,将创建CSV文件,但它是空的。有什么帮助吗?
我的Spider.py文件如下所示:
from scrapy import cmdline
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
class HyperLinksSpider(CrawlSpider):
name = "linksSpy"
我有一个错误,我不能自己解决。当你在表单中发布"PARTIDO POLITICO“时,我想要刮掉表格的第一列。
我写了这段代码:
from scrapy.spiders import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.http import FormRequest, Request
class PoliticItem(scrapy.Item):
politic_party = scrapy.Field()
class PoliticSpider(BaseSpider):
在页面中,用户必须键入一些字段才能下载最重要的西班牙广播公司的频道时间表。一旦用户填写表单并单击Exportar按钮,浏览器将自动开始下载扩展名为formato下拉列表的文件。
现在,从我的Chrome浏览器可以很容易地获得文件。但是,我想用一个Scrapy脚本自动完成这个任务,下面您可以找到我到目前为止所做的工作:
from scrapy.item import Item, Field
from scrapy.http import FormRequest
from scrapy.spiders import Spider
from scrapy.selector import Select
我正在从他们的学习(一个网络爬行框架)。
通过以下示例和文档,我创建了我的爬行器,以便使用站点地图抓取数据
from scrapy.contrib.spiders import SitemapSpider
from scrapy.selector import Selector
from MyProject1.items import MyProject1Item
class MySpider(SitemapSpider):
name="myspider"
sitemap_urls = ['http://www.somesite.com/sitemap
我使用scrapy为我的爬虫,它是完美的工作,但我需要保存整个html文件从我正在编写的csv文件分开。我不知道如何保存我正在解析的整个html文件。
import scrapy
from myfirsttime.items import RItem
import csv
class RSpider(scrapy.Spider):
name = 'Rspider'
def start_requests(self):
l = open('/home/ubuntu/Desktop/R.csv')
data = c
我想使用Scrapy的内置URI参数来命名我的日志文件(因为我可以命名提要导出),但这是行不通的。有人能解释一下这种区别吗?
这可以通过启动一个新项目、创建一个泛型蜘蛛、使用以下参数更新设置文件以及运行蜘蛛来再现。
scrapy startproject project_name
cd project_name
scrapy genspider project_spider
# add above settings to settings.py
scrapy crawl project_spider
#outputs items file with correct name but log f
我正在尝试使用scrapy抓取一个使用下一步按钮移动到新页面的页面。我正在使用爬行器的一个实例,并定义了Link提取器来提取新的页面。然而,爬虫只是爬行开始url,并在此停止。我已经添加了爬虫代码和日志。任何人都知道为什么蜘蛛不能爬行页面。
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from realcommercial.items import RealcommercialItem
fr
这个蜘蛛文件
从scrapy.spiders导入蜘蛛从scrapy_splash导入SplashRequest从..items导入GameItem
class Splash1Spider(Spider):
name = 'scrapy_splash_1'
start_urls = ['https://www.livescore.bet3000.com']
def start_requests(self):
for url in self.start_urls:
yield SplashRequest
我刚接触python和web抓取,我试着将抓取的数据存储到csv文件中,但是输出并不令人满意。 当前csv输出: Title Image
Audi,Benz,BMW Image1,Image2,Image3 我希望如何在csv文件中查看它: Title Image
Audi Image1
Benz Image2
BMW Image3 这是在终端中输入以运行它的内容: scrapy crawl testscraper -t csv -o test.csv 下面是spider.py: class TestSpiderSpid
当我尝试执行这个循环时,我得到了错误,请帮助我想要使用csv文件刮取多个链接,但是在start_urls中是stucks,我使用scrapy2.5和python3.9.7
from scrapy import Request
from scrapy.http import request
import pandas as pd
class PagedataSpider(scrapy.Spider):
name = 'pagedata'
allowed_domains = ['www.imdb.com']
def start_requ