编辑2-因为我的文件夹和我选择的名字混在一起,我不小心发布了错误的代码。请参阅下面的准确代码,每个文件正确的文件夹,其中包含我的所有文件。
设置
# -*- coding: utf-8 -*-
# Scrapy settings for pics project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
# http://
当我尝试执行这个循环时,我得到了错误,请帮助我想要使用csv文件刮取多个链接,但是在start_urls中是stucks,我使用scrapy2.5和python3.9.7
from scrapy import Request
from scrapy.http import request
import pandas as pd
class PagedataSpider(scrapy.Spider):
name = 'pagedata'
allowed_domains = ['www.imdb.com']
def start_requ
我使用Python和Scrapy来回答这个问题。
我试图抓取网页A,它包含指向网页的链接列表-- B1、B2、B3、.每一个B页面都包含一个指向另一个页面的链接,C1、C2、C3、.,其中包含一个图像。
所以,使用Scrapy,在伪代码中的思想是:
links = getlinks(A)
for link in links:
B = getpage(link)
C = getpage(B)
image = getimage(C)
然而,当我试图在Scrapy中解析多个页面时,我遇到了一个问题。这是我的代码:
def parse(self, response):
我试图用一个循环建立一个url列表,然后从每个url中获取一个数据点,但它似乎只对列表的最后一项(MMM)执行此操作,而不是所有的项……我做错了什么?谢谢! from simplified_scrapy.request import req
from simplified_scrapy.simplified_doc import SimplifiedDoc
tickers = ['AAPL','T','MMM']
for i in tickers:
quote_page = ['https://ycharts.com/com
我有大约100 urls要刮,所以我想从txt文件中读取它们--这是代码
import scrapy
from scrapy import Request
from scrapy.crawler import CrawlerProcess
class ConadstoresSpider(scrapy.Spider):
name = 'conadstores'
headers = {'user_agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, li
我正在用Python运行一个scrapy and pillow项目,无论我尝试多少次,都会遇到相同的错误。
我的items.py如下:
import scrapy
class Refrigerator(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field()
price=scrapy.Field()
model = scrapy.Field()
sku = scrapy.Field()
我使用Python课程进行数据营Web抓取,并试图在自己的环境中运行“capstone”web刮刀(该课程是在一个特殊的浏览器环境中进行的)。该守则旨在从数据营网页上刮取课程的标题和说明。
我花了很多时间到处修修补补,现在我希望社区能帮我解决这个问题。
我试图运行的代码是:
# Import scrapy
import scrapy
# Import the CrawlerProcess
from scrapy.crawler import CrawlerProcess
# Create the Spider class
class YourSpider(scrapy.Spider):
我试着用Scrapy建造一个爬虫。在scrapy的官方文档或博客中,我看到人们在.py代码中创建一个类,并通过scrapy执行它。
在它们的主页上,给出了以下示例
import scrapy
class BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['https://blog.scrapinghub.com']
def parse(self, response):
for title in response.css('h2.entry-
我有一个url列表,它被重定向到文本文件中的另一个url。我想得到所有重定向的urls.So我做了一个蜘蛛,打开一个文本文件的网址。现在我收到一些错误,如"DNS查找失败“或”没有路由“。我直接在浏览器上检查了这些网址,发现这些网址出现了"ip地址未找到错误“。然而,我希望抓取每个重定向的网址,而不管错误。有什么解决方案可以实现这一点吗? 这是我跑过的蜘蛛 import scrapy
class AwesomeSpiderSpider(scrapy.Spider):
name = 'web_uk'
# opening the list of urls
我一直在尝试遵循Scrapy教程(正如在非常开始的时候),并且在项目顶层(即使用scrapy.cfg的级别)运行命令之后,我得到以下输出:
mikey@ubuntu:~/scrapy/tutorial$ scrapy crawl dmoz
/usr/lib/pymodules/python2.7/scrapy/settings/deprecated.py:26: ScrapyDeprecationWarning: You are using the following settings which are deprecated or obsolete (ask scrapy-users@go
我想在他们在教程中使用的Dmoz网站上使用Scrapy,但我不想仅仅通过使用Item/Field对来阅读图书URL ()中的书籍,我希望创建一个Item加载器,它将读取所需的值(名称、标题、描述)。
这是我的items.py文件:
from scrapy.item import Item, Field
from scrapy.contrib.loader import ItemLoader
from scrapy.contrib.loader.processor import Identity
class DmozItem(Item):
title = Field(
我正在尝试抓取Google应用商店,但在运行脚本时,我得到了以下错误:“不支持的URL方案”:没有可用于该方案的处理程序。代码如下:
# -*- coding: utf-8 -*-
import scrapy
# from scrapy.spiders import CrawlSpider, Rule
# from scrapy.linkextractors import LinkExtractor
# from html.parser import HTMLParser as SGMLParser
from gp.items import G
我正在尝试使用以下代码从MIT OCW中删除课程信息:
import scrapy
class mitSpider(scrapy.Spider):
name = 'mitSpider'
start_urls = ['https://ocw.mit.edu/courses/']
def parse(self, response):
for url in response.css('ul li h4 a::attr("href")'):
yield scrapy.Re
因此,我一直在尝试寻找一个语法参考指南,以便使用Scrapy和Craigslist Job站点完成一个基本的屏幕抓取工具。这只是为了练习,因为我了解了更多关于Scrapy的知识,并进入了更复杂的项目-跳转页面,填写搜索表单,等等。
这是我为Scrapy编写的代码:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from craigslist_sample.items import CraigslistSampleItem
class MySpider(BaseSpid
你好,我正在尝试用Dockerfile运行我的抓取蜘蛛的CMD。我已经设置了指向包含scrapy scrapy.cfg文件夹和CMD scrapy crawl资产的文件夹的路径来启动爬行器
当我运行docker-compose up时,返回错误
Scrapy 1.5.0 - no active project
web_1 |
web_1 | Unknown command: crawl
web_1 |
web_1 | Use "scrapy" to see available commands
这是我的Dockefile
看看是否有人能为我指明在python中使用Scrapy的正确方向。
几天来,我一直在努力学习这个例子,但仍然无法达到预期的输出。使用Scrapy教程,甚至从github下载一个确切的项目,但是我得到的输出不是本教程所描述的。
from scrapy.spiders import Spider
from scrapy.selector import Selector
from dirbot.items import Website
class DmozSpider(Spider):
name = "dmoz"
allowed_domains = ["dmoz.org