我不知道为什么,但最近出了个错误:
File "C:\Users\name\PycharmProjects\splash\project\project\spiders\scrapy.py", line 5, in <module>
class ScrapySpider(scrapy.Spider):
AttributeError: 'module' object has no attribute 'Spider'
我的完整代码:
import scrapy
from scrapy_splash import SplashRe
我尝试将SplashRequest与端点=‘execute’一起使用下面的代码发送post请求,但是结果显示我没有成功。
import re
import sys
import os
import scrapy
from scrapy_splash import SplashRequest
from crawler.items import CrawlerItem
class Exp10itSpider(scrapy.Spider):
name = "test"
lua_script = """
function main(s
我在Scrapy splash上写了一个爬虫,我开始收到这个错误: File "C:\Users\Name\PycharmProjects\splash\project\project\spiders\scrapy.py", line 5
start_urls = [
^
IndentationError: unindent does not match any outer indentation level 下面是我获得它的代码行: import scrapy
from scrapy_splash import SplashRequest
clas
我使用的Scrapy在我的本地机器上工作得很好,但是当我在我的Ubuntu服务器上使用它时,它会返回这个错误。为什么会这样呢?是因为记忆不足吗?
File "/usr/local/lib64/python2.7/site-packages/twisted/internet/defer.py", line 1299, in _inlineCallbacks
result = g.send(result)
File "/usr/local/lib/python2.7/site-packages/scrapy/core/downloader/middlewar
这个蜘蛛文件
从scrapy.spiders导入蜘蛛从scrapy_splash导入SplashRequest从..items导入GameItem
class Splash1Spider(Spider):
name = 'scrapy_splash_1'
start_urls = ['https://www.livescore.bet3000.com']
def start_requests(self):
for url in self.start_urls:
yield SplashRequest
我正在尝试点击一个网站上的显示按钮,但没有成功,我真的不知道怎么做,但我遇到了一个可能工作的东西,splash:mouse_press。这将与scrapy-splash一起工作吗?如果可以,我该如何实现它? import scrapy
from scrapy.spiders import Spider
from scrapy_splash import SplashRequest
from ..items import NameItem
class LoginSpider(scrapy.Spider):
name = "LoginSpider"
start_
当尝试在VS Code中导入Splash Request时,我收到以下错误消息: Unable to import 'scrapy_splash' pylint(import-error) 你知道为什么会这样吗?我已经启动并运行了Splash,并且包已经安装在我的环境中。我使用的是Python 3.7 Here is a screenshoot
当试图通过('url‘:response.request.url)将url保存到字典中时,Scrapy从Scrapy中保存所有相同的url ()
我尝试过添加额外的参数,这些参数将传递真正的URL,但没有效果。
from scrapy import Spider
from scrapy.http import FormRequest
from scrapy.utils.response import open_in_browser
from scrapy import Request
import scrapy
from scrapy_splash import SplashReque
我是splash的新手,所以我有这个问题:我试着用splash:https://iboard.ssi.com.vn/bang-gia/vn30抓取这个网站。响应是200,但是当我包含我的xpath时,它什么也没有返回。这是我的代码:(我已经更改了下载中间件) import scrapy
from scrapy_splash import SplashRequest
class VndirectScrapeSpider(scrapy.Spider):
name = 'vndirect_scrape'
allowed_domains = ['iboard
我正在用和后面的scrapy1.6测试一个splash实例。我的蜘蛛:
import scrapy
from scrapy_splash import SplashRequest
from scrapy.utils.response import open_in_browser
class MySpider(scrapy.Spider):
start_urls = ["http://yahoo.com"]
name = 'mytest'
def start_requests(self):
for url in
我正在使用scrapy-splash来抓取一个使用javascript加载结果的汽车经销商网站,但我一直收到错误504 Gateway Time-out。 我有docker和Win10,我不认为问题出在docker配置上,因为我可以用相同的代码抓取另一个站点。 import scrapy
from scrapy_splash import SplashRequest
from scrapy.loader import ItemLoader
from ..items import AutoItem
class Main_Spider(scrapy.Spider):
name =
我正试图在以下网站上搜寻基本的房地产上市信息:
当页面使用javascript向下滚动时,网站的部分内容将从后端API中动态加载。为了解决这个问题,我尝试使用Scrapy和Splash来呈现javascript。我现在面临的问题是,虽然它没有返回所有的列表,但它只返回了前8个。我认为问题是页面没有向下滚动,所以页面没有填充,我需要的div也没有呈现。然后,我尝试添加一些Lua代码(我没有经验)滚动页面向下滚动,希望它将被填充,但它没有工作。下面是我的蜘蛛:
import scrapy
from scrapy.shell import inspect_response
import panda
我有以下刮伤的CrawlSpider
import logger as lg
from scrapy.crawler import CrawlerProcess
from scrapy.http import Response
from scrapy.spiders import CrawlSpider, Rule
from scrapy_splash import SplashTextResponse
from urllib.parse import urlencode
from scrapy.linkextractors import LinkExtractor
from scrapy.h