如何使用splash和scrapy将变量从Lua脚本传递到Javascript？

文章/答案/技术大牛

发布

2回答

、、、、

我当时正在做一个由scrapy和splash组成的抓取项目。我是Lua和Javascript的新手。我处于需要从Lua向Javascript发送变量的情况。但我不能弄清楚是怎么回事。下面是我的Lua脚本 script = """ assert(splash</em

浏览 58提问于2019-08-24得票数 0

1回答

如何从命令提示符将变量传递给在scrapy中执行的lua脚本？

、、、

我试图在scrapy中作为用户定义参数传递一个变量，这个变量将用于lua脚本的for循环，我的代码如下所示：from scrapy_splash import SplashRequestlua脚本的for循环(即for i=1,5,1 )时，脚本工作得很好，但是当我试图使用scrapy crawl allproduc

浏览 10提问于2020-10-12得票数 0

回答已采纳

1回答

Scrapy-Splash如何将返回变量添加到响应

、、

我想运行一个启动脚本，它在lua中做一些事情，然后将结果返回给我的scrapy机器人。但是，我只能接收html主体，而不能接收return语句中的任何变量。 splash:go(...)--lua/splash stuffreturn { -- another SO thread stated that these have to be in JSON formatdoesn't work either wa

浏览 14提问于2020-09-26得票数 1

1回答

启动lua脚本进行多次单击和访问

、、、

我有一个lua脚本，它将点击“引文”链接并加载模态窗口，然后得到引用的href格式的BibTeX格式。但是看到有多个搜索结果，因此有多个“引号”链接，我需要点击它们，并加载单独的BibTeX页面。我现在拥有的是：from scrapy_splash import SplashRequest f.write(response.css("body &

浏览 3提问于2016-06-26得票数 6

回答已采纳

1回答

Scrapy Splash单击带有javascript href的链接

、

我正在使用Scrapy Splash抓取一个包含如下元素的页面：第1页，共349页 1|2|3|4|5|6|7|8|9| 10 |下一步> 我想‘点击’锚与文本‘下一步’，并让javascript:get_cookies(), }""" class MySpider(scrapy.Spider'scrapy

浏览 29提问于2019-02-16得票数 1

回答已采纳

1回答

scrapy-splash返回它自己的标头，而不是站点的原始标头。

、、、

现在我需要的是维护会话，所以我使用scrapy.downloadermiddlewares.cookies.CookiesMiddleware，它处理set-cookie头。问题是:当我将splash添加到图片中时，set-cookie打印就会消失，而实际上，作为响应头，我得到的是{'Date'：'Sun，2016年9月25日12:09:55 GMT'，‘Content’：'text/html；charset=utf-8'，'Server&#x

浏览 1提问于2016-09-25得票数 7

回答已采纳

1回答

刮擦-等待页面加载的飞溅

、、、

我对刮擦和飞溅很陌生，我需要从单个页面和常规的web应用程序中抓取数据。不过，有一点要注意的是，我主要是从内部工具和应用程序中抓取数据，所以有些工具和应用程序需要身份验证，而且所有这些都需要至少几秒钟的加载时间才能完全加载页面。基本上，SplashRequest和scrapy.Request似乎都会运行并产生结果。然后，我了解了LUA脚本作为这些请求的参数，并尝试了使用不同形式的wait()形式的LUA</e

浏览 0提问于2019-08-30得票数 0

回答已采纳

1回答

如何从scrapy-splash中获取200以外的状态代码

、、、

我试图得到请求状态代码与刮痕和刮擦-飞溅，下面是蜘蛛代码。class Exp10itSpider(scrapy.Spider): urls, meta={'handle_httpstatus_all': True,'splash': { 'ht

浏览 14提问于2017-10-19得票数 3

回答已采纳

3回答

如何到达一个非常深嵌套的A HREF为我的蜘蛛找到下一个按钮？

、、、、

具有讽刺意味的是，除了表和I感兴趣的表之外，所有标签都没有任何类或id。但是由于一些奇怪的原因，当我尝试使用scrapy访问它时，我得到了以下结果：[]你知道我做错了什么吗？是因为它在< td >中，以及一堆<a >，嵌套在< tr >、< table >、许多< div >和一个< form >中吗？谢谢!

浏览 1提问于2018-04-05得票数 1

回答已采纳

1回答

scrapy中的Lua脚本

、、、

我正在使用scrapy 1.6和splash 3.2： import scrapyfrom scrapy_splash import SplashRequest return None 我正在阅读https://blog.scrapinghub.com/2015/03/02/handling-jav

浏览 11提问于2019-06-25得票数 1

回答已采纳

2回答

飞溅记忆极限(刮擦)

、

我是从码头开始的。我为splash和scrapy创建了一个很大的lua脚本，然后运行，我发现了问题： Lua：__gc元方法中的错误(/app/splash/lua_ much /sandbox.lua:189:脚本使用太多内存

浏览 0提问于2017-06-01得票数 3

回答已采纳

1回答

如何用scrapy_splash包重定向表单后的帖子？

、、、

我使用Python、Scrapy、Splash和scrapy_splash包来废弃网站。我在SplashRequest中尝试了同样的方法，但是，我无法捕获重定向返回的SSO查询参数。我还尝试将lua<

浏览 3提问于2017-05-18得票数 2

回答已采纳

1回答

使用Scrapy和Lua在mouseclick上动态加载内容

、、、、

我有一个飞溅刮刀和Lua脚本。Lua脚本目前只在页面上启动滚动，以便在搜索页上加载更多结果。从搜索页面导航到我刮过的详细页面。单击该元素后，将加载以下光电旋转木马HTML： <div class="slider-inner"> }

浏览 6提问于2020-12-20得票数 0

1回答

Splash爬行Javascript网站

、、

我能够使用以下代码爬行Javascript呈现的页面：from scrapy_splash import SplashRequest name = 'quotejscrawler' yield SplashRequest

浏览 0提问于2018-02-16得票数 0

回答已采纳

3回答

Python POST请求未返回HTML，请求启用JavaScript

、

我正在尝试登录我的富国银行帐户，并抓取我的交易历史记录，以便我可以使用它们来跟踪我的财务状况。如果我能到达页面的HTML，我就能做抓取部分。{"j_username":"USERNAME", "j_password":"PASSWORD"}print(r.text) })()

浏览 1提问于2016-01-10得票数 11

2回答

Scrapy :屏幕截图特定元素

、、、、

有没有办法在splash中截图一个特定的元素？我似乎找不到解决方案，我找到的唯一选择是使用"render.png“，这会截取整个页面的屏幕截图，我只需要一个特定的元素，例如"//table”。我找到了我目前正在使用的 (selenium中的解决方案)，Splash看起来更快，开销更小。非常感谢。

浏览 3提问于2018-04-23得票数 2

1回答

如果返回一个列表，如何从splash中检索？

、、、

遵循这里的启动源码中提供的示例：在使用scrapy-splash时，如何使用lua脚本返回和检索数组/列表而不是表/字典？

浏览 6提问于2017-08-02得票数 0

回答已采纳

2回答

抓取Android商店

、、

data-docid'])问题是我只能收集60个包的名称，因为javascript我如何在Python中重现此行为，以获得超过60个结果？

浏览 4提问于2018-11-08得票数 1

2回答

如何在Scrapy* Splash中使用Crawlera lua脚本时获得session_id？*

、、、、

如你所知，当我们尝试在Crawlera中使用Scrapy Splash时，我们使用这个lua脚本： -- Make sure you) splash:init_cookies(splash.args.cookies) assert(splash:go{

浏览 7提问于2018-11-27得票数 0

2回答

使用scrapy* + splash返回html*

、、、、

我在试着弄清楚刮伤和溅到的东西。作为练习，我尝试在以下javascript网站上点击按钮：，然后返回新呈现页面的html。':{'lua_source': script},'endpoint':'execute',}}) splash_json)', 'type': 'LUA_ERROR'}

浏览 6提问于2017-01-12得票数 2

回答已采纳

点击加载更多