如何使用scrapy-selenium抓取javascript输入

Scrapy是一个Python的开源网络爬虫框架，但是它无法直接处理JavaScript生成的内容。为了解决这个问题，可以结合Scrapy和Selenium来实现抓取JavaScript渲染的页面。

下面是使用scrapy-selenium抓取JavaScript生成内容的步骤：

安装必要的软件：
- 安装Python：确保你已经安装了Python并设置了环境变量。
- 安装Scrapy：可以通过命令行运行pip install scrapy来安装Scrapy。
- 安装Selenium：可以通过命令行运行pip install selenium来安装Selenium。
- 安装浏览器驱动：Scrapy需要与Selenium结合使用，所以需要根据自己使用的浏览器下载对应的驱动程序。例如，如果你使用Chrome浏览器，可以下载Chrome驱动程序，然后将其添加到系统环境变量中。

创建Scrapy项目：
- 在命令行中运行scrapy startproject project_name来创建一个新的Scrapy项目。
配置Scrapy：
- 打开生成的Scrapy项目中的settings.py文件，将以下代码添加到文件中：
- 打开生成的Scrapy项目中的settings.py文件，将以下代码添加到文件中：
创建Spider：
- 在Scrapy项目中创建一个Spider，用于定义抓取规则和提取数据的逻辑。可以使用scrapy genspider spider_name example.com命令创建一个基本的Spider。
编写Spider代码：
- 在生成的Spider文件中，编写自定义的抓取逻辑。可以使用Selenium来模拟用户操作，例如点击、输入等。
- 在生成的Spider文件中，编写自定义的抓取逻辑。可以使用Selenium来模拟用户操作，例如点击、输入等。
运行Scrapy爬虫：
- 在命令行中切换到Scrapy项目目录，并运行scrapy crawl spider_name来启动爬虫。

以上就是使用Scrapy和Selenium抓取JavaScript生成内容的基本步骤。需要注意的是，由于Scrapy-Selenium是通过模拟浏览器操作来实现的，因此对于大规模的数据抓取，可能会导致性能下降。在实际应用中，可以根据具体需求进行优化和调整。

对于Scrapy和Selenium的更多详细信息和使用方法，请参考以下链接：

Scrapy官方文档：https://docs.scrapy.org/
Selenium官方文档：https://www.selenium.dev/documentation/

如何使用scrapy-selenium抓取javascript输入

、、

我正在尝试修改我的网络爬虫，这样我就可以在网站上获得Javascript输入的信息。我想用硒而不是splash来做。SELENIUM_DRIVER_ARGUMENTS=['-headless'] DOWNLOADER_MIDDLEWARES = {'scrapy_selenium.SeleniumMiddleware': 800} 我得到的是网站的静态输入，而不是动态输入。(Javascript)一些帮助会非常好。谢谢!

浏览 29提问于2021-02-11得票数 0

1回答

抓取后保持浏览器窗口打开吗？

、

使用scrapy-selenium时，如何在抓取完成(或中止)后保持浏览器窗口打开？

浏览 17提问于2021-04-08得票数 0

1回答

即使xpath在chrome.Why中是正确的，Scrapy shell也会给出一个空列表的输出？

、

在Scrapy shell上执行fetch(url)fetch(r) response.xpath("//div[@class='ant-col-20 ant-col-push-4 c1z9Ut']/div[@class='c1_t2i']/div[@class='c2prKC']/d

浏览 1提问于2020-07-24得票数 1

2回答

我可以使用scrapy来点击没有href但有onclick属性的按钮吗？

、、、、

我正在尝试从使用此类型按钮的网页中提取信息： <a id="" href="#" ... onclick="function()..." 我一直在寻找示例，但它们都可以使用href。有解决方案吗？我需要使用其他工具来完成这项工作吗？谢谢

浏览 38提问于2021-07-21得票数 0

2回答

使用python scrapy抓取同一链接的下一页

、、

我想抓取链接的下一页：https://www.thetoptens.com/animals/，使用scrapy-selenium点击next按钮，但它抓取了链接的第一页。我也尝试过使用webdriver，但显示了相同的结果。使用scrapy-selenium的代码： import scrapyfrom selenium.webdriver.c

浏览 35提问于2020-12-17得票数 1

1回答

我们可以使用scrapy刮掉linkdin/作业吗？我在寻找它的教程，但没有找到任何？

、、

我们可以使用scrapy刮掉linkdin/作业吗？我在寻找它的教程，但没有找到任何？我也在github上搜索，但是找不到任何相关的存储库。有人能告诉我原因吗？或者提供一个简单的爬行器，这样我就可以使用和修改它。但只使用擦伤

浏览 9提问于2022-09-26得票数 -1

1回答

scrapy selenium驱动程序没有遵循

、、

True 'scrapy_selenium.SeleniumMiddleware': 800 } documentation on scrapy-selenium我不想更改__init__，因为我希望使用scrapy-selenium处理一些请求，而使用scrapy(单独)处理其他请求。我想要一些请求是由SeleniumRequest其他由抓取的Request处理注意:我已经使用这个网站作为示例网站

浏览 68提问于2019-05-17得票数 1

1回答

使用javascript URL数组的网络爬虫？

、、

我让用户输入他们想要抓取最新更新的URL列表。我对Java很熟悉，所以我试着用Java做一个网络爬虫，但我不太明白如何把这个数组从javascript转换成Java。为了能够抓取数组中的每个URL，最兼容的语言是什么？

浏览 3提问于2016-01-17得票数 0

4回答

不使用输入文本框的Javascript值

、

我四处看看如何使用javascript从输入框中抓取文本，所有的帖子都说要使用.value，然而，我总是得到“未定义”。我认为问题在于，当我使用.value时，它会在输入标记中查找值=“”，而当它看到没有任何值时，就会返回“未定义” clickBot.addEventListener("click&

浏览 0提问于2017-04-15得票数 1

回答已采纳

5回答

在输入标记上使用自动聚焦属性时，不会调用onfocus

、、、

我读到焦点放在JavaScript代码执行之前。有没有办法让这件事继续下去呢？<input id="i" type="text" autofocus onfocus="alert(1)"> document.getElementById

浏览 3提问于2010-12-06得票数 7

1回答

抓取和非API交互

、

当API不可用时，我如何获得使用API的好处？Javascript能帮上忙吗？

浏览 1提问于2015-01-20得票数 0

1回答

抓取跟随javascript输入按钮

、、、

我在页面上有以下输入：<input name="ct92" value一些JavaScript在照顾它。我怎么才能追踪到这个？我已经尝试了下面的代码，只是看看是否有scrapy跟随输入，但没有成功。

浏览 1提问于2016-01-21得票数 3

回答已采纳

2回答

将表单输入存储在javascript变量中，然后在不提交表单的情况下将其值传递到php变量中？

、、

我想要做的是，每当用户在文本字段输入中填写他的地址时，我想用javascript在模糊中抓取它，这是我能够做到的。现在如何在php变量中传递这个变量，以便我可以将其用于一些操作？javascript文件在php文件内部调用。

浏览 0提问于2013-04-26得票数 0

回答已采纳

1回答

尝试使用Google ()导入表。但没有出现任何内容

、、、

这个网站每天都是随机更新的，所以我想使用谷歌文档来帮助跟踪。谢谢,📷强文本

浏览 0提问于2019-08-19得票数 1

1回答

为什么BeautifulSoup无法从页面源代码中抓取完整的脚本？

、、

然而，抓取的结果脚本与我在Chrome上查看页面源代码时观察到的脚本并不相同。我读过一些帖子，其中提到，由于页面由使用javascript的动态列表组成，因此建议使用selenium。有没有办法在不求助于其他库的情况下抓取我想要的东西？在此之前，非常感谢您。

浏览 3提问于2020-07-23得票数 0

1回答

JavaScript .execute命令可以同步运行，或者转换为Ajax吗？

、、

我在这里使用了Javascript的ArcGIS应用程序接口：我需要它同步运行，以便PHP可以抓取结果(最终结果将回显真或假，警报只是用于调试) var identifyTask = new esri.tasks.IdentifyTask

浏览 0提问于2012-12-24得票数 0

回答已采纳

1回答

调用网站并使用javascript抓取文本(api？)

、

我正在尝试使用这个网站： (以为例){"id":"36c84ed1708a4fc1b31e031bf1511de6"，"name":"TEXT_HERE"} 我能用javascript做这件事吗(以及如何做)，或者我需要用PHP吗？

浏览 1提问于2015-07-18得票数 0

3回答

如何在HTML中使用表单框获取用户输入？

、、

我想接受用户输入的表单框(输入type=“文本”)，然后我想使用一个公式，(用户输入)*0.8/2.5，并给他们的答案。有没有办法做到这一点？我是个新手，刚开始从HTML抓取要在javascript中使用的东西。谢谢!

浏览 1提问于2015-03-09得票数 1

0回答

使用需要javascript输入的python抓取站点

、

我正在尝试使用下面的python代码抓取一个网站import requests matchme = r'name="csrfToken因此，当我调查页面源代码时，我发现用于链接到我试图抓取的页面的按钮使用了以下代码 <a href="javascript:submitEvent('viewUserDocList', 'TCNK=headerComponent'

浏览 6提问于2016-12-27得票数 1

1回答