Python Scrapy响应200但未加载Javascript内容

Python Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地提取网页数据。它可以发送HTTP请求并获取网页内容，支持解析HTML、XML等格式的网页，并提供了强大的数据提取和处理功能。

当使用Python Scrapy发送请求时，有时会遇到响应状态码为200，但实际上网页中的JavaScript内容未被加载的情况。这可能是因为Python Scrapy默认只获取网页的静态内容，而不会执行网页中的JavaScript代码。

要解决这个问题，可以使用Scrapy-Splash插件。Scrapy-Splash是一个基于Scrapy的JavaScript渲染服务，它可以模拟浏览器行为，执行网页中的JavaScript代码，并返回完整的渲染结果。

使用Scrapy-Splash可以实现以下步骤来获取完整的网页内容：

安装Scrapy-Splash插件：在Scrapy项目中安装Scrapy-Splash插件，可以通过pip命令进行安装。
配置Scrapy-Splash中间件：在Scrapy项目的配置文件中，添加Scrapy-Splash中间件的配置，以便在发送请求时使用Scrapy-Splash进行渲染。
编写Spider代码：在Scrapy的Spider代码中，使用Scrapy-Splash发送请求，并通过SplashRequest对象指定需要渲染的网页。
解析渲染结果：在Spider代码中，解析Scrapy-Splash返回的渲染结果，提取所需的数据。

使用Scrapy-Splash可以解决Python Scrapy响应200但未加载JavaScript内容的问题，确保获取到完整的网页内容。

推荐的腾讯云相关产品：腾讯云容器服务（Tencent Kubernetes Engine，TKE），腾讯云函数计算（Serverless Cloud Function，SCF），腾讯云数据库（TencentDB），腾讯云CDN（Content Delivery Network），腾讯云对象存储（Tencent Cloud Object Storage，COS）。

腾讯云产品介绍链接地址：

Python Scrapy响应200但未加载Javascript内容

、

我可以使用正确的头向主页(以start_urls格式)发送GET请求，我的__RequestVerificationToken正在工作，并且我可以看到主页的响应内容。但是我没有看到子页面的任何内容数据，响应是200，但内容只是普通的HTML页面源代码，不包含动态加载的内容。看起来像是一个子页面将Scrapy检测为机器人。我的代码：from scrapy.crawler

浏览 20提问于2021-06-13得票数 0

2回答

为什么我不能在Scrapy中解析响应？

我得到了200条HTTP消息，这意味着响应将成功返回。但是我不能解析响应，尽管xpath查询是正确的。有谁可以帮我？谢谢。这是代码：name = 'lazada' allowed_domains = ['lazada.com.myUPDATE：我确实尝试过获取存储在javascript中的数据，或者使用selenium来模仿人类的浏览行为，但是在尝试抓取一次

浏览 19提问于2020-10-28得票数 0

1回答

使用scrapy从facebook中抓取数据

、、、

因此，在抓取这个url之前，我通过scrapy登录，然后通过这个结果页面登录。但是，即使这个页面的http响应是200，它也不会丢弃任何数据。守则如下：from scrapy.spider import BaseSpiderfrom scrapy.selectorimport HtmlXPathSelector from scrapy.contrib.spiders imp

浏览 3提问于2013-05-31得票数 5

2回答

如何使用Scrapy从动态加载的网站(Fincaraiz)中刮取链接

、

我想了解如何使用Python中的Scrapy从下面的页面提取数据 https://fincaraiz.com.co/inmueble/apartamento-en-arriendo/florida-blanca/bogota/6738284问题这个页面动态加载内容，所以当我从Scrapy发出请求时，我得到的结果是HTML、CSS、JavaS

浏览 18提问于2022-02-18得票数 0

1回答

刮刮只得到24条第一页

、、

这是页面的网址：import scrapy name = 'Ikea'

浏览 3提问于2020-12-01得票数 0

回答已采纳

1回答

Python Scrapy -需要一个用于使用AJAX调用进行分页的FormRequest的修复-有点迷失在这里

、、、

import scrapyfrom ..items import PontsItems name = 'enseafr' current_pageyield FormRequest(my_url, formdata=formdata, callback=sel

浏览 0提问于2020-09-16得票数 0

2回答

抓取网页，需要选择正确的选择器

、、、

这是我第一次使用Scrapy看了几次输卵管，我正试着刮这个网址我想得到每个用户配置文件的链接。

浏览 3提问于2018-10-17得票数 0

回答已采纳

2回答

如何在div中获取文本

、

//div[@class="detail"]/text()').extract() 但是，它没有返回任何内容。

浏览 1提问于2019-07-25得票数 1

1回答

使用scrapy进行web抓取数据的难度

、、、

我正在尝试从https://www.ta.com/portfolio/business-services中使用scrapy抓取数据，但是响应为空。

浏览 10提问于2020-01-17得票数 0

回答已采纳

1回答

与完整的网站相比，我抓取的HTML代码似乎并不完整。HTML会动态变化吗？

、

我目前正在抓取一个网站，以便能够在本地对数据进行排序，然而，当我这样做时，代码似乎不完整，我觉得在我滚动网站以添加更多内容时，可能会发生变化。这会发生吗？我目前只知道一些python和html用于web抓取，正在寻找其他可能影响这个问题的元素(javascript或ReactJS等)。我希望在抓取网站时得到50个名字的列表，但它只返回13个。

浏览 0提问于2019-01-02得票数 0

1回答

到这个HTML中隐藏的详细页面的链接在哪里？

、

我在看下面的县法院记录：在该显示图像的顶部，您可以看到生成以下内容的搜索工具的URL： function ion(this.doDirectEvent, this, [a, !

浏览 12提问于2022-06-24得票数 0

回答已采纳

1回答

使用Scrapy，我不能因为未知的原因抓取网站(可能是因为某种重定向)

、

我正在使用Scrapy来抓取ntry.com它的主页的url是ntry.com/#/main.php，但出于一个我不知道的原因，我不能刮错一页。这是我的代码。import scrapy name = "ntry"start_urlsfilename = 'ntryex1' with open(fi

浏览 0提问于2016-11-20得票数 0

1回答

在刮取Scrapy时，每个URL的HTTP响应代码

、、、、

被刮掉的URL数量和获得200个响应状态的URL数量是不一样的。另外，我想得到的URL与他们各自的反应。我正在使用Scrapy抓取70000个URL，同时希望通过Scrapy获取每个URL的HTTP响应状态，以便在获取特定URL的内容之后，我们还将获得该URL的响应代码：如何获得相应URL的响应代码？

浏览 1提问于2018-09-03得票数 0

2回答

NameError:使用Scrapy时未定义名称'hxs‘

、

我已经启动了Scrapy外壳，并成功地点击了维基百科。scrapy shell http://en.wikipedia.org/wiki/Main_Page 我相信，从Scrapy反应的冗长性来看，这一步骤是正确的。我知道Scrapy安装得很好，已经接受了目的地的URL，但是为什么没有hxs命令会出现问题呢？

浏览 1提问于2014-09-21得票数 3

回答已采纳

1回答

未被调用的Python回调

、、、、

我在这里阅读了关于SitemapSpider类的文档：class CurrentHarvestSpider(scrapy.spiders.SitemapSpider):我的问题是，为什么没有调用这些回调？

浏览 7提问于2016-11-09得票数 0

回答已采纳

1回答

Scrapy和Google web抓取

、、、、

我正在尝试使用scrapy来收集谷歌搜索结果，并将其放入MongoDB。但是，我没有得到任何回应。我遗漏了什么？import scrapy name = "google" allowed_domains

浏览 2提问于2015-10-05得票数 0

1回答

尝试在网站上抓取google地图api生成的动态数据，但正常抓取返回空白

、、、、

我正在使用scrapy从这个中抓取作业数据。一个作业页面看起来像。静态数据可以很容易地被scrapy抓取，但是google地图apis生成的动态数据，如“距离”和“时间”，给我带来了问题。有没有一种方法可以让我使用scrapy来获得这个由谷歌地图api生成的json输出？如果不是，那么有没有办法编写scrapy脚本来等待完整的页面加载(以便加载距离和时间值)，然后再抓取这些值？

浏览 1提问于2015-02-05得票数 0

1回答

无法使用样式组件javascript刮除网站。

、、、

我的目标问题responseresponse.xpath('//h1/p')获取响应：在获取响应

浏览 4提问于2020-12-15得票数 0

回答已采纳

1回答

http://prntscr.com/o56670 请查看截图我正在使用python 3并在我的终端上使用scrapy。fetch("https://angel.co/adil-wali") 当请求链接时，它以403响应。所以我已经改变和轮换了用户代理和机器人，但仍然显示403响应，所以这次我购买了爬虫计划，但爬虫仍然说523响应您知道为什么在scrapy shell中请求返回403而不是200<

浏览 5提问于2019-06-22得票数 0

回答已采纳

1回答

如何在<ol> <li>下利用抓取蜘蛛蟒蛇获得价值

、、

runspider scraper.pyimport json name = 'xxxx_spider'2019-12-11 18:16:39 [scrapy.core.engine] INFO: Spider opened 2019-12-11 18:16:39 [scrapy.extensions.logstats(200) <GET https://www.xx

浏览 4提问于2019-12-11得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python Scrapy响应200但未加载Javascript内容

相关·内容

Python Scrapy响应200但未加载Javascript内容

为什么我不能在Scrapy中解析响应？

使用scrapy从facebook中抓取数据

如何使用Scrapy从动态加载的网站(Fincaraiz)中刮取链接

刮刮只得到24条第一页

Python Scrapy -需要一个用于使用AJAX调用进行分页的FormRequest的修复-有点迷失在这里

抓取网页，需要选择正确的选择器

如何在div中获取文本

使用scrapy进行web抓取数据的难度

与完整的网站相比，我抓取的HTML代码似乎并不完整。HTML会动态变化吗？

到这个HTML中隐藏的详细页面的链接在哪里？

使用Scrapy，我不能因为未知的原因抓取网站(可能是因为某种重定向)

在刮取Scrapy时，每个URL的HTTP响应代码

NameError:使用Scrapy时未定义名称'hxs‘

未被调用的Python回调

Scrapy和Google web抓取

尝试在网站上抓取google地图api生成的动态数据，但正常抓取返回空白

无法使用样式组件javascript刮除网站。

如何在Scrapy中修复403响应

如何在<ol> <li>下利用抓取蜘蛛蟒蛇获得价值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐