Python - Scrapy代码可以在一个网站上运行，不能在另一个网站上使用调整过的选择器

Python - Scrapy是一个强大的网络爬虫框架，用于从网页中提取数据。它基于Python语言开发，可以帮助开发人员快速、高效地抓取和处理网页内容。

在一个网站上运行Scrapy代码，而在另一个网站上无法使用调整过的选择器的原因可能有以下几点：

网站结构不同：不同的网站可能采用不同的HTML结构和CSS选择器规则。如果在一个网站上调整了选择器，但在另一个网站上使用相同的选择器可能无法准确地定位到目标元素，导致无法提取所需数据。
网站反爬虫机制：一些网站为了防止被爬虫程序抓取数据，会采取一些反爬虫机制，如验证码、IP封禁等。如果在一个网站上调整了选择器，但在另一个网站上使用相同的选择器可能会触发网站的反爬虫机制，导致无法正常运行Scrapy代码。

针对这个问题，可以采取以下解决方案：

分析目标网站结构：在使用Scrapy之前，需要仔细分析目标网站的HTML结构和CSS选择器规则。确保选择器能够准确地定位到目标元素，并且在不同的网站上都能正常使用。
动态调整选择器：如果在一个网站上调整了选择器，但在另一个网站上无法使用，可以考虑使用动态选择器的方式。即在代码中根据不同的网站动态调整选择器，以适应不同的网站结构。
使用其他爬虫框架：如果Scrapy在某个特定网站上无法正常工作，可以尝试使用其他的爬虫框架，如BeautifulSoup、Requests等。这些框架也能够实现网页内容的抓取和处理。

总结起来，要在不同的网站上使用调整过的选择器，需要对目标网站的结构进行分析，并根据不同的网站动态调整选择器。同时，也可以考虑使用其他的爬虫框架来实现相同的功能。

页面内容是否对你有帮助？

有帮助

没帮助

Python - Scrapy代码可以在一个网站上运行，不能在另一个网站上使用调整过的选择器

、、、

我正在学习Scrapy和Python，遇到了这个问题。 }class eKupiSingleCategoryXPath"name": monitorSelectXPa

浏览 16提问于2020-05-08得票数 1

回答已采纳

3回答

我怎样才能停止一个粗糙的CrawlSpider，然后从它中断的地方恢复？

、

我有一个抓取有一个非常大的URL列表抓取。我希望能够停止它，保存当前状态，并在以后恢复它，而不必重新开始。有没有办法在Scrapy框架中实现这一点？

浏览 0提问于2011-09-06得票数 13

回答已采纳

1回答

Facebook重定向到具有主干路由的s3网站上的索引页

、、

我们在AWS S3上有一个静态网站。我们使用主干网进行路由。当我们告诉我们的网站例如www.example.com/#/ page /目的时，它会爬行索引页，这可能是因为爬虫不运行javascript，并且从我们的页面获取静态的og标记。我们已经看到了。然而，由于我们的网站是静态的，我们没有服务器端的支持。我想知道有没有人能在静态<e

浏览 2提问于2015-01-25得票数 0

回答已采纳

1回答

Python / Scrapy -输出被切断-因此wount允许我使用Xpath正确构建查询。

、、

我试着用Scrapy和Python从网站上抓取一些数据。问题是我的搜索结果总是被切断。我在两台不同的电脑上试过这个。一种是使用windows 10，scrapy 1.4.0，python 2.7.13。另一个是使用Windows 7，scrapy 1.4.0，python 2.7.13。示例：(在命令行上使用scrapy

浏览 3提问于2017-06-07得票数 0

回答已采纳

1回答

在freertos上运行C应用程序，该应用程序已经在uclinux上运行

、、

一个运行在uclinux上的应用程序安装在cortex m3上，但现在我想使用freertos作为操作系统，而不是uclinux。例如，我运行tcp服务器客户端应用程序，其中客户端在uclinux上，服务器在安装了linux的计算机上，它工作得很好，反之亦然对于FreeRTOS，我使用lwip作为ip堆栈，编译应用程序、freertos和lwip，并生成十六进制文件，然后将其放入client m3中，但是当我运行它

浏览 5提问于2016-06-13得票数 0

2回答

如何使用crawl命令运行scrapy项目

、

我是Scrapy的新手，我正在浏览Scrapy教程。我已经能够使用windows7创建我的项目。我的scrapy安装在如下路径中： C:\Program Files\python2.7\scripts.我通过scrapy crawl项目源构建了一个名为元的项目，但当我尝试通过scrapy crawl元运行该项目时，出现了一个错误：“未知命令爬<e

浏览 5提问于2015-03-24得票数 1

1回答

IIS 7应用程序自动重定向

我有两台服务器，服务器A和服务器B，它们都有IIS7和相同的操作系统。我通过我的VS2008在两台服务器上发布了相同的网站。问题是其中一个IIS7网站上的应用程序可以在另一个网站上运行。服务器A- IIS7 - WebsiteA -应用程序(Works)服务器B- IIS7 - WebsiteA -应用程序(不工作) 在服务器B

浏览 1提问于2010-01-09得票数 0

2回答

在MVC4网站上连续运行后台进程

、、、

我有一个ASP.NET MVC4网站正在运行，现在我需要一些持续运行的后台任务。但这有可能吗？通常，只有当我访问一个页面时，我的网站代码才会变得活跃。但为了使这项工作，我需要一种方式，让我的</

浏览 5提问于2014-01-27得票数 2

回答已采纳

1回答

Web服务器没有internet访问，我可以使用客户端的internet访问来进行api调用吗？

、、、

我被派来开发我们新的内部网的服务器不能上网。问题是我们所有的数据都是来自另一个网站上的API的json。客户端确实可以访问互联网，所以我一直在尝试使用JavaScript来做这件事，但我真的，真的不是JS的人，我发现这真的很复杂，有承诺和回调。有没有一种我可以从后端使用的服务，它可以作为客户端连接到应用程序接口，而不是服务器，但

浏览 0提问于2016-12-14得票数 0

1回答

Socket.io ionic 4和php

、、、、

我已经使用socket.io配置了我的ionic 4应用程序，并遵循了socket.io网站上的说明。在本地主机上一切都运行得很好，因为当我在命令行中输入node index.js时，服务器socket.io就会启动，并且同一网络中的所有用户都可以在同一个房间中聊天。如何配置才能在在线服务器上运行？

浏览 2提问于2019-08-30得票数 0

2回答

如何从.html文件中运行.hta文件而不要求下载它

、、

我想从.html文件中运行.hta文件，但要求下载it.It的浏览器应该在浏览器中的html页面中运行iframe。我使用的代码是这样的-<html></head><iframe src="app.hta"></html> 问题是浏览器要求下

浏览 3提问于2013-05-25得票数 0

回答已采纳

5回答

使用Visual Studio进行抓取调试

、、

我是Scrapy和Python的新手，我很喜欢它。可以使用Visual Studio调试scrapy项目吗？如果可能，如何实现？

浏览 0提问于2014-07-21得票数 4

3回答

是否有最佳做法将电子邮件通知附加到某些方法而不编辑方法内部代码？

、、、

我正在一个网站上工作，我们将需要发送一些电子邮件通知，当一些行动发生在网站上，例如，如果其他人发送给用户一条消息或邀请他参加一个活动。是否有一种标准的好方法可以在不更改方法代码的情况下将通知附加到任何方法？例如，我在想，如果我可以在方法上添加一个属性，这个属性将使这个方法调用带有一些参数的通知模块。注意:我正在使用实体框架co

浏览 1提问于2011-07-30得票数 1

回答已采纳

3回答

通过以太网电缆的“管道”Wi信号

、、、

目前，我工作的大楼中的以太网端口已经关闭，但是Wi可以工作。我有一台支持with的笔记本电脑(Ubuntu 14.04 LTS (可信赖的Tahr))和一台非with支持的工作间(Debian 8 (杰西))，只有一个以太网插头。是否有可能通过以太网电缆将两者连接起来，并在工作站上获得网络连接？

浏览 0提问于2016-02-12得票数 7

回答已采纳

3回答

如何在app inventor中创建后台活动

、

我想在appinventor中创建一个应用程序，它可以根据解锁时手机摇动的方向左右切换屏幕。但是想不出来: a.如何让应用程序在后台运行。b.我要买的是什么房产？请帮帮我，我会给你加分的。哦，还有，我想我可能还得加上“活动启动器”。

浏览 21提问于2011-02-08得票数 5

1回答

抓取-动态等待页面加载- selenium + Scrapy

、、、

最近，我用python和Selenium制作了一个webscraper，我发现做起来非常简单。该页面使用ajax调用加载数据，并且我首先等待一个固定的time_out来加载该页面。有一段时间起作用了。之后，我发现selenium有一个内置函数WebDriverWait，它可以使用wait.until()等待一个特定的元素加载。这让我的网刮刀跑得更快了。问题是，我仍然对结果不满意。

浏览 5提问于2017-09-18得票数 3

回答已采纳

1回答

Linux recvfrom()无法接收Wireshark可以看到的通信

、、

我正在使用一个硬件来生成打包在UDP数据包中的数据流。这些数据通过专用的40 of以太网链路发送到另一个接收器硬件。不涉及集线器或交换机，只有一个发送方和一个接收方。我们最近断开了接收器硬件的连接，并将其一端插入到一个商用Linux工作站中，以便通过软件接收数据流。我可以启动发送器硬件，通过在接收工作站上运行Wireshark，

浏览 210提问于2021-11-04得票数 3

5回答

如何在scrapy* spider中传递用户定义的参数*

、、

我试图将用户定义的参数传递给scrapy的爬行器。有谁能建议一下如何做到这一点吗？我在某处读到过一个参数-a，但不知道如何使用它。

浏览 7提问于2013-03-25得票数 121

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

4回答

是否有任何开放源码/免费的站点分析解决方案可供内部网部署？

、、、、

有大量的统计/分析提供商为互联网部署的软件(例如谷歌分析)，但我正在寻找一个分析工具，以集成到局域网/内部网为基础的web应用程序。我知道，但我更喜欢类似Google Analytics的设计，在Google analytics中，Javascript回调可以嵌入到应用程序中，并回调到分析服务器。这不需要任何额外的应用服务器配置和访问即可运行。我在想，没有什么

浏览 0提问于2010-05-14得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python - Scrapy代码可以在一个网站上运行，不能在另一个网站上使用调整过的选择器

相关·内容

Python - Scrapy代码可以在一个网站上运行，不能在另一个网站上使用调整过的选择器

我怎样才能停止一个粗糙的CrawlSpider，然后从它中断的地方恢复？

Facebook重定向到具有主干路由的s3网站上的索引页

Python / Scrapy -输出被切断-因此wount允许我使用Xpath正确构建查询。

在freertos上运行C应用程序，该应用程序已经在uclinux上运行

如何使用crawl命令运行scrapy项目

IIS 7应用程序自动重定向

在MVC4网站上连续运行后台进程

Web服务器没有internet访问，我可以使用客户端的internet访问来进行api调用吗？

Socket.io ionic 4和php

如何从.html文件中运行.hta文件而不要求下载它

使用Visual Studio进行抓取调试

是否有最佳做法将电子邮件通知附加到某些方法而不编辑方法内部代码？

通过以太网电缆的“管道”Wi信号

如何在app inventor中创建后台活动

抓取-动态等待页面加载- selenium + Scrapy

Linux recvfrom()无法接收Wireshark可以看到的通信

如何在scrapy* spider中传递用户定义的参数*

BeautifulSoup和Scrapy* crawler有什么区别？*

是否有任何开放源码/免费的站点分析解决方案可供内部网部署？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐