scrapy在imdb关键字页面上不起作用

Scrapy是一个用于网络爬虫的Python框架，它可以帮助开发者从网站提取结构化的数据。如果你在使用Scrapy爬取IMDb关键字页面时遇到问题，可能是由于以下几个原因：

基础概念

Scrapy: 是一个开源的网络爬虫框架，它提供了创建爬虫、处理网页内容、存储数据等功能。
IMDb: 是一个在线数据库，包含了电影、电视节目、演员等的信息，它的关键字页面可能包含了电影的关键词信息。

可能的原因

反爬虫机制: IMDb可能有反爬虫措施，如验证码、请求频率限制等。
动态加载内容: 关键字页面的内容可能是通过JavaScript动态加载的，Scrapy默认不执行JavaScript。
页面结构变化: IMDb的页面结构可能发生了变化，导致原有的选择器无法匹配。
权限限制: 需要登录才能访问某些页面或数据。

解决方法

处理反爬虫机制:
- 设置合理的下载延迟(DOWNLOAD_DELAY)。
- 使用代理IP(PROXY)来轮换请求来源。
- 实现用户代理池(USER_AGENT)来模拟不同的浏览器请求。

处理动态加载内容:
- 使用Scrapy-Splash或Selenium来渲染JavaScript。
- 使用Scrapy-Splash或Selenium来渲染JavaScript。
更新选择器:
- 检查IMDb页面结构，更新Scrapy的选择器以匹配新的HTML结构。
- 检查IMDb页面结构，更新Scrapy的选择器以匹配新的HTML结构。
模拟登录:
- 使用Scrapy的FormRequest来模拟登录IMDb。
- 使用Scrapy的FormRequest来模拟登录IMDb。

应用场景

数据挖掘: 从IMDb提取电影关键字，用于分析电影主题、趋势等。
推荐系统: 根据电影关键字为用户推荐相似的电影。
信息检索: 构建电影数据库，提供关键字搜索功能。

参考链接

通过上述方法，你应该能够解决Scrapy在IMDb关键字页面上不起作用的问题。如果问题依然存在，建议检查IMDb的最新反爬虫策略，并相应调整你的爬虫策略。

scrapy在imdb关键字页面上不起作用

、

下面是我打算让这段代码工作的方式；我有一个关键字，比如"gadgets“。我在高级imdb搜索页面上搜索标题。我想要的代码去每个标题页，然后到每个标题的关键字页面，然后下载标题和所有的关键字。代码结构对我来说看起来很好，但它真的不起作用。请建议是否需要重写，或者可以通过一些建议进行更正？:6023 2020-05-02 08:33:43 [scrapy.core.engine] DEBUG: Crawled (200) &l

浏览 15提问于2020-05-02得票数 0

回答已采纳

1回答

使用Python和Scrapy的IMDB刮刀

、、、

我的部分工作是在IMDB上搜索一部电影，粘贴导演、作家、(前四位)演员，并在Excel电子表格中链接到IMDB页面。我想应该是这样的：不过，我不知

浏览 3提问于2015-01-16得票数 0

回答已采纳

1回答

模式的角度验证

、、、、

我正在尝试使用模式验证器作为imdb标题id，我在角度文档在线示例中测试了我的模式，它成功了。但不知何故，它在我的应用程序上不起作用。IMDB-ID</label><spanclass="inv

浏览 12提问于2022-07-18得票数 1

回答已采纳

1回答

用Scrapy抓取所有链接和链接内容

、、

我试图从IMDB中抓取每个内部链接，然后从每个链接的页面中刮取标题。但是，当我运行下面的代码时，不会返回任何内容。import scrapyfrom FirstSpider.items import MovieItem allowed_domains = ["www.imdb.com&

浏览 0提问于2018-09-28得票数 1

回答已采纳

1回答

Facebook打开图元标记&有效的html

、、

可能重复： <meta property="og:type" content="movie"/> <meta property="og:url" content="http://www.imdb.com/title/tt0117500/

浏览 1提问于2010-10-18得票数 40

回答已采纳

2回答

一种无标签的多类分类问题

、、、

我正在处理一个业务问题，其中我有一个电影描述数据集。在这个数据集中，我有列作为-电影标题，电影情节摘要，发布日期。现在，基于这些信息并使用机器学习，我想预测电影属于哪一类。例如，符咒应该属于恐怖和颤栗，即多类分类问题。现在的问题是，除了电影描述和其他信息之外，我没有标签栏。现在，我想让我的模型预测电影应该属于哪些类别(看不见到模型)。我已经决定了5个标签，我想考虑-恐怖，颤栗，喜剧，浪漫和情感。所以，我希望数据集看起来像这样-笔记本描述标题浪漫情绪化的我相信，如果我想把这个问题作为分类问题来处理，那么我必须想出一些方法，通过一些脚本和逻辑为现有的数据集创建标签。如

浏览 0提问于2019-04-24得票数 3

2回答

如何抓取IMDB评论

、、、、

为此，我从IMDB评论开始，特别是从这个页面开始： import requestsimport urlparse base_url = "http://www.imdb.com/title/tt2137109有一些像前250名这样的起点:但我在

浏览 14提问于2017-06-16得票数 0

1回答

刮掉键错误和下一页url不工作

、

我正在尝试刮，使用这个页面作为启动url：这个页面有3个列表，其中一个列表有100+项。我的代码只抓取100项，而不从下一页获取数据。请检查代码有什么问题。c:\python projects\scrapy\imdb_project\virenv\lib\site-packages\scrapy\utils\defer.py", line 117, innext(self.data) File "c:\python projects\scrapy\imdb

浏览 5提问于2020-05-06得票数 0

回答已采纳

1回答

带有scrapy和Xpath的空列表

、、、

我开始使用scrapy和xpath来抓取一些页面，我只是使用ipython尝试一些简单的东西，我在一些页面中得到响应，比如在IMDB中，但是当我尝试使用其他页面(比如www.bbb.org )时，我总是得到一个空列表这就是我要做的： scrapy shell 'http://www.bbb.org/central-western-massachusetts/business-reviews/auto-repai

浏览 1提问于2015-11-03得票数 2

回答已采纳

2回答

如何使用具有相同类名的scrapy来抓取内容

、、、、

followed_by"></a> <div class="soda odd"><a href="http://www.imdb.com/title/tt0094450">Dirty Dancing</a></div> <div class=&qu

浏览 2提问于2017-08-29得票数 3

回答已采纳

1回答

使用Scrapy搜索新闻网站时避开新闻列表页面

、、

我必须从新闻网站抓取文章，与某些关键字，我正在使用Scrapy这个任务，检查是否存在一个关键字在页面上，或我从页面提取的内容，并搜索该关键字。但我面临的问题是，当列表页面只列出了带有链接到新闻页面的新闻，例如/features/cinema/时，我想避开这个页面，但我无法找到一种方法来检查它是否是一个列表页面。

浏览 0提问于2014-12-21得票数 0

3回答

IMDB电影刮刀给出空白csv使用刮伤

、、、

这就是我写的指youtube的代码：-name = "imdbtestspider"start_url = ('http://www.imdb.com/chart/topresponse.xpath(

浏览 1提问于2019-01-17得票数 0

回答已采纳

1回答

Sitefinity 4.4 -在运行时动态更改页面标题和描述

、

有人知道如何在Sitefinity中从常规用户控件中动态更改页面标题吗？你好，雅克

浏览 4提问于2012-03-13得票数 1

回答已采纳

1回答

如何调用与Scrapy中的主解析函数不同的解析函数？

、、、

我对Scrapy非常陌生(实际上这是我第一次使用它)。我正在解析一个包含所有电视节目演员的页面，并试图为每个演员收集一些仅存在于该演员个人页面中的信息。' '.join(actor.css('td.character a::text').extract_first().split()), &

浏览 18提问于2017-01-09得票数 1

4回答

application.html.erb中的Facebook OG Meta标签

、

在我的rails应用程序中，我希望将FB标记与用户当前所在的页面动态连接。我觉得这应该是直截了当的，但不能让它正常工作。<meta property="og:title" content= <%=

浏览 0提问于2012-07-20得票数 3

1回答

在处理所有urls之前，先完成进程。

、

我正在尝试刮 IMDb站点。所以，我需要从演员的页面开始，打开它，然后对于他们的电影记录的前15部电影，打开一部电影的页面，并从中获得一些信息。我的代码是： name = scrapy.Field() bio = scrapy.Field() movies = scra

浏览 1提问于2021-04-23得票数 0

回答已采纳

1回答

用Scrapy和Selenium抓取搜索结果

、、、

我试图使用Scrapy获得搜索结果(链接)后，搜索一个关键字在中文在线报纸- imp

浏览 2提问于2019-12-09得票数 0

回答已采纳

1回答

可抓取的导出到单行

、、、

我在试着用scrapy把店铺的位置拼凑成csv。我捕获了正确的数据，但输出如下所示(以"name“字段为例) import scrapy class QuotesSpider(scrapy.Spider

浏览 0提问于2020-06-02得票数 0

1回答

如何获取给定网页中的所有出站链接并遵循它们？

、、、

我有下面的代码来获取网页中的所有链接：from scrapy import Selectorfrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor class MySpider2)遵循出站链接3)只有在下一个网页包含元数据上的一些关键字时才抓取它4)重复整个过程，以获得给定数量的循环，有人能

浏览 0提问于2014-11-29得票数 0

1回答

Scrapy:从脚本标记中提取数据

、、

我是Scrapy的新手。出于工作目的，我正在尝试从'https://www.tysonprop.co.za/agents/‘中抓取内容。特别是，我正在寻找的信息似乎是由脚本标记生成的。我正在尝试访问在运行时在h2元素中生成的文本。然而，Scrapy响应对象似乎获取了原始源代码。agents-list right grid_6"> </div><&#

浏览 11提问于2020-09-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

scrapy在imdb关键字页面上不起作用

基础概念

可能的原因

解决方法

应用场景

参考链接

相关·内容

scrapy在imdb关键字页面上不起作用

使用Python和Scrapy的IMDB刮刀

模式的角度验证

用Scrapy抓取所有链接和链接内容

Facebook打开图元标记&有效的html

一种无标签的多类分类问题

如何抓取IMDB评论

刮掉键错误和下一页url不工作

带有scrapy和Xpath的空列表

如何使用具有相同类名的scrapy来抓取内容

使用Scrapy搜索新闻网站时避开新闻列表页面

IMDB电影刮刀给出空白csv使用刮伤

Sitefinity 4.4 -在运行时动态更改页面标题和描述

如何调用与Scrapy中的主解析函数不同的解析函数？

application.html.erb中的Facebook OG Meta标签

在处理所有urls之前，先完成进程。

用Scrapy和Selenium抓取搜索结果

可抓取的导出到单行

如何获取给定网页中的所有出站链接并遵循它们？

Scrapy:从脚本标记中提取数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐