首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何使用python在imdb中按下“加载更多”以获得更多评论

在IMDb中按下"加载更多"按钮以获取更多评论,可以使用Python编写一个脚本来模拟用户的操作并获取更多评论。以下是一个示例代码:

代码语言:python
复制
import requests
from bs4 import BeautifulSoup

def get_more_comments():
    url = "https://www.imdb.com/title/tt1375666/reviews?ref_=tt_urv"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }

    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, "html.parser")

    load_more_button = soup.find("button", {"class": "ipl-load-more__button"})
    load_more_url = "https://www.imdb.com" + load_more_button["data-ajaxurl"]

    while load_more_button:
        response = requests.get(load_more_url, headers=headers)
        soup = BeautifulSoup(response.content, "html.parser")

        comments = soup.find_all("div", {"class": "text show-more__control"})
        for comment in comments:
            print(comment.text.strip())
            print("---")

        load_more_button = soup.find("button", {"class": "ipl-load-more__button"})
        if load_more_button:
            load_more_url = "https://www.imdb.com" + load_more_button["data-ajaxurl"]

get_more_comments()

这段代码使用了requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML内容。首先,我们发送一个GET请求到IMDb电影评论页面,然后使用BeautifulSoup解析页面内容。通过查找页面中的"加载更多"按钮,我们可以获取到加载更多评论的URL。接下来,我们循环发送GET请求到加载更多评论的URL,并解析返回的HTML内容。在每个页面中,我们找到评论的元素并打印出来。

请注意,这只是一个示例代码,实际上IMDb网站可能会有反爬虫机制,所以在实际使用中可能需要添加更多的处理逻辑,例如设置延时、使用代理等。

推荐的腾讯云相关产品和产品介绍链接地址:

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

BERT-IMDB电影评论情感分类实战:SwanLab可视化训练(完整训练代码)

基于BERT模型的IMDB电影评论情感分类,是NLP经典的Hello World任务之一。...本文的代码测试于transformers==4.41.0、datasets==2.19.1、swanlab==0.3.3,更多库版本可查看SwanLab记录的Python环境。.../bert-base-uncased', num_labels=2) 3.加载IMDB数据集 IMDB数据集(Internet Movie Database Dataset)是自然语言处理(NLP)领域中一个非常著名和广泛使用的数据集.../imdb') 4.集成SwanLab 因为swanlab已经和transformers框架做了集成,所以将SwanLabCallback类传入到trainer的callbacks参数即可实现实验跟踪和可视化...首次使用SwanLab时,需要去官网注册一账号,然后在用户设置复制一你的API Key。

7710

使用 RNN 进行情感分析的初学者指南

本文将利用循环神经网络,训练出一个基于 IMDB 数据集的电影评论分类器。如果你想了解更多关于深度学习情感分析的应用,这里推荐一篇很棒的论文。...Keras 已经将 IMBD 电影评论数据内置其中,我们可以很方便地调用。 from keras.datasets import imdb 设置词汇量的总数,并加载训练数据和测试数据。...我们可以利用 imdb.get_word_index() 函数返回的字典,从而将评论映射回原有的文字。...我们需要设置max_words变量来限制评论的最大长度,超过该长度的评论将被截断,不足该长度的评论将被填充空值(0)。 Keras ,我们可以使用pad_sequences()函数来达到此目标。...在这一过程,我们可以思考,避免消耗长时间训练的前提下,我们还能做怎样的提升?我们应该如何避免过拟合? 本文的代码可以从 Github 上下载。非常期待能听到大家的反馈和问题。

90720

你所写过的最好的Python脚本是什么?

我倾向于亲自评论那些给我的祝福,但是使用Python去做这个将会更好。 为了让程序工作,你需要通过合适的权限从Graph API Explorer 获得一个令牌(token)。...(顺便提一,这样调用了我写的Python脚本) 瞧,那就是我们想要的! 我的浏览器打开了电影准确对应的IMDb页面! 所有这些,只需要点击一按钮。...如果不明白这有多酷么,你可以节省多少时间,看看这个视频: IMDb lookup python script 从现在开始你不需要打开浏览器,等待IMDb加载并且输入电影的名字。...像之前一样,代码GitHub上:imdb页面里面还有如何使用它的说明。当然,因为脚本需要去掉所有像”DVDRip, YIFY, BRrip”之类的无用的值,这个脚本使用时有着一定程度的误差。...一个完全属于你自己的IMDb数据库!作为一个电影爱好者也不能要求得更多了;) 源代码GitHub上:imdb

1.5K90

微软开源 repo 1.0 ,旨在创造深度学习框架通用语言

AI 研习社,日前,微软提出深度学习框架的通用语言——repo1.0,号称希望通过构建这一深度学习框架「Rosetta Stone(罗塞塔石碑)」,让研究者们能够不同框架之间轻松运用专业知识。...训练时间(s): IMDB 上,用 RNN (GRU) 执行情感分析 该模型的输入为标准 IMDB 电影评论数据集,包含二万五千个训练评论和两万五千个测试评论,数据被均匀分成两类 (正/负)。...希望大家都能来尝试,增加更多更丰富的数据。...2017 年末的许多经验教训现在已经过时了,因为这些框架已经更新。 通过不同的框架完成端到端解决方案,可以多种方式比较框架。...我们开源 repo 只是为了展示如何在不同的框架上创建相同的网络,并评估一些特定案例上的性能。 via:https://blogs.technet.microsoft.com

71020

教程 | 用TensorFlow Estimator实现文本分类

本文探讨了如何使用自定义的 TensorFlow Estimator、嵌入技术及 tf.layers 模块来处理文本分类任务,使用的数据集为 IMDB 评论数据集。...通过本文你将学到如何使用 word2vec 词嵌入和迁移学习技术,在有标签数据稀缺时获得更好的模型性能。.../imdb.npz)下载获得。...得到预测结果 为了得到新的句子上的预测结果,我们可以使用「Estimator」实例的「predict」方法,它能为每个模型加载最新的检查点并且对不可见的示例进行评估。...总结 在这篇博文中,我们探索了如何使用评估器(estimator)进行文本分类,特别是针对 IMDB 评论数据集。我们训练并且可视化了我们的词嵌入模型,也加载了预训练的嵌入模型。

1.3K30

教程 | 用TensorFlow Estimator实现文本分类

本文探讨了如何使用自定义的 TensorFlow Estimator、嵌入技术及 tf.layers 模块来处理文本分类任务,使用的数据集为 IMDB 评论数据集。...通过本文你将学到如何使用 word2vec 词嵌入和迁移学习技术,在有标签数据稀缺时获得更好的模型性能。.../imdb.npz)下载获得。...得到预测结果 为了得到新的句子上的预测结果,我们可以使用「Estimator」实例的「predict」方法,它能为每个模型加载最新的检查点并且对不可见的示例进行评估。...总结 在这篇博文中,我们探索了如何使用评估器(estimator)进行文本分类,特别是针对 IMDB 评论数据集。我们训练并且可视化了我们的词嵌入模型,也加载了预训练的嵌入模型。

95230

IMDB影评数据集入门

本文将介绍如何使用Python和一些常用的NLP工具库来进行IMDB影评数据集的入门:下载和准备数据集IMDB影评数据集可以从Kaggle网站上下载,具体下载链接:​​IMDB Dataset​​下载后得到一个压缩文件...,我们使用Pandas库来加载IMDB影评数据集。...示例代码:情感分析应用在实际应用IMDB影评数据集可以用于情感分析任务,即根据电影影评的内容判断其是正面评价还是负面评价。下面是一个示例代码,演示如何使用训练好的模型进行情感分析。...注意:使用以上代码时,需要将​​preprocess_text​​函数和涉及到的模型和向量化器的训练代码放在同一个文件,并确保模型文件和向量化器文件正确加载。...缺乏多样性:IMDB影评数据集主要集中电影评论上,缺乏其他领域的评论样本。这可能限制了模型不同领域或其他类型评论的泛化能力,使得模型在其他任务上的表现可能会受到影响。

94230

FastAI 之书(面向程序员的 FastAI)(五)

我们的示例依赖于使用预训练的语言模型,并对其进行微调以对评论进行分类。该示例突出了 NLP 和计算机视觉迁移学习的区别:通常情况 NLP ,预训练模型是不同任务上训练的。...术语:自监督学习 使用嵌入自变量的标签来训练模型,而不是需要外部标签。例如,训练一个模型来预测文本的下一个单词。 我们第一章中用于分类 IMDb 评论的语言模型是维基百科上预训练的。...让我们尝试一我们第一章中使用IMDb 数据集: from fastai.text.all import * path = untar_data(URLs.IMDB) 我们需要获取文本文件尝试一个分词器...假设我们有以下文本: 在这一章,我们将回顾我们第一章中学习的分类电影评论的例子,并深入挖掘。首先,我们将看一将文本转换为数字所需的处理步骤以及如何自定义它。...(如果您对类方法不熟悉,请务必在网上搜索更多信息,因为它们许多 Python 库和应用程序中常用;我们本书中以前使用过几次,但没有特别提到。)

27110

新入坑的SageMaker Studio Lab和Colab、Kaggle相比,性能如何

那么,SageMaker Studio Lab 如何与竞争对手抗衡?它是否值得使用?...例如,我能够从 Jupyterlab Awesome List 安装 python 语言服务器和 markdown 拼写检查器。...除了向 fast.ai 添加 Transformers 训练和推理支持外,blurr 还集成了每 batch token 化和 fast.ai 文本数据加载器,后者根据序列长度对数据集进行随机排序,最大限度地减少训练时的填充...这里的结果符合预期,更多的 CPU 核意味着更少的绘制时间,并且相同的核数,较新的 CPU 的性能优于较旧的 CPU。...与 Colab P100 相比, Colab K80 上进行等效的 IMDB 训练时间要长 3 倍。如果可能的话,应避免使用 K80 对除小型模型以外的任何其他模型进行训练。

2.3K20

我是如何为技术博客设计一个推荐系统(上):统计与评分加权

『玩点什么』,是一个基于 Django、Python 的 CMS 系统(Mezzanine)。是的,和我的博客使用的是同一个 CMS 系统。...由于使用的是 Python 语言,因此对于机器学习具有天生的优势。 推荐系统 推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。...但是网站可以通过相关的文章、产品,来获得更多的阅读及利润。而这取决于,我们为用户推荐的相关产品,是不是真正是用户需要的。...,即(更多信息可以阅读:IMDB 给出的电影评分的计算方法是怎样的?)...,我不是拿所有的文章排序,而是: 从所有文章过滤出能达到最小评分数的文章 评分值,对这些文章进行排序,取前 10 对前 10 的这些文章,进行 imdb_rank 计算,取前 3 这样做的主要原因是

1.5K60

你用 Python 写过哪些牛逼的程序脚本?

因此,我写了一个 python 脚本, 目的是为了使用 非官方的 IMDb API 来获取数据。...我选择一个电影文件(文件夹),点击右键,选择‘发送到’,然后 点击 IMDB.cmd (顺便提一IMDB.cmd 这个文件就是我写的 python 脚本),就是这样。...我倾向于每一条祝福亲自评论,但是使用 python 来做更好。...当我的点赞数,评论数以及评论结构 ticker(Facebook一项功能,朋友可以看到另一个朋友在做什么,比如点赞,听歌,看电影等) 爆涨后,我的一个朋友很快发现此事必有蹊跷。...训练过程,你可以增加新的名字。我使用 python 库 tkinter 做了一个 GUI。 因此,大多数时候,你必须初始化一小部分照片(给照片中的人脸命名),其他的工作都可以交给训练算法。

84120

改变几行代码,PyTorch炼丹速度狂飙、模型优化时间大减

其次是数据集,训练数据集为大型电影评论数据集 IMDB Large Movie Review,该数据集总共包含 50000 条电影评论。作者将使用下图中的 c 方法来预测数据集中的影评情绪。...为了让大家更好地理解这项任务,作者还贴心地介绍了一热身练习,即如何IMDB 电影评论数据集上训练 DistilBERT 模型。...如果你想自己运行代码,可以使用相关的 Python 库设置一个虚拟环境,如下所示: 相关软件的版本如下: 现在省略掉枯燥的数据加载介绍,只需要了解本文将数据集划分为 35000 个训练示例、5000...之前的代码显示验证准确率从第 2 轮到第 3 轮有所下降,但改进后的代码使用了 ModelCheckpoint 加载最佳模型。...自动混合精度训练 进一步,如果 GPU 支持混合精度训练,可以开启 GPU 提高计算效率。作者使用自动混合精度训练, 32 位和 16 位浮点之间切换而不会牺牲准确率。

1.1K20

你用 Python 写过哪些牛逼的程序脚本?

因此,我写了一个 python 脚本, 目的是为了使用 非官方的 IMDb API 来获取数据。...我选择一个电影文件(文件夹),点击右键,选择‘发送到’,然后 点击 IMDB.cmd (顺便提一IMDB.cmd 这个文件就是我写的 python 脚本),就是这样。...我倾向于每一条祝福亲自评论,但是使用 python 来做更好。...当我的点赞数,评论数以及评论结构 ticker(Facebook一项功能,朋友可以看到另一个朋友在做什么,比如点赞,听歌,看电影等) 爆涨后,我的一个朋友很快发现此事必有蹊跷。...训练过程,你可以增加新的名字。我使用 python 库 tkinter 做了一个 GUI。 因此,大多数时候,你必须初始化一小部分照片(给照片中的人脸命名),其他的工作都可以交给训练算法。

1K70

你用 Python 写过哪些牛逼的程序脚本?

因此,我写了一个 python 脚本, 目的是为了使用 非官方的 IMDb API 来获取数据。...我选择一个电影文件(文件夹),点击右键,选择‘发送到’,然后 点击 IMDB.cmd (顺便提一IMDB.cmd 这个文件就是我写的 python 脚本),就是这样。...我倾向于每一条祝福亲自评论,但是使用 python 来做更好。...当我的点赞数,评论数以及评论结构 ticker(Facebook一项功能,朋友可以看到另一个朋友在做什么,比如点赞,听歌,看电影等) 爆涨后,我的一个朋友很快发现此事必有蹊跷。...训练过程,你可以增加新的名字。我使用 python 库 tkinter 做了一个 GUI。 因此,大多数时候,你必须初始化一小部分照片(给照片中的人脸命名),其他的工作都可以交给训练算法。

1K00

Kaggle word2vec NLP 教程 第一部分:写给入门者的词袋

这个页面将帮助你从加载和清理IMDB电影评论来起步,然后应用一个简单的词袋模型,来获得令人惊讶的准确预测,评论是点赞还是点踩。 在你开始之前 本教程使用 Python。...如果你之前没有使用Python,我们建议你前往泰坦尼克号竞赛 Python 教程,熟悉一(查看随机森林介绍)。...本教程,我们将使用各种 Python 模块进行文本处理,深度学习,随机森林和其他应用。详细信息请参阅“配置你的系统”页面。...如果你没有安装,请从命令行(不是从 Python 内部)执行以下操作: $ sudo pip install BeautifulSoup4 然后,从 Python加载包并使用它从评论中提取文本: #...尝试不同的事情,看看你的结果如何变化。 你可以不同方式清理评论,为词袋表示选择不同数量的词汇表单词,尝试 Porter Stemming,不同的分类器或任何其他的东西。

1.5K20

R语言贝叶斯模型预测电影评分数据可视化分析

通过模型预测和系数解释,发现imdb_rating具有最高的后验概率,且截距和运行时对观众评分有积极影响,而评论数量和影评人数量对观众评分的影响较小。...范围 数据集为回顾性观察性研究的结果,该研究使用随机抽样方法从电影获得代表性样本。由于随机抽样方法被应用于数据收集,结果应该可以推广到目标人群。 数据预处理 创建五个新的特征变量。...我们可以看到imdb_rating具有1.00的后验概率,这在电影工业的背景听起来很合理。同时critics_score和runtime也有很高的概率。 然后让我们看看模型的总结。...由于IMDB得分0到10的衡量量表给出,并且audience_score0到100的衡量量表给出,并且考虑截距= -32.90,这个结论是有道理的。...结论 事实上,imdb_rating具有最高的后验概率,并且我们五个新创建的变量中有两个不包括最佳模型,这是需要改进的。

25110

Pandas 秘籍:1~5

此方法将使用序列名称作为新的列名称: >>> director.to_frame() 另见 要了解 Python 对象如何获得使用索引运算符的能力,请参见 Python 文档的__getitem__特殊方法...更多 此秘籍中使用的所有运算符都具有等效的方法,这些方法可产生完全相同的结果。 例如,步骤 1 ,可以用add方法再现imdb_score + 1。...例如,表达式imdb_score * 2.5如何知道将序列的每个元素乘以2.5? Python 使用特殊方法为对象与运算符通信提供了一种内置的标准化方法。...步骤 4 使用大于或等于比较运算符返回布尔序列,然后步骤 5 中使用all方法对其进行求值,检查每个单个值是否为True。 drop方法接受要删除的行或列的名称。 默认情况索引名称删除行。...在此示例,每年仅返回一行。 正如我们最后一步年份和得分排序一样,我们获得的年度最高评分电影。 更多 可以升序对一列进行排序,而同时降序对另一列进行排序。

37.1K10

机器学习:更多的数据总是优于更好的算法吗?

【编者机器学习更多的数据总是比更好的算法好吗?...但是,相反的情况,我们可能有一个模型,它太简单了以至于无法解释我们拥有的数据。在这种情况高偏差著称,添加更多的数据不会带来帮助。...例如,Netflix Prize的早期,有一个评论额外特征的使用来解决问题的博客文章,它是由企业家和斯坦福大学教授Anand Rajaraman建立的。...这个帖子解释了一个学生团队如何通过从IMDB添加内容特征来改善预测精度特性。 现在回想起来,很容易批评后作出针对一个单一数据点的粗俗的过度泛化。...在这种情况,Anderson挑选了Norvig的一些评论,并错误地一篇文章引用,该文章的标题为:“The End of Theory: The Data Deluge Makes the Scientific

55850

使用Seaborn和Pandas进行相关性检查

幸运的是,Python有一些库,这些库为我们提供了快速有效地查看相关性所需的工具。让我们简单看看什么是相关性,以及如何使用热图在数据集中找到强相关性。...如何衡量相关性 在数据科学,我们可以使用r值,也称为皮尔逊相关系数。它测量两个数字序列(即列、列表、序列等)之间的相关程度。 r值是介于-1和1之间的数字。...使用Python查找相关性 让我们看一个更大的数据集,看看使用Python查找相关性有多容易。...不同的平台似乎不会根据评论家或运行时的评分来选择电影。这是我们可以探索的另一个很酷的假设。 几秒钟内,我们就可以看到输入数据的相关性,并得到至少3个想法来探索。 结论 相关性有助于探索新的数据集。...通过使用seaborn的热图,我们很容易看到最强的相关性在哪里。现在你可以去Kaggle看看更多的数据集,看看还有什么相关可以激发你的兴趣!

1.8K20
领券