如何使用BeautifulSoup抓取IMDB网站中的电影描述？

BeautifulSoup是一个Python库，用于从HTML或XML文件中提取数据。要使用BeautifulSoup抓取IMDB网站中的电影描述，可以按照以下步骤进行操作：

导入必要的库：

from bs4 import BeautifulSoup
import requests

发送HTTP请求获取IMDB网站的HTML内容：

url = "https://www.imdb.com/"
response = requests.get(url)
html_content = response.text

使用BeautifulSoup解析HTML内容：

soup = BeautifulSoup(html_content, 'html.parser')

定位电影描述的HTML元素：通过查看IMDB网站的HTML结构，找到包含电影描述的HTML元素的选择器。例如，如果电影描述位于<div class="summary_text">元素中，可以使用以下代码定位该元素：

description_element = soup.find('div', class_='summary_text')

提取电影描述文本：

description = description_element.get_text(strip=True)

至此，你已经成功使用BeautifulSoup抓取了IMDB网站中的电影描述。

推荐的腾讯云相关产品：腾讯云服务器（CVM）和腾讯云数据库（TencentDB）。

腾讯云服务器（CVM）：提供弹性、安全、稳定的云服务器实例，可满足各种计算需求。产品介绍链接：腾讯云服务器
腾讯云数据库（TencentDB）：提供高性能、可扩展的数据库服务，包括关系型数据库（MySQL、SQL Server等）和非关系型数据库（MongoDB、Redis等）。产品介绍链接：腾讯云数据库

Python从网站获取特定数据

、、、

我是python的新手，我正在做界面方面的工作。我应该从imdb网站上获取排名前250的电影。 def clicked(self): movie=self.movie_name.text() url="https://www.imdb.com/chart/top/" response=requests.get(url) html_content=response.content soup=BeautifulSoup(html_content,"html.parser") movie_name = so

浏览 18提问于2020-07-26得票数 2

3回答

点开磁盘管理后没有磁盘1只有磁盘0？

、

请描述您的问题标题：快速入门 Windows 云服务器 - 云服务器 - 产品文档 - 帮助与文档 - 腾讯云地址：https://cloud.tencent.com/document/product/213/2764

浏览 1757提问于2018-01-31

2回答

有IP租用费吗？

、

请描述您的问题标题：独享型公网网络计费 - 云服务器 - 产品文档 - 帮助与文档 - 腾讯云地址：https://cloud.tencent.com/document/product/213/10579

浏览 547提问于2018-02-28

2回答

(漂亮的soap4，)AttributeError：'NoneType‘对象没有'get_text’属性

、、、

博客:分析IMDb的前250部电影:第一部分；让我们收集一些数据详情请登录：https://medium.com/analytics-vidhya/analyzing-imdbs-top-250-movies-part-1-let-scrape-some-data-a422adc3eb8d 问题是，每当我想检索IMDb排名前250的电影中的单个页面链接时，都会得到一个错误：AttributeError: 'NoneType' object has no attribute 'get_text'，这意味着它没有所需的类名或我们正在寻找的元素。但是HTML由我传

浏览 21提问于2021-06-16得票数 0

4回答

利用腾讯云GPU构建深度学习网络？

、

如题，本人（学生）想用腾讯云构建一个实验性的深度学习网络，具体要用到腾讯云的哪些服务呢？（GPU，COS），另外还需考虑较低的成本。。。

浏览 1137提问于2017-12-13

3回答

Web从imdb项目中抓取特定数据

、、

所以我想从imdb中提取分数为8.7以上的电影分数。我已经这样做了，但我不知道下一步该做什么 import re import requests from bs4 import BeautifulSoup l = list() r = requests.get('https://www.imdb.com/chart/top?ref_=nv_mv_250') soup = BeautifulSoup(r.text,'html.parser') res = soup.find_all('strong') for x in res: q =

浏览 18提问于2019-09-25得票数 0

回答已采纳

1回答

使用python的beautifulSoup库从IMDB网站抓取影评

、、、

我想从IMDB网站上抓取某部电影的所有评论。我已经使用了BeautifulSoup包的'Html-parser‘来做同样的事情。考虑这个链接，我想要抓取这部电影的所有评论(即Total = 69)，但由于在页面上可以看到25条评论，Soup将只提取25条评论，而不是这里的总评论。我的代码： url = "https://www.imdb.com/title/tt6654210/reviews?ref_=tt_ov_rt" response = requests.get(url) soup = BeautifulSoup(response.text, 'ht

浏览 5提问于2021-06-11得票数 0

2回答

如何在网络上抓取IMDB电影评级

、、

我试图从IMDB的网站上刮起电影的评级。但是，我得到了这个错误： AttributeError：'NoneType‘对象没有属性'text’ 使用此代码时： rating_sauce = urllib.request.urlopen('https://www.imdb.com/title/tt1596343/?ref_=tt_urv') rating_soup = bs.BeautifulSoup(rating_sauce, 'html.parser') #container = rating_soup.find('div&

浏览 1提问于2021-12-14得票数 2

2回答

尽管所有的东西都是用英语写的，但网络报废还是返回了外语

、、、

我对python中的new报废非常陌生，我在代码中没有错误，但out似乎是正确的，但问题在于它的输出语言。所以我试了一下IMDB这个流行的网站。我检查html代码，我想提取电影的名称，评级等。这是一个网站，有250个电影和评级我的代码刮数据如下，我使用模块，BeautifulSoup和请求。 # We use the request module to access the website IMDB source = requests.get('https://www.imdb.com/chart/top/') # Let capture error say if the

浏览 12提问于2022-06-21得票数 0

回答已采纳

4回答

基于属性的BeautifulSoup图像恢复算法

、、、

我使用BeautifulSoup从IMDb获取一个HTML，并且我想从页面中提取海报图像。我得到了基于其中一个属性的图像，但我不知道如何提取其中的数据。这是我的密码： url = 'http://www.imdb.com/title/tt%s/' % (id) soup = BeautifulSoup(urllib2.urlopen(url).read()) print("before FOR") for src in soup.find(itemprop="image"): print("inside FOR")

浏览 2提问于2013-08-18得票数 9

回答已采纳

3回答

如何使用正则表达式提取标记链接(REGEX - C#)

、

到目前为止，我得到了以下内容： <a href="(http://www.imdb.com/title/tt\d{7}/)".*?>.*?</a> c# ArrayList imdbUrls = matchAll(@"<a href=""(http://www.imdb.com/title/tt\d{7}/)"".*?>.*?</a>", html); private ArrayList matchAll(string regex, string html, int i = 0) {

浏览 0提问于2012-11-13得票数 0

回答已采纳

3回答

BeautifulSoup-访问更多评论

、、、

我试图从一个IMDB电影链接的网络刮评论和提取评论的用户名，我只得到25个用户名，因为这是页面显示，直到你按下“显示更多”。我需要一种访问所有评论的方法，除了使用Selenium之外，还有什么方法可以做到这一点吗?因为由于某些原因，我在尝试导入时遇到SSL证书错误。 import requests from time import sleep url='https://www.imdb.com/title/tt0068646/reviews?ref_=tt_urv' response= requests.get(url,verify=False) response import

浏览 2提问于2020-10-30得票数 1

1回答

为什么我的PowerShell脚本不能按预期运行

、、

我已经创建了一个脚本来抓取IMDB网站。我的脚本获取IMDB urls列表，运行并提取电影标题、发行年份、剧情摘要等数据，然后将其导出到CSV中的文本文件中。我写的脚本如下所示。 $listToCrawl = "imdb_link_list.txt" $pathOfFile = "K:\MY DOCUMENTS\POWERSHELL\IMDB FILE\" $fileName = "plot_summary.txt" New-Item ($pathOfFile + $fileName) -ItemType File Set-Content ($

浏览 12提问于2020-03-03得票数 0

4回答

之前买的服务器可以退款么？

、

之前买的服务器可以退款么？你这活动力度好大啊标题：腾讯云云产品新购特惠，五折上云！地址：https://cloud.tencent.com/act/first_purchase?utm_source=portal&utm_medium=banner&utm_campaign=firstpurchase&utm_term=0109 浏览器信息 Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36

浏览 1602提问于2018-01-20

4回答

“AttributeError：”“list”“对象没有”“h3”“属性( Beautifulsoup )”“

、、、

我是一个网络抓取的初学者，我正在按照这个教程( https://www.dataquest.io/blog/web-scraping-beautifulsoup/ )来提取电影数据，我认为我对“first_movie”的定义很糟糕！这是代码 from requests import get from bs4 import BeautifulSoup first_movie =[] url = 'http://www.imdb.com/search/title? release_date=2017&sort=num_votes,desc&pa

浏览 32提问于2019-05-31得票数 2

回答已采纳

1回答

无法用漂亮汤打印“无”：'NoneType‘对象不可订阅

、

我一直在试图在这里发现的问题中找到一个解决方案，但是找不到一个能给我某种解决方案或类似方法来解决我的问题的方法。我对python非常陌生，作为第一步，我想学习如何使用漂亮的soup从IMDB中抓取数据。我想刮电影的名字，IMDB评级和票数。名单上有些电影没有评级和票数，我得到的是:非常感谢你的评论。完整的跟踪如下:跟踪(最近一次调用)：文件"C:/Users/nmartine/PycharmProjects/ratings_ScraperMetracritic/venv/ratings_ScraperMetacritic.py"，第24行，在container.find= co

浏览 2提问于2018-06-11得票数 0

回答已采纳

2回答

如何识别HTML的正确部分，以便用python抓取剧集数据

、、

我正在尝试使用Beautifulsoup和requests模块来改进我的Python。我已经完成了一些教程，并且已经成功地从不同的地方抓取了数据，但是我不能设法让它工作。我知道有现成的产品imdb可以访问数据，但我喜欢用这个网站练习Python。我试图在上抓取每一集的标题，但我的代码只给了我一个空列表。 import requests from bs4 import BeautifulSoup URL = 'https://www.imdb.com/title/tt0094525/episodes?season=5&ref_=tt_eps_sn_5' header

浏览 2提问于2020-05-03得票数 1

1回答

使用BS4 //访问类抓取网站

、、

我试着从BeautifulSoup网站上提取不同的信息，比如产品的标题和价格。我用不同的urls做这件事，用for...in...循环这些urls。在这里，我将提供一个没有循环的片段。 from bs4 import BeautifulSoup import requests import csv url= 'https://www.mediamarkt.ch/fr/product/_lg-oled65gx6la-1991479.html' html_content = requests.get(url).text soup = BeautifulSoup(html_co

浏览 5提问于2020-10-28得票数 0

回答已采纳

4回答

请问下腾讯云点播和腾讯云对象储存，这两个业务的区别？

、、

我想把网站的视频放到服务器以外，减轻服务器负担，并且我打开网页可以随时加载视频正常播放。请问实现这个功能是需要开通腾讯云点播呢，还是腾讯云对象储存？

浏览 1288提问于2021-08-19

1回答

如何使用美汤查找网站(CDATA)中的productId

、、

我想提取productId的值(186852001461)从给定的脚本或任何id出现在网站上使用美丽的汤。 <script type="text/javascript"> /* <![CDATA[ */ var bv_single_product = {"prodname":"Honey Graham Gelato","productId":"186852001461"}; /* ]]> */ </script> mycode import re import requests

浏览 18提问于2021-05-19得票数 0

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用BeautifulSoup抓取IMDB网站中的电影描述？

相关·内容

Python从网站获取特定数据

点开磁盘管理后没有磁盘1只有磁盘0？

有IP租用费吗？

(漂亮的soap4，)AttributeError：'NoneType‘对象没有'get_text’属性

利用腾讯云GPU构建深度学习网络？

Web从imdb项目中抓取特定数据

使用python的beautifulSoup库从IMDB网站抓取影评

如何在网络上抓取IMDB电影评级

尽管所有的东西都是用英语写的，但网络报废还是返回了外语

基于属性的BeautifulSoup图像恢复算法

如何使用正则表达式提取标记链接(REGEX - C#)

BeautifulSoup-访问更多评论

为什么我的PowerShell脚本不能按预期运行

之前买的服务器可以退款么？

“AttributeError：”“list”“对象没有”“h3”“属性( Beautifulsoup )”“

无法用漂亮汤打印“无”：'NoneType‘对象不可订阅

如何识别HTML的正确部分，以便用python抓取剧集数据

使用BS4 //访问类抓取网站

请问下腾讯云点播和腾讯云对象储存，这两个业务的区别？

如何使用美汤查找网站(CDATA)中的productId

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐