R抓取IMDB:处理丢失信息的更好方法？

、、、、

我正在关注这个网站，从IMDB获取信息：https://www.analyticsvidhya.com/blog/2017/03/beginners-guide-on-web-scraping-in-r-using-rvest-with-hands-on-knowledge/ 然而，IMDB中缺少一些数据。metascore_data)] metasc

浏览 14提问于2020-09-12得票数 0

6回答

从网络中提取信息的最好方法

、、、

我想知道是否有更好的方法从网页中提取信息，而不是解析我正在搜索的HTML。ie:从“imdb.com”中提取电影评分我目前使用IndyHttp组件获取页面，使用strUtils解析文本，但内容有限。

浏览 1提问于2012-01-13得票数 5

回答已采纳

3回答

IMDb是否提供api或数据转储来获取所有标题ID？

、

IMDB提供了纯文本文件，用户可以下载和使用这些文件，可以在这里找到：，这是很好的，但我没有在任何文件中看到每个电影使用的ID。由于IMDB明确规定在使用条件下不使用刮板、数据采集器等，如果没有将其包含在任何纯文本文件中，那么如何获得每部电影的标题ID 。我注意到还有一些API构建了包含这个ID的API，所以我想知道他们是如何做到这一点的。

浏览 3提问于2011-06-24得票数 33

回答已采纳

1回答

如何根据刮取结果中的符号将一列分成两列？

、、

因此，我使用rvest抓取了IMDB网站，并遇到了一些分裂问题。我尝试过不同的方法来拆分列，但都失败了。这是我从IMDB网站抓取信息的代码：然后，我使用以下代码进行清理和拆分： votes_gross <- gsub("\r

浏览 1提问于2019-04-09得票数 1

回答已采纳

1回答

在web抓取中使用python selenium，希望使用for循环将web表数据打印到控制台上。

、、、

请帮助我使用下面的代码。我想以表格格式打印它，总行数= 35，列数= 6。import requestsfrom tabulate import tabulatefrom selenium.webdriver.chrome.options import Options # for suppressing the browser def __in

浏览 0提问于2020-05-31得票数 0

1回答

Webscraping-Python循环卡住

、、

这只是一个在imdb上抓取前250部电影的正常程序。但是，当我试图转到每个单独电影的链接以获取更多信息时，循环被卡住了。import requestsd={} d["Name&

浏览 14提问于2020-09-02得票数 1

1回答

用rvest抓取:如何填充行中的空白数字以转换到数据帧中？

、

我正在尝试用我在IMDB上抓取的2个数据构建一个数据帧:第一个有50个值，第二个只有29个值。有没有一种简单的方法可以让R用NA自动填充他没有找到的其他21个值？我的代码： imdb <- read_html("http://www.imdb.com/search/title?genres=horror&genres=mystery&sort=m

浏览 0提问于2017-08-17得票数 0

回答已采纳

3回答

无法使用请求解析网页中的评等信息

、、、、

我试着从网页上抓取一些信息，但不幸地失败了。我想要获取的文本可以在页面源代码中找到，但我仍然无法获取它。这是。我的目标是在图像中可见的部分，如Not Rated。</a> </div>import requests link = "https://www.imdb.com/5.0 (Wi

浏览 3提问于2020-07-22得票数 1

回答已采纳

1回答

用requests_html随机抓取来自JS站点的结果(否)。时机问题？

、、

我想从IMDb上抓取数据。因为beautifulsoup4不能与JavaScript一起工作，所以我使用html_request。然而，我的代码随机给出(否)结果。当我重复相同的代码10次时，有时起作用，有时不起作用。time.sleep()没有帮助(我认为JS可能需要更长的加载时间)。为什么会出现这种情况，如何解决？# from requests_html import HTMLSession r = session.get('

浏览 11提问于2021-06-26得票数 0

1回答

将字典密钥发送到dataframe的Python代码突然停止工作

、

我正在使用OMDBAPI从IMDb中抓取信息，而我的代码突然停止工作？当我抓取和处理超时问题时，它工作了几天，而且抓取仍然有效。但是我的代码应该使用字典键将信息发送到数据帧，而这一步似乎突然停止了？runtime': '50 min', 'director': 'Lew Hoh

浏览 0提问于2019-06-05得票数 0

1回答

使用BS4进行网页抓取

、、

我在从imdb.com上抓取一些关于电影的基本信息时遇到了问题。我希望我的程序从给定的URL获取电影的标题和描述。标题部分正在做它的工作，但是我不知道如何获得描述。下面是我的代码： r = requests.get(url, headers={'Accep

浏览 1提问于2021-05-23得票数 2

1回答

处理屏幕抓取对象的更好方法

、、、

在我的应用程序中，我总是最终实现一个Model- View -Presenter模式，并且通常以使用get属性从屏幕上删除我的View对象结束。时，我得到了相当多的get {}属性的遍历。我的下一个想法是创建一个IsDirty标志，并将我的代码包装在它触及字段的地方，如下所示：{ {

浏览 0提问于2009-10-12得票数 1

回答已采纳

2回答

是否有一种使用IMDb提取IMDbPY评论的方法？

、、、

我希望使用IMDb或任何其他抓取方法从IMDbPY中提取电影评论。

浏览 2提问于2020-01-29得票数 1

回答已采纳

2回答

Imdbpy get parents指南

、

我可以在源代码中看到一些对“家长指南”的引用，所以我希望它可以用Imdbpy来完成。谢谢!

浏览 41提问于2020-04-11得票数 0

1回答

从互联网获取位图并将其设置为图像视图后，图像质量下降

、、

我使用的是一个提供Json响应(Imdb详细信息)的站点，如果你给出了一个应用程序的电影标题- omdbapi.com链接- "omdbapi(dotcom)/?t=Fury&y=2014&plot=short&r=json“ 海报的链接是: ia.media-imdb(dotcom)/images/M/MV5BMjA4MDU0NTUyN15B

浏览 1提问于2014-12-31得票数 0

回答已采纳

10回答

正在连接IMDB

、

我正在写一个个人使用的应用程序，将只显示IMDB的基本信息。

浏览 17提问于2008-09-19得票数 23

回答已采纳

4回答

在有字符串的列表中查找数字，返回数值

、、、

因此，我有一个电影列表，其中包含关于名称、imdb分级和类别的信息，如下所示： movies = [ "name": "Usual Suspects",}, "name": "Hitman", "category

浏览 22提问于2020-09-04得票数 1

回答已采纳

1回答

如何从网站上抓取不断更新的信息？

、、

我想知道停车场里没有人占的停车位的信息。网站上的信息不断更新免费停车位的数量。因为我刚开始学习R的网络抓取，所以我开始学习基础知识。所以我试着用下面的代码获取IMDB电影的年份 url2 <- "https://www.imdb.com/search/title/?现在我尝试了同样的网站关于停车位

浏览 30提问于2019-09-06得票数 1

2回答

从PDF中抓取非结构化信息

、

我希望将中的信息抓取为以下格式：我已经圈出了PDF中信息将来自的区域。所以我的问题是

浏览 1提问于2013-06-14得票数 3

3回答

在Java中使用子字符串()

、、、

为了从IMDB中提取电影信息，我创建了一个基本的web刮刀。然而，当我抓取体裁时，我不得不得到这样的输出：是否有一种方法可以使用子字符串()，以便当它命中一个数字时，它将带走其余的字符串？在这种情况下，数字27。

浏览 2提问于2013-10-19得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从网络中提取信息的最好方法

IMDb是否提供api或数据转储来获取所有标题ID？

如何根据刮取结果中的符号将一列分成两列？

在web抓取中使用python selenium，希望使用for循环将web表数据打印到控制台上。

Webscraping-Python循环卡住

用rvest抓取:如何填充行中的空白数字以转换到数据帧中？

无法使用请求解析网页中的评等信息

用requests_html随机抓取来自JS站点的结果(否)。时机问题？

将字典密钥发送到dataframe的Python代码突然停止工作

使用BS4进行网页抓取

处理屏幕抓取对象的更好方法

是否有一种使用IMDb提取IMDbPY评论的方法？

Imdbpy get parents指南

从互联网获取位图并将其设置为图像视图后，图像质量下降

正在连接IMDB

在有字符串的列表中查找数字，返回数值

如何从网站上抓取不断更新的信息？

从PDF中抓取非结构化信息

在Java中使用子字符串()

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐