R-帮助我从网页上抓取链接_从网页抓取链接_rvest从网页抓取链接 - 腾讯云开发者社区

、、

我正在从IMDB电影列表中抓取数据。我想刮每一部电影的链接，但不能正确地确定它是存储在页面上的位置。链接的一部分是这样存储的:链接屏幕截图我尝试过的：完整代码预期的解决方案:抓取每个胶片的链接，如果需要，可以在以后使用。

浏览 29提问于2019-07-12得票数 0

回答已采纳

1回答

需要使用node.js登录的网页抓取

、、、、

问题陈述：我有这个网页中的每个候选人都有一个链接，其中包含一些信息，我想抓取。因此，对于所有候选人，我必须单击链接并手动获取详细信息，这是一项繁琐的任务。我想自动化这请帮助我。我的解决方案是：我认为要自动化这项任务，我应该编写一个脚本，它会单击每个链接并抓取数据。但我想知道如何抓取一个需要登录的网页。您看到的网页只能通过登录页面访问。

浏览 18提问于2019-03-02得票数 0

回答已采纳

1回答

如何在找到的页面上抓取外部链接？

我使用了从他们的wiki安装nutch的示例。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入下一步要抓取的文件？什么是最好的方式来遵循一个网页上的链接，索引该网页以及与nutch？如果我通过python执行bin/nutch，我能找回它找到的所有外部链接，并创建一个新的爬网列表来再次运行吗？你怎么做？

浏览 1提问于2010-10-26得票数 2

回答已采纳

1回答

这里是网络抓取的新手。我基本上想从一个网页中提取一个链接到我的jupyter笔记本中，如下图所示： ? 当我运行时： box = bigboxes[2] productlink = "https://www.flipkart.com" + box.div.div.div.a['href'] 我能够成功地提取链接有人能给我解释一下为什么第三个元素能够读取链接吗？我有HTML的基础知识(至少我是这么认为的)，但我不了解它的层次

浏览 21提问于2021-08-01得票数 0

回答已采纳

1回答

Python Selenium - StaleElementReferenceException

、、

我试着用不同的网页抓取一个叫iens的网站。现在我可以成功地抓取一页。但是，当我想要抓取多个页面时，如下所示：print scrape(14)selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference:

浏览 1提问于2016-12-09得票数 0

1回答

在Mac OS上的Perl中运行Statistics::R模块-没有生成映像

、、

)，但它在Perl中似乎没有任何作用：-use warnings; my $R = Statistics::R->new(); $R->run(q`dev.off()`); 注意，‘真的是反引号，但这里的论坛不会张贴它们

浏览 2提问于2011-11-11得票数 3

1回答

普通爬行-获取WARC文件

我想检索一个使用普通抓取网页，但我迷路了。我想得到www.example.com的warc文件。我看到这个链接()产生了以下json。谢谢你帮了个菜鸟！

浏览 2提问于2017-09-19得票数 5

回答已采纳

1回答

抓取我们当前所在网页的url

、、

我想知道我们是否能刮到我们目前所在网页的网址？我正试着从网页上抓取工作描述。我想知道我们是否也可以提取到该页面的超链接。

浏览 1提问于2014-02-20得票数 0

回答已采纳

1回答

rvest从网页抓取链接

、

我正在使用rvest从杂志“骗局”中抓取一些链接。

浏览 13提问于2021-04-29得票数 0

回答已采纳

2回答

无法从DuckDuckGo搜索结果中抓取链接

、、、

我想从DuckDuckGo搜索结果中抓取第一个链接。它打印网页的HTML，而不是那些包含div的结果。我不知道为什么BeautifulSoup不抓取包含div的结果。上的其他帖子中，我发现人们可以从搜索结果中抓取链接。但如果我使用谷歌而不是DuckDuckGo，我就能够抓取所需的链接。我想知道为什么我不能从DuckDuckGo抓取，而是使用相同的代码从谷歌抓取。

浏览 6提问于2021-04-02得票数 0

3回答

无法从网页上抓取所有链接及其子链接

、、、

我试图递归地获取位于此左侧区域中Automotive下的所有链接。我目前的实现只能从登录页面获取链接。85.0.4183.102 Safari/537.36' print(elem) 问:如何从上述<

浏览 12提问于2020-10-10得票数 0

1回答

HTML敏捷包vs正则表达式

、

如果我正在创建一个简单的网页抓取器(从根url，抓取所有链接，然后从这些链接抓取所有电子邮件)，是否值得使用HTML Agility Pack？我实际上并不是在寻找HTML标签，我只是在寻找整个文档中的电子邮件。我是严格剥离他们，因为这是必要的，我有这些电子邮件，有大约100个链接。只有大约500封电子邮件会被抓取。别担心，我会牢记道德规范的。

浏览 3提问于2010-02-10得票数 2

回答已采纳

1回答

如何强制facebook读取元数据？

当你从一个网站上获取一个链接，然后在你的facebook状态下发布它时，它似乎是从该页面抓取了元数据。我看到的是，如果网页有一个规范的链接到另一个网站，它似乎从另一个网站抓取元数据，有没有什么办法迫使facebook从你在facebook feed上发布的链接中读取元数据？

浏览 9提问于2012-08-14得票数 0

回答已采纳

1回答

修改regexp模式以获取更多链接

我正在网页上做html解析。我在用regexp。我正在使用这个模式" "从http开始抓取链接，但我想修改它以获取具有"rutube"的链接，谢谢提前感谢。致以问候。

浏览 5提问于2014-01-04得票数 0

1回答

Errno 32使用multiprocessing.Queue时出现管道断开错误

、、、

我正在尝试抓取一些网页，考虑到每个网页大约需要2秒，而我有20k个这样的网页，我决定使用multiprocessing库来创建几个进程来同时抓取这些网页。由于我不知道是需要抓取网页还是已经抓取了网页，因此我创建了一个带有multiprocessing.Manager.dict().的multiprocessing.Queue实例我有一个名为queueFill的函数，用于验证数据是否在数据帧中，如果不在，则将有问题的<

浏览 23提问于2018-07-29得票数 2

2回答

森林中的森林森林中的

在我的应用程序中，我使用scrape(string url)方法从网页中抓取链接。假设它每次都返回给我10个url。(第1步)转到网页并抓取10个链接(步骤3)对于步骤2中的每个链接，转到网页并抓取10个<

浏览 0提问于2016-12-11得票数 1

2回答

在web抓取链接时获取错误

、、

在抓取给定的链接时得到一个错误。请任何人帮助我解决错误，并代码刮网页的链接，以获得所有的文本数据。

浏览 2提问于2021-03-14得票数 0

回答已采纳

0回答

如何从我们正在抓取的网页上的链接网页中抓取数据

、、、

我在这个网页上抓取学院的名字，但是，我也想抓取这些学院的教职员工数量，如果通过点击学院的名称打开学院的特定网页，就可以获得这些学院的教职员工数量。我应该在这段代码后追加什么才能得到结果。

浏览 7提问于2017-06-11得票数 1

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。我已经写了下面的代码，但循环不会重复从原始网页的链接中获得新的抓取页面。

浏览 7提问于2019-08-16得票数 1

回答已采纳

2回答

未从ipv4网络解析ipv6 dns名称

、、、、

我有一个实时刮板，运行在我的服务器上，运行在ipv6网络上。抓取之后，这个抓取器通过ajax调用将一些urls返回给网页上的图像，然后这些图像通过抓取器返回的链接显示在我的本地机器上的浏览器中。我的本地计算机不能在ipv6网络上运行。此外，被抓取的网页通过CDN托管图像，因此抓取器将根据其运行的机器/位置返回图像的结果/链接。

浏览 2提问于2012-06-27得票数 1

回答已采纳

点击加载更多