返回空值的Rvest

rvest 是一个用于网页抓取的 R 语言包，它允许用户轻松地从网页中提取数据。如果你在使用 rvest 进行网页抓取时遇到了返回空值的情况，可能是由于以下几个原因：

基础概念

网页结构变化：目标网页的结构可能发生了变化，导致原有的选择器无法匹配到任何元素。
动态内容加载：有些网页的内容是通过 JavaScript 动态加载的，而 rvest 默认不执行 JavaScript。
反爬虫机制：网站可能设置了反爬虫机制，阻止了自动化工具的访问。
请求头信息不足：没有设置合适的请求头信息，使得服务器拒绝了请求。

解决方法

检查网页结构：使用浏览器的开发者工具检查目标元素的 HTML 结构，确认选择器是否仍然有效。
处理动态内容：可以使用 RSelenium 或 Splash 来渲染 JavaScript，获取完整的页面内容后再进行解析。
设置请求头：在发送请求时添加合适的 User-Agent 和其他必要的请求头信息，模拟真实浏览器访问。
应对反爬虫机制：设置合理的请求间隔，使用代理 IP，或者在代码中加入随机化策略。

示例代码

以下是一个简单的 rvest 使用示例，以及如何处理可能遇到的空值问题：

# 安装并加载 rvest 包
install.packages("rvest")
library(rvest)

# 目标网页 URL
url <- "http://example.com"

# 尝试抓取网页内容
webpage <- read_html(url)

# 假设我们要抓取的元素有一个特定的 CSS 类
elements <- webpage %>% html_nodes(".target-class")

# 检查是否为空
if (length(elements) == 0) {
  cat("没有找到匹配的元素。\n")
} else {
  # 提取文本内容
  data <- elements %>% html_text()
  print(data)
}

# 如果网页内容是动态加载的，可以尝试使用 RSelenium
# 安装并加载 RSelenium
install.packages("RSelenium")
library(RSelenium)

# 启动浏览器
rD <- rsDriver(browser = "firefox")
remDr <- rD[["client"]]

# 打开网页
remDr$navigate(url)

# 等待页面加载完成
Sys.sleep(5)

# 获取页面源代码
page_source <- remDr$getPageSource()[[1]]

# 使用 rvest 解析页面
webpage <- read_html(page_source)
elements <- webpage %>% html_nodes(".target-class")

# 提取数据
if (length(elements) == 0) {
  cat("仍然没有找到匹配的元素。\n")
} else {
  data <- elements %>% html_text()
  print(data)
}

# 关闭浏览器
remDr$close()
rD$server$stop()

应用场景

rvest 常用于数据挖掘、市场分析、新闻聚合等领域，它可以帮助开发者自动化地从互联网上收集信息。

类型

rvest 主要提供了以下几类功能：

HTML/XML 文档的读取和解析。
CSS 选择器和 XPath 表达式的支持，用于定位页面元素。
网页内容的提取和转换。

通过上述方法，你应该能够诊断并解决使用 rvest 抓取网页时遇到的空值问题。如果问题依然存在，可能需要进一步分析目标网站的具体情况。

页面内容是否对你有帮助？

有帮助

没帮助

返回空值的Rvest

、

我正在尝试拼凑如何使用rvest，我认为我已经得到了它，但我收到的所有结果都是空的。我正在使用@RonakShah的示例(Loop with rvest)作为我的基本示例，并认为我应该尝试并扩展以收集每天的姓名、电话和营业时间： site = "https://concreteplayground.com我甚至不能让它读取日期或错误的电话号码。有人能帮我指出原因吗？

浏览 9提问于2020-07-21得票数 0

回答已采纳

2回答

Rvest返回空值，无法找出原因

、

我对这种事情有一个很好的模板化，我从来没有见过它不起作用。library(tidyverse)library(magrittr)library(tidyr) matrix(ncol = 3, byrow = T) %>% as.data.frame) 当我运行它时，它只返回一组空值。是不是有什么关于我从哪里拉出的具体原因导致了这种情况

浏览 25提问于2020-12-03得票数 0

回答已采纳

2回答

用Rvest刮纽约时代数独之谜

、、

我试图刮掉，但是当我使用rvest时，它不会刮到我想要的水平。但是，当我使用开发人员工具查看css时，所有的数据似乎都在那里。以下几点似乎是可行的，webpage <- read_html(url) html_node(".su-stretch")

浏览 5提问于2021-02-08得票数 1

回答已采纳

1回答

我尝试从这里的交互式饼图中抓取每个国家的数据：https://transparencyreport.google.com/eu-privacy/overview?site_types=start:1453420800000;end:1633219199999;country:&lu=site_types 但是Selector Gadget不允许我选择饼图上的数据点library(rvest)link = "https:/&#

浏览 22提问于2021-10-02得票数 0

2回答

使用rvest从ballotpedia.org中抓取表格数据

、、

我正在尝试收集以前美国全州选举结果的表格数据，我认为ballotpedia.org是一个很好的地方来获取这些数据-因为所有州的URL格式都是一致的。下面是我用来测试它的代码：library(rvest) senate_base_urlsenate_base_url, senate_state_urls[10], senate_year_urls[2]) 这将导致以下网址：

浏览 6提问于2018-08-01得票数 1

回答已采纳

1回答

Rvest:返回空列表的标题

、

我在试着复制this tutorial on rvest here。然而，在一开始我已经有了一些问题。这是我正在使用的代码 library(rvest)url <- 'https://www.nytimes.comread_html(url) headline_data <- html_nodes(webpage,'.story-link a, .story-body a

浏览 9提问于2019-05-21得票数 0

回答已采纳

2回答

SQL非复制连接到使用空值作为通配符的表

、、、

我正在查询使用空值作为通配符的表，如果另一行包含非通配符，则可以覆盖该值。'DEF'),(1,'GHI') id | product1 | ABC1 | GHI ============ 表2:返点-包含客户从每个产品获得的返点。空产品字段指定默认返点，该返点将应用于除公开指定的任何产品之外的所有产

浏览 22提问于2021-07-29得票数 2

回答已采纳

2回答

如何在快速提交表单中传递多个值

、、

这是对的跟进。对于单个值，代码工作得很好，但是当试图传递超过一个值时，我会得到以下错误，根据函数的长度得到一个错误。vapply中的错误(元素、编码、字符(1))：值必须长度为1，但乐趣(X[])的结果是长度3library(rvest) b<-c('48127',

浏览 1提问于2017-10-15得票数 0

回答已采纳

2回答

比较两个表之间的值范围

、、

|| 5.0 | 20000 | 我正在尝试根据总订单确定要申请的返点百分比我知道如何查找特定客户在特定时间范围内的所有订单的总和，但如何在一个查询中获取返点百分比？例如，如果订单总数是16,000，那么我如何构造一个查询来获取此值，并将其与返回表进行比较，然后返回2.0？

浏览 1提问于2012-06-19得票数 3

回答已采纳

1回答

使用API在自定义字段上过滤BigCommerce产品

我的目录中有从折扣中受益的产品。如果产品有返点，则自定义字段“返点”设置为1。我想要显示一个页面，所有的产品都有回扣，我正在通过API做到这一点。因为我是新手，所以我想知道应该使用什么语法来获取自定义字段值并对其进行过滤。我正在使用下面这样的东西进行测试：https://api.bigcommerce.com/stores/{store_hash}/v3/catalog/products?我得到了一个422，说回扣不

浏览 15提问于2019-03-01得票数 0

1回答

以前工作的rvest现在返回空内容

、、

下面的rvest脚本之前是有效的，可以按预期下载数据。但是，在for循环中测试了几次if之后，它似乎停止了工作。是脚本有问题，还是我过度抓取了网站并被屏蔽了？

浏览 12提问于2020-01-06得票数 0

1回答

打印从另一个.php文件生成的变量

、

我试图从一个名为get_rebate.php的php文件中显示$codeOut的值。<?>get_rebate.p

浏览 5提问于2011-02-08得票数 0

2回答

从维基百科抓取表格时出现问题

、、

我在理解的选择答案时遇到了问题。我要刮的桌子是。theurl <- "http://en.wikipedia.org/wiki/List_of_U.S.states_and_territories_by_population"n.rows <- unlist(lapply(tables, function(t) dim(t)[1])) 这就是我得到的错误(注意-尽管我希望

浏览 1提问于2015-09-02得票数 3

1回答

带有R和rvest的Yahoo登录

、、、

我试图登录到雅虎，使用R访问我的幻想联盟。我在遵循科里的代码，但没有成功。当我试图提交表单时，会出现以下错误： <button submit> 'signin 提交按钮名称没有关闭倾斜。是否因为提交按钮未被识别？我注意到，每当我按下登录表单上的"next“按钮时，第一页和第二页是相同的，yahoo只是隐藏用户名字段。::html_session(url, ht

浏览 4提问于2016-09-01得票数 2

1回答

字符串看似是一个空格字符，但事实并非如此

、、

我正在用rvest做一些网页抓取，我遇到了一些奇怪的事情。我在两台电脑上复制了这个字符串，一台运行R3.6.3的Mac系统和一台运行R3.6.3的Windows10系统。library(rvest)# scrape website, no issue webpage <- rvest::read_html("https://www.usms.org/longdist/ldnats00/1

浏览 13提问于2020-04-17得票数 1

回答已采纳

1回答

如何使用rvest从Lux到Lumens Calculator获取动态数据

、、、

The The The Lux到Lumens计算器提供Lux、流明、LED光束角度和从表面到灯光的距离之间的关系。Lux和Lumens有输入字段，而LED光束角度和从表面到光线的距离有滑动条来设置所需的值。如果有人可以帮助我，并解释(可能是一步一步)如何使用rvest获得勒克斯或流明值给定指定的LED光束角度和距离从表面到光的值，我将不胜感激。我使用rvest从网页中抓取静态数据，但在通过特定表单

浏览 36提问于2021-03-01得票数 1

回答已采纳

1回答

如何正确识别特定的值以使用rvest进行解析

、

亲爱的集体智慧我需要循环遍历表的所有节点并逐个提取它的值。然后迭代到下一页并重复。我打算单独读取表值，因为我需要在代码中添加一个变体循环--对于每一行，如果"Data urodzenia“列中的值等于”，则程序应该输入与该行对应的网页，然后提取其他值(标记为"Rocznik")。就目前而言，我在强迫rvest读取表

浏览 6提问于2021-12-16得票数 0

回答已采纳

2回答

html_nodes返回空列表和字符串，wield网站

、、、

对于这个网站：，我使用R和rvest软件包刮名称，摘要等，这类信息，以我自己的形式。我和其他网站都这样做过，而且真的很成功，但是这个很奇怪。我使用了SelectorGadget，这是有用的，在我以前的工作，以确定css节点的名称，但html_nodes和html_text返回空字符，我不知道这是不是因为网站的结构是完全不同的格式！css代码的一个示例： td class="all sorting_1">a c

浏览 1提问于2019-07-15得票数 1

回答已采纳

1回答

使用rvest捕获onclick

、

我一直在努力使用rvest获取数据。我要查找的数据是值20960，它是insideOpenView(20960 )。我如何使用rvest来实现这一点？我正在使用的html的一个示例部分是<td style="width:120px;"> <a href="#" onclick='OpenView

浏览 1提问于2016-03-10得票数 3

2回答