Web scraping 是一种从网站中提取数据的自动化过程。Rvest 是一个流行的 R 语言包,用于网页抓取和数据提取。当你遇到缩短的 URL 时,通常需要先获取其重定向后的完整 URL 才能进一步提取 href
属性。
httr
包来跟踪重定向。href
属性:一旦有了完整的 URL,就可以使用 Rvest 来提取所需的链接。以下是一个示例代码,展示了如何从缩短的 URL 中捕获完整的 href
URL:
# 安装并加载必要的包
install.packages("rvest")
install.packages("httr")
library(rvest)
library(httr)
# 缩短的 URL 示例
short_url <- "http://bit.ly/3jZ4QZ9"
# 使用 httr 获取重定向后的完整 URL
response <- GET(short_url)
full_url <- content(response, "text")
# 使用 Rvest 从完整 URL 的页面中提取 href 属性
page <- read_html(full_url)
links <- page %>% html_nodes("a") %>% html_attr("href")
# 打印提取到的链接
print(links)
GET(short_url)
发送 HTTP GET 请求到缩短的 URL。content(response, "text")
获取最终重定向页面的 HTML 内容。href
属性:read_html(full_url)
将 HTML 内容解析为 Rvest 可以操作的格式。html_nodes("a")
找到所有的 <a>
标签。html_attr("href")
提取这些标签的 href
属性。robots.txt
文件规定,并且不违反任何法律法规。通过上述步骤和代码,你可以有效地从缩短的 URL 中捕获完整的 href
URL,并进行进一步的数据提取工作。
领取专属 10元无门槛券
手把手带您无忧上云