我渴望将一组jekyll主题的源代码和演示urls提取到一个data.frame中。
library(rvest)
info <- read_html("https://github.com/jekyll/jekyll/wiki/themes")
data <- info %>%
html_nodes(" #wiki-body li")
data
{xml_nodeset (115)}
[11] <li>Typewriter - (<a href="https://github.com/alixedi/ty
我也想获得到属性的链接--但出于某种原因,我并不是从每个页面获得所有链接,这段代码可以工作,但只适用于第一页。关于link提取,我缺少什么?
# To get $rooms, $m2, $price, $link
library(rvest)
library(dplyr)
flat_I = data.frame()
for (i in 7:100) {
link <- paste0("https://www.immobilienscout24.at/regional/wien/wien/immobilie-kaufen/seite-", i)
page <
我想在网页列表中删除图片的网址。我尝试了下面的代码。
library(rvest)
pic_flat = data.frame()
for (i in 7:60){
# creating a loop for page urls
link <- paste0("https://www.immobilienscout24.at/regional/wien/wien/wohnung-kaufen/seite-", i)
page <- read_html(link)
# scraping href and creating a url
href
我正在尝试下载xlsx文件,代码如下:
library(rvest)
file <- "tesouro.csv"
site <- read_html("https://www.tesourotransparente.gov.br/publicacoes/boletim-resultado-do-tesouro-nacional-rtn/")
link <- site %>% html_nodes(xpath="//a[contains(text(), 'serie_historica_jun22.xlsx')
我使用这个脚本从网页中提取文本。
url <- "http://www.dlink.com/it/it"
doc <- getURL(url)
#get the text from the body
html <- htmlTreeParse(doc, useInternal = TRUE)
txt <- xpathApply(html, "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]", xmlValue)
t