使用rvest: css选择器获取“更多文本”的Web抓取

rvest是一个R语言的包，用于网页抓取和数据提取。它提供了一种方便的方式来使用CSS选择器来定位和提取网页中的元素。

在使用rvest进行Web抓取时，可以使用CSS选择器来获取“更多文本”。CSS选择器是一种用于选择HTML元素的语法，它可以根据元素的标签名、类名、ID等属性来定位元素。

以下是使用rvest和CSS选择器获取“更多文本”的示例代码：

library(rvest)

# 定义目标网页的URL
url <- "https://example.com"

# 使用rvest抓取网页内容
page <- read_html(url)

# 使用CSS选择器获取“更多文本”的元素
more_text <- html_text(html_nodes(page, ".more-text"))

# 打印获取到的文本
print(more_text)

在上述代码中，首先加载rvest包，然后定义目标网页的URL。接下来使用read_html()函数将网页内容读取到page变量中。然后使用html_nodes()函数和CSS选择器.more-text来获取所有具有class属性为more-text的元素。最后使用html_text()函数提取元素的文本内容，并将结果存储在more_text变量中。

需要注意的是，CSS选择器中的.表示类选择器，#表示ID选择器，html_nodes()函数返回的是一个节点列表，可以使用html_text()函数将节点列表转换为文本。

这是一个简单的示例，实际应用中可能需要根据具体的网页结构和需求进行适当的调整。

如何将XPATH值定义为R中html_nodes中的变量

、、

在使用R (rvest)进行web抓取时，我需要将XPATH值定义为html_nodes中的一个变量。这样我就可以迭代大量的XPATH。当我在外部定义XPATH时，它会抛出错误(例如，当xpath =//*@id=“横幅”时出现错误)。你能帮帮我吗。我的守则： xpath <- as.character('//*[@id="title-overview-widget"]') name <- lego %>% html_nodes(xpath) %>% html_text() Error Message

浏览 3提问于2016-03-05得票数 2

回答已采纳

2回答

使用rvest进行Web抓取

、、

我正在尝试使用rvest将web抓取到以下网页：https://www.superu.ad/oli-de-girasol_c360259/ 但似乎rvest (R)不能找到url中已经存在的一些css选择器，如.product-name webpage<-read_html('https://www.superu.ad/oli-de-girasol_c360259/') rank_data_html <- html_nodes(webpage,'.product-name') #returns nothing 我期望出现在url中的不同产品名称的输

浏览 17提问于2019-05-25得票数 0

回答已采纳

1回答

如何找到所需的css选择器

、、、

我正试图用方案对在议会举行的部分演讲进行删节。使用css选择器或chrome的检查器工具为我提供了一个选择器，但是我无法检索预期的(任何)数据。AFAIK，该网站也不是基于java等，即不需要RSelenium等。这是 library(tidyverse) library(rvest) library(xml2) session_1 <- "https://www.parlament.gv.at/PAKT/VHG/XXVII/NRSITZ/NRSITZ_00001/fnameorig_796482.html" x <- session_1 %>%

浏览 4提问于2021-03-18得票数 3

回答已采纳

1回答

如何使用rvest抓取网页的链接和文本？

、、、、

我正在尝试使用R中的rvest来抓取阿根廷总统的演讲。以下是我到目前为止编写的代码： library(purrr) library(rvest) library(stringr) url_president <- "https://www.casarosada.gob.ar/informacion/discursos?page=%d" # extract relevant data on webpage map_df(1:2, function(i) { pg <- read_html(sprintf(url_president, i)) data.f

浏览 19提问于2021-11-13得票数 0

回答已采纳

1回答

使用R从网站中的表中抓取数据

、、

我正在尝试学习R中的web抓取，并且尝试从下面的链接中从各种表中抓取数据。在页面的底部，有几张表格列出了不同的菜系，我想单独读一读。我尝试使用css-选择器，但我认为我使用它们是错误的，下面是我的代码片段： require(rvest) require(magrittr) connection = html_session("https://en.wikipedia.org/wiki/List_of_cuisines") connection %>% html_nodes("table:nth-child(1) a") %>% html_text()

浏览 3提问于2015-10-19得票数 0

回答已采纳

2回答

数据-锚文本-Web-抓取相关问题

、、、

我正在尝试从这个页面中抓取：我需要刮更多类似于这个页面，但模式是不一样的。我可以通过这个xpath - //*[@id="articleText"]/div[1]刮取文本，但实际上我想从div- class="articleSection"；数据锚名" text“中刮取文本。 div号在链接上改变，但是模式数据-锚名"Text"，不行。我包括这张图片是为了给出一些背景： R码： library(dplyr) library(rvest) article <- "https://www.scielo.br/j/

浏览 5提问于2021-08-27得票数 0

回答已采纳

2回答

如何用rvest从基于web的论坛中抓取消息

、

以一个类似于示例中的vBul公告站点为例。我希望能够只刮掉线程中的文本信息。但是，消息的css选择器称为#post_message_xxx，其中xxx是一个可变的id号。如何将选择器与html_nodes部分匹配，从而得到所有以#post_message开头的选择器，而不管它们是如何结束的？或者我应该问个更一般性的问题。如果我想要将作者赋给消息并跟踪消息顺序，我应该如何抓取页面。谢谢。 library(rvest) html <- html("http://www.acme.com/forums/new_rules_28429/") cast <- html_

浏览 4提问于2015-03-02得票数 3

回答已采纳

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷歌新闻应用程序： library(rvest) url <- 'https://news.google.com/search?q=NREGA&hl=en-IN&gl=IN&ceid=IN%3Aen'

浏览 2提问于2018-06-04得票数 0

3回答

rvest如何按id选择特定的css节点

、、、、

我正在尝试使用rvest包从网页中抓取数据。在一个简单的格式中，html代码看起来像这样： <div class="style"> <input id="a" value="123"> <input id="b"> </div> 我想从第一个输入中获得值123。我尝试了下面的R代码： library(rvest) url<-"xxx" output<-html_nodes(url, ".style input") 这将返回一个输

浏览 0提问于2015-08-21得票数 20

2回答

图像的Web抓取

、

我是个初学者。我创建了一个小代码，用于使用rvest进行网络抓取。我找到了一个非常方便的代码%>% html_node ()%>% html_text ()%>% as.numeric ()，但是我无法正确地更改用于抓取图像url的代码。我的代码用于从网上抓取图片的网址： UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/") img <- UrlPage%>% html_no

浏览 1提问于2015-06-07得票数 2

回答已采纳

1回答

Chrome或Firefox中的模式:如何获得对象的CSS全选择器？

、、、、

当我打开Web工具并检查页面时，有时我希望选择一个元素并复制它的CSS选择器(即获取整个文本)。我是说这个：由于某些原因，该框中的文本不可选，右击不显示任何菜单或选项。有没有办法抓取或导出文本，以便在代码中进行处理？

浏览 1提问于2021-01-21得票数 1

回答已采纳

1回答

WebScraping亚马逊图书名称

、

我正在尝试通过网络抓取亚马逊的图书名称： rm(list = ls()) library(rvest) library(XML) library(xml2) url_amazon <- 'https://www.amazon.com/s/browse?_encoding=UTF8&node=283155&ref_=nav_shopall-export_nav_mw_sbd_intl_books' web_page<-read_html(url_amazon) 按CSS选择器： rank_titles<-html_text(html_nod

浏览 13提问于2019-09-12得票数 1

1回答

使用rvest从闪存页面中刮取数据

、

我正在尝试从这个页面中抓取数据：如果我试图使用css选择器和通常的rvest语法刮取播放机的名称： names <- read_html("http://www.atpworldtour.com/en/tournaments/brisbane-international-presented-by-suncorp/339/2016/match-stats/r975/f324/match-stats?") %>% html_nodes(".scoring-player-name") %>% sapply(html_text) 万事如意。不幸

浏览 2提问于2016-06-05得票数 0

回答已采纳

1回答

使用rvest网刮时警告xml_find_all.xml_node

、、、

我想从这个中抓取数据。我用了一个循环和一个循环来得到桌子。这是我的密码： require(dplyr) require(rvest) # store web url url <- "https://corona.thueringen.de/covid-19-bulletin/" # check xpath xpath_part1="/html/body/main/div[2]/div/section[2]/ul/li[" xpath_part2="]/div/div/div[2]/div/table" # save tables fo

浏览 6提问于2020-05-12得票数 2

回答已采纳

1回答

网络抓取，选择器小工具和rvest的麻烦

、、

我对网络抓取相当陌生，目前正在努力浏览下一页的表格：我测试了从表外的网站上抓取文本，这没有问题，但是当我试图刮表的一列时，它只返回输出“字符(0)”。我使用选择器小工具来识别特定的CSS选择器。后来我试了一下： library(rvest) library(dplyr) url <- "https://www.ggesports.com/en-us/stats/lol/global/Team" Stats <- read_html(url) Name <- hot100 %>% rvest::html_nodes('body&#

浏览 4提问于2021-07-18得票数 0

回答已采纳

1回答

搜索从html_text()返回的网页内容

、、、、

我正在尝试刮(动态？)使用rvest包从网页中获取内容。我理解动态内容应该需要使用Selenium或PhantomJS之类的工具。然而，，但是，我的实验让我相信，我仍然应该能够找到我想要的内容，只使用标准的webscraping包(rvest，httr，xml2)。对于这个例子，我将使用谷歌地图网页。举个例子..。如果您遵循上面的超链接，它将带您到一个示例网页。在这个例子中，我想要的内容是网页左上角的地址"920 NC-16，Crumpler，NC 28617“和”2114NC-16，Newton，NC 28658“。使用css选择器或xpath的标准技术不起作用，这最初是有

浏览 6提问于2020-01-07得票数 0

回答已采纳

1回答

R-如何使用rvest或rcurl点击网页

、、、

我想从下载数据使用rvest可以很容易地抓取数据。代码可能如下所示： library(rvest) library(pipeR) url <- "http://www.tradingeconomics.com/" css <- "#ctl00_ContentPlaceHolder1_defaultUC1_CurrencyMatrixAllCountries1_GridView1" data <- url %>>% html() %>>% html_nodes(css) %>>% ht

浏览 0提问于2015-03-22得票数 20

回答已采纳

1回答

使用rvest (抓取)包，然后清除文本

、、

我正试图用最新的套餐从彭博社和cnba网站上抓取头条新闻。现在，当你把彭博社的网站通过代码，文本和句子会得到很好的编辑。然而，如果你尝试cnbc网站，它会显示非常不干净的文本。请任何人建议一个清理数据的方法，这样所有随机的字母和符号都被删除了，我只剩下句子了。我尝试了许多方法，但似乎没有任何方法能使文本看起来干净。 #install.packages("rvest") library("rvest") #install.packages("XML") library("XML") bloombergmarket <- re

浏览 2提问于2017-05-15得票数 2

1回答

在R中抓取BigFuture时出现问题

、、

我正在尝试使用rvest抓取以获得到学院的链接(CSS选择器显示为rvest和国际学生部分的一些文本(可以通过侧边栏访问)。无论我怎么尝试，html_nodes()都无法将此信息读入R。我尝试使用chrome中的开发人员工具选项来获取信息，但即使这样也不起作用。我遗漏了什么？ base_url = "https://bigfuture.collegeboard.org/college-university-search/princeton-university" page = read_html(base_url) page %>% html_nodes("#

浏览 2提问于2018-04-06得票数 0

2回答

Web抓取基于IIS的网站

、

我正在使用R从上抓取一张桌子。我正在使用库rvest。 #install.packages("rvest", dependencies = TRUE) library(rvest) OPMpage <- read_html("https://www.opm.gov/policy-data-oversight/data-analysis-documentation/federal-employment-reports/historical-tables/total-government-employment-since-1962/") 我收到这个错误：

浏览 1提问于2016-02-29得票数 6

1回答

如何在R中使用follow_link刮掉这个链接？

、、

我正在学习如何使用R进行web抓取--在本例中，我使用的是包"rvest“和一个名为follow_link的特定函数。这样做的目的是获取具有多个链接的网页的信息。我希望我的代码在这些链接中输入，并获取其中的表。这是代码： library(rvest) s <- html_session("http://fccee.uvigo.es/es/profesorado.html") link <- c("Dereito Privado", "Economia Financieira e Contabilidade", "M

浏览 2提问于2017-10-18得票数 0

回答已采纳

2回答

抓取具有特定类的所有div标签的内容

、

我正在从一个网站中抓取出现在特定类div中的所有文本。在下面的示例中，我想提取"a“类的div中的所有内容。 site <- "<div class='a'>Hello, world</div> <div class='b'>Good morning, world</div> <div class='a'>Good afternoon, world</div>" 我想要的输出是... "Hello, world" "

浏览 1提问于2018-01-22得票数 11

回答已采纳

1回答

如何使用R分割没有分隔符的合并/粘合单词

、、、、

我正在使用下面的代码在R中使用rvest从本文页面中抓取文本关键字： #install.packages("xml2") # required for rvest library("rvest") # for web scraping library("dplyr") # for data management #' start with get the link for the web to be scraped page <- read_html("https://www.sciencedirect.com/scien

浏览 0提问于2021-01-29得票数 0

1回答

R:发布搜索表单和抓取结果

、

我是一个网络抓取的初学者，我还不熟悉我试图解决的问题的命名。尽管如此，我已经详尽地寻找了这个特定的问题，但没有成功地找到解决方案。如果它已经在其他地方，我提前道歉，并感谢您的建议。开始吧。我正在尝试使用R构建一个脚本，它将：在报纸网站中搜索特定关键字；为我提供所需数量的结果/页面的标题、日期和内容。我已经知道如何发布表单以进行搜索，并从第一页抓取结果，但到目前为止，我还没有成功地从下一页获得内容。老实说，我甚至不知道从哪里开始(我读过关于RCurl等等的东西，但对我来说仍然没有太大的意义)。下面，它遵循了我到目前为止编写的代码的一部分样本(为了简单起见，只抓取了第一页的标题)。 cur

浏览 0提问于2014-08-03得票数 0

1回答

错误:无效的下标类型'list‘(Webscraping)

、、

我正在尝试从以下url中抓取数据-：我想单击每个大学的名称并获取每个大学的特定数据。首先，我收集了一个矢量形式的所有大学网址： #loading the package: library(xml2) library(rvest) library(stringr) library(dplyr) #Specifying the url for desired website to be scrapped baseurl <- "https://university.careers360.com/colleges/list-of-degree-colleges-in-India&#

浏览 0提问于2019-02-04得票数 1

1回答

使用rvest抓取名称相似的表

、、、

我正在尝试使用rvest从fbref.com上的不同页面抓取数据表。我已经能够使用以下命令从一个页面中抓取数据： library(rvest) URL <- "https://fbref.com/en/squads/822bd0ba/Liverpool" WS <- read_html(URL) passStats <- WS %>% rvest::html_nodes(xpath = '//*[(@id = "ks_sched_all")]') %>% rvest::html_table() %>% data

浏览 5提问于2020-06-02得票数 1

回答已采纳

1回答

在Wiki的网球桌上使用Rvest进行Web抓取

、、

我在这里，完全是一个R的初学者，我正在努力学习更多关于rvest的知识和如何从网络上抓取。这是维基页面()，下面是我想转移到R的表格。使用CSS Selector，我发现特定的表在".wikitable“上。在其他网页上的一些教程之后，下面是我使用的代码： library(rvest) tennis <- read_html("https://en.wikipedia.org/wiki/Andy_Murray") trial <- tennis %>% html_nodes(".wikitable") %>% html

浏览 2提问于2016-08-19得票数 2

回答已采纳

1回答

使用XPath获取特定标记不起作用后的所有文本

、、、、

背景：我正在抓取，以获得在编辑委员会的各个部分中指定的所有人员的名单。总共有6个部分，每个部分从一个<b>...</b>部件开始。(实际上应该是5，但代码有点混乱。) 我的目标：我想得到每个部分所有人员的列表(一个由6个元素组成的列表，名为people)。我的方法：我尝试在每个<b>...</b>-tag之后获取所有文本，即-tag。但是，使用下面的R代码和XPath，我无法得到正确的列表： journal_url <- "https://aepi.biomedcentral.com/about/editorial-bo

浏览 0提问于2021-01-15得票数 0

回答已采纳

1回答

如何使用Jsoup针对特定url后面的特定文本字段？

、、、

目前，我正试图使用Java中的Jsoup库来抓取一个静态的html页面。我找到了一种能得到我想要的东西的方法，但我不知道该为我的选择选择什么。以前，我使用CSS，但是我想要的文本的位置并不是每个html页面相同。因此，我考虑使用这个逻辑，在特定URL之后出现的文本，因为页面的布局方式是： -Topic as a link- Text field containing information related to Topic. HTML看起来如下所示 <A NAME="Topic"></A> <A HREF="#TOPIC LiNK

浏览 1提问于2016-08-12得票数 1

回答已采纳

1回答

在rvest包的`html_nodes`函数中使用正则表达式

、、、

我正在尝试创建一个使用rvest包中的html_nodes函数的函数。我的函数接受任何媒体(博客/发布平台)博客主页的URL。它将生成到该特定媒体博客上的每个单独帖子/文章的链接，并将其保存在列表中。然而，每个媒体博客的设计是不同的。因此，SelectorGadget生成的css也会有所不同。有没有什么方法可以使用正则表达式，特别是竖线("|")符号来捕获不同的of，这样我的函数就可以智能地捕获到任何给定媒体博客上的每个单独帖子/文章的链接。我的函数如下： get_url_suffix <- function(url) { url_suffix <- re

浏览 17提问于2021-06-18得票数 0

回答已采纳

1回答

R中的web抓取(使用循环)

、、、

我需要从中抓取数据并将表保存在csv中。我现在所拥有的:我可以使用rvest删除第一页和第二页，并使用以下代码保存这些表： library(rvest) webpage <- read_html("https://bra.areacodebase.com/number_type/M?page=0") data <- webpage %>% html_nodes("table") %>% .[[1]] %>% html_table() url<- "https://bra.areacodebase.com

浏览 20提问于2017-03-16得票数 3

1回答

如何使用rvest在R中抓取这个网站？

、、、

我正在尝试使用RVest：https://www.camara.cl/legislacion/sesiones_sala/sesiones_sala.aspx抓取这个网站请注意，站点加载速度很快，但数据需要一段时间才能显示。我意识到，虽然内容在web浏览器Inspector中显示为html文本，但使用rvest抓取时，节点显示为空。 library(dplyr) library(rvest) camara <- "https://www.camara.cl/legislacion/sesiones_sala/sesiones_sala.aspx" %>%

浏览 7提问于2021-08-07得票数 1

回答已采纳

1回答

Rselenium error...trying在谷歌学者页面上单击显示更多内容

、

我正在使用rvest和Rselenium来抓取谷歌学者页面。我正在研究中提供的示例。使用RSelenium，我想点击谷歌学者页面上的“显示更多”按钮，以获得所有出版物的列表。我正在运行的代码块是 library(RSelenium) checkForServer() startServer() remDr <- remoteDriver(remoteServerAddr = "localhost" , port = 4444 , browserName = "firef

浏览 2提问于2016-03-25得票数 2

1回答

在html页面上使用rvest和xpath时不返回任何内容

、、、、

我使用xpath和rvest来抓取htm页面。rvest的其他示例可以很好地使用管道，但是对于这个特定的脚本，不会返回任何内容。 webpage <- read_html("https://www.sec.gov/litigation/admin/34-45135.htm") whomst <- webpage %>% html_nodes(xpath = '/html/body/table[2]/tbody/tr/td[3]/font/p[1]/table/tbody/tr/td[1]/p[2]') 返回的内容为： {

浏览 35提问于2018-06-20得票数 0

1回答

R:用unicode编写csv，需要实际文本

、、

我有下面的R脚本，用于从网站上抓取一些文本数据。 library('rvest') term_data_final <- c() defn_data_final <- c() for (term in 1:10) { url_base <- 'http://www.nplg.gov.ge/gwdict/index.php?a=term&d=9&t=' url <- paste(url_base, term, sep="") webpage <- read_htm

浏览 1提问于2018-04-07得票数 1

1回答

使用rvest对Google搜索结果进行when抓取时出现字符(0)错误

、、、

我正在尝试抓取谷歌搜索的标题。然而，不管我用rvest做什么尝试，结果总是返回character(0)。以下是搜索rstudio的代码 library(rvest) library(dplyr) web1 <- read_html("https://www.google.at/search?q=rstudio") header <-web1 %>% html_nodes(".DKV0Md") %>% html_text() header 我在SelectorGadget中检查了节点名，所以这应该不是问题。我该如何

浏览 25提问于2020-10-18得票数 2

回答已采纳

1回答

量角器AngularJS CSS选择器查找多个元素

、、、

我对CSS很陌生，并试图避免在我的Protractor AngularJS测试自动化中使用xpath。我试图在列表中得到一个特定的元素，但是Protractor告诉我，在定位器中找到了不止一个元素。在未来，我想避免这种情况，因为我并不总是希望在列表中第一位。我对CSS和如何获得我要去的地方有点困惑，而且我发现的文档也很模糊。我正试图抓住营销场地的元素，但也需要抓住其他要素，以及在某个时候。上面的代码是AngularJS，以及我目前如何抓取文本。提前谢谢。 var iPlanLevel=element(by.css("div:nth-of-type(2) > div:nth-o

浏览 1提问于2015-07-28得票数 3

回答已采纳

1回答

使用css时，Scrapy返回空列表

我正在尝试抓取nordstrom的产品描述。我获得了所有的项目链接(存储在本地mongodb db中)，现在正在遍历它们，下面是一个示例链接https://www.nordstrom.ca/s/leith-ruched-body-con-tank-dress/5420732?origin=category-personalizedsort&breadcrumb=Home%2FWomen%2FClothing%2FDresses&color=001 我对爬行器的代码是： def parse(self, response): items = NordstromItem()

浏览 23提问于2020-05-02得票数 0

1回答

使用Rvest和Selector Gadget时遇到问题(新程序员需要帮助)

、、、

我正在尝试尽可能多地使用互联网学习，但我到处都在试图弄清楚这一点。我正在使用rvest和Selector Gadget从一个允许抓取(linecombinations.com)的网站上的表格中抓取数据。我在这上面花了几天时间，这就是我现在所处的位置。会更喜欢一些教育而不是一个具体的解决方案。谢谢! install.packages("rvest") install.packages("dplr") install.packages("stringr") install.packages("magrittr") library(

浏览 38提问于2019-09-27得票数 1

1回答

当某些片段可能不是html时，我如何使用rvest来解析html片段？

、

我的数据由一个字符串列表组成，其中包含bug的再现步骤。这些通常编码为html，但有时只是原始文本，有时是空的(NA)。我需要文本sans html。我正在尝试使用rvest来实现这一点，但我遇到了一些问题。我有这个函数，它将解析一行html并返回一个字符串： library(rvest) tf <- function(frag) {read_html(frag) %>% html_nodes("p") %>% html_text() %>% paste0(collapse = " ")} 这可以在正确的html上运行： foo <

浏览 0提问于2016-11-16得票数 0

1回答

不包括使用r中html_nodes()的注释

、、

我正在使用R.中的rvest包来抓取股票市场价格，我想在使用html_nodes()时排除节点。以下类以股价出现在网站上：[4] <span id="ctl00_ctl00_Content_LeftContent_IssueList_StockList_repIssues_ctl02_DifferenceBlock_lblRelativeDifferenceDown" class="ValueDown">-0,51%</span> [5] <span id="ctl00_ctl00_Content_LeftContent

浏览 0提问于2019-02-28得票数 0

回答已采纳

2回答

使用R抓取逐个播放的数据

、、、

我目前正在尝试从以下链接中抓取播放条目：https://www.basket.fi/basketball-finland/competitions/game/?game_id=4677793&season_id=110531&league_id=4 我使用SelectorGadget来确定CSS选择器，并以'//td‘结束。但是，当我尝试使用它抓取数据时，html_nodes()返回一个空列表，因此下面的代码返回一个错误。 library("rvest") url <- "https://www.basket.fi/basketball

浏览 27提问于2020-04-27得票数 0

3回答

从css节点scrapy中提取文本

、、

我正在试着从这个页面上抓取一个目录id号： from scrapy.selector import Selector from scrapy.http import HtmlResponse url = 'http://www.enciclovida.mx/busquedas/resultados?utf8=%E2%9C%93&busqueda=basica&id=&nombre=astomiopsis+exserta&button=' response = HtmlResponse(url=url) 使用css选择器(适用于R和rvest:

浏览 3提问于2018-08-12得票数 2

1回答

Rvest只抓取了表的一部分

、、

我是Rvest的新手。我正在尝试从这个网站上获取有关加密货币的信息：https://coinmarketcap.com/。我能够抓取表中列出的前10种货币的所有信息，但对于其他货币，我只能获得名称和价格。理由是什么呢？如何抓取所有货币的所有信息？我的代码： library(rvest) market <- as.data.frame(read_html('https://coinmarketcap.com/') %>% html_table(fill = TRUE))

浏览 25提问于2021-07-12得票数 0

回答已采纳

1回答

不是抓取html源代码，而是实际的网站。

、、、、

我正在做一个项目，我想像这样刮一个页面，以便获得原产地城市。我尝试使用css选择器：".type-12~ .type-12+ .type-12“，但是我没有将文本转换为R。链接：我使用rvest和read_html函数。然而，看起来源码里面有一些脚本。有没有办法在脚本返回结果后抓取网站(就像你在浏览器上看到的那样)？附言:我看过类似的问题，但确实找到了答案。代码： main.names <- read_html(x = paste0("https://www.kickstarter.com/projects/1141096871/support-ctrl

浏览 2提问于2017-07-14得票数 1

1回答

HTML span类标记

我正在尝试理解一些用于web抓取的HTML/ CSS元素。我遇到了这个标签 <span class="lister-item-index unbold text-primary"> </span> 我可以知道class下的"lister-item-index unbold text-primary"是用于span标签的选项/属性，还是仅仅是类的名称？

浏览 7提问于2021-10-19得票数 0

2回答

在R和rvest中刮取多个链接的HTML表

、、

本文包含四个指向html-表的链接，我想用rvest对这些表进行抓取。在css选择器的帮助下： "#T1 a" 第一张桌子可能是这样的： library("rvest") html_session("http://www.ajnr.org/content/30/7/1402.full") %>% follow_link(css="#T1 a") %>% html_table() %>% View() css-选择器： ".table-inline li:nth-child(1) a" 这样就可

浏览 4提问于2015-02-25得票数 10

回答已采纳

2回答

抓取R中的tbody类对象

、、、、

我对使用R进行web抓取是完全陌生的，我想抓取下表(图片)，它的行为就像tbody一样。如果我运行以下代码，我只看到标题，没有数据(捷克语网站)。我应该得到在CZK下订单的时间，价格，数量和数量。 library(rvest) library(dplyr) PSE_Page <- "https://www.pse.cz/detail/CZ0003519753?tab=detail-trading-data" Page <- read_html(PSE_Page) Our_table <- Page %>% rvest::html_nodes

浏览 0提问于2020-03-13得票数 0

2回答

使用rvest进行Tripadvisor评级的Web抓取

、、

? 我正在尝试使用rvest (R编程)抓取tripadvisor的评论(评级服务、价值、位置)，但我无法这样做。 library(tidyverse) library(rvest) url <- "https://www.tripadvisor.com.sg/Hotel_Review-g294265-d1770798-Reviews-or5-Marina_Bay_Sands-Singapore.html#REVIEWS" reviews <- read_html(url) %>% html_nodes(".ui_bubble_ratin

浏览 25提问于2019-12-10得票数 1

1回答

抓取dl、dt、dd HTML数据

、、、、

我正在尝试使用Rvest & Selectorgadget从在线搜索中提取公开可用的房屋描述，并尝试遵循几个在线教程来抓取web，但我什么也得不到。如果有人能为我指明正确的方向，我将不胜感激！ Site <- "https://paol.snb.ca/paol.html?lang=en&pan=00100004" snb <- read_html(Site) snb %>% html_nodes("dd") %>% html_text()

浏览 0提问于2018-06-18得票数 0