R: Rvest read_html()错误:无效的多字节字符串，元素2

r、web-scraping、rvest

我尝试抓取网页，但遇到了以下页面的问题："“> page<html> Error in nchar(desc) :

浏览 12提问于2021-02-25得票数 0

回答已采纳

3回答

无法在R中保存从rvest生成的负载xml_document

r、xml、rvest

read_html函数生成一个xml_document，我想要保存它，然后加载它来解析它。library(magrittr)doc %>% html_node("h1")我在两台不同的窗户机器上试过，遇到了同样的问题。sessionInfo()

浏览 2提问于2016-06-08得票数 8

回答已采纳

2回答

R: Web从表中抓取多个变量

r、scrape

我试图使用以下代码在R中搜索网页()：library(rvest) webpage = read_html(aviationurl) variables = c("Date","Type：文件中的</e

浏览 0提问于2018-04-06得票数 2

2回答

网站https://www.moe.gov.sg/schoolfinder/schooldetail?schoolname=ZHONGHUA-SECONDARY-SCHOOL但是，当我使用选择器小工具时，获取路径.is--open:nth-child(4) .moe-collapsible__content dsa <- html_node(listpage,".is--open:nth-child(4) .moe-collapsible__content") %>% html_t

浏览 7提问于2022-03-14得票数 0

1回答

rvest -在1个标签中抓取2个类

html、r、web-scraping、scrape、rvest

我是rvest的新手。如何提取标签中有2个类名或只有1个类名的元素？)read_html(doc) %>% html_nodes(".b1") %>% html_text()#what iwant: text2 #I also want to extract only elements with 2 cl

浏览 7提问于2017-08-02得票数 12

回答已采纳

1回答

在HTML表中抓取特殊图形字符

python、html、r、web-scraping

我正在尝试刮一个，它在某些单元格中有一个“图形”元素(箭头向上/向下)，使用R.不幸的是，库rvest函数html_table似乎跳过了这些元素。这就是HTML中这样一个带有箭头的单元格的样子： <span style="font-weight: bold; color: darkgreen">Ba2</span> <iclass="g

浏览 0提问于2021-07-05得票数 0

回答已采纳

1回答

R:如何使用rvest或任何R包从标签的属性中提取某些元素？

html、r、web-scraping、rvest

我已经使用xml2::read_html函数读取了下面的字符串(从真实示例中简化)。a href=\"JavaScript:gibo_load('http://something.com/XYZW');\"></td></tobody>rvest::html_table(x)可以根据它创建一个表，如下所示如果我将

浏览 1提问于2021-01-16得票数 0

1回答

无法使用下拉式包访问CPS数据

r、rvest、cps

output_dir = file.path( path.expand( "~" ) , "CPSBASIC" ) ) subscript out of bounds 尝试重新安装R和所涉及的软件包，但我仍然得到同样的

浏览 10提问于2022-04-01得票数 0

1回答

R中rvest网络抓取多个URL的制备

html、r、string、csv、rvest

我得到了不一致的结果刮多个网址使用rvest。连接的URL字符串返回字符向量。运行html_nodes将返回三个不同的结果。否则，它将给出以下错误消息：包装期间的错误: HTTP错误410。<-map(urldoc, ~<e

浏览 2提问于2020-02-29得票数 0

1回答

向量元素和字符的read_html

r、rvest、rcurl

我有URL的向量，我需要从那里获得一些文本。我使用rvest和下面的代码： html_nodes(".bloko-button.HH-Pager-Control") %>%在本例中，我得到：但是如果我放入字符串而不是向量元素，它将会起作

浏览 4提问于2019-11-18得票数 0

回答已采纳

1回答

将字符向量转换为数据

我想练习网络抓取，并使用'R‘和'rvest’包为它。现在，我有了一个由125个元素组成的字符向量(p_text)，并希望将其转换为数据格式。有25行5列，名称为q1、opt1、opt2、opt3、opt4。library(rvest) url <- 'http:&

浏览 3提问于2017-10-22得票数 1

回答已采纳

1回答

R中的网络抓取与html_note查找

r、web-scraping、rvest

我正在试图找到当前的html_note来获取这个论坛中每个帖子的回复数：。我使用了CSS选择器，它说.DiscussionListItem-count，但它似乎不起作用。我的代码：library(tidyverse)COS_link %>%relevant tag html_nodes(css = '.Dis

浏览 1提问于2019-06-17得票数 3

回答已采纳

1回答

具有适当字符编码的xml2::read_html在Ubuntu上崩溃

r、ubuntu、character-encoding、rvest、xml2

当xml2::read_html试图使用正确的字符编码时，它会在Ubuntu上压缩(而不是在Mac上)。correct (Big5) encoding crashes on Ubuntu错误是： devtools::install_github("hadley/xml2</e

浏览 4提问于2017-01-04得票数 1

1回答

网络抓取西里尔字母. rvest编码问题

html、r、web-scraping、encoding、rvest

我试着在擦拭俄文杂志的名字，但我对编码有问题。 nauka_encoding <

浏览 3提问于2021-01-02得票数 1

回答已采纳

1回答

如何修复UseMethod(“xml_find_all”)中R 'Error (“xml_find_all”)中的跟踪错误？

r、web-scraping、rvest

我是新的R，目前正在工作的任务，处理网络抓取。我应该阅读这个网页上的所有句子：library(xml2)url <- 'https://www.cs.columbia.edu/~hgs/audio/harvard.html'sentences <- url %>% html_n

浏览 0提问于2019-11-18得票数 2

1回答

使用rvest网刮时警告xml_find_all.xml_node

r、for-loop、web-scraping、rvest

:read_html() %>% rvest::html_table对于如何纠正这个错误并得到表有什么建议吗？编辑2:在当前的表中，我可以添加一些额外的信息。_2=rvest::html_text(rvest::html_nodes(th_b

浏览 6提问于2020-05-12得票数 2

回答已采纳

1回答

错误:加载外部实体"http://.......“”失败

r、web-scraping、powerbi

问题最终，我想在Power的R脚本编辑器中运行代码，但是我遇到的错误说我没有安装包data.table。然后，我尝试在RStudio中运行代码，并确保安装了必需的包和库。当我使用http运行代码时，我会得到错误Failed to load external entity "http://......."。 pages

浏览 5提问于2020-10-30得票数 0

回答已采纳

2回答

如何编写rscript从HTML表中提取URL

html、r、web-scraping、rvest

我试图从页面的元素：[https://divvy-tripdata.s3.amazonaws.com/index.html](https://divvy-tripdata.s3.amazonaws.com/index.html)中提取像"“这样的每个URL，如下所示： library(rvest

浏览 3提问于2021-09-29得票数 0

回答已采纳

4回答

如何将read_html的输出保存和读取为RDS文件？

r、rvest、xml2

对象可以像这样保存和读取 # Save as filereadRDS("mydata.RDS") 但这似乎不适用于使用xml2::read_html()制作的对象示例 library(rvest)saveRDS

浏览 43提问于2019-09-03得票数 7

回答已采纳

2回答

从存储不良的列表数据创建数据帧(删除第一行，即垃圾)

r、list

我们的教授不断地给我们分配在R中工作的任务，但是我们没有给我们提供更容易的数据，我们通常不得不从网络中提取数据。这段代码是这样做的：url <- "https://www.supremecourt.gov/opinions/slipopinion/18" page <- read_html\r\n无效文本。再试一次X<em

浏览 0提问于2019-03-31得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

无法在R中保存从rvest生成的负载xml_document

R: Web从表中抓取多个变量

使用rvest从可折叠内容的网站中提取信息

rvest -在1个标签中抓取2个类

在HTML表中抓取特殊图形字符

R:如何使用rvest或任何R包从标签的属性中提取某些元素？

无法使用下拉式包访问CPS数据

R中rvest网络抓取多个URL的制备

向量元素和字符的read_html

将字符向量转换为数据

R中的网络抓取与html_note查找

具有适当字符编码的xml2::read_html在Ubuntu上崩溃

网络抓取西里尔字母. rvest编码问题

如何修复UseMethod(“xml_find_all”)中R 'Error (“xml_find_all”)中的跟踪错误？

使用rvest网刮时警告xml_find_all.xml_node

错误:加载外部实体"http://.......“”失败

如何编写rscript从HTML表中提取URL

如何将read_html的输出保存和读取为RDS文件？

从存储不良的列表数据创建数据帧(删除第一行，即垃圾)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐