开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在用rvest抓取的页面中保留格式？

在使用rvest抓取页面时，可以通过以下方法来保留页面的格式：

使用html_nodes()函数选择要抓取的HTML元素。可以使用CSS选择器或XPath表达式来定位元素。例如，如果要抓取页面中的所有段落，可以使用以下代码：paragraphs <- page %>% html_nodes("p")
使用html_text()函数提取元素的文本内容。这将返回一个包含所有匹配元素文本的字符向量。例如，如果要提取所有段落的文本内容，可以使用以下代码：paragraph_text <- paragraphs %>% html_text()
使用html_attr()函数提取元素的属性。可以使用该函数来提取元素的链接、图像地址等属性。例如，如果要提取页面中所有图像的链接，可以使用以下代码：image_links <- page %>% html_nodes("img") %>% html_attr("src")
使用html_table()函数提取HTML表格。如果页面中包含表格，可以使用该函数将其转换为数据框。例如，如果要提取页面中的第一个表格，可以使用以下代码：table <- page %>% html_table(fill = TRUE)[[1]]
使用html_skeleton()函数生成HTML骨架。该函数可以将抓取的页面转换为HTML格式，并保留原始的标签和结构。例如，如果要将页面转换为HTML格式并保存到文件中，可以使用以下代码：html_skeleton(page, file = "output.html")

需要注意的是，rvest是一个基于HTML解析器的包，它可以提取HTML页面的内容，但无法保留页面的样式和布局。如果需要保留页面的完整格式，可以考虑使用其他工具或技术，如Selenium WebDriver、PhantomJS等，这些工具可以模拟浏览器行为，实现对页面的完整抓取。

相关搜索:Rvest中的多个页面使用rvest抓取df列中的链接如何从rvest中的每个div类中抓取id？如何使用rvest在R中抓取这个网站？如何使用rvest抓取网页的链接和文本？无法识别要在rvest中抓取的html节点如何在用户访问其他页面时保留cookie值？用Rvest抓取Google News中的关键词使用Rvest抓取文本、表格，并从多个页面中组合这两者抓取具有多个页面的站点，这些页面保留相同的url？在具有复杂节点结构(html节点)的页面上抓取rvest电子邮件如何在R中使用rvest抓取URL上的多个表如何在浏览器刷新时保留TempData，而在用户离开页面时保留为空用rvest抓取:如何填充行中的空白数字以转换到数据帧中？如何从多个页面中抓取数据如何从多个页面中抓取项目？如何在R中抓取多个页面如何在R中使用rvest抓取售出的产品数量如何在R中使用rvest存储用于How抓取的循环结果在用JAVA创建的JSP页面中乱码

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭