我正在寻找一些方法(最好是不基于硒的)从下面的链接下载数据
https://www.nseindia.com/circulars/circular.htm
我尝试在R中使用函数XML::readHTMLTable(),但无法成功。即使当我试图查看此页面的源代码时,我也看不到源页面中的相关信息。
任何指向使用R或Python下载数据的指针都将非常有用。
谢谢,
发布于 2019-08-25 02:27:35
您正在查看的表不在页面源代码中。您的浏览器运行JavaScript并发出额外的请求以获取此表。
您可以使用开发人员工具查找该表的实际URL,它位于network/xhr选项卡中。
library(rvest)
library(httr)
url <- "https://www.nseindia.com/circulars/content/circ_latest.htm"
ua <- "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"
response <- httr::GET(url,user_agent(ua))
html_table(content(response))

作为参考,您可以阅读此部分:
https://github.com/yusuzech/r-web-scraping-cheat-sheet#rvest7.1
https://stackoverflow.com/questions/57640435
复制相似问题