我使用xpath和rvest来抓取htm页面。rvest的其他示例可以很好地使用管道,但是对于这个特定的脚本,不会返回任何内容。
webpage <- read_html("https://www.sec.gov/litigation/admin/34-45135.htm")
whomst <- webpage %>% html_nodes(xpath = '/html/body/table[2]/tbody/tr/td[3]/font/p[1]/table/tbody/tr/td[1]/p[2]')
返回的内容为:
{xml_nodeset (0)}
下面是该页面的屏幕截图和相应的html
这是我所在的页面:https://www.sec.gov/litigation/admin/34-45135.htm。我在试着提取“顶峰控股公司”这句话
发布于 2018-06-22 07:10:28
有时chrome工具不能给出准确的xpath或css,你需要自己尝试,这个选择器可以工作:
webpage %>% html_nodes("td > p:nth-child(3)") %>% html_text()
结果:
[1] "PINNACLE HOLDINGS, INC., \n
https://stackoverflow.com/questions/50952434
复制相似问题