我试图从这个网站上提取所有的标题:https://www.theguardian.com/international。我已经尝试过这么多的xpath,但是没有一个能给我带来标题,尽管代码可以工作。对我做错了什么有什么想法吗?谢谢!
这是我的密码:
guardian_url <- "https://www.theguardian.com/international"
guardian <- read_html(guardian_url)
headlines <- guardian %>%
html_elements(xpath = '//html/body/div[3]/div') %>%
html_text2()
发布于 2022-11-03 02:31:41
//a[@data-link-name='article'and not(contains(@class, 'u-faux-block-link__overlay'))]
这就选择了标题和副标题。
https://stackoverflow.com/questions/74300277
复制