文章/答案/技术大牛

发布

社区首页 >问答首页 >如何根据标题来抓取具有不同URL的多个网页的网页数据？

问如何根据标题来抓取具有不同URL的多个网页的网页数据？
EN

Stack Overflow用户

提问于 2019-04-28 00:36:53

回答 1查看 70关注 0票数 0

我是刮从网址http://iias.ac.in/recent-publications的网页数据。我已经刮了这个页面所有标题的数据使用'rvest‘。现在，我有了一个向量，它包含了书名为

titl_book 1“泰戈尔的一些散文:历史、社会、政治” 2“看不见的网:对Jangarh Singh Shyam生死存亡的艺术史探究”。

现在，我正在根据像这个http://iias.ac.in/publication/some-essays-tagore-history-society-politics这样的书的标题来抓取每一本书的数据，其中url就是其中的一个

由于向量titl_book包含普通url "http://iias.ac.in“的后缀，因此如何一次性抓取所有这些URL的数据。

rvest

web-scraping

回答 1

Stack Overflow用户

发布于 2019-04-28 02:00:30

嗯，似乎需要一些数据清理步骤。我强烈推荐stringr包。我就是这样做的。

title_book = c("Some Essays of Tagore : History. Society. Politics",
  "INVISIBLE WEBS: An art Historical inquiry into the life and death of Jangarh Singh Shyam")

title_book_edited = title_book %>% 
  str_to_lower() %>% 
  str_replace_all(pattern = " ", replacement = "-") %>% 
  str_remove_all(pattern = ":") %>% 
  str_remove_all(pattern = "\\.")

title_book_list = paste0("http://iias.ac.in/publication/", title_book_edited)

我使用str_to_lower()转换字符串的大小写，用str_replace_all()替换所有匹配的模式，使用str_remove_all()删除所有匹配的模式。输出结果会是这样。

> title_book_list
[1] "http://iias.ac.in/publication/some-essays-of-tagore--history-society-politics"                                        
[2] "http://iias.ac.in/publication/invisible-webs-an-art-historical-inquiry-into-the-life-and-death-of-jangarh-singh-shyam"

有关更多信息，请访问这份正式文件。我希望你觉得这有帮助。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55886044

复制

相似问题

问如何根据标题来抓取具有不同URL的多个网页的网页数据？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何根据标题来抓取具有不同URL的多个网页的网页数据？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何根据标题来抓取具有不同URL的多个网页的网页数据？
EN