我正在用R编程,我需要从http: address下载一组文件。文件的命名格式引用日期/时间段,但也包含其他无法识别的编号。例如,对于下面的文件,第一组数字指的是2014/10/24上午05:10的日期,但第二批数字无法识别。网页上的所有文件都遵循这种标准格式。
0000000258279329.zip
我的问题是:如何下载只有部分名称信息的文件?
例如,如果我想下载与6:30时间段有关的文件,我知道url前缀如下所示,但不知道后面的数字:??????????????.zip
发布于 2016-01-20 05:33:26
你真的很幸运。因为你有一个目录列表。本质上,您必须下载链接列表,然后再下载它们。这是你怎么做的。
library(XML)
url <- "http://www.nemweb.com.au/REPORTS/CURRENT/MCCDispatch/"
parsed <- htmlParse(url)
links <- xpathSApply(parsed, "//@href")
现在,您有了一个URL列表,您可以搜索并选择合适的URL。
提示:grep("pattern",links)
https://stackoverflow.com/questions/34892109
复制相似问题