我想知道--是否可以通过httpclient或类似的Java库以递归方式下载路径(就像使用wget -r ...
一样)?我是否需要从头开始实现,或者是否有现成的库/爬虫可供我使用?
你有什么推荐的?
发布于 2016-01-30 23:33:29
我不知道有哪一个库有这样的直接方法。但这是我的解决方案:
1)使用JSOUP获取链接。
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Elements links = doc.select("a[href]"); // a with href
2)现在下载所有文件。如果您可以使用apache common IO,请执行以下操作:
FileUtils.copyURLToFile(URL source, File destination);
否则
byte[] bytes = Jsoup.connect(imgUrl).ignoreContentType(true).execute().bodyAsBytes();
https://stackoverflow.com/questions/35103216
复制相似问题