使用Java进行Web抓取

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (11)

我无法找到任何好的网页抓取基于Java的API。我需要刮的网站也不提供任何API; 我想用一些pageID迭代所有的网页,并在他们的DOM树中提取HTML标题/其他东西。

除了网页抓取以外,还有其他方法吗?

提问于
用户回答回答于
用户回答回答于

你最好的选择是使用Selenium Web Driver

向编码人员提供视觉反馈(请参阅您的拼抢行为,看看它停在哪里)

准确和一致,因为它直接控制你使用的浏览器。

不像HtmlUnit那样打网页,但有时你不想打得太快。 Htmlunit速度很快,但在处理Javascript和AJAX时非常糟糕。

扫码关注云+社区