如何在Ruby中编写Web抓取器?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (8)

我想抓取一个没有API的流行网站(比如说Quora),并获取一些特定的信息并将其转储到一个文件中.

例如,只返回Quora用户的所有'Bios'列表,其中列出了他们的公开信息,职业'用户体验设计师'。

我会如何在Ruby中做到这一点?

我对Ruby和Rails的工作原理有了足够的理解。我刚刚完成了一个Rails应用程序 - 主要是我自己写的。

我了解RegExs等。

提问于
用户回答回答于

你最好的选择是使用Mechanize它可以跟踪链接,提交表单,任何你需要的.

Web客户端。顺便说一下,不要使用正则表达式来解析HTML。使用HTML解析器。

用户回答回答于

如果想要更高层次的东西,可以尝试一下wombat,这是我在Mechanize和Nokogiri之上建造的gem。它能够解析页面并使用一个非常简单和高级别的DSL来跟踪链接。

扫码关注云+社区