我现在正在做一个爬虫。它支持web、Facebook和Twitter。我的导师说它需要支持使用Facebook和Twitter API来获取帖子,但我不知道怎么做。我正在使用Solr作为搜索引擎,并计划使用Nutch进行网络爬行。我看到Nutch不支持这些API。你能推荐其他的网络爬虫或使用Nutch或其他方式获取帖子的方法吗?非常感谢!
发布于 2014-11-07 20:10:06
你到底想在facebook/ twitter上抓取什么?
只有特定的搜索引擎机器人才能爬行facebook。
访问https://facebook.com/robots.txt
在底部,他们已经禁止了所有的机器人,除了列出的一个。
因此,要从facebook获取数据(如果需要的话),可以使用API。
https://developers.facebook.com/
在twitter中,你可以抓取一些url
Allow: /?lang=
Allow: /hashtag/*?src=
Allow: /search?q=%23同样,如果您的目标是获取一些数据,则更好的方法是使用API。
https://stackoverflow.com/questions/26699984
复制相似问题