我有一个网站,这是相当好,但与非常少的信息。所以我想添加一些信息,比如关于特定领域的新闻(比如政治、好莱坞等)。我相信爬虫是最好的方法吗?如果我的理解是正确的,请建议您是否有任何其他方法来获取信息,而不使用来自各种来源的爬虫。
其次,我正在做过去两天的研究,但我找不到一个特定的来源能够做到这一点。现在我希望爬虫找到信息,规范化并存储在mysql数据库中。听起来很简单哈。但这不适合我。
因为这非常耗费资源和时间。在选择爬虫之前,我应该考虑哪些因素。我也希望定制它,所以任何工具,这是开源的,很好地被定制将是伟大的。
任何提供信息和研究因素的来源在创建爬虫或教育爬虫时都需要考虑,这将是很棒的。我更喜欢用java编写代码,但我可以用任何其他语言编写代码,如果你觉得你有某种语言的话。我希望我已经给出了足够的信息。如果您需要更多的信息来给出建议,请不要犹豫。
发布于 2010-11-11 13:40:42
您可以使用httrack复制目标网站。还有一个叫做spiderzilla的firefox插件。但是,他们只会保存页面。
如果您想解析页面中的数据,那么可以使用simple_html_dom并将信息存储在mySQL中。
发布于 2010-11-11 14:35:34
尝试使用GNU Wget工具。你可以给它的爬行和创建网页数据转储的方式增加很多智能。它是开源的,也是可定制的,而且速度非常快。
https://stackoverflow.com/questions/4151608
复制相似问题