我有几个网站,我经常查看这些网站来比较产品价格。Atm我必须手动登录和搜索每个网站上的产品id,以获得产品的详细信息(价格)。
过一段时间后,这既耗时又乏味。
我正在考虑做一个网络应用程序,我可以用我的登录凭证进入所有这些网站。我只需要输入一个产品ID,我的way应用程序就可以从这些网站获得所有结果,并以可比较的方式显示它们。
我不会假设这些网站有API,所以我在寻找最好的方法来实现这一点。我认为这不是那么简单,因为我需要登录+搜索产品。
对如何实现这一点有什么建议吗?
谢谢!
发布于 2012-06-02 10:03:55
+1到Marc B的评论。如果TOS没有明确禁止(因为这也会被视为爬虫程序),那么您应该看看/robots.txt
是否禁止您访问产品搜索。如果两者都不禁止,我会建议使用基于浏览器的机器人来为您获取结果,原因很简单,因为它听起来更实用,而且您不必处理cookie。
但是,如果您想使用PHP发出页面请求,我会将您转到HttpRequest。有一个页面,您可以在其中登录到所有站点(使用登录脚本上的POST请求),并保持返回的会话cookie方便。在搜索产品页面时,确定HTML的哪一部分始终返回后面的产品列表(正则表达式可能会有所帮助),并创建一个返回有关产品信息的算法(对于要抓取的每个网站,算法应该是不同的)。然后比较结果!
https://stackoverflow.com/questions/10858605
复制相似问题