我的问题开始于我试图爬行一个应用程序商店,比如说google play。每个应用程序都有很多评论,我想快速抓取它们。但是google的评论部分是由java script生成的。下面是一个链接,例如:https://play.google.com/store/apps/details?id=com.gameloft.android.ANMP.GloftAMHM。在该链接中,您可以看到,为了生成更多的评论,您需要多次单击一个按钮。(在5-6次点击后)页面通过执行javascript生成更多的评论。
首先,我用一个网页驱动程序(firefox)解决了这个问题,并模拟了一个真人点击按钮,它会生成评论,然后他会一直按住,直到所有评论都生成。
这样做的问题是: 1,它需要太多的时间。2,有时在大量点击和JS生成后,web浏览器无法响应。
我需要的是一种方法,以更好,更快的方式生成每个应用程序的所有评论。也许有某种技术,或者其他任何东西可以改进我的解决方案,
我使用的是我在scrapy中创建的一个爬虫。
我们将非常感谢您的帮助。
发布于 2015-05-04 21:38:34
他们生成/显示额外评论的原因之一就是他们不希望有人抓取他们……另一种是在没有注释的情况下加载初始页面(速度更快),并且只有在有人开始阅读评论以显示更多评论的情况下才能加载。
除非他们提供了一个API,你可以一次拉出所有评论,否则我看不到另一种快速拉出评论的方法,除了模拟点击和滚动之外……(慢慢来)
发布于 2015-05-04 22:02:37
你尊重robots.txt吗?为什么或者为什么不?
https://stackoverflow.com/questions/30031391
复制相似问题