我对python和scrapy比较陌生,对于我正在尝试解决的问题,我需要一些帮助。我正在尝试爬取亚马逊,并提取用户的评论,为特定的产品使用scrapy和XPath。我想问,是否有比我现有的更优雅的解决方案。
假设我想从this address获取评论。评论页面的结构看起来不太适合提取(使用firebug,您可以看到只有评论区域周围没有特定的标记)。目前我使用的选择器是:hxs.select('//div/text()').extract(),但是正如你可以想象的那样,它会产生大量的垃圾数据,"\n\n\n\n\n"等等。有没有一种更优雅的方式来编写选择器来改善我的结果。
发布于 2012-04-16 09:06:04
一种选择是将“这篇评论来自...”文本。如下所示:
//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()https://stackoverflow.com/questions/10166396
复制相似问题