文章/答案/技术大牛

发布

问注释不使用Api进行刮擦
EN

Stack Overflow用户

提问于 2014-05-02 08:11:24

回答 2查看 517关注 0票数 0

我正在使用刮除从一个网站上对书籍的评论。到目前为止，我已经做了一个爬虫和刮评论的单一的一本书，把它的网址作为启动网址由我自己，我甚至不得不给标签的评论，由我自己从页面的源代码找到它。它起作用了。但问题是，直到现在，我手动完成的工作，我希望它是自动完成的。也就是说，我想要某种方式，爬虫应该能够找到书的网页在网站上，并刮它的评论。我从goodreads中提取评论，它没有为url提供统一的方法，甚至对于不同的书籍，标签也是不同的。而且我不想用Api。我想自己做所有的工作。任何帮助都将不胜感激。

python

web-crawler

scrapy

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-06-21 10:24:01

HtmlAgilityPack帮助我解析和阅读这些评论的Xpath。它奏效了:)

票数 0

Stack Overflow用户

发布于 2014-05-02 08:43:24

看来，CrawlSpider可以满足您的需要。您可以从以下几个方面开始：

指定爬虫start_urls = ['https://www.goodreads.com']的启动url列表。
要用书籍标识urls，可以创建以下Rule：规则=( Rule(SgmlLinkExtractor(allow=(r'book/show/.+'，)，回调=‘解析_注释’)，)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23423582

复制

相似问题

问注释不使用Api进行刮擦
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问注释不使用Api进行刮擦EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问注释不使用Api进行刮擦
EN