我正在使用刮除从一个网站上对书籍的评论。到目前为止,我已经做了一个爬虫和刮评论的单一的一本书,把它的网址作为启动网址由我自己,我甚至不得不给标签的评论,由我自己从页面的源代码找到它。它起作用了。但问题是,直到现在,我手动完成的工作,我希望它是自动完成的。也就是说,我想要某种方式,爬虫应该能够找到书的网页在网站上,并刮它的评论。我从goodreads中提取评论,它没有为url提供统一的方法,甚至对于不同的书籍,标签也是不同的。而且我不想用Api。我想自己做所有的工作。任何帮助都将不胜感激。
发布于 2016-06-21 10:24:01
HtmlAgilityPack帮助我解析和阅读这些评论的Xpath。它奏效了:)
发布于 2014-05-02 08:43:24
看来,CrawlSpider可以满足您的需要。您可以从以下几个方面开始:
start_urls = ['https://www.goodreads.com']
的启动url列表。Rule
:
规则=( Rule(SgmlLinkExtractor(allow=(r'book/show/.+',),回调=‘解析_注释’),)https://stackoverflow.com/questions/23423582
复制相似问题