首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >注释不使用Api进行刮擦

注释不使用Api进行刮擦
EN

Stack Overflow用户
提问于 2014-05-02 08:11:24
回答 2查看 517关注 0票数 0

我正在使用刮除从一个网站上对书籍的评论。到目前为止,我已经做了一个爬虫和刮评论的单一的一本书,把它的网址作为启动网址由我自己,我甚至不得不给标签的评论,由我自己从页面的源代码找到它。它起作用了。但问题是,直到现在,我手动完成的工作,我希望它是自动完成的。也就是说,我想要某种方式,爬虫应该能够找到书的网页在网站上,并刮它的评论。我从goodreads中提取评论,它没有为url提供统一的方法,甚至对于不同的书籍,标签也是不同的。而且我不想用Api。我想自己做所有的工作。任何帮助都将不胜感激。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-06-21 10:24:01

HtmlAgilityPack帮助我解析和阅读这些评论的Xpath。它奏效了:)

票数 0
EN

Stack Overflow用户

发布于 2014-05-02 08:43:24

看来,CrawlSpider可以满足您的需要。您可以从以下几个方面开始:

  • 指定爬虫start_urls = ['https://www.goodreads.com']的启动url列表。
  • 要用书籍标识urls,可以创建以下Rule: 规则=( Rule(SgmlLinkExtractor(allow=(r'book/show/.+',),回调=‘解析_注释’),)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23423582

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档