如何在importIO中的爬虫中使用crawler?
例如,有一个公司详细信息列表(分页),每个公司都有一个评论列表(它也是分页的)。
我需要抓取一个公司的详细信息,以及每个公司的“所有”评论。我如何才能做到这一点?我需要两个表(company和reviews)吗?另外,我如何使用importIO来实现这一点呢?
发布于 2015-01-21 20:43:02
在不知道具体网站的情况下,很难发表评论。例如,在站点上实现分页的方式将影响您获取数据的方式。URL结构也将扮演重要的角色。
如果您可以在页面的HTML (查看源代码/检查元素)中看到您想要的所有数据,那么您很有可能将这些数据作为API/CSV。
因此您需要执行以下任一操作:
回答更一般的问题:“如何在importIO中的爬虫中使用crawler?”。
简而言之,答案是肯定的,但不是通过常规UI,您需要进行一些编码。
长答案=是!你可以创建一个我们称为“链式API”的东西,它从一个抓取的提取中获取URL,并将这些URL提供给第二个提取器,后者获得其余的信息。然后,您只需在Post Extraction Data QA流程中记录匹配即可。
也就是说,除非您想要的所有数据都嵌入在单个URL中,并且您需要获取所有这些数据。在这种情况下,您正在考虑使用单行训练和大量Xpath来制作连接器,但是它应该可以工作!
有关更多信息,请查看以下链接中的知识库文章:http://support.import.io/knowledgebase/topics/51287-tutorials
谢谢!
https://stackoverflow.com/questions/26217330
复制相似问题