首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用导入IO搜索数据

使用导入IO搜索数据
EN

Stack Overflow用户
提问于 2014-10-06 21:30:59
回答 1查看 556关注 0票数 0

如何在importIO中的爬虫中使用crawler?

例如,有一个公司详细信息列表(分页),每个公司都有一个评论列表(它也是分页的)。

我需要抓取一个公司的详细信息,以及每个公司的“所有”评论。我如何才能做到这一点?我需要两个表(company和reviews)吗?另外,我如何使用importIO来实现这一点呢?

EN

回答 1

Stack Overflow用户

发布于 2015-01-21 20:43:02

在不知道具体网站的情况下,很难发表评论。例如,在站点上实现分页的方式将影响您获取数据的方式。URL结构也将扮演重要的角色。

如果您可以在页面的HTML (查看源代码/检查元素)中看到您想要的所有数据,那么您很有可能将这些数据作为API/CSV。

因此您需要执行以下任一操作:

  1. 在此处分享URL(以及奖励积分方案)
  2. email support@import.io with specifics

回答更一般的问题:“如何在importIO中的爬虫中使用crawler?”。

简而言之,答案是肯定的,但不是通过常规UI,您需要进行一些编码。

长答案=是!你可以创建一个我们称为“链式API”的东西,它从一个抓取的提取中获取URL,并将这些URL提供给第二个提取器,后者获得其余的信息。然后,您只需在Post Extraction Data QA流程中记录匹配即可。

也就是说,除非您想要的所有数据都嵌入在单个URL中,并且您需要获取所有这些数据。在这种情况下,您正在考虑使用单行训练和大量Xpath来制作连接器,但是它应该可以工作!

有关更多信息,请查看以下链接中的知识库文章:http://support.import.io/knowledgebase/topics/51287-tutorials

谢谢!

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26217330

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档