文章/答案/技术大牛

发布

社区首页 >问答首页 >使用导入IO搜索数据

问使用导入IO搜索数据
EN

Stack Overflow用户

提问于 2014-10-06 21:30:59

回答 1查看 556关注 0票数 0

如何在importIO中的爬虫中使用crawler？

例如，有一个公司详细信息列表(分页)，每个公司都有一个评论列表(它也是分页的)。

我需要抓取一个公司的详细信息，以及每个公司的“所有”评论。我如何才能做到这一点？我需要两个表(company和reviews)吗？另外，我如何使用importIO来实现这一点呢？

web-crawler

webpage

extraction

回答 1

Stack Overflow用户

发布于 2015-01-21 20:43:02

在不知道具体网站的情况下，很难发表评论。例如，在站点上实现分页的方式将影响您获取数据的方式。URL结构也将扮演重要的角色。

如果您可以在页面的HTML (查看源代码/检查元素)中看到您想要的所有数据，那么您很有可能将这些数据作为API/CSV。

因此您需要执行以下任一操作：

在此处分享URL(以及奖励积分方案)
email support@import.io with specifics

回答更一般的问题：“如何在importIO中的爬虫中使用crawler？”。

简而言之，答案是肯定的，但不是通过常规UI，您需要进行一些编码。

长答案=是！你可以创建一个我们称为“链式API”的东西，它从一个抓取的提取中获取URL，并将这些URL提供给第二个提取器，后者获得其余的信息。然后，您只需在Post Extraction Data QA流程中记录匹配即可。

也就是说，除非您想要的所有数据都嵌入在单个URL中，并且您需要获取所有这些数据。在这种情况下，您正在考虑使用单行训练和大量Xpath来制作连接器，但是它应该可以工作！

有关更多信息，请查看以下链接中的知识库文章：http://support.import.io/knowledgebase/topics/51287-tutorials

谢谢!

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26217330

复制

相似问题

问使用导入IO搜索数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用导入IO搜索数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用导入IO搜索数据
EN