首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用Java开发自动web爬虫

用Java开发自动web爬虫
EN

Stack Overflow用户
提问于 2014-01-20 08:42:12
回答 1查看 2.1K关注 0票数 1

你好,我想抓取多个电子商务网站,并获得所有可用的产品被抓取和显示在我的网站。我已经使用Java开发了爬虫,但在这方面,我们必须通过提供URL和HTML标记来手动抓取网站,并通过连接URL和解析URL来抓取站点,并在相应的HTML标记中获取产品。在这个例子中,我使用JSoup (“doc.getElementsByTagName”);在名为“爬行”的标签中获取产品

但我想让爬行完全自动化。如果我在我的网站上搜索一个产品,那么相应的产品应该自动从电子商务网站上爬行。如果我想爬行佳能相机,爬虫应该自动完成。

有可能使爬虫自动化吗?如果是,请帮助我做这件事。

EN

回答 1

Stack Overflow用户

发布于 2014-01-23 14:28:38

你最好使用产品API,而不是抓取网站和收集内容。

  1. 抓取比较困难,而且是特定地点的。
  2. 刮擦可能不允许。

这些API中的一些怎么样?

亚马逊产品广告API

eBay购物API

Semantics3

实际API

(注:我个人没有使用过它们。)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21229462

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档