首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在Google上爬行

如何在Google上爬行
EN

Stack Overflow用户
提问于 2017-09-15 05:26:12
回答 1查看 195关注 0票数 0

我的要求是通过在网上搜索给定的关键字来报告给定的关键字。

我的计划是我的网络爬虫

  1. 在谷歌、必应或雅虎上搜索关键词
  2. 打开谷歌、必应或雅虎返回的网页/链接
  3. 使用这些页面制作报告。

因为我想制定一条遵守网络爬虫的规则。所以当我看到这些网站的robots.txt时,我就知道搜索引擎已经屏蔽了网页爬虫来搜索关键字,比如

google.com/robots.txt

代码语言:javascript
运行
复制
User-agent: *
Disallow: /search

我知道,如果我试图在搜索引擎上搜索关键字,我的ip可能会被封锁。

我的新计划我的网络爬虫会

  1. 在谷歌、必应或雅虎上搜索关键词(每天最多搜索2-3次)
  2. 打开谷歌、必应或雅虎返回的网页/链接(在打开搜索引擎返回的每一页/链接时延迟2-3分钟)
  3. 使用这些页面制作报告。

问题

  1. 让我知道,即使经过这么多的小心,谷歌会阻止我的ip吗?这样爬网安全吗?
  2. 另外,让我知道使用代理隐藏/更改实际ip地址的好方法。

PS:我正在使用Java和Jsoup进行网络爬行

EN

回答 1

Stack Overflow用户

发布于 2017-09-15 05:29:17

尝试使用selenium来实现您的job.Its自动化,这样我就不会认为您的ip会被任何服务提供商阻塞。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46232200

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档