我的要求是通过在网上搜索给定的关键字来报告给定的关键字。
我的计划是我的网络爬虫
因为我想制定一条遵守网络爬虫的规则。所以当我看到这些网站的robots.txt
时,我就知道搜索引擎已经屏蔽了网页爬虫来搜索关键字,比如
google.com/robots.txt
User-agent: *
Disallow: /search
我知道,如果我试图在搜索引擎上搜索关键字,我的ip可能会被封锁。
我的新计划我的网络爬虫会
问题
PS:我正在使用Java和Jsoup进行网络爬行
发布于 2017-09-15 05:29:17
尝试使用selenium来实现您的job.Its自动化,这样我就不会认为您的ip会被任何服务提供商阻塞。
https://stackoverflow.com/questions/46232200
复制相似问题