首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >谷歌自定义搜索API的限制和因此的替代品?

谷歌自定义搜索API的限制和因此的替代品?
EN

Stack Overflow用户
提问于 2016-08-16 09:32:24
回答 1查看 1K关注 0票数 3

我有一个大约600万小句子的数据集。我试图用每句话作为对Google的查询来扩展这些句子,并从搜索结果中展开每个句子。

然后,我发现GCS有一个限制,您不能每天发出超过100个查询(这真的很小),而且付费版本太贵了。

在搜索时,我发现了一些叫做http://www.faroo.com/hp/api/api.html#ratelimit的东西,但它们也有1万个查询/月的限制,并且考虑到我想要的查询数量,这仍然需要6个月的时间,这是我负担不起的。爬行搜索结果(即使这违反了TOS)将不能工作,因为谷歌将使用Captcha,甚至阻止我的IP一旦感觉到爬虫的请求速度。

我真的很感谢你在这里的意见..?你知道还有什么能满足我需求的来源吗?

EN

回答 1

Stack Overflow用户

发布于 2016-08-17 10:32:43

抓取搜索结果并使用CAPTCHA服务是在预算中可行的唯一方法。如果您能够通过代理使用多个IP,那么这是一个优势,因为您可以限制爬行,以尽可能避免CAPTCHA。

用于Google爬行的服务:

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38971316

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档