我有一个大约600万小句子的数据集。我试图用每句话作为对Google的查询来扩展这些句子,并从搜索结果中展开每个句子。
然后,我发现GCS有一个限制,您不能每天发出超过100个查询(这真的很小),而且付费版本太贵了。
在搜索时,我发现了一些叫做http://www.faroo.com/hp/api/api.html#ratelimit的东西,但它们也有1万个查询/月的限制,并且考虑到我想要的查询数量,这仍然需要6个月的时间,这是我负担不起的。爬行搜索结果(即使这违反了TOS)将不能工作,因为谷歌将使用Captcha,甚至阻止我的IP一旦感觉到爬虫的请求速度。
我真的很感谢你在这里的意见..?你知道还有什么能满足我需求的来源吗?
发布于 2016-08-17 10:32:43
抓取搜索结果并使用CAPTCHA服务是在预算中可行的唯一方法。如果您能够通过代理使用多个IP,那么这是一个优势,因为您可以限制爬行,以尽可能避免CAPTCHA。
用于Google爬行的服务:
https://stackoverflow.com/questions/38971316
复制相似问题