*编辑:这个问题的解决方案低于这个问题,因为不可能发布答案。人们决定结束这个问题*
最近,我发现谷歌代理的一些变体访问我的网站。我怀疑这些google爬虫是合法的,因为这些爬虫并不总是在代理后面(就像主机名所描述的那样),并将自己标识为浏览器。主机名的格式类似/类似于google,但是添加了字符串'proxy‘。
我的PHP阻塞类会阻止这些爬虫,但是阻止这些爬虫是正确的吗?他们是什么,这些是来自谷歌还是它是假的?
这里有一些关于这些爬行器的信息:
BlockedIp Notifier Report - IP:66.249.81.131:: has been blocked
Ticket ID : {EVNT_136877_2013040520130402_33147_10348}
Event type : Access blocked
Event date : 04/05/2013 - 19:17:47 (server date-time)
Event counter : First occurring
Processed url : http://streambutler.net/
From url : http://www.google.com/search
Domain : streambutler.net
Domain IP : 95.170.70.213
Visitor IP : 66.249.81.131
Proxy IP : 66.249.81.131
Critical : Yes
Action required : No
Additional information
Problem : Bad Proxy - via 66.249.81.131
Hostname : google-proxy-66-249-81-131.google.com
Block : Yes
Refferer : http://www.google.com/search
AgentString : Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.4 (KHTML, like G...
Browser : Chrome 22.0.1229
Platform : Linux
Robot : No
Mobile : No
Tablet : No
Console : No
Crawler : No
Agent_type : browser
Agent_name : chrome
Agent_version : 22.0.1229
Os_type : linux
Os_name : linux
Agent_languagetag : en
Status : ok
Request : 66.249.81.131
Languagecode : us
Country : United States
Region : California
City : Mountain View
Zipcode : 94043
Latitude : 37.406
Longitude : -122.079
Timezone : -07:00
Available from : \'http
Areacode : 0
Dmacode : 0
Continentcode : na
Currencycode : USD
Currencysymbol : $
Currencysymbol_utf8 : $
Currencyconverter : 1
Extended : 1
Organization : NULL
其他变体发现
编辑:下一个是奇怪的,Firefox6.0在Windows7上和上面的IP相同,但不是下一个日志中的代理吗?如果是移动代理,这是不是很奇怪?
Ticket ID : {EVNT_164838_2013040520130402_33147_10348}
Event type : Access blocked
Event date : 04/05/2013 - 19:19:07 (server date-time)
Event counter : First occurring
Processed url : http://streambutler.net/
From url : Unknown or direct link
Domain : streambutler.net
Domain IP : 95.170.70.213
Visitor IP : 66.249.81.131
Proxy IP : (not present)
Critical : Yes
Action required : No
Additional information
Problem : Blocked Server IP address (analysis) - 66.249.81.131
Hostname : google-proxy-66-249-81-131.google.com
Block : Yes
Refferer : (direct access)
AgentString : Mozilla/5.0 (Windows NT 6.1; rv:6.0) Gecko/20110814 Firefox/6.0 ...
Browser : Firefox 6.0
Platform : Windows 7
Robot : No
Mobile : No
Tablet : No
Console : No
Crawler : No
Agent_type : browser
Agent_name : firefox
Agent_version : 6.0
Os_type : windows
Os_name : windows 7
Agent_languagetag : en
Status : ok
Request : 66.249.81.131
Languagecode : us
Country : United States
Region : California
City : Mountain View
Zipcode : 94043
Latitude : 37.406
Longitude : -122.079
Timezone : -07:00
Available from : \'http
Areacode : 0
Dmacode : 0
Continentcode : na
Currencycode : USD
Currencysymbol : $
Currencysymbol_utf8 : $
Currencyconverter : 1
Extended : 1
Organization : NULL
编辑:解决方案:
明白了!这些‘爬虫’不是爬虫,而是谷歌搜索引擎使用的实时网站预览的一部分。
我尝试过这样做,在预览中显示我的一个网站,是的,收到了一条blockedIP消息。
如果您希望用户能够查看您的网站预览,您必须接受这些‘爬虫’。
就像其他人说的那样:“这个网址的根域是google.com,很难被欺骗”。
结论:可以信任这些机器人或爬虫,并用于显示google中的预览。
发布于 2013-04-05 18:00:50
我还没有证实,但我怀疑这些I可能与谷歌Chrome Mobile的数据压缩代理有关:
https://developers.google.com/chrome/mobile/docs/data-compression
如果是这样的话,阻止他们将导致您的网站不正确地显示给一些完全无辜的移动用户。
它还可能与使用Google + 1按钮抓取页面片段的Google+爬虫相关联:
https://code.google.com/p/google-plus-platform/issues/detail?id=178
底线是,这些is是用于由谷歌内部的东西启动的网络请求。它们不是公开的网络代理。
https://stackoverflow.com/questions/15840440
复制相似问题