张戈的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

张戈的专栏

专栏成员

328

文章

982076

阅读量

102

订阅数

发现插件生成的robots.txt不能被谷歌和360识别

wordpress seo 爬虫网站建设

上次通过《正确的 Win 主机网站伪静态设置方法》重新设置了玛思阁的伪静态，当时由于使用 Rewrite robots 没有效果，就安装了一个生成 robots.txt 的插件，然后发现访问 robots 地址也有了指定的内容。几天却发现 360 全部被 K，仅剩首页，而谷歌也不再收录新页面，一直以为是我的 robots 内容有误，于是搜来搜去，改了无数次 robots 内容。谷歌在【已拦截的网址】选项中总是显示【语法有误】，在 sitemap 提交界面也用英文提示“所有内容被 robots 拦截...”云

2018-03-26

9510

SecureCRT全局发送相同命令，快速抓取服务器信息的方法

grep windows 爬虫 http bash

昨天，在新公司接到了第一个任务：统计所有服务器的几个信息。200 多台呢！一个台一台的去执行命令也太苦逼了吧？于是度了下，找到了这个方法，感觉很不错！现在来分享下，希望对像我这样苦逼的人有所帮助！一、SecureCRT 同时向多个 session 发送相同命令的方法对于要管理多台服务器的 SA 或 DBA 来说, 如果要在所有服务器上操作同样的命令, 一台台登陆操作是个很笨的方法. 一直以为 SecureCRT 没有这个功能, 曾经转向使用有该功能的 Xshell 软件, 但是 Xshell 又没有横向

2018-03-23

1.5K0

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站

apache nginx php 爬虫

我们都知道网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守 robots 规则对服务器造成压力，还不能为网站带来流量的无用爬虫，比如宜搜蜘蛛（YisouSpider）（最新补充：宜搜蜘蛛已被 UC 神马搜索收购！所以本文已去掉宜搜蜘蛛的禁封！==>相关文章)。最近张戈发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录，于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。一、Apache ①、通过修改 .htacce

2018-03-23

2.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态