首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

网站被入侵新增违法快照的解决案例

2022年6月10号距离世界杯的开幕还差5个多月,许多网站以及IIS被劫持收录大量TFWC 2022年卡塔尔世界杯、体育等菠菜违规内容快照,大家也可以自行检查下自己的网站在百度权重,是否上升的很快,再一个查看关键词排名情况,如果发现都是一些体育,菠菜,QP等等的长尾关键词,那基本上就是网站被黑客入侵并篡改了代码,我们SINE安全公司近期处理了许多中小企业网站的客户,他们也都是收录的世界杯菠菜相关内容的百度快照,网站很多页面的标题、描述都被篡改,访问网站正常也察觉不出网站被攻击或者被劫持,像快照被劫持这种比较隐蔽的攻击,许多站长不容易发现,得需要专业的安全技术才能检查的出来。

02

为什么百度快照标题与实际不相符?SEO优化必看!

当我们在搜索引擎中搜索时,结果页面上会出现网页标题、描述等内容,我们称之为搜索引擎快照。通常快照的内容与点击搜索结果打开的页面内容一致,但偶尔快照与真实页面内容不一致。原因是什么?首先,我们对快照做一个简单的了解,很多网站的企业或站长都对百度的快照的理解有基础,那就是一旦有了快照收录才能让网站在搜索关键词中有排名。以百度为例。当我们在百度搜索某个关键词时,往往会有两种结果,一种是广告,另一种是百度快照。我们把广告竞价变成SEM,把快照优化成SEO。我们常说的搜索引擎优化其实就是快照优化。是指通过人工网站架构、程序优化、内链、外链等一系列技术手段,将网站优化到自然排名。

05

网站快照出现其它内容的原因与处理办法

最近不少企业,站长网站被劫持成bo彩,网站上出现了一些电影名称的内容,甚至网站在百度里的快照都遭到了劫持,而被篡改为非法平台的内容,而且这些网站在百度等搜索引擎的收录上也有问题,收录了很多不合法的内容,一些企业的网站也被百度、360等安全中心截获,提示网站有非法信息或者正遭受黑客攻击。所谓网站劫持,是黑客利用网站存在的漏洞或暴力破解的阻止进入后台网站管理进行攻击渗透,获得网站管理权限后,进行篡改网站文件、内容、标题、说明等,并吸引搜索引擎蜘蛛进行收录,在搜索引擎快照更新之后,一些违反法律的关键字将被排在搜索引擎首页,之所以劫持网站,是为了利用这种方法获得用户和流量。

02

robots协议标准

前两天刚知道用爬虫抓取page有个协议的问题,尤其是对于open source的爬虫,刚看到一篇blog,写的就是如此,难怪之前看google的robots也和另外一个U.S.的网站相同,感情是大家都商量好了, 可能这方面中国的一些站点这种意识要稍微淡一点。。。同时这也害得毕设还得另谋思路。。。     搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年Google,雅虎,微软就合作,共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布,共 同遵守的 robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签 的标准,以及一些各自特有的标准。下面做一个总结。 三家都支持的robots文件记录包括: Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件: User-agent: * Disallow: / Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件: User-agent: * Disallow: /ab/ Allow: /ab $通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL: User-agent: * Allow: .htm$ *通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件: User-agent: * Disallow: /*.htm Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里,格式为:Sitemap: <sitemap_XXXXXX> 三家都支持的Meta标签包括: NOINDEX - 告诉蜘蛛不要索引某个网页。 NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。 NOSNIPPET - 告诉蜘蛛不要在搜索结果中显示说明文字。 NOARCHIVE - 告诉蜘蛛不要显示快照。 NOODP - 告诉蜘蛛不要使用开放目录中的标题和说明。 上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。 只有Google支持的Meta标签有: UNAVAILABLE_AFTER - 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。 NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。 NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。 雅虎还支持Meta标签: Crawl-Delay - 允许蜘蛛延时抓取的频率。 NOYDIR - 和NOODP标签相似,但是指雅虎目录,而不是开放目录。 Robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。 MSN还支持Meta标签:Crawl-Delay     另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时 之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。

04

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

最近张戈博客收录出现异常,原因并不明朗。我个人猜测存在如下几个直接原因: 更换主题,折腾时带来过多错误页面或间歇性访问错误; 直接线上折腾 Nginx 缓存和缩略图,可能导致间歇性大姨妈; 新发文章瞬间被转载,甚至是整站被采集,可能导致“降权”; 百度居然开始收录动态页面,而且还在持续抓取动态页面。 对于前三个,已发生的已无法改变,要发生的也无法阻止。对于转载和采集,我也只能在 Nginx 加入 UA 黑名单和防盗链机制,略微阻碍一下了,但是实际起不到彻底禁止作用,毕竟整个天朝互联网大环境就是这样一个不好

06
领券