首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    robots协议标准

    前两天刚知道用爬虫抓取page有个协议的问题,尤其是对于open source的爬虫,刚看到一篇blog,写的就是如此,难怪之前看google的robots也和另外一个U.S.的网站相同,感情是大家都商量好了, 可能这方面中国的一些站点这种意识要稍微淡一点。。。同时这也害得毕设还得另谋思路。。。     搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年Google,雅虎,微软就合作,共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布,共 同遵守的 robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签 的标准,以及一些各自特有的标准。下面做一个总结。 三家都支持的robots文件记录包括: Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件: User-agent: * Disallow: / Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件: User-agent: * Disallow: /ab/ Allow: /ab $通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL: User-agent: * Allow: .htm$ *通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件: User-agent: * Disallow: /*.htm Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里,格式为:Sitemap: <sitemap_XXXXXX> 三家都支持的Meta标签包括: NOINDEX - 告诉蜘蛛不要索引某个网页。 NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。 NOSNIPPET - 告诉蜘蛛不要在搜索结果中显示说明文字。 NOARCHIVE - 告诉蜘蛛不要显示快照。 NOODP - 告诉蜘蛛不要使用开放目录中的标题和说明。 上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。 只有Google支持的Meta标签有: UNAVAILABLE_AFTER - 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。 NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。 NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。 雅虎还支持Meta标签: Crawl-Delay - 允许蜘蛛延时抓取的频率。 NOYDIR - 和NOODP标签相似,但是指雅虎目录,而不是开放目录。 Robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。 MSN还支持Meta标签:Crawl-Delay     另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时 之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。

    04

    PHPCMSV9深度整合百度编辑器ueditor

    支持到PHPCMS V9.1.18 前段时间由于结婚,耽搁了ueditor 1.2.2的整合,实在抱歉。最近几天熬夜整合了ueditor 1.2.3,依然是亮点与BUG同样闪耀的ueditor,依然是深度整合PHPCMS V9。 ueditor官方网站:http://ueditor.baidu.com/ ueditor在线演示:http://ueditor.baidu.com/website/onlinedemo.html PHPCMS 官方网站:http://www.phpcms.cn/ 注意:所有文件都是utf-8编码,gbk编码的同学需要自行转换编码。 感谢aqstudio同学进行gbk转码,gbk编码的同学请移步:http://bbs.phpcms.cn/thread-697394-1-1.html 下载方式依然在最后! 2012年12月14日9时30分:修复前台会员中心投稿和黄页中上传页面显示问题(前台会员中心投稿要使用上传功能,需在后台“用户”》“管理会员组”中为相关用户组设置“允许上传附件”)。 2012年9月22日21时30分:修复抓取多个远传图片后所有图片均显示为第一个图片的问题。感谢水影(QQ:506883601)反馈BUG。(涉及文件:ueditor.php) 2012年9月13日23时20分:修复图片上传后在附件表中图片记录的status的状态为“0”的问题,修复图片上传后图片名(filename)的后缀名重复的问题。感谢DON(QQ:313959887)反馈BUG。(涉及文件:attachment.class.php,ueditor.php,wordimage.tpl.php,wordimage.tpl.php,editor_all.js,scrawl.js) 2012年9月4日16时30分:修复子标题对话框不能显示的BUG。 2012年9月4日0时30分:整合ueditor1.2.3,新增图片上传水印控制、涂鸦、远程图片抓取、word图片转存等功能,修复PHPCMS V9后台管理启用二级域名引发的JS跨域问题,改进子标题显示。感谢遥望(QQ:1239523)反馈修改意见。 2012年7月9日22时10分:由于最近准备婚礼,ueditor1.2.2整合只能推迟了,非常抱歉,敬请谅解! 2012年6月9日16时20分:修复staticsjsueditordialogsimageimage.js中ueditor路径调用错误的BUG(造成前台、黄页或者其他位置上传图片时flash上传组件不能显示) 2012年6月2日22时50分:ueditor升级到1.2.1版本,新增了对远程抓取图片功能的整合(由于ueditor1.2.1改动较大,整合花了点时间,放出的晚了,请见谅,IE6下未测试,请用IE6的朋友帮忙测试一下) 2012年4月8日14时30分:感谢 “名湖(QQ:52061009)”帮助修改完善ueditor初始化代码和数据校验代码,修正编辑器z-index的问题,向名湖致敬! 2012年4月7日晚9时:修正由于window.onload冲突而引起在谷歌浏览器下添加和修改新闻时提示“[hash]数据验证失败”的BUG。 主要功能: 1.为ueditor添加PHPCMS V9子标题插件 2.图片上传采用ueditor的默认上传插件 3.附件上传采用PHPCMS V9的附件上传 4.上传路径采用PHPCMS V9的默认目录模式 5.修正了PHPCMS V9 未使用附件列表中没有文件名的一个小BUG 6.实现远程图片抓取功能 7.整合ueditor涂鸦功能 8.整合ueditor word图片转存功能 9.修复PHPCMS V9后台管理启用二级域名而引发的JS跨域问题 10.支持前台用户投稿和黄页新闻发布 上图片:

    04

    被网页挂马攻击的几个要素_网站挂马检测工具箱书籍

    网马的本质是一个特定的网页,这个网页包含了攻击者精心构造的恶意代码,这些恶意代码通过利用浏览器(包括控件、插件)的漏洞,加载并执行攻击者指定的恶意软件(通常是木马)。 网站挂马是黑客植入木马的一种主要手段。黑客通过入侵或者其他方式控制了网站的权限,在网站的Web页面中插入网马,用户在访问被挂马的网站时也会访问黑客构造的网马,网马在被用户浏览器访问时就会利用浏览器或者相关插件的漏洞,下载并执行恶意软件。其本质是利用浏览器和浏览器控件、插件的漏洞,通过触发漏洞获取到程序的执行权限,执行黑客精心构造的shellcode。

    02
    领券