首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

SEO分享:彻底禁止搜索引擎抓取/收录动态页面或指定路径的方法

最近张戈博客收录出现异常,原因并不明朗。我个人猜测存在如下几个直接原因: 更换主题,折腾时带来过多错误页面或间歇性访问错误; 直接线上折腾 Nginx 缓存和缩略图,可能导致间歇性大姨妈; 新发文章瞬间被转载,甚至是整站被采集,可能导致“降权”; 百度居然开始收录动态页面,而且还在持续抓取动态页面。 对于前三个,已发生的已无法改变,要发生的也无法阻止。对于转载和采集,我也只能在 Nginx 加入 UA 黑名单和防盗链机制,略微阻碍一下了,但是实际起不到彻底禁止作用,毕竟整个天朝互联网大环境就是这样一个不好

06

【重磅】33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接

05

PHPCMSV9深度整合百度编辑器ueditor

支持到PHPCMS V9.1.18 前段时间由于结婚,耽搁了ueditor 1.2.2的整合,实在抱歉。最近几天熬夜整合了ueditor 1.2.3,依然是亮点与BUG同样闪耀的ueditor,依然是深度整合PHPCMS V9。 ueditor官方网站:http://ueditor.baidu.com/ ueditor在线演示:http://ueditor.baidu.com/website/onlinedemo.html PHPCMS 官方网站:http://www.phpcms.cn/ 注意:所有文件都是utf-8编码,gbk编码的同学需要自行转换编码。 感谢aqstudio同学进行gbk转码,gbk编码的同学请移步:http://bbs.phpcms.cn/thread-697394-1-1.html 下载方式依然在最后! 2012年12月14日9时30分:修复前台会员中心投稿和黄页中上传页面显示问题(前台会员中心投稿要使用上传功能,需在后台“用户”》“管理会员组”中为相关用户组设置“允许上传附件”)。 2012年9月22日21时30分:修复抓取多个远传图片后所有图片均显示为第一个图片的问题。感谢水影(QQ:506883601)反馈BUG。(涉及文件:ueditor.php) 2012年9月13日23时20分:修复图片上传后在附件表中图片记录的status的状态为“0”的问题,修复图片上传后图片名(filename)的后缀名重复的问题。感谢DON(QQ:313959887)反馈BUG。(涉及文件:attachment.class.php,ueditor.php,wordimage.tpl.php,wordimage.tpl.php,editor_all.js,scrawl.js) 2012年9月4日16时30分:修复子标题对话框不能显示的BUG。 2012年9月4日0时30分:整合ueditor1.2.3,新增图片上传水印控制、涂鸦、远程图片抓取、word图片转存等功能,修复PHPCMS V9后台管理启用二级域名引发的JS跨域问题,改进子标题显示。感谢遥望(QQ:1239523)反馈修改意见。 2012年7月9日22时10分:由于最近准备婚礼,ueditor1.2.2整合只能推迟了,非常抱歉,敬请谅解! 2012年6月9日16时20分:修复staticsjsueditordialogsimageimage.js中ueditor路径调用错误的BUG(造成前台、黄页或者其他位置上传图片时flash上传组件不能显示) 2012年6月2日22时50分:ueditor升级到1.2.1版本,新增了对远程抓取图片功能的整合(由于ueditor1.2.1改动较大,整合花了点时间,放出的晚了,请见谅,IE6下未测试,请用IE6的朋友帮忙测试一下) 2012年4月8日14时30分:感谢 “名湖(QQ:52061009)”帮助修改完善ueditor初始化代码和数据校验代码,修正编辑器z-index的问题,向名湖致敬! 2012年4月7日晚9时:修正由于window.onload冲突而引起在谷歌浏览器下添加和修改新闻时提示“[hash]数据验证失败”的BUG。 主要功能: 1.为ueditor添加PHPCMS V9子标题插件 2.图片上传采用ueditor的默认上传插件 3.附件上传采用PHPCMS V9的附件上传 4.上传路径采用PHPCMS V9的默认目录模式 5.修正了PHPCMS V9 未使用附件列表中没有文件名的一个小BUG 6.实现远程图片抓取功能 7.整合ueditor涂鸦功能 8.整合ueditor word图片转存功能 9.修复PHPCMS V9后台管理启用二级域名而引发的JS跨域问题 10.支持前台用户投稿和黄页新闻发布 上图片:

04

【推荐收藏】33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接

05
领券