展开

关键词

从 Google 结果中无价值

因为以前工作的需要,所接触的领域必须在 Google 中才能到相关资源,国内是给掉的。从那时开始习惯使用 Google,也不得不说它的确比国内的引擎涉及的面更广,得到的有价值信息更多。 但它也不是没有缺点的,当你一些中文资料时,几乎每一个结果页中都会看到一些相同的站,比如“无极吧”等类似这些无价值的站,点进去以后实际内容与你想要的根本不符,这些无价值站浪费了我们太多的时间 所以就有了如何在结果中无价值站的想法。在了一下,据说 Google 开始是有这个功能的,但是最后还是去掉了,原因未知。 但 Google 为 Chrome 提供了一款插件 Personal Blocklist 可以实现这个需求,只要在 Chrome 中安装这个插件,并在插件中输入你希望址,那么在 Google 的结果中就会自动这些站 安装这个插件后,可以配合这个 Github 项目中提供的垃圾列表来使用:https:github.comFeioxuseless-websites,这里收录了一些常见的无价值站、钓鱼站等,导入后

2.6K20

google的时候建议这些垃圾

转载请联系授权(微信ID:qianpangzi0206)阅读本文大概需要 2 分钟google中发现好几次了,使用技术术语+中文经常出现一些机器翻译站,比如对 stackoverflow 整篇回答进行机翻 ,那质量是什么玩意,google 又没提供设置可以直接过滤,实在看不下去了,装了个 Chrome 插件叫: uBlacklist 建议把以上几个站全加进去。 uBlacklist站列表:*:*.voidcc.com**:*.codeday.me**:*.voidcn.com**:*.codenong.com**:*.helplib.com**:*.jishuwen.com xbuba.com**:*.androidcookie.com**:*.soinside.com**:*.1r1g.com**:*.oomake.com*用法下载插件 uBlacklist - Chrome 上应用店在设置中添加

71910
 • 广告
  关闭

  90+款云产品免费体验

  提供包括云服务器,云数据库在内的90+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。

 • 您找到你想要的搜索结果了吗?
  是的
  没有找到

  Google 中文结果黑名单

  Google 在采集站的攻势下,中文结果中出现了各种垃圾 SEO 站点,实在是恶心,于是这个黑名单就这么出来了。黑名单纯靠作者使用谷歌时收集,所以更新频率无法保证。 下载地址: https:greasyfork.orgzh-CNscripts1682-google-hit-hider-by-domain-search-filter-block-sites将该列表中的址 注:Google Hit Hider by Domain 与 uBlacklist 的不同,在于 uBlock 是直接隐藏结果,Google Hit Hider by Domain 则有两种方式,一种是直接隐藏 ,一种是降低结果展示的权重。

  28320

  2019年引擎蜘蛛爬虫名称最新整理总汇

  一般我们的站能在百度等引擎上到,说明该引擎的爬虫爬到了我们的站并且被引擎收录。全世界有成千上万的引擎,当然不一定只有引擎才有爬虫蜘蛛。 该蜘蛛抓取频率还是很高的,很多人并不看好,不过如果的话,会损失 UC浏览器 的流量来源。自己斟酌吧!10、还有一些蜘蛛,不会给站带来流量,还会占用资源,建议之。 YoudaoBot(有道蜘蛛):易有道的蜘蛛,并不会带来流量。 JikeSpider(即刻蜘蛛):“即刻”是由人民股份公司于2011年6月20日推出的通用引擎平台,建议。 gigabot:到的是一个 3D 打印公司,没什么乱用,即可。 常用的引擎就那么几个,只要在 robots.txt 文件里把常用的引擎蜘蛛放进来就行,其它的可以统统

  2.3K40

  Robots协议探究:如何好好利用爬虫提高站权重

  站长们通常希望百度、Google 这样的大型引擎来抓取站内容,但又很厌恶其他来路不明的爬虫抓取自己的信息。这样才有“好爬虫”和“坏爬虫”这样的说法。  列出的是要(禁止引擎访问)的页,以正斜线 开头。 如要整个站,直接使用正斜线即可;User-agent: *Disallow: 某个特定的目录以及其中的所有内容,则在目录名后添加正斜线;User-agent: *Disallow: adminDisallow 以 plug- 开头的所有子目录:用到 * User-agent: *Disallow: plug-* php 结尾的文件:用到 $ User-agent: *Disallow: *.php$某个具体的页面 要防止所有引擎将站中的页编入引,在页的部分添加: 这里的name取值可以设置为某个引擎的User-agent从而指定某一个引擎。

  50820

  站页面优化:ROBOTS文件和META ROBOTS

  什么是robots.txtrobots.txt是站管理员创建的文本文件,用于告诉机器人(通常是引擎机器人)如何抓取其站上的页。 最常用的robots.txt优化方法robots.txt最常见的使用方法是引擎,不要抓取不希望引的站区域,提供xml站点地图访问路径,robots.txt放在站根目录,以下为例。 第三种:所有引擎User-agent: *Disallow: *代码解释:第一行、用户代理,*意思是所有引擎;第二行、告诉引擎不要抓取和收录站所有的文件和文件夹。 上述三种情况注意到,如果在robots.txt中乱写一些东西,对站伤害很大。Disallow:*这个指令就是所有引擎。如果站使用该指令引擎会从引中删除站,所以一定要小心。 ;第二行、允许所有引擎访问你的站没有任何;第三行、指定站地图位置以便引擎更容易找到它。

  40650

  Robots协议

  一:引擎蜘蛛爬虫的原理蜘蛛是通过页的链接地址来寻找页,从站某一个页面(通常是首页)开始,读取页的内容,找到在页中的其他链接地址,然后通过这些链接地址寻找下一个页,这样一直循环下去,直到把这个站所有的页都抓取完为止 事实上,当你对站进行robots后,他不会马上就采取行动,他是一个单方面协议,蜘蛛可以听从,也可以不听从! 以淘宝为例子:www.taobao.comrobots.txt淘宝了百度蜘蛛对淘宝站内页的提取。 例如,想针对所有引擎这么一个路径www.xxxx.comhelpindex.html,那写法可以是下面这样:Uuser-agent:*Disallow: helpindex.html3.Allow *这个代码意思是带?的所有URL。京东了所有蜘蛛的爬取,他做自己的品牌,不允许别人来抓取。

  41370

  爬虫协议 Tobots

  一、简介Robots 协议(也称为爬虫协议、机器人协议等)的全称是“爬虫排除标准”(Robots Exclusion Protocol),站通过 Robots 协议告诉引擎哪些页面可以抓取,哪些页面不能抓取 robots.txt 是引擎访问站的时候要查看的第一个文件。 百度官方建议,仅当您的站包含不希望被引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望引擎收录站上所有内容,请勿建立 robots.txt 文件。 从引擎优化的角度来看,可以通过页面,达到集中权重的作用,这也是优化人员最为看重的地方。另外一些站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽。 动态页面,企业类型站点动态页面,有利于站安全。且多个址访问同一页面,会造成权重分散。因此,一般情况下,动态页面,保留静态或伪静态页面。

  21521

  百度神马开打,一场难以言和的交锋

  同时,UC还对外展示了神马的Robots.txt文件并未百度爬虫,还郑重其事地公布了公证处的证书。神马并没有自己的UGC频道(百科、知道等),曾经尝试过做UC社交UC乐园并未成功。 百度的反制措施则是对360过去的流量跳转到首页并进行提示,并且通过Robots.txt了360,遭到后者强制抓取。360浏览器对百度的结果进行了标注。 两家在应用分发上对对方进行了,在与对方相关的结果页则进行了十分直接的提示,号召用户不要使用对方产品。上述过程,在移动端的神马和百度之间,必将重复上演。 目前已经发生的是,UC浏览器开始掐断百度流量,包括修改默认、修改百度首页文字链、修改相关词和热词链接以及修改默认首页,百度则对UC进行了跳转、制裁。这一切都再自然不过。 猎豹移动浏览器是UC的潜在竞争对手,腾讯则是金山的投资者,而新的狗在腾讯的支持下在移动端又将有大动作,加入到移动大战。背后的关系盘根错节,这场战很可能是,兄弟们动粗,老大坐一起喝茶。

  52550

  爬虫的盗亦有道-Robots协议

  执着爬虫的尺寸 小规模,数量小,爬去速度不敏感,requests库 中规模,数据规模较大,爬取速度敏感scrapy库 大规模,引擎,爬取速度关键定制开发 爬取页 玩转页 爬取站 爬取系列站 最简单的robots.txt只有两条规则:User-agent:指定对哪些爬虫生效 Disallow:指定要址 先说User-agent,爬虫抓取时会声明自己的身份,这就是User-agent, 要整个站,使用正斜线即可;要某一目录以及其中的所有内容,在目录名后添加正斜线;要某个具体的页,就指出这个页。 同时,京东完全了一淘的蜘蛛(EtaoSpider是一淘的蜘蛛)。Robots协议进阶知识sitemap 爬虫会通过页内部的链接发现新的页。但是如果没有连接指向的页怎么办? 要防止所有引擎将站中的页编入引,在页的部分添加: 这里的name取值可以设置为某个引擎的User-agent从而指定某一个引擎。

  1.2K130

  《互联广告管理暂行办法》亮点解读┃腾讯法律评论

  继国家信办6月25日颁布《互联信息服务管理规定》(以下简称《规定》)之后,付费此次是第二次被纳入我国法律体系。 调查组将付费的法律性质定为“商业推广服务”,而《规定》则从信办管辖的互联信息服务的逻辑出发,把互联信息服务视为是信息服务的一种。 这里广告的途径,包括了应用程序、插件、硬件三种,涵盖了近几年司法实践中遇到的各类情形;广告的方式包括了拦截、过滤、覆盖、快进等限制措施,希望对正当经营的广告提供全方位保护。  广告是互联中所特有的,互联平台利用其技术手段,针对他人正常经营的广告活动所进行的一系列不正当行为。这其中比较典型的就是利用各类软件和插件广告,以及流量劫持等行为。 近几年,中国的广告基本集中在视频领域,例如“2008年的迅雷诉超级兔子案”、“2011年的扣扣保镖案”、“2013年的优酷诉金山不正当竞争案”以及“2014年爱奇艺诉极科极客不正当竞争案”等。

  67691

  数据播报 | 谷歌帝国将如何崩塌 从不远的后谷歌时代发来报道

  于是在21世纪20年代中叶,许多人可能都会见证广告产业经历的从转向探的巨大变革。 虽然谷歌还在奋力保护着它在行将就木的广告市场中的霸主地位,不过脸书——这个谷歌在广告领域中谷歌最大的竞争对手——也是一路高歌猛进,并成功用它的In-feed原生广告(将广告插入使用者的信息流中) 主导了广告产业。 据悉,谷歌在这一领域广告收益中,大约75%是来自于IOS设备。这也是苹果用实际行动来响应2010年广告大争论中自己的态度,此举预计必然会对在线广告的业务产生巨大冲击。 于是,投资者只能猜想,谷歌也许会继续沿用老手段,分析用户的声音行为,然后想办法在带幕的设备上放出能让用户接受的广告。

  18120

  注册表常用键值意义

  ”=dword:00000001 ;【F3】命令〖1=〗;〖脱机Web页〗“NoAddingChannels”=dword:00000001 ;禁用【添加频道】〖1=〗“NoRemovingChannels DisalbeDHCPMediaSense”=dword:00000000 ;取得DHCP协议〖0=关闭〗“IPEnableRouter”=dword:00000000 ;允许IP路由(将包传送到整个 记录文件的路径“NoOfWordThreads”=dword:00000000 ;控制WINS服务的线程数目1-40“NetBiosGatewayEnable”=dword:00000000 ;限制看到整个 (2000)“NoShellSearchButton”=dword:00000001 ;删除按钮“NoHardwareTab”=dword:00000001 ;系统属性中硬件选项卡“NoAddPrinter ;添加删除程序选项卡中”从安装”页“NoSupportInfo”=dword:00000001 ;添加删除程序选项卡中”支持信息”页“NoAddFromNetwork”=dword:00000001

  36220

  WordPress 站点记得要防范恶意的攻击

  什么是恶意攻击?这种恶意攻击,其实非常简单,就是通过既定的址结构不断对站发起不良关键词访问,比如 WordPress 的址结构为 域名? 2、使用代码实现某些关键词在当前主题目录下wp-contentthemes主题名functions.php 文件添加下列代码:add_action(admin_init, ytkah_search_ban_key );function ytkah_search_ban_key() {add_settings_field(ytkah_search_key, 关键词, ytkah_search_key_callback_function = false ){wp_die(请不要非法关键字);}}}}}然后进入WordPress站后台设置——阅读——找到关键词添加您想关键词,比如(恶意关键词1,恶意关键词2…),一行一个关键词 在后台(设置→阅读)中添加要的关键词保存之后,自己可以测试下,效果如下图所示:?

  14830

  域名为什么会被墙,域名被墙如何解决

  首先我们要先了解什么是墙,其实就是指我们国家的防火墙,之所以会出现域名被墙的情况,是因为域名下的站可能出现了较多的非法信息,这些信息都会被防火墙发现,导致被防火墙。 或者是站上有敏感的内容,这些内容也会被防火墙给。那么域名被墙该如何解决呢?一.判断是否被墙域名被墙如何解决?我们首先要判断我们是不是已经被国家防火墙列入了黑名单之内。 当然并不是只有这一种方法,我们还可以通过上的一些工具来判断自己的域名是否被墙,这些工具也都可以在引擎当中找到。 二.域名被墙如何解决被防火墙将无法使用域名下的站,我们自然就要想一些方法来解除防火墙的,最简单的方法自然也就是换一个新的域名,这种方法也是最直接的。或者使用国内节点的cdn分发进行使用域名。 域名被墙如何解决,最好是能够将站上的非法信息或者敏感信息进行整改,否则继续发布这些信息,仍然有被防火墙的风险。

  45020

  解读百度就“违反Robots协议”向360巨额赔:一场数据争夺战

  引擎梦想是获取所有数据,Robots限制了这一点。Robots也可以设置站点地图、死链接以及减轻服务器压力不让爬虫爬取大文件。 Robots协议现在已逐步成为站主维护利益的工具。 2008年淘宝了Google、百度等引擎也是利用Robots协议,理由是欺诈风险,今年淘宝微信也是类似的理由。 京东商城也通过Robots协议了阿里旗下的购物引擎一淘:因为一淘未经允许抓取京东商品评价,而这些评价花费了京东上亿的积分激励资源。一淘得到苏宁易购的效仿。 显而易见,百度360、淘宝百度、京东和苏宁易购一淘,均是利用Robots协议来应对竞争对手,而不是因为对方的爬虫是“坏爬虫”。 360认为百度不应该将Robots协议这么用,他们抓取的数据是用户创造的,百度不应该。并且百度不应该只对自己

  43570

  你值得安装的24个chrome插件!!!

  上述所有的插件都可以在应用商店进行安装的。❝https:chrome.google.comwebstorecategoryextensions❞广告神器AdGuard ? 百度全家桶百度广告?该插件可以百度线上产品页面广告(、新闻、贴吧、知道、音乐、图片、视频、文库等)。百度推广? 百度时,自动结果中的商业推广链接,让你直接找到你想要的结果,还你一个清爽的百度。百度药丸?该插件可以不仅可以百度广告推广,还能阻止百度追踪;专治百度莆田系、百度黄金眼、百度推广。 绿色?百度结果列表中的广告信息, 将移除或者弱化显示。四盒一疗程,专治广告推广,莆田系、黄金眼,保证药到病除。?学习Google 翻译? Tampermonkey 可以说是一款神奇插件,简称为油猴,可以在上面安装各种脚本,如页广告,盘全速下载,免费观看腾讯、优酷、爱奇艺等各大视频站VIP电影,免费下载酷狗、腾讯等音乐站歌曲,免费下载文库文档

  3.1K40

  互联法律动态报告(11月版)

  【竞争规则】欧洲议会将表决拆分谷歌议案;极路由爱奇艺广告被判不正当竞争;美国法院裁定Google有权安排结果内容。 信办表示,国家安全战略的起草工作正在进行,并正在逐步加强安全立法工作。        苹果已针对中国iOS用户的恶意软件。 11月6日消息,苹果公司发表声明称,已发现并了针对中国用户的恶意软件。 国外方面:        日本通过《安全基本法》。 2.反不正当竞争 国内方面:        极路由爱奇艺广告被判不正当竞争。 11月3日消息,就爱奇艺起诉极路由广告一案,海淀法院作出一审判决极路由爱奇艺广告的行为,构成不正当竞争,需赔偿爱奇艺40万元。        爱奇艺因广告被过滤诉乐视。

  40790

  互联行业法律动态报告(2014 年11 月)

  极路由爱奇艺广告被判不正当竞争;美国法院裁定Google有权安排结果内容。 11月24日,首届国家安全宣传周启动仪式在北京中华世纪坛举行。信办表示,国家安全战略的起草工作正在进行,并正在逐步加强安全立法工作。 苹果已针对中国iOS用户的恶意软件。 11月6日消息,苹果公司发表声明称,已发现并了针对中国用户的恶意软件。 国外方面: 日本通过《安全基本法》。 (二)反不正当竞争 国内方面: 极路由爱奇艺广告被判不正当竞争。 11月3日消息,就爱奇艺起诉极路由广告一案,海淀法院作出一审判决极路由爱奇艺广告的行为,构成不正当竞争,需赔偿爱奇艺40万元。 爱奇艺因广告被过滤诉乐视。

  35950

  推荐一些chrome浏览器必装的插件!

  AdBlockAdBlock是一款chrome中非常著名的广告插件,其在chrome浏览器中的安装量已经高达4000万,如此多的安装用户已经足以证明其的强大之处,对于AdBlock本身来说,其号称能够整个互联上的广告 支持获取新的插件。?百度盘下载助手你是不是觉得百度页版超难用,下载文件需要下载客户端,下载了之后,下载速度巨慢,别慌,这款工具就可以完美解决。? 主要功能有:移除登录弹窗、一键收起回答、收起当前回答评论(点击两侧空白处)、快捷回到顶部(右键两侧空白处)、指定用户、指定关键词(标题)、盐选内容、置顶显示时间、显示问题时间、区分问题文章、 2020-05-22_165828AC-baidu该插件的主要功能:去掉百度、狗、谷歌结果的重定向,回归为站的原始址添加百度、狗、谷歌结果中Favicon显示效果高亮用这个:高亮脚本百度和谷歌页面可以设置为单列 2、重磅推荐:一套开源的校系统,无论是自建校还是接副业都很方便3、一款基于 Spring Boot 的现代化社区(论坛问答社交博客)4、13K点赞都基于 Vue+Spring 前后端分离管理系统

  52240

  相关产品

  • 私有网络

   私有网络

   私有网络(VPC)是基于腾讯云构建的专属网络空间,为您的资源提供网络服务,不同私有网络间完全逻辑隔离。作为隔离网络空间,您可以通过软件定义网络的方式管理您的私有网络 ,实现 IP 地址、子网、路由表等功能的配置管理……

  相关资讯

  热门标签

  扫码关注云+社区

  领取腾讯云代金券