PHP制作百度站内搜索绿色通道的网页列表数据文件

用过百度站内搜索的朋友,都知道前不久推出了一个绿色收录通道,改善站内搜索的时效性和覆盖率,说明如下:

站内搜索结果数太少?最新的页面搜不到?您可以在本页面提交数据,提升您的站内搜索收录时效性和覆盖率。 方法 1:提交一个种子页面 URL,如网站首页,搜索引擎将从这个页面进行扩散,抓取站点的其他页面。 方法 2:提交网站列表(即 sitemap),列举您站点需要抓取的所有网页,该方法收录效果更好。 注:在此提交的数据将用于改善您的站内搜索质量,同时有机会被百度网页搜索收录,但并没有收录上的优待。

虽然,说明中提到了并没有收录上的优待,但绝对增加了网页搜索收录的效率,因为这个数据的提交相当于给蜘蛛额外提供了一个爬行路线,效果应该还是有的!

先说一下方法 1 的做法:

如果使用方法 1,我们可以提交一个简版的站点地图,比如张戈博客提交的就是http://zhangge.net/blogmap/这个页面。提交后发现迟迟不能审核!

仔细查看后,发现该页面有这样一句话:

注:网站必须已安装站内搜索才能使用本功能。如果未通过审核,请检查您的网站是否已正确安装站内搜索。

原来必须要在页面上安装百度站内搜索才能审核通过!

所以,提交 URL 之后,就必须部署由百度提供的站内搜索代码:

<script type="text/javascript">document.write(unescape('%3Cdiv id="bdcs"%3E%3C/div%3E%3Cscript charset="utf-8" src="http://rp.baidu.com/rp3w/3w.js?sid=11196058821421648414') + '&t=' + (Math.ceil(new Date()/3600000)) + unescape('"%3E%3C/script%3E'));</script>

但是,我的博客已经有自己 DIY 的站内搜索了,并不想添加百度这个搜索框,最后我还是将这个搜索代码添加到了 footer,然后使用 CSS 的 display:none 属性隐藏掉了,不出几天,果真审核通过了!

下面说下方法 2:

方法 2,其实就是提交一个 sitemap.xml,没什么技巧,那为什么要写这篇文章呢?

因为大部分新站都没开通百度的 sitemap 权限!所以,我写这篇文章的主要目的就是分享一个变相提交 sitemap 的方法!!当然,除了在站内搜索变相提交 sitemap 优化收录之外,咱们还可以使用百度的开放适配来变相提交 sitemap,有兴趣的可以查看张戈博客之前的文章:《移动搜索 SEO 分享:PHP 自动生成百度开放适配及 360 移动适配专用的 Sitemap 文件》。

既然,百度不给你开通 sitemap,那你就可以利用站内搜索和开放适配变相提交 sitemap 数据!!

好了,下面分享代码:

①、XML 格式:

如果想使用 xml 格式,只要使用张戈博客前几天写的《WordPress 免插件生成完整站点地图(sitemap.xml)的 php 代码》一文中的 php 代码即可,成功提交后如下显示:

②、TXT 格式:

TXT 就是将博客的所有页面地址一行一行的列出即可,其实并不一定是 txt 后缀地址!

代码如下:

<?php
require('./wp-blog-header.php');
header("Content-type: text/txt");
header('HTTP/1.1 200 OK');
$posts_to_show = 1000; // 获取文章数量
?>
<?php echo 'http://'.$_SERVER['HTTP_HOST']; ?><?php echo "\n"; ?>
<?php
/* 文章页面 */
header("Content-type: text/txt");
$myposts = get_posts( "numberposts=" . $posts_to_show );
foreach( $myposts as $post ) {
    the_permalink(); 
    echo "\n"; 
}
?>
<?php
/* 单页面 */ 
$mypages = get_pages();
if(count($mypages) > 0) {
    foreach($mypages as $page) {
    echo get_page_link($page->ID);
    echo "\n";
    }
}
?>
<?php
/* 博客分类 */ 
$terms = get_terms('category', 'orderby=name&hide_empty=0' );
$count = count($terms);
if($count > 0){
foreach ($terms as $term) {
    echo get_term_link($term, $term->slug);
    echo "\n";
    }
} 
?>
<?php
 /* 标签(可选) */
	$tags = get_terms("post_tag");
	foreach ( $tags as $key => $tag ) {
			   $link = get_term_link( intval($tag->term_id), "post_tag" );
			   if ( is_wp_error( $link ) ) {
			      return false;
			      $tags[ $key ]->link = $link;
			   }
                  echo $link;
                  echo "\n";
	}          
?>

保存为 search 放到网站根目录,然后访问查看效果,比如http://zhangge.net/search.php

最后,前往站内搜索绿色通道提交即可:http://zhanzhang.baidu.com/search/greenchannelsitemap

提交成功,过一会刷新就能看到数据了:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏地方网络工作室的专栏

客制化 GH60 XD60 像 Poker 一样的 60% 机械键盘 (1)设计键盘

客制化 GH60 XD60 像 Poker 一样的 60% 机械键盘 (1)设计键盘 首先呢,我喜欢樱桃茶轴的键盘。但是由于对方向键的依赖,一直无法接受 60%...

41480
来自专栏小樱的经验随笔

Python爬虫笔记(一):爬虫基本入门

最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫。这是这个项目的第一篇文章,这次就...

39960
来自专栏编程

八个技巧,提高Web前端性能

1. 优化 CSS 性能 CSS,即级联样式表,能从 HTML 描述的内容生成专业而又整洁的文件。很多 CSS 需要通过 HTTP 请求来引入(除非使用内联 C...

237100
来自专栏小文博客

Pomelo-单栏式简约清新wp主题

15550
来自专栏NetCore

微信快速开发框架(八)-- V2.3--增加语音识别及网页获取用户信息,代码已更新至Github

不知不觉,版本以每周更新一次的脚步进行着,接下来应该是重构我的代码及框架的结构,有朋友反应代码有点乱,确实如此,当时写的时候只是按照订阅号来写的,后来才慢慢增加...

21770
来自专栏美团技术团队

Mt-Falcon——Open-Falcon在美团点评的应用与实践

前言 监控系统是整个业务系统中至关重要的一环,它就像眼睛一样,时刻监测机房、网络、服务器、应用等运行情况,并且在出现问题时能够及时做出相应处理。 美团点评刚开始...

82050
来自专栏程序员八阿哥

王老板Python面试(1):HTTP中GET与POST的区别?

GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二。

11910
来自专栏互扯程序

DNS域名服务器,我们使用免费WIFI真的安全吗?

KS Knowledge Sharing 知识分享 现在是资源共享的时代,同样也是知识分享的时代,如果你觉得本文能学到知识,请把知识与别人分享 DNS内...

73380
来自专栏小白课代表

百度有广告?电影没处下?网页不让复制?贴吧页面太丑?今天课代表全方位强化你的浏览器。

在百度搜索了某个问题却发现第一页都是广告?好不容易找到了一篇文档却发现不让复制?在豆瓣看到一个评分很高的电影,想看却找不到资源?看到一张图片还要打开才能看高清大...

18520
来自专栏小程序

【云加小程序2018年4月】更新日志

19540

扫码关注云+社区

领取腾讯云代金券