WordPress如何设置robots.txt规则

WordPress 虽然在 Privacy 选项里面允许用户设置是否被搜索引擎索引,但是它只又2个选项(1)允许所有搜索引擎的机器人(Spider)索引所有内容(2)不允许所有搜索引擎的机器人(Spider)索引所有内容。这种选项很难满足广大wordpress爱好者的需求,由于在wordpress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,因此通过编写robots.txt规则来定义搜索引擎那些目录可以爬,哪些不可以爬是非常有必要的!

使用WordPress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。

最简单的robots.txt写法:

User-agent:*
Disallow:

使用说明:允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。
最简单的严格写法:

User-agent:*
Disallow:/wp-*
#Allow:/wp-content/uploads/
Disallow:/*.php$
Disallow:/*.inc$
Disallow:/*.js$
Disallow:/*.css$
Disallow:/?s=

使用说明:允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。

Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。

User-agent: *
Disallow:/wp-admin
Disallow:/wp-content/plugins
Disallow:/wp-content/themes
Disallow:/wp-includes
Disallow:/?s=
Sitemap:http://domain/sitemap.xml

使用说明:允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。

包含sitemap.xml地址(这一项wiki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。

robots.txt其他写法:为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):

* Disallow:/page/#限制抓取Wordpress分页
* Disallow:/category/*/page/* #限制抓取分类的分页
* Disallow:/tag/ #限制抓取标签页面
* Disallow:*/trackback/ #限制抓取Trackback内容
* Disallow:/category/* #限制抓取所有分类列表

最后,垃圾站博主推荐各位博主使用Google管理员工具,登录访问“工具-分析 robots.txt”,可以检查文件有效性!

本文固定链接: http://www.lajiz.cn/296.html | 垃圾站

该文章由 sdujane 于2012年10月30日发表在 WP教程 分类下, 访客可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客!
原创文章,转载请注明: WordPress如何设置robots.txt规则 | 垃圾站
关键字: ,

WordPress如何设置robots.txt规则:目前有3 条留言

  1. 沙发
    花七七:

    学习了

    2012-11-26 下午 12:58 [回复]

发表评论

快捷键:Ctrl+Enter