在SEO(搜索引擎优化)的世界里,robots.txt文件是一个非常重要的组成部分。它就像一个交通规则,告诉搜索引擎哪些页面可以被爬取,哪些页面则应该被忽略。对于使用WordPress网站的站长来说,了解如何正确编写robots.txt文件,对于提高网站在搜索引擎中的排名至关重要。今天,我们就来聊聊WordPress robots.txt的写法。
一、什么是robots.txt文件
robots.txt文件是一个文本文件,位于网站的根目录下。它的主要作用是指导搜索引擎爬虫访问网站时应该遵循的规则。通过robots.txt文件,站长可以禁止搜索引擎爬取某些页面,保护网站的敏感信息,同时提高网站内容的可用性。
二、WordPress robots.txt的默认写法
WordPress默认生成的robots.txt文件如下:
“`
User-Agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/
“`
这个默认的robots.txt文件意味着:
- 允许所有爬虫(User-Agent: *)访问网站的根目录(Allow: /)。
- 禁止爬虫访问WordPress的管理后台(Disallow: /wp-admin/)和插件、主题文件夹(Disallow: /wp-includes/)。
三、WordPress robots.txt的常见写法
1. 允许所有爬虫访问网站
如果想要允许所有爬虫访问网站的所有页面,可以使用以下写法:
“`
User-Agent: *
Allow: /
“`
2. 禁止爬虫访问某些页面
如果想要禁止爬虫访问某些页面,可以使用以下写法:
“`
User-Agent: *
Disallow: /category/
Disallow: /archive/
“`
在这个例子中,禁止了所有爬虫访问网站的所有分类页面和存档页面。
3. 允许爬虫访问某些页面
如果想要允许爬虫访问某些页面,可以使用以下写法:
“`
User-Agent: *
Allow: /about/
Allow: /contact/
“`
在这个例子中,允许了所有爬虫访问网站的所有关于页面和联系方式页面。
4. 禁止爬虫访问特定IP地址
如果想要禁止爬虫访问特定IP地址,可以使用以下写法:
“`
User-Agent: *
Disallow: / -Sitemap: http://www.example.com/sitemap.xml
User-Agent: Your-IP-Address
Disallow: /
“`
在这个例子中,禁止了所有爬虫访问网站的所有页面,但允许了特定IP地址的爬虫访问网站。
四、robots.txt的注意事项
1. User-Agent: User-Agent字段用于指定要限制的爬虫类型。例如,`User-Agent: Googlebot` 表示仅限制Google爬虫。
2. Allow/Disallow: Allow用于指定允许爬虫访问的页面,而Disallow用于指定禁止爬虫访问的页面。
3. Sitemap: Sitemap字段用于指定网站的XML站点地图,帮助爬虫更好地索引网站内容。
4. 注释: 在robots.txt文件中添加注释可以帮助其他站长或自己理解文件内容。
五、总结
WordPress robots.txt的写法对于SEO来说非常重要。通过正确编写robots.txt文件,我们可以保护网站敏感信息,提高网站内容的可用性,从而提高网站在搜索引擎中的排名。希望本文能帮助你更好地了解WordPress robots.txt的写法,让你的网站被搜索引擎更好地收录。
User-Agent | Action | Explanation |
---|---|---|
* | Allow | 允许所有爬虫访问网站的所有页面 |
* | Disallow | 禁止所有爬虫访问指定的页面 |
Googlebot | Disallow | 禁止Google爬虫访问指定的页面 |
Your-IP-Address | Disallow | 禁止特定IP地址的爬虫访问网站的所有页面 |
/about/ | Allow | 允许所有爬虫访问关于页面 |
/contact/ | Allow | 允许所有爬虫访问联系方式页面 |
希望这篇文章能帮助你更好地理解WordPress robots.txt的写法。如果你还有其他问题,欢迎在评论区留言讨论。
如何利用robots.txt对wordpress博客进行优化
一、先来普及下robots.txt的概念:
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。这个文件用于指定spider在您网站上的抓取范围,一定程度上保护站点的安全和隐私。同时也是网站优化利器,例如屏蔽捉取站点的重复内容页面。
robots.txt目前并不是一种标准,只是一种协议!所以现在很多搜索引擎对robots.txt里的指令参数都有不同的看待。
二、使用robots.txt需要注意的几点地方:
1、指令区分大小写,忽略未知指令,下图是本博客的robots.txt文件在Google管理员工具里的测试结果;
2、每一行代表一个指令,空白和隔行会被忽略;
3、“#”号后的字符参数会被忽略;
4、有独立User-agent的规则,会排除在通配“*”User agent的规则之外;
5、可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容。
6、尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。
三、Wordpress的robots.txt优化设置
1、User-agent:*
一般博客的robots.txt指令设置都是面对所有spider程序,用通配符“*”即可。如果有独立User-agent的指令规则,尽量放在通配“*”User agent规则的上方。
2、Disallow:/wp-admin/
Disallow:/wp-content/
Disallow:/wp-includes/
屏蔽spider捉取程序文件,同时也节约了搜索引擎蜘蛛资源。
3、Disallow:/*/trackback
每个默认的文章页面代码里,都有一段trackback的链接,如果不屏蔽让蜘蛛去捉取,网站会出现重复页面内容问题。
4、Disallow:/feed
Disallow:/*/feed
Disallow:/comments/feed
头部代码里的feed链接主要是提示浏览器用户可以订阅本站,而一般的站点都有RSS输出和网站地图,故屏蔽搜索引擎捉取这些链接,节约蜘蛛资源。
5、Disallow:/?s=*
Disallow:/*/?s=*
这个就不用解释了,屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。
6、Disallow:/?r=*
屏蔽留言链接插件留下的变形留言链接。(没安装相关插件当然不用这条指令)
7、Disallow:/*.jpg$
Disallow:/*.jpeg$
Disallow:/*.gif$
Disallow:/*.png$
Disallow:/*.bmp$
屏蔽捉取任何图片文件,在这里主要是想节约点宽带,不同的网站管理员可以按照喜好和需要设置这几条指令。
8、Disallow:/?p=*
屏蔽捉取短链接。默认头部里的短链接,百度等搜索引擎蜘蛛会试图捉取,虽然最终短链接会301重定向到固定链接,但这样依然造成蜘蛛资源的浪费。
9、Disallow:/*/comment-page-*
Disallow:/*?replytocom*
屏蔽捉取留言信息链接。一般不会收录到这样的链接,但为了节约蜘蛛资源,也屏蔽之。
10、Disallow:/a/date/
Disallow:/a/author/
Disallow:/a/category/
Disallow:/?p=*&preview=true
Disallow:/?page_id=*&preview=true
Disallow:/wp-login.php
屏蔽其他的一些形形色色的链接,避免造成重复内容和隐私问题。
10、Sitemap:http://***.com/sitemap.txt
网站地图地址指令,主流是txt和xml格式。告诉搜索引擎网站地图地址,方便搜索引擎捉取全站内容,当然你可以设置多个地图地址。要注意的就是Sitemap的S要用大写,地图地址也要用绝对地址。
上面的这些Disallow指令都不是强制要求的,可以按需写入。也建议站点开通谷歌管理员工具,检查站点的robots.txt是否规范。
wordpress中robots.txt不显示怎么办
解决办法:
1、首先打开程序,在wp-includes目录下找到functions.php文件;
2、然后用记事本打开或者是用dreamweaver打开,用dreamweaver进行编辑,打开functions.php文件,找到function do_robots(),大概在1070行左右,可以看到系统默认的robots.txt文件的定义规则。
3、按照上面的规则样式来重新编写,将网站需要添加的内容添加到这段代码里面。
4、添加好之后然后点击保存,这时候就可以打开网站查看网站robots.txt是否完整了
怎样用 WordPress 搭建网站
建站:找个国外免费的PHP空间。
模板:1、选一个合适的,推荐3栏的模板,如果你打算以后放广告的话。我用的模板是从一个国外网站上下的没有汉化过,也没有被国人加工处理过,所以我发出来的中文文章,源代码中文显示为乱码,请朋友们使用模板的时候注意。遇到这样的情况,改一下就可以了,解决办法:用ftp工具将模板文件夹里所有PHP文件下载至本地,用UltraEdit打开,不用做任何修改,直接另存为在“格式选择”中选择utf-8无bom,保存,每个文件处理过后传上去就OK了。模板文件夹中有images文件夹,其中的模板图片可以自己用photoshop修改。
2、有些模板下载后,上面还保留着google的广告,真是太不地道了,修改掉:一般google广告都出现在侧边栏,修改sidebar.php,去掉google的广告代码,保存。
模板文件:
1、侧边栏中友情链接显示为Links,关于我们显示为About,如果想要修改这些栏目的标题,在sidebar.php中查找相关数据并修改就可以了。修改后可能出现一个问题,“about”修改为“关于我们”之后,“关于我们”的显示不在边框正中位置,看着很不协调,这时可以修改:假设“关于我们”在sidebar.php中定义为h2标题,那么修改style.css,查找“sidebar h2”,修改内边距padding:7px 0 6px 8px为合适的值即可。(7px 0 6px 8px只是举例,px代表像素,7px 0 6px 8px分别代表了上、右、下、左各边的内边距)
2、在页脚添加次导航和网站统计代码(我用了3个:google网站管理员代码,google analytics代码,voding代码),需要修改footer.php。
3、分类或档案页面打开后页面标题可能出现“Archive for‘分类名称’”为了美化页面,我们在archive.php中查找相关数据修改,删掉“Archive for”即可。
4、默认404页面在蜘蛛访问时会返回200而不是404状态码,所以要修改404.php,修改方法见插件介绍。
在修改模板的时候可以学到很多CSS知识,建议大家有时间了多多尝试。我是零基础,没有问题,那么你也没有问题。
robots.txt的写法:
User-agent:*
Disallow:/index.php
Disallow:/wp-
Allow:/wp-content/uploads/
Disallow:/feed/
Disallow:/comments/feed/
Disallow:/trackback/
因为上传的图片等默认保存在/wp-content/uploads/,所以要让搜索引擎索引它们,用allow开放。以上是我的写法,随着对wordpress和robots的了解不断深入,朋友们应根据不同的情况自行修改,避免直接照搬。
wordpress插件:
1、google XML-Sitemap插件:用来制作网站地图。
2、相关日志插件:在文章结尾显示如“阅读此文的人还阅读”以及相关文章(相关文章判断以tags为准,两篇文章有相同的tags,则判断为相关文章)
3、Platinum SEO插件:自定义页面标题、描述、关键词标签、还有nofollw属性等。
4、AA Google 404插件:默认404页面在蜘蛛访问时会发出200而不是404状态码,修改.htaccess也可以,但是有的主机不支持,所以就借助插件了。
5、Akismet插件:反垃圾评论。
插件4需要google账号来激活code,插件5需要去wordpress官方网站激活code,最后,插件不能太多,否则会严重影响访问速度。
3
实战:保持每日更新,做好内链,运用你学到的SEO知识,用心作站,多多交流。最后,心平气和等收获吧:)这里还要谈谈外链的问题:2篇文章写好了,提交搜索引擎,提交后,模板、title等就不要轻易改动了,接下来是找一些外链,这个时候可以找一些友情链接,可以一些wordpress相关论坛,里面一般有交换博客链接的板块,去里面找即可。同时,注册百度、和讯等博客,写几篇软文,包含大量外链锚向你的网站,写的很软都没问题,主要是给搜索引擎看的,写完后提交到各大搜索引擎。软文要分开发,同一个软文发完百度发和讯也没问题。