很多建站新手對robots.txt文件的重要作用不是很清楚,利用這篇文章普及一下WordPress站點robots.txt文件編寫知識。
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
搜索引擎機器人訪問網站時,首先會尋找站點根目錄有沒有 robots.txt文件,如果有這個文件就根據文件的內容確定收錄范圍,如果沒有就按默認訪問以及收錄所有頁面。另外,當搜索蜘蛛發現不存在robots.txt文件時,會產生一個404錯誤日志在服務器上,從而增加服務器的負擔,因此為站點添加一個robots.txt文件還是很重要的。
知道Robots協議的作用后,下面具體說一下WordPress站點如何編寫robots.txt文件。
WordPress站點默認在瀏覽器中輸入:http://你的域名/robots.txt,會顯示如下內容:
- User-agent:?*
- Disallow:?/wp-admin/
- Disallow:?/wp-includes/
這是由WordPress自動生成的,意思是告訴搜索引擎不要抓取后臺程序文件。
但這是遠遠不夠的,比較完整的WordPress站點robots.txt文件內容如下:
- User-agent:?*
- Disallow:?/wp-admin/
- Disallow:?/wp-content/
- Disallow:?/wp-includes/
- Disallow:?/*/comment-page-*
- Disallow:?/*?replytocom=*
- Disallow:?/category/*/page/
- Disallow:?/tag/*/page/
- Disallow:?/*/trackback
- Disallow:?/feed
- Disallow:?/*/feed
- Disallow:?/comments/feed
- Disallow:?/?s=*
- Disallow:?/*/?s=*\
- Disallow:?/*?*
- Disallow:?/attachment/
使用方法:新建一個名稱為robots.txt文本文件,將上面的內容放進去,然后上傳到網站根目錄即可。
下面分別解釋一下各項的作用:
1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告訴搜索引擎不要抓取后臺程序文件頁面。
2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取評論分頁等相關鏈接。
3、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收錄分類和標簽的分頁。
4、Disallow: /*/trackback
禁止搜索引擎抓取收錄trackback等垃圾信息
5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收錄feed鏈接,feed只用于訂閱本站,與搜索引擎無關。
6、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站內搜索結果
7、Disallow:?/*?*
禁止搜索抓取動態頁面
8、Disallow: /attachment/
禁止搜索引擎抓取附件頁面,比如毫無意義的圖片附件頁面。
上面只是些基本的寫法,當然還有很多,不過夠用了。

2015年10月7日 22點35分 51F
我的還沒寫robots文件。明天要寫上了
2016年3月4日 18點03分 1B
@ 熱騰吧
想當初因為自己對WordPress程序不熟悉,為了盡可能擬寫好這個robots.txt文本文件,那可是查找了很多資料和不斷思索才最終搞定。感興趣的朋友可以去參考下我的博客是怎么寫的,大家多多交流、共同進步。
2015年10月8日 01點44分 52F
建議文章標題參考之前的主題看看
2015年11月5日 20點21分 53F
不錯,正愁這個呢!!!!
2015年11月13日 09點22分 54F
用上了,謝謝
2016年1月5日 11點38分 55F
用上了,謝謝http://www.lzyhll.com
2016年1月27日 22點20分 56F
感謝知更鳥無私的分享,對于我來說太有用了!
2016年4月8日 08點51分 57F
robots金典教程,大家圈起來,考試要考
2016年4月15日 15點14分 58F
呵呵,簡單實用的!謝謝博主!
2016年5月18日 11點03分 59F
剛試了一下發現我的robots.txt這個文件里多了個:Allow: /wp-admin/admin-ajax.php,這個ms是搞錯了吧,抓取后臺的文件了?
2016年6月12日 21點30分 1B
@ 驢行路上樂悠悠 是的 沒錯
2016年8月20日 09點50分 60F
受教了,剛好用上,謝謝分享。
2016年9月21日 14點05分 61F
用上了,總結的不錯,再寫一個sitemap就更好了!
www.weimeitupian.com
2016年12月3日 17點53分 62F
很好,不過要注意的是,百度的可以用utf8編碼 谷歌的會報錯, 谷歌要保存成ANSI編碼的
2016年12月5日 00點23分 63F
我想問下您的代碼高亮是用的是那個插件???謝謝!
2017年1月22日 18點15分 64F
呵呵哈哈哈機甲
2017年3月3日 09點24分 65F
屏蔽了各種蜘蛛還是亂抓取。。。
2017年3月10日 00點14分 66F
謝謝博主啊,我直接拿來用了!在你博客學到好多東西,感謝!
2017年7月27日 20點04分 67F
用上了,謝謝http://www.lyy928.com
2017年8月16日 16點40分 68F
茍富貴升大概桂豐大廈
2017年12月5日 18點27分 69F
謝謝博主,已經上傳啦
2018年4月26日 15點26分 70F
學習了,自己的博客站正好用上。www.meibaseo.com
2018年8月25日 22點55分 71F
阿里云負載突然100%,現在又好了,是不是有爬蟲在爬啊
2018年10月8日 10點44分 72F
感謝博主,已經用上http://fulia.net
2018年11月21日 11點45分 73F
很實用每次都來復制下
2019年2月27日 10點12分 74F
學習了
2019年4月28日 14點11分 75F
鳥哥牛逼!學就完事了。