wordpress部落格與robots.txt
robots.txt應該寫的越簡單越好,不過後台的網頁是必須禁掉的,而且一個正規的網站需要有一個robots.txt檔案。
這裡幾種比較適合wordpress部落格的robots寫法,嚴格的、簡單的和合適的,隨你挑。
最簡單的寫法
User-agent: *
Disallow: /wp-
Disallow: /?s=
Sitemap: http://shandian.biz/sitemap.xml
解釋:
User-agent: *,容許所有蜘蛛訪問,限制以「wp-」開頭目錄及檔案,限制抓取站內搜尋頁面。
Sitemap是指你網站的目錄結構,通常是以xml檔案的形式存在。wordpress部落格可以通過Google XML Sitemaps外掛程式生成sitemap。
最嚴格的寫法
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
Sitemap: http://shandian.biz/sitemap.xml
解釋:
比最簡單的寫法要更嚴格,還限制抓取.php檔案、.inc檔案、.js檔案、.css檔案,限制抓取搜尋結果。
Disallow: /wp-* 會連同附件目錄一起限制抓取,如果想讓搜尋引擎抓取附件中的內容,將第三行的 # 號註釋去掉。Allow 不是所有搜尋引擎都支援。
比較合理的寫法
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://shandian.biz/sitemap.xml
容許所有搜尋引擎抓取,逐一列舉需要限制的目錄,限制抓取搜尋結果。
robots.txt其他寫法
為避免在搜尋引擎中出現重複頁面,Wordpress玩家自創了很多robots寫法,列舉一些常用的,作為參考(適用於偽靜態模式的永久連結):
Disallow: /page/
#限制抓取Wordpress分頁
Disallow: /category/*/page/*
#限制抓取分類的分頁
Disallow: /tag/
#限制抓取標籤頁面
Disallow: */trackback/
#限制抓取Trackback內容
Disallow: /category/*
#限制抓取所有分類清單
最後,推薦使用Google管理員工具,登入後訪問「工具 -> 分析 robots.txt」,檢查檔案有效性。