Robots.txt完全指南:從原理到多平台最佳實踐,避免90%的SEO爬取坑

什麼是Robots.txt
什麼是Robots.txt

1. 什麼是Robots.txt? 先理清3個關鍵誤區

 

Robots.txt是放在網站根目錄下的純文字文件,本質是搜尋引擎爬取機器人(Crawler)的「交通規則」——它告訴Google、百度等爬蟲「哪些頁面可以爬,哪些不能爬」。 但許多人對它的理解有致命偏差,這也是導致SEO爬取問題的核心原因。

必須避開的3個誤解(來自Google官方指南)

1.用Robots.txt阻止頁面出現在搜尋結果中
錯!  Robots.txt僅限制“爬取”,不限制“索引”。 如果其他網站連結到你被Robots.txt封鎖的頁面,Google仍可能將該URL納入索引,只是顯示「無描述」的空白結果(如圖1)。 真正阻止索引需用noindex標籤或密碼保護。
2.所有平台都能直接編輯Robots.txt
錯!  Wix、Blogger等CMS預設產生Robots.txt,部分平台不允許直接修改(或需特定入口),強行修改可能導致全站爬取異常。
3.封鎖所有「不重要」頁面更有利於SEO
錯! 過度屏蔽可能導致爬蟲無法抓取頁頁間的鏈接,進而錯過重要內容。 例如封鎖WordPress的 wp-content 目錄,可能讓爬蟲無法辨識頁面樣式,影響內容分析。

2. 為什麼Robots.txt對SEO至關重要?  3個核心價值


對多數網站而言,Robots.txt不是“可選優化項”,而是“基本保障”——它直接影響搜尋引擎如何分配“爬取預算”(搜尋引擎對單一網站每天的爬取頁數限制),進而決定你的內容能否被及時收錄。

核心價值1:拯救被浪費的爬取預算

大型網站(如 Shopify 商城、多欄位部落格)通常有大量重複頁面(如篩選頁 /product?sort=price 、標籤頁 /tag/old ),這些頁面會消耗爬取預算,導致新品頁、核心文章被「冷落」。 透過Robots.txt封鎖這類頁面,能讓爬蟲優先爬取高價值內容。

核心價值2:規避重複內容風險

部分平台(如 Blogger)的預設連結結構會產生重複內容(如 /2025/01/post.html 和 /search/label/2025?q=post ),Robots.txt可直接封鎖重複來源頁面,避免Google判定「內容作弊」。

核心價值3:保護敏感訊息

無需讓爬蟲造訪後台頁面(如 /admin )、未發佈內容(如 /draft )或隱私權頁面(如會員專屬頁),Robots.txt能從源頭阻止這些頁面被爬取,降低資訊外洩風險。

3. 四大主流平台最佳實務:Shopify/Wix/Blogger/WordPress


不同平台的Robots.txt機制差異極大,盲目複製其他平台的規則會踩坑。 以下是結合平台特性的實戰方案,皆來自官方文件及SEO從業人員驗證。

① Shopify:自訂需用Liquid模板,避免封鎖產品頁

Shopify預設產生優化後的Robots.txt,包含對「廢棄購物車」「搜尋結果頁」的屏蔽規則,無需修改即可滿足基礎需求。 若需自訂(如封鎖特定分類頁),需依下列步驟操作:

1. 進入Shopify後台 → 線上商店 → 主題 → 點選目前主題的「動作」 → 選擇「編輯程式碼」;
2. 在左側範本清單中,點選「新增範本」 → 選擇「Robots」(類型為「txt」),產生 robots.txt.liquid 檔案;
3. 插入自訂規則,例如封鎖「清倉區」的篩選頁:

plaintext 
User-agent: *
Disallow: /collections/clearance?sort=*
Disallow: /collections/clearance?filter=*
Allow: /collections/clearance
Sitemap: https://你的網域.com/sitemap_products_1.xml


 
注意:必須保留 Allow: /collections/clearance ,否則會屏蔽整個清倉區首頁。

② Wix:僅在SEO儀表板編輯,改前必看Google指南

Wix不允許直接上傳Robots.txt文件,所有修改需透過官方提供的編輯器,且Wix客服不協助處理Robots.txt相關問題,操作前需格外謹慎:

1. 進入Wix後台 → 行銷與SEO → SEO儀錶板 → 下拉找到「工具與設定」 → 點選「前往Robots.txt編輯器」;
2. 點選“檢視文件”,在“目前文件”下方新增規則(預設規則為 User-agent: * Allow: / ,允許所有爬取);
3. 典型場景:封鎖舊部落格歸檔頁(如2023年之前的內容):

plaintext 
User-agent: *
Disallow: /blog/2020/
Disallow: /blog/2021/
Disallow: /blog/2022/
Sitemap: https://你的網域.com/sitemap.xml


 

提示:修改後需等待搜尋引擎下次爬取更新緩存,若想加速,可提交首頁URL到Google Search Console。

③ Blogger:預設規則已最佳化,自訂需避開3個雷區

Blogger(Blogspot)會自動產生Robots.txt,預設封鎖「搜尋結果頁」( /search )和「標籤頁」( /search/label/ ),這些頁面本身無獨立價值,無需修改。 若需自訂(如封鎖特定月份的歸檔頁):

1. 進入Blogger後台 → 設定 → 搜尋偏好 → 找到「抓取工具與索引編制」 → 點選「編輯自訂robots.txt」;
2. 選擇“是”,輸入自訂規則,例如封鎖2024年10月的歸檔頁:

plaintext 
User-agent: *
Disallow: /2024/10/
Allow: /
Sitemap: https://你的網域.blogspot.com/sitemap.xml


3個雷區:① 不要屏蔽 /feeds/ (影響RSS訂閱爬取);② 不要用 Disallow: / (全站屏蔽,直接導致降權);③ 規則結尾必須加“/”,否則不生效。

④ WordPress:2種編輯方式,外掛更適合新手

WordPress預設沒有Robots.txt文件,需手動建立或用外掛程式管理,兩種方式各有優劣:

方式1:手動建立(適合技術型使用者)

1. 用記事本建立 robots.txt 文件,輸入基礎規則:

plaintext 
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tag/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://你的網域.com/sitemap_index.xml2. 透過FTP工具上傳到網站根目錄(如 public_html 資料夾)。

方式2:用Yoast SEO外掛(適合新手)

1. 安裝並啟動Yoast SEO外掛 → 進入「SEO」 → “工具” → “文件編輯器”;
2. 點選“建立 robots.txt 檔案”,外掛程式會自動產生基礎規則,可直接在編輯器中修改(例如新增 Disallow: /category/old/ )。
注意:不要封鎖 /wp-admin/admin-ajax.php ,否則會影響頁面動態功能(如評論載入)。


4. 6個高頻Robots.txt錯誤及即時修復方案



即使掌握了平台規則,仍可能因細節失誤導致問題。 以下是SEO從業人員最常犯的錯誤及修復方法:

錯誤類型 錯誤規則範例 修復方案
錯誤封鎖首頁  Disallow: /  改為 Allow: / ,僅遮蔽特定路徑
規則格式錯誤  User-agent: * Disallow: /tag (缺少「/」) 補全路徑: Disallow: /tag/ 
封鎖重要資源  Disallow: /wp-content/  改為 Disallow: /wp-content/uploads/old/ (僅封鎖舊圖片)
重複Sitemap 多次加入 Sitemap: …  保留1個最新的Sitemap位址(可在Google Search Console查看)
用Robots.txt阻擋索引  Disallow: /privacy (想隱藏隱私頁) 保留 Allow: /privacy ,在隱私頁面上加上 noindex 標籤
未針對行動爬蟲最佳化 僅對 User-agent: Googlebot 設定規則 統一用 User-agent: * (覆蓋所有爬蟲,包括行動裝置)

5. 實操步驟:檢查、優化你的Robots.txt


光看理論不夠,現在花5分鐘即可完成自己網站的Robots.txt檢查,避免潛在問題:

1. 第一步:查看目前規則
打開瀏覽器,在你的網站網域後加入 /robots.txt (如 https://example.com/robots.txt ),確認規則是否符合預期(例如是否誤屏蔽了核心頁)。
2. 第二步:用Google工具驗證
進入Google Search Console → 選擇你的網站 → “設定” → “robots.txt測試工具”,輸入自訂規則(如 Disallow: /old/ ),點擊“測試”,查看是否有“無效規則”或“衝突規則”。
3. 第三步:定期審計
建議每3個月檢查一次Robots.txt,尤其在以下場景後:① 網站改版(如新增分類);② 平台更新(如Shopify主題更換);③ 發現爬取量驟降(可在Search Console的「爬取統計資料」查看)。


如果你還沒檢查過自己的Robots.txt,建議現在就打開瀏覽器完成「第一步」-很多時候,一個簡單的規則調整(例如封鎖重複的篩選頁),就能讓核心內容的收錄速度提升30%以上。


Discover more from YUSI SEO

Subscribe to get the latest posts sent to your email.

Scroll to Top