跳到主要內容
技術 SEO · 29 分鐘閱讀

Google 爬取與索引教學:頁面沒收錄先查這些

Google 爬取與索引不是同一件事。本文用技術 SEO 角度說明 Googlebot 如何發現、爬取、轉譯與建立索引,並教你用 GSC 判斷 robots、noindex、canonical、伺服器或內容品質哪一層出問題。

Google 爬取與索引教學:頁面沒收錄先查這些

Google 爬取與索引是什麼?先分清三個階段

Google 爬取 是 Googlebot 發現並下載網頁內容的過程,Google 索引則是 Google 分析內容、判斷標準網址,並把可用資訊存進索引資料庫。頁面要有機會出現在搜尋結果,通常要先被發現、能被爬取、能被處理,才談得上索引與排名。

Google Search Central 說明搜尋大致分成三個階段:crawling、indexing、serving。爬取階段會下載文字、圖片、影片;索引階段會分析內容與 canonical;搜尋結果階段才會依查詢回傳相關結果。官方也明確提醒:Google 不保證一定會爬取、索引或顯示每個頁面,即使頁面符合基本要求。

這也是很多 SEO 診斷誤判的來源。頁面沒有流量,不一定是排名差;可能是 Google 根本不知道這個 URL,也可能知道但不能爬、能爬但看不到主要內容、能看但選了別的 canonical,或已索引但不符合查詢。

  • 發現:Google 是否知道這個 URL 存在。
  • 爬取:Googlebot 是否能成功存取和下載內容。
  • 索引:Google 是否認為這個頁面值得存入索引,並選它作為標準版本。
  • 顯示:索引後是否有資格在特定查詢下出現。

如果你還在建立完整搜尋流程概念,可先看 搜尋引擎如何運作。本文會往下一層,處理頁面卡在爬取與索引時的技術 SEO 判斷。

爬得到不代表會索引:AK Crawl Index Diagnostic Ladder

AK Crawl Index Diagnostic Ladder 將 Google 爬取與索引診斷分成六層

這張圖把 Google 爬取與索引問題拆成六個可以逐層排除的診斷點。

爬取索引診斷 不能只問「Google 有沒有收錄」。更穩的做法是用 AK Crawl Index Diagnostic Ladder 逐層判斷:發現、允許爬取、成功擷取、完成轉譯、允許索引、可被搜尋結果使用。

層級 核心問題 常見工具
發現 Google 是否知道 URL 存在 內部連結、Sitemap、GSC
允許爬取 robots 或權限是否擋住 Googlebot robots.txt、URL Inspection
成功擷取 伺服器是否回 200,是否穩定 HTTP header、GSC
完成轉譯 Google 是否看得到主要內容和連結 檢視已檢索網頁、HTML
允許索引 是否有 noindex、錯誤 canonical、重複或品質問題 GSC、原始碼、canonical 檢查
可被使用 已索引後是否符合查詢與品質需求 GSC 成效、site 查詢

這個梯子的價值,是把技術問題和內容問題拆開。robots 擋住是爬取問題,noindex 是索引資格問題,canonical 選錯是標準版本問題,內容太薄則是索引與搜尋結果品質問題。混在一起處理,只會一直重送 URL,卻不知道真正卡在哪一層。

發現問題:Google 是否知道這個 URL

Google 透過內部連結、Sitemap 和外部連結發現 URL 的流程圖

如果 Google 根本不知道 URL,後面的爬取與索引診斷都不會開始。

URL 發現 是爬取前的第一道門檻。如果 Google 沒有從內部連結、外部連結、Sitemap 或其他來源知道某個 URL,該頁就不會進入正常的爬取與索引流程。

Google 官方說明中提到,Google 會透過已知頁面上的連結、sitemap 等方式發現新 URL。對實務網站來說,最常見的問題不是沒有提交 sitemap,而是重要頁面沒有被站內可爬的路徑連到,變成孤兒頁面。

  • 新文章是否從分類頁、相關文章或主題頁連得到。
  • 商業頁是否只存在於選單外的按鈕或 JavaScript 狀態中。
  • Sitemap 是否包含 canonical URL,而不是參數頁或測試頁。
  • 重要頁面是否被 robots 阻擋,導致 Google 無法沿連結探索。

Sitemap 可以幫助 Google 發現 URL,但它不是索引保證。之後若寫到 sitemap-seo-guide,會把提交與 sitemap index 拆開處理;本篇先把 sitemap 視為「發現層」的一個訊號。

爬取問題:robots、狀態碼、伺服器先查

Googlebot 爬取阻塞檢查表包含 robots.txt、狀態碼、伺服器錯誤與權限問題

爬取問題通常先從 robots、狀態碼與伺服器可用性開始查。

爬取問題 先看 Googlebot 能不能存取頁面。robots.txt、HTTP 狀態碼、伺服器錯誤、登入權限、DNS 或網路問題,都可能讓 Google 知道 URL,卻無法正常下載內容。

Google 的技術要求指出,Google 只會索引回傳 HTTP 200 成功狀態的頁面;client error 或 server error 頁面不會被索引。Search Console 的網址檢查工具也會顯示是否允許檢索、網頁擷取狀態和 Google 上次檢索時間。

現象 優先檢查 處理方向
被 robots.txt 封鎖 robots 規則與路徑 移除重要頁面的 Disallow
404 或 soft 404 URL 是否存在與內容是否足夠 修正路由、補內容或正確回 404
5xx 伺服器穩定性與負載 修復主機、CDN、後端錯誤
需要登入 Googlebot 是否能看到公開版內容 提供可爬的公開內容或不要期待索引

要注意一個常見誤區:robots.txt 是阻止爬取,不是穩定的移除索引方法。若你想讓頁面不要被索引,通常要讓 Google 能爬到頁面並看到 noindex 指令。Google 的 noindex 文件也提醒,頁面如果被 robots.txt 擋住,Googlebot 可能看不到 noindex。

轉譯問題:Google 看得到主要內容嗎

轉譯問題 發生在 Googlebot 能取得 URL,但轉譯後看不到使用者真正看到的主要內容、內部連結或產品資訊。這在重 JavaScript、延遲載入、登入後才顯示內容、或內容由 API 晚到的網站特別常見。

Google 的搜尋運作文件指出,爬取期間 Google 會使用類似瀏覽器的方式轉譯頁面並執行 JavaScript,因為網站常依靠 JavaScript 把內容帶到頁面上。問題是,能執行不代表所有內容都能穩定、即時、完整被看見。

  • 主要文字是否存在於初始 HTML,或至少能在轉譯後被看到。
  • 內部連結是否是可爬的 HTML 連結,不是只靠按鈕事件切換。
  • 重要內容是否需要登入、地區、Cookie 或互動後才出現。
  • 延遲載入圖片、表格或 FAQ 是否有可索引的文字替代。

如果你懷疑是轉譯問題,先用 GSC 的「查看已檢索的網頁」檢查 HTML、畫面截圖與載入資源,再讓開發者比對使用者版和 Googlebot 版差異。

索引資格:noindex、canonical、重複與品質

索引資格 是 Google 已經能處理頁面後,判斷它是否應該進入索引。noindex、錯誤 canonical、重複內容、低品質內容、空頁、錯誤語系或大量參數頁,都可能讓頁面可爬但不被索引。

Google 的 noindex 文件說明,noindex 可以透過 meta tag 或 HTTP response header 告訴支援該規則的搜尋引擎不要索引該內容。這是明確控制索引的工具,但它要被 Googlebot 看見才有效。

canonical 則是另一種常被誤解的訊號。Google 會在相似頁面中選一個標準版本,這代表你指定的 canonical 不一定就是 Google 最後選的版本。如果你的商品篩選頁、分類參數頁、重複文章頁都互相打架,就可能出現「已爬取,但 Google 選了別的 URL」。完整 canonical 設定可看 Canonical 標籤教學

  1. 想讓頁面索引:不要放 noindex,確認 robots 沒擋,canonical 指向自己或合理標準頁。
  2. 想讓頁面不索引:允許 Google 爬到頁面,再放 noindex。
  3. 想處理重複版本:用 canonical、內鏈、sitemap 和 URL 結構一致強化標準頁。
  4. 想處理品質問題:補足主要內容、搜尋意圖、獨特資訊和內鏈,不要只重送索引。

用 GSC 判讀網址檢查與網頁索引報表

GSC 網址檢查與網頁索引報表判讀 Google 爬取與索引狀態的 dashboard 圖

網址檢查看單一 URL,網頁索引報表看整批 URL 的原因分布。

GSC 判讀 要分成單一 URL 與整批 URL。網址檢查工具適合看某一頁的發現、檢索、索引和 Google 選擇的標準網址;網頁索引報表適合看整個網站哪些 URL 已索引、哪些未索引,以及原因分布。

Search Console 的網址檢查工具會提供 Google 已建立索引版本的資訊,也能測試 URL 是否可被建立索引。官方文件列出的常見用途包含查看索引狀態、檢查線上 URL、要求建立索引、查看轉譯版本,以及排解網頁缺漏問題。可參考 Google 網址檢查工具說明

網頁索引報表則顯示 Google 知道的 URL 中,哪些已建立索引、哪些未建立索引。官方也提醒,不是所有未索引都需要修,有些是 robots、noindex、重複頁或不適合索引的頁面。可參考 Google 網頁索引報表說明

你看到的訊號 代表的層級 下一步
Google 無法辨識的網址 發現 補內鏈、sitemap、重要頁入口
robots.txt 封鎖 爬取權限 調整 robots 規則
noindex 索引資格 確認是否故意排除
Google 選了不同 canonical 標準網址 檢查 canonical、內鏈、內容重複
已索引但沒流量 搜尋結果使用 回到查詢、內容與排名診斷

GSC 不是只用來按「要求建立索引」。真正有價值的是把每個狀態放回診斷梯,判斷哪一層需要修,而不是每天重送同一批 URL。

修完後怎麼驗證與重送

索引修正驗證 應該先確認問題已在 live URL 消失,再視情況要求 Google 重新爬取。重送索引不是捷徑,它只是在你已修好重要問題後,提醒 Google 重新檢查。

實務上,修正後不要只看 CMS 裡的頁面。你要看伺服器回應、原始 HTML、robots/noindex/canonical、GSC 即時測試,以及一段時間後的索引狀態。Google 文件也指出,即時測試不會涵蓋所有可能的索引條件,所以即時可索引不等於一定會進搜尋結果。

  1. 先用瀏覽器和 header 工具確認 URL 回 200。
  2. 檢查 robots.txt 沒擋重要頁面。
  3. 檢查原始碼沒有意外 noindex。
  4. 確認 canonical 指向預期 URL。
  5. 用 GSC 測試線上網址。
  6. 問題已修正後,再要求建立索引或驗證修正。
  7. 幾天後看網頁索引報表和 GSC 成效,不要用當天結果判斷成敗。

如果問題牽涉整批 URL,例如分類參數、重複頁、伺服器錯誤或錯誤 URL pattern,就不要逐頁重送。先修模板、路由、內鏈和 sitemap,再讓 Google 重新理解整個結構。URL pattern 本身的設計可延伸看 URL 結構設計

重要頁面一直沒被索引,卻不知道卡在哪一層?AK SEO Labs 會從 GSC、robots、canonical、URL pattern、內鏈與頁面品質一起檢查。了解我們的技術 SEO 顧問服務,把問題從「Google 不收錄」拆成可修的工程項目。

FAQ

Google 爬取和索引差在哪?

爬取是 Googlebot 存取並下載網頁內容,索引是 Google 分析內容並決定是否把資訊存進索引資料庫。頁面可以被爬取,但不一定會被索引。

頁面已被爬取但未索引,是不是代表內容不好?

不一定。可能是 noindex、canonical、重複內容、soft 404、轉譯問題,也可能是內容品質或搜尋價值不足。要先看 GSC 給的原因,再決定修技術還是修內容。

提交 Sitemap 可以保證索引嗎?

不能。Sitemap 主要幫 Google 發現重要 URL,不保證爬取、索引或排名。頁面仍需要可爬、可轉譯、可索引、有明確 canonical 和足夠內容價值。

robots.txt 和 noindex 要怎麼選?

想阻止 Google 爬取資源,用 robots.txt;想讓頁面不要出現在搜尋結果,通常用 noindex,並且要讓 Google 能爬到頁面讀到 noindex。不要用 robots.txt 當成可靠的移除索引方法。

Google 選了不同 canonical 怎麼辦?

先確認你的 canonical、內部連結、sitemap、內容差異和轉址是否一致。如果多個頁面太相似,Google 可能選擇它認為更代表該內容群組的 URL。

GSC 顯示網址在 Google 服務中,為什麼搜尋不到?

「網址在 Google 服務中」代表有資格出現在搜尋結果,不保證特定查詢一定看得到。還要看查詢相關性、內容品質、競爭頁面、地區、裝置與搜尋結果版位。

修正後多久會重新索引?

沒有固定時間。重要頁面、常更新頁面、內鏈清楚的頁面通常比較容易被重新處理。修完後可用 GSC 要求建立索引,但仍要等 Google 排程爬取與處理。

大量頁面未索引一定是壞事嗎?

不一定。參數頁、重複頁、篩選頁、低價值頁本來就不一定該索引。重點是重要頁面是否能被發現、爬取、索引,並且 Google 是否選到正確 canonical。

PageSpeed 會影響爬取與索引嗎?

效能太差、伺服器常錯誤或資源載入失敗,可能影響 Googlebot 擷取與轉譯。效能診斷可延伸看 PageSpeed Insights 教學,但不是所有未索引都由速度造成。

新網站完全沒有索引,先做什麼?

先確認首頁可被 Google 存取並回 200,重要頁面有內部連結,沒有 noindex 或 robots 阻擋,再提交 sitemap 和用 GSC 檢查代表性 URL。不要一開始就大量重送所有頁面。

分享這篇文章

你可能也會想看