谷歌搜索引擎優(yōu)化 (SEO)robots.txt文件簡介與用途
robots.txt 簡介
robots.txt 文件規(guī)定了搜索引擎抓取工具可以訪問您網(wǎng)站上的哪些網(wǎng)址。 此文件主要用于避免您的網(wǎng)站收到過多請求;它并不是一種阻止 Google 抓取某個網(wǎng)頁的機制。若想阻止 Google 訪問某個網(wǎng)頁,請使用 noindex 禁止將其編入索引,或使用密碼保護(hù)該網(wǎng)頁。
robots.txt 文件有何用途?
robots.txt 文件主要用于管理流向您網(wǎng)站的抓取工具流量,通常用于阻止 Google 訪問某個文件(具體取決于文件類型):
robots.txt 對不同文件類型的影響 |
|
網(wǎng)頁 |
對于網(wǎng)頁(包括 Html、PDF,或其他 Google 能夠讀取的非媒體格式),您可在以下情況下使用 robots.txt 文件管理抓取流量:您認(rèn)為來自 Google 抓取工具的請求會導(dǎo)致您的服務(wù)器超負(fù)荷;或者,您不想讓 Google 抓取您網(wǎng)站上的不重要網(wǎng)頁或相似網(wǎng)頁。 警告:如果您不想讓自己的網(wǎng)頁顯示在 Google 搜索結(jié)果中,請不要將 robots.txt 文件用作隱藏網(wǎng)頁的方法。 如果其他網(wǎng)頁通過使用說明性文字指向您的網(wǎng)頁,Google 在不訪問您網(wǎng)頁的情況下仍能將其網(wǎng)址編入索引。如果您想從搜索結(jié)果中屏蔽自己的網(wǎng)頁,請改用其他方法,例如使用密碼保護(hù)或 noindex。 如果您使用 robots.txt 文件阻止 Google 抓取您的網(wǎng)頁,則其網(wǎng)址仍可能會顯示在搜索結(jié)果中,但搜索結(jié)果不會包含對該網(wǎng)頁的說明。 而且,圖片文件、視頻文件、PDF 文件和其他非 HTML 文件都會被排除在外。如果您看到了這樣一條與您網(wǎng)頁對應(yīng)的搜索結(jié)果并想修正它,請移除屏蔽該網(wǎng)頁的 robots.txt 條目。如果您想從 Google 搜索結(jié)果中完全隱藏該網(wǎng)頁,請改用其他方法。 |
媒體文件 |
您可以使用 robots.txt 文件管理抓取流量并阻止圖片、視頻和音頻文件出現(xiàn)在 Google 搜索結(jié)果中。這不會阻止其他網(wǎng)頁或用戶鏈接到您的圖片/視頻/音頻文件。 ● 詳細(xì)了解如何阻止圖片顯示在 Google 中。 ● 詳細(xì)了解如何從 Google 中移除您的視頻文件或限制您的視頻文件顯示在 Google 上。 |
資源文件 | 如果您認(rèn)為在加載網(wǎng)頁時跳過諸如不重要的圖片、腳本或樣式文件之類的資源不會對網(wǎng)頁造成太大影響,您可以使用 robots.txt 文件屏蔽此類資源。不過,如果缺少此類資源會導(dǎo)致 Google 抓取工具更難解讀網(wǎng)頁,請勿屏蔽此類資源,否則 Google 將無法有效分析有賴于此類資源的網(wǎng)頁。 |
了解 robots.txt 文件的限制
在創(chuàng)建或修改 robots.txt 文件之前,您應(yīng)了解這種網(wǎng)址屏蔽方法的限制。根據(jù)您的目標(biāo)和具體情況,您可能需要考慮采用其他機制來確保搜索引擎無法在網(wǎng)絡(luò)上找到您的網(wǎng)址。
● 并非所有搜索引擎都支持 robots.txt 指令。
robots.txt 文件中的命令并不能強制規(guī)范抓取工具對網(wǎng)站采取的行為;是否遵循這些命令由抓取工具自行決定。Googlebot 和其他正規(guī)的網(wǎng)頁抓取工具都會遵循 robots.txt 文件中的命令,但其他抓取工具未必如此。因此,如果您想確保特定信息不會被網(wǎng)頁抓取工具抓取,我們建議您采用其他屏蔽方法,例如用密碼保護(hù)服務(wù)器上的隱私文件。
● 不同的抓取工具會以不同的方式解析語法。
雖然正規(guī)的網(wǎng)頁抓取工具會遵循 robots.txt 文件中的指令,但每種抓取工具可能會以不同的方式解析這些指令。您需要好好了解一下適用于不同網(wǎng)頁抓取工具的正確語法,因為有些抓取工具可能會無法理解某些命令。
● 如果其他網(wǎng)站上有鏈接指向被 robots.txt 文件屏蔽的網(wǎng)頁,則此網(wǎng)頁仍可能會被編入索引
盡管 Google 不會抓取被 robots.txt 文件屏蔽的內(nèi)容或?qū)⑵渚幦胨饕?,但如果網(wǎng)絡(luò)上的其他位置有鏈接指向被禁止訪問的網(wǎng)址,我們?nèi)钥赡軙业皆摼W(wǎng)址并將其編入索引。因此,相關(guān)網(wǎng)址和其他公開顯示的信息(如相關(guān)頁面鏈接中的定位文字)仍可能會出現(xiàn)在 Google 搜索結(jié)果中。若要正確阻止您的網(wǎng)址出現(xiàn)在 Google 搜索結(jié)果中,您應(yīng)為服務(wù)器上的文件設(shè)置密碼保護(hù)、使用 noindex 元標(biāo)記或響應(yīng)標(biāo)頭,或者徹底移除網(wǎng)頁。
注意:結(jié)合使用多種抓取和索引編制指令可能會導(dǎo)致某些指令與其他指令沖突。了解如何合并使用抓取指令與索引編制及內(nèi)容顯示指令。
創(chuàng)建 robots.txt 文件
如果您確定需要一個 robots.txt 文件,請了解如何創(chuàng)建 robots.txt 文件。
想了解更多SEO資料的內(nèi)容,請訪問:SEO資料