谷歌搜索引擎優(yōu)化 (SEO)創(chuàng)建并提交 robots.txt 文件

2022-01-05 09:59:09

您可以使用 robots.txt 文件控制抓取工具可以訪問您網(wǎng)站上的哪些文件。robots.txt 文件應位于網(wǎng)站的根目錄下。因此，對于網(wǎng)站 www.example.com，robots.txt 文件的路徑應為 www.example.com/robots.txt。robots.txt 是一種遵循漫游器排除標準的純文本文件，由一條或多條規(guī)則組成。每條規(guī)則可禁止或允許特定抓取工具抓取相應網(wǎng)站的指定文件路徑下的文件。除非您在 robots.txt 文件中另行指定，否則所有文件均隱式允許抓取。

下面是一個包含兩條規(guī)則的簡單 robots.txt 文件：

User-agent: Googlebot

Disallow: /nogooglebot/

User-agent: *

Allow: /

Sitemap: http://www.example.com/sitemap.xml

以下是該 robots.txt 文件的含義：

1、名為 Googlebot 的用戶代理不能抓取任何以 http://example.com/nogooglebot/ 開頭的網(wǎng)址。

2、其他所有用戶代理均可抓取整個網(wǎng)站。不指定這條規(guī)則也無妨，結果是一樣的；默認行為是用戶代理可以抓取整個網(wǎng)站。

3、該網(wǎng)站的站點地圖文件路徑為 http://www.example.com/sitemap.xml。

如需查看更多示例，請參閱語法部分。

創(chuàng)建 robots.txt 文件的基本準則

要創(chuàng)建 robots.txt 文件并使其在一般情況下具備可訪問性和實用性，需要完成 4 個步驟：

1、創(chuàng)建一個名為 robots.txt 的文件。

2、向 robots.txt 文件添加規(guī)則。

3、將 robots.txt 文件上傳到您的網(wǎng)站。

4、測試 robots.txt 文件。

創(chuàng)建 robots.txt 文件

您幾乎可以使用任意文本編輯器創(chuàng)建 robots.txt 文件。例如，Notepad、TextEdit、vi 和 emacs 可用來創(chuàng)建有效的 robots.txt 文件。請勿使用文字處理軟件，因為此類軟件通常會將文件保存為專有格式，且可能會向文件中添加非預期的字符（如彎引號），這樣可能會給抓取工具帶來問題。如果保存文件時出現(xiàn)相應系統(tǒng)提示，請務必使用 UTF-8 編碼保存文件。

格式和位置規(guī)則：

● 文件必須命名為 robots.txt。

● 網(wǎng)站只能有 1 個 robots.txt 文件。

● robots.txt 文件必須位于其要應用到的網(wǎng)站主機的根目錄下。例如，若要控制對 https://www.example.com/ 下所有網(wǎng)址的抓取，就必須將 robots.txt 文件放在 https://www.example.com/robots.txt 下，一定不能將其放在子目錄中（例如 https://example.com/pages/robots.txt 下）。如果您不確定如何訪問自己的網(wǎng)站根目錄，或者需要相應權限才能訪問，請與網(wǎng)站托管服務提供商聯(lián)系。如果您無法訪問網(wǎng)站根目錄，請改用其他屏蔽方法（例如元標記）。

● robots.txt 文件可應用到子網(wǎng)域（例如 https://website.example.com/robots.txt）或非標準端口（例如 http://example.com:8181/robots.txt）。

● robots.txt 文件必須是采用 UTF-8 編碼（包括 ASCII）的文本文件。Google 可能會忽略不屬于 UTF-8 范圍的字符，從而可能會導致 robots.txt 規(guī)則無效。

向 robots.txt 文件添加規(guī)則

規(guī)則是關于抓取工具可以抓取網(wǎng)站哪些部分的說明。向 robots.txt 文件中添加規(guī)則時，請遵循以下準則：

● robots.txt 文件包含一個或多個組。

● 每個組由多條規(guī)則或指令（命令）組成，每條指令各占一行。每個組都以 User-agent 行開頭，該行指定了組適用的目標。

● 每個組包含以下信息：

* 組的適用對象（用戶代理）

* 代理可以訪問的目錄或文件。

* 代理無法訪問的目錄或文件。

● 抓取工具會按從上到下的順序處理組。一個用戶代理只能匹配 1 個規(guī)則集（即與相應用戶代理匹配的首個最具體組）。

● 系統(tǒng)的默認假設是：用戶代理可以抓取所有未被 disallow 規(guī)則屏蔽的網(wǎng)頁或目錄。

● 規(guī)則區(qū)分大小寫。例如，disallow: /file.asp 適用于 https://www.example.com/file.asp，但不適用于 https://www.example.com/FILE.asp。

● # 字符表示注釋的開始處。

Google 的抓取工具支持 robots.txt 文件中的以下指令：

● user-agent: [必需，每個組需含一個或多個 User-agent 條目] 該指令指定了規(guī)則適用的自動客戶端（即搜索引擎抓取工具）的名稱。這是每個規(guī)則組的首行內(nèi)容。Google 用戶代理列表中列出了 Google 用戶代理名稱。使用星號 (*) 會匹配除各種 AdsBot 抓取工具之外的所有抓取工具，AdsBot 抓取工具必須明確指定。例如：

# Example 1: Block only Googlebot

User-agent: Googlebot

Disallow: /

# Example 2: Block Googlebot and Adsbot

User-agent: Googlebot

User-agent: AdsBot-Google

Disallow: /

# Example 3: Block all but AdsBot crawlers

User-agent: *

Disallow: /

● disallow: [每條規(guī)則需含至少一個或多個 disallow 或 allow 條目] 您不希望用戶代理抓取的目錄或網(wǎng)頁（相對于根網(wǎng)域而言）。如果規(guī)則引用了某個網(wǎng)頁，則必須提供瀏覽器中顯示的完整網(wǎng)頁名稱。它必須以 / 字符開頭；如果它引用了某個目錄，則必須以 / 標記結尾。

● allow: [每條規(guī)則需含至少一個或多個 disallow 或 allow 條目] 上文中提到的用戶代理可以抓取的目錄或網(wǎng)頁（相對于根網(wǎng)域而言）。此指令用于替換 disallow 指令，從而允許抓取已禁止訪問的目錄中的子目錄或網(wǎng)頁。對于單個網(wǎng)頁，請指定瀏覽器中顯示的完整網(wǎng)頁名稱。對于目錄，請用 / 標記結束規(guī)則。

● sitemap: [可選，每個文件可含零個或多個 sitemap 條目] 相應網(wǎng)站的站點地圖的位置。站點地圖網(wǎng)址必須是完全限定的網(wǎng)址；Google 不會假定存在或檢查是否存在 http、https、www、非 www 網(wǎng)址變體。站點地圖是一種用于指示 Google 應抓取哪些內(nèi)容的理想方式，但并不用于指示 Google 可以抓取或不能抓取哪些內(nèi)容。詳細了解站點地圖。示例：

Sitemap: https://example.com/sitemap.xml

Sitemap: http://www.example.com/sitemap.xml

除 sitemap 之外的所有指令都支持使用通配符 * 表示路徑前綴、后綴或整個字符串。

與這些指令均不匹配的行將被忽略。

如需有關每個指令的完整說明，請參閱 Google 對 robots.txt 規(guī)范的解釋頁面。

上傳 robots.txt 文件

將 robots.txt 文件保存到計算機后，您便可以將其提供給搜索引擎抓取工具。沒有一個統(tǒng)一工具可以幫助您完成這項工作，因為如何將 robots.txt 文件上傳到網(wǎng)站取決于您的網(wǎng)站和服務器架構。請與您的托管公司聯(lián)系，或在托管公司的文檔中進行搜索；例如，搜索"上傳文件 infomaniak"。

上傳 robots.txt 文件后，請測試該文件是否可公開訪問，以及 Google 能否解析該文件。

測試 robots.txt 標記

要測試新上傳的 robots.txt 文件是否可公開訪問，請在瀏覽器中打開無痕瀏覽窗口（或等效窗口），然后轉到 robots.txt 文件的位置。例如：https://example.com/robots.txt。如果您看到 robots.txt 文件的內(nèi)容，就可準備測試標記了。

Google 提供了兩種測試 robots.txt 標記的方式：

1、Search Console 中的 robots.txt 測試工具。您只能針對您網(wǎng)站上可供訪問的 robots.txt 文件使用此工具。

2、如果您是開發(fā)者，請了解并構建 Google 的開源 robots.txt 庫，該庫也用在 Google 搜索中。您可以使用此工具在計算機上本地測試 robots.txt 文件。

向 Google 提交 robots.txt 文件

在您上傳并測試 robots.txt 文件后，Google 的抓取工具會自動找到并開始使用您的 robots.txt 文件。您無需采取任何操作。如果您更新了 robots.txt 文件，并需要盡快刷新 Google 的緩存副本，請了解如何提交更新后的 robots.txt 文件。

實用的 robots.txt 規(guī)則

下面是一些常見的實用 robots.txt 規(guī)則：

實用規(guī)則
禁止抓取整個網(wǎng)站	請注意，在某些情況下，Google 即使未抓取網(wǎng)站的網(wǎng)址，仍可能將其編入索引。注意：這不適用于各種 AdsBot 抓取工具，此類抓取工具必須明確指定。 User-agent: * Disallow: /
禁止抓取某一目錄及其內(nèi)容	在目錄名后添加一道正斜線，即可禁止抓取整個目錄。禁止抓取的目錄字符串可以出現(xiàn)在路徑中的任何位置，因此 Disallow: /junk/ 與 https://example.com/junk/ 和 https://example.com/for-sale/other/junk/ 均匹配。注意：請勿使用 robots.txt 禁止訪問私密內(nèi)容；請改用正確的身份驗證機制。對于 robots.txt 文件所禁止抓取的網(wǎng)址，Google 仍可能會在不進行抓取的情況下將其編入索引；另外，由于 robots.txt 文件可供任何人隨意查看，因此可能會泄露您的私密內(nèi)容的位置。 User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
僅允許某一抓取工具訪問網(wǎng)站內(nèi)容	只有 googlebot-news 可以抓取整個網(wǎng)站。 User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
允許除某一抓取工具以外的其他所有抓取工具訪問網(wǎng)站內(nèi)容	Unnecessarybot 不能抓取相應網(wǎng)站，所有其他漫游器都可以。 User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
禁止抓取某一網(wǎng)頁	例如，禁止抓取 useless_file.Html 網(wǎng)頁。 User-agent: * Disallow: /useless_file.html
禁止 Google 圖片訪問某一特定圖片	例如，禁止訪問 dogs.jpg 圖片。 User-agent: Googlebot-Image Disallow: /images/dogs.jpg
禁止 Google 圖片訪問您網(wǎng)站上的所有圖片	如果無法抓取圖片和視頻，則 Google 無法將其編入索引。 User-agent: Googlebot-Image Disallow: /
禁止抓取某一特定文件類型的文件	例如，禁止抓取所有 .gif 文件。 User-agent: Googlebot Disallow: /*.gif$
禁止抓取整個網(wǎng)站，但允許 Mediapartners-Google 訪問內(nèi)容	實施此規(guī)則會阻止您的網(wǎng)頁顯示在搜索結果中，但 Mediapartners-Google 網(wǎng)頁抓取工具仍能分析這些網(wǎng)頁，以確定要向訪問您網(wǎng)站的用戶顯示哪些廣告。 User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
使用 $ 匹配以特定字符串結尾的網(wǎng)址	例如，禁止抓取所有 .xls 文件。 User-agent: Googlebot Disallow: /*.xls$