什么是robots協(xié)議？詳解robots.txt文件的存放位置、格式、使用技巧及作用

2023-05-04 11:55:25

什么是robots文件

一、什么是robots協(xié)議

robots是網(wǎng)站跟爬蟲間的協(xié)議，robots協(xié)議又稱爬蟲協(xié)議、爬蟲規(guī)則等，是指網(wǎng)站可建立一個robots.txt文件來告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，而搜索引擎則通過讀取robots.txt文件來識別這個頁面是否允許被抓取。

搜索引擎使用spider程序自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息，robots文件是站點(diǎn)與spider溝通的重要渠道。當(dāng)一個搜索蜘蛛訪問一個站點(diǎn)時，它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt文件，如果存在，搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。但是，這個robots協(xié)議不是防火墻，也沒有強(qiáng)制執(zhí)行力，搜索引擎完全可以忽視robots文件去抓取網(wǎng)頁的快照。robots協(xié)議并不是一個規(guī)范，而只是約定俗成的，所以并不能保證網(wǎng)站的隱私。

二、robots協(xié)議的由來

robots.txt并不是某一個公司制定的，而是早在20世紀(jì)93、94年就早已出現(xiàn)，當(dāng)時還沒有Google。真實(shí)Robots協(xié)議的起源，是在互聯(lián)網(wǎng)從業(yè)人員的公開郵件組里面討論并且誕生的。即便是今天，互聯(lián)網(wǎng)領(lǐng)域的相關(guān)問題也仍然是在一些專門的郵件組中討論，并產(chǎn)生（主要是在美國）。

1994年6月30日，在經(jīng)過搜索引擎人員以及被搜索引擎抓取的網(wǎng)站站長共同討論后，正式發(fā)布了一份行業(yè)規(guī)范，即robots.txt協(xié)議。在此之前，相關(guān)人員一直在起草這份文檔，并在世界互聯(lián)網(wǎng)技術(shù)郵件組發(fā)布后，這一協(xié)議被幾乎所有的搜索引擎采用，包括最早的altavista，infoseek，后來的google，bing，以及中國的百度，搜搜，搜狗等公司也相繼采用并嚴(yán)格遵循。

Robot，又稱Spider，是搜索引擎自動獲取網(wǎng)頁信息的電腦程序的通稱。Robots協(xié)議的核心思想就是要求Robot程序不要去檢索那些站長們不希望被直接搜索到的內(nèi)容。將約束Robot程序的具體方法規(guī)范成格式代碼，就成了Robots協(xié)議。一般來說，網(wǎng)站是通過Robots.txt文件來實(shí)現(xiàn)Robots協(xié)議。

自有搜索引擎之日起，Robots協(xié)議已是一種目前為止最有效的方式，用自律維持著網(wǎng)站與搜索引擎之間的平衡，讓兩者之間的利益不致過度傾斜。它就像一個鐘擺，讓互聯(lián)網(wǎng)上的搜索與被搜索和諧相處。

三、robots文件放在哪里

Robots文件應(yīng)該放置在網(wǎng)站根目錄下。舉例來說，當(dāng)spider訪問一個網(wǎng)站（比如 http://www.***.com）時，首先會檢查該網(wǎng)站中是否存在http://www.***.com/robots.txt這個文件，如果 Spider找到這個文件，它就會根據(jù)這個文件的內(nèi)容，來確定它訪問權(quán)限的范圍。如果沒有發(fā)現(xiàn)robots.txt文件，蜘蛛就會爬行所有的文件，增加了很多沒有意義的操作，增加了蜘蛛的工作量。

網(wǎng)站 URL	相應(yīng)的 robots.txt的 URL
http://www.***.org/	http://www.***.org/robots.txt
http://www.***.org:80/	http://www.***.org:80/robots.txt
http://www.***.org:1234/	http://www.***.org:1234/robots.txt
http://***.org/	http://***.org/robots.txt

*robots文件存放位置

四、robots協(xié)議的格式

robots協(xié)議往往放置于根目錄下，包含一條或更多的記錄，這些記錄通過空行分開（以CR，CR/NL， or NL作為結(jié)束符），每一條記錄的格式如下所示：

"<field>:<optional space><value><optionalspace>"

在該文件中可以使用#進(jìn)行注解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，后面加上若干Disallow和Allow行，詳細(xì)情況如下：

User-agent:該項的值用于描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設(shè)為*，則對任何robot均有效，在"robots.txt"文件中，"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中，加入"User-agent:SomeBot"和若干Disallow、Allow行，那么名為"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow:該項的值用于描述不希望被訪問的一組URL，這個值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項的值開頭的URL不會被 robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html，而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html，不能訪問/help/index.html。"Disallow:"說明允許robot訪問該網(wǎng)站的所有url，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件，則對于所有的搜索引擎robot，該網(wǎng)站都是開放的。

Allow:該項的值用于描述希望被訪問的一組URL，與Disallow項相似，這個值可以是一條完整的路徑，也可以是路徑的前綴，以Allow項的值開頭的URL 是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網(wǎng)站的所有URL默認(rèn)是Allow的，所以Allow通常與Disallow搭配使用，實(shí)現(xiàn)允許訪問一部分網(wǎng)頁同時禁止訪問其它所有URL的功能。

使用"*"and"$"：Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

"*" 匹配0或多個任意字符

"$" 匹配行結(jié)束符。

最后需要說明的是：百度會嚴(yán)格遵守robots的相關(guān)協(xié)議，請注意區(qū)分您不想被抓取或收錄的目錄的大小寫，百度會對robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配，否則robots協(xié)議無法生效。

五、robots協(xié)議用法與實(shí)例

1、robots協(xié)議用法

例1、禁止所有所示引擎訪問網(wǎng)站任何內(nèi)容	User-agent: * Disallow:/
例2、允許所有的robot訪問（或者也可以建一個空文件“/robots.txt”）	User-agent: * Allow:/
例3、僅禁止Baiduspider訪問您的網(wǎng)站	User-agent:Baiduspider Disallow:/
例4、僅允許Baiduspider訪問您的網(wǎng)站	User-agent:Baiduspider Allow:/ User-agent: * Disallow:/
例5、僅允許Baiduspider以及Googlebot訪問您的網(wǎng)站	User-agent:Baiduspider Allow:/ User-agent:Googlebot Allow:/ User-agent: * Disallow:/
例6、禁止spider訪問特定目錄在這個例子中，改網(wǎng)站有三個目錄對所搜索引擎的訪問做了限制，即spider不會訪問這3個目錄，需要注意的是對每一個目錄必須分開聲明，而不能寫成“Disallow:/cgi-bin/ /temp/”。	User-agent: * Disallow:/cgi-bin/ Disallow:/temp/
例7、允許訪問特定目錄中的部分url	Allow:/temp/hi User-agent: * Allow:/~joe/look Allow:cig-bin/see Disallow:/cgi-bin/ Disallow:/temp/ Disallow:/~joe/
例8、使用“*”限制訪問url 禁止訪問/cgi-bin/目錄下的所有以“.html”為后綴的url（包含子目錄）	User-agent: * Disallow:/cgi-bin/*.html
例9、使用“$”限制訪問url 僅允許訪問以“.html”為后綴的url	Allow:/.html$ User-agent: Disallow:
例10、禁止訪問網(wǎng)站中所有的動態(tài)頁面	User-agent: * Disallow:/ ?
例11、禁止Baiduspider抓取網(wǎng)站上的所有圖片僅允許抓取網(wǎng)頁，禁止抓取任何圖片。	User-agent:Baiduspider Disallow:/.jpg$ Disallow:/.jpeg$ Disallow:/.gif$ Disallow:/.png$ Disallow:/*.bmp$
例12、僅允許Baiduspider抓取網(wǎng)頁和.gif格式圖片允許抓取網(wǎng)頁和gif格式圖片，不允許抓取其他格式圖片	User-agent:Baiduspider Allow:/.gif$ Disallow:/.jpg$ Disallow:/.jpeg$ Disallow:/.png$ Disallow:/*.bmp$
例13、禁止Baiduspider抓取.jpg格式圖片	User-agent:Baiduspider Disallow:/*.jpg$

*百度robots.txt協(xié)議用法

2、robots.txt文件示例

以下是一個robots.txt文件的完整示例，可拷貝到txt文件做相應(yīng)修改后使用。

User-agent: *

Disallow:/application/

Disallow:/core/

Disallow:/data/

Disallow:/extend/

Disallow:/public/

Disallow:/static/

Disallow:/vendor/

Disallow:/weapp/

Disallow:/install_1636907738/

Sitemap:http://www.sonygallery.com.cn/sitemap.xml

六、Robots.txt 文件在線生成

1、站長工具Robots.txt生成：https://tool.chinaz.com/robots/

2、愛站Robots.txt生成：https://tools.aizhan.com/robots-generator/

七、Robots.txt文件在線檢測工具

當(dāng)寫好robots.txt文件就需要檢測是否有寫，下面提供幾款在線工具幫助大家檢測robots是否有寫錯。

1、百度資源Robots.txt檢測：https://ziyuan.baidu.com/robots/

2、愛站Robots.txt檢測工具：https://tools.aizhan.com/robots/

3、站長工具Robots.txt檢測：https://stool.chinaz.com/robots

八、Robots協(xié)議使用技巧

1、每當(dāng)用戶試圖訪問某個不存在的URL時，服務(wù)器都會在日志中記錄404錯誤（無法找到文件）。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時，服務(wù)器也將在日志中記錄一條404錯誤，所以應(yīng)該在網(wǎng)站中添加一個robots.txt文件。

2、網(wǎng)站管理員必須使蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄以確保服務(wù)器性能。比如：大多數(shù)網(wǎng)站服務(wù)器都有程序儲存在"cgi-bin"目錄下，因此在robots.txt文件中加入"Disallow: /cgi-bin"，這樣能夠避免將所有程序文件被蜘蛛索引，可以節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有：后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。

3. 如果你的網(wǎng)站是動態(tài)網(wǎng)頁，并且你為這些動態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設(shè)置避免動態(tài)網(wǎng)頁被蜘蛛索引，以保證這些網(wǎng)頁不會被視為含重復(fù)內(nèi)容。

4、robots.txt文件里還可以直接包括在sitemap文件的鏈接。比如Sitemap: http://www.***.com/sitemap.xml。這樣做的好處就是，站長不用到每個搜索引擎的站長工具去提交自己的sitemap文件，搜索引擎的蜘蛛自己就會抓取robots.txt文件，讀取其中的sitemap路徑，接著抓取其中相鏈接的網(wǎng)頁。

5、合理使用robots.txt文件還能避免訪問時出錯。比如，不能讓搜索者直接進(jìn)入購物車頁面。因為沒有理由使購物車被收錄，所以你可以在robots.txt文件里設(shè)置來阻止搜索者直接進(jìn)入購物車頁面。

九、Robots文件的作用

1、屏蔽網(wǎng)站的空、死鏈接

由于網(wǎng)站內(nèi)容的修改以及刪除，容易導(dǎo)致網(wǎng)站內(nèi)的一些內(nèi)鏈失效變?yōu)榭真溁蛘咚梨?。通常我們會對網(wǎng)站定期檢查空鏈和死鏈，將這些鏈接提取出來，寫入robots文件之中，防止搜索引擎爬取該鏈接，間接提升搜索引擎的體驗。該種方式是有效的，因為修改已經(jīng)收錄的內(nèi)容時會使得搜索引擎重新的爬取修改過的網(wǎng)頁，再次判斷是否進(jìn)行收錄，如果沒有繼續(xù)收錄了，那么就得不嘗試了。

2、防止蜘蛛爬取網(wǎng)站重復(fù)內(nèi)容

因為網(wǎng)站很多的動態(tài)頁面搜索引擎時無法收錄的，所以很多時候我們需要對于這些動態(tài)頁面進(jìn)行制定一個靜態(tài)的頁面以助于搜索引擎收錄。這時候就讓搜索引擎不要爬取某一些重復(fù)的內(nèi)容，可以減少站內(nèi)的頁面關(guān)鍵詞權(quán)重競爭。

3、節(jié)省服務(wù)器資源，從而提高服務(wù)質(zhì)量

網(wǎng)站上是有很多的內(nèi)容都是一些無意義的內(nèi)容，例如網(wǎng)站的各種腳本代碼、css文件和php文件等等，這些文件對于網(wǎng)站優(yōu)化都是無意義的，爬取這些網(wǎng)站不僅不會收錄，而且還會浪費(fèi)服務(wù)器的資源。上圖中很多禁止訪問的內(nèi)容都是這類無意義的文件目錄。

4、保護(hù)網(wǎng)站隱私內(nèi)容

網(wǎng)站有很多的頁面都是有著一定隱私的，例如一個用戶接受的推送又或者是購物車等等，這些鏈接雖然在一個頁面之中有，但是顯然是不希望搜索引擎爬取的內(nèi)容。

5、有利于網(wǎng)站調(diào)試

在網(wǎng)站初步上線前，或者網(wǎng)站改版的時候，都會有著一定的錯誤，需要一段時間的調(diào)試再對搜索引擎開放爬取，在調(diào)試期間就可以將robots文件設(shè)置為對于所有的搜索引擎都處于拒絕爬取狀態(tài)，等所有的錯誤都解決后再修改robots文件。

十、Robots META標(biāo)簽的寫法

robots meta標(biāo)簽中沒有大小寫之分，name="robots"表示所有的搜索引擎，可以針對某個具體搜索引擎寫為name="baiduspider"。 content部分有四個指令選項：index、noindex、follow、nofollow，指令間以"，"分隔。

index 指令告訴搜索機(jī)器人抓取該頁面；

follow 指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去；

robots meta標(biāo)簽的缺省值是index和follow，只有inktomi除外，對于它，缺省值是index,nofollow。

這樣，一共有四種組合：

其中

目前看來，絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則，而對于robots meta標(biāo)簽，目前支持的并不多，但是正在逐漸增加，如著名搜索引擎google就完全支持，而且google還增加了一個指令"archive"，可以限制google是否保留網(wǎng)頁快照。例如：

表示抓取該站點(diǎn)中頁面并沿著頁面中鏈接抓取，但是不在goolge上保留該頁面的網(wǎng)頁快照。

十一、搜索引擎常見Robots名字

google蜘蛛：googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛：lycos_spider_(t-rex)

alltheweb蜘蛛：fast-webcrawler/

inktomi蜘蛛：slurp

十二、robots協(xié)議常見問題

1、Robots.Txt文件是必須的嗎？

如果你的網(wǎng)站較小，且索引符合你的預(yù)期，你可以不要robots.txt文件，主流搜索引擎足夠聰明的去識別你的內(nèi)容。但建議還是要有一個Robots.txt文件，因為搜索引擎訪問網(wǎng)站時，首先就是查閱它。

2、可以將資源類文件（Css、Js）禁止抓取嗎？

不要這么做，因為搜索引擎需要靠資源類文件來解讀你的網(wǎng)頁。

3、網(wǎng)站誤封Robots該如何處理？

robots協(xié)議是搜索生態(tài)中很重要的一個環(huán)節(jié)，同時也是一個很細(xì)節(jié)的環(huán)節(jié)。很多站長同學(xué)在網(wǎng)站運(yùn)營過程中，很容易忽視robots協(xié)議的存在，進(jìn)行錯誤覆蓋或者全部封禁robots，造成不必要損失！

那么如果誤操作封禁了robots怎么辦？百度搜索引擎處理方式如下：

1、修改Robots封禁為允許，然后到百度搜索資源后臺檢測并更新Robots。

2、在百度搜索資源后臺抓取檢測，此時顯示抓取失敗，沒關(guān)系，多點(diǎn)擊抓取幾次，觸發(fā)蜘蛛抓取站點(diǎn)。

3、在百度搜索資源后臺抓取頻次，申請抓取頻次上調(diào)。

4、百度反饋中心，反饋是因為誤操作導(dǎo)致了這種情況的發(fā)生。

5、百度搜索資源后臺鏈接提交處，設(shè)置數(shù)據(jù)API推送（實(shí)時）。

6、更新sitemap網(wǎng)站地圖，重新提交百度，每天手動提交一次。

以上處理完，接下來就是等待了，一般3天左右基本回升到正常狀態(tài)！

總結(jié)

優(yōu)化猩SEO：robots協(xié)議在百度、谷歌等主要搜索引擎還是具有實(shí)際作用的，如果網(wǎng)站將robots協(xié)議寫成不允許搜索引擎抓取，那么整個站點(diǎn)的規(guī)模不管多大，搜索引擎也不會將搜索結(jié)果進(jìn)行展示，所以站長務(wù)必要合理設(shè)置好robots.txt文件，使搜索引擎抓取可以正確合理的抓取網(wǎng)站內(nèi)容，以便網(wǎng)站獲得更好的排名。

參考鏈接：

robots協(xié)議_百度百科

https://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797

robots_百度百科

https://baike.baidu.com/item/robots/5243374?fr=aladdin

robots_百度搜索資源平臺

https://ziyuan.baidu.com/college/courseinfo?id=267&page=13#h2_article_title28

2022 最新Robots.txt文件教程-CSDN博客

https://blog.csdn.net/penny_cheng/article/details/124778079

robots文件怎么寫，robots文件對網(wǎng)站優(yōu)化的作用-格子網(wǎng)絡(luò)

https://www.35hw.com/news/robots.html

修改于2023-05-04

想了解更多SEO百科的內(nèi)容，請訪問：SEO百科

本文來源：http://www.sonygallery.com.cn/seojianzhan/17264.html

免責(zé)聲明：部分文章信息來源于網(wǎng)絡(luò)以及網(wǎng)友投稿，本網(wǎng)站只負(fù)責(zé)對文章進(jìn)行整理、排版、編輯，是出于傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，不承擔(dān)任何法律責(zé)任。

什么是網(wǎng)站搜索關(guān)鍵詞？如何對搜索關(guān)鍵詞做優(yōu)化？

什么是nofollow標(biāo)簽？詳解nofollow的正確使用方法、應(yīng)用場景及作用

喜歡收藏

亚洲欧美v国产一区二区三区,中文字日产幕乱五区,综合亚洲,,,色,亚洲伊人久久大香线蕉综合,亚洲综合精品伊人久久

什么是robots協(xié)議？詳解robots.txt文件的存放位置、格式、使用技巧及作用

一、什么是robots協(xié)議

二、robots協(xié)議的由來

三、robots文件放在哪里

四、robots協(xié)議的格式

五、robots協(xié)議用法與實(shí)例

六、Robots.txt 文件在線生成

七、Robots.txt文件在線檢測工具

八、Robots協(xié)議使用技巧

九、Robots文件的作用

十、Robots META標(biāo)簽的寫法

十一、搜索引擎常見Robots名字

十二、robots協(xié)議常見問題

上一篇

下一篇

相關(guān)SEO百科

Ai智能創(chuàng)作平臺是否有利于seo優(yōu)化

為什么網(wǎng)站不被搜索引擎收錄？8個原因分析

如何優(yōu)化URL以提高網(wǎng)站SEO效果？

友情鏈接對網(wǎng)站SEO的影響

網(wǎng)站建設(shè)如何做好SEO優(yōu)化，讓用戶找到你的網(wǎng)站？

網(wǎng)站建設(shè)中必須知道的SEO技巧之友情鏈接交換注意

站內(nèi)定向錨文本的優(yōu)化策略和技巧分享

如何處理帶www和不帶www域名的關(guān)系，提高網(wǎng)站

熱門推薦

SEO排名為什么全國搜索引擎首頁顯示結(jié)果不同？

SEO優(yōu)化對網(wǎng)站來說有什么價值？

熱門標(biāo)簽

亚洲欧美v国产一区二区三区,中文字日产幕乱五区,综合亚洲,,,色,亚洲伊人久久大香线蕉综合,亚洲综合精品伊人久久

什么是robots協(xié)議？詳解robots.txt文件的存放位置、格式、使用技巧及作用

一、什么是robots協(xié)議

二、robots協(xié)議的由來

三、robots文件放在哪里

四、robots協(xié)議的格式

五、robots協(xié)議用法與實(shí)例

六、Robots.txt 文件在線生成

七、Robots.txt文件在線檢測工具

八、Robots協(xié)議使用技巧

九、Robots文件的作用

十、Robots META標(biāo)簽的寫法

十一、搜索引擎常見Robots名字

十二、robots協(xié)議常見問題

上一篇

下一篇

相關(guān)SEO百科

Ai智能創(chuàng)作平臺是否有利于seo優(yōu)化

為什么網(wǎng)站不被搜索引擎收錄？8個原因分析

如何優(yōu)化URL以提高網(wǎng)站SEO效果？

友情鏈接對網(wǎng)站SEO的影響

網(wǎng)站建設(shè)如何做好SEO優(yōu)化，讓用戶找到你的網(wǎng)站？

網(wǎng)站建設(shè)中必須知道的SEO技巧之友情鏈接交換注意

站內(nèi)定向錨文本的優(yōu)化策略和技巧分享

如何處理帶www和不帶www域名的關(guān)系，提高網(wǎng)站

熱門推薦

SEO排名為什么全國搜索引擎首頁顯示結(jié)果不同？

SEO優(yōu)化對網(wǎng)站來說有什么價值？

熱門標(biāo)簽

什么是robots協(xié)議？詳解robots.txt文件的存放位置、格式、使用技巧及作用

一、什么是robots協(xié)議

二、robots協(xié)議的由來

三、robots文件放在哪里

四、robots協(xié)議的格式

五、robots協(xié)議用法與實(shí)例

六、Robots.txt 文件在線生成

七、Robots.txt文件在線檢測工具

九、Robots文件的作用

十、Robots META標(biāo)簽的寫法

十一、搜索引擎常見Robots名字

十二、robots協(xié)議常見問題

為什么網(wǎng)站不被搜索引擎收錄？8個原因分析

如何優(yōu)化URL以提高網(wǎng)站SEO效果？

網(wǎng)站建設(shè)如何做好SEO優(yōu)化，讓用戶找到你的網(wǎng)站？

如何處理帶www和不帶www域名的關(guān)系，提高網(wǎng)站

SEO排名為什么全國搜索引擎首頁顯示結(jié)果不同？