百度蜘蛛是什么意思？詳解百度蜘蛛工作原理、抓取和查詢方法

2023-05-17 08:22:14

百度蜘蛛是什么意思

一、百度蜘蛛是什么意思

百度蜘蛛是百度搜索引擎蜘蛛的簡稱（英文：BaiduSpider），百度蜘蛛是百度搜索引擎的一個自動程序。它的作用是訪問收集整理互聯(lián)網(wǎng)上的網(wǎng)頁、圖片、視頻等內(nèi)容，然后分門別類建立索引數(shù)據(jù)庫，使用戶能在百度搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁、圖片、視頻等內(nèi)容。

二、百度蜘蛛的工作原理

如果說互聯(lián)網(wǎng)是一個蜘蛛網(wǎng)的話，那么搜索引擎蜘蛛就是在這個網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁的，從網(wǎng)站的一個頁面（首頁）開始，讀取網(wǎng)頁的內(nèi)容，找到網(wǎng)頁中其他鏈接地址，通過這些鏈接地址尋找下一個網(wǎng)頁，直到把這個網(wǎng)站所有的網(wǎng)頁都找到。

百度蜘蛛的工作原理

*百度蜘蛛的工作原理

面對全網(wǎng)上千億的網(wǎng)頁，搜索引擎每天都會派出無數(shù)的蜘蛛程序去抓取散布在互聯(lián)網(wǎng)上的網(wǎng)頁，對其進(jìn)行質(zhì)量評估后再決定是否收錄和建立索引，都會有這個四個步驟：抓取、過濾、索引和輸出。

1、抓取

百度搜索引擎機(jī)器人，又叫百度蜘蛛。百度蜘蛛會通過計算和規(guī)則確定需要爬取的頁面和爬取頻次，如果網(wǎng)站的更新頻率和網(wǎng)站的內(nèi)容質(zhì)量和對用戶的友好度高，那么你新生成的內(nèi)容就會馬上被蜘蛛抓取到。

2、過濾

因為頁面的數(shù)量太多，頁面質(zhì)量參差不齊，甚至還有詐騙頁面，死鏈接等等垃圾內(nèi)容。所以百度蜘蛛會先最這些內(nèi)容進(jìn)行過濾，避免這些內(nèi)容展現(xiàn)給用戶，對用戶造成不好的用戶體驗。

3、索引

百度對過濾后的內(nèi)容會進(jìn)行標(biāo)記和標(biāo)識和分類，對數(shù)據(jù)結(jié)構(gòu)話儲存起來。保存內(nèi)容包括標(biāo)題，描述等頁面關(guān)鍵內(nèi)容。然后這些內(nèi)容會保存于庫內(nèi)，當(dāng)用戶搜索的時候，就會根據(jù)匹配規(guī)則展現(xiàn)。

4、輸出

當(dāng)用戶搜索一個關(guān)鍵詞的時候，搜索引擎會根據(jù)一系列的算法和規(guī)則去和索引庫里面的內(nèi)容進(jìn)行匹配，同時會對匹配結(jié)果的內(nèi)容進(jìn)行優(yōu)缺點評分，最后得出一個排列順序，也就是百度的排名。

三、百度蜘蛛的級別

百度搜索引擎把蜘蛛分為三種級別：1、初級蜘蛛；2、中級蜘蛛；3，高級蜘蛛。這三種蜘蛛分別具有不同的權(quán)限。

1、高級蜘蛛

高級蜘蛛負(fù)責(zé)去爬行權(quán)重比較高的網(wǎng)站，高級蜘蛛有專門的權(quán)限，就是秒收。這就是為什么你去權(quán)重比較高的論壇發(fā)帖，會被搜索引擎直接秒收了。高級蜘蛛爬行深度也是非常的高，他幾乎能夠爬行到你網(wǎng)站的所有鏈接頁面，高級蜘蛛的來訪頻率也很高，幾乎每天都會來訪，這樣就完全加快了百度快照的更新頻率。這就是為什么這么多站長一直在不斷努力的提高權(quán)重的原因。

2、中級蜘蛛

中級蜘蛛通過爬行外鏈和反鏈（友情鏈接）來到你的網(wǎng)站，然后再從你的網(wǎng)站爬行，從而抓取你網(wǎng)站的內(nèi)容，然后把抓取的到的內(nèi)容，和搜索引擎數(shù)據(jù)庫中原來的數(shù)據(jù)一一進(jìn)行對比，看看是否是原創(chuàng)內(nèi)容、偽原創(chuàng)內(nèi)容、還是直接采集的內(nèi)容，從而確定要不要放出來。所以說，我們在高權(quán)重的論壇發(fā)軟文和有錨文本簽名是可以很有效的引來蜘蛛的光顧。

3、初級蜘蛛。

初級蜘蛛就簡單了，它一般情況只去爬行新站，爬行深度也很低，它抓取到網(wǎng)頁的內(nèi)容后，會一級一級的提交到搜索引擎數(shù)據(jù)庫，然后先把數(shù)據(jù)存放起來，再過幾天再來爬行，直到搜索引擎覺得爬行到的內(nèi)容是有價值的才會被放出來。這就是為什么新站都有一個考核期，因為都是一些初級蜘蛛在光顧，所以特別的慢，一般情況爬行深度也很低，有時候只爬了一個首頁就完事了。

四、百度蜘蛛抓取網(wǎng)頁的形式

1、通過我們手動推送給搜索引擎抓取(手工提交)。

手動推送功能截圖

*手動推送功能截圖

2、從其他網(wǎng)站上面發(fā)現(xiàn)我們的鏈接(比如友鏈),也就是我們常說的SEO外鏈。

3、通過瀏覽器訪問我們的網(wǎng)頁，留下緩存數(shù)據(jù)后，被蜘蛛抓取得到。

五、百度蜘蛛抓取策略

由于蜘蛛為了能夠抓取網(wǎng)上盡量多的頁面，它會追蹤網(wǎng)頁上的簡介，從一個頁面爬到下一個頁面，就好像是蜘蛛在蜘蛛網(wǎng)上爬行那樣。整個互聯(lián)網(wǎng)網(wǎng)站都是相互鏈接組成的，也就是說，搜索引擎蜘蛛從任何一個頁面出發(fā)最終都會爬完所有頁面。

網(wǎng)站和頁面鏈接結(jié)構(gòu)太過于復(fù)雜，所以蜘蛛只有采用一定的方法才能夠爬完所有頁面，最簡單的爬行策略有3種：

1、深度優(yōu)先

深度優(yōu)先就是指蜘蛛到達(dá)一個頁面后，發(fā)現(xiàn)一個錨文本鏈接，就是爬進(jìn)去另個一頁面，然后又在另一個頁面發(fā)現(xiàn)另一個錨文本鏈接，接著往里面爬，直到最后爬完這個網(wǎng)站。深度優(yōu)先抓取的目的是為了抓取高質(zhì)量的網(wǎng)頁，這個策略是由調(diào)度來計算和分配的，百度蜘蛛只負(fù)責(zé)抓取。

2、廣度優(yōu)先

廣度優(yōu)先就是蜘蛛到達(dá)一個頁面后，發(fā)現(xiàn)錨文本不是直接進(jìn)去，而是把整個頁面所有都爬行完畢，再一起進(jìn)入所有錨文本的另一個頁面，直到整個網(wǎng)站爬行完畢。

3、最佳優(yōu)先

最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法，預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度，或與主題的相關(guān)性，并選取評價最好的一個或幾個URL進(jìn)行抓取，它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為"有用"的網(wǎng)頁。

存在的一個問題是，在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略，因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法，因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn)，以跳出局部最優(yōu)點，據(jù)馬海祥博客的研究發(fā)現(xiàn)，這樣的閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量降低30%~90%。

六、百度蜘蛛的查詢方法

關(guān)于查詢百度蜘蛛，百度官方給出了兩種方法，即查看UA信息和DNS解析認(rèn)證，詳細(xì)操作方法如下：

1、查看UA信息

如果UA信息不對，可以直接判斷為非百度搜索的蜘蛛。目前UA分為移動、PC、和小程序三個應(yīng)用場景，這三個渠道UA分別如下：

移動UA：

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

或

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

PC UA：

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

或

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA：

2、雙向DNS解析認(rèn)證

第一步：DNS反查IP

開發(fā)者通過對日志中訪問服務(wù)器的IP地址運(yùn)行反向DNS查找，判斷某只spider是否來自百度搜索引擎，Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名，非*.baidu.com或*.baidu.jp即為冒充。

根據(jù)平臺不同驗證方法不同，如linux/windows/os三種平臺下的驗證方法分別如下：

1).在linux平臺下，您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。

2).在windows平臺或者IBM OS/2平臺下，您可以使用nslookup ip命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入nslookup xxx.xxx.xxx.xxx（IP地址）就能解析ip，來判斷是否來自Baiduspider的抓取。

3).在macos平臺下，您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入dig -x xxx.xxx.xxx.xxx（IP地址）就能解析ip，來判斷是否來自Baiduspider的抓取。

第二步：對域名運(yùn)行正向DNS查找

對第一步中通過命令檢索到的域名運(yùn)行正向DNS查找，驗證該域名與您日志中訪問服務(wù)器的原始IP地址是否一致，IP地址一致可確認(rèn)spider來自百度搜索引擎，IP地址不一致即為冒充。

示例1：

> host 111.206.198.69

69.198.206.111. in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com.

> host baiduspider-111-206-198-69.crawl.baidu.com

baiduspider-111-206-198-69.crawl.baidu.com has address 111.206.198.69

七、百度蜘蛛ua（user-agent）匯總

序號	產(chǎn)品名稱	對應(yīng)ua（user-agent）
1	網(wǎng)頁搜索	Baiduspider
2	無線搜索	Baiduspider
3	圖片搜索	Baiduspider-image
4	視頻搜索	Baiduspider-video
5	新聞搜索	Baiduspider-news
6	百度搜藏	Baiduspider-favo
7	百度聯(lián)盟	Baiduspider-cpro
8	競價蜘蛛	Baiduspider-sfkr

八、百度蜘蛛常見問題解答

1、Baiduspider對一個網(wǎng)站服務(wù)器造成的訪問壓力如何？

答：Baiduspider會自動根據(jù)服務(wù)器的負(fù)載能力調(diào)節(jié)訪問密度。在連續(xù)訪問一段時間后，Baiduspider會暫停一會，以防止增大服務(wù)器的訪問壓力。所以在一般情況下，Baiduspider對您網(wǎng)站的服務(wù)器不會造成過大的壓力。

2、為什么Baiduspider不停的抓取我的網(wǎng)站？

答：或許您的網(wǎng)站權(quán)重高或者對于您網(wǎng)站上新產(chǎn)生的或者持續(xù)、有規(guī)律更新的頁面，Baiduspider會持續(xù)抓取。此外，您也可以檢查網(wǎng)站訪問日志中Baiduspider的訪問是否正常，以防止有人惡意冒充Baiduspider來頻繁抓取您的網(wǎng)站。如果您發(fā)現(xiàn)Baiduspider非正常抓取您的網(wǎng)站，請反饋至，并請盡量給出Baiduspider對貴站的訪問日志，以便于我們跟蹤處理。

3、我不想我的網(wǎng)站被Baiduspider訪問，我該怎么做？

答：Baiduspider遵守互聯(lián)網(wǎng)robots協(xié)議。您可以利用robots.txt文件完全禁止Baiduspider訪問您的網(wǎng)站，或者禁止Baiduspider訪問您網(wǎng)站上的部分文件。注意：禁止Baiduspider訪問您的網(wǎng)站，將使您的網(wǎng)站上的網(wǎng)頁，在百度搜索引擎以及所有百度提供搜索引擎服務(wù)的搜索引擎中無法被搜索到。

詳細(xì)介紹請查看：robots協(xié)議

4、為什么我的網(wǎng)站已經(jīng)加了robots.txt，還能在百度搜索出來？

答：因為搜索引擎索引數(shù)據(jù)庫的更新需要時間。雖然Baiduspider已經(jīng)停止訪問您網(wǎng)站上的網(wǎng)頁，但百度搜索引擎數(shù)據(jù)庫中已經(jīng)建立的網(wǎng)頁索引信息，可能需要二至四周才會清除。另外也請檢查您的robots配置是否正確。

5、我希望我的網(wǎng)站內(nèi)容被百度索引但不被保存快照，我該怎么做？

答：Baiduspider遵守互聯(lián)網(wǎng)metarobots協(xié)議。您可以利用網(wǎng)頁meta的設(shè)置，使百度顯示只對該網(wǎng)頁建索引，但并不在搜索結(jié)果中顯示該網(wǎng)頁的快照。

和robots的更新一樣，因為搜索引擎索引數(shù)據(jù)庫的更新需要時間，所以雖然您已經(jīng)在網(wǎng)頁中通過meta禁止了百度在搜索結(jié)果中顯示該網(wǎng)頁的快照，但百度搜索引擎數(shù)據(jù)庫中如果已經(jīng)建立了網(wǎng)頁索引信息，可能需要二至四周才會在線上生效。

6、百度蜘蛛在robots.txt中的名字是什么？

答："Baiduspider" 首字母B大寫，其余為小寫。

7、Baiduspider多長時間之后會重新抓取我的網(wǎng)頁？

答：百度搜索引擎每周更新，網(wǎng)頁視重要性有不同的更新率，頻率在幾天至一月之間，Baiduspider會重新訪問和更新一個網(wǎng)頁。

8、Baiduspider抓取造成的帶寬堵塞？

答：Baiduspider的正常抓取并不會造成您網(wǎng)站的帶寬堵塞，造成此現(xiàn)象可能是由于有人冒充baidu的spider惡意抓取。如果您發(fā)現(xiàn)有名為Baiduspider的agent抓取并且造成帶寬堵塞，請盡快和我們聯(lián)系。您可以將信息反饋至百度網(wǎng)頁投訴中心，如果能夠提供您網(wǎng)站該時段的訪問日志將更加有利于我們的分析。

總結(jié)

優(yōu)化猩SEO：大家了解百度蜘蛛的工作原理解析之后就明白怎么去做網(wǎng)站優(yōu)化和推廣了，一個網(wǎng)站如果有高級百度蜘蛛來爬行，那么就可以實現(xiàn)內(nèi)容秒收，從而更快的獲得搜索引擎排名。所以就要不斷的努力提高權(quán)重和更新網(wǎng)站內(nèi)容，原創(chuàng)內(nèi)容很重要！

參考鏈接：

百度蜘蛛_百度百科

https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E8%9C%98%E8%9B%9B/5781752

輕松兩步，正確識別百度蜘蛛（User-Agent）_百度搜索資源平臺

https://ziyuan.baidu.com/college/articleinfo?id=1295

百度蜘蛛的運(yùn)行原理詳解-CSDN博客

https://blog.csdn.net/amao0712/article/details/80383736

百度搜索引擎蜘蛛的工作原理解析-百度經(jīng)驗

https://jingyan.baidu.com/article/c1465413561bf90bfcfc4c0a.html

百度spider介紹_百度搜索資源平臺

https://ziyuan.baidu.com/college/articleinfo?id=1192

修改于2023-05-17