百度蜘蛛是什么意思?詳解百度蜘蛛工作原理、抓取和查詢方法
一、百度蜘蛛是什么意思
百度蜘蛛是百度搜索引擎蜘蛛的簡稱(英文:BaiduSpider),百度蜘蛛是百度搜索引擎的一個自動程序。它的作用是訪問收集整理互聯(lián)網(wǎng)上的網(wǎng)頁、圖片、視頻等內(nèi)容,然后分門別類建立索引數(shù)據(jù)庫,使用戶能在百度搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁、圖片、視頻等內(nèi)容。
二、百度蜘蛛的工作原理
如果說互聯(lián)網(wǎng)是一個蜘蛛網(wǎng)的話,那么搜索引擎蜘蛛就是在這個網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁的,從網(wǎng)站的一個頁面(首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到網(wǎng)頁中其他鏈接地址,通過這些鏈接地址尋找下一個網(wǎng)頁,直到把這個網(wǎng)站所有的網(wǎng)頁都找到。
*百度蜘蛛的工作原理
面對全網(wǎng)上千億的網(wǎng)頁,搜索引擎每天都會派出無數(shù)的蜘蛛程序去抓取散布在互聯(lián)網(wǎng)上的網(wǎng)頁,對其進(jìn)行質(zhì)量評估后再決定是否收錄和建立索引,都會有這個四個步驟:抓取、過濾、索引和輸出。
1、抓取
百度搜索引擎機(jī)器人,又叫百度蜘蛛。百度蜘蛛會通過計算和規(guī)則確定需要爬取的頁面和爬取頻次,如果網(wǎng)站的更新頻率和網(wǎng)站的內(nèi)容質(zhì)量和對用戶的友好度高,那么你新生成的內(nèi)容就會馬上被蜘蛛抓取到。
2、過濾
因為頁面的數(shù)量太多,頁面質(zhì)量參差不齊,甚至還有詐騙頁面,死鏈接等等垃圾內(nèi)容。所以百度蜘蛛會先最這些內(nèi)容進(jìn)行過濾,避免這些內(nèi)容展現(xiàn)給用戶,對用戶造成不好的用戶體驗。
3、索引
百度對過濾后的內(nèi)容會進(jìn)行標(biāo)記和標(biāo)識和分類,對數(shù)據(jù)結(jié)構(gòu)話儲存起來。保存內(nèi)容包括標(biāo)題,描述等頁面關(guān)鍵內(nèi)容。然后這些內(nèi)容會保存于庫內(nèi),當(dāng)用戶搜索的時候,就會根據(jù)匹配規(guī)則展現(xiàn)。
4、輸出
當(dāng)用戶搜索一個關(guān)鍵詞的時候,搜索引擎會根據(jù)一系列的算法和規(guī)則去和索引庫里面的內(nèi)容進(jìn)行匹配,同時會對匹配結(jié)果的內(nèi)容進(jìn)行優(yōu)缺點評分,最后得出一個排列順序,也就是百度的排名。
三、百度蜘蛛的級別
百度搜索引擎把蜘蛛分為三種級別:1、初級蜘蛛;2、中級蜘蛛;3,高級蜘蛛。 這三種蜘蛛分別具有不同的權(quán)限。
1、高級蜘蛛
高級蜘蛛負(fù)責(zé)去爬行權(quán)重比較高的網(wǎng)站,高級蜘蛛有專門的權(quán)限,就是秒收。這就是為什么你去權(quán)重比較高的論壇發(fā)帖,會被搜索引擎直接秒收了。高級蜘蛛爬行深度也是非常的高,他幾乎能夠爬行到你網(wǎng)站的所有鏈接頁面,高級蜘蛛的來訪頻率也很高,幾乎每天都會來訪,這樣就完全加快了百度快照的更新頻率。這就是為什么這么多站長一直在不斷努力的提高權(quán)重的原因。
2、中級蜘蛛
中級蜘蛛通過爬行外鏈和反鏈(友情鏈接)來到你的網(wǎng)站,然后再從你的網(wǎng)站爬行,從而抓取你網(wǎng)站的內(nèi)容,然后把抓取的到的內(nèi)容,和搜索引擎數(shù)據(jù)庫中原來的數(shù)據(jù)一一進(jìn)行對比,看看是否是原創(chuàng)內(nèi)容、偽原創(chuàng)內(nèi)容、還是直接采集的內(nèi)容,從而確定要不要放出來。所以說,我們在高權(quán)重的論壇發(fā)軟文和有錨文本簽名是可以很有效的引來蜘蛛的光顧。
3、初級蜘蛛。
初級蜘蛛就簡單了,它一般情況只去爬行新站,爬行深度也很低,它抓取到網(wǎng)頁的內(nèi)容后,會一級一級的提交到搜索引擎數(shù)據(jù)庫,然后先把數(shù)據(jù)存放起來,再過幾天再來爬行,直到搜索引擎覺得爬行到的內(nèi)容是有價值的才會被放出來。這就是為什么新站都有一個考核期,因為都是一些初級蜘蛛在光顧,所以特別的慢,一般情況爬行深度也很低,有時候只爬了一個首頁就完事了。
四、百度蜘蛛抓取網(wǎng)頁的形式
1、通過我們手動推送給搜索引擎抓取(手工提交)。
*手動推送功能截圖
2、從其他網(wǎng)站上面發(fā)現(xiàn)我們的鏈接(比如友鏈),也就是我們常說的SEO外鏈。
3、通過瀏覽器訪問我們的網(wǎng)頁,留下緩存數(shù)據(jù)后,被蜘蛛抓取得到。
五、百度蜘蛛抓取策略
由于蜘蛛為了能夠抓取網(wǎng)上盡量多的頁面,它會追蹤網(wǎng)頁上的簡介,從一個頁面爬到下一個頁面,就好像是蜘蛛在蜘蛛網(wǎng)上爬行那樣。整個互聯(lián)網(wǎng)網(wǎng)站都是相互鏈接組成的,也就是說,搜索引擎蜘蛛從任何一個頁面出發(fā)最終都會爬完所有頁面。
網(wǎng)站和頁面鏈接結(jié)構(gòu)太過于復(fù)雜,所以蜘蛛只有采用一定的方法才能夠爬完所有頁面,最簡單的爬行策略有3種:
1、深度優(yōu)先
深度優(yōu)先就是指蜘蛛到達(dá)一個頁面后,發(fā)現(xiàn)一個錨文本鏈接,就是爬進(jìn)去另個一頁面,然后又在另一個頁面發(fā)現(xiàn)另一個錨文本鏈接,接著往里面爬,直到最后爬完這個網(wǎng)站。深度優(yōu)先抓取的目的是為了抓取高質(zhì)量的網(wǎng)頁,這個策略是由調(diào)度來計算和分配的,百度蜘蛛只負(fù)責(zé)抓取。
2、廣度優(yōu)先
廣度優(yōu)先就是蜘蛛到達(dá)一個頁面后,發(fā)現(xiàn)錨文本不是直接進(jìn)去,而是把整個頁面所有都爬行完畢,再一起進(jìn)入所有錨文本的另一個頁面,直到整個網(wǎng)站爬行完畢。
3、最佳優(yōu)先
最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進(jìn)行抓取,它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為"有用"的網(wǎng)頁。
存在的一個問題是,在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法,因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn),以跳出局部最優(yōu)點,據(jù)馬海祥博客的研究發(fā)現(xiàn),這樣的閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量降低30%~90%。
六、百度蜘蛛的查詢方法
關(guān)于查詢百度蜘蛛,百度官方給出了兩種方法,即查看UA信息和DNS解析認(rèn)證,詳細(xì)操作方法如下:
1、查看UA信息
如果UA信息不對,可以直接判斷為非百度搜索的蜘蛛。目前UA分為移動、PC、和小程序三個應(yīng)用場景,這三個渠道UA分別如下:
移動UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
或
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
PC UA:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
或
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
小程序UA:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
2、雙向DNS解析認(rèn)證
第一步:DNS反查IP
開發(fā)者通過對日志中訪問服務(wù)器的IP地址運(yùn)行反向DNS查找,判斷某只spider是否來自百度搜索引擎,Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即為冒充。
根據(jù)平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:
1).在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。
2).在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取。
3).在macos平臺下,您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入dig -x xxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取。
第二步:對域名運(yùn)行正向DNS查找
對第一步中通過命令檢索到的域名運(yùn)行正向DNS查找,驗證該域名與您日志中訪問服務(wù)器的原始IP地址是否一致,IP地址一致可確認(rèn)spider來自百度搜索引擎,IP地址不一致即為冒充。
示例1:
> host 111.206.198.69
69.198.206.111. in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com.
> host baiduspider-111-206-198-69.crawl.baidu.com
baiduspider-111-206-198-69.crawl.baidu.com has address 111.206.198.69
七、百度蜘蛛ua(user-agent)匯總
序號 | 產(chǎn)品名稱 | 對應(yīng)ua(user-agent) |
1 | 網(wǎng)頁搜索 | Baiduspider |
2 | 無線搜索 | Baiduspider |
3 | 圖片搜索 | Baiduspider-image |
4 | 視頻搜索 | Baiduspider-video |
5 | 新聞搜索 | Baiduspider-news |
6 | 百度搜藏 | Baiduspider-favo |
7 | 百度聯(lián)盟 | Baiduspider-cpro |
8 | 競價蜘蛛 | Baiduspider-sfkr |
八、百度蜘蛛常見問題解答
1、Baiduspider對一個網(wǎng)站服務(wù)器造成的訪問壓力如何?
答:Baiduspider會自動根據(jù)服務(wù)器的負(fù)載能力調(diào)節(jié)訪問密度。在連續(xù)訪問一段時間后,Baiduspider會暫停一會,以防止增大服務(wù)器的訪問壓力。所以在一般情況下,Baiduspider對您網(wǎng)站的服務(wù)器不會造成過大的壓力。
2、為什么Baiduspider不停的抓取我的網(wǎng)站?
答:或許您的網(wǎng)站權(quán)重高或者對于您網(wǎng)站上新產(chǎn)生的或者持續(xù)、有規(guī)律更新的頁面,Baiduspider會持續(xù)抓取。此外,您也可以檢查網(wǎng)站訪問日志中Baiduspider的訪問是否正常,以防止有人惡意冒充Baiduspider來頻繁抓取您的網(wǎng)站。 如果您發(fā)現(xiàn)Baiduspider非正常抓取您的網(wǎng)站,請反饋至,并請盡量給出Baiduspider對貴站的訪問日志,以便于我們跟蹤處理。
3、我不想我的網(wǎng)站被Baiduspider訪問,我該怎么做?
答:Baiduspider遵守互聯(lián)網(wǎng)robots協(xié)議。您可以利用robots.txt文件完全禁止Baiduspider訪問您的網(wǎng)站,或者禁止Baiduspider訪問您網(wǎng)站上的部分文件。 注意:禁止Baiduspider訪問您的網(wǎng)站,將使您的網(wǎng)站上的網(wǎng)頁,在百度搜索引擎以及所有百度提供搜索引擎服務(wù)的搜索引擎中無法被搜索到。
詳細(xì)介紹請查看:robots協(xié)議
4、為什么我的網(wǎng)站已經(jīng)加了robots.txt,還能在百度搜索出來?
答:因為搜索引擎索引數(shù)據(jù)庫的更新需要時間。雖然Baiduspider已經(jīng)停止訪問您網(wǎng)站上的網(wǎng)頁,但百度搜索引擎數(shù)據(jù)庫中已經(jīng)建立的網(wǎng)頁索引信息,可能需要二至四周才會清除。 另外也請檢查您的robots配置是否正確。
5、我希望我的網(wǎng)站內(nèi)容被百度索引但不被保存快照,我該怎么做?
答:Baiduspider遵守互聯(lián)網(wǎng)metarobots協(xié)議。您可以利用網(wǎng)頁meta的設(shè)置,使百度顯示只對該網(wǎng)頁建索引,但并不在搜索結(jié)果中顯示該網(wǎng)頁的快照。
和robots的更新一樣,因為搜索引擎索引數(shù)據(jù)庫的更新需要時間,所以雖然您已經(jīng)在網(wǎng)頁中通過meta禁止了百度在搜索結(jié)果中顯示該網(wǎng)頁的快照,但百度搜索引擎數(shù)據(jù)庫中如果已經(jīng)建立了網(wǎng)頁索引信息,可能需要二至四周才會在線上生效。
6、百度蜘蛛在robots.txt中的名字是什么?
答:"Baiduspider" 首字母B大寫,其余為小寫。
7、Baiduspider多長時間之后會重新抓取我的網(wǎng)頁?
答:百度搜索引擎每周更新,網(wǎng)頁視重要性有不同的更新率,頻率在幾天至一月之間,Baiduspider會重新訪問和更新一個網(wǎng)頁。
8、Baiduspider抓取造成的帶寬堵塞?
答:Baiduspider的正常抓取并不會造成您網(wǎng)站的帶寬堵塞,造成此現(xiàn)象可能是由于有人冒充baidu的spider惡意抓取。如果您發(fā)現(xiàn)有名為Baiduspider的agent抓取并且造成帶寬堵塞,請盡快和我們聯(lián)系。您可以將信息反饋至百度網(wǎng)頁投訴中心,如果能夠提供您網(wǎng)站該時段的訪問日志將更加有利于我們的分析。
總結(jié)
優(yōu)化猩SEO:大家了解百度蜘蛛的工作原理解析之后就明白怎么去做網(wǎng)站優(yōu)化和推廣了,一個網(wǎng)站如果有高級百度蜘蛛來爬行,那么就可以實現(xiàn)內(nèi)容秒收,從而更快的獲得搜索引擎排名。所以就要不斷的努力提高權(quán)重和更新網(wǎng)站內(nèi)容,原創(chuàng)內(nèi)容很重要!
參考鏈接:
百度蜘蛛_百度百科
https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E8%9C%98%E8%9B%9B/5781752
輕松兩步,正確識別百度蜘蛛(User-Agent)_百度搜索資源平臺
https://ziyuan.baidu.com/college/articleinfo?id=1295
百度蜘蛛的運(yùn)行原理詳解-CSDN博客
https://blog.csdn.net/amao0712/article/details/80383736
百度搜索引擎蜘蛛的工作原理解析-百度經(jīng)驗
https://jingyan.baidu.com/article/c1465413561bf90bfcfc4c0a.html
百度spider介紹_百度搜索資源平臺
https://ziyuan.baidu.com/college/articleinfo?id=1192
修改于2023-05-17
想了解更多SEO百科的內(nèi)容,請訪問:SEO百科