亚洲欧美v国产一区二区三区,中文字日产幕乱五区,综合亚洲,,,色,亚洲伊人久久大香线蕉综合,亚洲综合精品伊人久久

首頁 > SEO建站 > SEO百科百度蜘蛛是什么意思?詳解百度蜘蛛工作原理、抓取和查詢方法

百度蜘蛛是什么意思?詳解百度蜘蛛工作原理、抓取和查詢方法

2023-05-17 08:22:14

百度蜘蛛是什么意思

一、百度蜘蛛是什么意思

百度蜘蛛是百度搜索引擎蜘蛛的簡稱(英文:BaiduSpider),百度蜘蛛是百度搜索引擎的一個自動程序。它的作用是訪問收集整理互聯(lián)網(wǎng)上的網(wǎng)頁、圖片、視頻等內(nèi)容,然后分門別類建立索引數(shù)據(jù)庫,使用戶能在百度搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁、圖片、視頻等內(nèi)容。

二、百度蜘蛛的工作原理

如果說互聯(lián)網(wǎng)是一個蜘蛛網(wǎng)的話,那么搜索引擎蜘蛛就是在這個網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁的,從網(wǎng)站的一個頁面(首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到網(wǎng)頁中其他鏈接地址,通過這些鏈接地址尋找下一個網(wǎng)頁,直到把這個網(wǎng)站所有的網(wǎng)頁都找到。


百度蜘蛛的工作原理

*百度蜘蛛的工作原理

面對全網(wǎng)上千億的網(wǎng)頁,搜索引擎每天都會派出無數(shù)的蜘蛛程序去抓取散布在互聯(lián)網(wǎng)上的網(wǎng)頁,對其進(jìn)行質(zhì)量評估后再決定是否收錄和建立索引,都會有這個四個步驟:抓取、過濾、索引和輸出。

1、抓取

百度搜索引擎機(jī)器人,又叫百度蜘蛛。百度蜘蛛會通過計算和規(guī)則確定需要爬取的頁面和爬取頻次,如果網(wǎng)站的更新頻率和網(wǎng)站的內(nèi)容質(zhì)量和對用戶的友好度高,那么你新生成的內(nèi)容就會馬上被蜘蛛抓取到。

2、過濾

因為頁面的數(shù)量太多,頁面質(zhì)量參差不齊,甚至還有詐騙頁面,死鏈接等等垃圾內(nèi)容。所以百度蜘蛛會先最這些內(nèi)容進(jìn)行過濾,避免這些內(nèi)容展現(xiàn)給用戶,對用戶造成不好的用戶體驗。

3、索引

百度對過濾后的內(nèi)容會進(jìn)行標(biāo)記和標(biāo)識和分類,對數(shù)據(jù)結(jié)構(gòu)話儲存起來。保存內(nèi)容包括標(biāo)題,描述等頁面關(guān)鍵內(nèi)容。然后這些內(nèi)容會保存于庫內(nèi),當(dāng)用戶搜索的時候,就會根據(jù)匹配規(guī)則展現(xiàn)。

4、輸出

當(dāng)用戶搜索一個關(guān)鍵詞的時候,搜索引擎會根據(jù)一系列的算法和規(guī)則去和索引庫里面的內(nèi)容進(jìn)行匹配,同時會對匹配結(jié)果的內(nèi)容進(jìn)行優(yōu)缺點評分,最后得出一個排列順序,也就是百度的排名。

三、百度蜘蛛的級別

百度搜索引擎把蜘蛛分為三種級別:1、初級蜘蛛;2、中級蜘蛛;3,高級蜘蛛。 這三種蜘蛛分別具有不同的權(quán)限。

1、高級蜘蛛

高級蜘蛛負(fù)責(zé)去爬行權(quán)重比較高的網(wǎng)站,高級蜘蛛有專門的權(quán)限,就是秒收。這就是為什么你去權(quán)重比較高的論壇發(fā)帖,會被搜索引擎直接秒收了。高級蜘蛛爬行深度也是非常的高,他幾乎能夠爬行到你網(wǎng)站的所有鏈接頁面,高級蜘蛛的來訪頻率也很高,幾乎每天都會來訪,這樣就完全加快了百度快照的更新頻率。這就是為什么這么多站長一直在不斷努力的提高權(quán)重的原因。

2、中級蜘蛛

中級蜘蛛通過爬行外鏈和反鏈(友情鏈接)來到你的網(wǎng)站,然后再從你的網(wǎng)站爬行,從而抓取你網(wǎng)站的內(nèi)容,然后把抓取的到的內(nèi)容,和搜索引擎數(shù)據(jù)庫中原來的數(shù)據(jù)一一進(jìn)行對比,看看是否是原創(chuàng)內(nèi)容、偽原創(chuàng)內(nèi)容、還是直接采集的內(nèi)容,從而確定要不要放出來。所以說,我們在高權(quán)重的論壇發(fā)軟文和有錨文本簽名是可以很有效的引來蜘蛛的光顧。

3、初級蜘蛛。

初級蜘蛛就簡單了,它一般情況只去爬行新站,爬行深度也很低,它抓取到網(wǎng)頁的內(nèi)容后,會一級一級的提交到搜索引擎數(shù)據(jù)庫,然后先把數(shù)據(jù)存放起來,再過幾天再來爬行,直到搜索引擎覺得爬行到的內(nèi)容是有價值的才會被放出來。這就是為什么新站都有一個考核期,因為都是一些初級蜘蛛在光顧,所以特別的慢,一般情況爬行深度也很低,有時候只爬了一個首頁就完事了。

四、百度蜘蛛抓取網(wǎng)頁的形式

1、通過我們手動推送給搜索引擎抓取(手工提交)。

手動推送功能截圖

*手動推送功能截圖

2、從其他網(wǎng)站上面發(fā)現(xiàn)我們的鏈接(比如友鏈),也就是我們常說的SEO外鏈。

3、通過瀏覽器訪問我們的網(wǎng)頁,留下緩存數(shù)據(jù)后,被蜘蛛抓取得到。

五、百度蜘蛛抓取策略

由于蜘蛛為了能夠抓取網(wǎng)上盡量多的頁面,它會追蹤網(wǎng)頁上的簡介,從一個頁面爬到下一個頁面,就好像是蜘蛛在蜘蛛網(wǎng)上爬行那樣。整個互聯(lián)網(wǎng)網(wǎng)站都是相互鏈接組成的,也就是說,搜索引擎蜘蛛從任何一個頁面出發(fā)最終都會爬完所有頁面。

網(wǎng)站和頁面鏈接結(jié)構(gòu)太過于復(fù)雜,所以蜘蛛只有采用一定的方法才能夠爬完所有頁面,最簡單的爬行策略有3種:

1、深度優(yōu)先

深度優(yōu)先就是指蜘蛛到達(dá)一個頁面后,發(fā)現(xiàn)一個錨文本鏈接,就是爬進(jìn)去另個一頁面,然后又在另一個頁面發(fā)現(xiàn)另一個錨文本鏈接,接著往里面爬,直到最后爬完這個網(wǎng)站。深度優(yōu)先抓取的目的是為了抓取高質(zhì)量的網(wǎng)頁,這個策略是由調(diào)度來計算和分配的,百度蜘蛛只負(fù)責(zé)抓取。

2、廣度優(yōu)先

廣度優(yōu)先就是蜘蛛到達(dá)一個頁面后,發(fā)現(xiàn)錨文本不是直接進(jìn)去,而是把整個頁面所有都爬行完畢,再一起進(jìn)入所有錨文本的另一個頁面,直到整個網(wǎng)站爬行完畢。

3、最佳優(yōu)先

最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進(jìn)行抓取,它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為"有用"的網(wǎng)頁。

存在的一個問題是,在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法,因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn),以跳出局部最優(yōu)點,據(jù)馬海祥博客的研究發(fā)現(xiàn),這樣的閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量降低30%~90%。

六、百度蜘蛛的查詢方法

關(guān)于查詢百度蜘蛛,百度官方給出了兩種方法,即查看UA信息和DNS解析認(rèn)證,詳細(xì)操作方法如下:

1、查看UA信息

如果UA信息不對,可以直接判斷為非百度搜索的蜘蛛。目前UA分為移動、PC、和小程序三個應(yīng)用場景,這三個渠道UA分別如下:

移動UA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

PC UA:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

小程序UA:

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

2、雙向DNS解析認(rèn)證

第一步:DNS反查IP

開發(fā)者通過對日志中訪問服務(wù)器的IP地址運(yùn)行反向DNS查找,判斷某只spider是否來自百度搜索引擎,Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即為冒充。

根據(jù)平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:

1).在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。

2).在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取。

3).在macos平臺下,您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入dig -x xxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取。

第二步:對域名運(yùn)行正向DNS查找

對第一步中通過命令檢索到的域名運(yùn)行正向DNS查找,驗證該域名與您日志中訪問服務(wù)器的原始IP地址是否一致,IP地址一致可確認(rèn)spider來自百度搜索引擎,IP地址不一致即為冒充。

示例1:

> host 111.206.198.69

69.198.206.111. in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com.

> host baiduspider-111-206-198-69.crawl.baidu.com

baiduspider-111-206-198-69.crawl.baidu.com has address 111.206.198.69

七、百度蜘蛛ua(user-agent)匯總

序號 產(chǎn)品名稱 對應(yīng)ua(user-agent)
1 網(wǎng)頁搜索 Baiduspider
2 無線搜索 Baiduspider
3 圖片搜索 Baiduspider-image
4 視頻搜索 Baiduspider-video
5 新聞搜索 Baiduspider-news
6 百度搜藏 Baiduspider-favo
7 百度聯(lián)盟 Baiduspider-cpro
8 競價蜘蛛 Baiduspider-sfkr

 

八、百度蜘蛛常見問題解答

1、Baiduspider對一個網(wǎng)站服務(wù)器造成的訪問壓力如何?

答:Baiduspider會自動根據(jù)服務(wù)器的負(fù)載能力調(diào)節(jié)訪問密度。在連續(xù)訪問一段時間后,Baiduspider會暫停一會,以防止增大服務(wù)器的訪問壓力。所以在一般情況下,Baiduspider對您網(wǎng)站的服務(wù)器不會造成過大的壓力。

2、為什么Baiduspider不停的抓取我的網(wǎng)站?

答:或許您的網(wǎng)站權(quán)重高或者對于您網(wǎng)站上新產(chǎn)生的或者持續(xù)、有規(guī)律更新的頁面,Baiduspider會持續(xù)抓取。此外,您也可以檢查網(wǎng)站訪問日志中Baiduspider的訪問是否正常,以防止有人惡意冒充Baiduspider來頻繁抓取您的網(wǎng)站。 如果您發(fā)現(xiàn)Baiduspider非正常抓取您的網(wǎng)站,請反饋至,并請盡量給出Baiduspider對貴站的訪問日志,以便于我們跟蹤處理。

3、我不想我的網(wǎng)站被Baiduspider訪問,我該怎么做?

答:Baiduspider遵守互聯(lián)網(wǎng)robots協(xié)議。您可以利用robots.txt文件完全禁止Baiduspider訪問您的網(wǎng)站,或者禁止Baiduspider訪問您網(wǎng)站上的部分文件。 注意:禁止Baiduspider訪問您的網(wǎng)站,將使您的網(wǎng)站上的網(wǎng)頁,在百度搜索引擎以及所有百度提供搜索引擎服務(wù)的搜索引擎中無法被搜索到。

詳細(xì)介紹請查看:robots協(xié)議

4、為什么我的網(wǎng)站已經(jīng)加了robots.txt,還能在百度搜索出來?

答:因為搜索引擎索引數(shù)據(jù)庫的更新需要時間。雖然Baiduspider已經(jīng)停止訪問您網(wǎng)站上的網(wǎng)頁,但百度搜索引擎數(shù)據(jù)庫中已經(jīng)建立的網(wǎng)頁索引信息,可能需要二至四周才會清除。 另外也請檢查您的robots配置是否正確。

5、我希望我的網(wǎng)站內(nèi)容被百度索引但不被保存快照,我該怎么做?

答:Baiduspider遵守互聯(lián)網(wǎng)metarobots協(xié)議。您可以利用網(wǎng)頁meta的設(shè)置,使百度顯示只對該網(wǎng)頁建索引,但并不在搜索結(jié)果中顯示該網(wǎng)頁的快照。

和robots的更新一樣,因為搜索引擎索引數(shù)據(jù)庫的更新需要時間,所以雖然您已經(jīng)在網(wǎng)頁中通過meta禁止了百度在搜索結(jié)果中顯示該網(wǎng)頁的快照,但百度搜索引擎數(shù)據(jù)庫中如果已經(jīng)建立了網(wǎng)頁索引信息,可能需要二至四周才會在線上生效。

6、百度蜘蛛在robots.txt中的名字是什么?

答:"Baiduspider" 首字母B大寫,其余為小寫。

7、Baiduspider多長時間之后會重新抓取我的網(wǎng)頁?

答:百度搜索引擎每周更新,網(wǎng)頁視重要性有不同的更新率,頻率在幾天至一月之間,Baiduspider會重新訪問和更新一個網(wǎng)頁。

8、Baiduspider抓取造成的帶寬堵塞?

答:Baiduspider的正常抓取并不會造成您網(wǎng)站的帶寬堵塞,造成此現(xiàn)象可能是由于有人冒充baidu的spider惡意抓取。如果您發(fā)現(xiàn)有名為Baiduspider的agent抓取并且造成帶寬堵塞,請盡快和我們聯(lián)系。您可以將信息反饋至百度網(wǎng)頁投訴中心,如果能夠提供您網(wǎng)站該時段的訪問日志將更加有利于我們的分析。

總結(jié)

優(yōu)化猩SEO:大家了解百度蜘蛛的工作原理解析之后就明白怎么去做網(wǎng)站優(yōu)化和推廣了,一個網(wǎng)站如果有高級百度蜘蛛來爬行,那么就可以實現(xiàn)內(nèi)容秒收,從而更快的獲得搜索引擎排名。所以就要不斷的努力提高權(quán)重和更新網(wǎng)站內(nèi)容,原創(chuàng)內(nèi)容很重要!

參考鏈接:

百度蜘蛛_百度百科

https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E8%9C%98%E8%9B%9B/5781752

輕松兩步,正確識別百度蜘蛛(User-Agent)_百度搜索資源平臺

https://ziyuan.baidu.com/college/articleinfo?id=1295

百度蜘蛛的運(yùn)行原理詳解-CSDN博客

https://blog.csdn.net/amao0712/article/details/80383736

百度搜索引擎蜘蛛的工作原理解析-百度經(jīng)驗

https://jingyan.baidu.com/article/c1465413561bf90bfcfc4c0a.html

百度spider介紹_百度搜索資源平臺

https://ziyuan.baidu.com/college/articleinfo?id=1192

修改于2023-05-17

想了解更多SEO百科的內(nèi)容,請訪問:SEO百科

本文來源:http://www.sonygallery.com.cn/seojianzhan/17312.html

免責(zé)聲明:部分文章信息來源于網(wǎng)絡(luò)以及網(wǎng)友投稿,本網(wǎng)站只負(fù)責(zé)對文章進(jìn)行整理、排版、編輯,是出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性,不承擔(dān)任何法律責(zé)任。