亚洲欧美v国产一区二区三区,中文字日产幕乱五区,综合亚洲,,,色,亚洲伊人久久大香线蕉综合,亚洲综合精品伊人久久

首頁 > SEO建站 > SEO百科抓取診斷是什么?詳解百度抓取診斷工具的使用方法、作用及常見問題

抓取診斷是什么?詳解百度抓取診斷工具的使用方法、作用及常見問題

2023-05-31 09:21:38

抓取診斷是什么意思

一、抓取診斷是什么

抓取診斷工具,可以讓站長從百度蜘蛛的視角查看抓取內(nèi)容,自助診斷百度蜘蛛看到的內(nèi)容,和預期是否一致。每個站點每周可使用70次,抓取結(jié)果只展現(xiàn)百度蜘蛛可見的前200KB內(nèi)容。是SEO優(yōu)化師常用的百度官方工具之一。

二、百度抓取診斷工具的使用方法

1、登陸百度搜索資源平臺,然后從" 搜索服務"找到" 抓取診斷"點擊進入,百度抓取診斷工具入口鏈接為:https://ziyuan.baidu.com/crawltools/index。

百度抓取診斷工具

*百度抓取診斷工具截圖

2、將要診斷的網(wǎng)站填入輸入框然后點擊" 抓取"按鈕進行抓取,比如要診斷的鏈接為" http://www.sonygallery.com.cn/baiduseo/",那么輸入" baiduSEO/"即可,抓取診斷還提供了PC和移動端的選項,如果你的鏈接是PC端的就選PC,如果你的鏈接是移動端的就選移動,如果你的H5自適應網(wǎng)站,那么選兩個都可以。

3、抓取診斷工具抓取時間也就幾秒返回抓取結(jié)果,等返回抓取結(jié)果后,可以點擊抓取狀態(tài)的"抓取成功"或"抓取失敗"進行抓取內(nèi)容分析,尤其是抓取失敗的時候,看看具體是什么原因?qū)е伦ト∈ ?

三、抓取診斷工具的作用

目前抓取診斷工具有如下作用:

1、讓站長從百度蜘蛛的視角查看抓取內(nèi)容,自助診斷百度蜘蛛看到的內(nèi)容和預期是否一致。譬如很多商品詳情頁面,價格信息是通過JavaScript輸出的,對百度蜘蛛不友好,價格信息較難在搜索中應用。問題修正后,可用診斷工具再次抓取檢驗。


百度Spider抓取結(jié)果及頁面信息


*百度Spider抓取結(jié)果及頁面信息示例(圖1)

2、診斷網(wǎng)頁是否被加了黒鏈、隱藏文本。網(wǎng)站如果被黑,可能被加上隱藏的鏈接,這些鏈可能只在百度抓取時才出現(xiàn),需要用此抓取工具診斷。

3、檢查網(wǎng)站與百度的連接是否暢通,若是IP信息不一致,可以報錯通知百度更新IP。

百度Spider抓取結(jié)果及頁面信息

*百度Spider抓取結(jié)果及頁面信息示例(圖2)

四、抓取失敗的原因與分析

1、網(wǎng)址url不規(guī)范

百度支持抓取的url長度不超過1024,如果您的鏈接長度過長,請在保證正常訪問的情況下,適當精簡,保證鏈接能被百度正常抓取和收錄。

2、網(wǎng)站重定向錯誤

重定向是指百度spider訪問鏈接時發(fā)生了跳轉(zhuǎn),如果跳轉(zhuǎn)后的鏈接超長或者連續(xù)跳轉(zhuǎn)的次數(shù)超過5次,就會發(fā)生重定向錯誤而導致抓取失敗。

3、服務器連接錯誤

這種情況是指,由于服務器響應過慢或您的網(wǎng)站屏蔽了百度spider,而導致百度無法訪問您的網(wǎng)站。從而會導致百度無法正常收錄或者更新您網(wǎng)站的內(nèi)容。您可能看到以下具體錯誤:連接超時、連接失敗、連接被拒、無響應、響應遭到截斷、連接重置、標頭遭到截斷、超時。

4、網(wǎng)站啟用了robots封禁

在抓取診斷工具中如果返回的抓取失敗結(jié)論是robots封禁,請確認您是否對該網(wǎng)址設置了robots,阻止百度spider抓取網(wǎng)站的某些內(nèi)容,如果您未使用robots文件屏蔽百度,請點擊旁邊的報錯鏈接,百度會立即更新您站點的robots信息;如果是您的誤操作導致了封禁,請及時修改robots文件,避免造成您的網(wǎng)站在百度收錄量和流量的下降。

5、服務器DNS錯誤

DNS錯誤是指由于服務器停止運行或DNS到您網(wǎng)域的路由存在問題,導致百度spider無法與DNS服務器通信。

如何處理DNS錯誤?

確保百度能夠抓取您的網(wǎng)站。對重要網(wǎng)頁(例如您的首頁)采用抓取診斷工具,如果它能順利返回您的首頁內(nèi)容,那么您就可以認為百度能夠正常訪問您的網(wǎng)站。

對于持續(xù)的或反復出現(xiàn)的DNS錯誤,請與您的DNS提供商聯(lián)系。通常情況下,您的DNS提供商即為網(wǎng)站托管服務提供商。

配置您的服務器,使其能夠以404或500等HTTP錯誤代碼對不存在的主機名作出響應。

6、網(wǎng)頁404錯誤

一般情況下,當百度spider訪問到不存在的網(wǎng)頁(因為您刪除或重命名了網(wǎng)頁且沒有將舊網(wǎng)址重定向到新網(wǎng)頁,或者鏈接中存在拼寫錯誤)時,就會出現(xiàn)"未找到"狀態(tài)錯誤(通常是404 HTTP狀態(tài)代碼)。

詳細介紹請查看:404錯誤。

7、百度蜘蛛訪問遭拒絕

一般情況下,百度會通過跟蹤網(wǎng)頁間的鏈接來查找內(nèi)容。百度spider必須能夠訪問某個網(wǎng)頁才能抓取該網(wǎng)頁。如果您意外地看到了"訪問遭拒"錯誤,可能是由于以下幾種原因?qū)е碌模?

(1)百度spider無法訪問您網(wǎng)站上的網(wǎng)址,因為您網(wǎng)站上的所有或部分內(nèi)容要求用戶登錄后才能查看。

(2)您的服務器要求用戶使用代理進行身份驗證,或者您的托管服務提供商阻止百度spider訪問您的網(wǎng)站。

8、參數(shù)錯誤

由于請求的語法格式有誤,不符合服務器對請求的某些限制,或者請求本身存在一定的錯誤,服務器無法理解此請求,導致抓取失敗。

9、socket讀寫錯誤

當百度spider訪問服務器,進行tcp通信的時候,socket讀寫發(fā)生異常,導致數(shù)據(jù)不能正常返回。請檢查服務器連接狀況和防火墻設置是否符合預期。

10、讀取http頭或者頁面內(nèi)容時失敗

您的服務器收到了我們的完整請求,但是返回信息時不完整,http頭或者響應正文發(fā)生了截斷,導致網(wǎng)頁內(nèi)容不能正常讀取。

五、抓取診斷工具常見問答

1、百度抓取診斷是否有助于收錄?

優(yōu)化猩SEO從實測觀察來看,使用抓取診斷工具似乎對百度收錄沒有太多的影響,未收錄的頁面提交多次也還是未收錄。但在與同行的交流中發(fā)現(xiàn),有SEOer認為抓取工具對百度快照更新會產(chǎn)生一定的影響。

2、抓取失敗對網(wǎng)站有哪些影響

對于大量內(nèi)容無法正常抓取的網(wǎng)站,搜索引擎會認為網(wǎng)站存在用戶體驗上的缺陷,并降低對網(wǎng)站的評價,在抓取、索引、權(quán)重上都會受到一定程度的負面影響,最終影響到網(wǎng)站從百度獲取的流量。

總結(jié)

優(yōu)化猩SEO:百度抓取診斷工具最大的好處就是讓站長從百度蜘蛛的視角查看抓取內(nèi)容,從而診斷百度蜘蛛看到的內(nèi)容和預期是否一致,如果與預期不一致,那么就可以從抓取報告中找到不一致的地方,從而進行網(wǎng)頁優(yōu)化處理。

參考鏈接:

平臺工具使用手冊_抓取診斷_百度搜索資源平臺

https://ziyuan.baidu.com/college/courseinfo?id=267&page=10

抓取診斷工具上線_百度搜索資源平臺

https://ziyuan.baidu.com/wiki/237

想了解更多SEO百科的內(nèi)容,請訪問:SEO百科

本文來源:http://www.sonygallery.com.cn/seojianzhan/17365.html

免責聲明:部分文章信息來源于網(wǎng)絡以及網(wǎng)友投稿,本網(wǎng)站只負責對文章進行整理、排版、編輯,是出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性,不承擔任何法律責任。
用我們的專業(yè),做您滿意的SEO+高端網(wǎng)站建設服務商!