搜索引擎蜘蛛抓取規(guī)則離不開用戶搜索需求

2020-01-17 16:23:19

推薦訪問：SEO新聞 SEO技術(shù) 網(wǎng)站技術(shù) 網(wǎng)絡(luò)營(yíng)銷

搜索引擎的基礎(chǔ)是擁有大量網(wǎng)頁(yè)的信息數(shù)據(jù)庫(kù)，它是決定搜索引擎整體質(zhì)量的重要指標(biāo)。如果搜索引擎的Web信息量較小，那么供用戶選擇的搜索結(jié)果較少；而大量的Web信息可以更好地滿足用戶的搜索需求。

搜索引擎蜘蛛抓取規(guī)則離不開用戶搜索需求(圖1)

為了獲取大量的Web信息數(shù)據(jù)庫(kù)，搜索引擎必須收集網(wǎng)絡(luò)資源，本文的工作就是通過搜索引擎的Web爬蟲，對(duì)Internet上的每個(gè)Web頁(yè)面進(jìn)行信息的抓取和抓取。這是一個(gè)爬行和收集信息的程序，通常被稱為蜘蛛或機(jī)器人。

盡管搜索引擎蜘蛛有不同的名稱，但它們的爬行和爬行規(guī)則基本相同：

（1）當(dāng)搜索引擎抓取網(wǎng)頁(yè)時(shí)，會(huì)同時(shí)運(yùn)行多個(gè)蜘蛛程序，根據(jù)搜索引擎地址庫(kù)中的網(wǎng)址瀏覽抓取網(wǎng)站。地址庫(kù)中的網(wǎng)址包括用戶提交的網(wǎng)址、大型導(dǎo)航臺(tái)的網(wǎng)址、手工采集的網(wǎng)址、蜘蛛抓取的新網(wǎng)址等。

（2）搜索引擎蜘蛛在進(jìn)入允許抓取的網(wǎng)站時(shí)，一般會(huì)采取深度優(yōu)先、寬度優(yōu)先、高度優(yōu)先三種策略進(jìn)行爬行和遍歷，以抓取更多的網(wǎng)站內(nèi)容。

深度優(yōu)先爬行策略是搜索引擎蜘蛛在網(wǎng)頁(yè)中找到一個(gè)鏈接，向下爬行到下一個(gè)網(wǎng)頁(yè)的鏈接，向下爬行到該網(wǎng)頁(yè)中的另一個(gè)鏈接，直到?jīng)]有未爬行的鏈接，然后返回到個(gè)網(wǎng)頁(yè)，向下爬行到另一個(gè)鏈。

在上面的例子中，搜索引擎蜘蛛到達(dá)網(wǎng)站主頁(yè)，找到優(yōu)等網(wǎng)頁(yè)A、B、C的鏈接并將其爬行出來，然后依次爬行下優(yōu)等網(wǎng)頁(yè)A1、A2、A3、B1、B2和B3，在爬行第二級(jí)網(wǎng)頁(yè)后，爬行第三級(jí)網(wǎng)頁(yè)A4、A5，A6，盡量爬行所有網(wǎng)頁(yè)。

較好優(yōu)先級(jí)爬行策略是根據(jù)一定的算法劃分網(wǎng)頁(yè)的重要程度，主要通過網(wǎng)頁(yè)排名、網(wǎng)站規(guī)模、響應(yīng)速度等來判斷網(wǎng)頁(yè)的重要程度，搜索引擎爬行并獲取較高的優(yōu)先級(jí)。只有當(dāng)PageRank達(dá)到一定級(jí)別時(shí)，才能對(duì)其進(jìn)行爬網(wǎng)和抓取。當(dāng)實(shí)際的蜘蛛抓取網(wǎng)頁(yè)時(shí)，它會(huì)將網(wǎng)頁(yè)的所有鏈接收集到地址數(shù)據(jù)庫(kù)中，并對(duì)其進(jìn)行分析，然后選擇PR較高的鏈接進(jìn)行抓取。網(wǎng)站規(guī)模大，通常大型網(wǎng)站可以從搜索引擎中獲得更多的信任，而且大型網(wǎng)站更新頻率快，蜘蛛會(huì)先爬行。網(wǎng)站的響應(yīng)速度也是影響蜘蛛爬行的一個(gè)重要因素。在較好優(yōu)先級(jí)爬行策略中，網(wǎng)站響應(yīng)速度快，可以提高爬行器的工作效率，因此爬行器也會(huì)優(yōu)先對(duì)響應(yīng)速度快的網(wǎng)站進(jìn)行爬行。

這幾種爬行策略各有利弊。例如，深度優(yōu)先一般選擇合適的深度，以避免落入大量的數(shù)據(jù)中，從而限制了頁(yè)面的捕獲量；寬度優(yōu)先隨著捕獲頁(yè)面的增加，搜索引擎需要排除大量無關(guān)的頁(yè)面鏈接，爬行效率會(huì)變低；較好優(yōu)先級(jí)忽略了許多小網(wǎng)站的頁(yè)面，影響了互聯(lián)網(wǎng)信息差異化展示的發(fā)展，幾乎進(jìn)入大網(wǎng)站的流量，小網(wǎng)站難以發(fā)展。

在搜索引擎蜘蛛的實(shí)際爬行中，這三種爬行策略通常同時(shí)使用。經(jīng)過一段時(shí)間的爬行，搜索引擎蜘蛛可以爬行互聯(lián)網(wǎng)上的所有網(wǎng)頁(yè)。然而，由于Internet的巨大資源和搜索引擎的有限資源，通常只對(duì)Internet上的一部分網(wǎng)頁(yè)進(jìn)行抓取。

蜘蛛抓取網(wǎng)頁(yè)后，對(duì)網(wǎng)頁(yè)的值是否達(dá)到抓取標(biāo)準(zhǔn)進(jìn)行測(cè)試。當(dāng)搜索引擎爬行到網(wǎng)頁(yè)時(shí)，它會(huì)判斷網(wǎng)頁(yè)中的信息是否是垃圾信息，如大量重復(fù)的文本內(nèi)容、亂碼、與包含的內(nèi)容高度重復(fù)等，這些垃圾蜘蛛不會(huì)抓取，它們只是爬行。

搜索引擎判斷網(wǎng)頁(yè)的價(jià)值后，將包含有價(jià)值的網(wǎng)頁(yè)。該采集過程是將采集到的網(wǎng)頁(yè)信息存儲(chǔ)到信息數(shù)據(jù)庫(kù)中，根據(jù)一定的特征對(duì)網(wǎng)頁(yè)信息進(jìn)行分類，并以URL為單位進(jìn)行存儲(chǔ)。

搜索引擎的爬行和爬行是提供搜索服務(wù)的基本條件。隨著Web數(shù)據(jù)的大量出現(xiàn)，搜索引擎能夠更好地滿足用戶的查詢需求。

想了解更多SEO技術(shù)的內(nèi)容，請(qǐng)?jiān)L問：SEO技術(shù)

本文來源：http://www.sonygallery.com.cn/seodongtai/14474.html

免責(zé)聲明：部分文章信息來源于網(wǎng)絡(luò)以及網(wǎng)友投稿，本網(wǎng)站只負(fù)責(zé)對(duì)文章進(jìn)行整理、排版、編輯，是出于傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，不承擔(dān)任何法律責(zé)任。