在Google誕生之前,傳統(tǒng)搜索引擎主要依靠頁面內(nèi)容中的關(guān)鍵詞匹配搜索詞進行排名。這中排名方式的短處現(xiàn)在看來是顯而易見,那就是很容易被刻意操縱。黑帽SEO在頁面上堆積關(guān)鍵詞。或加入與主題無關(guān)的熱門關(guān)鍵詞,都能提高排名,使搜索引擎排名結(jié)果質(zhì)量大為下降。現(xiàn)在的搜索引擎都使用鏈接分析技術(shù)減少垃圾,提高用戶體驗。本節(jié)就簡要探討鏈接在搜索引擎排名中的應(yīng)用原理。
在排名中計入鏈接因素,不僅有助于減少垃圾,提高結(jié)果相關(guān)性,也使傳統(tǒng)關(guān)鍵詞匹配無法排名的文件能夠被處理。比如圖片、視頻文件無法進行關(guān)鍵詞匹配,但是卻可能有外部鏈接,通過鏈接信息,搜索引擎就可以了解圖片和食品的內(nèi)容從而排名。
鏈接因素現(xiàn)在已經(jīng)超過頁面內(nèi)容的重要性。不過理解鏈接關(guān)系比較抽象。頁面上的因素對排名的影響能看得到:關(guān)鍵詞在標題標簽中出現(xiàn)有什么影響,出現(xiàn)在最前面又有什么影響,有技術(shù)資源的還可以大規(guī)模地統(tǒng)計,技術(shù)出關(guān)鍵詞出現(xiàn)在標題標簽中不同位置與排名之間的關(guān)系。雖然這種關(guān)系不一定是因果關(guān)系,但至少是統(tǒng)計上的聯(lián)系,使SEO人員大致了解如何優(yōu)化。
李彥宏超鏈分析
百度創(chuàng)始人李彥宏在回國之前就是美國頂級的搜索引擎工程師之一。據(jù)說李彥宏在尋找風險投資時,投資人詢問其他三個搜索引擎業(yè)界的技術(shù)高人一個問題:要了解搜索引擎技術(shù)應(yīng)該問誰。這三個被問到的高人中有兩個人回答:搜索引擎的事就問李彥宏。由此投資人斷定李彥宏是最了解搜索引擎的人之一。
這事實就是在現(xiàn)實生活中類似于鏈接關(guān)系的應(yīng)用。要判斷哪個頁面最具權(quán)威性,不能光看頁面自己怎么說,還要看其他頁面怎么評價。
李彥宏1997年就提交了一份名為“鏈接文件檢索系統(tǒng)和方法”的專利,這比Google傳說人發(fā)明PR要早得多,不得不說這是非常具有前瞻性的研究工作。在這份專利中,李彥宏提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。
這個系統(tǒng)除了索引頁面之外,還建立一個鏈接詞庫,記錄鏈接錨文字的一些相關(guān)信息,如錨文字中包含哪些關(guān)鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數(shù),包含特定關(guān)鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關(guān)鍵詞原型,也包含同一個詞干的其他衍生關(guān)鍵詞。
根據(jù)這些鏈接數(shù)據(jù),尤其是錨文字,計算出基于鏈接的文件相關(guān)性。在用戶搜索時,將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用,得到更準確的排名。
在今天看到,這種基于鏈接的相關(guān)性計算是搜索引擎的常態(tài),每個SEO人員都知道。但是在十幾年前,這無疑是非常創(chuàng)新的概念,當然現(xiàn)在的搜索引擎算法對鏈接的考慮,已經(jīng)不僅僅是錨文字,實際上要復(fù)雜的多。
HITS算法
HITS是英文Hyperlink-Induced Topic Search 的縮寫,意譯為“超鏈誘導主題搜索” 。
按照HITS算法,用戶輸入關(guān)鍵詞后,計算對返回的匹配頁面技術(shù)兩種值,一種是樞紐值,另一種是權(quán)威值,這兩個值是相互依存、相互影響的。所謂樞紐值,指的是頁面上所有導出鏈接指向頁面的權(quán)威值之和。權(quán)威值指的是所有導入鏈接所在頁面的樞紐值之和。
上面的定義比較拗口,我們可以簡單的說,HITS算法會提煉出兩種比較重要的頁面。也就是樞紐頁面和權(quán)威頁面。樞紐頁面本身可能沒有多少導入鏈接,但是有很多導出鏈接指向權(quán)威頁面。權(quán)威頁面本身可能導出鏈接不多,但是有很多來自樞紐頁面的導入鏈接。
典型的樞紐頁面就是如雅虎目錄,開放目錄或好123這樣的網(wǎng)站目錄。這種高質(zhì)量的網(wǎng)站目錄作用就在于指向其他權(quán)威網(wǎng)站,所有稱為樞紐,而權(quán)威頁面有很多導入鏈接。其中包含很多來自樞紐頁面的鏈接。權(quán)威頁面通常是提供真正相關(guān)內(nèi)容的頁面。
HITS算法是針對特定查詢詞的,所以稱為主題搜索。
HITS算法的最大缺點是,它在查詢階段進行計算,而不是在抓取或預(yù)處理階段。所以HITS算法是以犧牲查詢排名相應(yīng)為代價的。也正因為如此。原始HITS算法在搜索引擎中并不常用。不過HITS算法的思想很可能融入到搜索引擎的索引階段,也就是根據(jù)鏈接關(guān)系找出具有樞紐特征或權(quán)威特征的頁面。
稱為權(quán)威頁面的第一優(yōu)先,不過難度比較大,唯一的辦法就是獲得高質(zhì)量的鏈接,當你的網(wǎng)站不能成為權(quán)威頁面時,就讓它成為樞紐頁面。所以導出鏈接也是當前搜索引擎排名的因素之一。絕不鏈接到其他網(wǎng)站的做法,并不是好的SEO辦法。
TrustRank算法
TrustRank是近年來比較受關(guān)注的基于鏈接關(guān)系的排名算法。TrustRank可以翻譯為“信任指數(shù)”。
TrustRank算法最初來自于2004年斯坦福大學和雅虎的一項聯(lián)合研究,用來檢測垃圾網(wǎng)站,并且于2006年申請專利。TrustRank算法發(fā)明人還發(fā)表了一份專門的PDF文件,說明TrustRank算法的應(yīng)用。
TrustRank算法并不是有Google提出的,不過哦由于Google所占市場份額最大,而且TrustRank在Google排名中也是一個非常重要的因素,所以有些人誤認為TrustRank是Google提出的。更讓人糊涂的是,Google曾經(jīng)把TrustRank申請為商標,但是TrustRank商標中的TrustRank指的是Google檢測含有惡意代碼網(wǎng)站的方法,而不是指排名算法中的信任指數(shù)。
TrustRank算法基于一個基本假設(shè):好的網(wǎng)站很少會鏈接到壞的網(wǎng)站,反之則不成立,也就是說,壞的網(wǎng)站很少鏈接到好的網(wǎng)站這句話不成立。正相反,很多垃圾網(wǎng)站會鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站,試圖提高自己的信任指數(shù)。
基于這個假設(shè),如果能挑選出可以百分之百信任的網(wǎng)站,這些網(wǎng)站的Trustrank評為最高,這些TrustRank最高的網(wǎng)站所鏈接的網(wǎng)站信任網(wǎng)站稍微降低,但也會提高。與此類似,第二層被信任的網(wǎng)站鏈接出去的第三層網(wǎng)站,信任度繼續(xù)下降。由于種種原因,好的網(wǎng)站也不可避免的會鏈接到一些垃圾網(wǎng)站,不過離第一層網(wǎng)站點擊距離越近,所傳遞的信任指數(shù)越高,離第一級網(wǎng)站點擊距離越遠,信任指數(shù)將以此下降,這樣,通過TrustRank算法,就能給所有網(wǎng)站計算出相應(yīng)的信任指數(shù),離第一層網(wǎng)站越遠,成為垃圾網(wǎng)站的可能性越大。
計算TrustRank值首先要選擇一批種子網(wǎng)站,然后人工查看網(wǎng)站,設(shè)定一個初始TrustRank值,挑選種子網(wǎng)站的兩種方式,一種是選擇導出鏈接最多的網(wǎng)站,因為TrustRank算法就是計算指數(shù)隨著導出鏈接的衰減。導出鏈接多的網(wǎng)站,在某種意義上可以理解為“逆向PR值”比較高。
另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站,因為PR值越高,在搜索結(jié)果頁面出現(xiàn)的概率越大。這些網(wǎng)站才正是TrustRank算法最關(guān)注的、需要調(diào)整排名的網(wǎng)站,那些PR值很低的頁面,在沒有TrustRank算法時排名也很靠后,計算TrustRank意義就不大了。
根據(jù)測算,挑選出兩百個左右網(wǎng)站作為種子,就可以比較準確地計算出所有網(wǎng)站的TrustRank值。
計算TrustRank隨鏈接關(guān)系減少的公式有兩種形式。一種是隨著鏈接次數(shù)衰減,也就是說如果第一層頁面TrustRank指數(shù)為100,第二層頁面衰減為90,第三層衰減為80.第二種計算辦法是按導出鏈接數(shù)目分配TrustRank值,也就是說,如果一個頁面的TrustRank值為100,頁面上有5個導出鏈接,那個鏈接將傳遞20%的TrustRank值,衰減和分配這兩種計算方法通常綜合使用,整體效果都是隨著鏈接層次的增加,TrustRank值逐步降低。
得出網(wǎng)站和頁面的TrustRank值后,可以通過兩種方式影響排名。一種是把傳統(tǒng)排名算法挑選出的多個頁面,根據(jù)TrustRank值比較,重新做排名調(diào)整。另一種是設(shè)定一個最低的TrustRank值門檻,只有超過這個門檻的頁面,才被認為有足夠的質(zhì)量進入排名,低于這個門檻的頁面將被認為是垃圾頁面,從搜索結(jié)果中過濾出去。
雖然TrustRank算法最初是作為檢測垃圾的辦法,但在現(xiàn)在的搜索引擎排名算法中,TrustRank概念使用更為廣泛,常常影響大部分網(wǎng)站的整體排名,TrustRank算法最初針對的是頁面級別,現(xiàn)在在搜索引擎算法中,TrustRank值也通常表現(xiàn)在域名級別,整個域名的信任指數(shù)越高,整體排名能力就越強。
Google PR
PR是PageRank的縮寫。Google PR理論是所有基于鏈接的搜索引擎理論中最有名的。PR是Google創(chuàng)始人之一拉里佩奇發(fā)明的,用于表示頁面重要性的概念。用最簡單的話說就是,反向鏈接越多的頁面就是越重要的頁面,因此PR值也就越高。Google PR有點類似于科技文獻中互相應(yīng)用的概念,被其他文獻引用較多的文獻,很可能是比較重要的文獻。
PR的概念和計算
我們可以把互聯(lián)網(wǎng)歷程成由結(jié)點和鏈接組成的有向圖,頁面就是一個個結(jié)點,頁面之間的有向鏈接傳遞著頁面的重要性。一個鏈接傳遞的PR值決定于導入鏈接所在頁面的PR值,發(fā)出鏈接的頁面本身PR值越高,所能傳遞出去的PR值也越高。傳遞的PR數(shù)值也取決于頁面上的導出鏈接數(shù)目。對于給定PR值的頁面來說,假設(shè)能傳遞到下級頁面100份的PR,頁面上有10個導出鏈接,每個鏈接能傳遞10份PR,頁面上有20個導出鏈接的話,每個鏈接只能傳遞5份PR。所以一個頁面的PR值取決于導入鏈接總數(shù),發(fā)出鏈接頁面的PR值,以及發(fā)出鏈接頁面上的導出鏈接數(shù)目。
PR的兩個比喻模型
關(guān)于PR有兩個著名的比喻。一個比喻是投票。鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對B頁面投了一票,使得B頁面的重要性提高。同時A頁面本身的PR值決定了A所能投出去的投票力,PR值越高的頁面,投出的票也更重要。在這個意義上,傳統(tǒng)基于關(guān)鍵詞匹配的算法是看頁面直接說頁面內(nèi)容是什么,基于鏈接的PR則是看別人怎么評價這個頁面。
第二個比喻是隨機沖浪比喻。假設(shè)一個訪問者從一個頁面開始,不停地隨機點擊鏈接,訪問下一個頁面,有時候這個用戶感到無聊了,就再點擊鏈接,就隨機跳到另一個網(wǎng)址,再次開始不停地向下點擊。所謂PR值,也就是一個頁面在這種隨機沖浪訪問中被訪問到的概率。一個頁面導入鏈接越多,被訪問的概率也越高,因此PR值也越高。