搜尋引擎調查報告探測大眾心中的祕密隱私

欄目: 社會實踐報告 / 釋出於: / 人氣:2.97W

二月初，珍妮·傑克遜（Janet Jackson）因為走光事件上升為Yahoo搜尋的人氣冠軍，其搜尋請求達到總數的20%，創下了Yahoo搜尋關鍵詞的歷史最高記錄。這一數字是豔星Paris Hilton曾經所創記錄的60倍，是歌星小甜甜布萊妮的80倍。

網際網路上的搜尋引擎已經成為反映大眾趣味和關注焦點的最好工具，

也許比任何其他調查統計都更為真實。

高頻詞與社會熱點

縱觀歷史，熱門詞彙反映了短期內大眾關注的焦點，長期來看可以連綴出世事的發展脈絡。美國康奈爾大學的研究人員Jon Kleinberg曾經做過一項調查，通過統計1790年後每年的美國國情諮文的用詞，發現了不同歷史時期的熱門詞彙。例如美國獨立戰爭期間出現頻率最高的是“民兵”和“英軍”；而在1947年到1959年這段時間內，“原子彈”則被反覆地提起。

如今，搜尋引擎聲稱自己知道大眾心中的祕密。搜尋引擎不只是被動地答疑解惑；事實上，各大搜索引擎提供了包羅永珍的統計資料，這些結果也許十分有趣。Keinberg認為：雖然計算機並不懂歷史，但是可以通過統計Blog（網頁訪問記錄）、E-mail和網頁中的文字“學習”到相關的背景知識，從而更好地理解搜尋請求的含義。此外，這些統計資料還可以幫助社會學者和營銷人員發現某些正在顯露出的大眾趨勢，為他們的研究或者經營提供參考資訊。

在國內，搜尋引擎甚至藉助這種反映大眾趨向的能力，向更廣的商業領域主動出擊。2004年2月12日，百度搜索和光線傳媒共同釋出了“2003年全球華人明星人氣榜”。熱門詞彙周杰倫、《無間道》、《天龍八部》、代言人、緋聞和黑幕等榜上有名。在此之前的1月8日，百度搜索還與胡潤聯手釋出了“2003中國大陸百富人氣榜”。

但是，搜尋引擎有時也會不知所措。比如嘗試使用Google搜尋哈姆雷特的名言“To be or not to be”，會發現Google竟然答非所問，羅列在頁面上的是GNU’s Not Unix官方網站、Hot or Not交友網站……就是不見莎士比亞的影子。這個經典的例子引出了搜尋技術的一個術語—停止詞（stopword）。

顧名思義，計算機的一切能力都是以計算為基礎，即使閱讀也不例外。搜尋引擎瀏覽分佈在各個角落的網頁的同時，還在後臺不停地統計詞語的出現頻率。有一些詞語出現率極高，帶來巨大的統計成本，卻不包含太多的具體意義，比如漢語的“的、是、了”和英文單詞“the、and”之流。如果要得出包含該詞的全部結果，實在是過多了。例如遇到哈姆雷特名言中的那些高頻詞彙，經常導致搜尋“引擎”突然熄火，因此這些單詞得名“停止詞”。在Google“閱讀”哈姆雷特的名言時，遇到了四個停止詞，出於無奈，所以它只好對頻率最低的“not”進行搜尋，得到了一些有關“not”的流行網站。

如果將此名言括上引號，Google便會突然開竅，順利地尋找到相關的網站。這一功能被稱作短語搜尋（phrase search）。不過，比Google更智慧的是Alltheweb，它已將這句名言列入搜尋目錄，在結果頁面中直接提供了相關連結。

搜尋如何實現

“已向英特網搜尋gerald salton。共有 5,430 項查詢結果，這是第1～10項。搜尋用時0.06秒。”0.06秒，體現著以Google為代表的搜尋引擎的快捷和高效。這一切，又是如何實現的呢？

通常情況下，一間機房只能擺放10臺伺服器，但是Google的機房內可以容納80臺伺服器，因為它們都是拆掉了機殼和部分零件的裸機。Larry Page和Sergey Brin他們將機器的外殼拆掉，再卸下沒用的晶片和零件使整機體積縮小，而且容易維護，當然也節省了租用機房的花銷。Google使用了超過一萬臺的伺服器，並將其分散到五個不同地區的機房內，用以應付浩如煙海的網路資訊。

為了對每一次搜尋請求做出快速的反應，搜尋引擎在前期下足了功夫。它們在後臺不停地重複三步操作。第一步，搜尋引擎會不斷的利用爬蟲（Crawler）程式蒐集網際網路上所有可達的網頁，無論是公開的還是隱藏的—只要曾被訪問過，就會招致“爬蟲”上身。這樣，定期外出的“爬蟲”就為搜尋引擎囤積起一個海量資料庫。由於“爬蟲”外出遵循一定的週期，有時可能跟不上網頁更新的速度，所以Google的“網頁快照”會出現與目標頁面不盡相同的情況。第二步，另一個程式會統計出快取網頁（Cached Page）中各個字詞出現的頻率。第三步，根據詞頻概括出頁面的中心思想和段落大意，再按照不同的關鍵詞提煉出索引目錄。使用者的每一次搜尋請求都是基於這些索引計算而得，因此響應異常迅速。

無論Google的PageRank專利技術，還是百度全球獨有的“超鏈分析”技術，其大致想法都差不多：統計每個網頁被其它網頁連結指向的情況，次數越多則級別越高，排名也就越靠前。有的搜尋引擎專家指出，搜尋演算法上UsedRank比PageRank更為準確。UsedRank指的是根據使用者點選搜尋結果而再次做出的統計。有的頁面可能通過開始的計算被排在結果的第八頁，但是通過檢視每條連結的屬性，引擎可以將使用者點選多而且瀏覽成功的頁面提到前面來。Alltheweb、Yahoo和百度等搜尋引擎都老老實實地統計了每一次點選，而Google則非常直接，不做任何再次統計。

很多服務網站認同這樣一個觀點，使用者是懶惰的。根據點選情況做出的統計，很多使用者一般只看完搜尋結果的第一頁，並不瀏覽後續頁面。因此一些網站把更多的搜尋結果顯示在第一頁上，比如Yahoo，它的“第一頁”有20項。而新浪則把“和盤托出”的服務形式發展到了登峰造極，在情人節當天搜尋“鮮花”，一下子就跳出了78個網站連結。但是Google、Alltheweb和百度等搜尋引擎依然堅持簡潔的作風，每頁只顯示10條搜尋結果。

除了搜尋演算法的不同，各家搜尋引擎也在細化服務，推出了日趨豐富的搜尋功能，比如大家鍾愛的Google影象搜尋。其實，Alltheweb的影象功能也十分優秀，它還同時支援音訊、視訊以及下載站點的搜尋。

整合搜尋引擎

那麼，使用者是否不得不逐一訪問每個搜尋引擎以得到最好的搜尋結果呢？也許不必。搜尋整合技術可以一次性地提供儘可能多的資訊。

搜尋整合（Meta Search）如果譯作“後搜尋”，可能聽起來更時髦一些，不過這就無法體現其重新梳理搜尋結果這一標誌性的功能。通常的搜尋是從龐雜的網路資源中按照某個線索分門別類的提取資訊，而Meta Search則是在其他搜尋引擎的發現結果之上進行再加工，可謂是搜尋的搜尋。

當用戶向搜尋整合引擎輸入關鍵詞之後，它即向若干個獨立工作的搜尋引擎同時傳送搜尋請求，並從它們的網頁資料庫中檢索出所需的資訊。搜尋整合引擎沒有建立自己的網頁資料庫，它的一切資料都來自其他的搜尋引擎；所以，整合的結果也不會比其他任何一家搜尋引擎的結果更好。但是，它可以將使用者從重複性勞動中解放出來，同時提供更有條理的搜尋結果—這也是Meta Search研發之初的理想。

目前搜尋整合引擎大致以兩種方式進行工作。比較流行的做法是將搜尋結果分析整合，刪除重複的條目，進而針對主題實現聚類操作。這類網站中的佼佼者有Vivisimo、MetaCrawler和DogPile等。另一類搜尋整合網站面向治學嚴謹的研究者，如SurfWax和Copernic Agent。它們提供關鍵詞的邏輯運算功能，在提供大量搜尋結果的同時，協助使用者挖掘資訊，從而做出更深入的專題研究。第二類網站相當專業，一般需要繳費，在普通使用者中並不流行。

關於搜尋引擎的資料

● 在網際網路的應用排名中，搜尋僅次於e-mail而位居第二；

● 人均每次輸入關鍵詞數量為1.3個；

● 網頁上的高頻詞彙出現率約佔總字數的1/3，在實際搜尋中幾乎不起作用；

● 使用搜索引擎高階功能的使用者低於0.5%，其中一部分是圖書館管理員。他們向讀者提供其無法搜尋到的資訊，利用的工具還是搜尋引擎，不過是高階功能；

● 2003年，百度被7800萬中國網民使用了110億次，其中有近7億次搜尋與華人明星有關。

Tags：搜尋引擎隱私調查報告探測