網對網和Web資料探勘在搜尋引擎中的運用論文

來源:才華庫 1.05W

摘 要:當今網路資訊科技日益發展,傳統意義上的搜尋引擎更加難以滿足廣大使用者日益增長的資訊檢索需求。在這種趨勢下,智慧技術在搜尋引擎中的應用顯得越來越重要。只有將智慧技術引進搜尋引擎,才能提高使用者的工作效率,滿足人們日益增長的客觀需求。主要介紹瞭如今搜尋引擎的幾大分類,傳統搜尋引擎需要改進的不足以及兩大智慧技術在搜尋引擎中的應用。在智慧技術將會更加智慧更加發達的未來,搜尋引擎也將不斷地更新和發展,為人們提供更加高效的搜尋體驗。

網對網和Web資料探勘在搜尋引擎中的運用論文

 關鍵詞:智慧技術;搜尋引擎;網對網技術;資料探勘。

搜尋引擎是根據一定的策略,運用特定的計算機程式來搜尋網際網路上的資訊,在對資訊進行組織和處理後,將處理後的結果顯示給使用者,是為使用者提供檢索服務的系統。而智慧技術在搜尋引擎中的實際應用也越來越廣泛,不斷有新興的智慧技術,搜尋引擎也不斷地結合這些智慧技術來進行自身的變革和發展。這是一個漸進的過程。本文將詳細介紹 2 種智慧技術在搜尋引擎中的應用。

1.搜尋引擎的分類。

搜尋引擎可分為以下 3 類:①全文搜尋引擎。全文搜尋引擎是最標準的搜尋引擎,國外的主要代表是 Google,而國內的主要代表則是百度。全文搜尋引擎的主要原理是在網際網路中檢索與所查目標相匹配的內容,繼而建立資料庫,按序排列並且將其展示給使用者。②目錄搜尋引擎。從本質來說,目錄搜尋引擎其實不能算是真正的搜尋引擎。只是將網站連結目錄分類,使用者並不需要輸入關鍵字,根據目錄就完全可以找到想要的資訊。目錄索引最具代表性的就是 Yahoo 和新浪索引。③元搜尋引擎。元搜尋引擎在接收使用者的搜尋請求後,可以在各個搜尋引擎上同時搜尋,隨後將結果顯示給使用者。這一種搜尋引擎的國內代表是搜星搜尋引擎。

2.傳統搜尋引擎相比網路資訊檢索的缺點。

傳統搜尋引擎作為使用者在網際網路進行資訊檢索的一個重要途徑,給廣大使用者提供了相當大的便利,隨著網際網路的迅速發展,使用者對搜尋引擎又提出了搜尋速度更快、搜尋效率更高等諸多要求。正是使用者的這些需求刺激著搜尋引擎的快速發展。傳統搜尋引擎越來越滿足不了使用者的需求,主要存在以下幾點不足:①搜尋引擎從網際網路搜尋的各種網頁水準不一,存在著根本沒用或者暫時性的網頁。這嚴重加大了使用者檢索資訊的困難程度,並且嚴重影響了檢索速度。②主流搜尋引擎大多采用關鍵詞來檢索,由於使用者水平的差異,極少數可以總結出關鍵詞或關鍵片語,以至於使用者搜尋不到想要的內容,從而加大了檢索難度。③每個搜尋引擎覆蓋的範圍雖然不小,但與龐大的網際網路相比,簡直是九牛一毛。④檢索的結果不準確、不唯一,搜尋結果為零或者為數萬的情況時有發生。⑤不能智慧搜尋,難以滿足使用者深層次的需求。

3.智慧技術的運用。

由於傳統引擎的各種缺點,使用者越來越渴望更好用、更便捷的搜尋方式出現。在這種刺激下,智慧技術在搜尋引擎中的應用大量出現。這使得搜尋引擎需具有一定的智慧化和理解能力。當前主要有以下兩大智慧技術。

3.1 網對網技術。

顧名思義,“網對網技術”就是網路和網路對應起來的意思。這其中又要提到兩個概念了,是兩個單詞。一個單詞我們都相當熟悉了--Internet.我們常說的網際網路,就是這個單詞。而在這裡,這個單詞指的是一個資訊網路,也就是我們所說的網路中的資訊網。我們想要搜尋什麼東西時,將它輸入搜尋引擎中,引擎就會在這個網路庫中查詢,找到相關資訊,然後呈現在我們面前。而另一個詞可能就有一些陌生了--Innernet.表面上看起來與 Internet 很像,英文詞典中並沒有這個詞,我們在這裡叫它“內聯網”.與看起來更像資料庫的 Internet 比起來,內聯網更像是人類大腦的一個資訊網路。這裡面不僅僅有我們生活和工作中所用到的各種各樣的資訊,更重要的是,資訊之間繁雜又緊密的聯絡。就像我們在生活中和他人交流,提到“小夥伴”這個詞,我們會想到其他與之有聯絡的詞彙,比如“朋友”“同學”等。同樣的,當提到“師父”,我們的大腦也會迅速聯想到“師門”“師生”這樣的相關詞彙。我們所說的內聯網,它所著重的,也是資訊與資訊之間這樣息息相關的聯絡。Internet 和 Innernet都是知識的網路,網際網路時代的資訊社會發展日新月異,因此無論是哪個網路,其內的資訊都是不斷變化著的。人們將這個技術運用在搜尋引擎中,大大提高了搜尋引擎的實用性。作為內聯網的 Innernet 和 Internet 聯結起來,運用資訊之間存在的各種各樣的聯絡,將使用者輸入搜尋引擎中,將複雜的聯絡正確分割開,然後各自拓展出一些對人們而言有用的資訊,將 Internet 中龐大、雜亂的資訊進行有序化的篩選和整理,最終將資訊呈現在人們的眼前。這大大提高了搜尋引擎的可操作性,縮短了人們不斷刪改語句來配合 Internet 的時間,自然也就提高了使用者的工作效率。

3.2 Web 資料探勘技術。

資料探勘作為一門交叉學科,其原理比較複雜,可以從龐大的資料中將更有用、更有新意的資料探勘出來,而 Web 挖掘,便是將資料探勘和 Web 發展聯絡起來。Web 資料探勘有 3 種不同的挖掘形式,即內容挖掘、結構挖掘和使用記錄的挖掘。

3.2.1 內容挖掘。

內容挖掘指的是從 Web 文件中或是描述中挖掘,在網頁中進行資料探勘,其中包括文字、超連結、影象和視訊等,而半結構化的資料和無結構的文字便是主要的挖掘物件。

3.2.2 結構挖掘。

Web 結構挖掘則是通過網頁中的超連結,發現其中資訊之間的結構及其緊密或稀疏的聯絡。在平時上網時,我們只能看到一個個的.網頁,開啟瀏覽或者關閉。但是在這些頁面的背後,其實隱藏著無數個結構連結。Web 資料探勘就能夠通過這些結構上的連結,發現頁面與頁面、資料與資料之間的聯絡,隨後對它們分類,以便為使用者提供含有相似資訊的更多頁面,幫助使用者完善自己想要在搜尋引擎中得到的資訊。

3.2.3 使用記錄的挖掘。

與前兩者相比,Web 使用記錄的挖掘讓我們感覺更加熟悉,至少“使用記錄”4 個字是我們上網過程中能夠看到的。當我們點選一下搜尋引擎的輸入框想要輸入文字時,搜尋引擎會自動下拉出我們前幾次使用時所查詢的內容,以便我們重複檢視相似內容的資訊。搜尋引擎有時也會為我們推薦一些內容的資訊。這些資訊也會是我們所感興趣的一些內容,是搜尋引擎結合了我們之前的使用記錄,為我們提供感興趣的相類似的內容。這些都是 Web 使用記錄挖掘在搜尋引擎中的實用例子,但並不是全部。搜尋引擎會從使用者的訪問痕跡中挖掘出很多有意義的資料,包括資料端、伺服器端和代理端的資料。而其獲得這些資料的途徑又分為 KDD 和專業化追蹤。這些方法和深度的挖掘,使搜尋引擎更加“智慧”地瞭解使用者的興趣和需要。

4.總結。

搜尋引擎是我們工作、學習和生活中必不可少的實用性技術,正如一個調查中所顯示的,85%的人都是通過搜尋引擎獲取到他們所需要的資訊和所喜愛的網站,可見搜尋引擎的重要性。隨著智慧技術的不斷更新,人們的生活變得越來越智慧,對搜尋引擎的要求也會隨之越來越高,因此不斷利用新的技術完善和提高搜尋引擎的智慧性,是使用者的選擇,也是時代的選擇,是搜尋引擎在現在和未來的發展中必然的趨勢,且將一直持續下去。

參考文獻:

[1]陳勇躍,張玉峰。智慧技術在搜尋引擎中的應用[J].情報雜誌,2004(02):2-3,6.

[2]楊佔華,楊燕。資料探勘在智慧搜尋引擎中的應用[J].微計算機資訊,2006(12):244-246.

[3]朱素媛,馬溪俊,樑昌勇。人工智慧技術在搜尋引擎中的應用[J].合肥工業大學學報(自然科學版),2003(S1):657-661.

熱門標籤