網(wǎng)絡(luò)信息檢索論文

發(fā)布時(shí)間：2022-05-05 10:46:22

開篇：寫作不僅是一種記錄，更是一種創(chuàng)造，它讓我們能夠捕捉那些稍縱即逝的靈感，將它們永久地定格在紙上。下面是小編精心整理的1篇網(wǎng)絡(luò)信息檢索論文，希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友，陪伴您不斷探索和進(jìn)步。

網(wǎng)絡(luò)信息檢索論文

網(wǎng)絡(luò)信息檢索 論文:網(wǎng)絡(luò)信息檢索研究論文

[摘要]搜索引擎是人們使用Internet信息資源的重要工具。本文對目前的中文搜索引擎進(jìn)行了簡要的分析，指出了其存在的缺陷和發(fā)展的方向。

[關(guān)鍵詞]信息檢索中文搜索引擎存在的問題發(fā)展方向

隨著Internet信息資源的迅速增長，如何在浩瀚的信息海洋中準(zhǔn)確、方便、快速地找到自己所需的信息，成了迫切需要解決的問題，從1995年開始出現(xiàn)的信息檢索工具——搜索引擎很好地解決了這一問題。然而各種搜索引擎，特別是尚處于發(fā)展初期的中文搜索引擎還存在著很多的缺陷有待改進(jìn)，本文旨在分析目前中文搜索引擎存在的主要問題，并為解決此類問題提出一些建議和方法。

一、搜索引擎的概念和及類型

搜索引擎又稱檢索引擎，是指運(yùn)行在Internet上，以信息資源為對象，以信息檢索的方式為用戶提供所需數(shù)據(jù)的服務(wù)系統(tǒng)，主要包括信息存取、信息管理和信息檢索三大部分。

目前，中文搜索引擎主要有三種類型：目錄式搜索引擎、機(jī)器人搜索引擎（又稱全文搜索引擎）和元搜索引擎。

1.目錄式搜索引擎。目錄式搜索引擎是以人工或半人工方式收集信息，建立數(shù)據(jù)庫，由編輯人員在訪問了某個(gè)web站點(diǎn)后，對該站點(diǎn)進(jìn)行描述，并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與，其搜索的準(zhǔn)確度較高，導(dǎo)航質(zhì)量也不錯(cuò)。但因其人工的介入，維護(hù)量大，信息量少，信息更新不及時(shí)都使得人們利用它的程度有限。國內(nèi)著名的新浪、搜狐、中文雅虎都屬于這種類型。

2.機(jī)器人搜索引擎。這是一種目前運(yùn)用較廣泛的搜索引擎。國內(nèi)以百度，google、天網(wǎng)為代表。它是使用自動(dòng)采集軟件Robot，搜集和發(fā)現(xiàn)信息，并下載到本地文檔庫，再對文檔內(nèi)容進(jìn)行自動(dòng)分析并建立索引。對于用戶提出的檢索要求，通過檢索模塊檢索索引，找出匹配文檔返回給用戶。

機(jī)器人搜索引擎具有龐大的全文索引數(shù)據(jù)庫。其優(yōu)點(diǎn)是信息量大，范圍廣，較適用于檢索難以查找的信息或一些較模糊的主題。缺點(diǎn)是缺乏清晰的層次結(jié)構(gòu)，檢索結(jié)果重復(fù)較多，需要用戶自己進(jìn)行篩選。

3.元搜索引擎。元搜索引擎是一種調(diào)用其他搜索引擎的引擎。它是通過一個(gè)統(tǒng)一的用戶界面，幫助用戶在多個(gè)搜索引擎中選擇和利用合適的搜索引擎來實(shí)現(xiàn)檢索。中文元搜索引擎開發(fā)較少，較成熟的則更少，萬緯搜索是目前有一定影響的中文元搜索引擎。

二、現(xiàn)階段中文搜索引擎存在的主要問題

1.信息覆蓋面有限。現(xiàn)階段搜索引擎所覆蓋的數(shù)據(jù)庫的規(guī)模是非常有限的，據(jù)美國科學(xué)期刊Natures一篇報(bào)告中稱，全球最大的搜索引擎也只能覆蓋現(xiàn)有網(wǎng)頁的16%。中文搜索引擎因起步慢、中文信息所占互聯(lián)網(wǎng)全部信息的比例小（只占全部網(wǎng)絡(luò)信息的5%）等原因在這方面尤為突出。

2.查全率不高。查全率是指檢索出的相關(guān)信息量與存儲(chǔ)在檢索系統(tǒng)中的全部相關(guān)信息量的百分比，是判斷檢索系統(tǒng)質(zhì)量的度量之一。

國內(nèi)絕大多數(shù)的網(wǎng)站組織的信息大多都是通過瀏覽方式獲得內(nèi)容。即使是經(jīng)過精心組織、編排非常合理的網(wǎng)站，也會(huì)有70%～80%的網(wǎng)頁不能被搜索引擎檢索到。中文目錄式搜索引擎因需人工介入、維護(hù)量大，在這方面表現(xiàn)較明顯。

3.查準(zhǔn)率較低。查準(zhǔn)率更是判斷檢索系統(tǒng)質(zhì)量的重要尺度。是指系統(tǒng)所檢索到的真正與查詢內(nèi)容相關(guān)的文檔占檢索出的所有文檔數(shù)的百分比。

造成查準(zhǔn)率低的原因是，部分搜索引擎的分類體系與科學(xué)知識(shí)體系之間缺乏內(nèi)在聯(lián)系；類目之間邏輯關(guān)系模糊，導(dǎo)致檢索路徑與搜索引擎類目錯(cuò)位；信息加工深度不夠；檢索功能單一；檢索詞的專指性較差；大部分的檢索結(jié)果是題錄式而非全文式，其內(nèi)容簡單等等。機(jī)器人搜索引擎的分類和索引缺乏人工的參與，其查準(zhǔn)率不如目錄式搜索引擎，且檢索結(jié)果中還含有大量的重復(fù)、虛假的信息。

4.專業(yè)性的搜索引擎發(fā)展遲緩。專業(yè)性的搜索引擎是為專門收錄某一行業(yè)，某一主題的信息而建立，能夠提供專題信息查詢服務(wù)的搜索引擎。目前中文搜索引擎大多是綜合性的，能同時(shí)收錄各行業(yè)、各學(xué)科的多種信息，但在反映某一行業(yè)或某一專題的信息方面很難做到全面、精確，不能給用戶提供特定的信息服務(wù)。這就使得專業(yè)人員，特別是某一領(lǐng)域的學(xué)者、專家不愿意利用中文搜索引擎去查詢資料。

5.檢索功能方面存在缺陷。一是檢索中符合布爾邏輯運(yùn)算符的搜索引擎極為有限；二是關(guān)鍵詞檢索輸出的結(jié)果相關(guān)度排序方式雜亂，不能根據(jù)用戶需要來選擇信息輸出的方式；三是多數(shù)的搜索引擎是面向主題搜索不是面向用戶搜索，不能重復(fù)利用用戶檢索過的成果，更不能對特定的用戶進(jìn)行定題跟蹤服務(wù)；四是檢索網(wǎng)站的主頁不規(guī)范，有些太簡，有些又太繁，而且廣告內(nèi)容太多，無法進(jìn)行有效檢索。三、中文搜索引擎的發(fā)展方向

1.提高查全率。首先是需要開發(fā)分布式的系統(tǒng)。這種系統(tǒng)可以把各個(gè)接點(diǎn)當(dāng)作是新的信息資源，擴(kuò)大數(shù)據(jù)庫的規(guī)模，正在興起的元搜索引擎屬于這種系統(tǒng)，它在接受了用戶的查詢命令后，可同時(shí)用多個(gè)搜索引擎進(jìn)行查詢；二是把專業(yè)數(shù)據(jù)庫資源納入自己的檢索范圍。除了Web信息資源外，網(wǎng)上還有大量的非Web信息資源，如聯(lián)機(jī)檢索系統(tǒng)、光盤檢索系統(tǒng)、專業(yè)數(shù)據(jù)庫系統(tǒng)。如中文搜索引擎能把這些Web和非Web資源結(jié)合起來使用，即使有的只能查到題錄、文摘等內(nèi)容，也大大擴(kuò)展了檢索范圍，能為用戶提供較全面的檢索需求。

2.提高查準(zhǔn)率。需解決以下幾個(gè)難關(guān)：首先需提高搜索引擎的信息過濾功能。在對網(wǎng)絡(luò)信息進(jìn)行集中的搜集之后，搜索引擎還需對這些信息進(jìn)行鑒別和過濾，即剔除大量的無用信息，而把有效的信息提煉出來并加以聚集；第二則是需對專家過濾后的信息進(jìn)行一定的檢索標(biāo)引，并給予相關(guān)的標(biāo)識(shí)符號(hào)，如關(guān)鍵詞、分類號(hào)、主題詞等各種標(biāo)識(shí)，其關(guān)鍵是利用智能檢索技術(shù)，提高準(zhǔn)確性；把檢索的結(jié)果存儲(chǔ)在相應(yīng)的數(shù)據(jù)庫中，并由URL與Internet建立鏈接供用戶使用；還需注意信息定期更新，以保證信息的新穎性和鏈接的可靠性。

3.建立垂直化專業(yè)領(lǐng)域的搜索引擎。網(wǎng)絡(luò)用戶所從事的職業(yè)千差萬別，不同的用戶對信息搜索往往有不同的要求。綜合性的搜索引擎收錄的范圍太廣、太大無法滿足某一特定的需求。垂直化專業(yè)搜索引擎則可解決這一難題。它只面向某一特定的領(lǐng)域，專注于自己的特長和優(yōu)秀技術(shù)，能保證對該領(lǐng)域的信息的收錄齊全與更新迅速。在提供專業(yè)信息方面有著大型綜合搜索引擎無法比擬的優(yōu)勢，所采用的技術(shù)都是些較成熟的技術(shù)。

中文垂直化專業(yè)搜索引擎的發(fā)展已取得了一定的成功，如新浪的新聞搜索，博客搜索、雅虎的個(gè)性化旅行路線搜索、百度的MP3搜索、Google的學(xué)術(shù)搜索，航班搜索等都為用戶提供了較好的搜索功能，為今后的繼續(xù)發(fā)展奠定了基礎(chǔ)。

4.搜索引擎的智能化發(fā)展。智能搜索引擎是未來搜索引擎的發(fā)展趨勢。可以通過自然語言與用戶交互，最大限度地了解用戶的需求。智能檢索一是表現(xiàn)在搜索引擎技術(shù)的智能化，研究重點(diǎn)放在自然語言處理技術(shù)和人工智能技術(shù)的研究上；另一表現(xiàn)是體現(xiàn)在搜索引擎面向檢索者的智能化，它致力于通過分析檢索者的檢索和瀏覽行為來學(xué)習(xí)檢索者的需求，利用搜索引擎現(xiàn)有的服務(wù)有選擇地為檢索者提供個(gè)性化的服務(wù)。

5.加強(qiáng)搜索引擎的檢索功能。首先需強(qiáng)化全文檢索功能。利用Robot實(shí)現(xiàn)對站點(diǎn)頁面文字內(nèi)容的全面檢索技術(shù)。比起目錄檢索，全文檢索提供了全新的檢索功能，可以直接根據(jù)文獻(xiàn)資料的內(nèi)容進(jìn)行檢索，支持多角度、多側(cè)面地綜合利用信息資源，全面、準(zhǔn)確、快速是衡量全文檢索系統(tǒng)的關(guān)鍵指標(biāo)；同時(shí)改善用戶檢索界面，設(shè)計(jì)簡潔、明白的界面引導(dǎo)用戶進(jìn)入檢索狀態(tài)；更方便、實(shí)用的檢索技巧的利用，中文搜索引擎需簡化和統(tǒng)一語法規(guī)則，如布爾邏輯檢索符號(hào)的利用：空格或“*”代替“與”、“+”代替“或”、“-”代替“非”，規(guī)范語法符號(hào)，節(jié)省用戶的檢索時(shí)間；還需研發(fā)查詢圖像、聲音、圖片和電影的搜索引擎。

6.完善元搜索引擎。元搜索引擎彌補(bǔ)了獨(dú)立搜索引擎不全的特點(diǎn)，提高了檢索的全面性。現(xiàn)開發(fā)出的中文元搜索引擎的數(shù)目很少，還有諸多缺陷，需在各方面進(jìn)一步改進(jìn)。

元搜索引擎要對各獨(dú)立的信息特色進(jìn)行較細(xì)致的調(diào)查，以確定自己要收錄的范圍；在對目標(biāo)搜索引擎的組織中突出獨(dú)立搜索引擎的檢索特色，并設(shè)計(jì)各搜索引擎之間的檢索方式的轉(zhuǎn)換算法，提高用戶檢索行為的針對性；建立更為靈活的，面向用戶的信息檢索服務(wù)。檢索界面要統(tǒng)一和友好，檢索方法的設(shè)置要提供給用戶更多的自由空間，使用戶可以按照自己的意愿合理的組織檢索式；在檢索結(jié)果的顯示中要開發(fā)出一個(gè)有效的檢索結(jié)果去重、選擇、排序和優(yōu)化算法，這是中文搜索引擎開發(fā)中的一個(gè)重點(diǎn)和難點(diǎn)。

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索淺談

1 引言

所謂信息檢索（Information Retrieval），廣義地說，是指將信息按照一定的方式組織和存儲(chǔ)起來，并能根據(jù)信息用戶的需要指出其中相關(guān)信息的過程，因此它的全稱叫“信息存儲(chǔ)與檢索”（Information Storage and Retrieval）。狹義的信息檢索則僅指該過程的后半部分，即主要是如何從存儲(chǔ)的信息集合中找出所需要的信息的過程，相當(dāng)于人們通常所說的信息查詢（Information Search）。

進(jìn)入20世紀(jì)90年代以后，互聯(lián)網(wǎng)的發(fā)展風(fēng)起云涌，人類社會(huì)的信息化、網(wǎng)絡(luò)化進(jìn)程大大加快。與之相適應(yīng)的信息檢索的交流平臺(tái)也迅速轉(zhuǎn)移到以WWW為優(yōu)秀的網(wǎng)絡(luò)應(yīng)用環(huán)境中，信息檢索步入網(wǎng)絡(luò)化時(shí)代，網(wǎng)絡(luò)信息檢索已基本取代了手工檢索。

2 網(wǎng)絡(luò)環(huán)境下信息檢索的特點(diǎn)

2.1信息檢索的范圍不斷拓寬

因特網(wǎng)本身就是由分布在全球的各個(gè)計(jì)算機(jī)網(wǎng)絡(luò)組成的一個(gè)“網(wǎng)際網(wǎng)”，它跨越了地域的界限，真正實(shí)現(xiàn)了全球化連接，是一個(gè)全球性的網(wǎng)絡(luò)。其信息資源分布在世界各地的服務(wù)器上，各類信息資源通過網(wǎng)絡(luò)互聯(lián)，實(shí)現(xiàn)了全球范圍的共享，可供檢索的資源包括大量的主頁、多種報(bào)紙期刊全文、各種組織機(jī)構(gòu)的信息以及原始技術(shù)報(bào)告、各類數(shù)據(jù)庫等，人們可以隨時(shí)進(jìn)行文獻(xiàn)、數(shù)據(jù)、圖片等資源的檢索，以獲取所需的信息。網(wǎng)絡(luò)信息資源分布及服務(wù)的全球化，極大地?cái)U(kuò)展了網(wǎng)絡(luò)信息檢索的空間和范圍。

2.2信息檢索手段更加容易

隨著網(wǎng)絡(luò)和計(jì)算機(jī)的普及，信息檢索用戶逐漸由專業(yè)人員向個(gè)人用戶轉(zhuǎn)移，這就決定了大部分信息檢索用戶不可能像圖書情報(bào)專業(yè)的專業(yè)人員那樣熟練地使用主題詞、分類號(hào)、邏輯組合等嚴(yán)格的專業(yè)查詢語言來檢索網(wǎng)上的信息資源。而互聯(lián)網(wǎng)良好的“人－機(jī)”會(huì)話界面、強(qiáng)大的搜索引擎和方便的幫助支持系統(tǒng)，不需要用戶花太多時(shí)間去學(xué)，只要掌握一些簡單的檢索方法和技巧就可以檢索自己需要的信息，使用起來簡單、方便。

2.3信息檢索的途徑更加靈活

網(wǎng)上信息種類繁多，因此用戶可以根據(jù)需要從多種載體、多種角度進(jìn)行檢索，如可以利用搜索引擎從網(wǎng)站、網(wǎng)頁等各種途徑檢索自己所需的信息。另外，在專門的數(shù)據(jù)庫檢索系統(tǒng)中，多提供標(biāo)題、作者、機(jī)構(gòu)、刊名、關(guān)鍵詞等檢索途徑，用戶可以根據(jù)需要靈活選擇，可以大大提高檢索效率。

3 網(wǎng)絡(luò)環(huán)境下信息檢索的發(fā)展趨勢

隨著計(jì)算機(jī)的普及，以及計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)及數(shù)字化技術(shù)的發(fā)展，網(wǎng)絡(luò)信息檢索將越來越受到廣大用戶的青睞及廣泛應(yīng)用，這也就決定了網(wǎng)絡(luò)信息檢索必將朝著智能化、可視化、多樣化方向發(fā)展。

3.1智能化

智能化將是網(wǎng)絡(luò)信息檢索發(fā)展的主要方向。因?yàn)橹悄軝z索是基于自然語言的檢索形式，可以用自然語言和用戶交互，采用諸如語義網(wǎng)絡(luò)、框架等各種知識(shí)方法來充分體現(xiàn)各個(gè)主題概念和標(biāo)識(shí)之間的關(guān)系，還可進(jìn)一步在知識(shí)層面或者說概念層面上輔助查詢，通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò)，給予用戶智能知識(shí)提示。另外，智能檢索還包括歧義信息的檢索處理，甚至還能體會(huì)用戶的言外之意，最終幫助用戶獲得最佳的檢索結(jié)果。

3.2可視化

可視化指的是運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)，將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來，并進(jìn)行交互處理的理論、方法和技術(shù)。據(jù)統(tǒng)計(jì)，人獲取信息有70―80%靠視覺，20%靠聽覺，10%靠觸覺。用圖像取代文字幫助人們檢索的優(yōu)點(diǎn)在于：圖像的表達(dá)更生動(dòng)、形象、準(zhǔn)確，效率更高，具有交互性、多維性、可視性等特點(diǎn)，可以大大加快檢索速度，使時(shí)刻都在產(chǎn)生的海量數(shù)據(jù)得到有效利用。

3.3多樣化

首先表現(xiàn)在可以檢索的信息形態(tài)多樣化，如文本、聲音、圖像、動(dòng)畫等。目前網(wǎng)絡(luò)信息檢索的主體仍是文本信息，基于內(nèi)容的檢索技術(shù)和語音識(shí)別技術(shù)的發(fā)展，將使多媒體信息的檢索變得逐漸普遍。其次表現(xiàn)在檢索工具的服務(wù)多元化。網(wǎng)上檢索工具已不僅僅是單純的檢索工具，正在向其他服務(wù)范疇擴(kuò)展，例如提供站點(diǎn)評(píng)論、天氣預(yù)報(bào)、新聞報(bào)道、股票點(diǎn)評(píng)、航班和列車時(shí)刻表等多種面向大眾的信息服務(wù)、免費(fèi)電子郵箱等，以多種形式滿足用戶的需要。

4 結(jié)語

21世紀(jì)是信息時(shí)代，網(wǎng)絡(luò)信息資源已成為人們?nèi)粘９ぷ骱蜕畋夭豢扇钡馁Y源。那么，如何在浩如煙海的網(wǎng)絡(luò)信息中，獲取自己所需的信息呢？相信，隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的逐漸普及，網(wǎng)絡(luò)信息檢索會(huì)越來越為人們所熟悉，網(wǎng)絡(luò)信息用戶只需掌握一定的檢索工具的使用方法和技巧，就能迅速地在浩瀚無涯、豐富多彩的海量信息中排除不良信息，過濾出適用信息，花最少的時(shí)間得到最相關(guān)的查詢結(jié)果，輕松獲得所需信息。

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索中堆棧-最大匹配自動(dòng)分詞算法研究

摘要：本文分析了現(xiàn)有分詞算法存在的不足，研究了機(jī)械分詞方法、堆棧技術(shù)理論以及最大匹配法自動(dòng)分詞工作流程，在此基礎(chǔ)上，構(gòu)建了堆棧－最大匹配自動(dòng)分詞模型，詳細(xì)闡述了該模型基本結(jié)構(gòu)和運(yùn)行流程。最后針對該算法，進(jìn)行了簡單舉例分析。

關(guān)鍵詞：堆棧；最大匹配法；分詞算法

自動(dòng)分詞問題是搜索引擎的優(yōu)秀問題，本文針對該問題，在對現(xiàn)有的分詞算法分析研究的基礎(chǔ)上，結(jié)合最大匹配分詞法（MM法）和堆棧技術(shù)理論，提出了堆棧－最大匹配自動(dòng)分詞模型，該分詞算法在對文章中的詞進(jìn)行自動(dòng)切分時(shí)，具有良好的效果，實(shí)現(xiàn)了對MM分詞算法的進(jìn)一步改進(jìn)。

一、機(jī)械分詞方法和堆棧技術(shù)理論

機(jī)械分詞方法的思路是先查詞庫進(jìn)行匹配，然后再適當(dāng)利用部分詞法規(guī)則進(jìn)行歧義校正。機(jī)械分詞法之所以稱之為“機(jī)械”，是因?yàn)樗那蟹诌^程是依賴于詞庫進(jìn)行。詞庫中詞條的數(shù)目、詞條的選擇直接影響到最后的分詞效果。機(jī)械分詞法加歧義校正屬于機(jī)械分詞法的一種改進(jìn)，它主要利用詞法規(guī)則對歧義進(jìn)行校正，以提高切分精度，事實(shí)證明這種改進(jìn)是有效的，而且這種改進(jìn)最終導(dǎo)致了知識(shí)分詞方法的出現(xiàn)。目前屬于機(jī)械分詞領(lǐng)域的分詞方法主要有：最大匹配法、高頻優(yōu)先分詞法、雙向掃描法等。其中最大匹配分詞法是機(jī)械分詞方法的典型代表。

二、堆棧－最大匹配自動(dòng)分詞模型構(gòu)建

堆棧-最大匹配自動(dòng)分詞技術(shù)主要是結(jié)合最大匹配分詞法和堆棧技術(shù)對文章中的詞進(jìn)行自動(dòng)切分，是對最大匹配法的改進(jìn)。基于最大匹配自動(dòng)分詞的思想，結(jié)合堆棧技術(shù)理論，我們可以得出：最大匹配法重視的是字符長度，如果遇到在分詞過程中后面字符串出現(xiàn)不可分的情況，能自動(dòng)彈棧回退，并且重新檢索出另一個(gè)成功匹配的詞作為分詞結(jié)果，就有可能解決后面字符串不可分的窘境。所以堆棧－最大匹配自動(dòng)分詞模型構(gòu)建基本設(shè)計(jì)思想是：

首先按照文章中的標(biāo)點(diǎn)符號(hào)將文章內(nèi)容切分成語義塊，每個(gè)語義塊就是一個(gè)字符串，針對每一個(gè)字符串作循環(huán)。每次只處理一個(gè)漢字，將該漢字假設(shè)為詞首，并且在詞庫中檢索以該漢字為詞首，檢索該漢字后的字符匹配。根據(jù)檢索出來的詞作為分詞結(jié)果的備選項(xiàng)，按長度排列，首先取出長度最長的那個(gè)詞，即最大匹配，假設(shè)這個(gè)詞就是以該漢字為首的分詞結(jié)果，加入到這個(gè)語義塊的分詞結(jié)果棧中，然后繼續(xù)該詞語位置之后的下一個(gè)漢字的處理。在該方法實(shí)現(xiàn)的過程中，筆者將語義塊中已經(jīng)分詞成功的那部分字符串在壓棧的同時(shí)，從語義塊中去掉。如果分詞結(jié)果棧中出現(xiàn)分詞歧義需要彈棧時(shí)，將彈出的結(jié)果加在原來語義塊字符串的首部。這樣就不需要在每得到一個(gè)分詞結(jié)果后計(jì)算下一個(gè)即將處理的漢字的位置了。

三、堆棧－最大匹配自動(dòng)分詞算法

根據(jù)堆棧－最大匹配自動(dòng)分詞方法的基本思想和模型，形成了相應(yīng)的堆棧最大匹配自動(dòng)分詞算法。堆棧－最大匹配自動(dòng)分詞的優(yōu)秀算法如下：

①在現(xiàn)有的句子中以標(biāo)點(diǎn)符號(hào)為標(biāo)界，且分成多個(gè)語義塊block，存為字符串?dāng)?shù)組；設(shè)置另一個(gè)字符串?dāng)?shù)組result，存放單個(gè)block的分詞結(jié)果；設(shè)整型數(shù)組undone，用來記錄不可分的漢字的出現(xiàn)位置。②循環(huán)字符串?dāng)?shù)組，對數(shù)組中每個(gè)語義塊block進(jìn)行步驟③，直到整個(gè)字符串?dāng)?shù)組被處理完畢。③對單個(gè)的語義塊每次都是從block的首個(gè)漢字開始進(jìn)行分析，執(zhí)行下一步；④如果result的總長度與原語義塊的長度相等，或者是block的長度為零，說明該語義塊分詞完畢，執(zhí)行步驟⑩；當(dāng)分詞過程遇到該漢字時(shí)，將該漢字暫時(shí)略過；執(zhí)行步驟③；⑤取singleword=block.SubString（0，1），繼續(xù)；⑥在詞語表中查找以singleword為首詞語，存為一個(gè)字符串?dāng)?shù)組temp，作為分詞的備選項(xiàng)，繼續(xù)以下判斷；⑦如果temp的長度為零，即if（temp.Length==0），則說明不存在以該字為首的詞語；比較該漢字的位置是否在不可分?jǐn)?shù)組undone中有記錄，如果有則略過該漢字，執(zhí)行步驟③；⑧如果temp的長度為1，即if（temp.Length=1），只有一個(gè)分詞結(jié)果備選項(xiàng)，那么該結(jié)果就是所要的分詞結(jié)果，該詞語壓入分詞結(jié)果棧中result數(shù)組中，執(zhí)行步驟③；則說明在詞語表中從block首部取出；⑨如果temp的長度大于1，即if（temp.Length>1），則說明分詞結(jié)果備選項(xiàng)中存在多個(gè)結(jié)果，按照temp數(shù)組中的字符串長度的次序由小到大排列，取數(shù)組最后一個(gè)元素的字符串，在block首部去掉該詞，壓入分詞結(jié)果棧result中，執(zhí)行步驟③。⑩如果不可分?jǐn)?shù)組undone不為空，則對數(shù)組中的元素和分詞結(jié)果中的元素進(jìn)行人為干預(yù)，將新詞錄入詞庫，執(zhí)行下一步；?開始下一個(gè)語義塊的分詞，將上一個(gè)語義塊的分詞結(jié)果輸出，并且將分詞結(jié)果棧result清空，執(zhí)行步驟②。

四、自動(dòng)分詞舉例

假設(shè)在文章的句子中，已經(jīng)有了切分好的語義塊。例如，有一句話“這些學(xué)生會(huì)員都來了”。詞庫中已經(jīng)有以下的詞語了：這些、學(xué)生、學(xué)生會(huì)、會(huì)員、都、來、了

那么，應(yīng)用上述的自動(dòng)分詞算法，依次對該句的漢字進(jìn)行分析，其詳細(xì)過程如下：①檢索“這”，發(fā)現(xiàn)“這些”在詞庫中并且與原文匹配；②檢索“學(xué)”，發(fā)現(xiàn)有兩個(gè)匹配，分別是“學(xué)生”和“學(xué)生會(huì)”，取字符長度最長的那個(gè)匹配項(xiàng)“學(xué)生會(huì)”；③檢索“員”，發(fā)現(xiàn)詞庫中沒有以“員都”或“員”這樣的詞語，因此不存在匹配，于是將先前的棧頂元素彈出，壓入第二長的分詞備選項(xiàng)“學(xué)生”：④檢索“都”，這是一個(gè)副詞，在詞庫中；⑤同理，“來”和“了”依次被分出來。

實(shí)踐證明，利用該分詞算法進(jìn)行自動(dòng)分詞，其分詞復(fù)雜度得以大的改善，該分詞算法在對文章中的詞進(jìn)行自動(dòng)切分時(shí)，可以大大降低分詞過程中的匹配次數(shù)，提高了分詞的響應(yīng)速度，尤其適合大量中文信息的分析與處理。

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索工具淺析

摘要：互聯(lián)網(wǎng)是一個(gè)巨大的信息資源庫，其內(nèi)容包羅萬象，覆蓋了不同學(xué)科、不同領(lǐng)域、不同地域、不同語言的信息資源；在這個(gè)信息海洋中，如何準(zhǔn)確、迅速地找到并獲得自己所需的信息呢？“工欲善其事,必先利其器。”這就需要掌握有關(guān)的檢索工具以及使用的方法和技巧。通過以百度地圖搜索等為例，介紹相關(guān)網(wǎng)絡(luò)信息檢索工具以及如何在短時(shí)間內(nèi)能夠掌握利用和運(yùn)用Internet的資源找到自己所需要信息的方法。

關(guān)鍵詞：網(wǎng)絡(luò)信息檢索；百度地圖搜索；Google學(xué)術(shù)搜索；天網(wǎng)搜索

網(wǎng)上的信息浩如煙海，網(wǎng)絡(luò)資源以十倍的速度增長，一個(gè)搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息，即使信息主題收集得比較全面，由于主題范圍太寬，很難將各主題都做得精確又專業(yè)，使得檢索結(jié)果中出現(xiàn)太多無用的信息。

在信息檢索工具趨向于專業(yè)化、服務(wù)內(nèi)容趨向于深化的發(fā)展下，一些檢索工具已經(jīng)不再盲目追求加大收錄和標(biāo)引量，而是更加注重突出其專業(yè)特色。因此，垂直主題的搜索引擎以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地，比如像股票、天氣、新聞、MP3及地圖等類的搜索引擎，具有很高的針對性，用戶對查詢結(jié)果的滿意度較高。

下面，介紹一些常用的專門網(wǎng)絡(luò)檢索工具。

1 百度地圖搜索

登陸百度//網(wǎng)址。如圖1所示，百度產(chǎn)品線中，除了網(wǎng)頁搜索外，還提供了MP3、新聞、知道、地圖、圖片、影視及法律等等細(xì)分的專業(yè)主題搜索。

圖1 百度產(chǎn)品線

下面百度地圖為例介紹一下。百度地圖搜索是百度聯(lián)合國內(nèi)知名的電子地圖服務(wù)提供商推出的本地化地圖搜索服務(wù)。通過百度地圖搜索，你可以找到指定的城市、城區(qū)、街道、建筑物等所在的地理位置，也可以找到離你最近的所有餐館、學(xué)校、銀行、公園等等。百度地圖搜索還為你提供了路線查詢功能，如果你要去某個(gè)地點(diǎn)，百度地圖搜索會(huì)提示你如何換乘公交車，如果你想自己駕車去，百度地圖搜索同樣會(huì)為你推薦最佳路線。

百度地圖搜索的使用很簡單，無論你是要找地點(diǎn)（如：王府井餐廳）還是乘車路線（如：從銀科大廈到月壇公園），均只需在一個(gè)搜索框內(nèi)直接輸入，按回車鍵或者點(diǎn)擊“百度搜索”按鈕，即可得到最符合你要求的內(nèi)容。例如，搜索“王府井餐廳”，可得結(jié)果頁面如圖3所示。點(diǎn)擊小圖標(biāo)，將在地圖中顯示此地點(diǎn)的簡單信息。你還可以在地圖上進(jìn)行移動(dòng)、放大、縮小及測距等操作。

3 天網(wǎng)搜索

天網(wǎng)搜索的前身是北大天網(wǎng)。北大天網(wǎng)由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室研究開發(fā)，是國家重點(diǎn)科技攻關(guān)項(xiàng)目“中文編碼和分布式中英文信息發(fā)現(xiàn)”的研究成果。北大天網(wǎng)于1997年10月29日正式在 CERNET上向廣大互聯(lián)網(wǎng)用戶提供Web信息搜索及導(dǎo)航服務(wù)，是國內(nèi)第一個(gè)基于網(wǎng)頁索引搜索的搜索引擎。天網(wǎng)搜索致力于探索和研究中英文搜索引擎系統(tǒng)的優(yōu)秀技術(shù)并不斷推出更新的搜索產(chǎn)品。目前天網(wǎng)搜索引擎維護(hù)的文檔數(shù)量達(dá)到 6億之多，并正在以平均每月一千萬頁文檔的數(shù)量擴(kuò)大著規(guī)模。天網(wǎng)搜索的中文文檔數(shù)量超過4億，其中包括html、txt、pdf、doc、ps、ppt等多種類型的文檔和資源。

圖6 天網(wǎng)資源搜索界面

目前天網(wǎng)搜索主要提供三種搜索服務(wù)：網(wǎng)頁搜索、資源搜索和商機(jī)搜索。

1) 網(wǎng)頁搜索

天網(wǎng)網(wǎng)頁搜索是基于頁面文字內(nèi)容的搜索，主要是http文件搜索。通過關(guān)鍵詞檢索，用戶可以單擊瀏覽關(guān)鍵詞所在的原始網(wǎng)頁和網(wǎng)頁快照。

2) 資源搜索

天網(wǎng)資源搜索是為高級(jí)用戶查找特定文件尤其是FTP文件提供的方便、快捷的檢索服務(wù)。它提供關(guān)鍵詞檢索和資源分類瀏覽檢索兩種檢索功能。用戶只需要在檢索框輸入檢索詞，即可進(jìn)行檢索。同時(shí)，關(guān)鍵詞檢索還提供文件類別限定功能。檢索的結(jié)果包括文件全名，創(chuàng)建日期、文件大小、網(wǎng)頁快照、原始地址等信息。

3) 商機(jī)搜索

天網(wǎng)商機(jī)搜索是面向中國企業(yè)的搜索服務(wù)，目前包括全部網(wǎng)站、職位信息、供求商機(jī)、黃頁、所有網(wǎng)頁等類型的搜索。

4 結(jié)語

本文詳細(xì)地介紹了一系列在短時(shí)間內(nèi)如何利用和運(yùn)用Internet的資源找到自己所需要信息的方法。運(yùn)用的時(shí)候，需要具體按照使用信息資源目的進(jìn)行相關(guān)的操作。熟練情況下，大家就可以按照自己的習(xí)慣暢游在Internet浩瀚大海之中，快速地摘取需要的信息。

網(wǎng)絡(luò)信息檢索論文:對等網(wǎng)絡(luò)信息檢索中的信任問題綜述

摘要：在介紹P2P 網(wǎng)絡(luò)及其應(yīng)用的基礎(chǔ)上，分析了P2P網(wǎng)絡(luò)共享文件的可靠性及安全性問題。介紹了基于文件內(nèi)容和基于節(jié)點(diǎn)的信譽(yù)評(píng)價(jià)系統(tǒng)模型，這兩種體系模型都是通過收集各個(gè)節(jié)點(diǎn)的評(píng)價(jià)信息，來保證共享文件的真實(shí)性和可靠性。在P2P 網(wǎng)絡(luò)環(huán)境中，節(jié)點(diǎn)間的信任來自于兩個(gè)方面：一個(gè)是對節(jié)點(diǎn)本身所能提供的服務(wù)質(zhì)量的信任；另一個(gè)是節(jié)點(diǎn)對于其他節(jié)點(diǎn)的評(píng)價(jià)的信任。

關(guān)鍵詞：P2P網(wǎng)絡(luò)；信任；文件共享；安全性；信譽(yù)系統(tǒng)；評(píng)價(jià)體系

1 引言

計(jì)算機(jī)對等網(wǎng)peer－to－peer(P2P)大幅地提高了Internet中信息、帶寬和資源的利用率，這種技術(shù)可以廣泛地應(yīng)用于網(wǎng)絡(luò)互聯(lián)技術(shù)各個(gè)領(lǐng)域。P2P文件共享是P2P 網(wǎng)絡(luò)目前發(fā)展迅速的方面，比如Napster和Freenet都是文件共享方面的著名應(yīng)用。P2P網(wǎng)絡(luò)和傳統(tǒng)的網(wǎng)絡(luò)體系一樣，面臨著各種各樣的安全問題；同時(shí)，由于自身體系結(jié)構(gòu)的特殊性，P2P網(wǎng)絡(luò)還需要解決自己特有的一些安全問題。本文主要討論P(yáng)2P共享文件的安全性。本文的第二部分羅列了共享文件安全的主要內(nèi)容，第三部分強(qiáng)調(diào)了p2p的優(yōu)秀安全需求，第四部分給出了一個(gè)基于信譽(yù)的評(píng)價(jià)系統(tǒng)。文章最后總結(jié)了p2p安全技術(shù)的現(xiàn)狀和不足。

2 P2P共享文件的安全需求

共享文件的安全需求包括：(1)信任關(guān)系，在分布式系統(tǒng)中，如何建立不同網(wǎng)絡(luò)節(jié)點(diǎn)間的信任關(guān)系是建立系統(tǒng)安全的一個(gè)基礎(chǔ)問題 (2)標(biāo)識(shí)，對等用戶必須能夠通過標(biāo)識(shí)建立唯一的、可驗(yàn)證的數(shù)字身份。(3)認(rèn)證和授權(quán)，網(wǎng)絡(luò)用戶必須能夠通過網(wǎng)絡(luò)遠(yuǎn)程，安全地驗(yàn)證一個(gè)對等點(diǎn)的標(biāo)識(shí)，并通過授權(quán)控制對本地資源和服務(wù)的訪問。(4)機(jī)密性和完整性，提供了對用戶進(jìn)行篡改、重發(fā)等主動(dòng)或被動(dòng)攻擊下的保護(hù)。這些是P2P 應(yīng)用系統(tǒng)所必須提供的安全服務(wù)。

3 p2p的優(yōu)秀安全需求

P2P文件共享的優(yōu)秀安全需求是信任關(guān)系。由于這種文件共享系統(tǒng)的目的特殊，它們所需要的安全性不是很高。在信任關(guān)系上，系統(tǒng)信任者所的內(nèi)容是“真實(shí)”的，消費(fèi)用戶信任者，者和管理員對消費(fèi)用戶的信任度沒有特別的要求。但是，文件共享應(yīng)用中信任關(guān)系管理仍然是十分必要的，系統(tǒng)成員間信任關(guān)系的建立是

保證系統(tǒng)可用性的基礎(chǔ)。下面就簡單介紹一個(gè)目前較先進(jìn)的基于內(nèi)容的信譽(yù)評(píng)價(jià)系統(tǒng)。

4 基于內(nèi)容的信譽(yù)評(píng)價(jià)系統(tǒng)

在實(shí)際的P2P網(wǎng)絡(luò)文件共享系統(tǒng)中，文件下載者最關(guān)心的是被共享文件本身是否真實(shí)可信，而該文件是由哪個(gè)節(jié)點(diǎn)提供的則不是很重要。所以，直接基于共享文件本身內(nèi)容的評(píng)價(jià)比基于節(jié)點(diǎn)行為的評(píng)價(jià)更能描述共享文件的真實(shí)程度，也更加滿足下載者的需求。而對節(jié)點(diǎn)行為的評(píng)價(jià)可以進(jìn)一步描述共享節(jié)點(diǎn)的可信度。這兩方面的評(píng)價(jià)結(jié)合起來，就組成了比較完整的信譽(yù)評(píng)價(jià)系統(tǒng)。

4.1 對共享文件的評(píng)價(jià)

對共享文件的評(píng)價(jià)其實(shí)就是對文件內(nèi)容真實(shí)性的一種描述。

例如，節(jié)點(diǎn)A共享了一個(gè)文件a，并且注明作者、版本、文件內(nèi)容等相關(guān)信息。節(jié)點(diǎn)B下載該文件后，發(fā)覺文件a內(nèi)容和文件描述完全一致，則節(jié)點(diǎn)B把該文件標(biāo)記為“內(nèi)容與描述完全一致”，并把這個(gè)評(píng)價(jià)反饋給P2P網(wǎng)絡(luò)系統(tǒng)，從而完成本次評(píng)價(jià)過程。

系統(tǒng)則建立起該文件的檔案(包括文件名、文件大小、文件創(chuàng)建時(shí)間、下載者的評(píng)價(jià)等)。C、D、E、F等節(jié)點(diǎn)下載完該文件a后，也做出相應(yīng)的評(píng)價(jià)，系統(tǒng)根據(jù)評(píng)價(jià)不斷修改補(bǔ)充評(píng)價(jià)內(nèi)容和數(shù)量，從而逐步建立起對于該文件的評(píng)價(jià)描述。當(dāng)節(jié)點(diǎn)P需要下載該文件時(shí)，根據(jù)前面B、C、D、E、F等節(jié)點(diǎn)對該文件的評(píng)價(jià)描述就可以決定是否下載該文件，而不需要關(guān)心從哪個(gè)節(jié)點(diǎn)下載的文件更可靠。如果節(jié)點(diǎn)B、C、D、E、F等下載a后也向其他節(jié)點(diǎn)提供共享，雖然它們和節(jié)點(diǎn)A的信譽(yù)值不一樣，但是共享的這個(gè)文件擁有相同的可信度，因?yàn)槎际枪蚕淼耐粋€(gè)文件。如果某個(gè)節(jié)點(diǎn)更改了這個(gè)文件的文件名或其他描述信息，雖然內(nèi)容還是完全一樣，但是也要被系統(tǒng)區(qū)分為不同的文件，重新建立新的評(píng)價(jià)檔案。

4.2 對節(jié)點(diǎn)的評(píng)價(jià)

如果節(jié)點(diǎn)A共享了一個(gè)新文件，節(jié)點(diǎn)B下載該文件時(shí)還沒有任何評(píng)價(jià)或者評(píng)價(jià)太少，不足以判斷該文件的真實(shí)性，那么節(jié)點(diǎn)A的信譽(yù)值就是判斷的一個(gè)重要依據(jù)。節(jié)點(diǎn)的信譽(yù)值反映該節(jié)點(diǎn)以前的共享行為，并不代表節(jié)點(diǎn)將來的行為。但是，節(jié)點(diǎn)B可以根據(jù)節(jié)點(diǎn)A以前的行為推測將來的行為：節(jié)點(diǎn)A的信譽(yù)值高，說明節(jié)點(diǎn)A以前共享的文件可信度高，其將來共享文件的真實(shí)性也越大；信譽(yù)值低，說明以前共享文件的可信度低，其將來共享文件的真實(shí)性也越值得懷疑。這種推測是符合常規(guī)和實(shí)際的。節(jié)點(diǎn)的信譽(yù)值直接用數(shù)字描述，正數(shù)為節(jié)點(diǎn)的正面評(píng)價(jià)，負(fù)數(shù)為節(jié)點(diǎn)的負(fù)面評(píng)價(jià)。

4.3 做出反應(yīng)

通過對共享文件和節(jié)點(diǎn)的評(píng)價(jià)，用戶在下載前不僅對將下載文件內(nèi)容的真實(shí)性一目了然，而且對提供文件下載服務(wù)節(jié)點(diǎn)的可靠性也放心，從而避免了大量垃圾文件和有害文件的傳播。在評(píng)價(jià)體系中，一方面文件提供者接受其他節(jié)點(diǎn)的評(píng)價(jià)，從而獲得自己的信譽(yù)評(píng)價(jià)值，另一方面文件接收者也應(yīng)該受到約束，不能任意甚至惡意地對文件提供者進(jìn)行評(píng)價(jià)。

為了保證網(wǎng)絡(luò)系統(tǒng)的正常運(yùn)行，需要對不同行為的節(jié)點(diǎn)采取不同的獎(jiǎng)懲措施：(1)獎(jiǎng)勵(lì)，信譽(yù)評(píng)價(jià)系統(tǒng)應(yīng)對信譽(yù)值高的節(jié)點(diǎn)，應(yīng)提供獎(jiǎng)勵(lì)機(jī)制。一些專家建議，獎(jiǎng)勵(lì)機(jī)制應(yīng)包括兩種，提高信譽(yù)值高的節(jié)點(diǎn)的服務(wù)和給予信譽(yù)值高的節(jié)點(diǎn)經(jīng)濟(jì)上的獎(jiǎng)勵(lì)。(2)懲罰，獎(jiǎng)勵(lì)機(jī)制在P2P網(wǎng)絡(luò)中可以有效地發(fā)揮作用，但為了削減P2P網(wǎng)絡(luò)中的惡意行為，還需要對惡意節(jié)點(diǎn)進(jìn)行懲罰。如果信譽(yù)評(píng)價(jià)系統(tǒng)能夠識(shí)別出在線的惡意節(jié)點(diǎn)，系統(tǒng)應(yīng)能不僅僅警告其他節(jié)點(diǎn)，還要能做出反擊，禁止其訪問網(wǎng)絡(luò)。最后，P2P系統(tǒng)在使用上述策略時(shí)，要特別謹(jǐn)慎，以免惡意節(jié)點(diǎn)利用這些策略來破壞系統(tǒng)。

5 總結(jié)

雖然目前的Peer-to-Peer應(yīng)用日益廣泛,但仍然缺乏有效的機(jī)制以提高系統(tǒng)整體的可用性,這非常顯著地表現(xiàn)為應(yīng)用中大量欺詐行為的存在以及不可靠的服務(wù)質(zhì)量。以眾多的文件共享應(yīng)用為例,25％的文件是偽造文件(faked files),同時(shí),不負(fù)責(zé)任的用戶隨意地中止(文件上載)服務(wù),使得服務(wù)質(zhì)量無法得以較好的保證。一種可能的辦法是對用戶評(píng)定信任等級(jí),在多個(gè)同樣服務(wù)可選的情況下,信任等級(jí)高的節(jié)點(diǎn)成為首選。本文通過對P2P文件共享的安全性進(jìn)行具體分析，得出了詳細(xì)安全需求。在此基礎(chǔ)上，我們進(jìn)一步總結(jié)了P2P 應(yīng)用的一般安全需求，并指出信任關(guān)系是其中的優(yōu)秀安全需求。介紹了共享文件的信任關(guān)系的分類，重點(diǎn)介紹了一種基于共享文件內(nèi)容本身的信譽(yù)評(píng)價(jià)系統(tǒng)，和傳統(tǒng)的方法相比，增加了對文件內(nèi)容的具體分析，提高了共享文件的可信度。通過對共享文件的內(nèi)容評(píng)價(jià)和節(jié)點(diǎn)的信譽(yù)評(píng)價(jià)，共同保證P2P網(wǎng)絡(luò)中共享文件的可信度。信譽(yù)評(píng)價(jià)系統(tǒng)建立后，還需要對各節(jié)點(diǎn)的行為作出反應(yīng)。

作者簡介：中國礦業(yè)大學(xué)05級(jí)碩士研究生。

網(wǎng)絡(luò)信息檢索論文:Web2.0環(huán)境下的網(wǎng)絡(luò)信息檢索研究

摘要：Web2.0網(wǎng)站在現(xiàn)有網(wǎng)站中的比例越來越高，其具有的互動(dòng)性、提倡個(gè)人體驗(yàn)等特點(diǎn)給信息搜索帶來了新的挑戰(zhàn)。該文分析了Web2.0的特點(diǎn)，指出Web2.0的某些特點(diǎn)會(huì)導(dǎo)致很多信息隱蔽化，并從隱蔽信息檢索的角度嘗試性地提出了解決辦法。

關(guān)鍵詞： Web2.0；隱蔽化；信息檢索

1 Web2.0的特點(diǎn)

Web2.0的概念始源于Tim Reilly和MediaLive International分會(huì)。Web2.0作為一個(gè)新的商業(yè)概念，根據(jù)會(huì)議的觀點(diǎn)，具有自由平臺(tái)、集體智慧、用戶體驗(yàn)等七個(gè)特征[1]。

國內(nèi)和國外學(xué)者對于Web2.0有不少研究，但是對其實(shí)質(zhì)還沒有統(tǒng)一的理解。Web2.0在學(xué)術(shù)界和實(shí)際工作領(lǐng)域有不同的內(nèi)涵和外延，至今沒有清晰的定義。技術(shù)研究者眼中的Web2.0是SNS、BLOG、RSS等社會(huì)性軟件的繁榮昌盛；blogger認(rèn)為Web2.0是人與人之間更個(gè)性更便捷的互動(dòng)；而在風(fēng)險(xiǎn)投資商眼中，Web2.0代表了新商業(yè)的規(guī)則逐漸形成[2]。

為便于分析，本文所指的Web2.0是相對Web1.0的新一類互聯(lián)網(wǎng)應(yīng)用的統(tǒng)稱。是以Flickr、等網(wǎng)站為代表，以Blog、TAG、SNS、RSS、Wiki等社會(huì)軟件的應(yīng)用為優(yōu)秀，依據(jù)六度分隔、xml、ajax等新理論和技術(shù)實(shí)現(xiàn)的互聯(lián)網(wǎng)新一代模式。Web2.0具有個(gè)性化服務(wù)、用戶參與、集體智慧和網(wǎng)絡(luò)社區(qū)等特點(diǎn)。

Web1.0到Web2.0的轉(zhuǎn)變，模式上，是從讀向?qū)憽⑿畔⒐餐瑒?chuàng)造的一個(gè)改變；基本結(jié)構(gòu)上，則由網(wǎng)頁向發(fā)表和展示工具的演變；轉(zhuǎn)變工具上，是由互聯(lián)網(wǎng)瀏覽器向各類瀏覽器、RSS閱讀器等內(nèi)容的發(fā)展；運(yùn)行機(jī)制上，由Client service向Web service的轉(zhuǎn)變，互聯(lián)網(wǎng)內(nèi)容的締造者也由專業(yè)人士向普通用戶拓展。

Web2.0使互聯(lián)網(wǎng)絡(luò)用戶從信息接受者轉(zhuǎn)變成為信息制造者和傳播者，從受眾轉(zhuǎn)向主體，從個(gè)體轉(zhuǎn)向社團(tuán)的新型互聯(lián)網(wǎng)服務(wù)模式與理念，其成型的優(yōu)秀應(yīng)用主要有Blog、WIKI、RSS、SNS、Podcast等。

1.1 Blog

Blog是Webblog的簡稱，是個(gè)人或群體以時(shí)間順序所作的一種記錄，并且不斷更新。用戶以網(wǎng)絡(luò)日志的形式簡易迅速地自己的心得，及時(shí)有效地與他人進(jìn)行交流，簡單使用與維護(hù)網(wǎng)站。

對知識(shí)管理和創(chuàng)造而言，Blog提供了新的形態(tài)和途徑。從交往形態(tài)考察，網(wǎng)志空間設(shè)定了積極的讀者、作者、編者互動(dòng)轉(zhuǎn)換關(guān)系，針對一定的話題和讀者創(chuàng)造信息。

1.2 WIKI

WIKI：百科全書，是一種多人協(xié)作的寫作工具。這種超文本系統(tǒng)支持面向社群的協(xié)作式寫作，同時(shí)也包括一組支持這種寫作的輔助工具。WIKI的寫作者構(gòu)成了一個(gè)社群，WIKI系統(tǒng)為這個(gè)社群提供簡單的交流工具。與其它超文本系統(tǒng)相比，WIKI有使用方便及開放的特點(diǎn)，可以在一個(gè)社群內(nèi)共享某領(lǐng)域的知識(shí)。

1.3 RSS

RSS是站點(diǎn)用來和其它站點(diǎn)之間共享內(nèi)容的一種簡易方式。它能夠把網(wǎng)站內(nèi)容如標(biāo)題、鏈接、部分內(nèi)容甚至全文轉(zhuǎn)換為可延伸標(biāo)示語言的格式。

RSS搭建了信息迅速傳播的一個(gè)技術(shù)平臺(tái)，使得每個(gè)人都成為潛在的信息提供者。一個(gè)RSS文件后，包含的信息就能直接被其它站點(diǎn)調(diào)用。

1.4 SNS

SNS：社會(huì)網(wǎng)絡(luò)。理論依據(jù)是六度分隔理論，通過互聯(lián)網(wǎng)的方式，可以將人際關(guān)系網(wǎng)的資源完全挖掘出來。在SNS的幫助下，可以輕松認(rèn)識(shí)“朋友的朋友”，擴(kuò)展自己的人脈，還可以更科學(xué)地管理人際網(wǎng)絡(luò)資源。

SNS這種新興的網(wǎng)絡(luò)社交方式一出現(xiàn)，迅速流行歐美國家，已經(jīng)成為精英階層拓展人際關(guān)系的主要方式之一。

1.5 Podcast

Podcast：播客，它是收音機(jī)、ipod、博客和寬帶互聯(lián)網(wǎng)的集體產(chǎn)物。它是數(shù)字廣播技術(shù)的一種，與一些便攜播放器相結(jié)合而實(shí)現(xiàn)，是一種在互聯(lián)網(wǎng)上音頻內(nèi)容并允許用戶訂閱feed以自動(dòng)接受新文件的方法，它使用RSS2.0文件格式傳送并允許個(gè)人進(jìn)行創(chuàng)建與。

2 Web2.0網(wǎng)站信息的隱蔽化

隱蔽網(wǎng)絡(luò)，也稱不可見網(wǎng)絡(luò)（Invisible Web）或深網(wǎng)（Deep Web），是一個(gè)與可見網(wǎng)絡(luò)相對應(yīng)的概念。最初由Dr. Jill Ellsworth于1994年提出，意指那些普通搜索引擎難以發(fā)現(xiàn)的信息內(nèi)容。2001年，Christ Sherman和Gary Price合著《隱蔽網(wǎng)絡(luò)：揭開搜索引擎看不到的信息源》，將隱蔽網(wǎng)絡(luò)定義為：雖然通過互聯(lián)網(wǎng)可以獲取，但普通搜索引擎由于受技術(shù)限制而不能，或者經(jīng)審慎考慮后而不作索引的那些文本頁、文件或其他通常是高質(zhì)量、權(quán)威的信息[3]。

隱蔽網(wǎng)絡(luò)所儲(chǔ)存的信息有7500TB，可見網(wǎng)絡(luò)所儲(chǔ)存的信息有19TB，隱蔽網(wǎng)絡(luò)所儲(chǔ)存的信息是可見網(wǎng)絡(luò)的440~550倍。當(dāng)前存在超過20000個(gè)隱蔽網(wǎng)絡(luò)站點(diǎn)。60個(gè)最大的隱蔽網(wǎng)絡(luò)站點(diǎn)擁有大約750TB的信息，一半以上的隱蔽網(wǎng)絡(luò)站點(diǎn)內(nèi)容存在于主題數(shù)據(jù)庫中，95%的隱蔽網(wǎng)絡(luò)信息是公開的，不需付費(fèi)和訂閱。發(fā)表在《自然》雜志的一份日本NEC公司研究院的研究報(bào)告估計(jì)，具有最大搜索能力的Google 和Northern Light也只能搜索到全部網(wǎng)絡(luò)信息的0.03%[4]。

Chris Sherman和Gary Price（2001）認(rèn)為產(chǎn)生隱蔽網(wǎng)絡(luò)的原因有技術(shù)和非技術(shù)兩個(gè)因素[5]。非技術(shù)因素是指搜索引擎開發(fā)公司出于費(fèi)用方面的考慮，不愿意索引某些網(wǎng)絡(luò)內(nèi)容。技術(shù)因素主要有：1) 普通搜索引擎對非ASCII文本格式的內(nèi)容，如Postscript、Flash、影音文件、壓縮文件等進(jìn)行索引時(shí)存在困難；2) 社區(qū)論壇、數(shù)據(jù)庫入口處設(shè)置的賬號(hào)、口令等提問是機(jī)械式搜索引擎難以跨越的障礙。

Michael K. Bergman（2004）將隱蔽網(wǎng)絡(luò)劃分為陰暗網(wǎng)絡(luò)（the opaque Web）、私人網(wǎng)絡(luò)（the private Web）、專有網(wǎng)絡(luò)（the proprietary Web）、真正的隱蔽網(wǎng)絡(luò)（the truly invisible Web）等4種類型[6]。

2.1 不透明網(wǎng)絡(luò)

不透明網(wǎng)絡(luò)是指搜索引擎可以索引但沒有索引的網(wǎng)頁，主要由以下幾個(gè)因素造成：1) 搜索深度，受經(jīng)濟(jì)因素制約，搜索引擎只搜索一定深度的網(wǎng)頁，超過搜索深度但有價(jià)值的網(wǎng)頁就成為了不透明網(wǎng)絡(luò)；2) 搜索的最大數(shù)，即使在搜索深度之內(nèi)搜索的網(wǎng)頁數(shù)也有可能超過其最大容量，超過容量部分就成為不透明網(wǎng)絡(luò)；3) 搜索頻率，互聯(lián)網(wǎng)上的信息日新月異，而搜索引擎的搜索速度有限，新出現(xiàn)的網(wǎng)站（頁）也就成為不透明網(wǎng)絡(luò)。

2.2 私人網(wǎng)絡(luò)

私人網(wǎng)絡(luò)就是指含有個(gè)人的非公開信息、限制訪問的網(wǎng)頁，其形成原因主要有：1) 網(wǎng)站口令的設(shè)置，目前許多私人網(wǎng)站需要注冊并使用用戶名和密碼登錄后才能訪問，這一部分內(nèi)容搜索引擎難以索引；2) 知識(shí)產(chǎn)權(quán)的負(fù)面影響，有些網(wǎng)站出于保護(hù)知識(shí)產(chǎn)權(quán)或個(gè)人隱私的考慮，會(huì)使用“Robots.txt”協(xié)議來阻止搜索。

2.3 專有網(wǎng)絡(luò)

專有網(wǎng)絡(luò)是指只對注冊用戶開放的網(wǎng)頁，這部分網(wǎng)頁都需要用戶輸入用戶名和密碼，其資源才可被利用。機(jī)械式的搜索引擎無法填表注冊，當(dāng)然也就無法索引。另外收費(fèi)的商業(yè)在線信息服務(wù)商如DIALOG、OCLC、SIRS、InfoTrac等，或是在線百科全書，對于未付費(fèi)的用戶來說也是不可見的[7]。

2.4 真正的隱蔽網(wǎng)絡(luò)

真正的隱蔽網(wǎng)絡(luò)主要包括非HTML格式的文檔、動(dòng)態(tài)網(wǎng)頁、實(shí)時(shí)數(shù)據(jù)及網(wǎng)絡(luò)數(shù)據(jù)庫，其形成原因主要包括：1) 目前大部分搜索引擎只能索引HTML，而對于其它包含pdf、mp3、avi等格式的網(wǎng)頁，搜索引擎無法搜索其包含的內(nèi)容；2) 搜索引擎索引動(dòng)態(tài)網(wǎng)頁及網(wǎng)絡(luò)數(shù)據(jù)庫的能力有限，不能實(shí)現(xiàn)實(shí)時(shí)更新。

3 Web2.0使更多網(wǎng)站信息“隱蔽化”

Web2.0崇尚個(gè)性化的服務(wù)，用戶體驗(yàn)和社會(huì)網(wǎng)絡(luò)，擁有用戶參與的一個(gè)“社會(huì)網(wǎng)絡(luò)”將包含比現(xiàn)有網(wǎng)絡(luò)更多內(nèi)容的數(shù)據(jù)信息。個(gè)性化和用戶參與信息，一般都是以數(shù)據(jù)庫或其他動(dòng)態(tài)的方式存在，加大了搜索引擎搜索的難度，而用戶參與的信息，出于個(gè)人隱私或個(gè)人其他方面考慮，很多是帶有訪問權(quán)限的，有些即使不帶有權(quán)限，但是沒有鏈接到其他的網(wǎng)站，形成了一個(gè)個(gè)孤立的信息“島嶼”，深層化和隱蔽化的程度明顯增加。

《中國Web2.0 現(xiàn)狀與趨勢調(diào)查報(bào)告》調(diào)研發(fā)現(xiàn)，高達(dá)61.7%的人認(rèn)為Web2.0 帶來一個(gè)屬于自己的空間，能夠更加自由和個(gè)性化，其次才是能夠進(jìn)行更好的資源和思想的分享和交流。由此可見，擁有訪問權(quán)限的“自己的空間”可能在給搜索引擎進(jìn)行一般搜索的時(shí)候造成訪問權(quán)限上的阻礙。比如設(shè)置權(quán)限的msn live空間，如果拒絕RSS聯(lián)合，那么搜索引擎將無法進(jìn)入空間進(jìn)行有效的搜索。

其次，個(gè)性化的搜索要求已經(jīng)使得現(xiàn)有的搜索引擎力不從心。基于一般搜索的搜索引擎，很難以再滿足顧客個(gè)性化的搜索要求。個(gè)人的信息偏好受個(gè)人的教育背景差異和興趣的影響。越來越多網(wǎng)民自發(fā)在網(wǎng)上結(jié)成不同的社區(qū)來討論和關(guān)注他們所關(guān)心的事物，從而形成一個(gè)個(gè)小的圈子。這種小的圈子，小的社區(qū)，往往是互聯(lián)網(wǎng)中最活躍群體，所探討的話題往往也是很深入的。但是這些是一般搜索引擎搜索不到的。

第三，法律上的障礙。對敏感信息檢索問題，法律上還沒有明確的規(guī)定。很多Web2.0的網(wǎng)絡(luò)按照Chris Sherman和Gary Price的分類屬于私人網(wǎng)絡(luò)，對這些網(wǎng)絡(luò)的搜索和引用在法律上尚存在盲點(diǎn)。

第四，Web2.0實(shí)時(shí)更新速度快，很容易造成搜索引擎在兩次搜索之間很多網(wǎng)頁“不透明”。根據(jù)Chris Sherman和Gary Price的搜索引擎搜索速度“大概為1-2千萬頁/天”，在大量Web2.0網(wǎng)頁出現(xiàn)的時(shí)代這樣的搜索速度很難跟上網(wǎng)絡(luò)的發(fā)展。

4Web2.0信息檢索對策

4.1 建立Web2.0網(wǎng)站選擇性指南

Web2.0具有集體智慧，網(wǎng)絡(luò)社區(qū)等特點(diǎn)，每個(gè)網(wǎng)站或子網(wǎng)站具有特定的主題。選擇性指南是一個(gè)主題指南，按照主題分類提供大量網(wǎng)站的鏈接。檢索精度高、資源權(quán)威、使用方便且大部分可免費(fèi)獲取，用它來查找主題相對寬泛，質(zhì)量相對較高，已經(jīng)過選擇、評(píng)價(jià)、標(biāo)注的信息資源來說效果較好，目前常用的選擇性指南包括Findlaw、InfoMine、The Invisible Web Directory及等。

4.2 改進(jìn)搜索技術(shù)與工具

當(dāng)搜尋Web2.0的范圍比較狹窄或者是希望能利用更新的檢索技術(shù)時(shí)，可以通過一般的或?qū)I(yè)的搜索引擎進(jìn)行檢索。因?yàn)樗阉饕婺芨鶕?jù)用戶的檢索要求到各網(wǎng)絡(luò)數(shù)據(jù)庫進(jìn)行檢索并返回符合檢索要求的資源，而不需要像目錄指南那樣一層層地去瀏覽、查詢。

但是現(xiàn)有的搜索技術(shù)對于Web2.0迅速更新的信息檢索還是力不從心，且往往不能檢索像Podcast形式存在的多媒體文件和由不同程序產(chǎn)生的非格式文件。因此必須改進(jìn)現(xiàn)有的搜索技術(shù)：1) 發(fā)展多元搜索技術(shù)，提高檢索準(zhǔn)確度；2) 改進(jìn)常規(guī)搜索引擎，使之能夠索引更多格式的文件，研發(fā)檢索音頻、視頻的搜索技術(shù)；3) 開發(fā)各類專門搜索引擎，必要時(shí)人工處理部分信息；4) 開發(fā)部分監(jiān)控技術(shù)，對Web2.0不斷產(chǎn)生的新信息不斷監(jiān)控，側(cè)重檢索新增信息。

4.3 元數(shù)據(jù)與Web2.0相結(jié)合

元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)，是對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行組織和處理的基礎(chǔ)。元數(shù)據(jù)的思想由來已久，都柏林優(yōu)秀集(Dublin Core)的不斷發(fā)展，現(xiàn)已經(jīng)得到廣泛應(yīng)用。利用元數(shù)據(jù)來標(biāo)注網(wǎng)絡(luò)資源可以大大提高檢索效率，那么將元數(shù)據(jù)思想應(yīng)用于Web2.0也就理所當(dāng)然。

Web2.0很多信息都是由特定的程序產(chǎn)生并組織，所以在相關(guān)程序編制的時(shí)候就必須考慮采用一定的標(biāo)準(zhǔn)方便搜索引擎檢索，比如在產(chǎn)生的網(wǎng)頁上加上網(wǎng)頁性質(zhì)描述和關(guān)鍵詞，多媒體信息以tag標(biāo)簽的形式說明內(nèi)容等，并嚴(yán)格按照元數(shù)據(jù)的要求組織和處理包含的信息，方便信息檢索。

4.4 提高用戶的信息素質(zhì)

所謂信息素質(zhì)，即指從各種信息源中檢索、評(píng)價(jià)和使用信息的能力，是影響網(wǎng)絡(luò)信息資源利用的一個(gè)重要方面。Web2.0用戶體驗(yàn)、集體智慧等特點(diǎn)決定了Web2.0信息具有非權(quán)威性，對采集到的Web2.0信息的甄別也是信息檢索的一個(gè)重要內(nèi)容。培養(yǎng)用戶的信息素質(zhì)，提高其信息意識(shí)、信息能力，也是有效檢索Web2.0信息的一個(gè)重要方面。首先，提高用戶的信息意識(shí)，使其認(rèn)識(shí)到自己是一個(gè)積極的“尋獵者”而非被動(dòng)的“檢索者”，培養(yǎng)其敏銳的洞察力；其次，培養(yǎng)用戶的信息能力，增強(qiáng)其判斷、分析、查找、整理、利用信息的能力，合理有效地利用好Web2.0網(wǎng)絡(luò)所包含的信息。

4.5 完善網(wǎng)絡(luò)信息呈繳制度

從網(wǎng)絡(luò)信息生產(chǎn)的趨勢看，很多價(jià)值高、規(guī)模大的信息存在于網(wǎng)絡(luò)社區(qū)等數(shù)據(jù)庫中，而現(xiàn)在大部分的網(wǎng)絡(luò)機(jī)器人無法對Web2.0網(wǎng)絡(luò)中的Flash和Script等動(dòng)態(tài)網(wǎng)頁和數(shù)據(jù)庫進(jìn)行采集。為了解決這一問題，很多國家的網(wǎng)絡(luò)信息資源保存機(jī)構(gòu)開始采用制度和技術(shù)兩種手段并重的方式保障Web2.0信息資源的采集和保存。在網(wǎng)絡(luò)環(huán)境下，由圖書館、檔案館等保存機(jī)構(gòu)與網(wǎng)絡(luò)出版機(jī)構(gòu)進(jìn)行協(xié)商，將呈繳本制度擴(kuò)展到網(wǎng)絡(luò)領(lǐng)域，出版社根據(jù)協(xié)議定期將被選擇的網(wǎng)絡(luò)信息通過物理載體移交或網(wǎng)絡(luò)傳遞給保存機(jī)構(gòu)，或者是保存機(jī)構(gòu)根據(jù)協(xié)商從出版社網(wǎng)站上進(jìn)行鏡像復(fù)制或直接使用軟件獲取。通過呈繳的方法，可以保證所采集Web2.0信息的相對完整性，同時(shí)也避免搜索引擎在采集過程中遭遇的技術(shù)、法律等障礙。

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索中相關(guān)反饋技術(shù)的Java實(shí)現(xiàn)

提要：介紹了相關(guān)反饋技術(shù)的基本思想，設(shè)計(jì)了網(wǎng)絡(luò)信息檢索中相關(guān)反饋系統(tǒng)的功能與結(jié)構(gòu)，探索如何在現(xiàn)有的公共網(wǎng)絡(luò)搜索引擎基礎(chǔ)上，利用Java語言實(shí)現(xiàn)具有相關(guān)反饋功能的搜索引擎接口。

關(guān)鍵詞：相關(guān)反饋；搜索引擎；信息檢索；Java

相關(guān)反饋（Relative Feedback）技術(shù)是近年來信息檢索領(lǐng)域的一項(xiàng)熱門技術(shù)，它利用用戶的反饋信息來研究用戶需求，力求達(dá)到檢索結(jié)果與檢索要求之間的最佳匹配。一些著名的檢索系統(tǒng)如：WAIS、SMART等，很早就應(yīng)用了該項(xiàng)技術(shù)，并取得了良好的效果。但是目前相關(guān)反饋技術(shù)在因特網(wǎng)信息檢索中的應(yīng)用卻并不多見，大部分的搜索引擎都沒有提供用戶反饋機(jī)制。因此本文將從網(wǎng)絡(luò)信息檢索出發(fā)，就如何利用Java語言實(shí)現(xiàn)基本的相關(guān)反饋功能作一些探討。

1 設(shè)計(jì)思想和系統(tǒng)結(jié)構(gòu)

相關(guān)反饋技術(shù)的研究對象主要是用戶的查詢要求，在一般的網(wǎng)絡(luò)搜索引擎中，通常先由用戶輸入查詢詞，再尋找與這些查詢詞相匹配的信息記錄。但是，用簡單的查詢詞來表達(dá)查詢要求并非易事。網(wǎng)絡(luò)搜索引擎的絕大部分普通用戶在檢索的初始階段時(shí)常常會(huì)“詞不達(dá)意”，只有在查看過檢索結(jié)果后，才會(huì)意識(shí)到真正需要哪些查詢詞。但是，一般的網(wǎng)絡(luò)搜索引擎在用戶輸入查詢詞后就不再與用戶進(jìn)行交互，因此無法進(jìn)一步提高相關(guān)性。如果應(yīng)用了相關(guān)反饋技術(shù)，用戶就可以從檢索結(jié)果中選擇出相關(guān)的信息，系統(tǒng)對這些信息進(jìn)行分析，計(jì)算出最能夠表達(dá)這些信息內(nèi)容的標(biāo)引詞，由于這些標(biāo)引詞是從用戶認(rèn)為符合其要求的信息中提煉出來的，因此在一定程度上反應(yīng)了查詢要求。如果將這些標(biāo)引詞有選擇的作為查詢詞加入到查詢式，就有可能提高查詢式表述查詢要求的準(zhǔn)確程度。

為了以較小的代價(jià)實(shí)現(xiàn)相關(guān)反饋的功能，本文中的系統(tǒng)將被設(shè)計(jì)成為一個(gè)介于用戶和公共網(wǎng)絡(luò)搜索引擎之間的接口。它的主要功能是接收用戶的查詢式并提交給搜索引擎，然后將搜索引擎返回的結(jié)果顯示給用戶進(jìn)行選擇，根據(jù)用戶選擇的相關(guān)信息計(jì)算新的查詢式，經(jīng)用戶確認(rèn)后再次提交給搜索引擎，如此反復(fù)，直至用戶獲得滿意的結(jié)果為止。

根據(jù)其設(shè)計(jì)目的，本系統(tǒng)可以由如下幾個(gè)功能模塊組成：分詞模塊、權(quán)值計(jì)算模塊、查詢式修改模塊、數(shù)據(jù)庫讀寫模塊和用戶界面。系統(tǒng)結(jié)構(gòu)如圖1所示。

2 實(shí)現(xiàn)方法

本系統(tǒng)采用Java語言進(jìn)行設(shè)計(jì)，設(shè)計(jì)環(huán)境是Window操作系統(tǒng)，開發(fā)工具選用JBuilder企業(yè)版，公共網(wǎng)絡(luò)搜索引擎選用“百度網(wǎng)頁搜索引擎”（）。

本系統(tǒng)的數(shù)據(jù)庫管理工具選用Microsoft Access。數(shù)據(jù)庫中的數(shù)據(jù)包括：檢索結(jié)果記錄、標(biāo)引詞和查詢詞。因此數(shù)據(jù)庫FBDB（feedback database）可以由SearchResult、WordDictionary和QueryItem三個(gè)表組成，表中的字段及數(shù)據(jù)類型如表中。

下面對系統(tǒng)中的幾個(gè)主要功能模塊的實(shí)現(xiàn)方法進(jìn)行討論。

2.1 分詞模塊的實(shí)現(xiàn)

分詞模塊從SearchResult中讀出相關(guān)的檢索結(jié)果的內(nèi)容（一段文本），分割成單個(gè)的標(biāo)引詞，并在WordDictionary中為每個(gè)標(biāo)引詞建立一條記錄。

本系統(tǒng)中的分詞函數(shù)庫采用的是東北大學(xué)計(jì)算機(jī)科學(xué)研究所中文信息處理實(shí)驗(yàn)室研究開發(fā)的詞性標(biāo)注函數(shù)庫（CipPos-SDK Ver1.01）(研究版)。由于該函數(shù)庫采用C++語言開發(fā)，提供了動(dòng)態(tài)函數(shù)庫文件（CipPosSDK.dll、CipPosSDK.lib、CipPosDll.h），因此在本系統(tǒng)中使用時(shí)，必須利用JNI（Java Native Interface）實(shí)現(xiàn)Java和C++的接口。

利用上面代碼可以同時(shí)實(shí)現(xiàn)分詞和標(biāo)注詞性的功能，例如：傳入文本“中文信息智能處理軟件開發(fā)”，函數(shù)將返回“中文(n)信息(n)智能(n)處理(v)軟件(n)開發(fā)(v)”，其中括號(hào)中的英文字母代表該詞的詞性，如n代表名詞，v代表動(dòng)詞。分詞完成后，對新字符串進(jìn)行解析，根據(jù)詞性去除掉沒有實(shí)際意義的詞，再將剩下的標(biāo)引詞和它的詞性、所在的檢索結(jié)果記錄號(hào)一起組成一條記錄，存入WordDictionary表中。

2.2 權(quán)值計(jì)算模塊的實(shí)現(xiàn)

權(quán)值代表了標(biāo)引詞與查詢要求之間的相關(guān)程度。一般權(quán)值越大的詞，就越能反應(yīng)查詢要求，也就越有可能被選擇作為新的查詢詞，因此權(quán)值的計(jì)算是相關(guān)反饋中的重要環(huán)節(jié)。計(jì)算權(quán)值的算法有很多，本系統(tǒng)中將某個(gè)標(biāo)引詞在相關(guān)信息中出現(xiàn)的總次數(shù)作為其權(quán)值，主要是利用JDBC和SQL語句對WordDictionary表進(jìn)行詞頻統(tǒng)計(jì)，并將頻度最大的5個(gè)詞作為查詢詞，記錄到QueryItem表中。

2.3 查詢式修改模塊的實(shí)現(xiàn)

對查詢式的修改就是將新的查詢詞添加到查詢式中，或者是將無用的查詢詞去掉的過程。在本系統(tǒng)中，用戶可以通過用戶界面選擇是否將某一查詢詞加入到查詢式中，還可以手工輸入新的查詢詞或去掉已有的查詢詞。

由于本系統(tǒng)是用戶和網(wǎng)易搜索引擎間的一個(gè)接口，因此查詢式是以URL的形式發(fā)送到網(wǎng)易的搜索頁面的，例如：要檢索“中國對保護(hù)環(huán)境的政策”，查詢詞是“中國”、“保護(hù)”、“環(huán)境”和“政策”，URL是“///s?wd=中國+保護(hù)+環(huán)境+政策”，因此修改查詢式的過程就是生成新的URL的過程。

2.4 用戶界面的實(shí)現(xiàn)

本系統(tǒng)的用戶界面利用JBuilder的可視化開發(fā)環(huán)境設(shè)計(jì)，用戶可以通過它輸入查詢式、查看結(jié)果、選擇相關(guān)信息和選擇查詢詞，并隨時(shí)可以打開Internet Explorer查看結(jié)果網(wǎng)頁。具體實(shí)現(xiàn)方法同其他的視窗環(huán)境下的Java程序大同小異，故此不再贅述。

3 結(jié)論

本系統(tǒng)實(shí)現(xiàn)了相關(guān)反饋的基本功能，增強(qiáng)了搜索引擎和用戶之間的交互，可以一定程度上幫助用戶更準(zhǔn)確地表達(dá)查詢要求，以檢索“到武漢中山公園的行車路線”為例，初始查詢式為“武漢中山公園路線”，經(jīng)過相關(guān)反饋后，系統(tǒng)返回“公汽”、“地址”、“乘車”、“公交”、“旅游”等新的查詢詞，選擇添加“公交”、“地址”，并去掉“路線”，再次檢索后系統(tǒng)返回的結(jié)果減少了，但是精度卻提高了。

應(yīng)該指出的是，本系統(tǒng)旨在驗(yàn)證網(wǎng)絡(luò)檢索中相關(guān)反饋技術(shù)的可實(shí)現(xiàn)性，著眼于基本架構(gòu)和基本思想。事實(shí)上，在此基礎(chǔ)上還有很多可以改進(jìn)的地方，比如：對于權(quán)值的計(jì)算，可以利用許多更精確的算法，如tf-idf算法。另外本系統(tǒng)中只考慮了相關(guān)文獻(xiàn)，而實(shí)際上，不相關(guān)文獻(xiàn)的選擇也可以反映查詢要求。針對這些問題，在今后的研究中將對系統(tǒng)模型做進(jìn)一步的完善，以更好的發(fā)揮相關(guān)反饋技術(shù)的作用。

網(wǎng)絡(luò)信息檢索論文:關(guān)于網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索發(fā)展

摘要：數(shù)字圖書館是計(jì)算機(jī)領(lǐng)域綜合發(fā)展重要成果，它實(shí)現(xiàn)了文獻(xiàn)信息的整合和優(yōu)化，提高了信息查詢的效率和實(shí)用性，促進(jìn)信息的傳播和共享。

關(guān)鍵詞：數(shù)字圖書館；信息檢索；網(wǎng)絡(luò)環(huán)境

隨著信息時(shí)代的來臨，信息的重要性日益突出，計(jì)算機(jī)技術(shù)的發(fā)展，為數(shù)字圖書館的發(fā)展和普及提供了良好的環(huán)境，數(shù)字圖書館正朝著多樣化、個(gè)性化和智能化的方向發(fā)展，為人們檢索信息和文獻(xiàn)提供了極大的便利。

一、數(shù)字圖書館

數(shù)字圖書館是以計(jì)算機(jī)技術(shù)為支持，實(shí)現(xiàn)圖書文獻(xiàn)資源存儲(chǔ)和處理、信息整合的新型圖書館。數(shù)字圖書館的建設(shè)基本包括如下幾個(gè)環(huán)節(jié)：（1）加工和存儲(chǔ)。數(shù)字圖書館將圖書資源信息整合到自身的圖書館數(shù)據(jù)資源庫中，并發(fā)展了多樣性的存儲(chǔ)方式，提供不同的數(shù)據(jù)處理方法，方便用戶對信息檢索的需求。（2）檢索和傳輸。用戶根據(jù)自己的需要，在數(shù)字圖書館中檢索文獻(xiàn)和信息，系統(tǒng)在圖書館數(shù)據(jù)資源庫中迅速反應(yīng)，整合資源，對用戶所需信息進(jìn)行傳遞，具有及時(shí)性和有針對性。整個(gè)過程都對計(jì)算機(jī)技術(shù)和軟件有很強(qiáng)的依賴性，日益發(fā)展的計(jì)算機(jī)技術(shù)讓數(shù)字圖書館的功能日益強(qiáng)大，為讀者提供更多更便捷的服務(wù)。

二、數(shù)字圖書館信息檢索的過程

（1）確定檢索要求：包括學(xué)科、時(shí)間、文獻(xiàn)類型等方面。（2）選擇信息檢索系統(tǒng)：選擇貼近個(gè)人所需、收錄相關(guān)文獻(xiàn)的檢索系統(tǒng)。（3）確定檢索關(guān)鍵詞：使用規(guī)范的檢索詞，應(yīng)該以所需文獻(xiàn)內(nèi)容的主要內(nèi)容詞匯為主要檢索詞，提高檢索篩選的效率。（4）確定檢索策略：在進(jìn)行檢索之前，要熟悉檢索系統(tǒng)的性能，以用戶所需內(nèi)容和要求為參照進(jìn)行準(zhǔn)確輸入。（5）檢索結(jié)果的處理：根據(jù)用戶檢索的需求進(jìn)行匹配，輸出符合需求的內(nèi)容。（6）獲取原始文件：獲取原始文件有多種方式，信息檢索數(shù)據(jù)可以幫助用戶更迅速獲得大量原始文件。

三、網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索的發(fā)展現(xiàn)狀

數(shù)字圖書館正處于不斷發(fā)展當(dāng)中，計(jì)算機(jī)技術(shù)的突破和發(fā)展也為數(shù)字圖書館的建設(shè)提供了技術(shù)支持，提高了搜索的速度和準(zhǔn)確性，但是也應(yīng)該看到，仍然有很多問題限制了信息檢索的效率。

（一）信息檢索效率低下

信息分散性是提高檢索效率的一大障礙，網(wǎng)絡(luò)內(nèi)容龐雜分散，信息系統(tǒng)難以一次性定位準(zhǔn)確的內(nèi)容，人們需要反復(fù)檢索同一內(nèi)容才能獲得符合需求的內(nèi)容。部分網(wǎng)站通過標(biāo)題吸引但是內(nèi)容不符方式來提高網(wǎng)頁點(diǎn)擊量，妨礙了信息檢索的效率的提高。

（二）檢索對象范圍受限

隨著信息時(shí)代的發(fā)展，人們對文獻(xiàn)信息的需求量也不斷加大，但是互聯(lián)網(wǎng)在處理音頻和視頻等文件形式的檢索上仍存在技術(shù)缺陷，無法滿足日益增長的需求，這也就造成了對這些文件檢索上的困難，導(dǎo)致了檢索效率的低下。

（三）信息覆蓋率有限

隨著對文獻(xiàn)需求的加大，人們要求信息艘若的覆蓋面也不斷加大，但是實(shí)際情況是，檢索范圍和信息更新速度總是難以跟上用戶需求的增長。

（四）檢索功能單一

計(jì)算機(jī)技術(shù)雖然極大的促進(jìn)了數(shù)字圖書館的發(fā)展，但是信息檢索功能仍然比較單一化，無法為用戶提供精確的信息檢索服務(wù)。

（五）缺乏個(gè)性化服務(wù)

隨著時(shí)代的發(fā)展，人們對個(gè)性化的要求越來越高，這與目前數(shù)字圖書館信息提供缺乏個(gè)性化形成了巨大的矛盾，搜索引擎職能提供大量但卻與用戶需求匹配不高的內(nèi)容，用戶需要花費(fèi)大量時(shí)間重新在其中進(jìn)行選擇，不利于用戶及時(shí)獲得有效信息。

四、網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索的發(fā)展趨勢

數(shù)字圖書館的重要性不斷凸顯，這項(xiàng)工程的發(fā)展也帶來了很多衍生產(chǎn)品，圖書館信息檢索技術(shù)日益向多功能、智能化和個(gè)性化方向發(fā)展，不斷提高檢索的效率和便捷服務(wù)。

（一）信息檢索的智能化

信息檢索的智能化的主要形式是自然語言檢索和可視化檢索。計(jì)算機(jī)軟件根據(jù)用戶輸入的關(guān)鍵詞，在搜索出來的信息基礎(chǔ)上分類加工，選擇出更貼近用戶需求的信息。智能化建立在多個(gè)專家系統(tǒng)基礎(chǔ)上進(jìn)行檢索，結(jié)合律人工智能與檢索技術(shù)，提高了檢索效率。

（二）信息檢索服務(wù)多樣化

信息檢索將突破原來的單一化方式，逐步向多樣化發(fā)展。隨著信息檢索服務(wù)的普及，信息共享也不斷提升，信息檢索將不斷融合多種功能，包括文獻(xiàn)檢索功能和文獻(xiàn)提供功能等，不斷完善檢索體系。另外，信息服務(wù)也將趨于集中化，提供更全面豐富的信息資源，可以滿足不同用戶的需求。同時(shí)，信息檢索服務(wù)的質(zhì)量也不斷得到提高，更加凸顯個(gè)性化服務(wù)。

（三）網(wǎng)絡(luò)虛擬信息的組織與管理

數(shù)字圖書館擁有大量的信息資源，這些資源具有數(shù)量龐大、分散、種類多等特點(diǎn)，這對用戶篩選和整理信息造成了一定的妨礙，所以信息的組織和管理就顯得更加重要。準(zhǔn)確定位有效信息是用戶對數(shù)字圖書館的期待，所以網(wǎng)絡(luò)虛擬信息的管理和組織應(yīng)該努力解決這一問題，讓用戶在更短的時(shí)間內(nèi)完成信息的檢索和整合，提供貼近用戶需求的資源。

五、結(jié)語

通過上述論述，我們可以知道，數(shù)字圖書館在當(dāng)今時(shí)代扮演著越來越重要的角色，信息時(shí)代的發(fā)展也對數(shù)字圖書館的建設(shè)提出了更多的要求，而檢索服務(wù)是用戶使用這一資源的通道，我們應(yīng)該關(guān)注目前檢索服務(wù)所存在的問題，把握檢索服務(wù)智能化、網(wǎng)絡(luò)化、多樣化和個(gè)性化的發(fā)展趨勢，不斷提高數(shù)字圖書館的服務(wù)水平，滿足不同層次客戶的不同需求，充分發(fā)揮數(shù)字圖書館的信息提供功能，促進(jìn)我國信息社會(huì)的發(fā)展。

相關(guān)文章

優(yōu)秀范文