0
首頁 公文范文 網(wǎng)絡(luò)信息檢索論文

網(wǎng)絡(luò)信息檢索論文

發(fā)布時(shí)間:2022-05-05 10:46:22

開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的1篇網(wǎng)絡(luò)信息檢索論文,希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。

網(wǎng)絡(luò)信息檢索論文

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索研究論文

[摘要]搜索引擎是人們使用Internet信息資源的重要工具。本文對目前的中文搜索引擎進(jìn)行了簡要的分析,指出了其存在的缺陷和發(fā)展的方向。

[關(guān)鍵詞]信息檢索中文搜索引擎存在的問題發(fā)展方向

隨著Internet信息資源的迅速增長,如何在浩瀚的信息海洋中準(zhǔn)確、方便、快速地找到自己所需的信息,成了迫切需要解決的問題,從1995年開始出現(xiàn)的信息檢索工具——搜索引擎很好地解決了這一問題。然而各種搜索引擎,特別是尚處于發(fā)展初期的中文搜索引擎還存在著很多的缺陷有待改進(jìn),本文旨在分析目前中文搜索引擎存在的主要問題,并為解決此類問題提出一些建議和方法。

一、搜索引擎的概念和及類型

搜索引擎又稱檢索引擎,是指運(yùn)行在Internet上,以信息資源為對象,以信息檢索的方式為用戶提供所需數(shù)據(jù)的服務(wù)系統(tǒng),主要包括信息存取、信息管理和信息檢索三大部分。

目前,中文搜索引擎主要有三種類型:目錄式搜索引擎、機(jī)器人搜索引擎(又稱全文搜索引擎)和元搜索引擎。

1.目錄式搜索引擎。目錄式搜索引擎是以人工或半人工方式收集信息,建立數(shù)據(jù)庫,由編輯人員在訪問了某個(gè)web站點(diǎn)后,對該站點(diǎn)進(jìn)行描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,其搜索的準(zhǔn)確度較高,導(dǎo)航質(zhì)量也不錯(cuò)。但因其人工的介入,維護(hù)量大,信息量少,信息更新不及時(shí)都使得人們利用它的程度有限。國內(nèi)著名的新浪、搜狐、中文雅虎都屬于這種類型。

2.機(jī)器人搜索引擎。這是一種目前運(yùn)用較廣泛的搜索引擎。國內(nèi)以百度,google、天網(wǎng)為代表。它是使用自動(dòng)采集軟件Robot,搜集和發(fā)現(xiàn)信息,并下載到本地文檔庫,再對文檔內(nèi)容進(jìn)行自動(dòng)分析并建立索引。對于用戶提出的檢索要求,通過檢索模塊檢索索引,找出匹配文檔返回給用戶。

機(jī)器人搜索引擎具有龐大的全文索引數(shù)據(jù)庫。其優(yōu)點(diǎn)是信息量大,范圍廣,較適用于檢索難以查找的信息或一些較模糊的主題。缺點(diǎn)是缺乏清晰的層次結(jié)構(gòu),檢索結(jié)果重復(fù)較多,需要用戶自己進(jìn)行篩選。

3.元搜索引擎。元搜索引擎是一種調(diào)用其他搜索引擎的引擎。它是通過一個(gè)統(tǒng)一的用戶界面,幫助用戶在多個(gè)搜索引擎中選擇和利用合適的搜索引擎來實(shí)現(xiàn)檢索。中文元搜索引擎開發(fā)較少,較成熟的則更少,萬緯搜索是目前有一定影響的中文元搜索引擎。

二、現(xiàn)階段中文搜索引擎存在的主要問題

1.信息覆蓋面有限。現(xiàn)階段搜索引擎所覆蓋的數(shù)據(jù)庫的規(guī)模是非常有限的,據(jù)美國科學(xué)期刊Natures一篇報(bào)告中稱,全球最大的搜索引擎也只能覆蓋現(xiàn)有網(wǎng)頁的16%。中文搜索引擎因起步慢、中文信息所占互聯(lián)網(wǎng)全部信息的比例小(只占全部網(wǎng)絡(luò)信息的5%)等原因在這方面尤為突出。

2.查全率不高。查全率是指檢索出的相關(guān)信息量與存儲(chǔ)在檢索系統(tǒng)中的全部相關(guān)信息量的百分比,是判斷檢索系統(tǒng)質(zhì)量的度量之一。

國內(nèi)絕大多數(shù)的網(wǎng)站組織的信息大多都是通過瀏覽方式獲得內(nèi)容。即使是經(jīng)過精心組織、編排非常合理的網(wǎng)站,也會(huì)有70%~80%的網(wǎng)頁不能被搜索引擎檢索到。中文目錄式搜索引擎因需人工介入、維護(hù)量大,在這方面表現(xiàn)較明顯。

3.查準(zhǔn)率較低。查準(zhǔn)率更是判斷檢索系統(tǒng)質(zhì)量的重要尺度。是指系統(tǒng)所檢索到的真正與查詢內(nèi)容相關(guān)的文檔占檢索出的所有文檔數(shù)的百分比。

造成查準(zhǔn)率低的原因是,部分搜索引擎的分類體系與科學(xué)知識(shí)體系之間缺乏內(nèi)在聯(lián)系;類目之間邏輯關(guān)系模糊,導(dǎo)致檢索路徑與搜索引擎類目錯(cuò)位;信息加工深度不夠;檢索功能單一;檢索詞的專指性較差;大部分的檢索結(jié)果是題錄式而非全文式,其內(nèi)容簡單等等。機(jī)器人搜索引擎的分類和索引缺乏人工的參與,其查準(zhǔn)率不如目錄式搜索引擎,且檢索結(jié)果中還含有大量的重復(fù)、虛假的信息。

4.專業(yè)性的搜索引擎發(fā)展遲緩。專業(yè)性的搜索引擎是為專門收錄某一行業(yè),某一主題的信息而建立,能夠提供專題信息查詢服務(wù)的搜索引擎。目前中文搜索引擎大多是綜合性的,能同時(shí)收錄各行業(yè)、各學(xué)科的多種信息,但在反映某一行業(yè)或某一專題的信息方面很難做到全面、精確,不能給用戶提供特定的信息服務(wù)。這就使得專業(yè)人員,特別是某一領(lǐng)域的學(xué)者、專家不愿意利用中文搜索引擎去查詢資料。

5.檢索功能方面存在缺陷。一是檢索中符合布爾邏輯運(yùn)算符的搜索引擎極為有限;二是關(guān)鍵詞檢索輸出的結(jié)果相關(guān)度排序方式雜亂,不能根據(jù)用戶需要來選擇信息輸出的方式;三是多數(shù)的搜索引擎是面向主題搜索不是面向用戶搜索,不能重復(fù)利用用戶檢索過的成果,更不能對特定的用戶進(jìn)行定題跟蹤服務(wù);四是檢索網(wǎng)站的主頁不規(guī)范,有些太簡,有些又太繁,而且廣告內(nèi)容太多,無法進(jìn)行有效檢索。三、中文搜索引擎的發(fā)展方向

1.提高查全率。首先是需要開發(fā)分布式的系統(tǒng)。這種系統(tǒng)可以把各個(gè)接點(diǎn)當(dāng)作是新的信息資源,擴(kuò)大數(shù)據(jù)庫的規(guī)模,正在興起的元搜索引擎屬于這種系統(tǒng),它在接受了用戶的查詢命令后,可同時(shí)用多個(gè)搜索引擎進(jìn)行查詢;二是把專業(yè)數(shù)據(jù)庫資源納入自己的檢索范圍。除了Web信息資源外,網(wǎng)上還有大量的非Web信息資源,如聯(lián)機(jī)檢索系統(tǒng)、光盤檢索系統(tǒng)、專業(yè)數(shù)據(jù)庫系統(tǒng)。如中文搜索引擎能把這些Web和非Web資源結(jié)合起來使用,即使有的只能查到題錄、文摘等內(nèi)容,也大大擴(kuò)展了檢索范圍,能為用戶提供較全面的檢索需求。

2.提高查準(zhǔn)率。需解決以下幾個(gè)難關(guān):首先需提高搜索引擎的信息過濾功能。在對網(wǎng)絡(luò)信息進(jìn)行集中的搜集之后,搜索引擎還需對這些信息進(jìn)行鑒別和過濾,即剔除大量的無用信息,而把有效的信息提煉出來并加以聚集;第二則是需對專家過濾后的信息進(jìn)行一定的檢索標(biāo)引,并給予相關(guān)的標(biāo)識(shí)符號(hào),如關(guān)鍵詞、分類號(hào)、主題詞等各種標(biāo)識(shí),其關(guān)鍵是利用智能檢索技術(shù),提高準(zhǔn)確性;把檢索的結(jié)果存儲(chǔ)在相應(yīng)的數(shù)據(jù)庫中,并由URL與Internet建立鏈接供用戶使用;還需注意信息定期更新,以保證信息的新穎性和鏈接的可靠性。

3.建立垂直化專業(yè)領(lǐng)域的搜索引擎。網(wǎng)絡(luò)用戶所從事的職業(yè)千差萬別,不同的用戶對信息搜索往往有不同的要求。綜合性的搜索引擎收錄的范圍太廣、太大無法滿足某一特定的需求。垂直化專業(yè)搜索引擎則可解決這一難題。它只面向某一特定的領(lǐng)域,專注于自己的特長和優(yōu)秀技術(shù),能保證對該領(lǐng)域的信息的收錄齊全與更新迅速。在提供專業(yè)信息方面有著大型綜合搜索引擎無法比擬的優(yōu)勢,所采用的技術(shù)都是些較成熟的技術(shù)。

中文垂直化專業(yè)搜索引擎的發(fā)展已取得了一定的成功,如新浪的新聞搜索,博客搜索、雅虎的個(gè)性化旅行路線搜索、百度的MP3搜索、Google的學(xué)術(shù)搜索,航班搜索等都為用戶提供了較好的搜索功能,為今后的繼續(xù)發(fā)展奠定了基礎(chǔ)。

4.搜索引擎的智能化發(fā)展。智能搜索引擎是未來搜索引擎的發(fā)展趨勢。可以通過自然語言與用戶交互,最大限度地了解用戶的需求。智能檢索一是表現(xiàn)在搜索引擎技術(shù)的智能化,研究重點(diǎn)放在自然語言處理技術(shù)和人工智能技術(shù)的研究上;另一表現(xiàn)是體現(xiàn)在搜索引擎面向檢索者的智能化,它致力于通過分析檢索者的檢索和瀏覽行為來學(xué)習(xí)檢索者的需求,利用搜索引擎現(xiàn)有的服務(wù)有選擇地為檢索者提供個(gè)性化的服務(wù)。

5.加強(qiáng)搜索引擎的檢索功能。首先需強(qiáng)化全文檢索功能。利用Robot實(shí)現(xiàn)對站點(diǎn)頁面文字內(nèi)容的全面檢索技術(shù)。比起目錄檢索,全文檢索提供了全新的檢索功能,可以直接根據(jù)文獻(xiàn)資料的內(nèi)容進(jìn)行檢索,支持多角度、多側(cè)面地綜合利用信息資源,全面、準(zhǔn)確、快速是衡量全文檢索系統(tǒng)的關(guān)鍵指標(biāo);同時(shí)改善用戶檢索界面,設(shè)計(jì)簡潔、明白的界面引導(dǎo)用戶進(jìn)入檢索狀態(tài);更方便、實(shí)用的檢索技巧的利用,中文搜索引擎需簡化和統(tǒng)一語法規(guī)則,如布爾邏輯檢索符號(hào)的利用:空格或“*”代替“與”、“+”代替“或”、“-”代替“非”,規(guī)范語法符號(hào),節(jié)省用戶的檢索時(shí)間;還需研發(fā)查詢圖像、聲音、圖片和電影的搜索引擎。

6.完善元搜索引擎。元搜索引擎彌補(bǔ)了獨(dú)立搜索引擎不全的特點(diǎn),提高了檢索的全面性。現(xiàn)開發(fā)出的中文元搜索引擎的數(shù)目很少,還有諸多缺陷,需在各方面進(jìn)一步改進(jìn)。

元搜索引擎要對各獨(dú)立的信息特色進(jìn)行較細(xì)致的調(diào)查,以確定自己要收錄的范圍;在對目標(biāo)搜索引擎的組織中突出獨(dú)立搜索引擎的檢索特色,并設(shè)計(jì)各搜索引擎之間的檢索方式的轉(zhuǎn)換算法,提高用戶檢索行為的針對性;建立更為靈活的,面向用戶的信息檢索服務(wù)。檢索界面要統(tǒng)一和友好,檢索方法的設(shè)置要提供給用戶更多的自由空間,使用戶可以按照自己的意愿合理的組織檢索式;在檢索結(jié)果的顯示中要開發(fā)出一個(gè)有效的檢索結(jié)果去重、選擇、排序和優(yōu)化算法,這是中文搜索引擎開發(fā)中的一個(gè)重點(diǎn)和難點(diǎn)。

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索淺談

1 引言

所謂信息檢索(Information Retrieval),廣義地說,是指將信息按照一定的方式組織和存儲(chǔ)起來,并能根據(jù)信息用戶的需要指出其中相關(guān)信息的過程,因此它的全稱叫“信息存儲(chǔ)與檢索”(Information Storage and Retrieval)。狹義的信息檢索則僅指該過程的后半部分,即主要是如何從存儲(chǔ)的信息集合中找出所需要的信息的過程,相當(dāng)于人們通常所說的信息查詢(Information Search)。

進(jìn)入20世紀(jì)90年代以后,互聯(lián)網(wǎng)的發(fā)展風(fēng)起云涌,人類社會(huì)的信息化、網(wǎng)絡(luò)化進(jìn)程大大加快。與之相適應(yīng)的信息檢索的交流平臺(tái)也迅速轉(zhuǎn)移到以WWW為優(yōu)秀的網(wǎng)絡(luò)應(yīng)用環(huán)境中,信息檢索步入網(wǎng)絡(luò)化時(shí)代,網(wǎng)絡(luò)信息檢索已基本取代了手工檢索。

2 網(wǎng)絡(luò)環(huán)境下信息檢索的特點(diǎn)

2.1信息檢索的范圍不斷拓寬

因特網(wǎng)本身就是由分布在全球的各個(gè)計(jì)算機(jī)網(wǎng)絡(luò)組成的一個(gè)“網(wǎng)際網(wǎng)”,它跨越了地域的界限,真正實(shí)現(xiàn)了全球化連接,是一個(gè)全球性的網(wǎng)絡(luò)。其信息資源分布在世界各地的服務(wù)器上,各類信息資源通過網(wǎng)絡(luò)互聯(lián),實(shí)現(xiàn)了全球范圍的共享,可供檢索的資源包括大量的主頁、多種報(bào)紙期刊全文、各種組織機(jī)構(gòu)的信息以及原始技術(shù)報(bào)告、各類數(shù)據(jù)庫等,人們可以隨時(shí)進(jìn)行文獻(xiàn)、數(shù)據(jù)、圖片等資源的檢索,以獲取所需的信息。網(wǎng)絡(luò)信息資源分布及服務(wù)的全球化,極大地?cái)U(kuò)展了網(wǎng)絡(luò)信息檢索的空間和范圍。

2.2信息檢索手段更加容易

隨著網(wǎng)絡(luò)和計(jì)算機(jī)的普及,信息檢索用戶逐漸由專業(yè)人員向個(gè)人用戶轉(zhuǎn)移,這就決定了大部分信息檢索用戶不可能像圖書情報(bào)專業(yè)的專業(yè)人員那樣熟練地使用主題詞、分類號(hào)、邏輯組合等嚴(yán)格的專業(yè)查詢語言來檢索網(wǎng)上的信息資源。而互聯(lián)網(wǎng)良好的“人-機(jī)”會(huì)話界面、強(qiáng)大的搜索引擎和方便的幫助支持系統(tǒng),不需要用戶花太多時(shí)間去學(xué),只要掌握一些簡單的檢索方法和技巧就可以檢索自己需要的信息,使用起來簡單、方便。

2.3信息檢索的途徑更加靈活

網(wǎng)上信息種類繁多,因此用戶可以根據(jù)需要從多種載體、多種角度進(jìn)行檢索,如可以利用搜索引擎從網(wǎng)站、網(wǎng)頁等各種途徑檢索自己所需的信息。另外,在專門的數(shù)據(jù)庫檢索系統(tǒng)中,多提供標(biāo)題、作者、機(jī)構(gòu)、刊名、關(guān)鍵詞等檢索途徑,用戶可以根據(jù)需要靈活選擇,可以大大提高檢索效率。

3 網(wǎng)絡(luò)環(huán)境下信息檢索的發(fā)展趨勢

隨著計(jì)算機(jī)的普及,以及計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)及數(shù)字化技術(shù)的發(fā)展,網(wǎng)絡(luò)信息檢索將越來越受到廣大用戶的青睞及廣泛應(yīng)用,這也就決定了網(wǎng)絡(luò)信息檢索必將朝著智能化、可視化、多樣化方向發(fā)展。

3.1智能化

智能化將是網(wǎng)絡(luò)信息檢索發(fā)展的主要方向。因?yàn)橹悄軝z索是基于自然語言的檢索形式,可以用自然語言和用戶交互,采用諸如語義網(wǎng)絡(luò)、框架等各種知識(shí)方法來充分體現(xiàn)各個(gè)主題概念和標(biāo)識(shí)之間的關(guān)系,還可進(jìn)一步在知識(shí)層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關(guān)同級(jí)詞典形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),給予用戶智能知識(shí)提示。另外,智能檢索還包括歧義信息的檢索處理,甚至還能體會(huì)用戶的言外之意,最終幫助用戶獲得最佳的檢索結(jié)果。

3.2可視化

可視化指的是運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。據(jù)統(tǒng)計(jì),人獲取信息有70―80%靠視覺,20%靠聽覺,10%靠觸覺。用圖像取代文字幫助人們檢索的優(yōu)點(diǎn)在于:圖像的表達(dá)更生動(dòng)、形象、準(zhǔn)確,效率更高,具有交互性、多維性、可視性等特點(diǎn),可以大大加快檢索速度,使時(shí)刻都在產(chǎn)生的海量數(shù)據(jù)得到有效利用。

3.3多樣化

首先表現(xiàn)在可以檢索的信息形態(tài)多樣化,如文本、聲音、圖像、動(dòng)畫等。目前網(wǎng)絡(luò)信息檢索的主體仍是文本信息,基于內(nèi)容的檢索技術(shù)和語音識(shí)別技術(shù)的發(fā)展,將使多媒體信息的檢索變得逐漸普遍。其次表現(xiàn)在檢索工具的服務(wù)多元化。網(wǎng)上檢索工具已不僅僅是單純的檢索工具,正在向其他服務(wù)范疇擴(kuò)展,例如提供站點(diǎn)評(píng)論、天氣預(yù)報(bào)、新聞報(bào)道、股票點(diǎn)評(píng)、航班和列車時(shí)刻表等多種面向大眾的信息服務(wù)、免費(fèi)電子郵箱等,以多種形式滿足用戶的需要。

4 結(jié)語

21世紀(jì)是信息時(shí)代,網(wǎng)絡(luò)信息資源已成為人們?nèi)粘9ぷ骱蜕畋夭豢扇钡馁Y源。那么,如何在浩如煙海的網(wǎng)絡(luò)信息中,獲取自己所需的信息呢?相信,隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的逐漸普及,網(wǎng)絡(luò)信息檢索會(huì)越來越為人們所熟悉,網(wǎng)絡(luò)信息用戶只需掌握一定的檢索工具的使用方法和技巧,就能迅速地在浩瀚無涯、豐富多彩的海量信息中排除不良信息,過濾出適用信息,花最少的時(shí)間得到最相關(guān)的查詢結(jié)果,輕松獲得所需信息。

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索中堆棧-最大匹配自動(dòng)分詞算法研究

摘要:本文分析了現(xiàn)有分詞算法存在的不足,研究了機(jī)械分詞方法、堆棧技術(shù)理論以及最大匹配法自動(dòng)分詞工作流程,在此基礎(chǔ)上,構(gòu)建了堆棧-最大匹配自動(dòng)分詞模型,詳細(xì)闡述了該模型基本結(jié)構(gòu)和運(yùn)行流程。最后針對該算法,進(jìn)行了簡單舉例分析。

關(guān)鍵詞:堆棧;最大匹配法;分詞算法

自動(dòng)分詞問題是搜索引擎的優(yōu)秀問題,本文針對該問題,在對現(xiàn)有的分詞算法分析研究的基礎(chǔ)上,結(jié)合最大匹配分詞法(MM法)和堆棧技術(shù)理論,提出了堆棧-最大匹配自動(dòng)分詞模型,該分詞算法在對文章中的詞進(jìn)行自動(dòng)切分時(shí),具有良好的效果,實(shí)現(xiàn)了對MM分詞算法的進(jìn)一步改進(jìn)。

一、機(jī)械分詞方法和堆棧技術(shù)理論

機(jī)械分詞方法的思路是先查詞庫進(jìn)行匹配,然后再適當(dāng)利用部分詞法規(guī)則進(jìn)行歧義校正。機(jī)械分詞法之所以稱之為“機(jī)械”,是因?yàn)樗那蟹诌^程是依賴于詞庫進(jìn)行。詞庫中詞條的數(shù)目、詞條的選擇直接影響到最后的分詞效果。機(jī)械分詞法加歧義校正屬于機(jī)械分詞法的一種改進(jìn),它主要利用詞法規(guī)則對歧義進(jìn)行校正,以提高切分精度,事實(shí)證明這種改進(jìn)是有效的,而且這種改進(jìn)最終導(dǎo)致了知識(shí)分詞方法的出現(xiàn)。目前屬于機(jī)械分詞領(lǐng)域的分詞方法主要有:最大匹配法、高頻優(yōu)先分詞法、雙向掃描法等。其中最大匹配分詞法是機(jī)械分詞方法的典型代表。

二、堆棧-最大匹配自動(dòng)分詞模型構(gòu)建

堆棧-最大匹配自動(dòng)分詞技術(shù)主要是結(jié)合最大匹配分詞法和堆棧技術(shù)對文章中的詞進(jìn)行自動(dòng)切分,是對最大匹配法的改進(jìn)。基于最大匹配自動(dòng)分詞的思想,結(jié)合堆棧技術(shù)理論,我們可以得出:最大匹配法重視的是字符長度,如果遇到在分詞過程中后面字符串出現(xiàn)不可分的情況,能自動(dòng)彈棧回退,并且重新檢索出另一個(gè)成功匹配的詞作為分詞結(jié)果,就有可能解決后面字符串不可分的窘境。所以堆棧-最大匹配自動(dòng)分詞模型構(gòu)建基本設(shè)計(jì)思想是:

首先按照文章中的標(biāo)點(diǎn)符號(hào)將文章內(nèi)容切分成語義塊,每個(gè)語義塊就是一個(gè)字符串,針對每一個(gè)字符串作循環(huán)。每次只處理一個(gè)漢字,將該漢字假設(shè)為詞首,并且在詞庫中檢索以該漢字為詞首,檢索該漢字后的字符匹配。根據(jù)檢索出來的詞作為分詞結(jié)果的備選項(xiàng),按長度排列,首先取出長度最長的那個(gè)詞,即最大匹配,假設(shè)這個(gè)詞就是以該漢字為首的分詞結(jié)果,加入到這個(gè)語義塊的分詞結(jié)果棧中,然后繼續(xù)該詞語位置之后的下一個(gè)漢字的處理。在該方法實(shí)現(xiàn)的過程中,筆者將語義塊中已經(jīng)分詞成功的那部分字符串在壓棧的同時(shí),從語義塊中去掉。如果分詞結(jié)果棧中出現(xiàn)分詞歧義需要彈棧時(shí),將彈出的結(jié)果加在原來語義塊字符串的首部。這樣就不需要在每得到一個(gè)分詞結(jié)果后計(jì)算下一個(gè)即將處理的漢字的位置了。

三、堆棧-最大匹配自動(dòng)分詞算法

根據(jù)堆棧-最大匹配自動(dòng)分詞方法的基本思想和模型,形成了相應(yīng)的堆棧最大匹配自動(dòng)分詞算法。堆棧-最大匹配自動(dòng)分詞的優(yōu)秀算法如下:

①在現(xiàn)有的句子中以標(biāo)點(diǎn)符號(hào)為標(biāo)界,且分成多個(gè)語義塊block,存為字符串?dāng)?shù)組;設(shè)置另一個(gè)字符串?dāng)?shù)組result,存放單個(gè)block的分詞結(jié)果;設(shè)整型數(shù)組undone,用來記錄不可分的漢字的出現(xiàn)位置。②循環(huán)字符串?dāng)?shù)組,對數(shù)組中每個(gè)語義塊block進(jìn)行步驟③,直到整個(gè)字符串?dāng)?shù)組被處理完畢。③對單個(gè)的語義塊每次都是從block的首個(gè)漢字開始進(jìn)行分析,執(zhí)行下一步;④如果result的總長度與原語義塊的長度相等,或者是block的長度為零,說明該語義塊分詞完畢,執(zhí)行步驟⑩;當(dāng)分詞過程遇到該漢字時(shí),將該漢字暫時(shí)略過;執(zhí)行步驟③;⑤取singleword=block.SubString(0,1),繼續(xù);⑥在詞語表中查找以singleword為首詞語,存為一個(gè)字符串?dāng)?shù)組temp,作為分詞的備選項(xiàng),繼續(xù)以下判斷;⑦如果temp的長度為零,即if(temp.Length==0),則說明不存在以該字為首的詞語;比較該漢字的位置是否在不可分?jǐn)?shù)組undone中有記錄,如果有則略過該漢字,執(zhí)行步驟③;⑧如果temp的長度為1,即if(temp.Length=1),只有一個(gè)分詞結(jié)果備選項(xiàng),那么該結(jié)果就是所要的分詞結(jié)果,該詞語壓入分詞結(jié)果棧中result數(shù)組中,執(zhí)行步驟③;則說明在詞語表中從block首部取出;⑨如果temp的長度大于1,即if(temp.Length>1),則說明分詞結(jié)果備選項(xiàng)中存在多個(gè)結(jié)果,按照temp數(shù)組中的字符串長度的次序由小到大排列,取數(shù)組最后一個(gè)元素的字符串,在block首部去掉該詞,壓入分詞結(jié)果棧result中,執(zhí)行步驟③。⑩如果不可分?jǐn)?shù)組undone不為空,則對數(shù)組中的元素和分詞結(jié)果中的元素進(jìn)行人為干預(yù),將新詞錄入詞庫,執(zhí)行下一步;?開始下一個(gè)語義塊的分詞,將上一個(gè)語義塊的分詞結(jié)果輸出,并且將分詞結(jié)果棧result清空,執(zhí)行步驟②。

四、自動(dòng)分詞舉例

假設(shè)在文章的句子中,已經(jīng)有了切分好的語義塊。例如,有一句話“這些學(xué)生會(huì)員都來了”。詞庫中已經(jīng)有以下的詞語了:這些、學(xué)生、學(xué)生會(huì)、會(huì)員、都、來、了

那么,應(yīng)用上述的自動(dòng)分詞算法,依次對該句的漢字進(jìn)行分析,其詳細(xì)過程如下:①檢索“這”,發(fā)現(xiàn)“這些”在詞庫中并且與原文匹配;②檢索“學(xué)”,發(fā)現(xiàn)有兩個(gè)匹配,分別是“學(xué)生”和“學(xué)生會(huì)”,取字符長度最長的那個(gè)匹配項(xiàng)“學(xué)生會(huì)”;③檢索“員”,發(fā)現(xiàn)詞庫中沒有以“員都”或“員”這樣的詞語,因此不存在匹配,于是將先前的棧頂元素彈出,壓入第二長的分詞備選項(xiàng)“學(xué)生”:④檢索“都”,這是一個(gè)副詞,在詞庫中;⑤同理,“來”和“了”依次被分出來。

實(shí)踐證明,利用該分詞算法進(jìn)行自動(dòng)分詞,其分詞復(fù)雜度得以大的改善,該分詞算法在對文章中的詞進(jìn)行自動(dòng)切分時(shí),可以大大降低分詞過程中的匹配次數(shù),提高了分詞的響應(yīng)速度,尤其適合大量中文信息的分析與處理。

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索工具淺析

摘要:互聯(lián)網(wǎng)是一個(gè)巨大的信息資源庫,其內(nèi)容包羅萬象,覆蓋了不同學(xué)科、不同領(lǐng)域、不同地域、不同語言的信息資源;在這個(gè)信息海洋中,如何準(zhǔn)確、迅速地找到并獲得自己所需的信息呢?“工欲善其事,必先利其器。”這就需要掌握有關(guān)的檢索工具以及使用的方法和技巧。通過以百度地圖搜索等為例,介紹相關(guān)網(wǎng)絡(luò)信息檢索工具以及如何在短時(shí)間內(nèi)能夠掌握利用和運(yùn)用Internet的資源找到自己所需要信息的方法。

關(guān)鍵詞:網(wǎng)絡(luò)信息檢索;百度地圖搜索;Google學(xué)術(shù)搜索;天網(wǎng)搜索

網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以十倍的速度增長,一個(gè)搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確又專業(yè),使得檢索結(jié)果中出現(xiàn)太多無用的信息。

在信息檢索工具趨向于專業(yè)化、服務(wù)內(nèi)容趨向于深化的發(fā)展下,一些檢索工具已經(jīng)不再盲目追求加大收錄和標(biāo)引量,而是更加注重突出其專業(yè)特色。因此,垂直主題的搜索引擎以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地,比如像股票、天氣、新聞、MP3及地圖等類的搜索引擎,具有很高的針對性,用戶對查詢結(jié)果的滿意度較高。

下面,介紹一些常用的專門網(wǎng)絡(luò)檢索工具。

1 百度地圖搜索

登陸百度//網(wǎng)址。如圖1所示,百度產(chǎn)品線中,除了網(wǎng)頁搜索外,還提供了MP3、新聞、知道、地圖、圖片、影視及法律等等細(xì)分的專業(yè)主題搜索。

圖1 百度產(chǎn)品線

下面百度地圖為例介紹一下。百度地圖搜索是百度聯(lián)合國內(nèi)知名的電子地圖服務(wù)提供商推出的本地化地圖搜索服務(wù)。通過百度地圖搜索,你可以找到指定的城市、城區(qū)、街道、建筑物等所在的地理位置,也可以找到離你最近的所有餐館、學(xué)校、銀行、公園等等。百度地圖搜索還為你提供了路線查詢功能,如果你要去某個(gè)地點(diǎn),百度地圖搜索會(huì)提示你如何換乘公交車,如果你想自己駕車去,百度地圖搜索同樣會(huì)為你推薦最佳路線。

百度地圖搜索的使用很簡單,無論你是要找地點(diǎn)(如:王府井 餐廳)還是乘車路線(如:從銀科大廈到月壇公園),均只需在一個(gè)搜索框內(nèi)直接輸入,按回車鍵或者點(diǎn)擊“百度搜索”按鈕,即可得到最符合你要求的內(nèi)容。例如,搜索“王府井餐廳”,可得結(jié)果頁面如圖3所示。點(diǎn)擊小圖標(biāo),將在地圖中顯示此地點(diǎn)的簡單信息。你還可以在地圖上進(jìn)行移動(dòng)、放大、縮小及測距等操作。

3 天網(wǎng)搜索

天網(wǎng)搜索的前身是北大天網(wǎng)。北大天網(wǎng)由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室研究開發(fā),是國家重點(diǎn)科技攻關(guān)項(xiàng)目“中文編碼和分布式中英文信息發(fā)現(xiàn)”的研究成果。北大天網(wǎng)于1997年10月29日正式在 CERNET上向廣大互聯(lián)網(wǎng)用戶提供Web信息搜索及導(dǎo)航服務(wù),是國內(nèi)第一個(gè)基于網(wǎng)頁索引搜索的搜索引擎。天網(wǎng)搜索致力于探索和研究中英文搜索引擎系統(tǒng)的優(yōu)秀技術(shù)并不斷推出更新的搜索產(chǎn)品。目前天網(wǎng)搜索引擎維護(hù)的文檔數(shù)量達(dá)到 6億之多,并正在以平均每月一千萬頁文檔的數(shù)量擴(kuò)大著規(guī)模。天網(wǎng)搜索的中文文檔數(shù)量超過4億,其中包括html、txt、pdf、doc、ps、ppt等多種類型的文檔和資源。

圖6 天網(wǎng)資源搜索界面

目前天網(wǎng)搜索主要提供三種搜索服務(wù):網(wǎng)頁搜索、資源搜索和商機(jī)搜索。

1) 網(wǎng)頁搜索

天網(wǎng)網(wǎng)頁搜索是基于頁面文字內(nèi)容的搜索,主要是http文件搜索。通過關(guān)鍵詞檢索,用戶可以單擊瀏覽關(guān)鍵詞所在的原始網(wǎng)頁和網(wǎng)頁快照。

2) 資源搜索

天網(wǎng)資源搜索是為高級(jí)用戶查找特定文件尤其是FTP文件提供的方便、快捷的檢索服務(wù)。它提供關(guān)鍵詞檢索和資源分類瀏覽檢索兩種檢索功能。用戶只需要在檢索框輸入檢索詞,即可進(jìn)行檢索。同時(shí),關(guān)鍵詞檢索還提供文件類別限定功能。檢索的結(jié)果包括文件全名,創(chuàng)建日期、文件大小、網(wǎng)頁快照、原始地址等信息。

3) 商機(jī)搜索

天網(wǎng)商機(jī)搜索是面向中國企業(yè)的搜索服務(wù),目前包括全部網(wǎng)站、職位信息、供求商機(jī)、黃頁、所有網(wǎng)頁等類型的搜索。

4 結(jié)語

本文詳細(xì)地介紹了一系列在短時(shí)間內(nèi)如何利用和運(yùn)用Internet的資源找到自己所需要信息的方法。運(yùn)用的時(shí)候,需要具體按照使用信息資源目的進(jìn)行相關(guān)的操作。熟練情況下,大家就可以按照自己的習(xí)慣暢游在Internet浩瀚大海之中,快速地摘取需要的信息。

網(wǎng)絡(luò)信息檢索論文:對等網(wǎng)絡(luò)信息檢索中的信任問題綜述

摘要:在介紹P2P 網(wǎng)絡(luò)及其應(yīng)用的基礎(chǔ)上,分析了P2P網(wǎng)絡(luò)共享文件的可靠性及安全性問題。介紹了基于文件內(nèi)容和基于節(jié)點(diǎn)的信譽(yù)評(píng)價(jià)系統(tǒng)模型,這兩種體系模型都是通過收集各個(gè)節(jié)點(diǎn)的評(píng)價(jià)信息,來保證共享文件的真實(shí)性和可靠性。在P2P 網(wǎng)絡(luò)環(huán)境中,節(jié)點(diǎn)間的信任來自于兩個(gè)方面:一個(gè)是對節(jié)點(diǎn)本身所能提供的服務(wù)質(zhì)量的信任;另一個(gè)是節(jié)點(diǎn)對于其他節(jié)點(diǎn)的評(píng)價(jià)的信任。

關(guān)鍵詞:P2P網(wǎng)絡(luò);信任;文件共享;安全性;信譽(yù)系統(tǒng);評(píng)價(jià)體系

1 引 言

計(jì)算機(jī)對等網(wǎng)peer-to-peer(P2P)大幅地提高了Internet中信息、帶寬和資源的利用率,這種技術(shù)可以廣泛地應(yīng)用于網(wǎng)絡(luò)互聯(lián)技術(shù)各個(gè)領(lǐng)域。P2P文件共享是P2P 網(wǎng)絡(luò)目前發(fā)展迅速的方面,比如Napster和Freenet都是文件共享方面的著名應(yīng)用。P2P網(wǎng)絡(luò)和傳統(tǒng)的網(wǎng)絡(luò)體系一樣,面臨著各種各樣的安全問題;同時(shí),由于自身體系結(jié)構(gòu)的特殊性,P2P網(wǎng)絡(luò)還需要解決自己特有的一些安全問題。本文主要討論P(yáng)2P共享文件的安全性。本文的第二部分羅列了共享文件安全的主要內(nèi)容,第三部分強(qiáng)調(diào)了p2p的優(yōu)秀安全需求,第四部分給出了一個(gè)基于信譽(yù)的評(píng)價(jià)系統(tǒng)。文章最后總結(jié)了p2p安全技術(shù)的現(xiàn)狀和不足。

2 P2P共享文件的安全需求

共享文件的安全需求包括:(1)信任關(guān)系,在分布式系統(tǒng)中,如何建立不同網(wǎng)絡(luò)節(jié)點(diǎn)間的信任關(guān)系是建立系統(tǒng)安全的一個(gè)基礎(chǔ)問題 (2)標(biāo)識(shí),對等用戶必須能夠通過標(biāo)識(shí)建立唯一的、可驗(yàn)證的數(shù)字身份。(3)認(rèn)證和授權(quán),網(wǎng)絡(luò)用戶必須能夠通過網(wǎng)絡(luò)遠(yuǎn)程,安全地驗(yàn)證一個(gè)對等點(diǎn)的標(biāo)識(shí),并通過授權(quán)控制對本地資源和服務(wù)的訪問。(4)機(jī)密性和完整性,提供了對用戶進(jìn)行篡改、重發(fā)等主動(dòng)或被動(dòng)攻擊下的保護(hù)。這些是P2P 應(yīng)用系統(tǒng)所必須提供的安全服務(wù)。

3 p2p的優(yōu)秀安全需求

P2P文件共享的優(yōu)秀安全需求是信任關(guān)系。由于這種文件共享系統(tǒng)的目的特殊,它們所需要的安全性不是很高。在信任關(guān)系上,系統(tǒng)信任者所的內(nèi)容是“真實(shí)”的,消費(fèi)用戶信任者,者和管理員對消費(fèi)用戶的信任度沒有特別的要求。但是,文件共享應(yīng)用中信任關(guān)系管理仍然是十分必要的,系統(tǒng)成員間信任關(guān)系的建立是

保證系統(tǒng)可用性的基礎(chǔ)。下面就簡單介紹一個(gè)目前較先進(jìn)的基于內(nèi)容的信譽(yù)評(píng)價(jià)系統(tǒng)。

4 基于內(nèi)容的信譽(yù)評(píng)價(jià)系統(tǒng)

在實(shí)際的P2P網(wǎng)絡(luò)文件共享系統(tǒng)中,文件下載者最關(guān)心的是被共享文件本身是否真實(shí)可信,而該文件是由哪個(gè)節(jié)點(diǎn)提供的則不是很重要。所以,直接基于共享文件本身內(nèi)容的評(píng)價(jià)比基于節(jié)點(diǎn)行為的評(píng)價(jià)更能描述共享文件的真實(shí)程度,也更加滿足下載者的需求。而對節(jié)點(diǎn)行為的評(píng)價(jià)可以進(jìn)一步描述共享節(jié)點(diǎn)的可信度。這兩方面的評(píng)價(jià)結(jié)合起來,就組成了比較完整的信譽(yù)評(píng)價(jià)系統(tǒng)。

4.1 對共享文件的評(píng)價(jià)

對共享文件的評(píng)價(jià)其實(shí)就是對文件內(nèi)容真實(shí)性的一種描述。

例如,節(jié)點(diǎn)A共享了一個(gè)文件a,并且注明作者、版本、文件內(nèi)容等相關(guān)信息。節(jié)點(diǎn)B下載該文件后,發(fā)覺文件a內(nèi)容和文件描述完全一致,則節(jié)點(diǎn)B把該文件標(biāo)記為“內(nèi)容與描述完全一致”,并把這個(gè)評(píng)價(jià)反饋給P2P網(wǎng)絡(luò)系統(tǒng),從而完成本次評(píng)價(jià)過程。

系統(tǒng)則建立起該文件的檔案(包括文件名、文件大小、文件創(chuàng)建時(shí)間、下載者的評(píng)價(jià)等)。C、D、E、F等節(jié)點(diǎn)下載完該文件a后,也做出相應(yīng)的評(píng)價(jià),系統(tǒng)根據(jù)評(píng)價(jià)不斷修改補(bǔ)充評(píng)價(jià)內(nèi)容和數(shù)量,從而逐步建立起對于該文件的評(píng)價(jià)描述。當(dāng)節(jié)點(diǎn)P需要下載該文件時(shí),根據(jù)前面B、C、D、E、F等節(jié)點(diǎn)對該文件的評(píng)價(jià)描述就可以決定是否下載該文件,而不需要關(guān)心從哪個(gè)節(jié)點(diǎn)下載的文件更可靠。如果節(jié)點(diǎn)B、C、D、E、F等下載a后也向其他節(jié)點(diǎn)提供共享,雖然它們和節(jié)點(diǎn)A的信譽(yù)值不一樣,但是共享的這個(gè)文件擁有相同的可信度,因?yàn)槎际枪蚕淼耐粋€(gè)文件。如果某個(gè)節(jié)點(diǎn)更改了這個(gè)文件的文件名或其他描述信息,雖然內(nèi)容還是完全一樣,但是也要被系統(tǒng)區(qū)分為不同的文件,重新建立新的評(píng)價(jià)檔案。

4.2 對節(jié)點(diǎn)的評(píng)價(jià)

如果節(jié)點(diǎn)A共享了一個(gè)新文件,節(jié)點(diǎn)B下載該文件時(shí)還沒有任何評(píng)價(jià)或者評(píng)價(jià)太少,不足以判斷該文件的真實(shí)性,那么節(jié)點(diǎn)A的信譽(yù)值就是判斷的一個(gè)重要依據(jù)。節(jié)點(diǎn)的信譽(yù)值反映該節(jié)點(diǎn)以前的共享行為,并不代表節(jié)點(diǎn)將來的行為。但是,節(jié)點(diǎn)B可以根據(jù)節(jié)點(diǎn)A以前的行為推測將來的行為:節(jié)點(diǎn)A的信譽(yù)值高,說明節(jié)點(diǎn)A以前共享的文件可信度高,其將來共享文件的真實(shí)性也越大;信譽(yù)值低,說明以前共享文件的可信度低,其將來共享文件的真實(shí)性也越值得懷疑。這種推測是符合常規(guī)和實(shí)際的。節(jié)點(diǎn)的信譽(yù)值直接用數(shù)字描述,正數(shù)為節(jié)點(diǎn)的正面評(píng)價(jià),負(fù)數(shù)為節(jié)點(diǎn)的負(fù)面評(píng)價(jià)。

4.3 做出反應(yīng)

通過對共享文件和節(jié)點(diǎn)的評(píng)價(jià),用戶在下載前不僅對將下載文件內(nèi)容的真實(shí)性一目了然,而且對提供文件下載服務(wù)節(jié)點(diǎn)的可靠性也放心,從而避免了大量垃圾文件和有害文件的傳播。在評(píng)價(jià)體系中,一方面文件提供者接受其他節(jié)點(diǎn)的評(píng)價(jià),從而獲得自己的信譽(yù)評(píng)價(jià)值,另一方面文件接收者也應(yīng)該受到約束,不能任意甚至惡意地對文件提供者進(jìn)行評(píng)價(jià)。

為了保證網(wǎng)絡(luò)系統(tǒng)的正常運(yùn)行,需要對不同行為的節(jié)點(diǎn)采取不同的獎(jiǎng)懲措施:(1)獎(jiǎng)勵(lì),信譽(yù)評(píng)價(jià)系統(tǒng)應(yīng)對信譽(yù)值高的節(jié)點(diǎn),應(yīng)提供獎(jiǎng)勵(lì)機(jī)制。一些專家建議,獎(jiǎng)勵(lì)機(jī)制應(yīng)包括兩種,提高信譽(yù)值高的節(jié)點(diǎn)的服務(wù)和給予信譽(yù)值高的節(jié)點(diǎn)經(jīng)濟(jì)上的獎(jiǎng)勵(lì)。(2)懲罰,獎(jiǎng)勵(lì)機(jī)制在P2P網(wǎng)絡(luò)中可以有效地發(fā)揮作用,但為了削減P2P網(wǎng)絡(luò)中的惡意行為,還需要對惡意節(jié)點(diǎn)進(jìn)行懲罰。如果信譽(yù)評(píng)價(jià)系統(tǒng)能夠識(shí)別出在線的惡意節(jié)點(diǎn),系統(tǒng)應(yīng)能不僅僅警告其他節(jié)點(diǎn),還要能做出反擊,禁止其訪問網(wǎng)絡(luò)。最后,P2P系統(tǒng)在使用上述策略時(shí),要特別謹(jǐn)慎,以免惡意節(jié)點(diǎn)利用這些策略來破壞系統(tǒng)。

5 總結(jié)

雖然目前的Peer-to-Peer應(yīng)用日益廣泛,但仍然缺乏有效的機(jī)制以提高系統(tǒng)整體的可用性,這非常顯著地表現(xiàn)為應(yīng)用中大量欺詐行為的存在以及不可靠的服務(wù)質(zhì)量。以眾多的文件共享應(yīng)用為例,25%的文件是偽造文件(faked files),同時(shí),不負(fù)責(zé)任的用戶隨意地中止(文件上載)服務(wù),使得服務(wù)質(zhì)量無法得以較好的保證。一種可能的辦法是對用戶評(píng)定信任等級(jí),在多個(gè)同樣服務(wù)可選的情況下,信任等級(jí)高的節(jié)點(diǎn)成為首選。本文通過對P2P文件共享的安全性進(jìn)行具體分析,得出了詳細(xì)安全需求。在此基礎(chǔ)上,我們進(jìn)一步總結(jié)了P2P 應(yīng)用的一般安全需求,并指出信任關(guān)系是其中的優(yōu)秀安全需求。介紹了共享文件的信任關(guān)系的分類,重點(diǎn)介紹了一種基于共享文件內(nèi)容本身的信譽(yù)評(píng)價(jià)系統(tǒng),和傳統(tǒng)的方法相比,增加了對文件內(nèi)容的具體分析,提高了共享文件的可信度。通過對共享文件的內(nèi)容評(píng)價(jià)和節(jié)點(diǎn)的信譽(yù)評(píng)價(jià),共同保證P2P網(wǎng)絡(luò)中共享文件的可信度。信譽(yù)評(píng)價(jià)系統(tǒng)建立后,還需要對各節(jié)點(diǎn)的行為作出反應(yīng)。

作者簡介:中國礦業(yè)大學(xué)05級(jí)碩士研究生。

網(wǎng)絡(luò)信息檢索論文:Web2.0環(huán)境下的網(wǎng)絡(luò)信息檢索研究

摘要:Web2.0網(wǎng)站在現(xiàn)有網(wǎng)站中的比例越來越高,其具有的互動(dòng)性、提倡個(gè)人體驗(yàn)等特點(diǎn)給信息搜索帶來了新的挑戰(zhàn)。該文分析了Web2.0的特點(diǎn),指出Web2.0的某些特點(diǎn)會(huì)導(dǎo)致很多信息隱蔽化,并從隱蔽信息檢索的角度嘗試性地提出了解決辦法。

關(guān)鍵詞: Web2.0;隱蔽化;信息檢索

1 Web2.0的特點(diǎn)

Web2.0的概念始源于Tim Reilly和MediaLive International分會(huì)。Web2.0作為一個(gè)新的商業(yè)概念,根據(jù)會(huì)議的觀點(diǎn),具有自由平臺(tái)、集體智慧、用戶體驗(yàn)等七個(gè)特征[1]。

國內(nèi)和國外學(xué)者對于Web2.0有不少研究,但是對其實(shí)質(zhì)還沒有統(tǒng)一的理解。Web2.0在學(xué)術(shù)界和實(shí)際工作領(lǐng)域有不同的內(nèi)涵和外延,至今沒有清晰的定義。技術(shù)研究者眼中的Web2.0是SNS、BLOG、RSS等社會(huì)性軟件的繁榮昌盛;blogger認(rèn)為Web2.0是人與人之間更個(gè)性更便捷的互動(dòng);而在風(fēng)險(xiǎn)投資商眼中,Web2.0代表了新商業(yè)的規(guī)則逐漸形成[2]。

為便于分析,本文所指的Web2.0是相對Web1.0的新一類互聯(lián)網(wǎng)應(yīng)用的統(tǒng)稱。是以Flickr、等網(wǎng)站為代表,以Blog、TAG、SNS、RSS、Wiki等社會(huì)軟件的應(yīng)用為優(yōu)秀,依據(jù)六度分隔、xml、ajax等新理論和技術(shù)實(shí)現(xiàn)的互聯(lián)網(wǎng)新一代模式。Web2.0具有個(gè)性化服務(wù)、用戶參與、集體智慧和網(wǎng)絡(luò)社區(qū)等特點(diǎn)。

Web1.0到Web2.0的轉(zhuǎn)變,模式上,是從讀向?qū)憽⑿畔⒐餐瑒?chuàng)造的一個(gè)改變; 基本結(jié)構(gòu)上,則由網(wǎng)頁向發(fā)表和展示工具的演變;轉(zhuǎn)變工具上,是由互聯(lián)網(wǎng)瀏覽器向各類瀏覽器、RSS閱讀器等內(nèi)容的發(fā)展;運(yùn)行機(jī)制上,由Client service向Web service的轉(zhuǎn)變,互聯(lián)網(wǎng)內(nèi)容的締造者也由專業(yè)人士向普通用戶拓展。

Web2.0使互聯(lián)網(wǎng)絡(luò)用戶從信息接受者轉(zhuǎn)變成為信息制造者和傳播者,從受眾轉(zhuǎn)向主體,從個(gè)體轉(zhuǎn)向社團(tuán)的新型互聯(lián)網(wǎng)服務(wù)模式與理念,其成型的優(yōu)秀應(yīng)用主要有Blog、WIKI、RSS、SNS、Podcast等。

1.1 Blog

Blog是Webblog的簡稱,是個(gè)人或群體以時(shí)間順序所作的一種記錄,并且不斷更新。用戶以網(wǎng)絡(luò)日志的形式簡易迅速地自己的心得,及時(shí)有效地與他人進(jìn)行交流,簡單使用與維護(hù)網(wǎng)站。

對知識(shí)管理和創(chuàng)造而言,Blog提供了新的形態(tài)和途徑。從交往形態(tài)考察,網(wǎng)志空間設(shè)定了積極的讀者、作者、編者互動(dòng)轉(zhuǎn)換關(guān)系,針對一定的話題和讀者創(chuàng)造信息。

1.2 WIKI

WIKI:百科全書,是一種多人協(xié)作的寫作工具。這種超文本系統(tǒng)支持面向社群的協(xié)作式寫作,同時(shí)也包括一組支持這種寫作的輔助工具。WIKI的寫作者構(gòu)成了一個(gè)社群,WIKI系統(tǒng)為這個(gè)社群提供簡單的交流工具。與其它超文本系統(tǒng)相比,WIKI有使用方便及開放的特點(diǎn),可以在一個(gè)社群內(nèi)共享某領(lǐng)域的知識(shí)。

1.3 RSS

RSS是站點(diǎn)用來和其它站點(diǎn)之間共享內(nèi)容的一種簡易方式。它能夠把網(wǎng)站內(nèi)容如標(biāo)題、鏈接、部分內(nèi)容甚至全文轉(zhuǎn)換為可延伸標(biāo)示語言的格式。

RSS搭建了信息迅速傳播的一個(gè)技術(shù)平臺(tái),使得每個(gè)人都成為潛在的信息提供者。一個(gè)RSS文件后,包含的信息就能直接被其它站點(diǎn)調(diào)用。

1.4 SNS

SNS:社會(huì)網(wǎng)絡(luò)。理論依據(jù)是六度分隔理論,通過互聯(lián)網(wǎng)的方式,可以將人際關(guān)系網(wǎng)的資源完全挖掘出來。在SNS的幫助下,可以輕松認(rèn)識(shí)“朋友的朋友”,擴(kuò)展自己的人脈,還可以更科學(xué)地管理人際網(wǎng)絡(luò)資源。

SNS這種新興的網(wǎng)絡(luò)社交方式一出現(xiàn),迅速流行歐美國家,已經(jīng)成為精英階層拓展人際關(guān)系的主要方式之一。

1.5 Podcast

Podcast:播客,它是收音機(jī)、ipod、博客和寬帶互聯(lián)網(wǎng)的集體產(chǎn)物。它是數(shù)字廣播技術(shù)的一種,與一些便攜播放器相結(jié)合而實(shí)現(xiàn),是一種在互聯(lián)網(wǎng)上音頻內(nèi)容并允許用戶訂閱feed以自動(dòng)接受新文件的方法,它使用RSS2.0文件格式傳送并允許個(gè)人進(jìn)行創(chuàng)建與。

2 Web2.0網(wǎng)站信息的隱蔽化

隱蔽網(wǎng)絡(luò),也稱不可見網(wǎng)絡(luò)(Invisible Web)或深網(wǎng)(Deep Web),是一個(gè)與可見網(wǎng)絡(luò)相對應(yīng)的概念。最初由Dr. Jill Ellsworth于1994年提出,意指那些普通搜索引擎難以發(fā)現(xiàn)的信息內(nèi)容。2001年,Christ Sherman和Gary Price合著《隱蔽網(wǎng)絡(luò):揭開搜索引擎看不到的信息源》,將隱蔽網(wǎng)絡(luò)定義為:雖然通過互聯(lián)網(wǎng)可以獲取,但普通搜索引擎由于受技術(shù)限制而不能,或者經(jīng)審慎考慮后而不作索引的那些文本頁、文件或其他通常是高質(zhì)量、權(quán)威的信息[3]。

隱蔽網(wǎng)絡(luò)所儲(chǔ)存的信息有7500TB,可見網(wǎng)絡(luò)所儲(chǔ)存的信息有19TB,隱蔽網(wǎng)絡(luò)所儲(chǔ)存的信息是可見網(wǎng)絡(luò)的440~550倍。當(dāng)前存在超過20000個(gè)隱蔽網(wǎng)絡(luò)站點(diǎn)。60個(gè)最大的隱蔽網(wǎng)絡(luò)站點(diǎn)擁有大約750TB的信息,一半以上的隱蔽網(wǎng)絡(luò)站點(diǎn)內(nèi)容存在于主題數(shù)據(jù)庫中,95%的隱蔽網(wǎng)絡(luò)信息是公開的,不需付費(fèi)和訂閱。發(fā)表在《自然》雜志的一份日本NEC公司研究院的研究報(bào)告估計(jì),具有最大搜索能力的Google 和Northern Light也只能搜索到全部網(wǎng)絡(luò)信息的0.03%[4]。

Chris Sherman和Gary Price(2001)認(rèn)為產(chǎn)生隱蔽網(wǎng)絡(luò)的原因有技術(shù)和非技術(shù)兩個(gè)因素[5]。非技術(shù)因素是指搜索引擎開發(fā)公司出于費(fèi)用方面的考慮,不愿意索引某些網(wǎng)絡(luò)內(nèi)容。技術(shù)因素主要有:1) 普通搜索引擎對非ASCII文本格式的內(nèi)容,如Postscript、Flash、影音文件、壓縮文件等進(jìn)行索引時(shí)存在困難;2) 社區(qū)論壇、數(shù)據(jù)庫入口處設(shè)置的賬號(hào)、口令等提問是機(jī)械式搜索引擎難以跨越的障礙。

Michael K. Bergman(2004)將隱蔽網(wǎng)絡(luò)劃分為陰暗網(wǎng)絡(luò)(the opaque Web)、私人網(wǎng)絡(luò)(the private Web)、專有網(wǎng)絡(luò)(the proprietary Web)、真正的隱蔽網(wǎng)絡(luò)(the truly invisible Web)等4種類型[6]。

2.1 不透明網(wǎng)絡(luò)

不透明網(wǎng)絡(luò)是指搜索引擎可以索引但沒有索引的網(wǎng)頁,主要由以下幾個(gè)因素造成:1) 搜索深度,受經(jīng)濟(jì)因素制約,搜索引擎只搜索一定深度的網(wǎng)頁,超過搜索深度但有價(jià)值的網(wǎng)頁就成為了不透明網(wǎng)絡(luò);2) 搜索的最大數(shù),即使在搜索深度之內(nèi)搜索的網(wǎng)頁數(shù)也有可能超過其最大容量,超過容量部分就成為不透明網(wǎng)絡(luò);3) 搜索頻率,互聯(lián)網(wǎng)上的信息日新月異,而搜索引擎的搜索速度有限,新出現(xiàn)的網(wǎng)站(頁)也就成為不透明網(wǎng)絡(luò)。

2.2 私人網(wǎng)絡(luò)

私人網(wǎng)絡(luò)就是指含有個(gè)人的非公開信息、限制訪問的網(wǎng)頁,其形成原因主要有:1) 網(wǎng)站口令的設(shè)置,目前許多私人網(wǎng)站需要注冊并使用用戶名和密碼登錄后才能訪問,這一部分內(nèi)容搜索引擎難以索引;2) 知識(shí)產(chǎn)權(quán)的負(fù)面影響,有些網(wǎng)站出于保護(hù)知識(shí)產(chǎn)權(quán)或個(gè)人隱私的考慮,會(huì)使用“Robots.txt”協(xié)議來阻止搜索。

2.3 專有網(wǎng)絡(luò)

專有網(wǎng)絡(luò)是指只對注冊用戶開放的網(wǎng)頁,這部分網(wǎng)頁都需要用戶輸入用戶名和密碼,其資源才可被利用。機(jī)械式的搜索引擎無法填表注冊,當(dāng)然也就無法索引。另外收費(fèi)的商業(yè)在線信息服務(wù)商如DIALOG、OCLC、SIRS、InfoTrac等,或是在線百科全書,對于未付費(fèi)的用戶來說也是不可見的[7]。

2.4 真正的隱蔽網(wǎng)絡(luò)

真正的隱蔽網(wǎng)絡(luò)主要包括非HTML格式的文檔、動(dòng)態(tài)網(wǎng)頁、實(shí)時(shí)數(shù)據(jù)及網(wǎng)絡(luò)數(shù)據(jù)庫,其形成原因主要包括:1) 目前大部分搜索引擎只能索引HTML,而對于其它包含pdf、mp3、avi等格式的網(wǎng)頁,搜索引擎無法搜索其包含的內(nèi)容;2) 搜索引擎索引動(dòng)態(tài)網(wǎng)頁及網(wǎng)絡(luò)數(shù)據(jù)庫的能力有限,不能實(shí)現(xiàn)實(shí)時(shí)更新。

3 Web2.0使更多網(wǎng)站信息“隱蔽化”

Web2.0崇尚個(gè)性化的服務(wù),用戶體驗(yàn)和社會(huì)網(wǎng)絡(luò),擁有用戶參與的一個(gè)“社會(huì)網(wǎng)絡(luò)”將包含比現(xiàn)有網(wǎng)絡(luò)更多內(nèi)容的數(shù)據(jù)信息。個(gè)性化和用戶參與信息,一般都是以數(shù)據(jù)庫或其他動(dòng)態(tài)的方式存在,加大了搜索引擎搜索的難度,而用戶參與的信息,出于個(gè)人隱私或個(gè)人其他方面考慮,很多是帶有訪問權(quán)限的,有些即使不帶有權(quán)限,但是沒有鏈接到其他的網(wǎng)站,形成了一個(gè)個(gè)孤立的信息“島嶼”,深層化和隱蔽化的程度明顯增加。

《中國Web2.0 現(xiàn)狀與趨勢調(diào)查報(bào)告》調(diào)研發(fā)現(xiàn),高達(dá)61.7%的人認(rèn)為Web2.0 帶來一個(gè)屬于自己的空間,能夠更加自由和個(gè)性化,其次才是能夠進(jìn)行更好的資源和思想的分享和交流。由此可見,擁有訪問權(quán)限的“自己的空間”可能在給搜索引擎進(jìn)行一般搜索的時(shí)候造成訪問權(quán)限上的阻礙。比如設(shè)置權(quán)限的msn live空間,如果拒絕RSS聯(lián)合,那么搜索引擎將無法進(jìn)入空間進(jìn)行有效的搜索。

其次,個(gè)性化的搜索要求已經(jīng)使得現(xiàn)有的搜索引擎力不從心。基于一般搜索的搜索引擎,很難以再滿足顧客個(gè)性化的搜索要求。個(gè)人的信息偏好受個(gè)人的教育背景差異和興趣的影響。越來越多網(wǎng)民自發(fā)在網(wǎng)上結(jié)成不同的社區(qū)來討論和關(guān)注他們所關(guān)心的事物,從而形成一個(gè)個(gè)小的圈子。這種小的圈子,小的社區(qū),往往是互聯(lián)網(wǎng)中最活躍群體,所探討的話題往往也是很深入的。但是這些是一般搜索引擎搜索不到的。

第三,法律上的障礙。對敏感信息檢索問題,法律上還沒有明確的規(guī)定。很多Web2.0的網(wǎng)絡(luò)按照Chris Sherman和Gary Price的分類屬于私人網(wǎng)絡(luò),對這些網(wǎng)絡(luò)的搜索和引用在法律上尚存在盲點(diǎn)。

第四,Web2.0實(shí)時(shí)更新速度快,很容易造成搜索引擎在兩次搜索之間很多網(wǎng)頁“不透明”。根據(jù)Chris Sherman和Gary Price的搜索引擎搜索速度“大概為1-2千萬頁/天”,在大量Web2.0網(wǎng)頁出現(xiàn)的時(shí)代這樣的搜索速度很難跟上網(wǎng)絡(luò)的發(fā)展。

4Web2.0信息檢索對策

4.1 建立Web2.0網(wǎng)站選擇性指南

Web2.0具有集體智慧,網(wǎng)絡(luò)社區(qū)等特點(diǎn),每個(gè)網(wǎng)站或子網(wǎng)站具有特定的主題。選擇性指南是一個(gè)主題指南,按照主題分類提供大量網(wǎng)站的鏈接。檢索精度高、資源權(quán)威、使用方便且大部分可免費(fèi)獲取,用它來查找主題相對寬泛,質(zhì)量相對較高,已經(jīng)過選擇、評(píng)價(jià)、標(biāo)注的信息資源來說效果較好,目前常用的選擇性指南包括Findlaw、InfoMine、The Invisible Web Directory及等。

4.2 改進(jìn)搜索技術(shù)與工具

當(dāng)搜尋Web2.0的范圍比較狹窄或者是希望能利用更新的檢索技術(shù)時(shí),可以通過一般的或?qū)I(yè)的搜索引擎進(jìn)行檢索。因?yàn)樗阉饕婺芨鶕?jù)用戶的檢索要求到各網(wǎng)絡(luò)數(shù)據(jù)庫進(jìn)行檢索并返回符合檢索要求的資源,而不需要像目錄指南那樣一層層地去瀏覽、查詢。

但是現(xiàn)有的搜索技術(shù)對于Web2.0迅速更新的信息檢索還是力不從心,且往往不能檢索像Podcast形式存在的多媒體文件和由不同程序產(chǎn)生的非格式文件。因此必須改進(jìn)現(xiàn)有的搜索技術(shù):1) 發(fā)展多元搜索技術(shù),提高檢索準(zhǔn)確度;2) 改進(jìn)常規(guī)搜索引擎,使之能夠索引更多格式的文件,研發(fā)檢索音頻、視頻的搜索技術(shù);3) 開發(fā)各類專門搜索引擎,必要時(shí)人工處理部分信息;4) 開發(fā)部分監(jiān)控技術(shù),對Web2.0不斷產(chǎn)生的新信息不斷監(jiān)控,側(cè)重檢索新增信息。

4.3 元數(shù)據(jù)與Web2.0相結(jié)合

元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行組織和處理的基礎(chǔ)。元數(shù)據(jù)的思想由來已久,都柏林優(yōu)秀集(Dublin Core)的不斷發(fā)展,現(xiàn)已經(jīng)得到廣泛應(yīng)用。利用元數(shù)據(jù)來標(biāo)注網(wǎng)絡(luò)資源可以大大提高檢索效率,那么將元數(shù)據(jù)思想應(yīng)用于Web2.0也就理所當(dāng)然。

Web2.0很多信息都是由特定的程序產(chǎn)生并組織,所以在相關(guān)程序編制的時(shí)候就必須考慮采用一定的標(biāo)準(zhǔn)方便搜索引擎檢索,比如在產(chǎn)生的網(wǎng)頁上加上網(wǎng)頁性質(zhì)描述和關(guān)鍵詞,多媒體信息以tag標(biāo)簽的形式說明內(nèi)容等,并嚴(yán)格按照元數(shù)據(jù)的要求組織和處理包含的信息,方便信息檢索。

4.4 提高用戶的信息素質(zhì)

所謂信息素質(zhì),即指從各種信息源中檢索、評(píng)價(jià)和使用信息的能力,是影響網(wǎng)絡(luò)信息資源利用的一個(gè)重要方面。Web2.0用戶體驗(yàn)、集體智慧等特點(diǎn)決定了Web2.0信息具有非權(quán)威性,對采集到的Web2.0信息的甄別也是信息檢索的一個(gè)重要內(nèi)容。培養(yǎng)用戶的信息素質(zhì),提高其信息意識(shí)、信息能力,也是有效檢索Web2.0信息的一個(gè)重要方面。首先,提高用戶的信息意識(shí),使其認(rèn)識(shí)到自己是一個(gè)積極的“尋獵者”而非被動(dòng)的“檢索者”,培養(yǎng)其敏銳的洞察力;其次,培養(yǎng)用戶的信息能力,增強(qiáng)其判斷、分析、查找、整理、利用信息的能力,合理有效地利用好Web2.0網(wǎng)絡(luò)所包含的信息。

4.5 完善網(wǎng)絡(luò)信息呈繳制度

從網(wǎng)絡(luò)信息生產(chǎn)的趨勢看,很多價(jià)值高、規(guī)模大的信息存在于網(wǎng)絡(luò)社區(qū)等數(shù)據(jù)庫中,而現(xiàn)在大部分的網(wǎng)絡(luò)機(jī)器人無法對Web2.0網(wǎng)絡(luò)中的Flash和Script等動(dòng)態(tài)網(wǎng)頁和數(shù)據(jù)庫進(jìn)行采集。為了解決這一問題,很多國家的網(wǎng)絡(luò)信息資源保存機(jī)構(gòu)開始采用制度和技術(shù)兩種手段并重的方式保障Web2.0信息資源的采集和保存。在網(wǎng)絡(luò)環(huán)境下,由圖書館、檔案館等保存機(jī)構(gòu)與網(wǎng)絡(luò)出版機(jī)構(gòu)進(jìn)行協(xié)商,將呈繳本制度擴(kuò)展到網(wǎng)絡(luò)領(lǐng)域,出版社根據(jù)協(xié)議定期將被選擇的網(wǎng)絡(luò)信息通過物理載體移交或網(wǎng)絡(luò)傳遞給保存機(jī)構(gòu),或者是保存機(jī)構(gòu)根據(jù)協(xié)商從出版社網(wǎng)站上進(jìn)行鏡像復(fù)制或直接使用軟件獲取。通過呈繳的方法,可以保證所采集Web2.0信息的相對完整性,同時(shí)也避免搜索引擎在采集過程中遭遇的技術(shù)、法律等障礙。

網(wǎng)絡(luò)信息檢索論文:網(wǎng)絡(luò)信息檢索中相關(guān)反饋技術(shù)的Java實(shí)現(xiàn)

提要:介紹了相關(guān)反饋技術(shù)的基本思想,設(shè)計(jì)了網(wǎng)絡(luò)信息檢索中相關(guān)反饋系統(tǒng)的功能與結(jié)構(gòu),探索如何在現(xiàn)有的公共網(wǎng)絡(luò)搜索引擎基礎(chǔ)上,利用Java語言實(shí)現(xiàn)具有相關(guān)反饋功能的搜索引擎接口。

關(guān)鍵詞:相關(guān)反饋;搜索引擎;信息檢索;Java

相關(guān)反饋(Relative Feedback)技術(shù)是近年來信息檢索領(lǐng)域的一項(xiàng)熱門技術(shù),它利用用戶的反饋信息來研究用戶需求,力求達(dá)到檢索結(jié)果與檢索要求之間的最佳匹配。一些著名的檢索系統(tǒng)如:WAIS、SMART等,很早就應(yīng)用了該項(xiàng)技術(shù),并取得了良好的效果。但是目前相關(guān)反饋技術(shù)在因特網(wǎng)信息檢索中的應(yīng)用卻并不多見,大部分的搜索引擎都沒有提供用戶反饋機(jī)制。因此本文將從網(wǎng)絡(luò)信息檢索出發(fā),就如何利用Java語言實(shí)現(xiàn)基本的相關(guān)反饋功能作一些探討。

1 設(shè)計(jì)思想和系統(tǒng)結(jié)構(gòu)

相關(guān)反饋技術(shù)的研究對象主要是用戶的查詢要求,在一般的網(wǎng)絡(luò)搜索引擎中,通常先由用戶輸入查詢詞,再尋找與這些查詢詞相匹配的信息記錄。但是,用簡單的查詢詞來表達(dá)查詢要求并非易事。網(wǎng)絡(luò)搜索引擎的絕大部分普通用戶在檢索的初始階段時(shí)常常會(huì)“詞不達(dá)意”,只有在查看過檢索結(jié)果后,才會(huì)意識(shí)到真正需要哪些查詢詞。但是,一般的網(wǎng)絡(luò)搜索引擎在用戶輸入查詢詞后就不再與用戶進(jìn)行交互,因此無法進(jìn)一步提高相關(guān)性。如果應(yīng)用了相關(guān)反饋技術(shù),用戶就可以從檢索結(jié)果中選擇出相關(guān)的信息,系統(tǒng)對這些信息進(jìn)行分析,計(jì)算出最能夠表達(dá)這些信息內(nèi)容的標(biāo)引詞,由于這些標(biāo)引詞是從用戶認(rèn)為符合其要求的信息中提煉出來的,因此在一定程度上反應(yīng)了查詢要求。如果將這些標(biāo)引詞有選擇的作為查詢詞加入到查詢式,就有可能提高查詢式表述查詢要求的準(zhǔn)確程度。

為了以較小的代價(jià)實(shí)現(xiàn)相關(guān)反饋的功能,本文中的系統(tǒng)將被設(shè)計(jì)成為一個(gè)介于用戶和公共網(wǎng)絡(luò)搜索引擎之間的接口。它的主要功能是接收用戶的查詢式并提交給搜索引擎,然后將搜索引擎返回的結(jié)果顯示給用戶進(jìn)行選擇,根據(jù)用戶選擇的相關(guān)信息計(jì)算新的查詢式,經(jīng)用戶確認(rèn)后再次提交給搜索引擎,如此反復(fù),直至用戶獲得滿意的結(jié)果為止。

根據(jù)其設(shè)計(jì)目的,本系統(tǒng)可以由如下幾個(gè)功能模塊組成:分詞模塊、權(quán)值計(jì)算模塊、查詢式修改模塊、數(shù)據(jù)庫讀寫模塊和用戶界面。系統(tǒng)結(jié)構(gòu)如圖1所示。

2 實(shí)現(xiàn)方法

本系統(tǒng)采用Java語言進(jìn)行設(shè)計(jì),設(shè)計(jì)環(huán)境是Window操作系統(tǒng),開發(fā)工具選用JBuilder企業(yè)版,公共網(wǎng)絡(luò)搜索引擎選用“百度網(wǎng)頁搜索引擎”()。

本系統(tǒng)的數(shù)據(jù)庫管理工具選用Microsoft Access。數(shù)據(jù)庫中的數(shù)據(jù)包括:檢索結(jié)果記錄、標(biāo)引詞和查詢詞。因此數(shù)據(jù)庫FBDB(feedback database)可以由SearchResult、WordDictionary和QueryItem三個(gè)表組成,表中的字段及數(shù)據(jù)類型如表中。

下面對系統(tǒng)中的幾個(gè)主要功能模塊的實(shí)現(xiàn)方法進(jìn)行討論。

2.1 分詞模塊的實(shí)現(xiàn)

分詞模塊從SearchResult中讀出相關(guān)的檢索結(jié)果的內(nèi)容(一段文本),分割成單個(gè)的標(biāo)引詞,并在WordDictionary中為每個(gè)標(biāo)引詞建立一條記錄。

本系統(tǒng)中的分詞函數(shù)庫采用的是東北大學(xué)計(jì)算機(jī)科學(xué)研究所中文信息處理實(shí)驗(yàn)室研究開發(fā)的詞性標(biāo)注函數(shù)庫(CipPos-SDK Ver1.01)(研究版)。由于該函數(shù)庫采用C++語言開發(fā),提供了動(dòng)態(tài)函數(shù)庫文件(CipPosSDK.dll、CipPosSDK.lib、CipPosDll.h),因此在本系統(tǒng)中使用時(shí),必須利用JNI(Java Native Interface)實(shí)現(xiàn)Java和C++的接口。

利用上面代碼可以同時(shí)實(shí)現(xiàn)分詞和標(biāo)注詞性的功能,例如:傳入文本“中文信息智能處理軟件開發(fā)”,函數(shù)將返回“中文(n)信息(n)智能(n)處理(v)軟件(n)開發(fā)(v)”,其中括號(hào)中的英文字母代表該詞的詞性,如n代表名詞,v代表動(dòng)詞。分詞完成后,對新字符串進(jìn)行解析,根據(jù)詞性去除掉沒有實(shí)際意義的詞,再將剩下的標(biāo)引詞和它的詞性、所在的檢索結(jié)果記錄號(hào)一起組成一條記錄,存入WordDictionary表中。

2.2 權(quán)值計(jì)算模塊的實(shí)現(xiàn)

權(quán)值代表了標(biāo)引詞與查詢要求之間的相關(guān)程度。一般權(quán)值越大的詞,就越能反應(yīng)查詢要求,也就越有可能被選擇作為新的查詢詞,因此權(quán)值的計(jì)算是相關(guān)反饋中的重要環(huán)節(jié)。計(jì)算權(quán)值的算法有很多,本系統(tǒng)中將某個(gè)標(biāo)引詞在相關(guān)信息中出現(xiàn)的總次數(shù)作為其權(quán)值,主要是利用JDBC和SQL語句對WordDictionary表進(jìn)行詞頻統(tǒng)計(jì),并將頻度最大的5個(gè)詞作為查詢詞,記錄到QueryItem表中。

2.3 查詢式修改模塊的實(shí)現(xiàn)

對查詢式的修改就是將新的查詢詞添加到查詢式中,或者是將無用的查詢詞去掉的過程。在本系統(tǒng)中,用戶可以通過用戶界面選擇是否將某一查詢詞加入到查詢式中,還可以手工輸入新的查詢詞或去掉已有的查詢詞。

由于本系統(tǒng)是用戶和網(wǎng)易搜索引擎間的一個(gè)接口,因此查詢式是以URL的形式發(fā)送到網(wǎng)易的搜索頁面的,例如:要檢索“中國對保護(hù)環(huán)境的政策”,查詢詞是“中國”、“保護(hù)”、“環(huán)境”和“政策”,URL是“///s?wd=中國+保護(hù)+環(huán)境+政策”,因此修改查詢式的過程就是生成新的URL的過程。

2.4 用戶界面的實(shí)現(xiàn)

本系統(tǒng)的用戶界面利用JBuilder的可視化開發(fā)環(huán)境設(shè)計(jì),用戶可以通過它輸入查詢式、查看結(jié)果、選擇相關(guān)信息和選擇查詢詞,并隨時(shí)可以打開Internet Explorer查看結(jié)果網(wǎng)頁。具體實(shí)現(xiàn)方法同其他的視窗環(huán)境下的Java程序大同小異,故此不再贅述。

3 結(jié)論

本系統(tǒng)實(shí)現(xiàn)了相關(guān)反饋的基本功能,增強(qiáng)了搜索引擎和用戶之間的交互,可以一定程度上幫助用戶更準(zhǔn)確地表達(dá)查詢要求,以檢索“到武漢中山公園的行車路線”為例,初始查詢式為“武漢 中山公園 路線”,經(jīng)過相關(guān)反饋后,系統(tǒng)返回“公汽”、“地址”、“乘車”、“公交”、“旅游”等新的查詢詞,選擇添加“公交”、“地址”,并去掉“路線”,再次檢索后系統(tǒng)返回的結(jié)果減少了,但是精度卻提高了。

應(yīng)該指出的是,本系統(tǒng)旨在驗(yàn)證網(wǎng)絡(luò)檢索中相關(guān)反饋技術(shù)的可實(shí)現(xiàn)性,著眼于基本架構(gòu)和基本思想。事實(shí)上,在此基礎(chǔ)上還有很多可以改進(jìn)的地方,比如:對于權(quán)值的計(jì)算,可以利用許多更精確的算法,如tf-idf算法。另外本系統(tǒng)中只考慮了相關(guān)文獻(xiàn),而實(shí)際上,不相關(guān)文獻(xiàn)的選擇也可以反映查詢要求。針對這些問題,在今后的研究中將對系統(tǒng)模型做進(jìn)一步的完善,以更好的發(fā)揮相關(guān)反饋技術(shù)的作用。

網(wǎng)絡(luò)信息檢索論文:關(guān)于網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索發(fā)展

摘 要:數(shù)字圖書館是計(jì)算機(jī)領(lǐng)域綜合發(fā)展重要成果,它實(shí)現(xiàn)了文獻(xiàn)信息的整合和優(yōu)化,提高了信息查詢的效率和實(shí)用性,促進(jìn)信息的傳播和共享。

關(guān)鍵詞:數(shù)字圖書館;信息檢索;網(wǎng)絡(luò)環(huán)境

隨著信息時(shí)代的來臨,信息的重要性日益突出,計(jì)算機(jī)技術(shù)的發(fā)展,為數(shù)字圖書館的發(fā)展和普及提供了良好的環(huán)境,數(shù)字圖書館正朝著多樣化、個(gè)性化和智能化的方向發(fā)展,為人們檢索信息和文獻(xiàn)提供了極大的便利。

一、數(shù)字圖書館

數(shù)字圖書館是以計(jì)算機(jī)技術(shù)為支持,實(shí)現(xiàn)圖書文獻(xiàn)資源存儲(chǔ)和處理、信息整合的新型圖書館。數(shù)字圖書館的建設(shè)基本包括如下幾個(gè)環(huán)節(jié):(1)加工和存儲(chǔ)。數(shù)字圖書館將圖書資源信息整合到自身的圖書館數(shù)據(jù)資源庫中,并發(fā)展了多樣性的存儲(chǔ)方式,提供不同的數(shù)據(jù)處理方法,方便用戶對信息檢索的需求。(2)檢索和傳輸。用戶根據(jù)自己的需要,在數(shù)字圖書館中檢索文獻(xiàn)和信息,系統(tǒng)在圖書館數(shù)據(jù)資源庫中迅速反應(yīng),整合資源,對用戶所需信息進(jìn)行傳遞,具有及時(shí)性和有針對性。整個(gè)過程都對計(jì)算機(jī)技術(shù)和軟件有很強(qiáng)的依賴性,日益發(fā)展的計(jì)算機(jī)技術(shù)讓數(shù)字圖書館的功能日益強(qiáng)大,為讀者提供更多更便捷的服務(wù)。

二、數(shù)字圖書館信息檢索的過程

(1)確定檢索要求:包括學(xué)科、時(shí)間、文獻(xiàn)類型等方面。(2)選擇信息檢索系統(tǒng):選擇貼近個(gè)人所需、收錄相關(guān)文獻(xiàn)的檢索系統(tǒng)。(3)確定檢索關(guān)鍵詞:使用規(guī)范的檢索詞,應(yīng)該以所需文獻(xiàn)內(nèi)容的主要內(nèi)容詞匯為主要檢索詞,提高檢索篩選的效率。(4)確定檢索策略:在進(jìn)行檢索之前,要熟悉檢索系統(tǒng)的性能,以用戶所需內(nèi)容和要求為參照進(jìn)行準(zhǔn)確輸入。(5)檢索結(jié)果的處理:根據(jù)用戶檢索的需求進(jìn)行匹配,輸出符合需求的內(nèi)容。(6)獲取原始文件:獲取原始文件有多種方式,信息檢索數(shù)據(jù)可以幫助用戶更迅速獲得大量原始文件。

三、網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索的發(fā)展現(xiàn)狀

數(shù)字圖書館正處于不斷發(fā)展當(dāng)中,計(jì)算機(jī)技術(shù)的突破和發(fā)展也為數(shù)字圖書館的建設(shè)提供了技術(shù)支持,提高了搜索的速度和準(zhǔn)確性,但是也應(yīng)該看到,仍然有很多問題限制了信息檢索的效率。

(一)信息檢索效率低下

信息分散性是提高檢索效率的一大障礙,網(wǎng)絡(luò)內(nèi)容龐雜分散,信息系統(tǒng)難以一次性定位準(zhǔn)確的內(nèi)容,人們需要反復(fù)檢索同一內(nèi)容才能獲得符合需求的內(nèi)容。部分網(wǎng)站通過標(biāo)題吸引但是內(nèi)容不符方式來提高網(wǎng)頁點(diǎn)擊量,妨礙了信息檢索的效率的提高。

(二)檢索對象范圍受限

隨著信息時(shí)代的發(fā)展,人們對文獻(xiàn)信息的需求量也不斷加大,但是互聯(lián)網(wǎng)在處理音頻和視頻等文件形式的檢索上仍存在技術(shù)缺陷,無法滿足日益增長的需求,這也就造成了對這些文件檢索上的困難,導(dǎo)致了檢索效率的低下。

(三)信息覆蓋率有限

隨著對文獻(xiàn)需求的加大,人們要求信息艘若的覆蓋面也不斷加大,但是實(shí)際情況是,檢索范圍和信息更新速度總是難以跟上用戶需求的增長。

(四)檢索功能單一

計(jì)算機(jī)技術(shù)雖然極大的促進(jìn)了數(shù)字圖書館的發(fā)展,但是信息檢索功能仍然比較單一化,無法為用戶提供精確的信息檢索服務(wù)。

(五)缺乏個(gè)性化服務(wù)

隨著時(shí)代的發(fā)展,人們對個(gè)性化的要求越來越高,這與目前數(shù)字圖書館信息提供缺乏個(gè)性化形成了巨大的矛盾,搜索引擎職能提供大量但卻與用戶需求匹配不高的內(nèi)容,用戶需要花費(fèi)大量時(shí)間重新在其中進(jìn)行選擇,不利于用戶及時(shí)獲得有效信息。

四、網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索的發(fā)展趨勢

數(shù)字圖書館的重要性不斷凸顯,這項(xiàng)工程的發(fā)展也帶來了很多衍生產(chǎn)品,圖書館信息檢索技術(shù)日益向多功能、智能化和個(gè)性化方向發(fā)展,不斷提高檢索的效率和便捷服務(wù)。

(一)信息檢索的智能化

信息檢索的智能化的主要形式是自然語言檢索和可視化檢索。計(jì)算機(jī)軟件根據(jù)用戶輸入的關(guān)鍵詞,在搜索出來的信息基礎(chǔ)上分類加工,選擇出更貼近用戶需求的信息。智能化建立在多個(gè)專家系統(tǒng)基礎(chǔ)上進(jìn)行檢索,結(jié)合律人工智能與檢索技術(shù),提高了檢索效率。

(二)信息檢索服務(wù)多樣化

信息檢索將突破原來的單一化方式,逐步向多樣化發(fā)展。隨著信息檢索服務(wù)的普及,信息共享也不斷提升,信息檢索將不斷融合多種功能,包括文獻(xiàn)檢索功能和文獻(xiàn)提供功能等,不斷完善檢索體系。另外,信息服務(wù)也將趨于集中化,提供更全面豐富的信息資源,可以滿足不同用戶的需求。同時(shí),信息檢索服務(wù)的質(zhì)量也不斷得到提高,更加凸顯個(gè)性化服務(wù)。

(三)網(wǎng)絡(luò)虛擬信息的組織與管理

數(shù)字圖書館擁有大量的信息資源,這些資源具有數(shù)量龐大、分散、種類多等特點(diǎn),這對用戶篩選和整理信息造成了一定的妨礙,所以信息的組織和管理就顯得更加重要。準(zhǔn)確定位有效信息是用戶對數(shù)字圖書館的期待,所以網(wǎng)絡(luò)虛擬信息的管理和組織應(yīng)該努力解決這一問題,讓用戶在更短的時(shí)間內(nèi)完成信息的檢索和整合,提供貼近用戶需求的資源。

五、結(jié)語

通過上述論述,我們可以知道,數(shù)字圖書館在當(dāng)今時(shí)代扮演著越來越重要的角色,信息時(shí)代的發(fā)展也對數(shù)字圖書館的建設(shè)提出了更多的要求,而檢索服務(wù)是用戶使用這一資源的通道,我們應(yīng)該關(guān)注目前檢索服務(wù)所存在的問題,把握檢索服務(wù)智能化、網(wǎng)絡(luò)化、多樣化和個(gè)性化的發(fā)展趨勢,不斷提高數(shù)字圖書館的服務(wù)水平,滿足不同層次客戶的不同需求,充分發(fā)揮數(shù)字圖書館的信息提供功能,促進(jìn)我國信息社會(huì)的發(fā)展。

亚洲精品无码久久久久久久性色,淫荡人妻一区二区三区在线视频,精品一级片高清无码,国产一区中文字幕无码
亚洲熟女aⅴ一区二区性色 中文字幕无线第一区 | 亚洲AV乱码二区三区涩涩屋 | 久久国产乱子精品免费久久 | 日韩一区二区精品视频在线观看 | 色男人在线视频免费观看 | 三上亚悠在线精品二区 |