信息檢索
信息檢索的手段
(1)手工檢索(2)光盤檢索
(3)聯(lián)機(jī)檢索(4)概括起來分為手工檢索和機(jī)械檢索:
手工檢索:指利用印刷型檢索書刊檢索信息的過程,優(yōu)點(diǎn)是回溯性好,沒有時(shí)間限制,不收費(fèi),缺點(diǎn)是費(fèi)時(shí),效率低。
機(jī)械檢索:指利用計(jì)算機(jī)檢索數(shù)據(jù)庫(kù)的過程,優(yōu)點(diǎn)是速度快,缺點(diǎn)是回溯性不好,且有時(shí)間限制。
計(jì)算機(jī)檢索、網(wǎng)絡(luò)文獻(xiàn)檢索將成為信息檢索的主流。
網(wǎng)絡(luò)信息檢索,也即網(wǎng)絡(luò)信息搜索,是指互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)終端,通過特定的網(wǎng)絡(luò)搜索工具或是通過瀏覽的方式,查找并獲取信息的行為。
中文信息檢索

中文信息檢索
【Chinese information retrieval】對(duì)中文文獻(xiàn)進(jìn)行儲(chǔ)存、檢索和各種管理的方法和技術(shù)。中文文獻(xiàn)檢索技術(shù)出現(xiàn)在1974年,20世紀(jì)80年代得到了快速增長(zhǎng),90年代主要研究支持復(fù)合文檔的文檔管理系統(tǒng)。中文信息檢索在90年代之前都被稱為情報(bào)檢索,其主要研究?jī)?nèi)容有:包括布爾檢索模型、向量空間模型和概率檢索模型在內(nèi)的信息檢索數(shù)學(xué)模型;如何進(jìn)行自動(dòng)錄入和其它操作的文獻(xiàn)處理;進(jìn)行詞法分析的提問和詞法處理;實(shí)現(xiàn)技術(shù);對(duì)查全率和查準(zhǔn)率研究的檢索效用;標(biāo)準(zhǔn)化;擴(kuò)展傳統(tǒng)信息檢索的范圍等。中文信息檢索主要書目的檢索,用于政府部門、信息中心等部門。技術(shù)簡(jiǎn)介
總體上,系統(tǒng)可分為四個(gè)部分:1. 數(shù)據(jù)預(yù)處理,2.索引生成,3. 查詢處理,4. 檢索。下面我們分別對(duì)各個(gè)部分采用的技術(shù)加以介紹。
數(shù)據(jù)預(yù)處理如今檢索系統(tǒng)的主要數(shù)據(jù)來源是Web,格式包括網(wǎng)頁、WORD 文檔、PDF 文檔等,這些格式的數(shù)據(jù)除了正文內(nèi)容之外,還有大量的標(biāo)記信息,因此從多種格式的數(shù)據(jù)中提取正文和其他所需的信息就成為數(shù)據(jù)預(yù)處理的主要任務(wù)。此外,眾所周知,中文字符存在多種編碼,比如GB2312、BIG5、Unicode(CJK 區(qū)),而原始數(shù)據(jù)集往往包含多種編碼,因此要正確地檢索到結(jié)果必須進(jìn)行統(tǒng)一編碼轉(zhuǎn)換。研究者們對(duì)預(yù)處理部分要提取哪些信息并沒有共識(shí),這與后續(xù)處理所需的信息密切相關(guān),一般來說,正文、錨文本和鏈接地址都是要提取出來的。
索引生成對(duì)原始數(shù)據(jù)建索引是為了快速定位查詢?cè)~所在的位置,為了達(dá)到這個(gè)目的,索引的結(jié)構(gòu)非常關(guān)鍵。如今主流的方法是以詞為單位構(gòu)造倒排文檔表,每個(gè)文檔都由一串詞組成,而用戶輸入的查詢條件通常是若干關(guān)鍵詞,因此如果預(yù)先記錄這些詞出現(xiàn)的位置,那么只要在索引文件中找到這些詞,也就找到了包含它們的文檔。為了進(jìn)一步提高查詢的速度,在組織索引時(shí)還可以采用一些更復(fù)雜的方法,比如B樹、TRIE 樹、哈希表等。這個(gè)階段還需要對(duì)預(yù)處理之后的文檔進(jìn)行詞法分析,這是因?yàn)楹芏嗾Z言的文本都不宜直接把正文中的字符串用于建立索引。例如,中文里的詞與詞之間不存在分隔符,因此必須先進(jìn)行分詞,而英文中的詞存在很多變形,比如“compute”就存在“computes”、“computing”、“computed”等多種變形,應(yīng)先進(jìn)行詞根還原。此外,有些詞雖然出現(xiàn)頻率很高,但對(duì)于查詢沒有任何幫助,比如“的”、“了”等,就無需放入索引,為此需要預(yù)備一個(gè)停用詞表(stop word list)對(duì)這類詞進(jìn)行過濾。
查詢處理用戶輸入的查詢條件可以有多種形式,包括關(guān)鍵詞、布爾表達(dá)式、自然語言形式的描述語句甚至是文本,但如果把這些輸入僅當(dāng)作關(guān)鍵詞去檢索,顯然不能準(zhǔn)確把握用戶的真實(shí)信息需求。很多系統(tǒng)采用查詢擴(kuò)展來克服這一問題。各種語言中都會(huì)存在很多同義詞,比如查“計(jì)算機(jī)”的時(shí)候,包含“電腦”的結(jié)果也應(yīng)一并返回,這種情況通常會(huì)采用查詞典的方法解決。但完全基于詞典所能提供的信息有限,而且很多時(shí)候并不適宜簡(jiǎn)單地以同義詞替換方法進(jìn)行擴(kuò)展,因此很多研究者還采用相關(guān)反饋、關(guān)聯(lián)矩陣等方法對(duì)查詢條件進(jìn)行深入挖掘。
檢索最簡(jiǎn)單的檢索系統(tǒng)只需要按照查詢?cè)~之間的邏輯關(guān)系返回相應(yīng)的文檔就可以了,但這種做法顯然不能表達(dá)結(jié)果與查詢之間的深層關(guān)系。為了把最符合用戶需求的結(jié)果顯示在前面,還需要利用各種信息對(duì)結(jié)果進(jìn)行重排序。目前有兩大主流技術(shù)用于分析結(jié)果和查詢的相關(guān)性:鏈接分析和基于內(nèi)容的計(jì)算。許多研究者發(fā)現(xiàn),WWW 上超鏈結(jié)構(gòu)是個(gè)非常豐富和重要的資源,如果能夠充分利用的話,可以極大地提高檢索結(jié)果的質(zhì)量?;谶@種鏈接分析的思想,Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法,同年J.Kleinberg 提出了HITS 算法,其它一些學(xué)者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。這些算法有的已經(jīng)在實(shí)際的系統(tǒng)中實(shí)現(xiàn)和使用,并且取得了良好的效果。而基于內(nèi)容的計(jì)算則沿用傳統(tǒng)的文本分類方法,多采用向量空間模型、概率模型等方法來逐一計(jì)算用戶查詢和結(jié)果的相似度(相關(guān)性)。兩者各有優(yōu)缺點(diǎn),而且恰好互補(bǔ)。鏈接分析充分利用了Web 上豐富的鏈接結(jié)構(gòu)信息,但它很少考慮網(wǎng)頁本身的內(nèi)容,而直觀上看,基于內(nèi)容的計(jì)算則較為深入地揭示了查詢和結(jié)果之間的語義關(guān)系,但忽略了不同網(wǎng)頁之間的指向關(guān)系,因此如今很多系統(tǒng)嘗試把兩者結(jié)合起來,以達(dá)到更好的性能。
研究現(xiàn)狀
評(píng)價(jià)指標(biāo)
為便于理解評(píng)測(cè)結(jié)果所代表的意義,我們先來介紹一下評(píng)測(cè)中常用的指標(biāo)。評(píng)測(cè)指標(biāo)直接關(guān)系到參評(píng)系統(tǒng)的最終評(píng)價(jià),指標(biāo)不合理會(huì)導(dǎo)致對(duì)系統(tǒng)的評(píng)價(jià)也不合理,因此規(guī)范化的評(píng)測(cè)會(huì)議對(duì)于評(píng)價(jià)指標(biāo)的選擇都是很慎重的。
早期常用的評(píng)測(cè)指標(biāo)包括準(zhǔn)確率(Precision)、召回率(Recall)、F1 值等。
召回率考察系統(tǒng)找全答案的能力,而準(zhǔn)確率考察系統(tǒng)找準(zhǔn)答案的能力,兩者相輔相成,從兩個(gè)不同側(cè)面較為全面地反映了系統(tǒng)性能。F1 值是一個(gè)把準(zhǔn)確率和召回率結(jié)合起來的指標(biāo)??紤]到某些情況下不同系統(tǒng)的準(zhǔn)確率和召回率互有高低,不便于直接比較,而使用F1 值就可以更直觀地對(duì)系統(tǒng)性能進(jìn)行排序。
隨著測(cè)試集規(guī)模的擴(kuò)大以及人們對(duì)評(píng)測(cè)結(jié)果理解的深入,更準(zhǔn)確反映系統(tǒng)性能的新評(píng)價(jià)指標(biāo)逐漸出現(xiàn),包括:
1. 平均準(zhǔn)確率(Mean Average Precision,即MAP):?jiǎn)蝹€(gè)主題的MAP 是每篇相關(guān)文檔檢索出后的準(zhǔn)確率的平均值。主題集合的MAP 是每個(gè)主題的MAP 的平均值。MAP 是反映系統(tǒng)在全部相關(guān)文檔上性能的單值指標(biāo)。
2. R-Precision:?jiǎn)蝹€(gè)主題的R-Precision 是檢索出R 篇文檔時(shí)的準(zhǔn)確率。其中R 是測(cè)試集中與主題相關(guān)的文檔的數(shù)目。主題集合的R-Precision 是每個(gè)主題的R-Precision 的平均值。
3. P@10:P@10 是系統(tǒng)對(duì)于該主題返回的前10 個(gè)結(jié)果的準(zhǔn)確率。考慮到用戶在查看搜索引擎結(jié)果時(shí),往往希望在第一個(gè)頁面(通常為10 個(gè)結(jié)果)就找到自己所需的信息,因此設(shè)置了這樣一個(gè)擬人化的指標(biāo),P@10 常常能比較有效地反映系統(tǒng)在真實(shí)應(yīng)用環(huán)境下所表現(xiàn)的性能。