摘 要: 為方便信息管理,在已有標準電子文檔基礎上,運用信息檢索原理及信息檢索實現技術,研究以關鍵字查詢方法為重點的標準平臺索引服務,建立起一個標準共享平臺。標準共享平臺運行結果表明,信息檢索技術能方便地運用于文檔的管理中。
關鍵詞: 標準共享平臺;信息檢索;關鍵字
對石油的開采、運輸等工程設計過程中需要用到大量文檔信息(國外標準、國家標準、企業標準等)。為方便標準的管理和使用,實現技術有形化及知識共享和積累,將標準的管理與信息檢索技術相結合,建立了與數字圖書館[1]類似的能通過關鍵詞查詢或任何經過定義的方式獲得所需信息的系統。通過該系統,用戶可以隨時隨地、方便而快捷地查找并獲得統一、準確的標準信息。
本文以中國石油公司的標準電子詞典開發項目為背景,整個項目是通過已有的標準電子文檔建立一個標準共享平臺[1-2]。討論以關鍵字查詢為重點的信息檢索技術的基本思想。
1 信息檢索技術
信息檢索技術的基本原理[3]是通過對大量的、分散無序的文獻信息進行搜集、加工、組織、存儲,建立檢索系統,并通過一定的方法和手段使存儲與檢索這兩個過程所采用的特征標識達到一致,以便有效地獲得和利用信息源。其核心思想是用戶信息需求與文獻信息集合的比較和選擇,是兩者匹配的過程。
信息檢索的一般過程是檢索系統將文檔集合中的文獻對象進行標引,用戶將需要查找的信息(即信息需求)表達成查詢,以信息提問的方式提交給檢索系統,則檢索系統運用預先設定的匹配算法[4]進行計算,檢索出查找對象,并最終輸出滿足用戶需要的結果。信息檢索主要過程如圖1所示。
2 信息檢索技術的實現
2.1 標準平臺提供的檢索功能
對用戶的信息需求,標準共享平臺提供分類目錄查詢和輸入關鍵字查詢兩種方式。輸入關鍵字查詢需要用戶輸入所需查詢信息的標題或標準編號中的字、詞或者發行部門等信息,計算機通過事先設置的算法返回用戶查找的信息。
2.2 關鍵字檢索技術
由于標準平臺的開發面向已有的電子文檔,因此平臺的關鍵字檢索設計主要在于解決關鍵字索引及如何查詢索引問題。
按照輸入關鍵字查詢要求,將標準名稱及對應的標準編號與標準內容通過序號建立一一對應關系[5],可將每篇文檔的標題看成是全文信息。利用倒排索引[6-7]思想,一方面將所有標準名稱及編號中的每個字按照其首字母先后順序建立一個索引,稱為詞表,它包含一個記錄表項,記錄表項記錄了出現這個字的標題所在地址信息及其編號情況。另一方面將出現的各個詞項的文檔標題或編號構成一個文件,即記錄文件。例如,表1展示了部分標準信息,針對這些標準中的詞條建立倒排索引,部分內容如表2所示。
在查找索引詞表問題上,由于詞表是按其首字母順序進行位置排序,當輸入一個字時,利用二分法[3]找到其首字母所屬段詞表,然后再對此段詞表進行順序搜索,直到查找到此字在詞表中的位置,同時找到此字的記錄表項,根據記錄表項中所記錄的標準名稱所在位置及序號找到相應的文檔標題。當輸入不止一個字時通過AND操作,找到同時包含輸入字的文檔標題,通過之前與全文信息建立的對應關系即可找到文檔信息。
3 信息檢索技術在系統中的實現
在搜索框內輸入關鍵字,便可顯示含有關鍵字的標準或文檔信息,如果沒有符合的標準,系統則輸入“無此項信息”。圖2為輸入關鍵字“腐蝕”后的檢索示意圖。
從對標準電子詞典的測試情況發現,運用倒排檢索及二分法對詞表進行查詢的方式所建立的標準共享平臺有非常高的正確率,滿足用戶要求。
標準電子詞典的成功開發,是將信息檢索技術與企業文檔管理相結合思想應用到實際工作中的一個例子,它使得用戶通過登錄系統輸入關鍵字便可以對所需標準進行搜索等操作。將工作人員從繁重的、重復的手工勞動中解放出來,提高了管理部門的管理水平。
參考文獻
[1] 黃如花,王梅,黃曉斌,等.數字圖書館原理與技術[M].湖北:武漢大學出版社,2005.
[2] 席生長,胡宏濤.信息檢索技術在中石油勘探與生產分公司門戶內的應用研究[J].福建電腦,2008(1):102-103.
[3] SHAFFER C A,張銘,劉曉丹,等.數據結構與算法分析(C++版)[M].北京:電子工業出版社,2002.
[4] 聞玉彪,賈時銀,鄧世坤,等.一種改進的最大匹配中文分詞算法[J].計算機技術與發展,2011,10(21):92-98.
[5] 王斌.從信息檢索到搜索引擎[J].術語標準化與信息技術,2009(4):38-43.
[6] 劉興宇.基于倒排索引的全文檢索技術研究[D].武漢:華中科技大學,2004.
[7] 王澤胤.全文信息檢索的快速索引文件結構及系統的設計與實現[D].吉林:吉林大學,2009.