【技術實現步驟摘要】
類似文件檢索輔助裝置以及類似文件檢索輔助方法
本專利技術涉及從大量的文件集合中檢索所希望的文件的文件檢索裝置以及文件檢索方法。特別是,本專利技術涉及類似文件檢索輔助裝置以及類似文件檢索輔助方法,其中,從將利用者指定的文章或文件作為檢索條件,將與此記載內容類似或關連的文件作為檢索對象的文件集合中進行檢索,并從類似或關連程度高的文件開始依次輸出。
技術介紹
通過互聯網等通信網絡或PC/便攜式電話等硬件的普及和低價格化、CPU的高速化、存儲器或硬盤的大容量化/低價格化、檢索系統或文件編輯器等軟件的高功能化/高性能化等,一般的人們能夠容易地訪問大量的文件信息。而另一方面,從大量的文件集合中迅速準確且低勞動量地檢索/取得所希望的文件卻變得困難。作為從大量的文件集合中檢索所希望的文件的方式,一般是關鍵字檢索。在關鍵字檢索中,利用者制作由與所希望的文件有關連的一個以上的關鍵字和表示關鍵字間的邏輯關系性的邏輯運算符(AND/OR/NOT等)構成的關鍵字邏輯式。文件檢索裝置接收來自利用者的邏輯式,從檢索對象文件集合中僅檢索該邏輯式為真的文件,并向利用者示出。但是,在關鍵字檢索中,經常存在利用者想不到為了將檢索結果文件壓縮至可閱覽的個數,應該制作怎樣的關鍵字邏輯式的情況。此外,優先輸出反映了利用者的檢索意圖的檢索結果文件的作法,在精度上來講也是困難的。而近來,在關鍵字檢索的領域中,從將由利用者輸入的任意的文章或指定的任意的文件作為檢索條件,從作為檢索對象的文件集合中檢索與此記載內容類似或關連的文件,從類似或關連程度高的文件開始依次輸出的技術普及起來。該技術被稱為類似文件檢索。 ...
【技術保護點】
一種類似文件檢索輔助方法,包括:特征詞提取處理步驟,對存儲于文件數據庫的檢索對象文件進行解析,提取特征詞以及表示其重要度的權重,并存儲于檢索目錄;類似文件檢索處理步驟,從通過對輸入裝置的操作輸入而被指定的輸入文件提取對應的加權特征詞,與存儲于上述檢索目錄的加權特征詞進行對照,并計算上述輸入文件與上述檢索對象文件之間的類似度,從類似度高的檢索對象文件開始依次決定為檢索結果文件集合;以及檢索結果輸出處理步驟,向利用者告知上述檢索結果文件集合,在該類似文件檢索輔助方法中,具有:特征詞收集處理步驟,通過上述特征詞提取處理步驟,從教師輸入文件內的文本提取或者從上述檢索目錄收集與構成教師文件表的各教師輸入文件對應的加權特征詞,并存儲于特征詞表,該教師文件表中具有多個對,所述對是正確解答文件為已知的教師輸入文件和與上述教師輸入文件對應的上述正確解答文件的對;要因數據提取處理步驟,基于針對各上述教師輸入文件由上述類似文件檢索處理步驟決定的檢索結果文件集合,確定與各教師輸入文件對應的上述正確解答文件的檢索順位,并且通過參照與上述各教師輸入文件對應的上述特征詞表、上述檢索結果文件集合、著錄信息以及上述檢索 ...
【技術特征摘要】
2012.02.24 JP 2012-0381631.一種類似文件檢索輔助方法,包括:特征詞提取處理步驟,對存儲于文件數據庫的檢索對象文件進行解析,提取特征詞以及表示其重要度的權重,并存儲于檢索目錄;類似文件檢索處理步驟,從通過對輸入裝置的操作輸入而被指定的輸入文件提取對應的加權特征詞,與存儲于上述檢索目錄的加權特征詞進行對照,并計算上述輸入文件與上述檢索對象文件之間的類似度,從類似度高的檢索對象文件開始依次決定為檢索結果文件集合;以及檢索結果輸出處理步驟,向利用者告知上述檢索結果文件集合,在該類似文件檢索輔助方法中,具有:特征詞收集處理步驟,通過上述特征詞提取處理步驟,從教師輸入文件內的文本提取或者從上述檢索目錄收集與構成教師文件表的各教師輸入文件對應的加權特征詞,并存儲于特征詞表,該教師文件表中具有多個對,所述對是正確解答文件為已知的教師輸入文件和與上述教師輸入文件對應的上述正確解答文件的對;要因數據提取處理步驟,基于針對各上述教師輸入文件由上述類似文件檢索處理步驟決定的檢索結果文件集合,確定與各教師輸入文件對應的上述正確解答文件的檢索順位,并且通過參照與上述各教師輸入文件對應的上述特征詞表、上述檢索結果文件集合、著錄信息以及上述檢索目錄中的一個以上,提取上述各教師輸入文件的要因值,并存儲于要因表,上述各教師輸入文件的要因值與作為影響類似文件檢索精度的要因而被預先定義的各要因相對應;檢索精度解析處理步驟,針對存儲于上述要因表的、與上述教師文件表內的教師輸入文件集合對應的上述要因值,基于與一個要因有關的要因值的分布或與多個要因有關的要因值的分布的組合,將上述教師輸入文件集合分割成要因組,根據與屬于一個要因組的上述教師輸入文件對應的上述正確解答文件的檢索順位計算與該要因組對應的檢索精度,并計算上述計算出的檢索精度相對于針對上述教師輸入文件的整體所計算出的檢索精度平均值之差來作為偏離值,將上述要因組、符合該要因組的上述要因值所能取的范圍、上述檢索精度、和上述偏離值存儲于檢索精度表;以及影響度計算處理步驟,將針對上述正確解答文件為未知的新輸入文件所獲得的上述要因值與存儲于上述檢索精度表的各要因組的值范圍進行對照,由此,提取與滿足上述值范圍的要因組對應的上述檢索精度以及偏離值,并與該新輸入文件的上述要因值一同存儲于影響度表,在上述檢索結果輸出處理步驟中,向利用者示出存儲在上述影響度表中的與新輸入文件對應的上述要因值、以及上述檢索精度和/或上述偏離值。2.一種類似文件檢索輔助方法,包括:特征詞提取處理步驟,對存儲于文件數據庫的檢索對象文件進行解析,提取特征詞以及表示其重要度的權重,并存儲于檢索目錄;類似文件檢索處理步驟,從通過對輸入裝置的操作輸入而被指定的輸入文件提取對應的加權特征詞,與存儲于上述檢索目錄的加權特征詞進行對照,并計算上述輸入文件與上述檢索對象文件之間的類似度,從類似度高的檢索對象文件開始依次決定為檢索結果文件集合;以及檢索結果輸出處理步驟,向利用者告知上述檢索結果文件集合,在該類似文件檢索輔助方法中,具有:特征詞收集處理步驟,通過上述特征詞提取處理步驟,從教師輸入文件內的文本提取或者從上述檢索目錄收集與構成教師文件表的教師輸入文件分別對應的加權特征詞,并存儲于特征詞表,該教師文件表中具有多個對,所述對是正確解答文件為已知的教師輸入文件和與上述教師輸入文件對應的上述正確解答文件的對;要因數據提取處理步驟,基于針對各上述教師輸入文件由上述類似文件檢索處理步驟決定的檢索結果文件集合,確定與各教師輸入文件對應的上述正確解答文件的檢索順位,并且通過參照與上述各教師輸入文件對應的上述特征詞表、上述檢索結果文件集合、著錄信息以及上述檢索目錄中的一個以上,提取上述各教師輸入文件的要因值,并存儲于要因表,上述各教師輸入文件的要因值與作為影響類似文件檢索精度的要因而被預先定義的各要因相對應;以及影響度計算處理步驟,對于針對上述正確解答文件為未知的新輸入文件所獲得的上述要因值,確定由滿足與一個要因有關的與新輸入文件對應的要因值或其附近值的上述教師輸入文件、或完全滿足與多個要因有關的與新輸入文件對應的要因值或其附近值的上述教師輸入文件構成的文件群,根據與屬于上述文件群的上述教師輸入文件對應的上述正確解答文件的檢索順位來計算與該文件群對應的檢索精度,并計算上述計算出的檢索精度相對于對上述教師輸入文件的整體所計算出的檢索精度平均值之差來作為偏離值,將上述要因值、上述檢索精度以及上述偏離值存儲于影響度表,在上述檢索結果輸出處理步驟中,向利用者示出存儲在上述影響度表中的與新輸入文件對應的上述要因值、以及上述檢索精度和/或上述偏離值。3.根據權利要求1或2中所述的類似文件檢索輔助方法,其特征在于,影響上述類似文件檢索精度的要因包含以下所示的(1)~(12)中的至少一個以上:(1)相對于由預先指定的件數構成的各順位靠前檢索結果文件的、輸入文件中的各特征詞的總命中數或其比例;(2)上述(1)的總命中數中的、輸入文件中的特征詞在檢索結果文件中的權重為預先指定的閾值以上的數量或其比例;(3)上述(1)的總命中數中的、與輸入文件中的特征詞有關的部分類似度或該部分類似度占檢索結果文件的類似度的比例;(4)上述(2)的數量或其比例除以上述(1)的數量或其比例后得到的值;(5)上述(3)的部分類似度或其比例除以上述(1)的數量或其比例后得到的值;(6)在上述順位靠前檢索結果文件中,輸入文件的一個特征詞的命中件數為預先指定的閾值以上的特征詞的個數或其比例;(7)在上述順位靠前檢索結果文件中,輸入文件的一個特征詞的命中件數為預先指定的閾值以下的特征詞的個數或其比例;(8)上述順位靠前檢索結果文件的類似度伴隨檢索順位的降低而衰減的比例;(9)在上述順位靠前檢索結果文件中,被賦予了賦予給輸入文件的分類的件數或其比例;(10)在作為檢索對象的所有文件中,被賦予了賦予給輸入文件的分類的件數或其比例;(11)在上述順位靠前檢索結果文件中,與輸入文件之間著者共同的件數或其比例;(12)在上述順位靠前檢索結果文件中,與輸入文件之間的發行日的偏離為預先指定的閾值以內的件數或其比例。4.根據權利要求1或2中所述的類似文件檢索輔助方法,其特征在于,上述檢索精度為與上述教師輸入文件對應的上述正確解答文件通過上述類似文件檢索處理步驟被認定為在預先指定的順位以內的上述教師輸入文件的件數的比例。5.根據權利要求1中所述的類似文件檢索輔助方法,其特征在于,在上述檢索精度解析處理步驟中使用的上述教師輸入文件所對應的要因表中的要因值僅由滿足預先指定的條件的上述教師輸入文件所對應的要因值構成。6.根據權利要求1或2中所述的類似文件檢索輔助方法,其特征在于,在上述檢索結果輸出處理步驟中,在向利用者示出存儲在上述影響度表中的與新輸入文件對應的要因值、以及檢索精度和/或偏離值時,隨附顯示對應表,該對應表將上述新輸入文件的特征詞和與上述新輸入文件對應的順位靠前檢索結果文件作為2個軸,且將上述順位靠前檢索結果文件i中的新輸入文件的特征詞j的權重值Wij、或上述順位靠前檢索結果文件i中的新輸入文件的特征詞j所具有的部分類似度Sij作為值。7.根據權利要求1或2中所述的類似文件檢索輔助方法,其特征在于,設置對策表,該對策表從上述各要因的視點出發,按每個上述要因組存儲有記載了利用者該做什么的對策內容、記載了怎樣進行上述對策內容的操作方法、為了進行上述操作方法而應該遷移的畫面信息,來作為用于使利用者獲得更好的類似文件檢索結果的對策信息,在上述檢索結果輸出處理步驟中,在向利用者示出存儲于上述影響度表的要因值、以及檢索精度和/或偏離值時,使記載于上述對策表中的上述對策內容、上述操作方法、上述畫面信息的至少一個附隨...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。