• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    類似文件檢索輔助裝置以及類似文件檢索輔助方法制造方法及圖紙

    技術編號:9143234 閱讀:176 留言:0更新日期:2013-09-12 04:44
    本發明專利技術提供一種類似文件檢索輔助方法及裝置,通過向利用者示出影響類似文件檢索精度的要因對檢索精度的影響程度和關于面向檢索精度提高的對策的信息,使利用者的檢索作業處理的循環高效地運轉,并使檢索作業的效率和質量提高。針對過去的輸入文件與正確解答文件的對的集合,進行關于上述要因的解析,使要因的值范圍與檢索精度建立對應并存儲于表中。通過計算機處理,對新輸入文件進行相同的要因解析,與上述表對照來計算與符合新輸入文件的要因值的值范圍相應的檢索精度。之后,通過計算機處理,向利用者示出檢索精度以及/或者相對于過去的輸入文件整體的檢索精度平均的偏離值。更理想的情況下,也向利用者示出用于提高檢索精度的對策信息。

    【技術實現步驟摘要】
    類似文件檢索輔助裝置以及類似文件檢索輔助方法
    本專利技術涉及從大量的文件集合中檢索所希望的文件的文件檢索裝置以及文件檢索方法。特別是,本專利技術涉及類似文件檢索輔助裝置以及類似文件檢索輔助方法,其中,從將利用者指定的文章或文件作為檢索條件,將與此記載內容類似或關連的文件作為檢索對象的文件集合中進行檢索,并從類似或關連程度高的文件開始依次輸出。
    技術介紹
    通過互聯網等通信網絡或PC/便攜式電話等硬件的普及和低價格化、CPU的高速化、存儲器或硬盤的大容量化/低價格化、檢索系統或文件編輯器等軟件的高功能化/高性能化等,一般的人們能夠容易地訪問大量的文件信息。而另一方面,從大量的文件集合中迅速準確且低勞動量地檢索/取得所希望的文件卻變得困難。作為從大量的文件集合中檢索所希望的文件的方式,一般是關鍵字檢索。在關鍵字檢索中,利用者制作由與所希望的文件有關連的一個以上的關鍵字和表示關鍵字間的邏輯關系性的邏輯運算符(AND/OR/NOT等)構成的關鍵字邏輯式。文件檢索裝置接收來自利用者的邏輯式,從檢索對象文件集合中僅檢索該邏輯式為真的文件,并向利用者示出。但是,在關鍵字檢索中,經常存在利用者想不到為了將檢索結果文件壓縮至可閱覽的個數,應該制作怎樣的關鍵字邏輯式的情況。此外,優先輸出反映了利用者的檢索意圖的檢索結果文件的作法,在精度上來講也是困難的。而近來,在關鍵字檢索的領域中,從將由利用者輸入的任意的文章或指定的任意的文件作為檢索條件,從作為檢索對象的文件集合中檢索與此記載內容類似或關連的文件,從類似或關連程度高的文件開始依次輸出的技術普及起來。該技術被稱為類似文件檢索。另外,該技術也被稱為概念檢索、自然語言檢索、自然語句檢索、模糊檢索、聯想檢索。類似文件檢索通過以下的處理來實現。首先,從構成作為檢索對象的文件集合的各檢索對象文件提取表現記載內容的特征的特征詞,此后,對各特征詞計算/賦予與其重要度相對應的權重,由此,生成由一個以上的加權特征詞構成的特征詞矢量,并預先存儲于檢索目錄。此外,也通過相同的方法,從利用者所輸入的文章或所指定的文件(以下,統稱為“輸入文件”)提取加權特征詞并生成特征詞矢量。接著,將通過輸入文件所生成的特征矢量與各檢索對象文件的特征矢量相對照,計算兩者的類似度。特征矢量間的內積或特征矢量成角的余弦值經常被用作類似度的計算。此后,將按降序對類似度進行排序所獲得的順位靠前的文件作為與輸入文件類似的文件輸出。現有技術文獻專利文獻專利文獻1日本特開2002-230032號公報專利文獻2日本特開1995-192020號公報專利文獻3日本特開2000-311173號公報專利技術所要解決的課題在類似文件檢索中,能夠將自己腦中想起的任意文章或手頭的文件直接作為檢索條件來進行指定,因此,具有無需利用者制作關鍵字邏輯式的優點。此外,能夠從與輸入文件的內容類似程度高的文件開始賦予順位地進行輸出,因此,也具有利用者能夠迅速找到所希望的文件的優點。但是,在類似文件檢索中,通過對照將大量的加權特征詞作為要素的特征詞矢量,判斷輸入文件與檢索對象文件之間的類似性。因此,所具有的缺點是:利用者很難理解檢索依據,即為什么此文件被作為類似文件輸出。更具體地講,在類似文件檢索中存在以下所示的4個課題。·課題(1):不能理解輸入文件中的哪個特征詞為類似文件檢索結果的輸出做出了何種程度的貢獻。·課題(2):不能理解類似文件檢索進展順利的程度。·課題(3):不能理解類似文件檢索進展不順利的情況下,其原因是什么。·課題(4):不能理解類似文件檢索進展不順利的情況下,接下來如何才能獲得更好的檢索結果。作為與上述課題(1)有關連的技術文獻,包括專利文獻1以及專利文獻2。這些專利文獻中所記載的專利技術通過以檢索結果和檢索中所使用的項目為軸而構成的表或曲線的形態來顯示檢索結果。在專利文獻1中,基于多個判斷基準,計算按判斷基準的文件適合值,并計算將這些值匯總得到的綜合文件適合值。在輸出文件檢索結果時,將檢索結果文件和判斷基準作為2軸,輸出以按檢索結果文件的綜合文件適合值以及按判斷基準的文件適合值為值的表。通過該表,利用者能夠理解哪個判斷基準為哪個檢索結果文件的輸出做出了怎樣的貢獻。在專利文獻2中,對輸入文件進行解析,分為多個不同的視點,按視點變換成檢索命令,分各視點地計算輸入文件與檢索對象文件之間的類似度,并將這些綜合起來輸出檢索結果。在輸出檢查結果時,使用被指定的視點作為軸,二維或三維地顯示檢索命令與檢索結果文件的類似程度。通過該顯示,利用者能夠理解基于哪個視點被輸出了哪個檢索結果文件。上述專利文獻1以及2中所記載的專利技術使用以檢索結果和檢索中所使用的項目(視點,判斷基準)為軸而構成的表或曲線來顯示檢索結果,由此來解決上述課題(1)。但是,這些專利技術并未言及解決其他課題(2)、(3)、(4)的結構。例如,關于上述課題(2),為了使利用者能夠理解類似文件檢索是否進展順利,需要根據各種要因來解析輸入文件與檢索對象文件之間的類似性,并以利用者能夠按要因評價類似文件檢索的優劣的方式提供方案。與該課題(2)有關聯的技術文獻中包括專利文獻3。專利文獻3中記載了如下的手法:首先,根據過去的檢索結果,按已賦予檢索結果文件的分類預先計算與通過類似文件檢索所檢索到的類似文件的類似度的值范圍對應的檢索精度;接著,根據對新輸入文件的檢索結果文件的各類似度以及分類,確定與該分類中的類似度對應的檢索精度;此后,將該檢索結果文件的類似度的值與該被確定的檢索精度的值置換來作為準確度,以準確度由高到低的順序重排列檢索結果并進行顯示,由此,提高檢索精度。但是,專利文獻3中所記載的手法僅基于類似度與檢索精度的對應關系,將類似度置換為檢索精度,并對檢索結果文件的顯示順序進行補正(重排列)。因此,通過專利文獻3中所言及的結構,利用者不能理解檢索不順利的要因或基于該要因接下來該做什么。在類似文件檢索中,經常要求“檢索條件指定→檢索執行→把握檢索結果的傾向或要因→檢索條件修正→再檢索”這樣的檢索作業處理的循環高效地運轉,即,使檢索作業高效化。該檢索作業的高效化需要以下的結構:向利用者示出檢索結果,并且還示出關于檢索結果的依據/原因/應對方法等的信息,以利用者面對下次檢索能夠高效且準確地修正檢索條件的方式進行輔助。但是,專利文獻3中所記載的手法僅限于基于類似度與檢索精度的對應關系的檢索結果文件的重排列,并未公開把握檢索結果的傾向或要因來修正檢索條件并進行再檢索這樣的用于使檢索作業處理的循環高效地運轉的結構。結果,通過專利文獻3中所記載的手法,不能解決上述課題(3)、(4)。此外,專利文獻3中所著眼的僅僅是類似度的值本身和檢索結果文件所屬的分類。但是,定量地表示文件間的類似性的類似度一般是在多個微觀要因影響之下所計算的值。作為這里所稱的要因的具體例,可列舉出:用于檢索的輸入文件的特征詞的質量和數量、檢索對象文件的內容/構造/文章量的不均、文件執筆者的異同數或不特定性、檢索對象文件中所使用的特征詞的質量或不均等。因此,僅通過對類似度本身的值與檢索精度之間的關系性進行解析,并不能確定檢索進展不順利的要因。這里的要因確定必須對更微觀的要因與檢索精度的關系進行解析,很好地識別出使檢索精本文檔來自技高網...
    類似文件檢索輔助裝置以及類似文件檢索輔助方法

    【技術保護點】
    一種類似文件檢索輔助方法,包括:特征詞提取處理步驟,對存儲于文件數據庫的檢索對象文件進行解析,提取特征詞以及表示其重要度的權重,并存儲于檢索目錄;類似文件檢索處理步驟,從通過對輸入裝置的操作輸入而被指定的輸入文件提取對應的加權特征詞,與存儲于上述檢索目錄的加權特征詞進行對照,并計算上述輸入文件與上述檢索對象文件之間的類似度,從類似度高的檢索對象文件開始依次決定為檢索結果文件集合;以及檢索結果輸出處理步驟,向利用者告知上述檢索結果文件集合,在該類似文件檢索輔助方法中,具有:特征詞收集處理步驟,通過上述特征詞提取處理步驟,從教師輸入文件內的文本提取或者從上述檢索目錄收集與構成教師文件表的各教師輸入文件對應的加權特征詞,并存儲于特征詞表,該教師文件表中具有多個對,所述對是正確解答文件為已知的教師輸入文件和與上述教師輸入文件對應的上述正確解答文件的對;要因數據提取處理步驟,基于針對各上述教師輸入文件由上述類似文件檢索處理步驟決定的檢索結果文件集合,確定與各教師輸入文件對應的上述正確解答文件的檢索順位,并且通過參照與上述各教師輸入文件對應的上述特征詞表、上述檢索結果文件集合、著錄信息以及上述檢索目錄中的一個以上,提取上述各教師輸入文件的要因值,并存儲于要因表,上述各教師輸入文件的要因值與作為影響類似文件檢索精度的要因而被預先定義的各要因相對應;檢索精度解析處理步驟,針對存儲于上述要因表的、與上述教師文件表內的教師輸入文件集合對應的上述要因值,基于與一個要因有關的要因值的分布或與多個要因有關的要因值的分布的組合,將上述教師輸入文件集合分割成要因組,根據與屬于一個要因組的上述教師輸入文件對應的上述正確解答文件的檢索順位計算與該要因組對應的檢索精度,并計算上述計算出的檢索精度相對于針對上述教師輸入文件的整體所 計算出的檢索精度平均值之差來作為偏離值,將上述要因組、符合該要因組的上述要因值所能取的范圍、上述檢索精度、和上述偏離值存儲于檢索精度表;以及影響度計算處理步驟,將針對上述正確解答文件為未知的新輸入文件所獲得的上述要因值與存儲于上述檢索精度表的各要因組的值范圍進行對照,由此,提取與滿足上述值范圍的要因組對應的上述檢索精度以及偏離值,并與該新輸入文件的上述要因值一同存儲于影響度表,在上述檢索結果輸出處理步驟中,向利用者示出存儲在上述影響度表中的與新輸入文件對應的上述要因值、以及上述檢索精度和/或上述偏離值。...

    【技術特征摘要】
    2012.02.24 JP 2012-0381631.一種類似文件檢索輔助方法,包括:特征詞提取處理步驟,對存儲于文件數據庫的檢索對象文件進行解析,提取特征詞以及表示其重要度的權重,并存儲于檢索目錄;類似文件檢索處理步驟,從通過對輸入裝置的操作輸入而被指定的輸入文件提取對應的加權特征詞,與存儲于上述檢索目錄的加權特征詞進行對照,并計算上述輸入文件與上述檢索對象文件之間的類似度,從類似度高的檢索對象文件開始依次決定為檢索結果文件集合;以及檢索結果輸出處理步驟,向利用者告知上述檢索結果文件集合,在該類似文件檢索輔助方法中,具有:特征詞收集處理步驟,通過上述特征詞提取處理步驟,從教師輸入文件內的文本提取或者從上述檢索目錄收集與構成教師文件表的各教師輸入文件對應的加權特征詞,并存儲于特征詞表,該教師文件表中具有多個對,所述對是正確解答文件為已知的教師輸入文件和與上述教師輸入文件對應的上述正確解答文件的對;要因數據提取處理步驟,基于針對各上述教師輸入文件由上述類似文件檢索處理步驟決定的檢索結果文件集合,確定與各教師輸入文件對應的上述正確解答文件的檢索順位,并且通過參照與上述各教師輸入文件對應的上述特征詞表、上述檢索結果文件集合、著錄信息以及上述檢索目錄中的一個以上,提取上述各教師輸入文件的要因值,并存儲于要因表,上述各教師輸入文件的要因值與作為影響類似文件檢索精度的要因而被預先定義的各要因相對應;檢索精度解析處理步驟,針對存儲于上述要因表的、與上述教師文件表內的教師輸入文件集合對應的上述要因值,基于與一個要因有關的要因值的分布或與多個要因有關的要因值的分布的組合,將上述教師輸入文件集合分割成要因組,根據與屬于一個要因組的上述教師輸入文件對應的上述正確解答文件的檢索順位計算與該要因組對應的檢索精度,并計算上述計算出的檢索精度相對于針對上述教師輸入文件的整體所計算出的檢索精度平均值之差來作為偏離值,將上述要因組、符合該要因組的上述要因值所能取的范圍、上述檢索精度、和上述偏離值存儲于檢索精度表;以及影響度計算處理步驟,將針對上述正確解答文件為未知的新輸入文件所獲得的上述要因值與存儲于上述檢索精度表的各要因組的值范圍進行對照,由此,提取與滿足上述值范圍的要因組對應的上述檢索精度以及偏離值,并與該新輸入文件的上述要因值一同存儲于影響度表,在上述檢索結果輸出處理步驟中,向利用者示出存儲在上述影響度表中的與新輸入文件對應的上述要因值、以及上述檢索精度和/或上述偏離值。2.一種類似文件檢索輔助方法,包括:特征詞提取處理步驟,對存儲于文件數據庫的檢索對象文件進行解析,提取特征詞以及表示其重要度的權重,并存儲于檢索目錄;類似文件檢索處理步驟,從通過對輸入裝置的操作輸入而被指定的輸入文件提取對應的加權特征詞,與存儲于上述檢索目錄的加權特征詞進行對照,并計算上述輸入文件與上述檢索對象文件之間的類似度,從類似度高的檢索對象文件開始依次決定為檢索結果文件集合;以及檢索結果輸出處理步驟,向利用者告知上述檢索結果文件集合,在該類似文件檢索輔助方法中,具有:特征詞收集處理步驟,通過上述特征詞提取處理步驟,從教師輸入文件內的文本提取或者從上述檢索目錄收集與構成教師文件表的教師輸入文件分別對應的加權特征詞,并存儲于特征詞表,該教師文件表中具有多個對,所述對是正確解答文件為已知的教師輸入文件和與上述教師輸入文件對應的上述正確解答文件的對;要因數據提取處理步驟,基于針對各上述教師輸入文件由上述類似文件檢索處理步驟決定的檢索結果文件集合,確定與各教師輸入文件對應的上述正確解答文件的檢索順位,并且通過參照與上述各教師輸入文件對應的上述特征詞表、上述檢索結果文件集合、著錄信息以及上述檢索目錄中的一個以上,提取上述各教師輸入文件的要因值,并存儲于要因表,上述各教師輸入文件的要因值與作為影響類似文件檢索精度的要因而被預先定義的各要因相對應;以及影響度計算處理步驟,對于針對上述正確解答文件為未知的新輸入文件所獲得的上述要因值,確定由滿足與一個要因有關的與新輸入文件對應的要因值或其附近值的上述教師輸入文件、或完全滿足與多個要因有關的與新輸入文件對應的要因值或其附近值的上述教師輸入文件構成的文件群,根據與屬于上述文件群的上述教師輸入文件對應的上述正確解答文件的檢索順位來計算與該文件群對應的檢索精度,并計算上述計算出的檢索精度相對于對上述教師輸入文件的整體所計算出的檢索精度平均值之差來作為偏離值,將上述要因值、上述檢索精度以及上述偏離值存儲于影響度表,在上述檢索結果輸出處理步驟中,向利用者示出存儲在上述影響度表中的與新輸入文件對應的上述要因值、以及上述檢索精度和/或上述偏離值。3.根據權利要求1或2中所述的類似文件檢索輔助方法,其特征在于,影響上述類似文件檢索精度的要因包含以下所示的(1)~(12)中的至少一個以上:(1)相對于由預先指定的件數構成的各順位靠前檢索結果文件的、輸入文件中的各特征詞的總命中數或其比例;(2)上述(1)的總命中數中的、輸入文件中的特征詞在檢索結果文件中的權重為預先指定的閾值以上的數量或其比例;(3)上述(1)的總命中數中的、與輸入文件中的特征詞有關的部分類似度或該部分類似度占檢索結果文件的類似度的比例;(4)上述(2)的數量或其比例除以上述(1)的數量或其比例后得到的值;(5)上述(3)的部分類似度或其比例除以上述(1)的數量或其比例后得到的值;(6)在上述順位靠前檢索結果文件中,輸入文件的一個特征詞的命中件數為預先指定的閾值以上的特征詞的個數或其比例;(7)在上述順位靠前檢索結果文件中,輸入文件的一個特征詞的命中件數為預先指定的閾值以下的特征詞的個數或其比例;(8)上述順位靠前檢索結果文件的類似度伴隨檢索順位的降低而衰減的比例;(9)在上述順位靠前檢索結果文件中,被賦予了賦予給輸入文件的分類的件數或其比例;(10)在作為檢索對象的所有文件中,被賦予了賦予給輸入文件的分類的件數或其比例;(11)在上述順位靠前檢索結果文件中,與輸入文件之間著者共同的件數或其比例;(12)在上述順位靠前檢索結果文件中,與輸入文件之間的發行日的偏離為預先指定的閾值以內的件數或其比例。4.根據權利要求1或2中所述的類似文件檢索輔助方法,其特征在于,上述檢索精度為與上述教師輸入文件對應的上述正確解答文件通過上述類似文件檢索處理步驟被認定為在預先指定的順位以內的上述教師輸入文件的件數的比例。5.根據權利要求1中所述的類似文件檢索輔助方法,其特征在于,在上述檢索精度解析處理步驟中使用的上述教師輸入文件所對應的要因表中的要因值僅由滿足預先指定的條件的上述教師輸入文件所對應的要因值構成。6.根據權利要求1或2中所述的類似文件檢索輔助方法,其特征在于,在上述檢索結果輸出處理步驟中,在向利用者示出存儲在上述影響度表中的與新輸入文件對應的要因值、以及檢索精度和/或偏離值時,隨附顯示對應表,該對應表將上述新輸入文件的特征詞和與上述新輸入文件對應的順位靠前檢索結果文件作為2個軸,且將上述順位靠前檢索結果文件i中的新輸入文件的特征詞j的權重值Wij、或上述順位靠前檢索結果文件i中的新輸入文件的特征詞j所具有的部分類似度Sij作為值。7.根據權利要求1或2中所述的類似文件檢索輔助方法,其特征在于,設置對策表,該對策表從上述各要因的視點出發,按每個上述要因組存儲有記載了利用者該做什么的對策內容、記載了怎樣進行上述對策內容的操作方法、為了進行上述操作方法而應該遷移的畫面信息,來作為用于使利用者獲得更好的類似文件檢索結果的對策信息,在上述檢索結果輸出處理步驟中,在向利用者示出存儲于上述影響度表的要因值、以及檢索精度和/或偏離值時,使記載于上述對策表中的上述對策內容、上述操作方法、上述畫面信息的至少一個附隨...

    【專利技術屬性】
    技術研發人員:間賴久雄藤稿航平
    申請(專利權)人:株式會社日立制作所
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 五十路熟妇高熟无码视频 | 久久久无码精品亚洲日韩按摩| 日日摸日日碰人妻无码| 午夜无码伦费影视在线观看| 东京热av人妻无码| 东京热人妻无码一区二区av| 无码任你躁久久久久久老妇| 中文字幕无码乱人伦| 亚洲AV无码一区二区三区网址| 亚洲国产精品无码专区影院| 亚洲色中文字幕无码AV| 国产成人精品一区二区三区无码| 一本大道无码av天堂| 精品亚洲A∨无码一区二区三区| 无码Aⅴ在线观看| 人妻中文字幕AV无码专区| 无码人妻视频一区二区三区| 国产色无码精品视频国产| 亚洲av无码成人影院一区| 久久午夜无码鲁丝片| 国产成人精品无码一区二区| 精品无人区无码乱码毛片国产 | 国产精品无码不卡一区二区三区| 国产真人无码作爱视频免费| 亚洲色偷拍区另类无码专区| 国内精品人妻无码久久久影院| 免费无遮挡无码视频网站| 中文字幕无码成人免费视频| 无码少妇丰满熟妇一区二区| 无码人妻精品中文字幕免费| 亚洲熟妇无码八V在线播放| 无码人妻AⅤ一区二区三区| 久久久久无码精品亚洲日韩| 亚洲中文字幕无码不卡电影| 成人午夜亚洲精品无码网站| 国产成人无码一区二区三区 | 亚洲AV无码专区电影在线观看| 中文字幕无码av激情不卡久久| 亚洲AV日韩AV永久无码久久| 日韩人妻无码中文字幕视频| 人妻中文字系列无码专区|