本發明專利技術公開了一種遙感數據檢索自然語言的處理方法及裝置,該方法包括步驟:S1,切分用戶的查詢語句,從中提取得到待處理關鍵詞;S2,對所述待處理關鍵詞進行語義挖掘,得到標準格式的關鍵詞組;S3,對所述關鍵詞組進行語義分析,得到條件組,以用作檢索遙感數據的條件。利用本發明專利技術對遙感數據的自然查詢語言進行處理,可克服一般自然語言處理方法解析不足的缺點,能有效地“理解”自然查詢語句并將其轉化為符合用戶意圖的查詢條件組,從而解決現有技術中存在的前述問題。
【技術實現步驟摘要】
本專利技術涉及遙感數據檢索領域,尤其涉及一種遙感數據檢索自然語言的處理方法及裝置能夠應用于面向自然語言的遙感數據檢索系統。
技術介紹
自然語言相對于受控語言,是未經過加工和規范化處理的人類語言。面向自然語言的查詢系統能夠允許用戶不受專業術語的約束,直接使用字、詞、句子甚至段落等自然語言表達提問,完成信息的查詢檢索。該查詢方式有利于非專業人員的信息檢索,為信息檢索系統更好地應用普及提供了技術支持。目前,遙感數據查詢一般是系統提供一個圖形化的查詢界面,用戶根據需求在其上直接選擇如采集時間、經緯度、衛星名、傳感器名等查詢參數,系統按照選定的參數進行查詢。這種方法簡單、直觀但也限制了用戶的需求。當用戶的查詢需求界面選擇沒有或滿足不了時,如查詢用于“土壤濕度分析”的遙感數據,用戶只能先將該應用需求轉換成為一系列的元數據信息,再在查詢界面進行條件設置才能達到查詢目的,這就要求用戶具有遙感專業背景,還要對數據庫內部結構有一定的了解。為數據庫建立一個自然語言檢索的接口可以突破這些局限,使遙感數據為更多的非專業用戶所用,該接口將用戶輸入的自然查詢語句轉化成數據庫結構化的查詢語言,其過程就包括將用戶的應用需求轉換成元數據信息。然而,由于自然語言的復雜性,如何正確、充分的理解自然查詢語句是面向自然語言檢索系統亟待解決的重要問題之一。特別是當自然語言檢索系統應用于某一專業領域時,一般的自然語言處理技術并不能很好地挖掘、理解出與專業領域相關的用戶檢索需求。
技術實現思路
本專利技術的目的在于提供一種遙感數據檢索自然語言的處理方法及裝置以進一步為遙感數據檢索系統建立自然語言檢索接口。利用本專利技術對遙感數據的自然查詢語言進行處理,可克服一般自然語言處理方法解析不足的缺點,能有效地“理解”自然查詢語句并將其轉化為符合用戶意圖的查詢條件組,從而解決現有技術中存在的前述問題。為了實現上述目的,本專利技術采用的技術方案如下:一種遙感數據檢索自然語言的處理方法,包括以下步驟:SI,切分用戶的查詢語句,從中提取得到待處理關鍵詞;S2,對所述待處理關鍵詞進行語義挖掘,得到標準格式的關鍵詞組;S3,對所述關鍵詞組進行語義分析,得到條件組,以用作檢索遙感數據的條件。優選的,SI具體為對用戶查詢語句進行分詞和詞性標注,并從切分出的詞中篩選出與遙感數據屬性有關的部分,作為關鍵詞。優選的,SI包括以下步驟:SI I,建立遙感專業術語詞典RSDic ;S12,利用正則表達式從所述查詢語句中匹配提取得到待處理關鍵詞;和/或利用ICTCLAS2012漢語分詞軟件和所述遙感專業術語詞典RSDic從所述查詢語句中提取得到待處理關鍵詞。優選的,所述利用正則表達式匹配提取得到的待處理關鍵詞包括:時間、經緯度和比例尺中的一種或幾種;所述利用ICTCLAS2012漢語分詞軟件和所述遙感專業術語詞典RSDic從所述查詢語句中提取得到的待處理關鍵詞包括:衛星、傳感器、空間區域和應用中的一種或幾種。優選的,S12后還包括以下步驟:S13,把從所述查詢語句中提取出的所有關鍵詞表示為一 N元組:vKeyWord(ffl, W2,..., WN)其中W為關鍵詞KeyWordS14,把任何一個KeyWord都由五元組來描述:Keyfford(Word, Attribute, No, SameFlag, WordDB)其中Word是關鍵詞,Attribute是關鍵詞的詞性,No表示關鍵詞在源語句中的詞序,SameFlag值為I或O,表示上下文中是否存在跟Word詞性相同的詞,WordDB是Word對應的遙感數據庫語義。優選的,S2包括以下步驟:S21,建立遙感數據庫語義詞典DBDic ;利用本體編輯工具Prot6g6構建遙感應用本體知識庫RSAO ;S22,基于所述遙感數據庫語義詞典DBDic對SI中提取得到的所述關鍵詞進行正規化和歸一化處理,得到所述關鍵詞的標準格式的遙感數據庫語義S23,根據所述遙感應用本體知識庫RSAO中的事件應用信息與遙感數據元數據信息的對應關系,獲得事件應用類關鍵詞相應的元數據信息;S24,將得到的所述遙感數據庫語義和所述元數據信息置于所述KeyWord的WordDB屬性中;循環執行S22-S24,直到處理完從所述查詢語句中提取出的所有關鍵詞,形成關鍵詞組。優選的,S3包括以下步驟:S31,對所述關鍵詞組進行組合條件判斷,將復雜查詢語句拆分為符合用戶查詢意圖的條件組;S32,對相鄰的所述條件組進行正序比較和倒序比較,完善所述條件組。優選的,所述組合條件是目標關鍵詞與相鄰關鍵詞Attribute不同且在非相鄰的關鍵詞中存在與目標關鍵詞Attribute相同的詞;所述組合條件判斷具體為迭代判斷關鍵詞組vKeyWord是否符合所述組合條件,如符合,則以目標關鍵詞為界將vKeyWord劃分為多個條件組Wordlists (ffordlistI, Wordlist2,...),并將與目標關鍵詞Attribute相同的關鍵詞的SameFlag標記為I ;否則,判定源語句為簡單句,系統將vKeyWord作為單一條件組ffordlist 返回。優選的,所述正序比較和倒序比較具體為:對已生成的Wordlists中相鄰條件組進行正序和倒序比較,以Wordlistl,Wordlist2標識:按照詞序,從前往后正序比較ffordlistl中SameFlag為I的關鍵詞之前的關鍵詞與Wordlist2關鍵詞的Attribute是否相同,全部不同時將目標關鍵詞加入WordliSt2中;然后按照相同的方法從后往前倒序比較Wordlist2的關鍵詞與Wordlistl中SameFlag為I的關鍵詞之后的所有關鍵詞Attribute,從而完善 Wordlistl。一種遙感數據檢索自然語言的處理裝置,包括:關鍵詞提取模塊,用于切分用戶的查詢語句,從中提取得到待處理關鍵詞;語義挖掘模塊,用于對所述待處理關鍵詞進行語義挖掘,得到標準格式的關鍵詞組;語義分析模塊,用于對所述關鍵詞組進行語義分析,得到條件組,以用作檢索遙感數據的條件。本專利技術的有益效果是:利用本專利技術的方法或裝置對遙感數據的自然查詢語言進行處理,可克服一般自然語言處理方法解析不足的缺點,能有效地“理解”自然查詢語句并將其轉化為符合用戶意圖的查詢條件組。本專利技術根據遙感數據查詢特點,從自然語言的詞法分析和語義分析層面上,提出一種適用于遙感數據檢索領域的自然語言處理方法,以充分理解用戶查詢語句。附圖說明圖1是本專利技術的遙感數據檢索自然語言的處理方法的步驟流程示意圖;圖2是本專利技術的遙感數據檢索自然語言的處理方法中關鍵詞語義分析的流程示意圖。具體實施例方式為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖,對本專利技術進行進一步詳細說明。應當理解,此處所描述的具體實施方式僅僅用以解釋本專利技術,并不用于限定本專利技術。如圖1所示本專利技術公開了一種遙感數據檢索自然語言的處理方法,包括以下步驟:SI,切分用戶的查詢語句,從中提取得到待處理關鍵詞;S2,對所述待處理關鍵詞進行語義挖掘,得到標準格式的關鍵詞組;S3,對所述關鍵詞組進行語義分析,得到條件組,以用作檢索遙感數據的條件。以下對具體步驟進行詳述:遙感數據檢索自然語言處理方法是從自然查詢語句中篩選出能反映用戶查本文檔來自技高網...
【技術保護點】
一種遙感數據檢索自然語言的處理方法,其特征在于,包括以下步驟:S1,切分用戶的查詢語句,從中提取得到待處理關鍵詞;S2,對所述待處理關鍵詞進行語義挖掘,得到標準格式的關鍵詞組;S3,對所述關鍵詞組進行語義分析,得到條件組,將所述條件組用作檢索遙感數據的條件。
【技術特征摘要】
1.一種遙感數據檢索自然語言的處理方法,其特征在于,包括以下步驟: Si,切分用戶的查詢語句,從中提取得到待處理關鍵詞; S2,對所述待處理關鍵詞進行語義挖掘,得到標準格式的關鍵詞組; S3,對所述關鍵詞組進行語義分析,得到條件組,將所述條件組用作檢索遙感數據的條件。2.根據權利要求1所述的遙感數據檢索自然語言的處理方法,其特征在于,SI具體為對用戶查詢語句進行分詞和詞性標注,并從切分出的詞中篩選出與遙感數據屬性有關的部分,作為關鍵詞。3.根據權利要求2所述的遙感數據檢索自然語言的處理方法,其特征在于,SI包括以下步驟: SI I,建立遙感專業術語詞典RSDic ; S12,利用正則表達式從所述查詢語句中匹配提取得到待處理關鍵詞; 和/或 利用ICTCLAS2012漢語分詞軟件和所述遙感專業術語詞典RSDic從所述查詢語句中提取得到待處理關鍵詞。4.根據權利要求3所述的遙感數據檢索自然語言的處理方法,其特征在于,所述利用正則表達式匹配提取得到的待處理關鍵詞包括:時間、經緯度和比例尺中的一種或幾種;所述利用ICTCLAS2012漢語分詞軟件和所述遙感專業術語詞典RSDic從所述查詢語句中提取得到的待處理關鍵詞包括:衛星、傳感器、空間區域和應用中的一種或幾種。5.根據權利要求3所述的遙感數據檢索自然語言的處理方法,其特征在于,S12后還包括以下步驟: S13,把從所述查詢語句中提取出的所有關鍵詞表示為一 N元組: vKeyfford(ffl, W2,..., WN) 其中W為關鍵詞KeyWord S14,把任何一個KeyWord都由五元組來描述:Keyfford(Word, Attribute, No, SameFlag, WordDB) 其中Word是關鍵詞,Attribute是關鍵詞的詞性,No表示關鍵詞在源語句中的詞序,SameFlag值為I或0,表示上下文中是否存在跟Word詞性相同的詞,WordDB是Word對應的遙感數據庫語義。6.根據權利要求5所述的遙感數據檢索自然語言的處理方法,其特征在于,S2包括以下步驟: S21,建立遙感數據庫語義詞典DBDic ;利用本體編輯工具Prot6g6構建遙感應用本體知識庫RSAO ; S22,基于所述遙感數據庫語義詞典DBDic對SI中提取得到的所述關鍵詞進行正規化和歸一化處理,得到所述關鍵詞的標準...
【專利技術屬性】
技術研發人員:楊進,宣萱,劉建波,劉士彬,梁龍彬,戴芹,馬彩虹,張靜,段建波,李信鵬,屈倩,劉巍,
申請(專利權)人:中國科學院對地觀測與數字地球科學中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。