本發明專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。本發明專利技術保證了快搜模型最終獲得的檢索關鍵詞無限接近檢索信息的人工提煉結果,使得快搜模型可代替人工進行檢索信息的分析提取,從而通過快搜模型的應用,避免了檢索信息的人工分析工作,從而提高了檢索關鍵詞的提取效率,并降低了人工成本。
A fast search model training method based on big data retrieval and semantic analysis
【技術實現步驟摘要】
一種基于大數據檢索和語義分析的快搜模型訓練方法
本專利技術涉及
,尤其涉及一種基于大數據檢索和語義分析的快搜模型訓練方法。
技術介紹
隨著互聯網技術的發展,互聯網資源的豐富日新月異。如此,互聯網帶動信息傳播的同時,也由于網絡信息過于豐富,造成了信息檢索遇到了篩選難題。如何在海量的互聯網數據中精確獲得所需要的信息,是當前信息化時代不可忽視的問題。目前,信息檢索,都是通過人工提煉關鍵詞,然后根據檢索結果對關鍵詞進行修正,以達到預期的檢索效果,人工成本過高,且效率低。
技術實現思路
基于
技術介紹
存在的技術問題,本專利技術提出了一種基于大數據檢索和語義分析的快搜模型訓練方法。本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。優選的,具體包括以下步驟:S1、收集檢索信息,并對檢索信息進行人工分揀,提取檢索關鍵詞作為人工標注;S2、隨機抽取部分檢索信息和對應的人工標注作為訓練子集,并從剩余的檢索信息中隨機抽取部分檢索信息和對應的人工標注作為修正子集;S3、根據訓練子集訓練輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;S4、從修正子集中抽取一條檢索信息作為修正樣本;S5、根據快搜模型獲取修正樣本的模型標注,分別根據檢索信息對應的模型標注和人工標注進行檢索,獲取模型標注檢索結果與人工標注檢索結果的重合率;S6、判斷重合率是否大于或者等于預設的檢驗閾值;S7、是,統計修正次數;然后判斷修正次數是否達到預設的修正閾值;否,則從修正子集中重新選擇修正樣本,然后返回步驟S5;是,則輸出快搜模型;S8、否,則更新訓練子集和修正子集,并根據新的訓練子集對快搜模型進行迭代訓練,然后返回步驟S4。優選的,步驟S2中,訓練子集中包含的檢索信息數量大于或者等于100。優選的,訓練子集中包含的檢索信息數量為1000。優選的,修正子集中包含的檢索信息數量等于訓練子集中包含的檢索信息數量。優選的,循環訓練過程中,任意兩個訓練子集中的檢索信息重合率為0。優選的,步驟S7中,從修正子集中重新選擇修正樣本時,首先將原來的修正樣本從修正子集中移除,然后再從修正子集中選擇修正樣本。優選的,步驟S7中的修正閾值大于或者等于修正樣本中檢索信息數量最大值的一半。優選的,步驟S6中的檢驗閾值大于或者等于85%。本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法,實現了通過快搜模塊對檢索信息進行檢索關鍵詞提取,以便根據檢索關鍵詞在互聯網資源中進行檢索。本專利技術中,通過重合率對快搜模型的驗證,保證了快搜模型最終獲得的檢索關鍵詞無限接近檢索信息的人工提煉結果,使得快搜模型可代替人工進行檢索信息的分析提取,從而通過快搜模型的應用,避免了檢索信息的人工分析工作,從而提高了檢索關鍵詞的提取效率,并降低了人工成本。附圖說明圖1為本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法流程圖;圖2為本專利技術提出的另一種基于大數據檢索和語義分析的快搜模型訓練方法流程圖。具體實施方式參照圖1,本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。本實施方式中,實現了通過快搜模塊對檢索信息進行檢索關鍵詞提取,以便根據檢索關鍵詞在互聯網資源中進行檢索。本實施方式中,通過重合率對快搜模型的驗證,保證了快搜模型最終獲得的檢索關鍵詞無限接近檢索信息的人工提煉結果,使得快搜模型可代替人工進行檢索信息的分析提取,從而通過快搜模型的應用,避免了檢索信息的人工分析工作,從而提高了檢索關鍵詞的提取效率,并降低了人工成本。參照圖2,本實施方式中基于大數據檢索和語義分析的快搜模型訓練方法,具體包括以下步驟。S1、收集檢索信息,并對檢索信息進行人工分揀,提取檢索關鍵詞作為人工標注。即,本步驟中,收集檢索信息作為標注樣本,標注樣本由領域專家標注檢索關鍵詞。S2、隨機抽取部分檢索信息和對應的人工標注作為訓練子集,并從剩余的檢索信息中隨機抽取部分檢索信息和對應的人工標注作為修正子集。如此,通過修正子集與訓練子集的差異,有利于保證快搜模型的最優驗證效果,從而提高快搜模型的訓練精確度。S3、根據訓練子集訓練輸入為檢索信息,輸出為檢索關鍵詞的快搜模型。具體的,本實施方式中,可基于多層深度神經網絡建立快搜模型。具體的,本實施方式中,可通過多次神經網絡結合無效詞典過濾、語義提取等文本分析工具建立快搜模型。S4、從修正子集中抽取一條檢索信息作為修正樣本。S5、根據快搜模型獲取修正樣本的模型標注,分別根據檢索信息對應的模型標注和人工標注進行檢索,獲取模型標注檢索結果與人工標注檢索結果的重合率。具體的,重合率為同時存在于模型標注檢索結果和人工標注檢索結果的信息的數量與人工標注檢索結果中的信息總數量的比值。S6、判斷重合率是否大于或者等于預設的檢驗閾值。具體實施時,可設置檢驗閾值大于或者等于85%。S7、是,統計修正次數;然后判斷修正次數是否達到預設的修正閾值;否,則從修正子集中重新選擇修正樣本,然后返回步驟S5;是,則輸出快搜模型。具體的,本步驟S7中,從修正子集中重新選擇修正樣本時,首先將原來的修正樣本從修正子集中移除,然后再從修正子集中選擇修正樣本。如此,避免了修正樣本的重復利用,從而提高了對快搜模型的驗證效率和精度。本實施方式中,修正閾值大于或者等于修正樣本中檢索信息數量最大值的一半,以進一步保證對快搜模型的驗證效果。S8、否,則更新訓練子集和修正子集,并根據新的訓練子集對快搜模型進行迭代訓練,然后返回步驟S4。具體的,本步驟中,在更新訓練子集時,新的訓練子集中的任一條檢索信息均不屬于原有任意訓練子集中的檢索信息,即循環訓練過程中,任意兩個訓練子集中的檢索信息重合率為0。如此,可保證用于訓練快速模型的檢索信息的低重復率,從而保證快搜模型在訓練過程中對于人工標注的檢索信息的覆蓋率,以便提高訓練精度。本實施方式中,在訓練快搜模型時,每經過一次訓練,則根據修正子集進行迭代驗證。如此,通過修正樣本的迭代,提高了驗證精度,同時通過對修正次數的統計,實現了對于每一次訓練的快速驗證,從而進一步保證了快搜模型的訓練效率和精度。本實施的步驟S2中,訓練子集中包含的檢索信息數量大于或者等于100,具體可設置,訓練子集中包含的檢本文檔來自技高網...
【技術保護點】
1.一種基于大數據檢索和語義分析的快搜模型訓練方法,其特征在于,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。/n
【技術特征摘要】
1.一種基于大數據檢索和語義分析的快搜模型訓練方法,其特征在于,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。
2.如權利要求1所述的基于大數據檢索和語義分析的快搜模型訓練方法,其特征在于,具體包括以下步驟:
S1、收集檢索信息,并對檢索信息進行人工分揀,提取檢索關鍵詞作為人工標注;
S2、隨機抽取部分檢索信息和對應的人工標注作為訓練子集,并從剩余的檢索信息中隨機抽取部分檢索信息和對應的人工標注作為修正子集;
S3、根據訓練子集訓練輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;
S4、從修正子集中抽取一條檢索信息作為修正樣本;
S5、根據快搜模型獲取修正樣本的模型標注,分別根據檢索信息對應的模型標注和人工標注進行檢索,獲取模型標注檢索結果與人工標注檢索結果的重合率;
S6、判斷重合率是否大于或者等于預設的檢驗閾值;
S7、是,統計修正次數;然后判斷修正次數是否達到預設的修正閾值;否,則從修正子集中重新選擇修正樣本,然后返回步驟S5;是,則輸出快搜模型;
S8、否,則更新訓練子集和修正子集,并根據新的訓練子集...
【專利技術屬性】
技術研發人員:李穎,董霞,齊苗苗,
申請(專利權)人:合肥長遠知識產權管理有限公司,
類型:發明
國別省市:安徽;34
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。