一種基于大數據檢索和語義分析的快搜模型訓練方法技術

技術編號：24251650 閱讀：39 留言：0更新日期：2020-05-22 23:37

本發明專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法，首先建立輸入為檢索信息，輸出為檢索關鍵詞的快搜模型；根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練；對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞，再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。本發明專利技術保證了快搜模型最終獲得的檢索關鍵詞無限接近檢索信息的人工提煉結果，使得快搜模型可代替人工進行檢索信息的分析提取，從而通過快搜模型的應用，避免了檢索信息的人工分析工作，從而提高了檢索關鍵詞的提取效率，并降低了人工成本。

A fast search model training method based on big data retrieval and semantic analysis

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于大數據檢索和語義分析的快搜模型訓練方法
本專利技術涉及
，尤其涉及一種基于大數據檢索和語義分析的快搜模型訓練方法。
技術介紹
隨著互聯網技術的發展，互聯網資源的豐富日新月異。如此，互聯網帶動信息傳播的同時，也由于網絡信息過于豐富，造成了信息檢索遇到了篩選難題。如何在海量的互聯網數據中精確獲得所需要的信息，是當前信息化時代不可忽視的問題。目前，信息檢索，都是通過人工提煉關鍵詞，然后根據檢索結果對關鍵詞進行修正，以達到預期的檢索效果，人工成本過高，且效率低。
技術實現思路
基于
技術介紹
存在的技術問題，本專利技術提出了一種基于大數據檢索和語義分析的快搜模型訓練方法。本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法，首先建立輸入為檢索信息，輸出為檢索關鍵詞的快搜模型；根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練；對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞，再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。優選的，具體包括以下步驟：S1、收集檢索信息，并對檢索信息進行人工分揀，提取檢索關鍵詞作為人工標注；S2、隨機抽取部分檢索信息和對應的人工標注作為訓練子集，并從剩余的檢索信息中隨機抽取部分檢索信息和對應的人工標注作為修正子集；S3、根據訓練子集訓練輸入為檢索信息，輸出為檢索關鍵詞的快搜模型；S4、從修正子集中抽取一條檢索信息作為修正樣本；S5、根據快搜模型...

【技術保護點】
1.一種基于大數據檢索和語義分析的快搜模型訓練方法，其特征在于，首先建立輸入為檢索信息，輸出為檢索關鍵詞的快搜模型；根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練；對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞，再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。/n

【技術特征摘要】
1.一種基于大數據檢索和語義分析的快搜模型訓練方法，其特征在于，首先建立輸入為檢索信息，輸出為檢索關鍵詞的快搜模型；根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練；對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞，再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。

2.如權利要求1所述的基于大數據檢索和語義分析的快搜模型訓練方法，其特征在于，具體包括以下步驟：
S1、收集檢索信息，并對檢索信息進行人工分揀，提取檢索關鍵詞作為人工標注；
S2、隨機抽取部分檢索信息和對應的人工標注作為訓練子集，并從剩余的檢索信息中隨機抽取部分檢索信息和對應的人工標注作為修正子集；
S3、根據訓練子集訓練輸入為檢索信息，輸出為檢索關鍵詞的快搜模型；
S4、從修正子集中抽取一條檢索信息作為修正樣本；
S5、根據快搜模型獲取修正樣本的模型標注，分別根據檢索信息對應的模型標注和人工標注進行檢索，獲取模型標注檢索結果與人工標注檢索結果的重合率；
S6、判斷重合率是否大于或者等于預設的檢驗閾值；
S7、是，統計修正次數；然后判斷修正次數是否達到預設的修正閾值；否，則從修正子集中重新選擇修正樣本，然后返回步驟S5；是，則輸出快搜模型；
S8、否，則更新訓練子集和修正子集，并根據新的訓練子集...

【專利技術屬性】
技術研發人員：李穎，董霞，齊苗苗，
申請(專利權)人：合肥長遠知識產權管理有限公司，
類型：發明
國別省市：安徽;34

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

語義搜索技術

語義檢索技術技術

語義知識技術