本申請關于一種基于自學習的標簽規則產生方法及裝置。具體方案為:通過響應于接收到目標數據,對目標數據進行特征提取,以得到特征數據;確定特征數據的所屬類型;將特征數據和特征數據的所屬類型輸入至預訓練的預測器中;獲取預測器輸出的標簽規則;基于標簽規則對特征數據進行打標簽。本申請提升了數據標簽化的工作效率和精準度。化的工作效率和精準度。化的工作效率和精準度。
【技術實現步驟摘要】
一種基于自學習的標簽規則產生方法及裝置
[0001]本申請涉及計算機
,尤其涉及一種基于自學習的標簽規則產生方法及裝置。
技術介紹
[0002]相關技術中,標簽作為一種靈活的數據組織方式,是具有業務屬性的,通過特征集合并關聯打標簽的對象,對分析對象生成畫像,挖掘對象的價值。打標簽的過程,也就是生產標簽的過程,包括:明確打標簽的對象;明確標簽的用途;明確標簽規則;明確標簽的名稱。這個過程中最復雜的也是難度比較高就是明確標簽規則的過程,目前標簽的規則都是基于人工根據經驗總結進行規則的整理。有些標簽的邏輯是不斷的發生改變的,對于已經整理好的規則,難以及時的根據標簽邏輯的改變及時進行調整。
技術實現思路
[0003]為此,本申請提供一種基于自學習的標簽規則產生方法及裝置。本申請的技術方案如下:
[0004]根據本申請實施例的第一方面,提供一種基于自學習的標簽規則產生方法,所述方法包括:
[0005]響應于接收到目標數據,對所述目標數據進行特征提取,以得到特征數據;
[0006]確定所述特征數據的所屬類型;
[0007]將所述特征數據和所述特征數據的所屬類型輸入至預訓練的預測器中;
[0008]獲取所述預測器輸出的標簽規則;所述預測器是基于標簽規則索引數據進行訓練得到的;所述標簽規則索引數據用于存儲特征數據、數據類型與標簽規則之間的對應關系;
[0009]基于所述標簽規則對所述特征數據進行打標簽。
[0010]根據本申請的一個實施例,所述預測器通過以下步驟進行訓練:
[0011]采用小樣本學習算法,基于所述標簽規則索引數據對待訓練的神經網絡模型進行訓練;
[0012]將訓練好的所述神經網絡模型確定為所述預測器。
[0013]根據本申請的一個實施例,所述預測器還通過以下步驟進行訓練:
[0014]獲取標簽規則樣本數據;其中,所述標簽規則樣本數據包括目標樣本數據和所述目標樣本數據對應的第一標簽值;
[0015]對所述目標樣本數據進行特征提取,以得到特征樣本數據;
[0016]確定所述特征樣本數據的所屬類型;
[0017]將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器;
[0018]獲取所述預測器基于所述特征樣本數據和所述特征樣本數據的所屬類型預測出的標簽規則;
[0019]根據所述預測出的標簽規則,確定第二標簽值;
[0020]將所述第一標簽值與所述第二標簽值進行比對,得到比對結果;
[0021]響應于所述比對結果為所述第一標簽值區別于所述第二標簽值,對所述預測器進行調參,重復執行所述將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器的步驟。
[0022]根據本申請的一個實施例,所述標簽規則樣本數據有多個;在所述獲取標簽規則樣本數據之后,還包括:
[0023]對所述多個標簽規則樣本數據進行語義相似性計算,得到計算結果;
[0024]基于所述計算結果,對所述多個標簽規則樣本數據進行聚類處理,以得聚類后的標簽規則數據。
[0025]根據本申請的一個實施例,在所述將所述第一標簽值與所述第二標簽值進行比對,得到比對結果之后,還包括:
[0026]響應于所述比對結果為所述第一標簽值與所述第二標簽值相同,確定所述標簽規則索引數據中是否存儲有所述預測出的標簽規則;
[0027]響應于所述標簽規則索引數據中未存儲有所述預測出的標簽規則,將所述預測出的標簽規則存入所述標簽規則索引數據中。
[0028]根據本申請實施例的第二方面,提供一種基于自學習的標簽規則產生裝置,所述裝置包括:
[0029]特征提取模塊,用于響應于接收到目標數據,對所述目標數據進行特征提取,以得到特征數據;
[0030]確定模塊,用于確定所述特征數據的所屬類型;
[0031]輸入模塊,用于將所述特征數據和所述特征數據的所屬類型輸入至預訓練的預測器中;
[0032]獲取模塊,用于獲取所述預測器輸出的標簽規則;所述預測器是基于標簽規則索引數據進行訓練得到的;所述標簽規則索引數據用于存儲特征數據、數據類型與標簽規則之間的對應關系;
[0033]打標簽模塊,用于基于所述標簽規則對所述特征數據進行打標簽。
[0034]根據本申請的一個實施例,還包括訓練模塊,所述訓練模塊用于:
[0035]采用小樣本學習算法,基于所述標簽規則索引數據對待訓練的神經網絡模型進行訓練;
[0036]將訓練好的所述神經網絡模型確定為所述預測器。
[0037]根據本申請的一個實施例,所述訓練模塊還用于:
[0038]獲取標簽規則樣本數據;其中,所述標簽規則樣本數據包括目標樣本數據和所述目標樣本數據對應的第一標簽值;
[0039]對所述目標樣本數據進行特征提取,以得到特征樣本數據;
[0040]確定所述特征樣本數據的所屬類型;
[0041]將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器;
[0042]獲取所述預測器基于所述特征樣本數據和所述特征樣本數據的所屬類型預測出的標簽規則;
[0043]根據所述預測出的標簽規則,確定第二標簽值;
[0044]將所述第一標簽值與所述第二標簽值進行比對,得到比對結果;
[0045]響應于所述比對結果為所述第一標簽值區別于所述第二標簽值,對所述預測器進行調參,重復執行所述將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器的步驟。
[0046]根據本申請的一個實施例,所述標簽規則樣本數據有多個;所述訓練模塊還用于:
[0047]對所述多個標簽規則樣本數據進行語義相似性計算,得到計算結果;
[0048]基于所述計算結果,對所述多個標簽規則樣本數據進行聚類處理,以得聚類后的標簽規則數據。
[0049]根據本申請的一個實施例,所述訓練模塊還用于:
[0050]響應于所述比對結果為所述第一標簽值與所述第二標簽值相同,確定所述標簽規則索引數據中是否存儲有所述預測出的標簽規則;
[0051]響應于所述標簽規則索引數據中未存儲有所述預測出的標簽規則,將所述預測出的標簽規則存入所述標簽規則索引數據中。
[0052]本申請的實施例提供的技術方案至少帶來以下有益效果:
[0053]通過響應于接收到目標數據,對目標數據進行特征提取,以得到特征數據;確定特征數據的所屬類型;將特征數據和特征數據的所屬類型輸入至預訓練的預測器中;獲取預測器輸出的標簽規則;基于標簽規則對特征數據進行打標簽。從而使標簽規則的產生不再強依賴于人工,自動生成相應的標簽規則,基于自學習技術的標簽規則產生引擎,自動匹配字段的標簽打標規則,快速完成標簽的打標工作,提高標簽規則的準確度和專業性,提升數據標簽化的工作效率和精準度
[0054]應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于自學習的標簽規則產生方法,其特征在于,所述方法包括:響應于接收到目標數據,對所述目標數據進行特征提取,以得到特征數據;確定所述特征數據的所屬類型;將所述特征數據和所述特征數據的所屬類型輸入至預訓練的預測器中;獲取所述預測器輸出的標簽規則;所述預測器是基于標簽規則索引數據進行訓練得到的;所述標簽規則索引數據用于存儲特征數據、數據類型與標簽規則之間的對應關系;基于所述標簽規則對所述特征數據進行打標簽。2.根據權利要求1所述的方法,其特征在于,所述預測器通過以下步驟進行訓練:采用小樣本學習算法,基于所述標簽規則索引數據對待訓練的神經網絡模型進行訓練;將訓練好的所述神經網絡模型確定為所述預測器。3.根據權利要求2所述的方法,其特征在于,所述預測器還通過以下步驟進行訓練:獲取標簽規則樣本數據;其中,所述標簽規則樣本數據包括目標樣本數據和所述目標樣本數據對應的第一標簽值;對所述目標樣本數據進行特征提取,以得到特征樣本數據;確定所述特征樣本數據的所屬類型;將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器;獲取所述預測器基于所述特征樣本數據和所述特征樣本數據的所屬類型預測出的標簽規則;根據所述預測出的標簽規則,確定第二標簽值;將所述第一標簽值與所述第二標簽值進行比對,得到比對結果;響應于所述比對結果為所述第一標簽值區別于所述第二標簽值,對所述預測器進行調參,重復執行所述將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器的步驟。4.根據權利要求3所述的方法,其特征在于,所述標簽規則樣本數據有多個;在所述獲取標簽規則樣本數據之后,還包括:對所述多個標簽規則樣本數據進行語義相似性計算,得到計算結果;基于所述計算結果,對所述多個標簽規則樣本數據進行聚類處理,以得聚類后的標簽規則數據。5.根據權利要求3所述的方法,其特征在于,在所述將所述第一標簽值與所述第二標簽值進行比對,得到比對結果之后,還包括:響應于所述比對結果為所述第一標簽值與所述第二標簽值相同,確定所述標簽規則索引數據中是否存儲有所述預測出的標簽規則;響應于所述標簽規則索引數據中未存儲有所述預測出的標簽規則,將所述預測出的標簽規則存入所述標簽規則索引數據中。6.一種基...
【專利技術屬性】
技術研發人員:張晰,高嵩,章敏,李寶東,劉韶輝,穆顯顯,金一明,蔡姍姍,趙敏,
申請(專利權)人:太極計算機股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。