• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于多層分類網絡的Q函數自適應學習方法技術

    技術編號:14895902 閱讀:128 留言:0更新日期:2017-03-29 11:05
    本發明專利技術公開了一種基于多層分類網絡的Q函數自適應學習方法,包括以下幾個步驟:步驟1,多層分類網絡訓練;步驟2,使用多層分類網絡進行工作;本發明專利技術通過建立層次化的分類網絡,實現了對問題空間的自適應劃分。這種劃分方式相比于未改進的模糊自適應共振分類網絡更加靈活,能夠獲取更好的Q值擬合函數;本發明專利技術通過實施例,表明本發明專利技術獲取優化行動策略的性能更強。

    【技術實現步驟摘要】

    本專利技術屬于智能決策領域,具體涉及一種采用多層分類網絡對Q-Learning算法中的Q函數進行自適應學習的實現方法。
    技術介紹
    Q學習是強化學習技術的一種,是應用最廣泛的強化學習技術。Q學習的目標是針對問題空間找到一個Q效用函數(以下簡稱“Q函數”),將<狀態,行動>對映射為特定的效用值(以下簡稱“Q值”)。一旦獲取Q函數,就可以確定任何狀態下的最優行動策略,因此這種方法被廣泛作為決策問題的一種求解框架。但是,對于具有連續狀態空間的決策問題(以下簡稱“連續問題”),很難做到快速獲取Q函數。目前主要方法是采用狀態離散化的方式,即將連續狀態空間離散化,建立具有查詢表結構的Q函數。這種方法的缺點是:只適于處理狀態空間維度較低的問題。當問題維度增多時,離散化狀態的數量會隨著問題維度的增加而指數增加,使得需要的計算機計算機、以及需要的學習時間都變得不可接受。另一種方法為狀態效用函數擬合方法。這種方法不追求獲得Q函數的精確表示,而是采用某些簡單函數進行近似表示。這類方法在一些狀態空間連續、高維度的決策問題上得到了應用。但它的問題是:很多擬合函數的具體形式都需要有經驗的設計者手動設定。這種設定依賴于個人經驗,很多時候難以形成對“真實”Q值(這里指理論上的精確表示)的較好近似,從而會降低最終的決策質量。
    技術實現思路
    本專利技術的目的是為了解決上述問題,提出了一種基于模糊自適應共振理論的多層分類網絡(以下簡稱“多層分類網絡”),能通過對狀態空間的自適應劃分,獲得對Q函數的高質量擬合,繼而獲得優化的行動決策。一種基于多層分類網絡的Q函數自適應學習方法,包括以下幾個步驟:步驟1,多層分類網絡訓練;步驟2,使用多層分類網絡進行工作;本專利技術的優點在于:(1)本專利技術通過建立層次化的分類網絡,實現了對問題空間的自適應劃分。這種劃分方式相比于未改進的模糊自適應共振分類網絡更加靈活,能夠獲取更好的Q值擬合函數;(2)通過實施例,表明本專利技術獲取優化行動策略的性能更強。附圖說明圖1是本專利技術的多層分類網絡的使用方式示意;圖2是本專利技術多層分類網絡的初始結構;圖3是本專利技術多層分類網絡的工作原理示意:通過子網絡對狀態空間的區域劃分進行細化;圖4是創建多層分類網絡的算法偽代碼;圖5是使用多層分類網絡工作過程的偽代碼;圖6是“車輛智能控制”實施例;圖7是本專利技術的實施過程;圖8是本專利技術與未改進的模糊自適應共振分類網絡的性能對比;圖9是本專利技術與未改進的模糊自適應共振分類網絡在消耗決策時間上的對比。具體實施方式下面將結合附圖和實施例對本專利技術作進一步的詳細說明。基于模糊自適應共振理論的多層分類網絡包括兩個模塊:多層分類網絡模塊,以及Q學習模塊。兩者需要協同工作,如圖1所示。在該結構中,多層分類網絡模塊輸入狀態,利用自適應分類功能對輸入進行分類。這個過程等價于把狀態空間進行區域劃分,每個區域中的狀態具有相似特征。Q學習模塊根據多層分類網絡對狀態空間的分區計算Q值,并根據Q值計算最佳的行動策略。該過程反復進行,直到Q學習模塊獲得一個取值穩定的擬合Q函數。本專利技術技術方案包括多層分類網絡的訓練和使用兩個步驟。步驟1,多層分類網絡訓練。多層分類網絡是基于模糊自適應共振網絡創建。模糊自適應共振網絡是一個具有圖2所示結構的分類網絡,包括兩層,分別為:輸入層F1和輸出層F2。兩層中的節點通過連線連接,每條連線關聯一個權重值。該網絡的輸入通過如下方式處理。對輸入的狀態矢量s進行歸一化,并按照公式(1)的方式建立s的互補矢量sc。合并s和sc得到擴展的輸入矢量I:該操作成為“互補編碼”,可有有效避免模糊自適應共振網絡的編碼增殖問題。輸出層F2包含N個分類節點,代表對狀態空間的N個分區。多層分類網絡的自適應性體現在:在特定輸出節點下建立子網絡,且子網絡仍然具有與當前網絡類似結構。通過這種方式建立層次化網絡,對狀態空間某些變化劇烈的區域進行更細致地劃分,概念如圖3所示。建立層次化網絡時,下述兩項操作體現了本專利技術的獨特之處:1)、確定建立子網絡的時機找到合理的時機建立子網絡很關鍵。一方面,過早創建子網絡會導致學習速度變得很慢。另一方面,過晚創建子網絡將浪費大量時間,影響對狀態空間劃分的優化改進。本專利技術采用Q學習中得到的|ΔQ|值判斷是否創建子網絡。多層分類網絡的每個輸出節點均關聯了一個|ΔQ|值。每當任何一個輸出節點更新時,都檢查該值并通過一個全局計數器(記為u)統計自從上一個最小|ΔQ|值出現后該節點的更新次數。當u超過某個閾值p(可作為參數設定)時,擇對當前輸出節點創建子網絡。為保證學習過程收斂,閾值p的值將隨著輸出節點數量的增加而增加,其值由max(pmin,ntotal)決定,其中,pmin為參數p允許的下限值,ntotal為多層分類網絡中所有輸出節點的個數。可看出,當ntotal增加時閾值p也隨之增加。2)、確定需要建立子網絡的輸出節點本專利技術通過檢測各輸出節點的|ΔQ|值變化確定是否建立子網絡。若該輸出節點已經得到了良好的訓練,其關聯的|ΔQ|將會收斂,幅值變化不再顯著。另一方面,|ΔQ|值變化顯著的輸出節點則需要進一步建立子網絡。上述步驟可描述為:(1)建立一個初始的模糊自適應共振網絡CNet;從該網絡開始,逐漸建立多層分類網絡。該初始網絡中每個分類節點關聯兩個變量:該節點的Q值、以及Q值變化量|ΔQ|。建立一個全局計數器u,初始值設置為0。(2)將一個狀態采樣s輸入。按照多層分類網絡的分類方式(參見Algorithm2),輸出ss對應的分類節點c,記為c。(3)Q學習模塊尋找某個行動a,使節點c的Q值(即Qc)最大,如下式所示:π(s)=argmaxaQc(a)。(4)執行動作a,行動者獲得回報r,并進入新狀態s’。(5)將新狀態s’輸入CNet,確定對應的分類輸出節點c’。(6)再次按照步驟3的方式,獲取s’對應的最優行動a′。(7)統計輸出節點c關聯Q值的幅度變化(記為ΔQc):ΔQc←r+γmaxa′Qc′(a′)-Qc(a)。(←表示賦值操作,下同)(8)更新輸出節點c與動作a對應的Q值(記為Qc(a)):Qc(a)←Qc(a)+αΔQ。(9)統計|ΔQc|的方差計算方法:紀錄最近n次的|ΔQc|值,得到集合E={ei|e=|ΔQc|,i=1,...,n本文檔來自技高網...
    一種基于多層分類網絡的Q函數自適應學習方法

    【技術保護點】
    一種基于多層分類網絡的Q函數自適應學習方法,包括以下幾個步驟:步驟1,多層分類網絡訓練;多層分類網絡是基于模糊自適應共振網絡創建,模糊自適應共振網絡包括兩層,分別為:輸入層F1和輸出層F2,兩層中的節點通過連線連接,每條連線關聯一個權重值;該網絡的輸入通過如下方式處理,對輸入的狀態矢量s進行歸一化,并按照公式(1)的方式建立s的互補矢量sc,合并s和sc得到擴展的輸入矢量I:s=(s1,s2,...,sM),sc=(1-s1,1-s2,...,1-sM)I=(s,sc)---(1)]]>其中,M表示輸入的維數;輸出層F2包含N個分類節點,代表對狀態空間的N個分區;建立層次化網絡時,具體的:1)、確定建立子網絡的時機采用Q學習中得到的|ΔQ|值判斷是否創建子網絡,ΔQ表示Q值的變化量,多層分類網絡的每個輸出節點均關聯一個|ΔQ|值,每當任何一個輸出節點更新時,都檢查該值并通過一個全局計數器u,統計自從上一個最小|ΔQ|值出現后該節點的更新次數,當u超過閾值p時,擇對當前輸出節點創建子網絡;2)、確定需要建立子網絡的輸出節點,具體的:(1)建立一個初始的模糊自適應共振網絡CNet,從該網絡開始,逐漸建立多層分類網絡,該初始網絡中每個分類節點關聯兩個變量:該節點的Q值、以及Q值變化量|ΔQ|,Q表示在特定狀態s下執行某個動作的價值。建立一個全局計數器u,初始值設置為0;(2)將一個狀態采樣s輸入,得到其對應的分類節點c。c代表了模糊自適應共振網絡CNet對s的分類。(3)Q學習模塊尋找某個行動a,使節點c的Q值即Qc最大,如下式所示:π(s)=argmaxaQc(a),其中π(s)、Qc(s,a)、argmaxa分別表示:●π(s):稱為行動策略函數,是一個映射函數,把s映射為行動a,即:π(s)→a;●Qc(a):若輸入s被分類為節點c所表示的類別,則Qc(a)表示在s下執行行動a的Q值價值。上標表示與該節點關聯;●argmaxa(*):一種參數選擇函數,表示通過選擇參數a使括號內表達式的取值最大,返回該參數a。(4)執行動作a,行動者獲得回報r,并進入新狀態s’;(5)將新狀態s’輸入CNet,確定對應的分類輸出節點c’;(6)再次按照步驟(3)的方式,獲取s’對應的最優行動a′;(7)統計輸出節點c關聯Q值的幅度變化記為ΔQc:ΔQc←r+γmaxa′Qc′(a′)?Qc(a),r、γ、maxa′、Qc′(a′)分別表示:●r:在狀態s下執行動作a后觀測到的回報值;●γ:稱為折扣因子,取值范圍為[?1,1],用于確保ΔQc的值能夠收斂;●maxa′(*):求最大值函數。通過選擇a′,使括號內的表達式取值最大,并返回該最大值;●Qc′(a′):表示在新狀態s’(該狀態被歸類為c’)下執行動作a′的Q值。(8)更新輸出節點c與動作a對應的Q值記為Qc(a):Qc(a)←Qc(a)+αΔQ,α表示學習速率參數,決定了Qc(a)值改變的快慢;(9)統計|ΔQc|的方差計算方法為:將最近n次的|ΔQc|值記錄為集合E={ei|e=|ΔQc|,i=1,...,n},有:DErrc=nn-1·[1nAn-(Bnn)2]]]>其中,ei,分別表示;●ei:第i次的|ΔQc|值;●最近n次|ΔQc|值的平方和;●最近n次|ΔQc|值的相加和。(10)把輸出節點c曾經出現的最小|ΔQc|記為將該節點當前的|ΔQc|值與比較:若則將全局計數器u零,同時更新若則全局計數器u加1;(11)更新閾值參數的取值:p←max(50,ntotal)其中,ntotal是當前CNet中所有葉節點數量;(12)比較u與p的值;如果u>p,則認為當前是創建子網絡的合理時機,首先將全局計數器u清零,按照以下方式確定要創建子網絡的節點:c*←argmaxcDErrc]]>c*、argmaxc(*)分別表示:●c*:需要創建子網絡的節點;●即第(9)步中計算的|ΔQc|的方差;●argmaxc(*):參數選擇函數,表示通過選擇參數c使括號內表達式的取值最大,返回該參數c。確定節點后,為該節點創建一個模糊自適應共振子網絡,并關聯到該節點上;(13)重復(2)?(12),直到到達指定時間;步驟2,使用多層分類網絡進行工作;訓練完成后,對于任意輸入狀態s,將輸出對應的最優行動a,當外部狀態持續輸入時,生成的行動序列形成了最優行動策略。...

    【技術特征摘要】
    1.一種基于多層分類網絡的Q函數自適應學習方法,包括以下幾個步驟:步驟1,多層分類網絡訓練;多層分類網絡是基于模糊自適應共振網絡創建,模糊自適應共振網絡包括兩層,分別為:輸入層F1和輸出層F2,兩層中的節點通過連線連接,每條連線關聯一個權重值;該網絡的輸入通過如下方式處理,對輸入的狀態矢量s進行歸一化,并按照公式(1)的方式建立s的互補矢量sc,合并s和sc得到擴展的輸入矢量I:s=(s1,s2,...,sM),sc=(1-s1,1-s2,...,1-sM)I=(s,sc)---(1)]]>其中,M表示輸入的維數;輸出層F2包含N個分類節點,代表對狀態空間的N個分區;建立層次化網絡時,具體的:1)、確定建立子網絡的時機采用Q學習中得到的|ΔQ|值判斷是否創建子網絡,ΔQ表示Q值的變化量,多層分類網絡的每個輸出節點均關聯一個|ΔQ|值,每當任何一個輸出節點更新時,都檢查該值并通過一個全局計數器u,統計自從上一個最小|ΔQ|值出現后該節點的更新次數,當u超過閾值p時,擇對當前輸出節點創建子網絡;2)、確定需要建立子網絡的輸出節點,具體的:(1)建立一個初始的模糊自適應共振網絡CNet,從該網絡開始,逐漸建立多層分類網絡,該初始網絡中每個分類節點關聯兩個變量:該節點的Q值、以及Q值變化量|ΔQ|,Q表示在特定狀態s下執行某個動作的價值。建立一個全局計數器u,初始值設置為0;(2)將一個狀態采樣s輸入,得到其對應的分類節點c。c代表了模糊自適應共振網絡CNet對s的分類。(3)Q學習模塊...

    【專利技術屬性】
    技術研發人員:馬耀飛周亞楠龔光紅宋曉吳雨林翟剛
    申請(專利權)人:北京航空航天大學
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久亚洲AV成人无码国产| 乱人伦人妻中文字幕无码久久网| mm1313亚洲精品无码又大又粗| 亚洲中文字幕无码亚洲成A人片| 午夜福利无码一区二区| r级无码视频在线观看| 日韩人妻无码精品久久免费一 | 色欲aⅴ亚洲情无码AV蜜桃| 麻豆精品无码国产在线果冻| 中文人妻无码一区二区三区| 亚洲综合无码无在线观看| 无码午夜成人1000部免费视频| 日韩av片无码一区二区三区不卡| 日韩精品无码一本二本三本| 国产在线观看无码免费视频| 精品久久久无码中文字幕边打电话| 亚洲AV无码专区电影在线观看| 国产精品无码MV在线观看| 69天堂人成无码麻豆免费视频| 无码国产精成人午夜视频一区二区| 不卡无码人妻一区三区音频| 爽到高潮无码视频在线观看| 亚洲AV永久无码精品一福利| 亚洲午夜无码久久| 精品国产a∨无码一区二区三区| 曰批全过程免费视频在线观看无码 | 久久久久无码精品国产h动漫| 无码国产伦一区二区三区视频| 日韩综合无码一区二区| 亚洲成A人片在线观看无码3D| 狼人无码精华AV午夜精品| 狠狠久久精品中文字幕无码 | 无码av免费一区二区三区试看| 亚洲男人第一无码aⅴ网站| 免费a级毛片无码a∨性按摩| 精品韩国亚洲av无码不卡区| 一道久在线无码加勒比| 成人无码精品1区2区3区免费看| 一道久在线无码加勒比| 国产精品无码久久综合| 亚洲性无码av在线|