【技術實現步驟摘要】
本專利技術涉及計算機視覺中圖像分類
,特別涉及。
技術介紹
圖像分類是計算機視覺最基本的研究問題之一,其要解決的問題就是給定一張圖像自動判斷其中是否包含某類物體。圖像分類問題是視覺研究一個核心課題,許多其他視覺研究都要依賴和涉及圖像分類問題,如圖像中物體檢測、跟蹤,圖像分割,視頻中物體分類、檢測、跟蹤,行為分析,手勢識別等。K近鄰圖像分類是一種圖像分類方法,是指在對圖像分類時采用的是K近鄰投票的方式,即K個最近的圖像中出現次數最多的類別預測為該測試樣本的類別。除了可以簡單、高效地實現對圖像進行分類外,K近鄰分類還有很多其他特性。比如K近鄰圖像分類能夠獲取與測試圖像最接近的樣本,可以應用在圖像檢索、人臉檢索、視頻檢索等領域。由于傳統技術中分類器的選擇與圖像特征表達是兩個獨立的過程,而且K近鄰分類是一個非參數模型,其預測嚴重依賴于數據的空間分布,也即圖像特征表達,這就導致圖像特征表達對K近鄰分類而言不是最優的,對分類性能造成影響。近年來,圖像分類領域發展迅速,在分類技術方面取得了很多重要突破。當前,詞包模型是圖像特征表達主流框架之一。詞包模型通過對密集提取的圖像塊的底層特征描述進行統計特征描述,獲得對圖像的整體特征表達。詞包模型通常由底層特征描述、視覺單詞生成、底層特征編碼、特征匯聚、分類器訓練與測試等步驟構成,在分類器訓練前,我們可以認為詞包模型采用的是無監督的方式對圖像進行表達,不論是傳統的SIFT、HOG等底層特征還是詞包模型中層特征表達,都沒有利用到圖像的標簽信息,因而這樣的特征表達對于K近鄰分類這樣的無參數模型來說,通常不是最優的 ...
【技術保護點】
一種基于數據與任務驅動的圖像分類方法,其特征在于,包括:數據集準備,根據數據集規模與圖像內容設計卷積神經網絡結構;模型訓練,使用給定分類數據集對卷積神經網絡模型進行訓練;使用訓練后的卷積神經網絡對訓練集圖像進行特征表達提取;將測試圖像輸入訓練后的卷積神經網絡,使用K近鄰方式對測試圖像進行分類。
【技術特征摘要】
1.一種基于數據與任務驅動的圖像分類方法,其特征在于,包括: 數據集準備,根據數據集規模與圖像內容設計卷積神經網絡結構; 模型訓練,使用給定分類數據集對卷積神經網絡模型進行訓練; 使用訓練后的卷積神經網絡對訓練集圖像進行特征表達提取; 將測試圖像輸入訓練后的卷積神經網絡,使用K近鄰方式對測試圖像進行分類。2.根據權利要求1所述的基于數據與任務驅動的圖像分類方法,其特征在于,數據集準備,根據數據集規模與圖像內容設計卷積神經網絡結構,還包括: 至少通過以下方式中的一種或多種實現數據增強:1)從原始圖像隨機裁剪去圖像四周的邊緣部分以產生出新的具有細微差別的樣本圖像;2)在原始圖像像素中加入隨機高斯噪聲產生出新的樣本圖像。3.根據權利要求1所述的基于數據與任務驅動的圖像分類方法,其特征在于,數據集準備,根據數據集規模與圖像內容設計卷積神經網絡結構,還包括: 將圖像樣本縮放到固定尺寸,并將像素拉直成一個向量作為卷積神經網絡的輸入。4.根據權利要求1所述的基于數據與任務驅動的圖像分類方法,其特征在于,模型訓練,使用給定 分類數據集對卷積神經網絡模型進行訓練,具體還包括: 使用卷積神經網絡作為基本特征變換模型; 基于鄰分量分析期望錯誤率作為損失函數對卷積神經網絡模型進行訓練; 基于梯度的優化方法進行網絡訓練,并使用GPU進行運算。5.根據權利要求1所述的基于數據與任務驅動的圖像分類方法,其特征在于,使用訓...
【專利技術屬性】
技術研發人員:黃凱奇,任偉強,張俊格,
申請(專利權)人:中國科學院自動化研究所,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。