The present invention relates to a method and apparatus for dividing a video semantic object image guidance, according to the semantic category, the target location in the sample image, get the object sample; extract candidate regions in each frame image of input video object; according to the sample, to match multiple candidate regions and objects extracted per sample in the frame, each candidate region similarity scores to rank; each candidate region in each frame similarity scores, which meets the preset number of candidate regions, the similarity scores from high to low score candidate regions; initial foreground and background of the selected high candidate region segmentation; consistency and prospect the background after the initial segmentation and ambiguity of the two constraint conditions based on the initial segmentation of the candidate region after construction optimization function, solving the optimization function The optimal candidate region set is obtained, and the initial foreground segmentation is propagated to the whole video, and then the semantic object segmentation of the input video is obtained.
【技術實現步驟摘要】
圖像引導的視頻語義對象分割方法及裝置
本專利技術涉及計算機視覺與多媒體分析領域,尤其涉及一種圖像引導的視頻語義對象分割方法及裝置。
技術介紹
隨著計算機視覺、多媒體分析技術的發展,以直觀形象為特征的多媒體信息資源日益豐富且深受社會大眾的喜愛,如何高效地從視頻信息中定位并分割出需要的視頻資源亦成為了研究熱點。視頻語義對象分割是一種針對特定語義類別,從輸入視頻中定位并分割出屬于該類別對象的視頻像素的技術。該技術可應用于大規模互聯網分析,影視制作中的視頻編輯,以及基于視頻的三維建模等。目前的視頻語義對象分割方法主要為參數化方法,所謂參數化方法,就是在視頻中對對象的所處位置進行一一標注,并收集大量已經標注了對象位置或對象輪廓的圖像視頻,從中學習出一個統一的、由參數作為表達形式的視覺模型,并將該視覺模型應用于輸入的測試視頻,基于該學習得到的視覺模型對該測試視頻中的目標對象進行對象分割。例如,美國喬治亞理工大學的Kundu等人提出了基于特征空間優化的視頻語義對象分割方法,該參數化方法通過大量精確標注的視頻幀學習卷積神經網絡得到視覺模型。美國密西根大學的Lei等人于2016年提出了機器學習模型遞歸時域深度場(RecurrentTemporalDeepField),并應用于視頻語義對象分割。然而,這類參數化的方法存在以下問題:一方面,采用參數化方法需要對大量的圖像進行精確標注得到訓練樣本,因此訓練樣本的收集過程較為困難且耗時較長;另一方面,訓練得到的參數模型難以根據新增加的圖像進行高效地更新和迭代,因此對于視覺資源的動態增長的適應性不好。例如,若在已有的視覺系統中增加新的 ...
【技術保護點】
一種圖像引導的視頻語義對象分割方法,其特征在于,包括:根據給定的語義類別,在樣本圖像中定位出與所述語義類別對應的目標對象,得到對象樣例;對輸入視頻中的每幀圖像進行候選區域的提取;根據所述對象樣例,將每幀中所提取的多個候選區域與所述對象樣例進行匹配處理,得到每個候選區域的相似度分數;對每幀中各個候選區域的相似度分數進行排序,選出滿足預設候選區域個數的、相似度分數由高到低的高分候選區域;對選出的所述高分候選區域進行前景與背景的初始分割處理;基于初始分割后前景與背景的一致性和無二義性約束條件,對初始分割處理后的候選區域構建優化函數,求解所述優化函數得到最優的候選區域集合;將所述最優的候選區域對應的初始前景分割傳播到整個視頻,得到所述輸入視頻的語義對象分割。
【技術特征摘要】
1.一種圖像引導的視頻語義對象分割方法,其特征在于,包括:根據給定的語義類別,在樣本圖像中定位出與所述語義類別對應的目標對象,得到對象樣例;對輸入視頻中的每幀圖像進行候選區域的提取;根據所述對象樣例,將每幀中所提取的多個候選區域與所述對象樣例進行匹配處理,得到每個候選區域的相似度分數;對每幀中各個候選區域的相似度分數進行排序,選出滿足預設候選區域個數的、相似度分數由高到低的高分候選區域;對選出的所述高分候選區域進行前景與背景的初始分割處理;基于初始分割后前景與背景的一致性和無二義性約束條件,對初始分割處理后的候選區域構建優化函數,求解所述優化函數得到最優的候選區域集合;將所述最優的候選區域對應的初始前景分割傳播到整個視頻,得到所述輸入視頻的語義對象分割。2.根據權利要求1所述的方法,其特征在于,所述根據所述對象樣例,將每幀中所提取的多個候選區域與所述對象樣例進行匹配處理,得到每個候選區域的相似度分數,包括:在所述對象樣例中,確定與每幀中的每個候選區域外觀相似的圖像區域;確定所述圖像區域在所述對象樣例的樣本圖像中的相對坐標和尺寸參數;保持所述相對坐標和尺寸參數,在所述輸入視頻的對應幀中構造一個新的對象區域;根據構造的所述新的對象區域為每一個所述候選區域評分,得到每個候選區域的相似度分數。3.根據權利要求1所述的方法,其特征在于,所述對選出的所述高分候選區域進行前景與背景的初始分割處理,包括:對所述高分候選區域內的每個超像素的前景與背景的概率值進行計算,得到所有超像素的前景概率所構成的初始前景分割向量以及背景概率所構成的初始背景分割向量。4.根據權利要求3所述的方法,其特征在于,所述基于初始分割后前景與背景的一致性和無二義性約束條件,對初始分割處理后的候選區域構建優化函數,求解所述優化函數得到最優的候選區域集合,包括:對所述輸入視頻構建第一超像素圖,將所述初始前景分割向量與所述初始背景分割向量沿著所述第一超像素圖傳播至整個所述輸入視頻,得到傳播后的前景和背景分割向量;根據所述傳播后的前景和背景分割向量,構造分割的一致性約束項和無二義性約束項,形成所述優化函數;基于貪婪算法,對所述優化函數進行求解,得到最優的候選區域集合。5.根據權利要求1所述的方法,其特征在于,所述將所述最優的候選區域對應的初始前景分割傳播到整個視頻,得到所述輸入視頻的語義對象分割,包括:根據給定的視頻幀數,給定的每幀上的所述高分候選區域的個數,在所述高分候選區域中選取候選區域,得到精選候選區域集合;其中,所述精選候選區域集合中包含有所述給定的視頻幀數與所述給定的每幀上的所述高分候選區域的個數的乘積個高分候選區域;對選取的所述精選候選區域集合建立第二超像素圖,采用隨機游走算法將所述精選候選區域集合中候選區域對應的初始前景分割沿所述第二超像素圖傳播,得到傳播后的前景概率分布;以所述傳播后的前景概率分布作為初始分布,在所述輸入視頻的所述第一超像素圖上基于所述隨機游走算法進行二次傳播,得到最終的超像素前景...
【專利技術屬性】
技術研發人員:陳小武,張宇,李甲,滕煒,宋昊坤,趙沁平,
申請(專利權)人:北京航空航天大學,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。