本發明專利技術公開一種基于聲紋信息對音/視頻文件進行操作的方法,包括如下步驟:采集發聲目標的聲紋信息;以及根據所述聲紋信息搜索音/視頻文件。本發明專利技術還提供了一種終端設備。本發明專利技術提出的技術方案,能夠根據特定聯系人的聲紋信息對音/視頻文件進行分類,當用戶想找到包含有特定聯系人的音/視頻文件,不必一個一個文件的播放查看,而是直接進行選擇,從而方便用戶查找含有特定人員聲音的音視頻文件。進一步地,本發明專利技術提供的基于聲紋信息對音/視頻文件進行操作的方法可以直接跳轉到音/視頻中某個聯系人說話的時間節點進行播放,從而提供用戶的搜索效率。
【技術實現步驟摘要】
基于聲紋信息對音頻/視頻文件進行操作的方法及裝置
本專利技術涉及移動設備通信應用領域,尤其涉及根據特定聯系人聲紋對終端設備音視頻操作的方法及裝置。
技術介紹
現有終端設備上的錄音器或攝像器可以方便用戶錄制和拍攝音頻和視頻文件。隨著終端設備的性能提高,存儲容量增大,多媒體應用程序的種類增多等條件,用戶很容易錄制或拍攝大量的音頻/視頻文件。然而,面對著大量音頻/視頻文件,當用戶需要查找所有錄制有某個特定聯系人的音頻/視頻文件,或查找和播放某個特定聯系人在某個音頻/視頻文件中的某一段特定信息時,由于無法快速定位,會遇到無從查找的情況。只有一個一個文件的播放查看,才能得到所需文件或片段。有鑒于此,需要提供一種快速查找和分類目標音頻/視頻文件,并定位特定聯系人在該文件中出現時間點的方法和終端設備,以方便用戶查找錄制有特定人員聲音和視頻的文件。
技術實現思路
為了解決上述技術問題,實現用戶快速查找錄制有特定人員聲音或視頻的文件。本專利技術的目的之一在于提供一種基于聲紋信息對音/視頻文件進行操作的方法,包括如下步驟:采集發聲目標的聲紋信息;以及根據所述聲紋信息搜索音/視頻文件;其中,所述音/視頻文件中的所有被錄制的聲音被分割為多個語音單元,每個語音單元只包含其中一個發聲目標的語音,并記錄所述發聲目標在所述音/視頻文件中的時間點。本專利技術的另一目的在于提供一種終端設備,包括:聲紋提取模塊,用于采集發聲目標的聲紋信息;以及執行模塊,用于根據所述聲紋信息搜索音/視頻文件;其中,所述音/視頻文件中的所有被錄制的聲音被分割為多個語音單元,每個語音單元只包含其中一個發聲目標的語音,并記錄所述發聲目標在所述音/視頻文件中的時間點。本專利技術提供的方法和裝置,能夠快速查找錄制有特定人員聲音或視頻的文件,以提高用戶的搜索效率。本專利技術附加的方面和優點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術上述的和/或附加的方面和優點從下面結合附圖對實施方法的描述中將變得明顯和容易理解,其中:圖1示出了根據本專利技術一實施例的流程示意圖;圖2示出了根據本專利技術的一實施例的終端設備進行音頻采集之前的界面示意圖;圖3示出了根據本專利技術實施例的音頻采集的流程圖;圖4示出了根據本專利技術的一實施例的終端設備進行音頻采集時的界面示意圖;圖5示出了搜索出錄制的視頻和音頻文件后終端設備顯示出在文件中標注有發聲目標的聲紋信息出現和/或結束的時間點的界面示意圖;圖6示出了根據本專利技術的一實施例的通過終端設備查看聯系人媒體庫的流程圖;圖7示出了根據本專利技術實施例的錄制聯系人聲音的流程圖;圖8示出了根據本專利技術一實施例的整體結構示意圖;圖9示出了根據本專利技術一實施例的結構示意圖。具體實施方式現在參照附圖來具體描述本專利技術的示例性實施方法。然而,本專利技術可以用許多不同形式來實施并且不應該認為局限于這里闡述的具體實施方法;相反,提供這些實施方法是為了使本專利技術的公開徹底和完整,并向本領域技術人員完整地傳達本專利技術的思想、觀念、目的、構思、參考方案和保護范圍。附圖中示例的具體示例性實施方法的詳細描述中使用的術語并不是為了限制本專利技術。附圖中,相同標號指代相同要素。本
技術人員可以理解,除非特意聲明,這里使用的單數形式“一”、“一個”、“所述”和“該”也可包括復數形式。應該進一步理解的是,本專利技術的說明書中使用的措辭“包括”是指存在所述特征、整數、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或耦接。這里使用的措辭“和/或”包括一個或更多個相關聯的列出項的任一單元和全部組合。本
技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語)具有與本專利技術所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語應該被理解為具有與現有技術的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。如圖1所示,本專利技術提供了一種基于聲紋信息對音/視頻文件進行操作的方法,包括如下步驟:S1、采集發聲目標的聲紋信息;以及S2、根據聲紋信息搜索音/視頻文件。例如,步驟S1通過如下方法實現:當聯系人X1給用戶Y打電話時,終端設備開啟內置錄音器錄制一段聯系人X1單獨講話的語音(例如,錄制的該講話語音,時間長度7-10秒),并從中提取聲紋信息;接著,停止通話后,終端設備根據錄制的聲紋信息生成說話人模型M1后,將該樣本存入媒體庫中;接著,終端設備將說話人模型對應通訊錄中聯系人X的名錄。例如,步驟S1還通過如下方法實現:當用戶Y帶兒子X2去公園游玩時,終端設備在通訊錄中兒子X2的記錄中開啟“錄制聲紋樣本”選項并錄制兒子X2的聲紋信息;接著,停止錄制后,終端設備根據錄制的聲紋信息生成說話人模型M2后,該樣本存入終端存儲器中;接著,終端設備將說話人模型對應媒體庫中聯系人X2的文件。當然,可以理解是,媒體庫是存儲多媒體文件集合的一種表述,也可以表述為文件夾、文件管理器、媒體管理器、視頻管理器、音頻管理器等等。如圖5所示,當以后再遇到包括有說話人模型M1和M2的聲紋信息,終端設備將這些視頻和音頻文件根據特定對象(例如,“我”和“兒子”)進行分類并標記。在分類存儲之后,可以生成相應分類的主題欄、文件夾、媒體庫等信息。步驟S1還可以通過如下步驟實現:步驟S11、當選中通訊錄應用程序中的一個發聲目標(例如,張三)時,顯示屏上提供錄制聲紋樣本選項;步驟S12、當用戶點擊錄制聲紋樣本選項后,終端設備采集聲紋信息,并將根據聲紋信息生成的說話人模型存儲在聯系人媒體庫中;以及步驟S13、當進入聯系人媒體庫頁面后,顯示屏呈現出搜索到的音/視頻文件。因此,采集發聲目標的聲紋信息包括:當選中某個發聲目標時,采集聲紋信息;以及存儲采集的聲紋信息。圖2示出了根據本專利技術的一實施例的終端設備進行音頻采集之前的界面示意圖。圖3示出了根據本專利技術實施例的音頻采集的流程圖。音頻采集流程包括如下步驟:步驟101:進入通訊錄,打開電話簿上特定聯系人。接著,步驟102:按“錄制聲紋樣本”選項(如圖2所示),錄制聯系人聲音(即,采集聯系人的聲紋信息)。接著,步驟103:錄制完成后,對聯系人的聲音進行建模,以生成說話人模型,并將說話人模型保存到聯系人信息中。因此,采集和存儲聲紋信息包括:根據聲紋信息生成說話人模型;以及將說話人模型存儲在本地存儲模塊中。圖4示出了根據本專利技術一實施方式的建模過程。利用聲紋信息識別說話人身份的技術可以稱為說話人識別(SpeakerRecognition,SR),相應的模型可以稱為說話人模型(SpeakerModel,SM)。說話人識別系統通常采用UBM-GMM的方法進行建模,即通過大量訓練音頻(不止一位說話人)訓練一個通用背景模型(UniversalBackgroundModel,UBM),然后在此UBM的基礎上通過自適應的方法對特定的說話人進行建模,得到說話人模型(SM)。無論是通用背景模型還是說話人本文檔來自技高網...

【技術保護點】
一種基于聲紋信息對音/視頻文件進行操作的方法,其特征在于,包括如下步驟:采集發聲目標的聲紋信息;以及根據所述聲紋信息搜索音/視頻文件。
【技術特征摘要】
1.一種基于聲紋信息對音/視頻文件進行操作的方法,其特征在于,包括如下步驟:采集發聲目標的聲紋信息;以及根據所述聲紋信息搜索音/視頻文件,終端設備顯示出在文件中標注有發聲目標的聲紋信息出現和/或結束的時間點;其中,所述音/視頻文件中的所有被錄制的聲音被分割為多個語音單元,每個語音單元只包含其中一個發聲目標的語音,并記錄所述發聲目標在所述音/視頻文件中的時間點,通過所述時間點映射所述音/視頻出現在相應文件中的位置。2.根據權利要求1所述的方法,其特征在于,所述采集發聲目標的聲紋信息包括:當選中某個發聲目標時,采集聲紋信息;以及存儲采集的聲紋信息。3.根據權利要求2所述的方法,其特征在于,采集和存儲聲紋信息包括:根據所述聲紋信息生成說話人模型;以及將所述說話人模型存儲在本地存儲模塊中。4.根據權利要求3所述的方法,其特征在于,所述存儲采集的聲紋信息包括:根據所述說話人模型進行分類存儲。5.根據權利要求3所述的方法,其特征在于,根據所述聲紋信息搜索音/視頻文件包括:當打開所述本地存儲模塊時,顯示所述音/視頻文件。6.根據權利要求4所述的方法,其特征在于,所述分類包括:根據所述說話人模型對音/視頻文件進行分類顯示。7.根據權利要求6所述的方法,其特征在于,所述分類包括:根據所述發聲目標的種類對音/視頻文件進行分類搜索。8.根據權利要求6所述的方法,其特征在于,所述時間點包括:當選中分類顯示中的所述時間點時,從該時間點開始播放所述音/視頻文件中含有的所述發聲目標的音頻/視頻。9.根據權利要求1所述的方法,其特征在于,當所述發聲目標為聯系人應用程序中的某個聯系人時,所述采集發聲目標的聲紋信息包括:當與該聯系人進行通話時,記錄所述聯系人的聲紋信息。10.根據權利要求1所述的方法,其特征在于,當所述發聲目標為聯系人應用程序中的某個聯系人時,所述采集發聲目標的聲紋信息包括:用戶手動錄制該聯系人語音,記錄所述聯系人的聲紋信息。11.根據權利要求1所述的方法,其特征在于,當所述發聲目標為聯系人應用程序中的某個聯系人時,所述搜索音/視頻文件包括:當選中該聯系人時,播放映射所述聯系人的音/視頻。12.一種終端設備,其特征在于,包括:聲紋提取模塊,用于采集發聲目標的聲...
【專利技術屬性】
技術研發人員:楊帆,蘇騰榮,李世全,馬永健,
申請(專利權)人:北京三星通信技術研究有限公司,三星電子株式會社,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。