本發(fā)明專(zhuān)利技術(shù)涉及一種基于視頻文本信息提取的信息查詢(xún)方法以及裝置。該方法包括:從視頻文件中提取文本信息;提取所述文本信息中的領(lǐng)域特征詞;建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián);當(dāng)接收到查詢(xún)指令時(shí),根據(jù)所述查詢(xún)指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。能夠?qū)⒁曨l文件中的所有或者大部分文本信息都提取出來(lái),并利用領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián),使得檢索結(jié)果的召回率高,檢索結(jié)果更加的準(zhǔn)確。
Information inquiry method and device based on video text information extraction
The invention relates to an information inquiry method based on video text information extraction and a device thereof. The method includes: extracting text information from video files; extracting word domain feature of text information in the field; establish the association between the feature words and text information; when receiving inquiry instruction, according to the query keywords contained in the instruction, to obtain the domain feature words corresponding to the keyword the associated text information. Can the video files of all or most of the text information are extracted, and the correlation between field feature words and text information, which makes the search results the recall rate is high, the retrieval result is more accurate.
【技術(shù)實(shí)現(xiàn)步驟摘要】
基于視頻文本信息提取的信息查詢(xún)方法以及裝置
本專(zhuān)利技術(shù)涉及信息提取
,具體而言,涉及一種基于視頻文本信息提取的信息查詢(xún)方法以及裝置。
技術(shù)介紹
在教育行業(yè),自動(dòng)知識(shí)問(wèn)答作為普遍需求越來(lái)越被人們重視。目前的自動(dòng)問(wèn)答系統(tǒng)的數(shù)據(jù)庫(kù)的構(gòu)建主要是基于傳統(tǒng)的文本檢索引擎。這種基于文本標(biāo)注建立數(shù)據(jù)庫(kù)的方式,導(dǎo)致后續(xù)的檢索也是基于文本檢索的。但是隨著互聯(lián)網(wǎng)教育行業(yè)的興起,在線(xiàn)直播、視頻課程等形式逐漸替代傳統(tǒng)的課堂教學(xué)成為主流,大量的音視頻都是非文本內(nèi)容,或者附帶的文本內(nèi)容很少,這導(dǎo)致大量有價(jià)值的內(nèi)容并沒(méi)有被涵蓋在內(nèi),數(shù)據(jù)量的不足,最終導(dǎo)致檢索結(jié)果的召回率低,檢索結(jié)果不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)思路
有鑒于此,本專(zhuān)利技術(shù)實(shí)施例的目的在于提供一種音視頻信息查詢(xún)方法以及裝置,能夠?qū)⒁曨l文件中的所有或者大部分文本信息都提取出來(lái),并利用領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián),使得檢索結(jié)果的召回率高,檢索結(jié)果更加的準(zhǔn)確。第一方面,本專(zhuān)利技術(shù)實(shí)施例提供了一種基于視頻文本信息提取的信息查詢(xún)方法,包括:從視頻文件中提取文本信息;提取所述文本信息中的領(lǐng)域特征詞;建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián);當(dāng)接收到查詢(xún)指令時(shí),根據(jù)所述查詢(xún)指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。結(jié)合第一方面,本專(zhuān)利技術(shù)實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中:所述從視頻文件中提取文本信息,具體包括:從所述視頻文件中提取關(guān)鍵幀圖像;對(duì)關(guān)鍵幀圖像進(jìn)行去噪處理;對(duì)關(guān)鍵幀圖像中的文字進(jìn)行定位,獲取文字定位圖像;識(shí)別所述文字定位圖像中的所述文本信息。結(jié)合第一方面,本專(zhuān)利技術(shù)實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中:所述提取所述文本信息中的領(lǐng)域特征詞,具體包括:對(duì)所述文本信息進(jìn)行切詞處理,形成由詞匯構(gòu)成的視頻語(yǔ)料集合;根據(jù)所述視頻語(yǔ)料集合以及外源語(yǔ)料集合,對(duì)所述視頻語(yǔ)料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞。結(jié)合第一方面,本專(zhuān)利技術(shù)實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中:所述根據(jù)所述視頻語(yǔ)料集合以及外源語(yǔ)料集合,對(duì)所述視頻語(yǔ)料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞具體包括:對(duì)所述視頻語(yǔ)料集合中的詞匯進(jìn)行頻率統(tǒng)計(jì),獲得不同詞匯的使用頻率;將詞匯在視頻語(yǔ)料集合中的使用頻率與其在外源語(yǔ)料集合中的使用頻率進(jìn)行比對(duì);如果該詞匯在視頻語(yǔ)料集合中的使用頻率較之其在外源語(yǔ)料集合中的使用頻率高出預(yù)設(shè)的閾值,那么就將該詞匯作為領(lǐng)域特征詞。結(jié)合第一方面,本專(zhuān)利技術(shù)實(shí)施例提供了第一方面的第四種可能的實(shí)施方式,其中:還包括:獲取文本信息的屬性信息;根據(jù)所述屬性信息,對(duì)所述文本信息進(jìn)行分級(jí),并按照所述分級(jí)對(duì)所述文本信息進(jìn)行分級(jí)存儲(chǔ)。第二方面,本專(zhuān)利技術(shù)實(shí)施例還提供一種基于視頻文本信息提取的信息查詢(xún)裝置,包括:文本信息提取單元,用于從視頻文件中提取文本信息;領(lǐng)域特征詞提取單元,用于提取所述文本信息中的領(lǐng)域特征詞;關(guān)聯(lián)建立單元,用于建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián);查詢(xún)單元,用于當(dāng)接收到查詢(xún)指令時(shí),根據(jù)所述查詢(xún)指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。結(jié)合第二方面,本專(zhuān)利技術(shù)實(shí)施例提供了第二方面的第一種可能的實(shí)施方式,其中:所述文本信息提取單元包括:從關(guān)鍵幀圖像提取模塊,用于從所述視頻文件中提取關(guān)鍵幀圖像;去噪模塊,用于對(duì)關(guān)鍵幀圖像進(jìn)行去噪處理;文字定位模塊,用于對(duì)關(guān)鍵幀圖像中的文字進(jìn)行定位,獲取文字定位圖像;文本信息識(shí)別模塊,用于識(shí)別所述文字定位圖像中的所述文本信息。結(jié)合第二方面,本專(zhuān)利技術(shù)實(shí)施例提供了第二方面的第二種可能的實(shí)施方式,其中:所述領(lǐng)域特征詞提取單元包括:切詞模塊,用于對(duì)所述文本信息進(jìn)行切詞處理,形成由詞匯構(gòu)成的視頻語(yǔ)料集合;詞匯篩選模塊,用于根據(jù)所述視頻語(yǔ)料集合以及外源語(yǔ)料集合,對(duì)所述視頻語(yǔ)料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞。結(jié)合第二方面,本專(zhuān)利技術(shù)實(shí)施例提供了第二方面的第三種可能的實(shí)施方式,其中:所述詞匯篩選模塊包括:頻率統(tǒng)計(jì)子模塊,用于對(duì)所述視頻語(yǔ)料集合中的詞匯進(jìn)行頻率統(tǒng)計(jì),獲得不同詞匯的使用頻率;比對(duì)模塊,用于將詞匯在視頻語(yǔ)料集合中的使用頻率與其在外源語(yǔ)料集合中的使用頻率進(jìn)行比對(duì);如果該詞匯在視頻語(yǔ)料集合中的使用頻率較之其在外源語(yǔ)料集合中的使用頻率高出預(yù)設(shè)的閾值,那么就將該詞匯作為領(lǐng)域特征詞。結(jié)合第二方面,本專(zhuān)利技術(shù)實(shí)施例提供了第二方面的第四種可能的實(shí)施方式,其中:還包括:屬性信息獲取單元,用于獲取文本信息的屬性信息;分級(jí)單元,用于根據(jù)所述屬性信息,對(duì)所述文本信息進(jìn)行分級(jí),并按照所述分級(jí)對(duì)所述文本信息進(jìn)行分級(jí)存儲(chǔ)。本專(zhuān)利技術(shù)實(shí)施例所提供的基于視頻文本信息提取的信息查詢(xún)方法以及裝置,先從視頻文件中提取文本信息,再?gòu)奈谋拘畔⒅刑崛☆I(lǐng)域特征詞,建立領(lǐng)域特征詞之間的關(guān)聯(lián)關(guān)系,當(dāng)用戶(hù)進(jìn)行查詢(xún)的時(shí)候,可以直接獲得與其所輸入的關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息,其在從視頻文件中提取文本信息的時(shí)候,就已經(jīng)將視頻文件中的所有或者大部分文本信息都提取出來(lái),并利用領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián),使得檢索結(jié)果的召回率高,檢索結(jié)果更加的準(zhǔn)確。為使本專(zhuān)利技術(shù)的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。附圖說(shuō)明為了更清楚地說(shuō)明本專(zhuān)利技術(shù)實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本專(zhuān)利技術(shù)的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。圖1示出了本專(zhuān)利技術(shù)實(shí)施例所提供的一種基于視頻文本信息提取的信息查詢(xún)方法的流程圖;圖2示出了本專(zhuān)利技術(shù)實(shí)施例所提供的基于視頻文本信息提取的信息查詢(xún)方法中,從視頻文件中提取文本信息具體方法的流程圖;圖3示出了本專(zhuān)利技術(shù)實(shí)施例所提供的基于視頻文本信息提取的信息查詢(xún)方法中,提取所述文本信息中的領(lǐng)域特征詞具體方法的流程圖;圖4示出了本專(zhuān)利技術(shù)實(shí)施例所提供的另一種基于視頻文本信息提取的信息查詢(xún)方法的流程圖;圖5示出了本專(zhuān)利技術(shù)實(shí)施例所提供的一種基于視頻文本信息提取的信息查詢(xún)裝置的結(jié)構(gòu)示意圖;圖6示出了本專(zhuān)利技術(shù)實(shí)施例所提供的基于視頻文本信息提取的信息查詢(xún)裝置中,文本信息提取單元的具體結(jié)構(gòu)示意圖;圖7示出了本專(zhuān)利技術(shù)實(shí)施例所提供的基于視頻文本信息提取的信息查詢(xún)裝置中,領(lǐng)域特征詞提取單元的具體結(jié)構(gòu)示意圖;圖8示出了本專(zhuān)利技術(shù)實(shí)施例所提供的另一種基于視頻文本信息提取的信息查詢(xún)裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本專(zhuān)利技術(shù)實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本專(zhuān)利技術(shù)實(shí)施例中附圖,對(duì)本專(zhuān)利技術(shù)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本專(zhuān)利技術(shù)一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本專(zhuān)利技術(shù)實(shí)施例的組件可以以各種不同的配置來(lái)布置和設(shè)計(jì)。因此,以下對(duì)在附圖中提供的本專(zhuān)利技術(shù)的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本專(zhuān)利技術(shù)的范圍,而是僅僅表示本專(zhuān)利技術(shù)的選定實(shí)施例。基于本專(zhuān)利技術(shù)的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本專(zhuān)利技術(shù)保護(hù)的范圍。隨著互聯(lián)網(wǎng)教育行業(yè)的興起,在線(xiàn)直播、視頻課程等形式逐漸替代傳統(tǒng)的課堂教學(xué)稱(chēng)為主流,大量的音視頻都是非文本內(nèi)容。但是目前自動(dòng)問(wèn)答系統(tǒng)中的信息查詢(xún)方法一般是基于傳統(tǒng)的文本搜索引擎技術(shù),因此想要在自動(dòng)問(wèn)答系統(tǒng)中實(shí)現(xiàn)對(duì)視頻內(nèi)容的檢索,需本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種基于視頻文本信息提取的信息查詢(xún)方法,其特征在于,包括:從視頻文件中提取文本信息;提取所述文本信息中的領(lǐng)域特征詞;建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián);當(dāng)接收到查詢(xún)指令時(shí),根據(jù)所述查詢(xún)指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。
【技術(shù)特征摘要】
1.一種基于視頻文本信息提取的信息查詢(xún)方法,其特征在于,包括:從視頻文件中提取文本信息;提取所述文本信息中的領(lǐng)域特征詞;建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián);當(dāng)接收到查詢(xún)指令時(shí),根據(jù)所述查詢(xún)指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從視頻文件中提取文本信息,具體包括:從所述視頻文件中提取關(guān)鍵幀圖像;對(duì)關(guān)鍵幀圖像進(jìn)行去噪處理;對(duì)關(guān)鍵幀圖像中的文字進(jìn)行定位,獲取文字定位圖像;識(shí)別所述文字定位圖像中的所述文本信息。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取所述文本信息中的領(lǐng)域特征詞,具體包括:對(duì)所述文本信息進(jìn)行切詞處理,形成由詞匯構(gòu)成的視頻語(yǔ)料集合;根據(jù)所述視頻語(yǔ)料集合以及外源語(yǔ)料集合,對(duì)所述視頻語(yǔ)料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述視頻語(yǔ)料集合以及外源語(yǔ)料集合,對(duì)所述視頻語(yǔ)料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞具體包括:對(duì)所述視頻語(yǔ)料集合中的詞匯進(jìn)行頻率統(tǒng)計(jì),獲得不同詞匯的使用頻率;將詞匯在視頻語(yǔ)料集合中的使用頻率與其在外源語(yǔ)料集合中的使用頻率進(jìn)行比對(duì);如果該詞匯在視頻語(yǔ)料集合中的使用頻率較之其在外源語(yǔ)料集合中的使用頻率高出預(yù)設(shè)的閾值,那么就將該詞匯作為領(lǐng)域特征詞。5.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的方法,其特征在于,還包括:獲取文本信息的屬性信息;根據(jù)所述屬性信息,對(duì)所述文本信息進(jìn)行分級(jí),并按照所述分級(jí)對(duì)所述文本信息進(jìn)行分級(jí)存儲(chǔ)。6.一種基于視頻文本信息提取的信息查詢(xún)裝置,其特征在于,包括:文本信息提取...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:王琳,李闖,
申請(qǐng)(專(zhuān)利權(quán))人:北京百家互聯(lián)科技有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:北京,11
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。