本發(fā)明專利技術(shù)涉及直播技術(shù)領(lǐng)域,提供一種違規(guī)直播間識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì),方法包括:獲取待識(shí)別直播間的文本信息,文本信息包括待識(shí)別直播間內(nèi)的聊天文本、由直播音頻轉(zhuǎn)化的音頻文本及待識(shí)別直播間的屬性信息;將音頻文本輸入長(zhǎng)文本預(yù)測(cè)模型,得到待識(shí)別直播間的第一違規(guī)概率;分別將聊天文本和屬性信息輸入第一短文本預(yù)測(cè)模型和第二短文本預(yù)測(cè)模型,得到待識(shí)別直播間的第二違規(guī)概率和第三違規(guī)概率;根據(jù)第一違規(guī)概率、第二違規(guī)概率及第三違規(guī)概率,識(shí)別待識(shí)別直播間是否違規(guī)。本發(fā)明專利技術(shù)能夠高效、準(zhǔn)確地識(shí)別出違規(guī)直播平臺(tái)。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及直播,具體而言,涉及一種違規(guī)直播間識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、隨著直播平臺(tái)的興起和發(fā)展,越來(lái)越多的用戶通過(guò)直播平臺(tái)觀看自己喜歡的主播,用戶之間以及用戶和主播之間也會(huì)在直播間進(jìn)行互動(dòng)交流。這也給了一些惡意用戶可乘之機(jī),他們利用直播平臺(tái)進(jìn)行違規(guī)信息的宣傳及違規(guī)業(yè)務(wù)的開(kāi)展,嚴(yán)重破壞了直播平臺(tái)的生態(tài)環(huán)境。
2、現(xiàn)有的利用人力巡查監(jiān)控的方式效率低、且無(wú)法做到實(shí)時(shí)監(jiān)控,使用關(guān)鍵詞或者正則表達(dá)式進(jìn)行特征匹配的方式,雖然一定程度上能夠提高監(jiān)控效率,但是在實(shí)現(xiàn)本專利技術(shù)的過(guò)程中,專利技術(shù)人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問(wèn)題:由于其依賴人工經(jīng)驗(yàn)預(yù)先挖掘出可靠的特征,而人工經(jīng)驗(yàn)的程度不同,導(dǎo)致識(shí)別的準(zhǔn)確率不能保證。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的在于提供了一種違規(guī)直播間識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì),其能夠高效、準(zhǔn)確地識(shí)別出違規(guī)直播平臺(tái)。
2、本專利技術(shù)的實(shí)施例可以這樣實(shí)現(xiàn):
3、第一方面,本專利技術(shù)提供一種違規(guī)直播間識(shí)別方法,所述方法包括:
4、獲取待識(shí)別直播間的文本信息,所述文本信息包括待識(shí)別直播間內(nèi)的聊天文本、由直播音頻轉(zhuǎn)化的音頻文本及所述待識(shí)別直播間的屬性信息;
5、將所述音頻文本輸入長(zhǎng)文本預(yù)測(cè)模型,得到所述待識(shí)別直播間的第一違規(guī)概率;
6、分別將所述聊天文本和所述屬性信息輸入第一短文本預(yù)測(cè)模型和第二短文本預(yù)測(cè)模型,得到所述待識(shí)別直播間的第二違規(guī)概率和第三違規(guī)概率;
<
p>7、根據(jù)所述第一違規(guī)概率、所述第二違規(guī)概率及所述第三違規(guī)概率,識(shí)別所述待識(shí)別直播間是否違規(guī)。8、在可選的實(shí)施方式中,所述文本信息為多個(gè)、且多個(gè)所述文本信息的采集時(shí)間連續(xù),所述根據(jù)所述第一違規(guī)概率、所述第二違規(guī)概率及所述第三違規(guī)概率,識(shí)別所述待識(shí)別直播間是否違規(guī)的步驟包括:
9、獲取第一權(quán)重、第二權(quán)重和第三權(quán)重;
10、根據(jù)所述第一權(quán)重、第二權(quán)重和第三權(quán)重,對(duì)每一所述文本信息對(duì)應(yīng)的第一違規(guī)概率、第二違規(guī)概率、第三違規(guī)概率進(jìn)行加權(quán)計(jì)算,得到每一所述文本信息對(duì)應(yīng)的違規(guī)概率;
11、統(tǒng)計(jì)所有所述文本信息對(duì)應(yīng)的違規(guī)概率中大于預(yù)設(shè)概率值的個(gè)數(shù);
12、若所述個(gè)數(shù)大于或者等于預(yù)設(shè)個(gè)數(shù),則判定所述違規(guī)直播間違規(guī)。
13、在可選的實(shí)施方式中,所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重的確定方式為:
14、分別為所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重賦各自的初始值;
15、基于所述第一權(quán)重、所述第二權(quán)重、所述第三權(quán)重各自的初始值,利用樣本信息對(duì)所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重進(jìn)行調(diào)整,得到三個(gè)權(quán)重各自的最終值,所述樣本信息是訓(xùn)練所述長(zhǎng)文本預(yù)測(cè)模型、所述第一短文本預(yù)測(cè)模型及所述第二短文本預(yù)測(cè)模型時(shí)采用的樣本信息。
16、在可選的實(shí)施方式中,所述樣本信息為多個(gè),每一所述樣本信息包括獲取時(shí)間相同的聊天文本樣本、音頻文本樣本、屬性信息樣本及標(biāo)簽,所述基于所述第一權(quán)重、所述第二權(quán)重、所述第三權(quán)重各自的初始值,利用樣本信息對(duì)所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重進(jìn)行調(diào)整,得到三個(gè)權(quán)重各自的最終值的步驟包括:
17、依次獲取每一所述樣本信息;
18、將當(dāng)前獲取的樣本信息的音頻文本樣本輸入所述長(zhǎng)文本預(yù)測(cè)模型,得到第一預(yù)測(cè)概率;
19、分別將當(dāng)前獲取的樣本信息的聊天文本樣本和屬性信息樣本輸入所述第一短文本預(yù)測(cè)模塊和所述第二短文本預(yù)測(cè)模型,得到第二預(yù)測(cè)概率和第三預(yù)測(cè)概率;
20、根據(jù)所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重各自的當(dāng)前值,對(duì)所述第一預(yù)測(cè)概率、所述第二預(yù)測(cè)概率和所述第三預(yù)測(cè)概率進(jìn)行加權(quán)計(jì)算,得到總預(yù)測(cè)概率,所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重各自的當(dāng)前值在一次調(diào)整時(shí)為各自的初始值,在非第一次調(diào)整時(shí)為各自在前一次調(diào)整后的值;
21、根據(jù)所述總預(yù)測(cè)概率及所述標(biāo)簽對(duì)所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重各自的當(dāng)前值進(jìn)行調(diào)整;
22、若不滿足預(yù)設(shè)結(jié)束條件,則返回所述依次獲取每一所述樣本信息的步驟,直至滿足預(yù)設(shè)結(jié)束條件,并將最后一次調(diào)整后的第一權(quán)重、第二權(quán)重及第三權(quán)重各自的值作為各自的最終值。
23、在可選的實(shí)施方式中,所述若所述個(gè)數(shù)大于或者等于預(yù)設(shè)個(gè)數(shù),則判定所述違規(guī)直播間違規(guī)步驟之后還包括:
24、獲取所述待識(shí)別直播間的人工識(shí)別結(jié)果;
25、當(dāng)所述人工識(shí)別結(jié)果表征待識(shí)別直播間違規(guī)時(shí),將大于所述預(yù)設(shè)概率值的違規(guī)概率對(duì)應(yīng)的文本信息添加至樣本集。
26、在可選的實(shí)施方式中,所述長(zhǎng)文本預(yù)測(cè)模型包括預(yù)處理網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶bilstm網(wǎng)絡(luò)、注意力機(jī)制網(wǎng)絡(luò)及分類網(wǎng)絡(luò),所述將所述音頻文本輸入長(zhǎng)文本預(yù)測(cè)模型,得到所述待識(shí)別直播間的第一違規(guī)概率的步驟包括:
27、將所述音頻文本輸入所述預(yù)處理網(wǎng)絡(luò)進(jìn)行分詞處理,得到多個(gè)詞嵌入向量;
28、將所述多個(gè)詞嵌入向量輸入所述bilstm網(wǎng)絡(luò)進(jìn)行類別預(yù)測(cè),得到每一所述詞嵌入向量的類別得分;
29、將每一所述詞嵌入向量的類別得分輸入所述注意力機(jī)制網(wǎng)絡(luò)進(jìn)行加權(quán)求和,得到所述音頻文本的句子向量;
30、將所述句子向量輸入所述分類網(wǎng)絡(luò)進(jìn)行分類,得到所述第一違規(guī)概率。
31、在可選的實(shí)施方式中,待處理數(shù)據(jù)為所述聊天文本或所述屬性信息,預(yù)設(shè)短文本預(yù)測(cè)模型為第一短文本預(yù)測(cè)模型或第二短文本預(yù)測(cè)模型,所述預(yù)設(shè)短文本預(yù)測(cè)模型包括輸入層、卷積層、池化層和全連接層,將所述待處理數(shù)據(jù)輸入所述預(yù)設(shè)短文本預(yù)測(cè)模型得到違規(guī)概率的步驟為:
32、將所述待處理數(shù)據(jù)輸入所述輸入層進(jìn)行文本分詞,得到所述待處理數(shù)據(jù)的文本矩陣;
33、將所述文本矩陣輸入所述卷積層進(jìn)行特征提取,得到數(shù)據(jù)特征圖;
34、將所述數(shù)據(jù)特征圖輸入所述池化層進(jìn)行池化處理,得到池化結(jié)果;
35、將所述池化結(jié)果輸入所述全連接層進(jìn)行分類處理,得到所述違規(guī)概率,所述待處理數(shù)據(jù)為所述聊天文本時(shí),所述違規(guī)概率為所述第二違規(guī)概率,所述待處理數(shù)據(jù)為所述屬性信息時(shí),所述違規(guī)概率為所述第三違規(guī)概率。
36、第二方面,本專利技術(shù)提供一種違規(guī)直播間識(shí)別裝置,所述裝置包括:
37、獲取模塊,用于獲取待識(shí)別直播間的文本信息,所述文本信息包括待識(shí)別直播間內(nèi)的聊天文本、由直播音頻轉(zhuǎn)化的音頻文本及所述待識(shí)別直播間的屬性信息;
38、預(yù)測(cè)模塊,用于將所述音頻文本輸入長(zhǎng)文本預(yù)測(cè)模型,得到所述待識(shí)別直播間的第一違規(guī)概率;
39、所述預(yù)測(cè)模塊,還用于分別將所述聊天文本和所述屬性信息輸入第一短文本預(yù)測(cè)模型和第二短文本預(yù)測(cè)模型,得到所述待識(shí)別直播間的第二違規(guī)概率和第三違規(guī)概率;
40、識(shí)別模塊,用于根據(jù)所述第一違規(guī)概率、所述第二違規(guī)概率及所述第三違規(guī)概率,識(shí)別所述待識(shí)別直播間是否違規(guī)。
41、第三方面,本專利技術(shù)提供一種電子設(shè)備,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器用于存儲(chǔ)程本文檔來(lái)自技高網(wǎng)
...
【技術(shù)保護(hù)點(diǎn)】
1.一種違規(guī)直播間識(shí)別方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的違規(guī)直播間識(shí)別方法,其特征在于,所述文本信息為多個(gè)、且多個(gè)所述文本信息的采集時(shí)間連續(xù),所述根據(jù)所述第一違規(guī)概率、所述第二違規(guī)概率及所述第三違規(guī)概率,識(shí)別所述待識(shí)別直播間是否違規(guī)的步驟包括:
3.如權(quán)利要求2所述的違規(guī)直播間識(shí)別方法,其特征在于,所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重的確定方式為:
4.如權(quán)利要求3所述的違規(guī)直播間識(shí)別方法,其特征在于,所述樣本信息為多個(gè),每一所述樣本信息包括獲取時(shí)間相同的聊天文本樣本、音頻文本樣本、屬性信息樣本及標(biāo)簽,所述基于所述第一權(quán)重、所述第二權(quán)重、所述第三權(quán)重各自的初始值,利用樣本信息對(duì)所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重進(jìn)行調(diào)整,得到三個(gè)權(quán)重各自的最終值的步驟包括:
5.如權(quán)利要求2所述的違規(guī)直播間識(shí)別方法,其特征在于,所述若所述個(gè)數(shù)大于或者等于預(yù)設(shè)個(gè)數(shù),則判定所述違規(guī)直播間違規(guī)步驟之后還包括:
6.如權(quán)利要求1所述的違規(guī)直播間識(shí)別方法,其特征在于,所述長(zhǎng)文本預(yù)測(cè)模型包括預(yù)處理網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶BiLSTM網(wǎng)絡(luò)、注意力機(jī)制網(wǎng)絡(luò)及分類網(wǎng)絡(luò),所述將所述音頻文本輸入長(zhǎng)文本預(yù)測(cè)模型,得到所述待識(shí)別直播間的第一違規(guī)概率的步驟包括:
7.如權(quán)利要求1所述的違規(guī)直播間識(shí)別方法,其特征在于,待處理數(shù)據(jù)為所述聊天文本或所述屬性信息,預(yù)設(shè)短文本預(yù)測(cè)模型為第一短文本預(yù)測(cè)模型或第二短文本預(yù)測(cè)模型,所述預(yù)設(shè)短文本預(yù)測(cè)模型包括輸入層、卷積層、池化層和全連接層,將所述待處理數(shù)據(jù)輸入所述預(yù)設(shè)短文本預(yù)測(cè)模型得到違規(guī)概率的步驟為:
8.一種違規(guī)直播間識(shí)別裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器用于存儲(chǔ)程序,所述處理器用于在執(zhí)行所述程序時(shí),實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的違規(guī)直播間識(shí)別方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的違規(guī)直播間識(shí)別方法。
...
【技術(shù)特征摘要】
1.一種違規(guī)直播間識(shí)別方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的違規(guī)直播間識(shí)別方法,其特征在于,所述文本信息為多個(gè)、且多個(gè)所述文本信息的采集時(shí)間連續(xù),所述根據(jù)所述第一違規(guī)概率、所述第二違規(guī)概率及所述第三違規(guī)概率,識(shí)別所述待識(shí)別直播間是否違規(guī)的步驟包括:
3.如權(quán)利要求2所述的違規(guī)直播間識(shí)別方法,其特征在于,所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重的確定方式為:
4.如權(quán)利要求3所述的違規(guī)直播間識(shí)別方法,其特征在于,所述樣本信息為多個(gè),每一所述樣本信息包括獲取時(shí)間相同的聊天文本樣本、音頻文本樣本、屬性信息樣本及標(biāo)簽,所述基于所述第一權(quán)重、所述第二權(quán)重、所述第三權(quán)重各自的初始值,利用樣本信息對(duì)所述第一權(quán)重、所述第二權(quán)重及所述第三權(quán)重進(jìn)行調(diào)整,得到三個(gè)權(quán)重各自的最終值的步驟包括:
5.如權(quán)利要求2所述的違規(guī)直播間識(shí)別方法,其特征在于,所述若所述個(gè)數(shù)大于或者等于預(yù)設(shè)個(gè)數(shù),則判定所述違規(guī)直播間違規(guī)步驟之后還包括:
6.如權(quán)利要求1...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:龔家政,
申請(qǐng)(專利權(quán))人:廣州虎牙信息科技有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。