Method for automatically establishing personal corpus provided by the invention, through conversation content acquisition communication, access to the session content in a session on the scene, according to the preset label, collected a session on the corresponding tag tag value and scene scene, scene of the session and the corresponding label label label value and scene scene matching combined to generate personal corpus, solve the existing artificial establishment dialogue corpus workload and do not have individual specific technical problems. Not only greatly reduce the manual workload will establish dialogue corpus, and the scene of tags and the corresponding extraction according to the content of the communication session session to generate the value of the exclusive personal corpus with personal exclusive and highly targeted, personalized reflects the high level of.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種自動(dòng)建立個(gè)人專屬語料庫的方法
本專利技術(shù)涉及通信
,具體涉及一種自動(dòng)建立個(gè)人專屬語料庫的方法。
技術(shù)介紹
目前,智能會(huì)話系統(tǒng)中用于自動(dòng)回復(fù)的會(huì)話回復(fù)內(nèi)容,往往是通過匹配會(huì)話語料庫的方式獲取。上述過程中的會(huì)話語料庫,主要是通過人工創(chuàng)建的。人工建庫的工作量大,且建庫質(zhì)量普遍不高。此外,現(xiàn)有技術(shù)方案中的會(huì)話語料庫幾乎都是通用于所有用戶的,不具備個(gè)人專屬性和針對(duì)性。針對(duì)該問題,故本實(shí)施例提出了一種基于會(huì)話內(nèi)容自動(dòng)建立個(gè)人專屬語料庫的方法。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)提供了一種自動(dòng)建立個(gè)人專屬語料庫的方法,以解決現(xiàn)有采用人工建立會(huì)話語料庫的工作量大且不具備個(gè)人專屬性的技術(shù)問題。本專利技術(shù)提供的自動(dòng)建立個(gè)人專屬語料庫的方法,包括:采集通訊方的會(huì)話內(nèi)容;獲取會(huì)話內(nèi)容中的會(huì)話對(duì);根據(jù)預(yù)設(shè)的場(chǎng)景標(biāo)簽,采集獲得會(huì)話對(duì)與場(chǎng)景標(biāo)簽對(duì)應(yīng)的場(chǎng)景標(biāo)簽值;將會(huì)話對(duì)、場(chǎng)景標(biāo)簽以及與場(chǎng)景標(biāo)簽對(duì)應(yīng)的場(chǎng)景標(biāo)簽值進(jìn)行匹配組合,從而生成個(gè)人專屬語料庫。進(jìn)一步地,獲取會(huì)話內(nèi)容中的會(huì)話對(duì)包括:根據(jù)會(huì)話內(nèi)容中會(huì)話句的語義,確定會(huì)話內(nèi)容中的發(fā)起句和回復(fù)句;根據(jù)預(yù)設(shè)的類型判斷規(guī)則,確定發(fā)起句和回復(fù)句的類型;根據(jù)發(fā)起句以及發(fā)起句與下一條發(fā)起句之間的回復(fù)句提取基礎(chǔ)會(huì)話對(duì);根據(jù)基礎(chǔ)會(huì)話對(duì)、基礎(chǔ)會(huì)話對(duì)中發(fā)起句和回復(fù)句的類型,提取至少一個(gè)會(huì)話對(duì)。進(jìn)一步地,根據(jù)會(huì)話內(nèi)容中會(huì)話句的語義,確定會(huì)話內(nèi)容中的發(fā)起句和回復(fù)句包括:判斷會(huì)話內(nèi)容中的會(huì)話句在預(yù)設(shè)時(shí)間區(qū)間內(nèi)是否有通訊對(duì)方發(fā)送的上文,若無,則將會(huì)話句確定為發(fā)起句;若有,則判斷會(huì)話句是否與通訊對(duì)方發(fā)送的上文無語義關(guān)聯(lián),若是,則將會(huì)話句確定為發(fā)起句,否則將會(huì)話句確定為回復(fù) ...
【技術(shù)保護(hù)點(diǎn)】
一種自動(dòng)建立個(gè)人專屬語料庫的方法,其特征在于,包括:采集通訊方的會(huì)話內(nèi)容;獲取所述會(huì)話內(nèi)容中的會(huì)話對(duì);根據(jù)預(yù)設(shè)的場(chǎng)景標(biāo)簽,采集獲得所述會(huì)話對(duì)與所述場(chǎng)景標(biāo)簽對(duì)應(yīng)的場(chǎng)景標(biāo)簽值;將所述會(huì)話對(duì)、所述場(chǎng)景標(biāo)簽以及與所述場(chǎng)景標(biāo)簽對(duì)應(yīng)的場(chǎng)景標(biāo)簽值進(jìn)行匹配組合,從而生成個(gè)人專屬語料庫。
【技術(shù)特征摘要】
1.一種自動(dòng)建立個(gè)人專屬語料庫的方法,其特征在于,包括:采集通訊方的會(huì)話內(nèi)容;獲取所述會(huì)話內(nèi)容中的會(huì)話對(duì);根據(jù)預(yù)設(shè)的場(chǎng)景標(biāo)簽,采集獲得所述會(huì)話對(duì)與所述場(chǎng)景標(biāo)簽對(duì)應(yīng)的場(chǎng)景標(biāo)簽值;將所述會(huì)話對(duì)、所述場(chǎng)景標(biāo)簽以及與所述場(chǎng)景標(biāo)簽對(duì)應(yīng)的場(chǎng)景標(biāo)簽值進(jìn)行匹配組合,從而生成個(gè)人專屬語料庫。2.根據(jù)權(quán)利要求1所述的自動(dòng)建立個(gè)人專屬語料庫的方法,其特征在于,獲取所述會(huì)話內(nèi)容中的會(huì)話對(duì)包括:根據(jù)所述會(huì)話內(nèi)容中會(huì)話句的語義,確定所述會(huì)話內(nèi)容中的發(fā)起句和回復(fù)句;根據(jù)預(yù)設(shè)的類型判斷規(guī)則,確定所述發(fā)起句和所述回復(fù)句的類型;根據(jù)所述發(fā)起句以及所述發(fā)起句與下一條發(fā)起句之間的回復(fù)句提取基礎(chǔ)會(huì)話對(duì);根據(jù)所述基礎(chǔ)會(huì)話對(duì)、所述基礎(chǔ)會(huì)話對(duì)中發(fā)起句和回復(fù)句的類型,提取至少一個(gè)會(huì)話對(duì)。3.根據(jù)權(quán)利要求2所述的自動(dòng)建立個(gè)人專屬語料庫的方法,其特征在于,根據(jù)所述會(huì)話內(nèi)容中會(huì)話句的語義,確定所述會(huì)話內(nèi)容中的發(fā)起句和回復(fù)句包括:判斷所述會(huì)話內(nèi)容中的會(huì)話句在預(yù)設(shè)時(shí)間區(qū)間內(nèi)是否有通訊對(duì)方發(fā)送的上文,若無,則將所述會(huì)話句確定為發(fā)起句;若有,則判斷所述會(huì)話句是否與所述通訊對(duì)方發(fā)送的上文無語義關(guān)聯(lián),若是,則將所述會(huì)話句確定為發(fā)起句,否則將所述會(huì)話句確定為回復(fù)句。4.根據(jù)權(quán)利要求3所述的自動(dòng)建立個(gè)人專屬語料庫的方法,其特征在于,根據(jù)預(yù)設(shè)的類型判斷規(guī)則,確定所述發(fā)起句的類型包括:判斷所述發(fā)起句是否為具有完整獨(dú)立語義的語句,若是,則判斷所述發(fā)起句是否由多個(gè)具有完整獨(dú)立語義的單句組成,若是,則將所述發(fā)起句的類型確定為復(fù)句發(fā)起句類型,否則為單句發(fā)起句類型;若否,則判斷所述發(fā)起句是否包含具有完整獨(dú)立語義的單句,若包含,則將所述發(fā)起句的類型確定為非標(biāo)準(zhǔn)復(fù)句發(fā)起句類型,若不包含,則為非標(biāo)準(zhǔn)單句發(fā)起句類型;搜索非標(biāo)準(zhǔn)單句發(fā)起句類型的所述發(fā)起句是否有自己的上文和下文連續(xù)會(huì)話句,若無,則不進(jìn)行衍生擴(kuò)展,若有,則進(jìn)一步判斷非標(biāo)準(zhǔn)單句發(fā)起句類型的所述發(fā)起句是否可與所述自己的上文和下文連續(xù)會(huì)話句合并成具有完整獨(dú)立語義的語句,若能,則將非標(biāo)準(zhǔn)單句發(fā)起句類型的所述發(fā)起句的類型衍生擴(kuò)展為非標(biāo)準(zhǔn)句群發(fā)起句類型,若不能,則不進(jìn)行衍生擴(kuò)展;搜索非標(biāo)準(zhǔn)復(fù)句發(fā)起句類型的所述發(fā)起句是否有自己的上文和下文連續(xù)會(huì)話句,若無,則不進(jìn)行衍生擴(kuò)展,若有,則進(jìn)一步判斷非標(biāo)準(zhǔn)復(fù)句發(fā)起句類型的所述發(fā)起句是否可與所述自己的上文和下文連續(xù)會(huì)話句合并成具有完整獨(dú)立語義的語句,若能,則將非標(biāo)準(zhǔn)復(fù)句發(fā)起句類型的所述發(fā)起句的類型衍生擴(kuò)展為非標(biāo)準(zhǔn)句群發(fā)起句類型,若不能,則不進(jìn)行衍生擴(kuò)展;判斷單句、復(fù)句、非標(biāo)準(zhǔn)單句、非標(biāo)準(zhǔn)復(fù)句以及非標(biāo)準(zhǔn)句群類型的所述發(fā)起句是否有自己的上文和下文連續(xù)會(huì)話句,若有,則進(jìn)一步判斷所述發(fā)起句是否可與自己的上文和下文連續(xù)會(huì)話句合并成語義關(guān)聯(lián)的句群,若是,則將所述發(fā)起句的類型衍生擴(kuò)展為句群發(fā)起句類型,否則不進(jìn)行衍生擴(kuò)展。5.根據(jù)權(quán)利要求3所述的自動(dòng)建...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陳包容,
申請(qǐng)(專利權(quán))人:長(zhǎng)沙軍鴿軟件有限公司,
類型:發(fā)明
國(guó)別省市:湖南,43
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。