The invention discloses a topic processing method and a device thereof. Among them, the method includes obtaining a text description for new topic; detecting whether the new text description of the topic is the topic; in the test results described as the new text topic is not the case for the topic, to determine the new text description of the topic is a new topic. The invention solves the technical problems that the existing topic can not be found and the new topic can not be discovered in the relevant technology.
【技術(shù)實(shí)現(xiàn)步驟摘要】
話題處理方法及裝置
本專利技術(shù)涉及自然語(yǔ)言處理領(lǐng)域,具體而言,涉及一種話題處理方法及裝置。
技術(shù)介紹
話題檢測(cè)與跟蹤(TopicDetection&Tracing)技術(shù)是自然語(yǔ)言處理與信息檢索領(lǐng)域?qū)嵱眯苑浅8叩募夹g(shù),也是在大數(shù)據(jù)背景下有效地發(fā)現(xiàn)和提取有用信息實(shí)用技術(shù),意在發(fā)現(xiàn)和處理文本中出現(xiàn)的熱門話題或事件。通常情況下,熱門話題或報(bào)道的發(fā)現(xiàn)和跟蹤技術(shù)是針對(duì)特定領(lǐng)域或者特定事件,發(fā)現(xiàn)并跟蹤話題后續(xù)進(jìn)展情況的一項(xiàng)技術(shù)。目前,國(guó)內(nèi)外的熱門話題檢測(cè)技術(shù)主要側(cè)重于從各類新聞報(bào)道中發(fā)現(xiàn)、過濾和跟蹤話題,執(zhí)行過程如下:1、文本獲取,即上網(wǎng)收集各類媒體的新聞報(bào)道;2、文本向量化,即將收集到的原始文本進(jìn)行向量化處理,形成向量化的文本;3、文本聚類,即將向量化的文本進(jìn)行聚類分析,并將出現(xiàn)頻率高的詞語(yǔ)或者處在聚類中心上的文本作為一個(gè)話題;4、在特定的時(shí)間段內(nèi),重復(fù)上述1、2、3步的操作,并使用熱度模型對(duì)第3步得到的話題進(jìn)行排序,并輸出前top-n個(gè)話題,該執(zhí)行過程雖然能夠?qū)崿F(xiàn)話題發(fā)現(xiàn)和跟蹤功能,但是存在如下缺陷:(1)線下處理,不能實(shí)時(shí)的發(fā)現(xiàn)與跟蹤新話題,進(jìn)而無(wú)法及時(shí)有效地了解新話題事件;(2)信源單一,全部信息都來源于新聞報(bào)道,不能有效利用微博,論壇等其他資源;(3)不能自適應(yīng)地發(fā)現(xiàn)文本中出現(xiàn)的新話題,現(xiàn)有的使用指定話題和聚類技術(shù),發(fā)現(xiàn)并跟蹤一系列文本中的話題,無(wú)法適用于突然出現(xiàn)的話題和發(fā)展演變出來的話題;(4)文本聚類方法是粗粒度處理方法,不能充分表示一個(gè)話題的重要元素,使得文本中有效信息的利用率不足,會(huì)使后期出現(xiàn)的話題出現(xiàn)類中心偏移。針對(duì)上述的問題,目前尚未提出有 ...
【技術(shù)保護(hù)點(diǎn)】
一種話題處理方法,其特征在于,包括:獲取用于描述話題的新增文本;檢測(cè)所述新增文本所描述的話題是否是已有話題;在檢測(cè)結(jié)果為所述新增文本所描述的話題不是所述已有話題的情況下,確定所述新增文本所描述的話題為新增話題。
【技術(shù)特征摘要】
1.一種話題處理方法,其特征在于,包括:獲取用于描述話題的新增文本;檢測(cè)所述新增文本所描述的話題是否是已有話題;在檢測(cè)結(jié)果為所述新增文本所描述的話題不是所述已有話題的情況下,確定所述新增文本所描述的話題為新增話題。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取用于描述話題的新增文本包括:線上獲取所述用于描述話題的新增文本。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,獲取用于描述話題的新增文本包括:從多種信源中獲取所述用于描述話題的新增文本。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在確定所述新增文本所描述的話題為新增話題之后,所述方法還包括:將所述新增話題添加到所述已有話題中;或者先將所述用于描述話題的新增文本存儲(chǔ)在新增話題文本隊(duì)列中,在所述新增話題文本隊(duì)列中的文本數(shù)量達(dá)到預(yù)設(shè)數(shù)值和/或程序執(zhí)行時(shí)間達(dá)到預(yù)設(shè)時(shí)長(zhǎng)后,再?gòu)乃鲂略鲈掝}文本隊(duì)列中提取出相應(yīng)的新增話題,并將提取出來的新增話題添加到所述已有話題中。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在從所述新增話題文本隊(duì)列中提取出相應(yīng)的新增話題之后,且將提取出來的新增話題添加到所述已有話題中之前,所述方法還包括:從提取出來的新增話題中過濾掉噪聲話題。6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,在將所述新增話題添加到所述已有話題中之后,所述方法還包括:從添加了所述新增話題的已有話題中找出熱門話題,其中,所述熱門話題為在添加了所述新增話題的已有話題中排名達(dá)到指定閾值的話題;輸出所述熱門話題。7.根據(jù)權(quán)利要求1所述的方法,其特征在于,檢測(cè)所述新增文本所描述的話題是否是已有話題包括:對(duì)所述新增文本進(jìn)行向量化處理,得到所述新增文本的文本向量;創(chuàng)建所述已有話題的話題矩陣,其中,所述話題矩陣的每一列表示一個(gè)話題,每一行表示話題中的一個(gè)詞語(yǔ),每個(gè)元素表示當(dāng)前詞語(yǔ)在當(dāng)前話題中所占權(quán)重的大小;根據(jù)所述已有話題的話題矩陣A構(gòu)造所述新增文本的文本向量Y的函數(shù)關(guān)系式Y(jié)=AX;通過根據(jù)所述X的解確定所述新增文本所描述的話題與所述已有話題之間的隸屬關(guān)系;根據(jù)所述隸屬關(guān)系確定所述新增文本所描述的話題是否是所述已有話題。8.一種話題處理裝置,其特征在于,包括:獲取單元,用于獲取用于描述話題的新增文...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:祁國(guó)晟,徐文斌,
申請(qǐng)(專利權(quán))人:北京國(guó)雙科技有限公司,
類型:發(fā)明
國(guó)別省市:北京,11
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。