• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    話題處理方法及裝置制造方法及圖紙

    技術(shù)編號(hào):15690885 閱讀:103 留言:0更新日期:2017-06-24 03:38
    本發(fā)明專利技術(shù)公開了一種話題處理方法及裝置。其中,該方法包括:獲取用于描述話題的新增文本;檢測(cè)新增文本所描述的話題是否是已有話題;在檢測(cè)結(jié)果為新增文本所描述的話題不是已有話題的情況下,確定新增文本所描述的話題為新增話題。本發(fā)明專利技術(shù)解決了相關(guān)技術(shù)中只能發(fā)現(xiàn)已有話題,無(wú)法發(fā)現(xiàn)新話題的技術(shù)問題。

    Topic processing method and device

    The invention discloses a topic processing method and a device thereof. Among them, the method includes obtaining a text description for new topic; detecting whether the new text description of the topic is the topic; in the test results described as the new text topic is not the case for the topic, to determine the new text description of the topic is a new topic. The invention solves the technical problems that the existing topic can not be found and the new topic can not be discovered in the relevant technology.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    話題處理方法及裝置
    本專利技術(shù)涉及自然語(yǔ)言處理領(lǐng)域,具體而言,涉及一種話題處理方法及裝置。
    技術(shù)介紹
    話題檢測(cè)與跟蹤(TopicDetection&Tracing)技術(shù)是自然語(yǔ)言處理與信息檢索領(lǐng)域?qū)嵱眯苑浅8叩募夹g(shù),也是在大數(shù)據(jù)背景下有效地發(fā)現(xiàn)和提取有用信息實(shí)用技術(shù),意在發(fā)現(xiàn)和處理文本中出現(xiàn)的熱門話題或事件。通常情況下,熱門話題或報(bào)道的發(fā)現(xiàn)和跟蹤技術(shù)是針對(duì)特定領(lǐng)域或者特定事件,發(fā)現(xiàn)并跟蹤話題后續(xù)進(jìn)展情況的一項(xiàng)技術(shù)。目前,國(guó)內(nèi)外的熱門話題檢測(cè)技術(shù)主要側(cè)重于從各類新聞報(bào)道中發(fā)現(xiàn)、過濾和跟蹤話題,執(zhí)行過程如下:1、文本獲取,即上網(wǎng)收集各類媒體的新聞報(bào)道;2、文本向量化,即將收集到的原始文本進(jìn)行向量化處理,形成向量化的文本;3、文本聚類,即將向量化的文本進(jìn)行聚類分析,并將出現(xiàn)頻率高的詞語(yǔ)或者處在聚類中心上的文本作為一個(gè)話題;4、在特定的時(shí)間段內(nèi),重復(fù)上述1、2、3步的操作,并使用熱度模型對(duì)第3步得到的話題進(jìn)行排序,并輸出前top-n個(gè)話題,該執(zhí)行過程雖然能夠?qū)崿F(xiàn)話題發(fā)現(xiàn)和跟蹤功能,但是存在如下缺陷:(1)線下處理,不能實(shí)時(shí)的發(fā)現(xiàn)與跟蹤新話題,進(jìn)而無(wú)法及時(shí)有效地了解新話題事件;(2)信源單一,全部信息都來源于新聞報(bào)道,不能有效利用微博,論壇等其他資源;(3)不能自適應(yīng)地發(fā)現(xiàn)文本中出現(xiàn)的新話題,現(xiàn)有的使用指定話題和聚類技術(shù),發(fā)現(xiàn)并跟蹤一系列文本中的話題,無(wú)法適用于突然出現(xiàn)的話題和發(fā)展演變出來的話題;(4)文本聚類方法是粗粒度處理方法,不能充分表示一個(gè)話題的重要元素,使得文本中有效信息的利用率不足,會(huì)使后期出現(xiàn)的話題出現(xiàn)類中心偏移。針對(duì)上述的問題,目前尚未提出有效的解決方案。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)實(shí)施例提供了一種話題處理方法及裝置,以至少解決相關(guān)技術(shù)中只能發(fā)現(xiàn)已有話題,無(wú)法發(fā)現(xiàn)新話題的技術(shù)問題。根據(jù)本專利技術(shù)實(shí)施例的一個(gè)方面,提供了一種話題處理方法,包括:獲取用于描述話題的新增文本;檢測(cè)上述新增文本所描述的話題是否是已有話題;在檢測(cè)結(jié)果為上述新增文本所描述的話題不是上述已有話題的情況下,確定上述新增文本所描述的話題為新增話題。進(jìn)一步地,獲取用于描述話題的新增文本包括:線上獲取上述用于描述話題的新增文本。進(jìn)一步地,獲取用于描述話題的新增文本包括:從多種信源中獲取上述用于描述話題的新增文本。進(jìn)一步地,在確定上述新增文本所描述的話題為新增話題之后,上述方法還包括:將上述新增話題添加到上述已有話題中;或者先將上述用于描述話題的新增文本存儲(chǔ)在新增話題文本隊(duì)列中,在上述新增話題文本隊(duì)列中的文本數(shù)量達(dá)到預(yù)設(shè)數(shù)值和/或程序執(zhí)行時(shí)間達(dá)到預(yù)設(shè)時(shí)長(zhǎng)后,再?gòu)纳鲜鲂略鲈掝}文本隊(duì)列中提取出相應(yīng)的新增話題,并將提取出來的新增話題添加到上述已有話題中。進(jìn)一步地,在從上述新增話題文本隊(duì)列中提取出相應(yīng)的新增話題之后,且將提取出來的新增話題添加到上述已有話題中之前,上述方法還包括:從提取出來的新增話題中過濾掉噪聲話題。進(jìn)一步地,在將上述新增話題添加到上述已有話題中之后,上述方法還包括:從添加了上述新增話題的已有話題中找出熱門話題,其中,上述熱門話題為在添加了上述新增話題的已有話題中排名達(dá)到指定閾值的話題;輸出上述熱門話題。進(jìn)一步地,檢測(cè)上述新增文本所描述的話題是否是已有話題包括:對(duì)上述新增文本進(jìn)行向量化處理,得到上述新增文本的文本向量;創(chuàng)建上述已有話題的話題矩陣,其中,上述話題矩陣的每一列表示一個(gè)話題,每一行表示話題中的一個(gè)詞語(yǔ),每個(gè)元素表示當(dāng)前詞語(yǔ)在當(dāng)前話題中所占權(quán)重的大小;根據(jù)上述已有話題的話題矩陣A構(gòu)造上述新增文本的文本向量Y的函數(shù)關(guān)系式Y(jié)=AX;通過根據(jù)上述X的解確定上述新增文本所描述的話題與上述已有話題之間的隸屬關(guān)系;根據(jù)上述隸屬關(guān)系確定上述新增文本所描述的話題是否是上述已有話題。根據(jù)本專利技術(shù)實(shí)施例的另一方面,還提供了一種話題處理裝置,包括:獲取單元,用于獲取用于描述話題的新增文本;檢測(cè)單元,用于檢測(cè)上述新增文本所描述的話題是否是已有話題;確定單元,用于在檢測(cè)結(jié)果為上述新增文本所描述的話題不是上述已有話題的情況下,確定上述新增文本所描述的話題為新增話題。進(jìn)一步地,上述獲取單元還用于線上獲取上述用于描述話題的新增文本。進(jìn)一步地,上述獲取單元還用于從多種信源中獲取上述用于描述話題的新增文本。進(jìn)一步地,上述裝置還包括:第一添加單元,用于在確定上述新增文本所描述的話題為新增話題之后,將上述新增話題添加到上述已有話題中;或者第二添加單元,用于先將上述用于描述話題的新增文本存儲(chǔ)在新增話題文本隊(duì)列中,在上述新增話題文本隊(duì)列中的文本數(shù)量達(dá)到預(yù)設(shè)數(shù)值和/或程序執(zhí)行時(shí)間達(dá)到預(yù)設(shè)時(shí)長(zhǎng)后,再?gòu)纳鲜鲂略鲈掝}文本隊(duì)列中提取出相應(yīng)的新增話題,并將提取出來的新增話題添加到上述已有話題中。進(jìn)一步地,上述裝置還包括:過濾單元,用于在從上述新增話題文本隊(duì)列中提取出相應(yīng)的新增話題之后,且將提取出來的新增話題添加到上述已有話題中之前,從提取出來的新增話題中過濾掉噪聲話題。進(jìn)一步地,上述裝置還包括:查找單元,用于在將上述新增話題添加到上述已有話題中之后,從添加了上述新增話題的已有話題中找出熱門話題,其中,上述熱門話題為在添加了上述新增話題的已有話題中排名達(dá)到指定閾值的話題;輸出單元,用于輸出上述熱門話題。進(jìn)一步地,上述檢測(cè)單元包括:處理模塊,用于對(duì)上述新增文本進(jìn)行向量化處理,得到上述新增文本的文本向量;創(chuàng)建模塊,用于創(chuàng)建上述已有話題的話題矩陣,其中,上述話題矩陣的每一列表示一個(gè)話題,每一行表示話題中的一個(gè)詞語(yǔ),每個(gè)元素表示當(dāng)前詞語(yǔ)在當(dāng)前話題中所占權(quán)重的大小;構(gòu)造模塊,用于根據(jù)上述已有話題的話題矩陣A構(gòu)造上述新增文本的文本向量Y的函數(shù)關(guān)系式Y(jié)=AX;第一確定模塊,用于通過根據(jù)上述X的解確定上述新增文本所描述的話題與上述已有話題之間的隸屬關(guān)系;第二確定模塊,用于根據(jù)上述隸屬關(guān)系確定上述新增文本所描述的話題是否是上述已有話題。在本專利技術(shù)實(shí)施例中,采用自適應(yīng)的發(fā)現(xiàn)新話題的方式,通過獲取用于描述話題的新增文本;檢測(cè)所述新增文本所描述的話題是否是已有話題;在檢測(cè)結(jié)果為所述新增文本所描述的話題不是所述已有話題的情況下,確定所述新增文本所描述的話題為新增話題,達(dá)到了發(fā)現(xiàn)新話題和追蹤已有話題的目的,從而實(shí)現(xiàn)了提高話題發(fā)現(xiàn)的效率和準(zhǔn)確率的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)中只能發(fā)現(xiàn)已有話題,無(wú)法發(fā)現(xiàn)新話題的技術(shù)問題。附圖說明此處所說明的附圖用來提供對(duì)本專利技術(shù)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本專利技術(shù)的示意性實(shí)施例及其說明用于解釋本專利技術(shù),并不構(gòu)成對(duì)本專利技術(shù)的不當(dāng)限定。在附圖中:圖1是根據(jù)本專利技術(shù)實(shí)施例的一種可選的話題處理方法的流程圖;圖2是根據(jù)本專利技術(shù)實(shí)施例的一種可選的在線自適應(yīng)話題發(fā)現(xiàn)與跟蹤模型的框架圖;圖3是根據(jù)本專利技術(shù)實(shí)施例的一種可選的話題處理裝置的示意圖。具體實(shí)施方式為了使本
    的人員更好地理解本專利技術(shù)方案,下面將結(jié)合本專利技術(shù)實(shí)施例中的附圖,對(duì)本專利技術(shù)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本專利技術(shù)一部分的實(shí)施例,而不是全部的實(shí)施例。基于本專利技術(shù)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本專利技術(shù)保護(hù)的范圍。需要說明的是,本專利技術(shù)的說明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或本文檔來自技高網(wǎng)
    ...
    話題處理方法及裝置

    【技術(shù)保護(hù)點(diǎn)】
    一種話題處理方法,其特征在于,包括:獲取用于描述話題的新增文本;檢測(cè)所述新增文本所描述的話題是否是已有話題;在檢測(cè)結(jié)果為所述新增文本所描述的話題不是所述已有話題的情況下,確定所述新增文本所描述的話題為新增話題。

    【技術(shù)特征摘要】
    1.一種話題處理方法,其特征在于,包括:獲取用于描述話題的新增文本;檢測(cè)所述新增文本所描述的話題是否是已有話題;在檢測(cè)結(jié)果為所述新增文本所描述的話題不是所述已有話題的情況下,確定所述新增文本所描述的話題為新增話題。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取用于描述話題的新增文本包括:線上獲取所述用于描述話題的新增文本。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,獲取用于描述話題的新增文本包括:從多種信源中獲取所述用于描述話題的新增文本。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在確定所述新增文本所描述的話題為新增話題之后,所述方法還包括:將所述新增話題添加到所述已有話題中;或者先將所述用于描述話題的新增文本存儲(chǔ)在新增話題文本隊(duì)列中,在所述新增話題文本隊(duì)列中的文本數(shù)量達(dá)到預(yù)設(shè)數(shù)值和/或程序執(zhí)行時(shí)間達(dá)到預(yù)設(shè)時(shí)長(zhǎng)后,再?gòu)乃鲂略鲈掝}文本隊(duì)列中提取出相應(yīng)的新增話題,并將提取出來的新增話題添加到所述已有話題中。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在從所述新增話題文本隊(duì)列中提取出相應(yīng)的新增話題之后,且將提取出來的新增話題添加到所述已有話題中之前,所述方法還包括:從提取出來的新增話題中過濾掉噪聲話題。6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,在將所述新增話題添加到所述已有話題中之后,所述方法還包括:從添加了所述新增話題的已有話題中找出熱門話題,其中,所述熱門話題為在添加了所述新增話題的已有話題中排名達(dá)到指定閾值的話題;輸出所述熱門話題。7.根據(jù)權(quán)利要求1所述的方法,其特征在于,檢測(cè)所述新增文本所描述的話題是否是已有話題包括:對(duì)所述新增文本進(jìn)行向量化處理,得到所述新增文本的文本向量;創(chuàng)建所述已有話題的話題矩陣,其中,所述話題矩陣的每一列表示一個(gè)話題,每一行表示話題中的一個(gè)詞語(yǔ),每個(gè)元素表示當(dāng)前詞語(yǔ)在當(dāng)前話題中所占權(quán)重的大小;根據(jù)所述已有話題的話題矩陣A構(gòu)造所述新增文本的文本向量Y的函數(shù)關(guān)系式Y(jié)=AX;通過根據(jù)所述X的解確定所述新增文本所描述的話題與所述已有話題之間的隸屬關(guān)系;根據(jù)所述隸屬關(guān)系確定所述新增文本所描述的話題是否是所述已有話題。8.一種話題處理裝置,其特征在于,包括:獲取單元,用于獲取用于描述話題的新增文...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:祁國(guó)晟徐文斌
    申請(qǐng)(專利權(quán))人:北京國(guó)雙科技有限公司
    類型:發(fā)明
    國(guó)別省市:北京,11

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 人禽无码视频在线观看| 久久无码人妻一区二区三区| 亚洲中文字幕无码一去台湾| av大片在线无码免费| 亚洲久热无码av中文字幕| 亚洲AV无码一区二区三区久久精品| 久久中文字幕无码一区二区| 亚洲情XO亚洲色XO无码| 无码人妻丰满熟妇区五十路| 中文无码日韩欧免费视频| av潮喷大喷水系列无码| 亚洲午夜福利AV一区二区无码| AV无码人妻中文字幕| 熟妇人妻中文av无码| 亚洲色无码国产精品网站可下载| 亚洲日韩av无码| 亚洲AV无码专区在线观看成人| 黄A无码片内射无码视频| 亚洲人成人伊人成综合网无码| 潮喷大喷水系列无码久久精品| 亚洲av成本人无码网站| 无码国产精品一区二区免费vr | 人妻丰满熟妇AV无码区乱| 影音先锋无码a∨男人资源站| 久久亚洲AV成人无码国产| 亚洲欧洲日产国码无码久久99| 精品国产性色无码AV网站| 精品多人p群无码| 久久精品无码午夜福利理论片| 亚洲精品人成无码中文毛片| 乱人伦人妻中文字幕无码| 亚洲真人无码永久在线观看| 久久久久精品国产亚洲AV无码 | 亚洲AV无码一区东京热久久| 中文有码vs无码人妻| 国产精品无码国模私拍视频| 亚洲人成无码www久久久| 少妇无码太爽了不卡视频在线看| 无码夫の前で人妻を侵犯| 亚洲中文字幕无码久久| 无码人妻一区二区三区一|