• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>北京大學(xué)專利>正文

    微博信息追蹤方法和微博信息追蹤裝置制造方法及圖紙

    技術(shù)編號(hào):10314311 閱讀:88 留言:0更新日期:2014-08-13 16:26
    本發(fā)明專利技術(shù)提出了一種微博信息追蹤方法和一種微博信息追蹤裝置,其中微博信息追蹤方法包括預(yù)設(shè)訓(xùn)練集合,其中,訓(xùn)練集合包括至少一個(gè)話題、前景語料和背景語料,前景語料為在話題發(fā)生的時(shí)間戳之后發(fā)布的信息,背景語料為在話題發(fā)生的時(shí)間戳之前發(fā)布的微博信息;獲取話題的前景語料中每一條微博信息的文本特征、相關(guān)反饋特征和相關(guān)性特征,以得到有關(guān)于訓(xùn)練集合的特征集合;根據(jù)特征集合訓(xùn)練生成話題追蹤模型;使用話題追蹤模型對(duì)需進(jìn)行追蹤的微博信息進(jìn)行追蹤。本發(fā)明專利技術(shù)能夠從海量的實(shí)時(shí)微博信息流中過濾出與話題相關(guān)的微博信息,提高話題追蹤的準(zhǔn)確率。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    【專利摘要】本專利技術(shù)提出了一種微博信息追蹤方法和一種微博信息追蹤裝置,其中微博信息追蹤方法包括預(yù)設(shè)訓(xùn)練集合,其中,訓(xùn)練集合包括至少一個(gè)話題、前景語料和背景語料,前景語料為在話題發(fā)生的時(shí)間戳之后發(fā)布的信息,背景語料為在話題發(fā)生的時(shí)間戳之前發(fā)布的微博信息;獲取話題的前景語料中每一條微博信息的文本特征、相關(guān)反饋特征和相關(guān)性特征,以得到有關(guān)于訓(xùn)練集合的特征集合;根據(jù)特征集合訓(xùn)練生成話題追蹤模型;使用話題追蹤模型對(duì)需進(jìn)行追蹤的微博信息進(jìn)行追蹤。本專利技術(shù)能夠從海量的實(shí)時(shí)微博信息流中過濾出與話題相關(guān)的微博信息,提高話題追蹤的準(zhǔn)確率。【專利說明】微博信息追蹤方法和微博信息追蹤裝置
    本專利技術(shù)涉及計(jì)算機(jī)
    ,具體而言,涉及微博信息追蹤方法和微博信息追蹤 裝直。
    技術(shù)介紹
    近年來,隨著移動(dòng)互聯(lián)網(wǎng)在世界范圍內(nèi)的迅速普及和蓬勃發(fā)展,實(shí)時(shí)的互聯(lián)網(wǎng)絡(luò)在人們的日常生活中越來越普遍。作為一種新興的社交網(wǎng)絡(luò)媒體,微博客(簡(jiǎn)稱微博),正逐漸取代博客,成為人們分享、傳播和獲取信息的新平臺(tái),典型的代表有美國(guó)注明微博客Twitter和國(guó)內(nèi)的新浪微博。微博客是一種廣播形式的博客,用戶可以隨時(shí)隨地用140個(gè)字符以內(nèi)的內(nèi)容發(fā)表自己的狀態(tài),分享自己感興趣的新聞。其實(shí)時(shí)性、易用性以及社會(huì)化的特性使得微博在互聯(lián)網(wǎng)上得到用戶的青睞。據(jù)數(shù)據(jù)統(tǒng)計(jì),美國(guó)著名微博客Twitter,其每日更新的微博數(shù)超過了 5億條。而在中國(guó)國(guó)內(nèi),據(jù)CNNIC《第32次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r調(diào)查報(bào)告》顯示,截至2013年6月底,中國(guó)微博用戶數(shù)量達(dá)到3.31億。作為一種互動(dòng)性和傳播性極強(qiáng)的社交網(wǎng)絡(luò),當(dāng)一個(gè)事件發(fā)生的時(shí)候,微博會(huì)在極短的時(shí)間里產(chǎn)生海量的數(shù)據(jù)信息。在這種實(shí)時(shí)快速更新的宏大信息流中,用戶想了解自己所感興趣的事件的進(jìn)展,希望系統(tǒng)能夠?qū)τ谠掝}的動(dòng)態(tài)進(jìn)行實(shí)時(shí)跟蹤。而微博的實(shí)時(shí)性、社會(huì)化以及碎片化特征給微博環(huán)境下的話題追蹤帶來了巨大的挑戰(zhàn)。與傳統(tǒng)新聞媒體以及博客環(huán)境下話題追蹤一樣,微博環(huán)境下與話題相關(guān)的微博追蹤也面臨著初始語料不足以及話題偏移的挑戰(zhàn)。因此傳統(tǒng)的話題追蹤的技術(shù),比如Rocchio算法、邏輯斯蒂回歸算法都可以應(yīng)用到微博環(huán)境下的話題追蹤中。但是,與傳統(tǒng)新聞媒體和博客環(huán)境下的話題追蹤相比,微博環(huán)境下的話題追蹤是不相同的。首先微博的內(nèi)容更加短小精悍,更加碎片化,通常只允許用戶發(fā)表140個(gè)字符以內(nèi)的內(nèi)容。相比傳統(tǒng)新聞媒體和博客,我們更難準(zhǔn)確地獲取微博的主題信息。其次,用戶在所編輯的微博內(nèi)容中不僅可以包含文本的內(nèi)容,而且可以包含圖片及視頻的鏈接或其他網(wǎng)頁形式的鏈接來補(bǔ)充說明所要發(fā)表的內(nèi)容。與此同時(shí),用戶還可以在微博中使用#符號(hào)來表明微博所屬的主題,使得相似的信息能更快、更好地聚集在一起,從而方便信息的有效獲取。除此之外,用戶還可以通過@符號(hào)、RT符號(hào)和其他用戶進(jìn)行互動(dòng),使得信息在用戶之間能更快地傳遞。這些社交特性是傳統(tǒng)新聞媒體和博客中不存在的。再次,相對(duì)于傳統(tǒng)的博客,用戶在微博中所發(fā)布的主題也更為寬泛和隨意,可以是用戶當(dāng)前的狀態(tài),對(duì)特定話題的關(guān)注,甚至可以是簡(jiǎn)單的別人微博的轉(zhuǎn)發(fā)。微博的用戶人群也比傳統(tǒng)的博客更加多元化,因此每一條微博并不是像博客那樣有比較高的質(zhì)量,其質(zhì)量是參差不齊的。由于微博的特殊性,因此傳統(tǒng)的話題追蹤的技術(shù)不適用于微博環(huán)境。因此,如何解決微博環(huán)境下與話題相關(guān)的微博追蹤稱為亟待解決的技術(shù)問題。
    技術(shù)實(shí)現(xiàn)思路
    基于上述
    技術(shù)介紹
    出現(xiàn)的技術(shù)問題,本專利技術(shù)提供了一種信息追蹤技術(shù),可應(yīng)用于微博環(huán)境中,提高追蹤與話題相關(guān)的微博信息的準(zhǔn)確率。根據(jù)本專利技術(shù)的一個(gè)方面,提供了一種微博信息追蹤方法,包括:預(yù)設(shè)訓(xùn)練集合,其中,所述訓(xùn)練集合包括至少一個(gè)話題、前景語料和背景語料,所述前景語料為在所述話題發(fā)生的時(shí)間戳之后發(fā)布的微博信息,所述背景語料為在所述話題發(fā)生的時(shí)間戳之前發(fā)布的微博信息;獲取所述話題的前景語料中每一條微博信息的文本特征、相關(guān)反饋特征和相關(guān)性特征,以得到有關(guān)于所述訓(xùn)練集合的特征集合;根據(jù)所述特征集合訓(xùn)練生成話題追蹤模型;使用所述話題追蹤模型對(duì)需進(jìn)行追蹤的微博信息進(jìn)行追蹤。本專利技術(shù)典型的應(yīng)用場(chǎng)景是微博環(huán)境,對(duì)預(yù)先設(shè)置的訓(xùn)練集合進(jìn)行特征提取,得到特征集合,在該特征集合中,微博信息的文本特征反應(yīng)了微博信息的語義信息和質(zhì)量信息,而微博信息的相關(guān)反饋特征反應(yīng)了與當(dāng)前時(shí)間點(diǎn)最鄰近且與話題相關(guān)的微博信息的相關(guān)性,因此基于該特征集合生成的話題追蹤模型能夠解決微博環(huán)境下話題偏移的問題,變相地進(jìn)行了查詢擴(kuò)展,并且從海量的實(shí)時(shí)微博信息流中過濾出與話題相關(guān)的微博信息,可以提高微博環(huán)境下話題追蹤的準(zhǔn)確率,對(duì)網(wǎng)絡(luò)用戶有著重要的現(xiàn)實(shí)意義。根據(jù)本專利技術(shù)的另一方面,還提供了一種微博信息追蹤裝置,包括:設(shè)置單元,預(yù)設(shè)訓(xùn)練集合,其中,所述訓(xùn)練集合包括至少一個(gè)話題、前景語料和背景語料,所述前景語料為在所述話題發(fā)生的時(shí)間戳之后發(fā)布的微博信息,所述背景語料為在所述話題發(fā)生的時(shí)間戳之前發(fā)布的微博信息;特征集合獲取單元,獲取所述話題的前景語料中每一條微博信息的文本特征、相關(guān)反饋特征和相關(guān)性特征,以得到有關(guān)于所述訓(xùn)練集合的特征集合;微博話題追蹤模型生成單元,根據(jù)所述特征集合訓(xùn)練生成微博話題追蹤模型;追蹤單元,使用所述微博話題追蹤模型對(duì)需進(jìn)行追蹤的微博信息進(jìn)行追蹤。本專利技術(shù)典型的應(yīng)用場(chǎng)景是微博環(huán)境,對(duì)預(yù)先設(shè)置的訓(xùn)練集合進(jìn)行特征提取,得到特征集合,在該特征集合中,微博信息的文本特征反應(yīng)了微博信息的語義信息和質(zhì)量信息,而微博信息的相關(guān)反饋特征反應(yīng)了與當(dāng)前時(shí)間點(diǎn)最鄰近且與話題相關(guān)的微博信息的相關(guān)性,因此基于該特征集合生成的話題追蹤模型能夠解決微博環(huán)境下話題偏移的問題,變相地進(jìn)行了查詢擴(kuò)展,并且從海量的實(shí)時(shí)微博信息流中過濾出與話題相關(guān)的微博信息,可以提高微博環(huán)境下話題追蹤的準(zhǔn)確率,對(duì)網(wǎng)絡(luò)用戶有著重要的現(xiàn)實(shí)意義。【專利附圖】【附圖說明】圖1示出了根據(jù)本專利技術(shù)的實(shí)施例的微博信息追蹤方法的示意流程圖;圖2示出了根據(jù)本專利技術(shù)的實(shí)施例的生成特征集合方法的流程圖;圖3示出了根據(jù)本專利技術(shù)的實(shí)施例的微博信息追蹤過程的示意圖;圖4示出了根據(jù)本專利技術(shù)的實(shí)施例的提取擴(kuò)展主題信息的流程圖;圖5示出了根據(jù)本專利技術(shù)的實(shí)施例的微博信息追蹤裝置的框圖。【具體實(shí)施方式】為了能夠更清楚地理解本專利技術(shù)的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本專利技術(shù)進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本專利技術(shù),但是,本專利技術(shù)還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本專利技術(shù)并不限于下面公開的具體實(shí)施例的限制。在具體闡述根據(jù)本專利技術(shù)的話題追蹤方法之前,首先定義以下名詞:話題:每個(gè)事件都是一個(gè)話題,用若干個(gè)關(guān)鍵詞表示,每個(gè)話題都有其發(fā)生時(shí)的時(shí)間戳。觸發(fā)微博:時(shí)間最早討論該話題的微博被稱為觸發(fā)微博。背景語料:在話題發(fā)生的時(shí)間戳之前發(fā)布的微博集合被稱為背景語料。前景語料:在話題發(fā)生的時(shí)間戳之后發(fā)布的微博集合被稱為前景語料。訓(xùn)練集合:該集合包含了一個(gè)話題集合,同時(shí)對(duì)于每個(gè)話題,該訓(xùn)練集合還包含了標(biāo)注了是否與該話題相關(guān)的微博集合。圖1示出了根據(jù)本專利技術(shù)的實(shí)施例的微博信息追蹤方法的示意流程圖。如圖1所示,根據(jù)本專利技術(shù)的實(shí)施例的微博信息追蹤方法,可以包括以下步驟:步驟102,預(yù)設(shè)訓(xùn)練集合本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    一種微博信息追蹤方法,其特征在于,包括:預(yù)設(shè)訓(xùn)練集合,其中,所述訓(xùn)練集合包括至少一個(gè)話題、前景語料和背景語料,所述前景語料為在所述話題發(fā)生的時(shí)間戳之后發(fā)布的微博信息,所述背景語料為在所述話題發(fā)生的時(shí)間戳之前發(fā)布的微博信息;獲取所述話題的前景語料中每一條微博信息的文本特征、相關(guān)反饋特征和相關(guān)性特征,以得到有關(guān)于所述訓(xùn)練集合的特征集合;根據(jù)所述特征集合訓(xùn)練生成話題追蹤模型;使用所述話題追蹤模型對(duì)需進(jìn)行追蹤的微博信息進(jìn)行追蹤。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:洪毅虹費(fèi)躍楊建武
    申請(qǐng)(專利權(quán))人:北京大學(xué)北大方正集團(tuán)有限公司北京北大方正電子有限公司
    類型:發(fā)明
    國(guó)別省市:北京;11

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 无码中文在线二区免费| 无码性午夜视频在线观看| 亚洲av无码电影网| 亚洲爆乳大丰满无码专区| 日韩av无码中文无码电影| 亚洲国产精品无码久久久| 国产综合无码一区二区三区| 精品无码久久久久国产动漫3d| 成人免费无码视频在线网站| 无码中文字幕av免费放dvd| 在线无码午夜福利高潮视频| 日韩乱码人妻无码系列中文字幕| 东京热无码一区二区三区av| 伊人无码精品久久一区二区| 国产精品亚韩精品无码a在线| 无码精品A∨在线观看无广告| 无码视频在线观看| 狠狠躁天天躁中文字幕无码| 无码日韩AV一区二区三区| 中日韩精品无码一区二区三区| 无码GOGO大胆啪啪艺术| 日韩精品无码一区二区视频| 日韩精品无码久久一区二区三| 少妇人妻偷人精品无码AV| 亚洲中文字幕无码爆乳app| 蜜桃臀AV高潮无码| 中文字幕无码成人免费视频| 久久久久久久亚洲Av无码| 亚洲AV无码专区亚洲AV伊甸园| 东京热人妻无码一区二区av| 久99久无码精品视频免费播放| 四虎成人精品国产永久免费无码| 国产成人亚洲精品无码AV大片| 成在人线AV无码免费| 免费无遮挡无码永久在线观看视频| 无码熟妇人妻AV在线影院| 在线精品自偷自拍无码中文| 精品无码国产AV一区二区三区| 全免费a级毛片免费看无码| 一本之道高清无码视频| 精品久久久久久无码人妻热|