本發(fā)明專利技術(shù)提供了一種面向事件的新聞?wù)宫F(xiàn)方法和裝置,其中方法包括:從新聞源獲取新聞數(shù)據(jù);對獲取到的新聞數(shù)據(jù)基于內(nèi)容進(jìn)行聚類,得到各新聞簇對應(yīng)的新聞事件;判斷新得到的新聞事件與已經(jīng)存在的新聞事件在內(nèi)容和時(shí)間上的聚合狀況,確定在內(nèi)容和時(shí)間上的聚合狀況均滿足聚合要求的新聞事件屬于同一新聞事件,對屬于同一新聞事件的新聞事件進(jìn)行合并展現(xiàn);確定在內(nèi)容上的聚合狀況滿足聚合要求但時(shí)間上的聚合狀況不滿足聚合要求的新聞事件存在關(guān)聯(lián)關(guān)系,在展現(xiàn)存在關(guān)聯(lián)關(guān)系的新聞事件的同時(shí)展現(xiàn)新聞事件之間的關(guān)聯(lián)關(guān)系。通過本發(fā)明專利技術(shù)能夠在降低人工編輯成本的同時(shí),體現(xiàn)新聞事件之間的關(guān)聯(lián)關(guān)系。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種面向事件的新聞?wù)宫F(xiàn)方法和裝置
本專利技術(shù)涉及計(jì)算機(jī)應(yīng)用
,特別涉及一種面向事件的新聞?wù)宫F(xiàn)方法和裝置。
技術(shù)介紹
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展和普及,越來越多的用戶通過網(wǎng)絡(luò)獲取最新的咨詢信息,新聞頻道就是其中網(wǎng)站提供的一種供用戶瀏覽和訂閱新聞的比較方便的方式,通過新 聞頻道用戶希望全面地了解新聞所報(bào)導(dǎo)的事件,甚至訂閱該事件的后續(xù)事件報(bào)導(dǎo)?,F(xiàn)有新聞頻道提供的新聞?wù)宫F(xiàn)方式主要包括以下兩種第一種方式以網(wǎng)易、新浪為代表的傳統(tǒng)門戶網(wǎng)站,其普通新聞大多以人工編輯為主,以關(guān)鍵字關(guān)聯(lián)相關(guān)新聞引導(dǎo)讀者閱讀,并供讀者進(jìn)行訂閱。另外,其重大新聞事件會以人工專題的形式為用戶提供事件的全景展現(xiàn)。第二種方式以谷歌新聞、百度新聞為代表的搜索引擎提供商,其使用搜索和新聞聚類技術(shù)搜集和整理互聯(lián)網(wǎng)新聞,以主題展現(xiàn)相關(guān)新聞,并提供基于關(guān)鍵字的訂閱服務(wù)。雖然第一種方式中重大新聞事件以專題形式展現(xiàn)有很好的用戶體驗(yàn),但是人工編輯成本較高。第二種方式雖然采用新聞聚類技術(shù)自動實(shí)現(xiàn)了新聞的搜集和整理,并自動提煉出主題,降低了人工編輯成本,但其采用的新聞聚合方式并沒有體現(xiàn)新聞事件之間的關(guān)聯(lián)關(guān)系,例如新聞事件的上下文、前因后果等信息。
技術(shù)實(shí)現(xiàn)思路
有鑒于此,本專利技術(shù)提供了一種面向事件的新聞?wù)宫F(xiàn)方法和裝置,以便于降低人工編輯成本的同時(shí),體現(xiàn)新聞事件之間的關(guān)聯(lián)關(guān)系。具體技術(shù)方案如下一種面向事件的新聞?wù)宫F(xiàn)方法,該方法包括S1、從新聞源獲取新聞數(shù)據(jù);S2、對獲取到的新聞數(shù)據(jù)基于內(nèi)容進(jìn)行聚類,得到各新聞簇對應(yīng)的新聞事件;S3、判斷步驟S2得到的新聞事件與已經(jīng)存在的新聞事件在內(nèi)容和時(shí)間上的聚合狀況,確定在內(nèi)容和時(shí)間上的聚合狀況均滿足聚合要求的新聞事件屬于同一新聞事件,對屬于同一新聞事件的新聞事件進(jìn)行合并展現(xiàn);確定在內(nèi)容上的聚合狀況滿足聚合要求但時(shí)間上的聚合狀況不滿足聚合要求的新聞事件存在關(guān)聯(lián)關(guān)系,在展現(xiàn)存在關(guān)聯(lián)關(guān)系的新聞事件的同時(shí)展現(xiàn)新聞事件之間的關(guān)聯(lián)關(guān)系。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,在所述步驟S3中還包括確定在內(nèi)容上和時(shí)間上均不滿足聚合要求的新聞事件分別為獨(dú)立的新聞事件,在展現(xiàn)時(shí)分別展現(xiàn)獨(dú)立的新聞事件。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,步驟S2中所述對獲取到的新聞數(shù)據(jù)基于內(nèi)容進(jìn)行聚類具體包括從獲取的新聞數(shù)據(jù)中各篇新聞的新聞?wù)刑崛£P(guān)鍵詞構(gòu)成各篇新聞的特征向量;將所述各篇新聞的特征向量組成一個(gè)特征向量矩陣后,采用奇異值分解算法對特征向量矩陣進(jìn)行分解,得到各篇新聞的主題分類,將屬于同一主題的新聞構(gòu)成新聞簇。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述得到各篇新聞的主題分類具體包括依據(jù)奇異值分解結(jié)果中的左奇異矩陣得到各篇新聞與各主題類之間的相關(guān)度,確定各篇新聞屬于與其相關(guān)度最高的主題,將屬于同一主題的新聞聚合成新聞簇。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述新聞簇對應(yīng)的新聞事件包括新聞簇中各篇新聞的特征向量合并后得到的特征向量以及新聞簇中各新聞發(fā)生時(shí)間構(gòu)成的時(shí)間戳。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,在判斷步驟S2得到的新聞事件與已經(jīng)存在的新聞事件在內(nèi)容上的聚合狀況時(shí),計(jì)算所述步驟S2得到的新聞事件對應(yīng)的特征向量與已經(jīng)存在的新聞事件對應(yīng)的特征向量之間的相似度,確定相似度達(dá)到預(yù)設(shè)相似度閾值的新聞事件在內(nèi)容上的聚合程度滿足預(yù)設(shè)的聚合要求。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,在判斷步驟S2得到的新聞事件與已經(jīng)存在的新聞事件在時(shí)間上的聚合狀況時(shí),采用k-means算法對所述步驟S2得到的新聞事件所對應(yīng)的時(shí)間戳中心點(diǎn)與已經(jīng)存在的新聞事件所對應(yīng)的時(shí)間戳中心點(diǎn)進(jìn)行k-means計(jì)算,得到k個(gè)聚類結(jié)果,k為正整數(shù),確定屬于同一聚類的新聞事件在時(shí)間上的聚合狀況滿足預(yù)設(shè)聚合要求。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,在對新聞事件進(jìn)行合并時(shí),包括對特征向量的合并和對時(shí)間戳的合并。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述關(guān)聯(lián)關(guān)系的建立為將數(shù)據(jù)庫中存在關(guān)聯(lián)關(guān)系的新聞事件的索引采用鏈表的方式建立關(guān)聯(lián)關(guān)系;所述關(guān)聯(lián)關(guān)系的展現(xiàn)包括采用文字、標(biāo)識或特殊的排版方式體現(xiàn)新聞事件之間存在關(guān)聯(lián)關(guān)系。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,該方法還包括如果用戶訂閱的新聞事件發(fā)生合并,則將該新聞事件對應(yīng)的新得到的新聞推送給用戶;如果出現(xiàn)與用戶所訂閱新聞事件存在關(guān)聯(lián)關(guān)系的新的新聞事件,則將該新的新聞事件對應(yīng)的新聞推送給用戶。一種面向事件的新聞?wù)宫F(xiàn)裝置,該裝置包括新聞獲取單元,用于從新聞源獲取新聞數(shù)據(jù);新聞聚類單元,用于對獲取到的新聞數(shù)據(jù)基于內(nèi)容進(jìn)行聚類,得到各新聞簇對應(yīng)的新聞事件;關(guān)系判定單元,用于判斷所述新聞聚類單元得到的新聞事件與已經(jīng)存在的新聞事件在內(nèi)容和時(shí)間上的聚合狀況,確定在內(nèi)容和時(shí)間上的聚合狀況均滿足聚合要求的新聞事件屬于同一新聞事件,確定在內(nèi)容上的聚合狀況滿足聚合要求但時(shí)間上的聚合狀況不滿足聚合要求的新聞事件存在關(guān)聯(lián)關(guān)系;新聞?wù)宫F(xiàn)單元,用于對屬于同一新聞事件的新聞事件進(jìn)行合并展現(xiàn),在展現(xiàn)存在關(guān)聯(lián)關(guān)系的新聞事件的同時(shí)展現(xiàn)新聞事件之間的關(guān)聯(lián)關(guān)系。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述關(guān)系判定單元,還用于確定在內(nèi)容上和時(shí)間上均不滿足聚合要求的新聞事件分別為獨(dú)立的新聞事件;所述新聞?wù)宫F(xiàn)單元,還用于分別展現(xiàn)獨(dú)立的新聞事件。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述新聞聚類單元在對獲取到的新聞數(shù)據(jù)基于內(nèi)容進(jìn)行聚類時(shí),具體執(zhí)行從獲取的新聞數(shù)據(jù)中各篇新聞的新聞?wù)刑崛£P(guān)鍵詞構(gòu)成各篇新聞的特征向量;將所述各篇新聞的特征向量組成一個(gè)特征向量矩陣后,采用奇異值分解算法對特征向量矩陣進(jìn)行分解,得到各篇新聞的主題分類,將屬于同一主題的新聞構(gòu)成新聞簇。 根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述新聞聚類單元具體采用如下方式得到各篇新聞的主題分類依據(jù)奇異值分解結(jié)果中的左奇異矩陣得到各篇新聞與各主題類之間的相關(guān)度,確定各篇新聞屬于與其相關(guān)度最高的主題,將屬于同一主題的新聞聚合成新聞簇。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述新聞簇對應(yīng)的新聞事件包括新聞簇中各篇新聞的特征向量合并后得到的特征向量以及新聞簇中各新聞發(fā)生時(shí)間構(gòu)成的時(shí)間戳。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述關(guān)系判定單元計(jì)算所述新聞聚類單元得到的新聞事件對應(yīng)的特征向量與已經(jīng)存在的新聞事件對應(yīng)的特征向量之間的相似度,確定相似度達(dá)到預(yù)設(shè)相似度閾值的新聞事件在內(nèi)容上的聚合程度滿足預(yù)設(shè)的聚合要求。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,所述關(guān)系判定單元采用k-means算法對所述新聞聚類單元得到的新聞事件所對應(yīng)的時(shí)間戳中心點(diǎn)與已經(jīng)存在的新聞事件所對應(yīng)的時(shí)間戳中心點(diǎn)進(jìn)行k-means計(jì)算,得到k個(gè)聚類結(jié)果,k為正整數(shù),確定屬于同一聚類的新聞事件在時(shí)間上的聚合狀況滿足預(yù)設(shè)聚合要求。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,該裝置還包括事件合并單元,用于對屬于同一新聞事件的新聞事件進(jìn)行合并,包括對特征向量的合并和對時(shí)間戳的合并。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,該裝置還包括關(guān)系建立單元,用于將數(shù)據(jù)庫中存在關(guān)聯(lián)關(guān)系的新聞事件的索引采用鏈表的方式建立關(guān)聯(lián)關(guān)系;所述新聞?wù)宫F(xiàn)單元采用文字、標(biāo)識或特殊的排版方式體現(xiàn)新聞事件之間存在關(guān)聯(lián)關(guān)系。根據(jù)本專利技術(shù)一優(yōu)選實(shí)施例,該裝置還包括訂閱推送單元,用于如果用戶訂閱的新聞事件發(fā)生合并,則將該新聞事件對應(yīng)的新得到的新聞推送給用戶;如果出現(xiàn)與用戶所訂閱新聞事件存在關(guān)聯(lián)關(guān)系的新的新聞事件,則將該新的新聞事件對應(yīng)的新聞推送給用戶。由以上技術(shù)方案可以看出,本專利技術(shù)對從新聞源獲取的新聞數(shù)據(jù)進(jìn)行基于內(nèi)容的聚類后,得到各新聞簇對應(yīng)的新聞事件,再依據(jù)新得到的新聞事件與已有的本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種面向事件的新聞?wù)宫F(xiàn)方法,其特征在于,該方法包括:S1、從新聞源獲取新聞數(shù)據(jù);S2、對獲取到的新聞數(shù)據(jù)基于內(nèi)容進(jìn)行聚類,得到各新聞簇對應(yīng)的新聞事件;S3、判斷步驟S2得到的新聞事件與已經(jīng)存在的新聞事件在內(nèi)容和時(shí)間上的聚合狀況,確定在內(nèi)容和時(shí)間上的聚合狀況均滿足聚合要求的新聞事件屬于同一新聞事件,對屬于同一新聞事件的新聞事件進(jìn)行合并展現(xiàn);確定在內(nèi)容上的聚合狀況滿足聚合要求但時(shí)間上的聚合狀況不滿足聚合要求的新聞事件存在關(guān)聯(lián)關(guān)系,在展現(xiàn)存在關(guān)聯(lián)關(guān)系的新聞事件的同時(shí)展現(xiàn)新聞事件之間的關(guān)聯(lián)關(guān)系。
【技術(shù)特征摘要】
1.一種面向事件的新聞?wù)宫F(xiàn)方法,其特征在于,該方法包括 51、從新聞源獲取新聞數(shù)據(jù); 52、對獲取到的新聞數(shù)據(jù)基于內(nèi)容進(jìn)行聚類,得到各新聞簇對應(yīng)的新聞事件; 53、判斷步驟S2得到的新聞事件與已經(jīng)存在的新聞事件在內(nèi)容和時(shí)間上的聚合狀況,確定在內(nèi)容和時(shí)間上的聚合狀況均滿足聚合要求的新聞事件屬于同一新聞事件,對屬于同一新聞事件的新聞事件進(jìn)行合并展現(xiàn);確定在內(nèi)容上的聚合狀況滿足聚合要求但時(shí)間上的聚合狀況不滿足聚合要求的新聞事件存在關(guān)聯(lián)關(guān)系,在展現(xiàn)存在關(guān)聯(lián)關(guān)系的新聞事件的同時(shí)展現(xiàn)新聞事件之間的關(guān)聯(lián)關(guān)系。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S3中還包括確定在內(nèi)容上和時(shí)間上均不滿足聚合要求的新聞事件分別為獨(dú)立的新聞事件,在展現(xiàn)時(shí)分別展現(xiàn)獨(dú)立的新聞事件。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S2中所述對獲取到的新聞數(shù)據(jù)基于內(nèi)容進(jìn)行聚類具體包括 從獲取的新聞數(shù)據(jù)中各篇新聞的新聞?wù)刑崛£P(guān)鍵詞構(gòu)成各篇新聞的特征向量; 將所述各篇新聞的特征向量組成一個(gè)特征向量矩陣后,采用奇異值分解算法對特征向量矩陣進(jìn)行分解,得到各篇新聞的主題分類,將屬于同一主題的新聞構(gòu)成新聞簇。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述得到各篇新聞的主題分類具體包括 依據(jù)奇異值分解結(jié)果中的左奇異矩陣得到各篇新聞與各主題類之間的相關(guān)度,確定各篇新聞屬于與其相關(guān)度最高的主題,將屬于同一主題的新聞聚合成新聞簇。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述新聞簇對應(yīng)的新聞事件包括新聞簇中各篇新聞的特征向量合并后得到的特征向量以及新聞簇中各新聞發(fā)生時(shí)間構(gòu)成的時(shí)間戳。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在判斷步驟S2得到的新聞事件與已經(jīng)存在的新聞事件在內(nèi)容上的聚合狀況時(shí),計(jì)算所述步驟S2得到的新聞事件對應(yīng)的特征向量與已經(jīng)存在的新聞事件對應(yīng)的特征向量之間的相似度,確定相似度達(dá)到預(yù)設(shè)相似度閾值的新聞事件在內(nèi)容上的聚合程度滿足預(yù)設(shè)的聚合要求。7.根據(jù)權(quán)利要求5所述的方法,其特征在于,在判斷步驟S2得到的新聞事件與已經(jīng)存在的新聞事件在時(shí)間上的聚合狀況時(shí),采用k-means算法對所述步驟S2得到的新聞事件所對應(yīng)的時(shí)間戳中心點(diǎn)與已經(jīng)存在的新聞事件所對應(yīng)的時(shí)間戳中心點(diǎn)進(jìn)行k-means計(jì)算,得到k個(gè)聚類結(jié)果,k為正整數(shù),確定屬于同一聚類的新聞事件在時(shí)間上的聚合狀況滿足預(yù)設(shè)聚合要求。8.根據(jù)權(quán)利要求5所述的方法,其特征在于,在對新聞事件進(jìn)行合并時(shí),包括對特征向量的合并和對時(shí)間戳的合并。9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述關(guān)聯(lián)關(guān)系的建立為將數(shù)據(jù)庫中存在關(guān)聯(lián)關(guān)系的新聞事件的索引采用鏈表的方式建立關(guān)聯(lián)關(guān)系; 所述關(guān)聯(lián)關(guān)系的展現(xiàn)包括采用文字、標(biāo)識或特殊的排版方式體現(xiàn)新聞事件之間存在關(guān)聯(lián)關(guān)系。10.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括 如果用戶訂閱的新聞事件發(fā)生合并,則將該新聞事件對應(yīng)的新得到的新聞推送給用戶; 如果出現(xiàn)與用戶所訂閱新聞事件存在關(guān)聯(lián)關(guān)系的新的新聞事件,則將該新的新聞事件對應(yīng)的新聞推送給用戶。11.一種面向事件的新聞?wù)宫F(xiàn)裝置,其特征在于,該裝置包...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:嚴(yán)龍,楊宇鴻,
申請(專利權(quán))人:百度在線網(wǎng)絡(luò)技術(shù)北京有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。