The invention discloses a method for tracking social events based on a social media platform. Among them, the method includes the extraction of social media platforms and social events of textual and visual information features; extraction of textual and visual information based on the features, using event online mode tracking method based on on-line modeling of multi modal data from social events, multimodal text and visual themes and social events document representation; the use of multimodal text and visual themes and social events document feature representation method for tracking and multi modal tracking method based on integrated online events to social events, to carry out social event tracking. Thus, the embodiment of the invention can effectively track the timing of social events, the development track and effectively track the entire event process, and allow users to quickly understand and analyze the evolution process of the entire event, so as to improve the tracking performance, and achieve semantic multimodal information fusion tracking based on social events.
【技術(shù)實(shí)現(xiàn)步驟摘要】
基于社會(huì)媒體平臺(tái)上社會(huì)事件的跟蹤方法
本專利技術(shù)涉及數(shù)據(jù)挖掘與數(shù)據(jù)跟蹤
,具體而言,涉及一種基于社會(huì)媒體平臺(tái)上社會(huì)事件的跟蹤方法。
技術(shù)介紹
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的社交網(wǎng)站(如Flickr,YouTube,臉譜網(wǎng)和谷歌新聞)出現(xiàn)在人們的視野,并且允許用戶去分享想法、心情、圖片、活動(dòng)、事件以及尋找具有相同愛好的人。所以,現(xiàn)在發(fā)生在我們周圍和世界周圍的熱門事件主題可以快速在各大媒體網(wǎng)站上傳播,并且產(chǎn)生了大量的多模態(tài)媒體數(shù)據(jù),其包括圖片、視頻、文本等。這些被用戶傳播在網(wǎng)站的多媒體數(shù)據(jù)內(nèi)容大多和社會(huì)事件息息相關(guān)。然而在現(xiàn)實(shí)生活中,用戶人工收集這些所有的資料并且認(rèn)識(shí)事件的整個(gè)演變過程是非常耗時(shí)。社會(huì)事件跟蹤可以在一定程度上解決整個(gè)問題,它的目的是為了從大量的媒體數(shù)據(jù)中自動(dòng)識(shí)別以及跟蹤有趣的社會(huì)事件演變。舉例說明,用戶往往可能想要從開始到結(jié)束跟蹤整個(gè)“2011英國暴動(dòng)”這個(gè)主題演變過程。當(dāng)用戶在谷歌新聞上搜索整個(gè)相關(guān)事件的媒體信息時(shí),可能會(huì)得到大量的相關(guān)信息。然而,結(jié)果往往只是顯示最近所發(fā)生的事情,而與它相關(guān)的事件信息可能過于分散,用戶為了了解整個(gè)事件不得不不斷地重復(fù)在這些信息之間進(jìn)行切換。此外,對(duì)于用戶來說,瀏覽如此大量的數(shù)據(jù)信息是非常耗時(shí)的,用戶也無法捕捉到整個(gè)事件的演變。因此,為了得到一個(gè)科學(xué)的事件分析過程,我們有必要自動(dòng)收集社會(huì)事件的整個(gè)發(fā)展趨勢并且用可視化的方式展示出來。如果得到了這個(gè)科學(xué)的分析過程,我們就可以知道“2011英國暴動(dòng)”這個(gè)事件整體在各個(gè)城市間的發(fā)展演變。總的來說,基于社會(huì)媒體平臺(tái)的社會(huì)事件跟蹤是非常重要的,從大量的社交媒體的數(shù) ...
【技術(shù)保護(hù)點(diǎn)】
一種基于社會(huì)媒體平臺(tái)上社會(huì)事件的跟蹤方法,其特征在于,所述方法包括:提取所述社會(huì)媒體平臺(tái)上社會(huì)事件的文本和視覺信息特征;基于提取的所述文本和視覺信息特征,利用基于事件的在線多模態(tài)跟蹤方法,在線地建模多模態(tài)數(shù)據(jù)的社會(huì)事件,得到多模態(tài)的文本和視覺主題以及社會(huì)事件文檔的特征表示;利用所述多模態(tài)的文本和視覺主題以及所述社會(huì)事件文檔的特征表示,并將所述基于事件的在線多模態(tài)跟蹤方法集成到社會(huì)事件跟蹤方法上,來進(jìn)行社會(huì)事件跟蹤。
【技術(shù)特征摘要】
1.一種基于社會(huì)媒體平臺(tái)上社會(huì)事件的跟蹤方法,其特征在于,所述方法包括:提取所述社會(huì)媒體平臺(tái)上社會(huì)事件的文本和視覺信息特征;基于提取的所述文本和視覺信息特征,利用基于事件的在線多模態(tài)跟蹤方法,在線地建模多模態(tài)數(shù)據(jù)的社會(huì)事件,得到多模態(tài)的文本和視覺主題以及社會(huì)事件文檔的特征表示;利用所述多模態(tài)的文本和視覺主題以及所述社會(huì)事件文檔的特征表示,并將所述基于事件的在線多模態(tài)跟蹤方法集成到社會(huì)事件跟蹤方法上,來進(jìn)行社會(huì)事件跟蹤。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取所述社會(huì)媒體平臺(tái)上社會(huì)事件的文本和視覺信息特征,具體包括:針對(duì)所述社會(huì)媒體平臺(tái)上社會(huì)事件的文本信息,使用向量空間模型,并利用文本的上下文信息,提取所述文本特征;針對(duì)所述社會(huì)媒體平臺(tái)上社會(huì)事件的視覺信息,結(jié)合圖像的結(jié)構(gòu)信息,利用稀疏學(xué)習(xí)和字典學(xué)習(xí),并基于詞袋模型,提取所述視覺信息特征;其中,所述視覺信息包括所述圖像的結(jié)構(gòu)信息。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于提取的所述文本和視覺信息特征,利用基于事件的在線多模態(tài)跟蹤方法,在線地建模多模態(tài)數(shù)據(jù)的社會(huì)事件,得到多模態(tài)的文本和視覺主題以及社會(huì)事件文檔的特征表示,具體包括:定義文檔層的狄利克雷:ψdj~G0,π’dj~Beta(1,α),其中,所述ψdj表示所述社會(huì)事件文檔的主題分布,所述表示全局的主題分布;所述G0表示基礎(chǔ)分布;所述Beta()表示服從貝塔分布;所述π’dj和所述π’dl表示每一所述社會(huì)事件文檔的段棍構(gòu)造比例;所述α表示尺度參數(shù);所述πdj表示文檔主題的權(quán)重分布;所述l表示索引標(biāo)記;所述t表示主題數(shù)目;所述Gd表示服從Dirichlet過程的隨機(jī)分布;所述表示所述ψdj點(diǎn)的概率測度;所述cdj表示指示變量,cdj~Mult(β);所述Mult()表示服從多項(xiàng)式分布;通過所述文檔層的狄利克雷定義,得到視覺-文本主題空間分布;將所述視覺-文本主題空間分布作為已知先驗(yàn),得到所述多模態(tài)的文本和視覺主題以及所述社會(huì)事件文檔的所述特征表示。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述通過所述文檔層的狄利克雷定義,得到視覺-文本主題空間分布,具體包括:針對(duì)文本主題,根據(jù)狄利克雷先驗(yàn)分布,獲得文本主題空間的多項(xiàng)式分布;針對(duì)視覺主題,根據(jù)狄利克雷先驗(yàn)分布,獲得視覺主題空間的多項(xiàng)式分布;針對(duì)截?cái)鄬樱闃拥玫街黝}指示變量和文檔主題比例;根據(jù)主題指示變量和文檔主題比例,從所述文本主題空間抽樣得到文本單詞的主題;根據(jù)所述文本主題空間的所述多項(xiàng)式分布,對(duì)所述文本單詞的主題抽樣得到文本單詞;從所述視覺主題空間抽樣得到視覺單詞的主題;根據(jù)所述視覺主題空間的多項(xiàng)式分布,對(duì)所述視覺單詞的主題抽樣得到視覺單詞;基于所述文本單詞及所述視覺單詞,利用在線變分推斷的方法,得到所述視覺-文本主題空間分布。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述多模態(tài)的文本和視覺主題以及所述社會(huì)事件文檔的特征表示,并將所述基于事件的在線多模態(tài)跟蹤方法集成到社會(huì)事件跟蹤方法上,來...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:徐常勝,錢勝勝,張?zhí)熘?/a>,
申請(qǐng)(專利權(quán))人:中國科學(xué)院自動(dòng)化研究所,
類型:發(fā)明
國別省市:北京,11
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。