一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法,首先使用網(wǎng)絡爬蟲系統(tǒng)爬取全網(wǎng)熱門新聞網(wǎng)站和社交媒體,通過BERT模型判斷話題是否與愛國主義相關,并判斷發(fā)文者對國家的態(tài)度,分別計算話題在不同網(wǎng)站和平臺的流行度,然后將相同話題的內容聚合在一起,得出此話題在全網(wǎng)的流行度,如果事件流行度超過閾值或者暴增,系統(tǒng)通過LOF算法來識別突發(fā)熱點事件,并對事件持續(xù)跟蹤;最后,通過收集事件相關的網(wǎng)絡活動,在事件平息之后給出相應的事件報告。本發(fā)明專利技術可以有效識別和跟蹤網(wǎng)絡上有關愛國主義的輿情。
Identification and popularity tracking method of patriotic public opinion events in the whole network
【技術實現(xiàn)步驟摘要】
全網(wǎng)愛國輿情事件識別及流行度跟蹤方法
本專利技術屬于計算機技術和輿情監(jiān)測領域,涉及一種基于集成方法的輿情事件識別和跟蹤系統(tǒng),尤其是愛國輿情事件識別及流行度跟蹤方法。
技術介紹
隨著互聯(lián)網(wǎng)和智能終端設備的發(fā)展,“兩微一端”被廣泛使用,自媒體的時代到來了,每個個體都可以成為報道著和傳話人,信息的數(shù)量以前所未有的速度膨脹著,政府機關越來越難通過網(wǎng)絡去真正了了解公眾的感受和想法。因此,設計一套系統(tǒng)收集和跟蹤公眾在一些愛國輿情事件中的態(tài)度是十分重要的。
技術實現(xiàn)思路
為了可以有效識別和跟蹤網(wǎng)絡上有關愛國主義的輿情,本專利技術提供了一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法。為了解決上述技術問題,本專利技術提供如下的技術方案:一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法,包括以下步驟:步驟1,建立全網(wǎng)數(shù)據(jù)采集系統(tǒng),使用網(wǎng)絡爬蟲獲取熱門新聞網(wǎng)站和社交媒體內容,過程如下:1.1使用基于Hadoop的分布式網(wǎng)絡爬蟲系統(tǒng),分布于不同服務器上的分系統(tǒng)分別爬取不同的網(wǎng)站最后將數(shù)據(jù)聚合在一起;1.2爬取過程中,將目標網(wǎng)站分為兩大類:新聞網(wǎng)站和社交網(wǎng)絡,新聞網(wǎng)站包括人民網(wǎng)、新浪新聞、新華網(wǎng)、鳳凰資訊、騰訊新聞、網(wǎng)易新聞、搜狐新聞和今日頭條;對新聞媒體爬取的內容有:發(fā)文時間、標題、發(fā)文內容、瀏覽量、評論數(shù)和評論內容;社交媒體包括新浪微博、豆瓣、知乎、微信公眾號、百度貼吧、嗶哩嗶哩、抖音和快手;對社交網(wǎng)絡爬取內容有:發(fā)布時間、發(fā)布內容、點贊數(shù)、評論數(shù)、評論內容、用戶信息、用戶之間的社交關系網(wǎng)絡;1.3建立基于Hadoop和MySQL關系數(shù)據(jù)庫,將以上數(shù)據(jù)結構化并存入數(shù)據(jù)庫;步驟2,針對在步驟1中獲取的文本內容,使用預先訓練的BERT模型,將文本進行分類并判斷是否和愛國主義相關,并將其中和愛國主義相關的內容按話題分類存儲;將話題中的文本內容通過BERT模型判斷作者對國家的態(tài)度或情感,是正面、中立還是負面的,并匯總形成統(tǒng)計報告;步驟3,計算特定事件相關話題的流行度,過程如下:3.1在步驟2中,所有相關的愛國主義話題被統(tǒng)計儲存在一起,每個話題在不一樣的網(wǎng)站或平臺的流行度不同,其中第i個網(wǎng)站中某個話題的流行度計算公式如下:其中pi(t)表示在t時刻時這一話題的流行度,ci(t)表示在t時刻時出現(xiàn)的這一話題相關網(wǎng)絡行為,包括發(fā)文、評論、點贊、轉發(fā)等等,Aci(t)表示在t時刻這個網(wǎng)站日常平均網(wǎng)絡行為;3.2在所有網(wǎng)站或平臺的流行度被計算以后,將流行度加總在一起就可以得到這一事件相關話題的全網(wǎng)流行度,計算公式為其中P(t)表示這一話題的全網(wǎng)流行度,n表示統(tǒng)計的網(wǎng)站或者平臺的數(shù)量;步驟4,突發(fā)熱點事件識別,過程如下:4.1基于時間的突發(fā)事件識別:在一般情況下,特定時間內網(wǎng)絡行為數(shù)量應是隨著在線用戶數(shù)量而平緩變化的,如果突然出現(xiàn)活動增加或者模式變化,則可判定為突發(fā)的熱點事件,使用基于局部離群因子的異常檢測算法(Localoutlierfactor,LOF)方法來檢測相關微博數(shù)在時間序列上的突然增長,并向用戶發(fā)出通知,其中LOF是一種計算數(shù)據(jù)集中的每個點的個離群因子,通過判斷LOF是否接近于1來判定是否為離群因子,公式如下:其中LOFk(p)表示p點的局部離群因子,k是可設計的參數(shù),Nk(p)表示點p的第k距離鄰域,|Nk(p)|表示p的第k鄰域點的個數(shù),lrdk(o)表示o點的局部可達密度,lrdk(p)表示p點的局部可達密度;4.2基于地域的突發(fā)熱點識別:同一時間點在不同地域話題的演變規(guī)律可能會有較大的不同,有些事件是區(qū)域性而不是全國性的,通過比較一個地區(qū)與其相鄰地區(qū)的話題流行度區(qū)別來識別突發(fā)熱點事件的起源及影響范圍;步驟5,當檢測到與愛國主義相關的突發(fā)熱點事件,系統(tǒng)會一直持續(xù)收集網(wǎng)絡上的各種網(wǎng)絡行為,記錄從話題的爆發(fā)然后達到頂峰最后衰退的整個過程,并統(tǒng)計過程中的各種數(shù)據(jù),包括參與互動的用戶數(shù)量,用戶的年齡段、用戶的地域分布、用戶對國家的支持度,最終形成最后的事件報告。本專利技術提出的方法專注于和愛國主義相關的輿情事件,在收集輿情的同時也會通過算法判斷參與者的情感偏向,最終通過統(tǒng)計來確定事件中持正面、中立和負面情緒的公眾的分布,幫助政府機關了解輿情事件導向。本專利技術的技術構思為:針對網(wǎng)絡上存在的愛國主義輿情事件,設計方法和系統(tǒng)收集網(wǎng)絡行為,通過BERT模型判斷話題是否與愛國主義相關,并判斷發(fā)文者對國家的態(tài)度。將不同網(wǎng)站和平臺的相同話題聚合在一起,計算流行度并進行跟蹤。本專利技術的有益效果為:通過系統(tǒng)識別和跟蹤網(wǎng)絡上流行的愛國輿情事件,最終形成事件報告,有助于政府理解公眾對國家的態(tài)度,也有助于民族自信心的建立。附圖說明圖1為本專利技術的系統(tǒng)流程圖;圖2為本專利技術BERT話題判斷和情感分析模塊原理示意圖;圖3為本專利技術LOF方法原理示意圖;圖4為本專利技術流行度跟蹤示意圖。具體實施方式為了便于普通技術人員理解和實施本專利技術,下面將結合附圖對本專利技術做進一步說明。參照圖1~圖4,一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法,所述方法包括以下步驟:步驟1,建立全網(wǎng)數(shù)據(jù)采集系統(tǒng),使用網(wǎng)絡爬蟲獲取熱門新聞網(wǎng)站和社交媒體內容,過程如下:1.1使用基于Hadoop的分布式網(wǎng)絡爬蟲系統(tǒng),分布于不同服務器上的分系統(tǒng)分別爬取不同的網(wǎng)站最后將數(shù)據(jù)聚合在一起;1.2爬取過程中,將目標網(wǎng)站分為兩大類:新聞網(wǎng)站和社交網(wǎng)絡,新聞網(wǎng)站包括人民網(wǎng)、新浪新聞、新華網(wǎng)、鳳凰資訊、騰訊新聞、網(wǎng)易新聞、搜狐新聞和今日頭條;對新聞媒體爬取的內容有:發(fā)文時間、標題、發(fā)文內容、瀏覽量、評論數(shù)和評論內容;社交媒體包括新浪微博、豆瓣、知乎、微信公眾號、百度貼吧、嗶哩嗶哩、抖音和快手;對社交網(wǎng)絡爬取內容有:發(fā)布時間、發(fā)布內容、點贊數(shù)、評論數(shù)、評論內容、用戶信息、用戶之間的社交關系網(wǎng)絡;1.3建立基于Hadoop和MySQL關系數(shù)據(jù)庫,將以上數(shù)據(jù)結構化并存入數(shù)據(jù)庫;步驟2,針對在步驟1中獲取的文本內容,參照圖2,使用預先訓練的BERT模型,將文本進行分類并判斷是否和愛國主義相關,并將其中和愛國主義相關的內容按話題分類存儲;將話題中的文本內容通過BERT模型判斷作者對國家的態(tài)度或情感,是正面、中立還是負面的,并匯總形成統(tǒng)計報告;步驟3,計算特定事件相關話題的流行度,過程如下:3.1在步驟2中,所有相關的愛國主義話題被統(tǒng)計儲存在一起,每個話題在不一樣的網(wǎng)站或平臺的流行度不同,其中第i個網(wǎng)站中某個話題的流行度計算公式如下:其中pi(t)表示在t時刻時這一話題的流行度,ci(t)表示在t時刻時出現(xiàn)的這一話題相關網(wǎng)絡行為,包括發(fā)文、評論、點贊、轉發(fā)等等,Aci(t)表示在t時刻這個網(wǎng)站日常平均網(wǎng)絡行為;3.2在所有網(wǎng)站或平臺的流行度被計算以后,將流行度加總在一起就可以得到這一事件相關話題的全網(wǎng)流行度,計算公式為其中P(t)表示這一話題的全網(wǎng)流行度,n表示統(tǒng)計的網(wǎng)站或本文檔來自技高網(wǎng)...
【技術保護點】
1.一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法,其特征在于,所述方法包括以下步驟:/n步驟1,建立全網(wǎng)數(shù)據(jù)采集系統(tǒng),使用網(wǎng)絡爬蟲獲取熱門新聞網(wǎng)站和社交媒體內容,過程如下:/n1.1使用基于Hadoop的分布式網(wǎng)絡爬蟲系統(tǒng),分布于不同服務器上的分系統(tǒng)分別爬取不同的網(wǎng)站,最后將數(shù)據(jù)聚合在一起;/n1.2爬取過程中,將目標網(wǎng)站分為兩大類:新聞網(wǎng)站和社交網(wǎng)絡,對新聞媒體爬取的內容有:發(fā)文時間、標題、發(fā)文內容、瀏覽量、評論數(shù)和評論內容;對社交網(wǎng)絡爬取內容有:發(fā)布時間、發(fā)布內容、點贊數(shù)、評論數(shù)、評論內容、用戶信息、用戶之間的社交關系網(wǎng)絡;/n1.3建立基于Hadoop和MySQL關系數(shù)據(jù)庫,將以上數(shù)據(jù)結構化并存入數(shù)據(jù)庫;/n步驟2,針對在步驟1中獲取的文本內容,使用預先訓練的基BERT模型,將文本進行分類并判斷是否和愛國主義相關,并將其中和愛國主義相關的內容按話題分類存儲;將話題中的文本內容通過BERT模型判斷作者對國家的態(tài)度或情感,是正面、中立還是負面的,并匯總形成統(tǒng)計報告;/n步驟3,計算特定事件相關話題的流行度,過程如下:/n3.1在步驟2中,所有相關的愛國主義話題被統(tǒng)計儲存在一起,每個話題在不一樣的網(wǎng)站或平臺的流行度不同,其中第i個網(wǎng)站中某個話題的流行度計算公式如下:/n...
【技術特征摘要】
1.一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法,其特征在于,所述方法包括以下步驟:
步驟1,建立全網(wǎng)數(shù)據(jù)采集系統(tǒng),使用網(wǎng)絡爬蟲獲取熱門新聞網(wǎng)站和社交媒體內容,過程如下:
1.1使用基于Hadoop的分布式網(wǎng)絡爬蟲系統(tǒng),分布于不同服務器上的分系統(tǒng)分別爬取不同的網(wǎng)站,最后將數(shù)據(jù)聚合在一起;
1.2爬取過程中,將目標網(wǎng)站分為兩大類:新聞網(wǎng)站和社交網(wǎng)絡,對新聞媒體爬取的內容有:發(fā)文時間、標題、發(fā)文內容、瀏覽量、評論數(shù)和評論內容;對社交網(wǎng)絡爬取內容有:發(fā)布時間、發(fā)布內容、點贊數(shù)、評論數(shù)、評論內容、用戶信息、用戶之間的社交關系網(wǎng)絡;
1.3建立基于Hadoop和MySQL關系數(shù)據(jù)庫,將以上數(shù)據(jù)結構化并存入數(shù)據(jù)庫;
步驟2,針對在步驟1中獲取的文本內容,使用預先訓練的基BERT模型,將文本進行分類并判斷是否和愛國主義相關,并將其中和愛國主義相關的內容按話題分類存儲;將話題中的文本內容通過BERT模型判斷作者對國家的態(tài)度或情感,是正面、中立還是負面的,并匯總形成統(tǒng)計報告;
步驟3,計算特定事件相關話題的流行度,過程如下:
3.1在步驟2中,所有相關的愛國主義話題被統(tǒng)計儲存在一起,每個話題在不一樣的網(wǎng)站或平臺的流行度不同,其中第i個網(wǎng)站中某個話題的流行度計算公式如下:
其中pi(t)表示在t時刻時這一話題的流行度,ci(t)表示在t時刻時出現(xiàn)的這一話題相關網(wǎng)絡行為,包括發(fā)文、評論、點贊、轉發(fā)等等,Aci(t)表示在t時刻這個網(wǎng)站日常平均網(wǎng)絡行為;
3.2在所有網(wǎng)...
【專利技術屬性】
技術研發(fā)人員:藍漢林,陳中天,陳漢聰,王文歡,
申請(專利權)人:浙江工業(yè)大學,
類型:發(fā)明
國別省市:浙江;33
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。