全網(wǎng)愛國輿情事件識別及流行度跟蹤方法技術

技術編號：24251644 閱讀：38 留言：0更新日期：2020-05-22 23:37

一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法，首先使用網(wǎng)絡爬蟲系統(tǒng)爬取全網(wǎng)熱門新聞網(wǎng)站和社交媒體，通過BERT模型判斷話題是否與愛國主義相關，并判斷發(fā)文者對國家的態(tài)度，分別計算話題在不同網(wǎng)站和平臺的流行度，然后將相同話題的內容聚合在一起，得出此話題在全網(wǎng)的流行度，如果事件流行度超過閾值或者暴增，系統(tǒng)通過LOF算法來識別突發(fā)熱點事件，并對事件持續(xù)跟蹤；最后，通過收集事件相關的網(wǎng)絡活動，在事件平息之后給出相應的事件報告。本發(fā)明專利技術可以有效識別和跟蹤網(wǎng)絡上有關愛國主義的輿情。

Identification and popularity tracking method of patriotic public opinion events in the whole network

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】
全網(wǎng)愛國輿情事件識別及流行度跟蹤方法
本專利技術屬于計算機技術和輿情監(jiān)測領域，涉及一種基于集成方法的輿情事件識別和跟蹤系統(tǒng)，尤其是愛國輿情事件識別及流行度跟蹤方法。
技術介紹
隨著互聯(lián)網(wǎng)和智能終端設備的發(fā)展，“兩微一端”被廣泛使用，自媒體的時代到來了，每個個體都可以成為報道著和傳話人，信息的數(shù)量以前所未有的速度膨脹著，政府機關越來越難通過網(wǎng)絡去真正了了解公眾的感受和想法。因此，設計一套系統(tǒng)收集和跟蹤公眾在一些愛國輿情事件中的態(tài)度是十分重要的。
技術實現(xiàn)思路
為了可以有效識別和跟蹤網(wǎng)絡上有關愛國主義的輿情，本專利技術提供了一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法。為了解決上述技術問題，本專利技術提供如下的技術方案：一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法，包括以下步驟：步驟1，建立全網(wǎng)數(shù)據(jù)采集系統(tǒng)，使用網(wǎng)絡爬蟲獲取熱門新聞網(wǎng)站和社交媒體內容，過程如下：1.1使用基于Hadoop的分布式網(wǎng)絡爬蟲系統(tǒng)，分布于不同服務器上的分系統(tǒng)分別爬取不同的網(wǎng)站最后將數(shù)據(jù)聚合在一起；1.2爬取過程中，將目標網(wǎng)站分為兩大類：新聞網(wǎng)站和社交網(wǎng)絡，新聞網(wǎng)站包括人民網(wǎng)、新浪新聞、新華網(wǎng)、鳳凰資訊、騰訊新聞、網(wǎng)易新聞、搜狐新聞和今日頭條；對新聞媒體爬取的內容有：發(fā)文時間、標題、發(fā)文內容、瀏覽量、評論數(shù)和評論內容；社交媒體包括新浪微博、豆瓣、知乎、微信公眾號、百度貼吧、嗶哩嗶哩、抖音和快手；對社交網(wǎng)絡爬取內容有：發(fā)布時間、發(fā)布內容、點贊數(shù)、評論數(shù)、評論內容、用戶信息、用戶之間的社交關系網(wǎng)絡；...

【技術保護點】
1.一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法，其特征在于，所述方法包括以下步驟：/n步驟1，建立全網(wǎng)數(shù)據(jù)采集系統(tǒng)，使用網(wǎng)絡爬蟲獲取熱門新聞網(wǎng)站和社交媒體內容，過程如下：/n1.1使用基于Hadoop的分布式網(wǎng)絡爬蟲系統(tǒng)，分布于不同服務器上的分系統(tǒng)分別爬取不同的網(wǎng)站，最后將數(shù)據(jù)聚合在一起；/n1.2爬取過程中，將目標網(wǎng)站分為兩大類：新聞網(wǎng)站和社交網(wǎng)絡，對新聞媒體爬取的內容有：發(fā)文時間、標題、發(fā)文內容、瀏覽量、評論數(shù)和評論內容；對社交網(wǎng)絡爬取內容有：發(fā)布時間、發(fā)布內容、點贊數(shù)、評論數(shù)、評論內容、用戶信息、用戶之間的社交關系網(wǎng)絡；/n1.3建立基于Hadoop和MySQL關系數(shù)據(jù)庫，將以上數(shù)據(jù)結構化并存入數(shù)據(jù)庫；/n步驟2，針對在步驟1中獲取的文本內容，使用預先訓練的基BERT模型，將文本進行分類并判斷是否和愛國主義相關，并將其中和愛國主義相關的內容按話題分類存儲；將話題中的文本內容通過BERT模型判斷作者對國家的態(tài)度或情感，是正面、中立還是負面的，并匯總形成統(tǒng)計報告；/n步驟3，計算特定事件相關話題的流行度，過程如下：/n3.1在步驟2中，所有相關的愛國主義話題被統(tǒng)計儲存在一起，每個話題在...

【技術特征摘要】
1.一種全網(wǎng)愛國輿情事件識別及流行度跟蹤方法，其特征在于，所述方法包括以下步驟：
步驟1，建立全網(wǎng)數(shù)據(jù)采集系統(tǒng)，使用網(wǎng)絡爬蟲獲取熱門新聞網(wǎng)站和社交媒體內容，過程如下：
1.1使用基于Hadoop的分布式網(wǎng)絡爬蟲系統(tǒng)，分布于不同服務器上的分系統(tǒng)分別爬取不同的網(wǎng)站，最后將數(shù)據(jù)聚合在一起；
1.2爬取過程中，將目標網(wǎng)站分為兩大類：新聞網(wǎng)站和社交網(wǎng)絡，對新聞媒體爬取的內容有：發(fā)文時間、標題、發(fā)文內容、瀏覽量、評論數(shù)和評論內容；對社交網(wǎng)絡爬取內容有：發(fā)布時間、發(fā)布內容、點贊數(shù)、評論數(shù)、評論內容、用戶信息、用戶之間的社交關系網(wǎng)絡；
1.3建立基于Hadoop和MySQL關系數(shù)據(jù)庫，將以上數(shù)據(jù)結構化并存入數(shù)據(jù)庫；
步驟2，針對在步驟1中獲取的文本內容，使用預先訓練的基BERT模型，將文本進行分類并判斷是否和愛國主義相關，并將其中和愛國主義相關的內容按話題分類存儲；將話題中的文本內容通過BERT模型判斷作者對國家的態(tài)度或情感，是正面、中立還是負面的，并匯總形成統(tǒng)計報告；
步驟3，計算特定事件相關話題的流行度，過程如下：
3.1在步驟2中，所有相關的愛國主義話題被統(tǒng)計儲存在一起，每個話題在不一樣的網(wǎng)站或平臺的流行度不同，其中第i個網(wǎng)站中某個話題的流行度計算公式如下：

其中pi(t)表示在t時刻時這一話題的流行度，ci(t)表示在t時刻時出現(xiàn)的這一話題相關網(wǎng)絡行為，包括發(fā)文、評論、點贊、轉發(fā)等等，Aci(t)表示在t時刻這個網(wǎng)站日常平均網(wǎng)絡行為；
3.2在所有網(wǎng)...

【專利技術屬性】
技術研發(fā)人員：藍漢林，陳中天，陳漢聰，王文歡，
申請(專利權)人：浙江工業(yè)大學，
類型：發(fā)明
國別省市：浙江;33

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術