本發明專利技術公開了一種微博賬號分類的方法,方法包括:獲取未知類型的微博賬號對應的微博數據,對微博數據進行特征提取得到微博數據特征,根據微博數據特征,采用已建立的按微博數據特征劃分的分類模型確定微博賬號的類型。通過上述方式,本發明專利技術能夠準確區分普通賬號跟異常賬號,并且還能夠識別出賬號具體屬于哪一類型的賬號。
【技術實現步驟摘要】
一種微博賬號分類的方法
本專利技術涉及一種微博賬號分類的方法。
技術介紹
在當今互聯網高速發展的時代,社交網絡日益成為人們互聯網生活的重要組成部分,其中微博這種社交網絡服務更是成為了最紅火的概念。微博是一個基于用戶關系的信息分享、傳播以及獲取平臺,用戶可以通過WEB、WAP以及各種客戶端組建個人社區,以140字以內的文字更新信息,并實現即時分享。由于各類微博對用戶的技術門檻都很低,同時微博應用程序編程接口的存在使得用戶可以在各種移動終端上登錄微博發布消息,這也加速了微博的發展。隨著高速發展而來的是各種各樣的問題,僵尸賬號、廣告賬號、機器賬號及其帶來的虛假粉絲、內容污染和輿論誤導等問題日益嚴重。國內外有專家學者已經開始研究異常賬號的檢測和垃圾內容的過濾技術。微博服務提供商也建立了諸如手機號注冊、用戶舉報等措施來限制異常賬號的泛濫。但是,現有的方法中,都是只能識別出異常賬號跟普通賬號,無法準確識別出賬號具體為哪一種類型的微博賬號,并且識別效率也相當低。
技術實現思路
本專利技術主要解決的技術問題是如何提供一種能夠高效準確識別微博賬號類型的方法。有鑒于此,本專利技術實施例提供一種微博賬號分類的方法,能夠準確區分普通賬號跟異常賬號,并且還能夠識別出賬號具體屬于哪一類型的賬號。為解決上述技術問題,本專利技術采用的一個技術方案是:提供一種微博賬號分類的方法,所述方法包括:獲取未知類型的微博賬號對應的微博數據;對所述微博數據進行特征提取得到微博數據特征;根據所述微博數據特征,采用已建立的按微博數據特征劃分的分類模型確定所述微博賬號的類型。其中,所述微博賬號的類型為僵尸賬號、廣告賬號、機器賬號或普通賬號中的一種。其中,所述在獲取微博賬號對應的微博數據之前,還包括:獲取已知類型的微博賬號的微博數據;對所述已知類型的微博賬號的微博數據進行特征提取,得到已知類型的微博賬號的微博數據特征;對所述已知類型的微博賬號的微博數據特征進行機器學習訓練,從而建立按微博數據特征劃分的分類模型。其中,所述對所述已知類型的微博賬號的微博數據特征進行機器學習訓練,從而建立按微博數據特征劃分的分類模型包括:通過10折交叉驗證的方法,對所述已知類型的微博賬號的微博數據進行機器學習訓練,從而建立按微博數據特征劃分的分類模塊。其中,所述對所述已知類型的微博賬號的微博數據特征進行機器學習訓練,從而建立按微博數據特征劃分的分類模型包括:分別采用隨機森林、樸素貝葉斯和梯度回歸分類算法中的至少一種,對所述已知類型的微博賬號的微博數據特征進行機器學習訓練,從而建立按微博數據特征劃分的分類模型。其中,采用隨機森林算法對僵尸賬號的微博數據特征進行機器學習訓練;采用樸素貝葉斯算法對廣告賬號的微博數據特征進行機器學習訓練;采用梯度回歸算法對機器賬號的微博數據特征進行機器學習訓練。其中,所述獲取微博賬號對應的微博數據包括:通過微博應用程序編程接口或通過網絡爬蟲的方式獲取未知類型微博賬號對應的微博數據。其中,所述微博數據特征包括用戶資料特征、微博內容特征、交互行為特征和發布行為模式特征中的至少一種。其中,所述根據所述微博數據特征,采用已建立的按微博數據特征劃分的分類模型確定所述微博賬號的類型之后,還包括:通過分類算法對已確定的僵尸賬號、廣告賬號、機器賬號以及普通賬號進行二分類。其中,所述通過分類算法對已確定的僵尸賬號、廣告賬號、機器賬號以及普通賬號進行二分類包括:通過隨機森林分類算法對僵尸賬號和其余三種賬號集合進行二分類;通過樸素貝葉斯分類算法對廣告賬號、普通賬號以及機器賬號的集合進行二分類;以及通過梯度回歸分類算法對機器賬號和普通賬號的集合進行二分類。本專利技術的有益效果是:區別于現有技術的情況,本專利技術通過對微博賬號對應的微博數據進行特征提取得到微博數據特征,采用已建立的按微博數據特征劃分的分類模型確定微博賬號的類型。由于分類模型是通過對數量龐大的已知類型微博賬號對應的微博數據進行機器學習訓練而得到,因此,分類模型非常全面和具有代表性,通過分類模型對微博賬號的類型進行確定,從而可以對微博賬號的識別和分類能夠更加高效和準確。附圖說明圖1是本專利技術實施例提供的一種微博賬號分類的方法的流程圖;圖2是本專利技術實施例提供的建立按微博數據特征劃分的分類模型的流程圖;圖3a是性別特征分析示意圖;圖3b是頭像特征分析示意圖;圖3c是簡介特征分析示意圖;圖3d是昵稱特征分析示意圖;圖3e是微博書CDF圖;圖3f是粉絲數CDF圖;圖3g是粉絲度CDF圖;圖3h是粉絲關注比CDF圖;圖4是微博內容特征分析示意圖;圖5a是原創微博數CDF圖;圖5b是評論數CDF圖;圖6是發布行為特征分析圖示意圖;圖7是特征重要度對比圖示意圖;圖8是用戶成分分析示意圖;圖9是本專利技術實施例提供的微博賬號分類的裝置的結構示意圖。具體實施方式請參閱圖1,圖1是本專利技術實施例提供的一種微博賬號分類的方法的流程圖,如圖所示,本實施例的微博賬號分類的方法包括以下步驟:S101:獲取未知類型的微博賬號對應的微博數據。本專利技術實施例中,微博數據的獲取可以采用微博應用程序編程接口(ApplicationProgrammingInterface,API)和網絡爬蟲兩種方法。但微博API接口對訪問頻率和屬性獲取有較大限制。因此作為本專利技術的優選實現方案,采用網絡爬蟲的方式獲取微博數據。基于網絡爬蟲原理實現完成了微博爬蟲工具,該爬蟲工具能夠獲得微博頁面上所有能呈現出的所有微博數據,并且將獲得的原始微博數據進行預處理,最終存入數據庫。在具體實現時,微博數據的獲取除了完成基本屬性值數據的獲取,同時獲取每個賬號的最新500條微博,若微博數不足500條的,將其所有微博內容全部獲取。爬取過程可以采取多臺計算機分擔微博數據爬取任務,避免爬取時間造成的屬性差異。S102:對微博數據進行特征提取得到微博數據特征。根據當前微博特點,本專利技術實施例抽取并擴展出4類微博數據特征:用戶資料特征、微博內容特征、交互行為特征和發布行為模式特征,綜合考慮多種類型賬號特征能夠提高賬號類型識別準確率。其中,本專利技術實施例所述擴展出的4類微博數據特征的特征集合請參閱下表1(加※為本專利技術新提出的特征):表1:微博數據特征的特征集合S103:根據微博數據特征,采用已建立的按微博數據特征劃分的分類模型確定微博賬號的類型。其中,本專利技術實施例中的微博賬號的類型為僵尸賬號、廣告賬號、機器賬號或普通賬號中的一種。分類模型的目的是建立一個能夠描述給定賬號在賬號類型中的出現頻次或概率的分布。即利用分類模型,可以確定某一賬號為哪個類型賬號的可能性更大。通過分類模型,可以對未知類型的賬號進行類型識別與區分。具體針對一個未知類型賬號進行分類時,首先輸入該賬號的用戶身份證明(UserIdentification,UID),然后通過微博爬蟲工具獲取其相關數據,基于數值型特征集合生成基于數值型特征集合生成特征向量1和特征向量3,基于用戶發布過得微博文本內容,生成特征向量2,根據特征向量,通過分類模型采用排除法確定賬號類型。舉例而言,1)使用特征向量1判斷是否是僵尸賬號,若是,則停止判斷,若不是,則繼續下一步;2)基于用戶發布過得微博文本內容,生成特征向量2;3)使用特征向量2判斷是否是廣告賬號,若是,則停止判斷,若不是,則本文檔來自技高網...

【技術保護點】
一種微博賬號分類的方法,其特征在于,所述方法包括:獲取未知類型的微博賬號對應的微博數據;對所述微博數據進行特征提取得到微博數據特征;根據所述微博數據特征,采用已建立的按微博數據特征劃分的分類模型確定所述微博賬號的類型。
【技術特征摘要】
1.一種微博賬號分類的方法,其特征在于,所述方法包括:獲取未知類型的微博賬號對應的微博數據;對所述微博數據進行特征提取得到微博數據特征;根據所述微博數據特征,采用已建立的按微博數據特征劃分的分類模型確定所述微博賬號的類型。2.根據權利要求1所述的方法,其特征在于,所述微博賬號的類型為僵尸賬號、廣告賬號、機器賬號或普通賬號中的一種。3.根據權利要求2所述的方法,其特征在于,所述在獲取微博賬號對應的微博數據之前,還包括:獲取已知類型的微博賬號的微博數據;對所述已知類型的微博賬號的微博數據進行特征提取,得到已知類型的微博賬號的微博數據特征;對所述已知類型的微博賬號的微博數據特征進行機器學習訓練,從而建立按微博數據特征劃分的分類模型。4.根據權利要求3所述的方法,其特征在于,所述對所述已知類型的微博賬號的微博數據特征進行機器學習訓練,從而建立按微博數據特征劃分的分類模型包括:通過10折交叉驗證的方法,對所述已知類型的微博賬號的微博數據進行機器學習訓練,從而建立按微博數據特征劃分的分類模塊。5.根據權利要求3所述的方法,其特征在于,所述對所述已知類型的微博賬號的微博數據特征進行機器學習訓練,從而建立按微博數據特征劃分的分類模型包括:分別采用隨機森林、樸素貝葉斯和梯度回歸分類算法中的至少一種,對所述已知類型的微博賬號的...
【專利技術屬性】
技術研發人員:董元魁,陳訓遜,郎波,王博,王洋,黃亮,
申請(專利權)人:國家計算機網絡與信息安全管理中心,北京航空航天大學,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。