本發明專利技術實施例提供一種實時流式文本分級監控方法和裝置,包括:實時獲取流式的短文本;對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據;對所述結構化數據進行文本分詞處理,獲得K個詞;所述K為大于0的整數;根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值;根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值;根據所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監控等級。本實施例獲得的用戶的監控等級更精確也更迅速。
【技術實現步驟摘要】
實時流式文本分級監控方法和裝置
本專利技術實施例涉及社交網絡
,尤其涉及一種實時流式文本分級監控方法和裝置。
技術介紹
近年來,伴隨著信息技術的蓬勃發展,互聯網的使用大范圍迅速普及,大量不同領域、不同地域、不同時域的信息在產生伊始便經由互聯網廣泛傳播,這一方面有利于人們及時了解實時信息,把握新鮮資訊;但大量冗余、重復乃至錯誤的“暗信息”不僅會增加廣大用戶瀏覽有效信息的難度,甚至會誤導用戶對信息或事態產生錯誤的理解或判斷。以新浪微博、騰訊微博為代表的一系列實時用戶在線分享交流社區自出現以來很快便被廣大互聯網用戶接受并使用,其原因主要包含以下幾點:注冊方便,僅通過郵箱或電話號碼即可快速擁有賬戶;自由便捷,用戶可以根據自身需要及心情變化隨時隨地分享自己的想法或狀態;實時快速,用戶能夠通過消息推送、主動搜索、訂閱關注等多種方式及時獲取想要的多種信息;用戶廣泛,用戶不僅能夠獲取自身親友圈的信息與狀態,還能與喜歡的明星發生互動;增強社交,可以方便陌生人相互熟悉,創建新的社交模式。微博等新穎的社交模式擁有眾多出眾的優點,因此產品受眾范圍十分廣泛,自推出時起便快速積攢大量活躍用戶。快速發展的社交網絡及用戶群一方面有利于用戶的交流、信息的傳播,但也更加劇了文首說明情況的發生,此類微博信息的發布很少或根本未經過人工審核,這就導致很多包含過激情緒或不當言論微博大量的出現在社交網絡中,造成一系列連鎖反應;且微博未實名用戶也同樣可以自由的發表博客,這就會使得信息的產生十分隨意,極易被不法分子或水軍利用,傳播垃圾或反動言論,迷惑群眾。上述情況的出現對社會危害十分巨大,由于微博類流式短文本所涉及的用戶遍布社會各個階層,且微博類應用用戶基數達到億級,快速傳播的信息將會攜帶文本中的信息與情緒通過社交網絡爆發式擴散,造成難以挽回的影響。因此及時在海量信息中發現此類文本并實施預警,進行輿情管控是一項十分必要的工作。
技術實現思路
本專利技術實施例提供一種實時流式文本分級監控方法和裝置,用于使得用戶的監控等級更精確。第一方面,本專利技術實施例提供一種實時流式文本分級監控方法,包括:實時獲取流式的短文本;對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據;對所述結構化數據進行文本分詞處理,獲得K個詞;所述K為大于0的整數;根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值;根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值;根據所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監控等級。第二方面,本專利技術實施例提供一種實時流式文本分級監控裝置,包括:第一獲取模塊,用于實時獲取流式的短文本;生成模塊,用于對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據;分詞模塊,用于對所述結構化數據進行文本分詞處理,獲得K個詞;所述K為大于0的整數;敏感分析模塊,用于根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值;情感分析模塊,用于根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值;第二獲取模塊,用于根據所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監控等級。綜上所述,本專利技術實施例獲得的用戶的監控等級更精確也更迅速,因此可以快速精確地鎖定監控等級高的用戶。例如可以應用于社交網絡中的言論監控,以實施預警措施,從而避免了社交網絡被不法分子或水軍利用,傳播垃圾或反動言論,迷惑群眾,而造成難以挽回的影響。例如可以應用于廣告精準投放中,根據廣告商的需求,投放給監控等級高的用戶。例如可以應用于用戶推薦系統中,以推薦監控等級高的用戶。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本專利技術實施例一提供的實時流式文本分級監控方法的流程圖;圖2為本專利技術實施例一提供的實時流式文本分級監控裝置的結構示意圖;圖3為本專利技術實施例二提供的實時流式文本分級監控裝置的結構示意圖;圖4為本專利技術實施例三提供的實時流式文本分級監控裝置的結構示意圖。具體實施方式為使本專利技術實施例的目的、技術方案和優點更加清楚,下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。圖1為本專利技術實施例一提供的實時流式文本分級監控方法的流程圖,如圖1所示,本實施例的方法可以包括:S101、實時獲取流式的短文本。本實施例中,該流式短文本可以是微博中用戶發布的短文本,或者朋友圈中用戶發布的短文本,本實施例并不限于此。當用戶發布該短文本時,本實施例可以實時獲取到該短文本,需要說明的是,本實施例不僅獲取該用戶發布的短文本,還實時獲取其它各用戶發布的短文本。下面以一個用戶為對像進行解釋說明,其它用戶也類似,此處不再贅述。S102、對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據。本實施例中,在獲取短文本后,對該短文本進行數據清洗、數據補充和數據過濾處理,可以將無意義短文本、純表情文本等無價值數據進行剔除,節省計算性能,然后生成結構化數據。以短文本中微博中的信息為例,生成的結構化數據至少包括如下信息:微博ID、發布時間、用戶ID、文本內容。S103、對所述結構化數據進行文本分詞處理,獲得K個詞;所述K為大于0的整數。本實施例中,對生成的結構化數據進行文本分詞處理,獲得K個詞,例如采用NLPIR方式,K為大于或等于1的整數。例如短文本為:川普贏得美國大選。分詞處理后可以獲得4個詞,分別為:川普、贏得、美國、大選。S104、根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值。本實施例中,根據敏感詞數據庫,對上述K個詞進行敏感分析,獲得該短文本的敏感值。可選地,所述敏感詞數據庫包括以下至少一種:網絡統計的敏感詞、預設的敏感詞。網絡統計的敏感詞例如可以是微博中統計獲得的敏感詞,預設的敏感詞可以是客戶根據實際需要設定的詞。S105、根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值。本實施例中,根據敏感詞數據庫,對上述K個詞進行敏感分析,獲得該短文本的情感值,例如情感值為-1,表示為負情感或負面情緒。例如情感值為0,表示為中性情感。例如情感值為1,表示為正情感或正面情緒。可選地,所述情感詞數據庫包括以下至少一種:網絡統計的情感詞、預設的情感詞。網絡統計的情感詞例如可以是微博中統計獲得的情感詞,預設的情感詞可以是客戶根據實際需要設定的詞。S106、根據所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監控等級。本實施例中,在獲取短文本的敏感值和短文本的情感值后,根據該短文本的敏感值和短文本的情感值,獲得該短文本所屬的用戶的監控等級。綜上所述,本實施例獲得的用戶的監控等級更精確也更迅速,困此可以快速精確地鎖定監控等級高的用戶。例如可以應用于社交網絡中的言論監控,以實施預警措施,從而避免了本文檔來自技高網...

【技術保護點】
一種實時流式文本分級監控方法,其特征在于,包括:實時獲取流式的短文本;對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據;對所述結構化數據進行文本分詞處理,獲得K個詞;所述K為大于0的整數;根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值;根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值;根據所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監控等級。
【技術特征摘要】
1.一種實時流式文本分級監控方法,其特征在于,包括:實時獲取流式的短文本;對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據;對所述結構化數據進行文本分詞處理,獲得K個詞;所述K為大于0的整數;根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值;根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值;根據所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監控等級。2.根據權利要求1所述的方法,其特征在于,所述根據所述敏感值與所述情感值,獲得所述短文本對應的用戶的監控等級,包括:根據所述敏感值和所述情感值,獲得所述用戶的初始監控等級;根據所述用戶的歷史短文本,獲得所述用戶的歷史監控等級;根據所述用戶的初始監控等級和所述歷史監控等級,獲得所述用戶的監控等級。3.根據權利要求2所述的方法,其特征在于,所述根據所述用戶的歷史短文本,獲得所述用戶的歷史監控等級之前,還包括:確定所述用戶的初始監控等級大于第一預設監控等級。4.根據權利要求1所述的方法,其特征在于,還包括:標注所述K個詞的詞性;根據所述K個詞的詞性,對所述K個詞進行語義分析;所述根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值,包括:根據敏感詞數據庫,對語義分析后的所述K個詞進行敏感分析,獲得所述短文本的敏感值;所述根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值,包括:根據情感詞數據庫,對語義分析后的所述K個詞進行情感分析,獲得所述短文本的情感值。5.根據權利要求1所述的方法,其特征在于,所述敏感詞數據庫包括以下至少一種:網絡統計的敏感詞、預設的敏感詞;所述情感詞數據庫包括以下至少一種:網絡統計的情感詞、預設的情感詞。6.根據權利要求5所述的方法,其特征在于,還包括:當所述用戶的監控等級大于第二...
【專利技術屬性】
技術研發人員:張日崇,李晨,蘭天,李建欣,彭浩,
申請(專利權)人:北京航空航天大學,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。