The invention discloses a social network text data processing method and system based on user dictionary; social network text data analysis value and method of social network mining, text data processing and technology. Using the method of centralized computing, semi-structured data into structured data, the invention is mainly for processing of semi-structured data, based on the psychological quality of keyword extraction related to representative samples of micro-blog, through artificial evaluation and questionnaire survey to delete the vocabulary, to build a psychological quality user dictionary. Based on fuzzy matching and weight setting (degree level words and negative words), the frequency of keywords in micro-blog text messages is statistically analyzed.
【技術實現步驟摘要】
一種基于用戶詞典的網絡社交文本大數據處理方法及系統
本專利技術涉及一種基于用戶詞典的網絡社交文本大數據處理方法及系統。
技術介紹
隨著互聯網技術的迅速發展,網絡無時無刻地不在影響著人們的生產、生活乃至社會發展。根據IDC(網絡數據中心)預測,全球數據的額總量每兩年就增加一倍,估計到2020年會達到35ZB,而且絕大部分數據具有非結構或半結構化的特點,人們對大數據的關注程度也日益升高。同時,互聯網的發展也帶動了以微博為主導的社交媒體的迅猛發展,不論是國外以Twitter為代表的社交媒體,還是國內以騰訊微博和新浪微博為代表社交媒體,其用戶都在不斷增長。如此巨大的用戶基數,產生了巨大的數據,而這些數據蘊含著巨大的價值。網絡社交文本大數據呈現出數量巨大、增長速度快、結構多樣化等特點,傳統的數據處理方式是總體中抽取樣本來進行有關領域的分析,這樣分析出來的結果并不是對真實數據的描述,只有采用新的數據處理方式才能獲得大數據更加全面有效的信息。正如前文所述,微博文本數據也有非結構化或半結構化的特點,將其結構化處理對數據價值發掘具有重大意義。早期對于大數據的處理由于受到計算機硬件及技術的影響發展緩慢,巨大的信息資源并沒有完全被發掘出來。目前的關于大數據的研究主要集中在云計算、視覺分析、數據挖掘等方面,大數據的處理技術中的分布式計算在大型集群中的簡化數據處理技術,該技術需要通過計算機相互連接組成分散系統,比較復雜,技術實現較為困難。
技術實現思路
本專利技術的目的就是為了解決上述問題,提供一種基于用戶詞典的網絡社交文本大數據處理方法及系統,本專利技術技術提出相應的網絡社交文本非結 ...
【技術保護點】
一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,包括:步驟(1):網絡社交文本大數據的獲取:在新浪微博開放平臺上獲取新浪微博用戶的微博文本,由于微博文本數據存儲空間大以及為了保證大數據的獲取速度,從網上下載了文本壓縮文件;然后對文本壓縮文件解壓縮處理得到包含微博數據的txt文件,對包含微博數據的txt文件進行數據信息初步的提取;步驟(2):用戶詞典的構建:從微博數據中篩選符合待研究心里品質的詞匯,對該詞匯進行預處理,根據預處理后的詞匯編制調查問卷,根據調查問卷的問卷題目篩選結果,構建用戶詞典;步驟(3):微博文本消息中的關鍵詞模糊匹配,關鍵詞詞頻統計:步驟(31):根據微博發布的時間點來劃分微博片段,將用戶詞典中待匹配的關鍵詞分解為單個字,步驟(32):判斷關鍵詞當中的每一個字是否均在微博片段的文本消息中出現一次,若是,則關鍵詞詞頻加一;若不是則關鍵詞詞頻不變;對所有微博片段進行分析,找出用戶詞典中的各個關鍵詞在每個月份的詞頻。
【技術特征摘要】
1.一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,包括:步驟(1):網絡社交文本大數據的獲取:在新浪微博開放平臺上獲取新浪微博用戶的微博文本,由于微博文本數據存儲空間大以及為了保證大數據的獲取速度,從網上下載了文本壓縮文件;然后對文本壓縮文件解壓縮處理得到包含微博數據的txt文件,對包含微博數據的txt文件進行數據信息初步的提取;步驟(2):用戶詞典的構建:從微博數據中篩選符合待研究心里品質的詞匯,對該詞匯進行預處理,根據預處理后的詞匯編制調查問卷,根據調查問卷的問卷題目篩選結果,構建用戶詞典;步驟(3):微博文本消息中的關鍵詞模糊匹配,關鍵詞詞頻統計:步驟(31):根據微博發布的時間點來劃分微博片段,將用戶詞典中待匹配的關鍵詞分解為單個字,步驟(32):判斷關鍵詞當中的每一個字是否均在微博片段的文本消息中出現一次,若是,則關鍵詞詞頻加一;若不是則關鍵詞詞頻不變;對所有微博片段進行分析,找出用戶詞典中的各個關鍵詞在每個月份的詞頻。2.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,統計每個月份含有各個關鍵詞的頻數,以csv文件格式進行保存;詞頻統計csv文件的第一列是關鍵詞,第一行是含有該關鍵詞的月份。3.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,根據各個關鍵詞在每個月份的詞頻,判斷被研究人員的待研究心理品質。4.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,若某個微博片段中含有多個關鍵詞,則該微博片段的內容會同時與不同關鍵詞進行模糊匹配。5.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,由于微博文本中的程度級別詞語和否定詞會影響到關鍵詞的模糊匹配,將程度級別詞語設置不同的權重;沒有出現程度級別詞語的權值記為1;否定詞權重奇數次出現記為-1,偶數次出現記為1;每個關鍵詞的詞頻=程度級別詞語權值*否定詞權重+名詞詞頻。6.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,所述步驟(1)中進行數據信息初步的提取是指采用文本遍歷和文本過濾的方法過濾掉無用的信息,保留有用的信息,將有用的信息另存為txt文件。7.如權利要求6所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,所述無用的信息包括:網絡連接或表情符號;所述有用的信息包括:用戶創建微博的時間、省份、微博內容以及用戶性別。8.如權利要求5所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,將程度詞分為四個等級并賦予相應權重(...
【專利技術屬性】
技術研發人員:王鵬,石潔茹,張淑潔,張利會,李曉岳,耿后旺,朱干成,李沅林,劉曉芳,宋佳茹,孟廣騰,
申請(專利權)人:山東師范大學,
類型:發明
國別省市:山東,37
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。