• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于用戶詞典的網絡社交文本大數據處理方法及系統技術方案

    技術編號:15690853 閱讀:245 留言:0更新日期:2017-06-24 03:34
    本發明專利技術公開了一種基于用戶詞典的網絡社交文本大數據處理方法及系統;對網絡社交文本大數據分析價值的挖掘,以及網絡社交文本大數據處理的方法與技術。采用集中式計算的方法,將半結構化數據的數據轉化為結構化的數據,本發明專利技術主要是對半結構化的數據進行處理,通過對有代表性的樣本微博中抽取相關的心理品質關鍵詞,通過人工評判與問卷調查來刪減詞匯,構建某種心理品質的用戶詞典。基于模糊匹配及權重設置(程度級別詞語與否定詞)對微博文本消息中的關鍵詞進行頻數統計。

    Network social text large data processing method and system based on user dictionary

    The invention discloses a social network text data processing method and system based on user dictionary; social network text data analysis value and method of social network mining, text data processing and technology. Using the method of centralized computing, semi-structured data into structured data, the invention is mainly for processing of semi-structured data, based on the psychological quality of keyword extraction related to representative samples of micro-blog, through artificial evaluation and questionnaire survey to delete the vocabulary, to build a psychological quality user dictionary. Based on fuzzy matching and weight setting (degree level words and negative words), the frequency of keywords in micro-blog text messages is statistically analyzed.

    【技術實現步驟摘要】
    一種基于用戶詞典的網絡社交文本大數據處理方法及系統
    本專利技術涉及一種基于用戶詞典的網絡社交文本大數據處理方法及系統。
    技術介紹
    隨著互聯網技術的迅速發展,網絡無時無刻地不在影響著人們的生產、生活乃至社會發展。根據IDC(網絡數據中心)預測,全球數據的額總量每兩年就增加一倍,估計到2020年會達到35ZB,而且絕大部分數據具有非結構或半結構化的特點,人們對大數據的關注程度也日益升高。同時,互聯網的發展也帶動了以微博為主導的社交媒體的迅猛發展,不論是國外以Twitter為代表的社交媒體,還是國內以騰訊微博和新浪微博為代表社交媒體,其用戶都在不斷增長。如此巨大的用戶基數,產生了巨大的數據,而這些數據蘊含著巨大的價值。網絡社交文本大數據呈現出數量巨大、增長速度快、結構多樣化等特點,傳統的數據處理方式是總體中抽取樣本來進行有關領域的分析,這樣分析出來的結果并不是對真實數據的描述,只有采用新的數據處理方式才能獲得大數據更加全面有效的信息。正如前文所述,微博文本數據也有非結構化或半結構化的特點,將其結構化處理對數據價值發掘具有重大意義。早期對于大數據的處理由于受到計算機硬件及技術的影響發展緩慢,巨大的信息資源并沒有完全被發掘出來。目前的關于大數據的研究主要集中在云計算、視覺分析、數據挖掘等方面,大數據的處理技術中的分布式計算在大型集群中的簡化數據處理技術,該技術需要通過計算機相互連接組成分散系統,比較復雜,技術實現較為困難。
    技術實現思路
    本專利技術的目的就是為了解決上述問題,提供一種基于用戶詞典的網絡社交文本大數據處理方法及系統,本專利技術技術提出相應的網絡社交文本非結構或半結構化數據如何轉化為結構性的數據,對網絡社交文本大數據分析價值的挖掘,以及網絡社交文本大數據處理的方法與技術。采用集中式計算的方法,將半結構化數據的數據轉化為結構化的數據,本專利技術主要是對半結構化的數據進行處理,通過對有代表性的樣本微博中抽取相關的心理品質關鍵詞,通過人工評判與問卷調查來刪減詞匯,構建某種心理品質的用戶詞典。基于模糊匹配及權重設置(程度級別詞語與否定詞)對微博文本消息中的關鍵詞進行頻數統計。為了實現上述目的,本專利技術采用如下技術方案:一種基于用戶詞典的網絡社交文本大數據處理方法,包括:步驟(1):網絡社交文本大數據的獲取:在新浪微博開放平臺上獲取新浪微博用戶的微博文本,由于微博文本數據存儲空間大以及為了保證大數據的獲取速度,從網上下載了文本壓縮文件;然后對文本壓縮文件解壓縮處理得到包含微博數據的txt文件,對包含微博數據的txt文件進行數據信息初步的提取;步驟(2):用戶詞典的構建:從微博數據中篩選符合待研究心里品質的詞匯,對該詞匯進行預處理,根據預處理后的詞匯編制調查問卷,根據調查問卷的問卷題目篩選結果,構建用戶詞典;步驟(3):將微博文本消息與用戶詞典中的關鍵詞進行模糊匹配,對關鍵詞詞頻進行統計:步驟(31):根據微博發布的時間點來劃分微博片段,同時將用戶詞典中待匹配的關鍵詞分解為單個字;步驟(32):判斷關鍵詞當中的每一個字是否均在微博片段的文本消息中出現一次,若是,則關鍵詞詞頻加一;若不是則關鍵詞詞頻不變;對所有微博片段進行分析,找出用戶詞典中的各個關鍵詞在每個月份的詞頻。統計每個月份含有各個關鍵詞的頻數,以csv文件格式進行保存;詞頻統計csv文件的第一列是關鍵詞,第一行是含有該關鍵詞的月份。根據各個關鍵詞在每個月份的詞頻,判斷被研究人員的待研究心理品質。若某個微博片段中含有多個關鍵詞,則該微博片段的內容會同時與不同關鍵詞進行模糊匹配。由于微博文本中的程度級別詞語和否定詞會影響到關鍵詞的模糊匹配,將程度級別詞語設置不同的權重;沒有出現程度級別詞語的權值記為1;否定詞權重奇數次出現記為-1,偶數次出現記為1;每個關鍵詞的詞頻=程度級別詞語權值*否定詞權重+名詞詞頻。所述步驟(1)中進行數據信息初步的提取是指采用文本遍歷和文本過濾的方法過濾掉無用的信息,保留有用的信息,將有用的信息另存為txt文件。所述無用的信息包括:網絡連接或表情符號;所述有用的信息包括:用戶創建微博的時間、省份、微博內容以及用戶性別。將程度詞分為四個等級并賦予相應權重(2,1.75,1.5,0.5)。所述步驟(2)的步驟為:步驟(21):確定待研究心理品質的維度;待研究心理品質指的是使用者的所研究的心理主題,待研究心理品質包括:生涯適應力或大五人格;步驟(22):從微博排名前設定個數的用戶的原創微博的微博文本內容中抽取符合待研究心理品質的詞匯;抽取的詞匯必須包括名詞和趨勢詞;所述趨勢詞是指能表述事物發展動向的詞,對抽取的詞匯進行匯總整理,刪除重復詞匯,對含同義詞或近義詞進行合并處理;步驟(23):問卷編制:問卷包括若干個題目,每個題目包括五個選項;每個題目對應一個待研究的心理品質維度;將合并處理的詞作為題目,一個詞匯對應一個題目,隨機抽取人群作為被試人員,問卷采用Likert5點計分,從非常同意"、"同意"、"不一定"、"不同意"到"非常不同意"五種選項,分別記為5、4、3、2、1分;被試人員對某個題目的選項越集中,說明該題目對應的詞匯越具有代表性。按照集中程度來進行問卷題目的刪除:計算問卷中每個題目中各個選項的百分比,參考一致性系數的數值標準,保留單個選項百分比大于等于60%和兩個選項百分比之和大于等于60%或且相鄰三個選項中兩兩相鄰選項百分比不能同時大于等于60%的詞匯;步驟(24):形成用戶詞典;按照步驟(23)的按照集中程度來進行問卷題目的刪除方法,刪除被試人員難以達成一致的詞匯,保留被試人員能達成一致的詞匯,構成了最終的待研究心理品質的用戶詞典,保留被試人員能達成一致的詞匯就是用戶詞典的關鍵詞;所述用戶詞典的關鍵詞個數人為設定。例如:對于研究消費者信心指數來說,我們尋找工薪階層,具有一定的購買力,請被試人員評價這些詞匯在多大程度上符合他對當前(或未來一年)相關經濟狀況的看法。一種基于用戶詞典的網絡社交文本大數據處理系統,包括:網絡社交文本大數據的獲取單元:在新浪微博開放平臺上獲取新浪微博用戶的微博文本,由于微博文本數據存儲空間大以及為了保證大數據的獲取速度,從網上下載了文本壓縮文件;然后對文本壓縮文件解壓縮處理得到包含微博數據的txt文件,對包含微博數據的txt文件進行數據信息初步的提取;用戶詞典的構建單元,用于從微博數據中篩選符合待研究心里品質的詞匯,對該詞匯進行預處理,根據預處理后的詞匯編制調查問卷,根據調查問卷的問卷題目篩選結果,構建用戶詞典;微博文本消息中的關鍵詞模糊匹配,關鍵詞詞頻統計單元:根據微博發布的時間點來劃分微博片段,將用戶詞典中待匹配的關鍵詞分解為單個字,判斷關鍵詞當中的每一個字是否均在微博片段的文本消息中出現一次,若是,則關鍵詞詞頻加一;若不是則關鍵詞詞頻不變;對所有微博片段進行分析,找出用戶詞典中的各個關鍵詞在每個月份的詞頻。本專利技術的有益效果為:1、將半結構化的數據轉化為結構化的數據,具體的來說是二維的數據結構,轉換數據結構之后更加地便于對數據進行分析;2、基于大數據來對數據的總體進行分析,全面進行描述真實的數據,克服了傳統數據分析的一些弊端,例如:用樣本估計總體,難以描述客觀的世界,處理的誤差小于傳統數據等。3、微博數本文檔來自技高網...
    一種基于用戶詞典的網絡社交文本大數據處理方法及系統

    【技術保護點】
    一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,包括:步驟(1):網絡社交文本大數據的獲取:在新浪微博開放平臺上獲取新浪微博用戶的微博文本,由于微博文本數據存儲空間大以及為了保證大數據的獲取速度,從網上下載了文本壓縮文件;然后對文本壓縮文件解壓縮處理得到包含微博數據的txt文件,對包含微博數據的txt文件進行數據信息初步的提取;步驟(2):用戶詞典的構建:從微博數據中篩選符合待研究心里品質的詞匯,對該詞匯進行預處理,根據預處理后的詞匯編制調查問卷,根據調查問卷的問卷題目篩選結果,構建用戶詞典;步驟(3):微博文本消息中的關鍵詞模糊匹配,關鍵詞詞頻統計:步驟(31):根據微博發布的時間點來劃分微博片段,將用戶詞典中待匹配的關鍵詞分解為單個字,步驟(32):判斷關鍵詞當中的每一個字是否均在微博片段的文本消息中出現一次,若是,則關鍵詞詞頻加一;若不是則關鍵詞詞頻不變;對所有微博片段進行分析,找出用戶詞典中的各個關鍵詞在每個月份的詞頻。

    【技術特征摘要】
    1.一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,包括:步驟(1):網絡社交文本大數據的獲取:在新浪微博開放平臺上獲取新浪微博用戶的微博文本,由于微博文本數據存儲空間大以及為了保證大數據的獲取速度,從網上下載了文本壓縮文件;然后對文本壓縮文件解壓縮處理得到包含微博數據的txt文件,對包含微博數據的txt文件進行數據信息初步的提取;步驟(2):用戶詞典的構建:從微博數據中篩選符合待研究心里品質的詞匯,對該詞匯進行預處理,根據預處理后的詞匯編制調查問卷,根據調查問卷的問卷題目篩選結果,構建用戶詞典;步驟(3):微博文本消息中的關鍵詞模糊匹配,關鍵詞詞頻統計:步驟(31):根據微博發布的時間點來劃分微博片段,將用戶詞典中待匹配的關鍵詞分解為單個字,步驟(32):判斷關鍵詞當中的每一個字是否均在微博片段的文本消息中出現一次,若是,則關鍵詞詞頻加一;若不是則關鍵詞詞頻不變;對所有微博片段進行分析,找出用戶詞典中的各個關鍵詞在每個月份的詞頻。2.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,統計每個月份含有各個關鍵詞的頻數,以csv文件格式進行保存;詞頻統計csv文件的第一列是關鍵詞,第一行是含有該關鍵詞的月份。3.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,根據各個關鍵詞在每個月份的詞頻,判斷被研究人員的待研究心理品質。4.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,若某個微博片段中含有多個關鍵詞,則該微博片段的內容會同時與不同關鍵詞進行模糊匹配。5.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,由于微博文本中的程度級別詞語和否定詞會影響到關鍵詞的模糊匹配,將程度級別詞語設置不同的權重;沒有出現程度級別詞語的權值記為1;否定詞權重奇數次出現記為-1,偶數次出現記為1;每個關鍵詞的詞頻=程度級別詞語權值*否定詞權重+名詞詞頻。6.如權利要求1所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,所述步驟(1)中進行數據信息初步的提取是指采用文本遍歷和文本過濾的方法過濾掉無用的信息,保留有用的信息,將有用的信息另存為txt文件。7.如權利要求6所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,所述無用的信息包括:網絡連接或表情符號;所述有用的信息包括:用戶創建微博的時間、省份、微博內容以及用戶性別。8.如權利要求5所述的一種基于用戶詞典的網絡社交文本大數據處理方法,其特征是,將程度詞分為四個等級并賦予相應權重(...

    【專利技術屬性】
    技術研發人員:王鵬石潔茹張淑潔張利會李曉岳耿后旺朱干成李沅林劉曉芳宋佳茹孟廣騰
    申請(專利權)人:山東師范大學
    類型:發明
    國別省市:山東,37

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码AV大香线蕉| 免费无码一区二区| 亚洲爆乳无码一区二区三区| 中文有无人妻vs无码人妻激烈| 国产AV无码专区亚洲AVJULIA| 久久亚洲精品无码VA大香大香| 色综合色国产热无码一| 亚洲国产精品无码AAA片| 亚洲爆乳大丰满无码专区| 粉嫩高中生无码视频在线观看| 亚洲日韩精品无码专区| 亚洲中文字幕久久精品无码喷水 | 日日摸日日碰人妻无码| 潮喷失禁大喷水无码| 久久久久亚洲AV无码去区首 | 亚洲中文字幕久久无码| 大桥久未无码吹潮在线观看| 极品无码国模国产在线观看| 免费无码中文字幕A级毛片| 日韩精品无码一区二区三区AV| 久久久无码精品人妻一区| 中文字幕无码高清晰| 无码国产精品一区二区免费3p| 亚洲精品无码你懂的网站| 67194成是人免费无码| 亚洲熟妇无码AV不卡在线播放 | 国产av无码专区亚洲av桃花庵| 亚洲a无码综合a国产av中文| 亚洲中文字幕无码av| 在线观看成人无码中文av天堂| 久久精品aⅴ无码中文字字幕不卡| 一区二区三区无码视频免费福利| 亚洲国产精品成人AV无码久久综合影院 | 九九久久精品无码专区| 久久久久久久久无码精品亚洲日韩 | 亚洲av极品无码专区在线观看| 久久久无码精品亚洲日韩蜜桃| 中文有无人妻vs无码人妻激烈 | 毛片免费全部播放无码| 久久AV高潮AV无码AV| 无码区日韩特区永久免费系列|