The invention requests a method of parallel random label subset and multi label text classification based on Spark large data platform. First, large scale text data sets and configuration information files are read, and a distributed data set RDD is created. The training data set and the prediction data set are cached in memory, and the initialization operation is completed. Secondly, in parallel random number required by the original label subset of the training set for each label subset to generate a new training set, once again, a plurality of new label training set by tag power set method to convert a single label, the data set into a single label multi class data sets. Parallel training set a base classifier for these data. Then, the prediction results of the single label and multi class prediction are transformed into multi label results. Finally, all the prediction results are aggregated and voted to obtain the final multi label prediction results of the test set. The invention improves the accuracy of classification and greatly reduces the learning time of dealing with large multi label data.
【技術實現(xiàn)步驟摘要】
基于Spark的并行化隨機標簽子集多標簽文本分類方法
本專利技術涉及信息技術、云計算、數據挖掘、文本分類等領域,提供了一種基于Spark大數據平臺的并行化隨機標簽子集多標簽文本分類算法。
技術介紹
隨著信息技術的發(fā)展,互聯(lián)網數據規(guī)模呈海量增長,表現(xiàn)形式也不斷豐富。文本作為重要的信息載體,其自動分類技術的發(fā)展能夠提高對海量信息的處理效率,節(jié)約處理時間,方便用戶的使用,近年來得到廣泛的關注和快速的發(fā)展。傳統(tǒng)有監(jiān)督學習認為每個樣本只具有一個標簽,缺乏準確表述事物的復雜語義信息的能力。但是一個樣本可能對應與之相關的多個標簽,例如文本信息往往同時擁有多個語義,比如一個文本信息可能同時與計算機、機器學習、經濟、社會效益等相關聯(lián)。有效明確解釋事物具有的多個語義的一個直接方法就是給一個事物標注多個標簽,因此多標簽學習(Multi-LabelLearning)也應運而生。在多標簽學習中,每個樣本可能包含一個或多個標簽,被多個標簽標注的樣本能夠更好的表現(xiàn)事物語義信息的多樣性,也能夠使其分類更具現(xiàn)實意義。隨機標簽子集多標簽(ECC)算法是多標簽分類算法的一種,其核心思想為將多標簽學習問題轉換為多個隨機標簽子集的學習過程。該算法考慮了標簽之間的關聯(lián)性并且加入了隨機因素,在實際使用中分類效果很好。但由于訓練階段需要對于同一樣本集進行多個隨機標簽子集進行多次訓練,構建多個訓練模型;預測階段需要使用訓練階段構建的多個模型進行多次預測過程,因此時間復雜度和空間復雜度較高,隨著數據量的增大,采用傳統(tǒng)串行算法難以應對規(guī)模越來越大的數據集,出現(xiàn)運行時間過長,內存溢出等情況,不能滿足工程需求。近 ...
【技術保護點】
一種基于Spark的并行化隨機標簽子集多標簽文本分類方法,其特征在于,包括以下步驟:首先,從HDFS上獲取來自互聯(lián)網的大規(guī)模文本數據集和配置信息文件,所述大規(guī)模文本數據集包括訓練數據集和預測數據集,通過Spark?API提供的textFile方法將訓練數據集、預測數據集、配置信息文件轉換成Spark平臺的分布式數據集RDD,完成初始化操作;其次,并行地隨機生成規(guī)定數目的標簽子集,由原始訓練集為每一個標簽子集生成一個新的訓練集,該訓練集特征為原始訓練集的全部特征,新訓練集中的標簽僅保留對應標簽子集中包含的標簽;再次,對于每一個新生成的訓練集,將訓練集的多個標簽通過標簽冪集法轉換為單個標簽,將新生成的訓練集轉化為一個單標簽多類數據集,并行地為這些數據集訓練一個基分類器;然后,使用訓練好的基分類器形成預測模型對測試集進行預測,將得到的單標簽多類預測結果轉化為多標簽結果;最后,將所有預測結果進行匯總投票,得到測試集最終的多標簽預測結果,完成文本分類。
【技術特征摘要】
1.一種基于Spark的并行化隨機標簽子集多標簽文本分類方法,其特征在于,包括以下步驟:首先,從HDFS上獲取來自互聯(lián)網的大規(guī)模文本數據集和配置信息文件,所述大規(guī)模文本數據集包括訓練數據集和預測數據集,通過SparkAPI提供的textFile方法將訓練數據集、預測數據集、配置信息文件轉換成Spark平臺的分布式數據集RDD,完成初始化操作;其次,并行地隨機生成規(guī)定數目的標簽子集,由原始訓練集為每一個標簽子集生成一個新的訓練集,該訓練集特征為原始訓練集的全部特征,新訓練集中的標簽僅保留對應標簽子集中包含的標簽;再次,對于每一個新生成的訓練集,將訓練集的多個標簽通過標簽冪集法轉換為單個標簽,將新生成的訓練集轉化為一個單標簽多類數據集,并行地為這些數據集訓練一個基分類器;然后,使用訓練好的基分類器形成預測模型對測試集進行預測,將得到的單標簽多類預測結果轉化為多標簽結果;最后,將所有預測結果進行匯總投票,得到測試集最終的多標簽預測結果,完成文本分類。2.根據權利要求1所述的基于Spark的并行化隨機標簽子集多標簽文本分類方法,其特征在于,所述轉換成Spark平臺的分布式數據集RDD的步驟包括:創(chuàng)建一個SparkContext對象,然后用它的textFile函數創(chuàng)建分布式數據集RDD,一旦創(chuàng)建完成,這個分布式數據集就可以被并行操作,算法最開始還需輸入數據集的標簽個數L、標簽子集標簽數n和和要生成的模型數m。3.根據權利要求2所述的基于Spark的并行化隨機標簽子集多標簽文本分類方法,其特征在于,所述并行地隨機生成規(guī)定數目的標簽子集,由原始訓練集為每一個標簽子集生成一個新的訓練集,包括步驟:(1)通過SparkContext對象的parallelize函數創(chuàng)建一個RDD,該RDD分區(qū)數為m,每個分區(qū)包含標簽全集,通過RDD的map轉化操作對每個分區(qū)的標簽全集隨機抽樣,將標簽全集轉換為一個包含n個標簽的隨機標簽子集,得到RDD1;(2)通過collect行動操作將訓練集RDD變?yōu)橐粋€本地集合,對RDD1進行map操作,使該RDD的每個分區(qū)包含一個隨機標簽子集和訓練集全集的二元組,得到RDD2;(3)通過map操作對RDD2每個分區(qū)的訓練集的標簽進行過濾,只留下與之對應的標簽子集中包含的標簽,得到RDD3。4....
【專利技術屬性】
技術研發(fā)人員:王進,王鴻,夏翠萍,范磊,歐陽衛(wèi)華,陳喬松,雷大江,李智星,胡峰,鄧欣,
申請(專利權)人:重慶郵電大學,
類型:發(fā)明
國別省市:重慶,50
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。