• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于Spark的并行化隨機標簽子集多標簽文本分類方法技術

    技術編號:15691071 閱讀:125 留言:0更新日期:2017-06-24 03:58
    本發(fā)明專利技術請求保護一種基于Spark大數據平臺的并行化隨機標簽子集多標簽文本分類方法。首先,讀取大規(guī)模文本數據集和配置信息文件,創(chuàng)建分布式數據集RDD,將訓練數據集和預測數據集緩存到內存中,完成初始化操作。其次,并行地隨機生成規(guī)定數目的標簽子集,由原始訓練集為每一個標簽子集生成一個新的訓練集,再次,將新訓練集的多個標簽通過標簽冪集法轉換為單個標簽,該數據集轉化為一個單標簽多類數據集,并行地為這些數據集訓練一個基分類器。然后,進行預測將得到的單標簽多類預測結果轉化為多標簽結果。最后,將所有預測結果進行匯總投票,得到測試集最終的多標簽預測結果。本發(fā)明專利技術提高了分類的精度、大幅降低處理大規(guī)模多標簽數據的學習時間。

    Spark based parallel stochastic label subset multi label text categorization method

    The invention requests a method of parallel random label subset and multi label text classification based on Spark large data platform. First, large scale text data sets and configuration information files are read, and a distributed data set RDD is created. The training data set and the prediction data set are cached in memory, and the initialization operation is completed. Secondly, in parallel random number required by the original label subset of the training set for each label subset to generate a new training set, once again, a plurality of new label training set by tag power set method to convert a single label, the data set into a single label multi class data sets. Parallel training set a base classifier for these data. Then, the prediction results of the single label and multi class prediction are transformed into multi label results. Finally, all the prediction results are aggregated and voted to obtain the final multi label prediction results of the test set. The invention improves the accuracy of classification and greatly reduces the learning time of dealing with large multi label data.

    【技術實現(xiàn)步驟摘要】
    基于Spark的并行化隨機標簽子集多標簽文本分類方法
    本專利技術涉及信息技術、云計算、數據挖掘、文本分類等領域,提供了一種基于Spark大數據平臺的并行化隨機標簽子集多標簽文本分類算法。
    技術介紹
    隨著信息技術的發(fā)展,互聯(lián)網數據規(guī)模呈海量增長,表現(xiàn)形式也不斷豐富。文本作為重要的信息載體,其自動分類技術的發(fā)展能夠提高對海量信息的處理效率,節(jié)約處理時間,方便用戶的使用,近年來得到廣泛的關注和快速的發(fā)展。傳統(tǒng)有監(jiān)督學習認為每個樣本只具有一個標簽,缺乏準確表述事物的復雜語義信息的能力。但是一個樣本可能對應與之相關的多個標簽,例如文本信息往往同時擁有多個語義,比如一個文本信息可能同時與計算機、機器學習、經濟、社會效益等相關聯(lián)。有效明確解釋事物具有的多個語義的一個直接方法就是給一個事物標注多個標簽,因此多標簽學習(Multi-LabelLearning)也應運而生。在多標簽學習中,每個樣本可能包含一個或多個標簽,被多個標簽標注的樣本能夠更好的表現(xiàn)事物語義信息的多樣性,也能夠使其分類更具現(xiàn)實意義。隨機標簽子集多標簽(ECC)算法是多標簽分類算法的一種,其核心思想為將多標簽學習問題轉換為多個隨機標簽子集的學習過程。該算法考慮了標簽之間的關聯(lián)性并且加入了隨機因素,在實際使用中分類效果很好。但由于訓練階段需要對于同一樣本集進行多個隨機標簽子集進行多次訓練,構建多個訓練模型;預測階段需要使用訓練階段構建的多個模型進行多次預測過程,因此時間復雜度和空間復雜度較高,隨著數據量的增大,采用傳統(tǒng)串行算法難以應對規(guī)模越來越大的數據集,出現(xiàn)運行時間過長,內存溢出等情況,不能滿足工程需求。近幾年來,大數據技術的發(fā)展為解決此類問題提供了理想的條件和思路。Spark是一個基于內存的分布式計算系統(tǒng),是由UCBerkeleyAMPLab實驗室于2009年開發(fā)的開源數據分析集群計算框架。擁有MapReduce的所有優(yōu)點,與MapReduce不同的是.Spark將計算的中間結果數據持久地存儲在內存中,通過減少磁盤I/O,使后續(xù)的數據運算效率更高。Spark的這種架構設計尤其適合于機器學習、交互式數據分析等應用.這些應用都需要重復地利用計算的中間數據。在Spark和Hadoop的性能基準測試對比中,運行基于內存的logisticregression,在迭代次數相同的情況下,Spark的性能超出HadoopMapReduce100倍以上。兩者之間在計算過程中也存在一些不同之處,比如MapReduce輸出的中間結果需要讀寫HDFS,而Spark框架會把中間結果保存在內存中。這些不同之處使Spark在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。而彈性分布式數據集(RDD,ResilientDistributedDatasets)是Spark框架的核心數據結構,它具備像MapReduce等數據流模型的容錯特性,并且允許開發(fā)人員在大型集群上執(zhí)行基于內存的計算。Spark將數據集運行的中間結果保存在內存中能夠極大地提高性能,資源開銷也極低,非常適合多次迭代的機器學習算法。彈性分布式數據集(RDD)是Spark的核心數據結構。這個數據集的全部或部分可以緩存在內存中,在多次計算間重用。傳統(tǒng)的MapReduce雖然具有自動容錯、平衡負載和可拓展性的優(yōu)點,但是其最大缺點是采用非循環(huán)式的數據流模型,使得在迭代計算式要進行大量的磁盤IO操作。RDD正是解決這一缺點的抽象方法。通過RDD,Spark可以基本一致的應用于不同的大數據處理場景,如MapReduce,實時流數據,SQL,MachineLearning和圖計算等。RDD是一個容錯的、并行的數據結構,可以顯式的將數據存儲在內存和磁盤中,并且能夠控制數據的分區(qū)狀態(tài)。RDD還提供了一系列操作接口,用戶通過這組接口,可以方便的操作其中的數據。RDD可以由包括本地文件系統(tǒng),HDFS,HBase,Hive等任何被Hadoop支持的存儲源創(chuàng)建,也可以通過Scala內存數據集合創(chuàng)建。在創(chuàng)建RDD后,用戶可以設置RDD的存儲級別,將RDD緩存在內存或磁盤中,下次重復使用時就不需重新計算,提高程序性能。RDD支持的操作可以分為轉換操作和行動操作兩種類型,其中轉換操作從現(xiàn)有的RDD產生一個新的RDD,行動操作在RDD上執(zhí)行某種計算返回一個結果值。隨著Spark技術的產生與發(fā)展,為了適應大數據應用的要求,很多機器學習和數據挖掘領域的算法被設計應用于Spark平臺,獲得了成倍的性能提升。本專利技術通過將Spark大數據處理技術和隨機標簽子集多標簽方法相結合,有效的解決了串行隨機標簽子集算法在大規(guī)模多標簽文本分類應用中算法時空復雜度較高、內存溢出、難以在有效時間內得到結果等不足,提高了分類效率與精度。經過對現(xiàn)有技術的文獻檢索發(fā)現(xiàn),文章ZhuB,MaraA,MozoA.CLUS:ParallelSubspaceClusteringAlgorithmonSpark[M]//NewTrendsinDatabasesandInformationSystems.SpringerInternationalPublishing,2015:175-185.將子空間聚類算法基于Spark并行化實現(xiàn),應用于大數據集獲得了較大的速度提升。文章JesusMaillo,SergioRamírez,IsaacTriguero,etal.kNN-IS:AnIterativeSpark-baseddesignofthek-NearestNeighborsClassifierforBigData[J].Knowledge-BasedSystems(2016),doi:10.1016/j.knosys.2016.06.012提出了一種基于Spark的迭代精確K最近鄰算法,該算法充分利用Spark內存計算的機制,性能比使用HadoopMapReduce實現(xiàn)的相同算法提高了將近十倍。文章KimH,ParkJ,JangJ,etal.DeepSpark:Spark-BasedDeepLearningSupportingAsynchronousUpdatesandCaffeCompatibility[J].2016.結合深度學習技術、Spark大數據處理技術和GPU加速等技術,開發(fā)出一套運行于Spark上的深度學習框架。文章DuanM,LiK,TangZ,etal.SelectionandreplacementalgorithmsformemoryperformanceimprovementinSpark[J].Concurrency&ComputationPractice&Experience,2015.提出了一種在內存不足的情況下自動緩存合適的RDD的選擇和替換算法,進一步提高了Spark程序的性能。
    技術實現(xiàn)思路
    本專利技術針對現(xiàn)有多標簽分類技術存在的從海量的文本構造的數據集進行分類時容易內存溢出、時間過長和無法運行宕機等缺點,結合Spark分布式技術,有效挖掘了待分類多標簽文本樣本標簽之間的關聯(lián)。提出了一本文檔來自技高網
    ...
    基于Spark的并行化隨機標簽子集多標簽文本分類方法

    【技術保護點】
    一種基于Spark的并行化隨機標簽子集多標簽文本分類方法,其特征在于,包括以下步驟:首先,從HDFS上獲取來自互聯(lián)網的大規(guī)模文本數據集和配置信息文件,所述大規(guī)模文本數據集包括訓練數據集和預測數據集,通過Spark?API提供的textFile方法將訓練數據集、預測數據集、配置信息文件轉換成Spark平臺的分布式數據集RDD,完成初始化操作;其次,并行地隨機生成規(guī)定數目的標簽子集,由原始訓練集為每一個標簽子集生成一個新的訓練集,該訓練集特征為原始訓練集的全部特征,新訓練集中的標簽僅保留對應標簽子集中包含的標簽;再次,對于每一個新生成的訓練集,將訓練集的多個標簽通過標簽冪集法轉換為單個標簽,將新生成的訓練集轉化為一個單標簽多類數據集,并行地為這些數據集訓練一個基分類器;然后,使用訓練好的基分類器形成預測模型對測試集進行預測,將得到的單標簽多類預測結果轉化為多標簽結果;最后,將所有預測結果進行匯總投票,得到測試集最終的多標簽預測結果,完成文本分類。

    【技術特征摘要】
    1.一種基于Spark的并行化隨機標簽子集多標簽文本分類方法,其特征在于,包括以下步驟:首先,從HDFS上獲取來自互聯(lián)網的大規(guī)模文本數據集和配置信息文件,所述大規(guī)模文本數據集包括訓練數據集和預測數據集,通過SparkAPI提供的textFile方法將訓練數據集、預測數據集、配置信息文件轉換成Spark平臺的分布式數據集RDD,完成初始化操作;其次,并行地隨機生成規(guī)定數目的標簽子集,由原始訓練集為每一個標簽子集生成一個新的訓練集,該訓練集特征為原始訓練集的全部特征,新訓練集中的標簽僅保留對應標簽子集中包含的標簽;再次,對于每一個新生成的訓練集,將訓練集的多個標簽通過標簽冪集法轉換為單個標簽,將新生成的訓練集轉化為一個單標簽多類數據集,并行地為這些數據集訓練一個基分類器;然后,使用訓練好的基分類器形成預測模型對測試集進行預測,將得到的單標簽多類預測結果轉化為多標簽結果;最后,將所有預測結果進行匯總投票,得到測試集最終的多標簽預測結果,完成文本分類。2.根據權利要求1所述的基于Spark的并行化隨機標簽子集多標簽文本分類方法,其特征在于,所述轉換成Spark平臺的分布式數據集RDD的步驟包括:創(chuàng)建一個SparkContext對象,然后用它的textFile函數創(chuàng)建分布式數據集RDD,一旦創(chuàng)建完成,這個分布式數據集就可以被并行操作,算法最開始還需輸入數據集的標簽個數L、標簽子集標簽數n和和要生成的模型數m。3.根據權利要求2所述的基于Spark的并行化隨機標簽子集多標簽文本分類方法,其特征在于,所述并行地隨機生成規(guī)定數目的標簽子集,由原始訓練集為每一個標簽子集生成一個新的訓練集,包括步驟:(1)通過SparkContext對象的parallelize函數創(chuàng)建一個RDD,該RDD分區(qū)數為m,每個分區(qū)包含標簽全集,通過RDD的map轉化操作對每個分區(qū)的標簽全集隨機抽樣,將標簽全集轉換為一個包含n個標簽的隨機標簽子集,得到RDD1;(2)通過collect行動操作將訓練集RDD變?yōu)橐粋€本地集合,對RDD1進行map操作,使該RDD的每個分區(qū)包含一個隨機標簽子集和訓練集全集的二元組,得到RDD2;(3)通過map操作對RDD2每個分區(qū)的訓練集的標簽進行過濾,只留下與之對應的標簽子集中包含的標簽,得到RDD3。4....

    【專利技術屬性】
    技術研發(fā)人員:王進,王鴻夏翠萍,范磊,歐陽衛(wèi)華,陳喬松,雷大江,李智星,胡峰,鄧欣,
    申請(專利權)人:重慶郵電大學,
    類型:發(fā)明
    國別省市:重慶,50

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码国产自产拍在线观看蜜| 亚洲 另类 无码 在线| 中文字幕无码av激情不卡| 日木av无码专区亚洲av毛片| 亚洲av永久无码精品网站 | 久久久久亚洲AV无码永不| 中文有码vs无码人妻| 久久老子午夜精品无码怎么打 | 无码 免费 国产在线观看91| 免费无码AV一区二区| 久久久亚洲精品无码| 亚洲 另类 无码 在线| 中文无码字幕中文有码字幕| 久久精品无码一区二区三区不卡| 国产午夜无码视频免费网站| 国产色无码专区在线观看| 亚洲av午夜国产精品无码中文字| 无码视频在线播放一二三区| 98久久人妻无码精品系列蜜桃| 色综合久久久无码中文字幕 | 性色AV蜜臀AV人妻无码| 无码欧精品亚洲日韩一区| 中文字幕无码av激情不卡| 国产成人无码AV在线播放无广告 | AA区一区二区三无码精片| 国产亚洲精品无码拍拍拍色欲| 久久亚洲AV成人无码国产最大| 亚洲av日韩av永久无码电影| 久久久无码精品亚洲日韩京东传媒| 狠狠躁天天躁无码中文字幕图| 国产精品va无码二区| 日韩中文无码有码免费视频 | 亚洲成a人无码亚洲成www牛牛| 国产AV无码专区亚洲精品| 国产AV巨作情欲放纵无码| 亚洲Aⅴ无码专区在线观看q| 麻豆国产精品无码视频| 亚洲中文无码av永久| 无码性午夜视频在线观看| 亚洲va成无码人在线观看| 无码一区二区波多野结衣播放搜索 |