本發(fā)明專利技術(shù)公開了一種基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)及其方法,屬于大數(shù)據(jù)領域。本系統(tǒng)是移動互聯(lián)網(wǎng)(000)、接口機(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400)依次連通。本方法主要是:控制模塊通過Zookeeper連接Kafka集群,讀取Kafka集群中緩存的數(shù)據(jù);預處理模塊按照指定的處理流程處理數(shù)據(jù),最終寫入HBase數(shù)據(jù)庫。本發(fā)明專利技術(shù)彌補了MapReduce不支持流式數(shù)據(jù)處理的不足;處理速度快,且具有容錯性;通過整合分布式消息系統(tǒng)、分布式流式處理框架、hadoop分布式文件系統(tǒng)三種大數(shù)據(jù)領域的技術(shù),為其它大數(shù)據(jù)技術(shù)之間的模塊化整合提供了參考;能夠?qū)λ幸苿踊ヂ?lián)網(wǎng)的海量信息進行實時處理,可以為運營商的實時業(yè)務提供技術(shù)支持。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于大數(shù)據(jù)領域,具體涉及基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)及其方法。
技術(shù)介紹
近年來,移動運營商網(wǎng)絡已成為了天然的大數(shù)據(jù)貯存和流動的載體。移動互聯(lián)網(wǎng)擁有的數(shù)據(jù)源豐富多樣,包括上網(wǎng)行為數(shù)據(jù)、位置數(shù)據(jù)、信令數(shù)據(jù)、微博數(shù)據(jù)、即時通信數(shù)據(jù)、網(wǎng)頁、音頻數(shù)據(jù)、視頻文件和圖片等,且這些數(shù)據(jù)會不斷產(chǎn)生。為了能從這些流式數(shù)據(jù)中實時地提取有用的信息,過濾掉無用的信息,往往需要對其進行快速處理,接著再以規(guī)范化的形式存入數(shù)據(jù)中心,用以提供高效的查詢服務。這類大數(shù)據(jù)服務對比一般的數(shù)據(jù)服務,有其自身的特點:首先,業(yè)務數(shù)據(jù)為大數(shù)據(jù),新到來的流式數(shù)據(jù)規(guī)模小,結(jié)構(gòu)簡單;其次,數(shù)據(jù)流持續(xù)到達,業(yè)務數(shù)據(jù)持續(xù)增長,定期更新;最后,需在大數(shù)據(jù)之上對流式數(shù)據(jù)作出快速處理。目前,比較流行的數(shù)據(jù)處理技術(shù)方案是使用Hadoop的MapReduce編程模型,MapReduce不僅能并行處理大規(guī)模數(shù)據(jù),而且擴展性很好,每增加一臺服務器,其就能將差不多的計算能力接入到集群中。然而,MapReduce僅支持離線數(shù)據(jù)計算,即數(shù)據(jù)要處理,必須先存儲,因此它并不適合海量流式信息的預處理這種對實時性要求很高的應用。在流式數(shù)據(jù)處理方面,S4是一個受MapReduce啟發(fā)的分布式流式數(shù)據(jù)處理系統(tǒng),但是它主要用于解決搜索,錯誤探測,網(wǎng)絡交友等現(xiàn)實應用,并不適合移動互聯(lián)網(wǎng)海量信息的提取、過濾操作。
技術(shù)實現(xiàn)思路
本專利技術(shù)的目的在于克服現(xiàn)有技術(shù)存在的缺點和不足,提供一種基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)及其方法,用以解決當前技術(shù)無法實時、可靠地處理流式數(shù)據(jù)的問題。實現(xiàn)本專利技術(shù)目的的技術(shù)方案是:一、基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)(簡稱系統(tǒng))本系統(tǒng)包括移動互聯(lián)網(wǎng),設置有接口機、Kafka集群、Spark集群和Hadoop集群;移動互聯(lián)網(wǎng)、接口機、Kafka集群、Spark集群和Hadoop集群依次連通。二、基于移動互聯(lián)網(wǎng)海量信息的流式預處理方法(簡稱方法)本方法包括以下步驟:①移動互聯(lián)網(wǎng)海量數(shù)據(jù)以文件的形式通過FTP的方式上傳到接口機指定目錄;②接口機文件輪詢模塊定時掃描接口機指定目錄,獲取目錄中的文件列表,發(fā)送至文件解析模塊;③文件解析模塊解析文件并格式化其內(nèi)容,將其發(fā)送至流數(shù)據(jù)緩存模塊;④流數(shù)據(jù)緩存模塊通過Zookeeper連接Kafka集群,將數(shù)據(jù)批量寫入Kafka集群;⑤Spark主節(jié)點中的SparkStreaming控制模塊通過Zookeeper連接Kafka集群,讀取Kafka集群中緩存的數(shù)據(jù),存入HDFS日志存儲目錄,生成預處理任務分發(fā)至各個Spark工作節(jié)點,并周期性地設置檢查點,如果任務執(zhí)行失敗,可以通過讀取HDFS存儲的日志重新執(zhí)行任務;⑥預處理模塊按照指定的處理流程處理數(shù)據(jù),最終寫入HBase數(shù)據(jù)庫。本專利技術(shù)具有下列優(yōu)點和積極效果:①彌補了MapReduce不支持流式數(shù)據(jù)處理的不足;②處理速度快,且具有容錯性;③通過整合分布式消息系統(tǒng)、分布式流式處理框架、hadoop分布式文件系統(tǒng)三種大數(shù)據(jù)領域的技術(shù),為其它大數(shù)據(jù)技術(shù)之間的模塊化整合提供了參考。總之,本專利技術(shù)能夠?qū)λ幸苿踊ヂ?lián)網(wǎng)的海量信息進行實時處理,可以為運營商的實時業(yè)務提供技術(shù)支持。附圖說明圖1是本系統(tǒng)的結(jié)構(gòu)方框圖;圖2是SparkStreaming控制模塊3A1讀取Kafka集群200中緩存的數(shù)據(jù)并生成預處理任務的流程圖;圖3是預處理模塊311按照指定流程處理數(shù)據(jù)的流程圖其中:000—移動互聯(lián)網(wǎng);100—接口機,110—第1接口機,120—第2接口機……1M0—第M接口機,M是自然數(shù),1≤M≤5;101—文件輪詢模塊,102—文件解析模塊,103—流數(shù)據(jù)緩存模塊;200—Kafka集群,210—第1Kafka節(jié)點,220—第2Kafka節(jié)點……2N0—第NKafka節(jié)點,N為自然數(shù),1≤N≤10;300—Spark集群,3A0—Spark主節(jié)點,3A1—SparkStreaming控制模塊;310—第1Spark工作節(jié)點,320—第2Spark工作節(jié)點……3O0—第OSpark工作節(jié)點,O為自然數(shù),1≤O≤10;311—預處理模塊;400—Hadoop集群,410—第1Hadoop節(jié)點,420—第2Hadoop節(jié)點,……4P0—第PHadoop節(jié)點,P為自然數(shù),1≤P≤10,401—HDFS日志存儲目錄,402—HBase數(shù)據(jù)庫。英譯漢FTP:FileTransferProtocol,文件傳輸協(xié)議;Zookeeper:是一個分布式的,開放源碼的分布式應用程序協(xié)調(diào)服務,它是一個為分布式應用提供一致性服務的軟件;Linux:一種操作系統(tǒng)Kafka:一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng);Spark:一種快速的大數(shù)據(jù)分布式處理引擎;SparkStreaming:建立在Spark上的實時計算框架,用于大規(guī)模流式數(shù)據(jù)處理;Hadoop:一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架;HDFS:Hadoop的分布式文件系統(tǒng);MapReduce:MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算;HBase:一個分布式的,面向列的Hadoop數(shù)據(jù)庫;RDD:ResilientDistributed,DataSet彈性分布式數(shù)據(jù)集,Spark核心的數(shù)據(jù)結(jié)構(gòu);DStream:SparkStreaming特有的數(shù)據(jù)結(jié)構(gòu),連續(xù)的RDDs。具體實施方式以下結(jié)合附圖和實施例詳細說明:一、系統(tǒng)1、總體如圖1,本系統(tǒng)包括移動互聯(lián)網(wǎng)000,設置有接口機100、Kafka集群200、Spark集群300和Hadoop集群400;依次連通的移動互聯(lián)網(wǎng)000、接口機100、Kafka集群200、Spark集群300和Hadoop集群400。2、功能部件0)移動互聯(lián)網(wǎng)000移動互聯(lián)網(wǎng)000指互聯(lián)網(wǎng)的技術(shù)、平臺、商業(yè)模式和應用與移動通信技術(shù)結(jié)合并實踐的活動的總稱。1)接口機100接口機100包括第1接口機110、第2接口機120……第M接口機1M0;每個接口機包括依次交互的文件輪詢模塊101、文件解析模塊102和數(shù)據(jù)緩存模塊103。(1)文件輪詢模塊101是一種定時掃描ftp目錄、獲取文件列表的模塊,它將文件列表發(fā)送至文件解析模塊102;(2)文件解析模塊102是一種解析本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng),包括移動互聯(lián)網(wǎng)000,其特征在于:設置有接口機(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400);移動互聯(lián)網(wǎng)(000)、接口機(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400)依次連通。
【技術(shù)特征摘要】
1.一種基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng),包括移動互聯(lián)網(wǎng)000,其特征在
于:
設置有接口機(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400);
移動互聯(lián)網(wǎng)(000)、接口機(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群
(400)依次連通。
2.按權(quán)利要求1所述的流式預處理系統(tǒng),其特征在于:
所述的接口機(100)包括第1接口機(110)、第2接口機(120)……第M接口機(1M0),M是
自然數(shù),1≤M≤5;
每個接口機內(nèi)嵌有依次交互的文件輪詢模塊(101)、文件解析模塊(102)和數(shù)據(jù)緩存模
塊(103)。
3.按權(quán)利要求1所述的流式預處理系統(tǒng),其特征在于:
所述的Kafka集群(200)包括第1Kafka節(jié)點(210)、第2Kafka節(jié)點(220)……第NKafka節(jié)
點(2N0),N為自然數(shù),1≤N≤10;;
每個Kafka節(jié)點是一種內(nèi)嵌有Kafka開源消息系統(tǒng)的Linux服務器,各節(jié)點之間使用
Zookeeper協(xié)調(diào)管理。
4.按權(quán)利要求1所述的流式預處理系統(tǒng),其特征在于:
所述的Spark集群(300)包括Spark主節(jié)點(3A0)和分別與其連接的第1Spark工作節(jié)點
(310)、第2Spark工作節(jié)點(320)……第OSpark工作節(jié)點(3O0),O為自然數(shù),1≤O≤10;
每個節(jié)點是一種內(nèi)嵌有Spark開源計算系統(tǒng)的Linux服務器,各節(jié)點之間使用
Zookeeper協(xié)調(diào)管理;
Spark主節(jié)點(3A0)內(nèi)嵌有SparkStreaming控制模塊(3A1);
SparkStreaming控制模塊(3A1)讀取Kafka集群中的數(shù)據(jù),生成預處理任務分發(fā)給工
作節(jié)點,自動控制預處理日志,寫入HDFS;
每個工作節(jié)點內(nèi)嵌有數(shù)據(jù)預處理模塊(311);
數(shù)據(jù)預處理模塊(311)按照指定的流程處理數(shù)據(jù),最終寫入HBase。
5.按權(quán)利要求1所述的流式預處理系統(tǒng),其特征在于:
所述的Hadoop集群(400)包括第1Hadoop節(jié)點(410)、第2Hadoop節(jié)點(420)……第
PHadoop節(jié)點(4P0),P為自然數(shù),1≤P≤10;
每個節(jié)點是一種Hadoop開...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:嚴雄偉,
申請(專利權(quán))人:武漢虹旭信息技術(shù)有限責任公司,
類型:發(fā)明
國別省市:湖北;42
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。