當前位置: 首頁 > 專利查詢>武漢虹旭信息技術(shù)有限責任公司專利>正文

基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)及其方法技術(shù)方案

技術(shù)編號：13128793 閱讀：97 留言：0更新日期：2016-04-06 14:20

本發(fā)明專利技術(shù)公開了一種基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)及其方法，屬于大數(shù)據(jù)領域。本系統(tǒng)是移動互聯(lián)網(wǎng)（000）、接口機（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）依次連通。本方法主要是：控制模塊通過Zookeeper連接Kafka集群，讀取Kafka集群中緩存的數(shù)據(jù)；預處理模塊按照指定的處理流程處理數(shù)據(jù)，最終寫入HBase數(shù)據(jù)庫。本發(fā)明專利技術(shù)彌補了MapReduce不支持流式數(shù)據(jù)處理的不足；處理速度快，且具有容錯性；通過整合分布式消息系統(tǒng)、分布式流式處理框架、hadoop分布式文件系統(tǒng)三種大數(shù)據(jù)領域的技術(shù)，為其它大數(shù)據(jù)技術(shù)之間的模塊化整合提供了參考；能夠?qū)λ幸苿踊ヂ?lián)網(wǎng)的海量信息進行實時處理，可以為運營商的實時業(yè)務提供技術(shù)支持。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)屬于大數(shù)據(jù)領域，具體涉及基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)及其方法。
技術(shù)介紹
近年來，移動運營商網(wǎng)絡已成為了天然的大數(shù)據(jù)貯存和流動的載體。移動互聯(lián)網(wǎng)擁有的數(shù)據(jù)源豐富多樣，包括上網(wǎng)行為數(shù)據(jù)、位置數(shù)據(jù)、信令數(shù)據(jù)、微博數(shù)據(jù)、即時通信數(shù)據(jù)、網(wǎng)頁、音頻數(shù)據(jù)、視頻文件和圖片等，且這些數(shù)據(jù)會不斷產(chǎn)生。為了能從這些流式數(shù)據(jù)中實時地提取有用的信息，過濾掉無用的信息，往往需要對其進行快速處理，接著再以規(guī)范化的形式存入數(shù)據(jù)中心，用以提供高效的查詢服務。這類大數(shù)據(jù)服務對比一般的數(shù)據(jù)服務，有其自身的特點：首先，業(yè)務數(shù)據(jù)為大數(shù)據(jù)，新到來的流式數(shù)據(jù)規(guī)模小，結(jié)構(gòu)簡單；其次，數(shù)據(jù)流持續(xù)到達，業(yè)務數(shù)據(jù)持續(xù)增長，定期更新；最后，需在大數(shù)據(jù)之上對流式數(shù)據(jù)作出快速處理。目前，比較流行的數(shù)據(jù)處理技術(shù)方案是使用Hadoop的MapReduce編程模型，MapReduce不僅能并行處理大規(guī)模數(shù)據(jù)，而且擴展性很好，每增加一臺服務器，其就能將差不多的計算能力接入到集群中。然而，MapReduce僅支持離線數(shù)據(jù)計算，即數(shù)據(jù)要處理，必須先存儲，因此它并不適合海量流式信息的預處理這種對實時性要求很高的應用。在流式數(shù)據(jù)處理方面，S4是一個受MapReduce啟發(fā)的分布式流式數(shù)據(jù)處理系統(tǒng)，但是它主要用于解決搜索，錯誤探測，網(wǎng)絡交友等現(xiàn)實應用，并不適合移動互聯(lián)網(wǎng)海量信息的提取、過濾操作。
技術(shù)實現(xiàn)思路
本專利技術(shù)的目的在于克服現(xiàn)有技術(shù)存在的缺點和不...

【技術(shù)保護點】
一種基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)，包括移動互聯(lián)網(wǎng)000，其特征在于：設置有接口機（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）；移動互聯(lián)網(wǎng)（000）、接口機（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）依次連通。

【技術(shù)特征摘要】
1.一種基于移動互聯(lián)網(wǎng)海量信息的流式預處理系統(tǒng)，包括移動互聯(lián)網(wǎng)000，其特征在
于：
設置有接口機（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）；
移動互聯(lián)網(wǎng)（000）、接口機（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群
（400）依次連通。
2.按權(quán)利要求1所述的流式預處理系統(tǒng)，其特征在于：
所述的接口機（100）包括第1接口機（110）、第2接口機（120）……第M接口機（1M0），M是
自然數(shù)，1≤M≤5；
每個接口機內(nèi)嵌有依次交互的文件輪詢模塊（101）、文件解析模塊（102）和數(shù)據(jù)緩存模
塊（103）。
3.按權(quán)利要求1所述的流式預處理系統(tǒng)，其特征在于：
所述的Kafka集群（200）包括第1Kafka節(jié)點（210）、第2Kafka節(jié)點（220）……第NKafka節(jié)
點（2N0），N為自然數(shù)，1≤N≤10；；
每個Kafka節(jié)點是一種內(nèi)嵌有Kafka開源消息系統(tǒng)的Linux服務器，各節(jié)點之間使用
Zookeeper協(xié)調(diào)管理。
4.按權(quán)利要求1所述的流式預處理系統(tǒng)，其特征在于：
所述的Spark集群（300）包括Spark主節(jié)點（3A0）和分別與其連接的第1Spark工作節(jié)點
（310）、第2Spark工作節(jié)點（320）……第OSpark工作節(jié)點（3O0），O為自然數(shù)，1≤O≤10；
每個節(jié)點是一種內(nèi)嵌有Spark開源計算系統(tǒng)的Linux服務器，各節(jié)點之間使用
Zookeeper協(xié)調(diào)管理；
Spark主節(jié)點（3A0）內(nèi)嵌有SparkStreaming控制模塊（3A1）；
SparkStreaming控制模塊（3A1）讀取Kafka集群中的數(shù)據(jù)，生成預處理任務分發(fā)給工
作節(jié)點，自動控制預處理日志，寫入HDFS；
每個工作節(jié)點內(nèi)嵌有數(shù)據(jù)預處理模塊（311）；
數(shù)據(jù)預處理模塊（311）按照指定的流程處理數(shù)據(jù)，最終寫入HBase。
5.按權(quán)利要求1所述的流式預處理系統(tǒng)，其特征在于：
所述的Hadoop集群（400）包括第1Hadoop節(jié)點（410）、第2Hadoop節(jié)點（420）……第
PHadoop節(jié)點（4P0），P為自然數(shù)，1≤P≤10；
每個節(jié)點是一種Hadoop開...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：嚴雄偉，
申請(專利權(quán))人：武漢虹旭信息技術(shù)有限責任公司，
類型：發(fā)明
國別省市：湖北;42

全部詳細技術(shù)資料下載我是這個專利的主人

相關技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術(shù)

移動互聯(lián)網(wǎng)系統(tǒng)架構(gòu)技術(shù)

移動互聯(lián)網(wǎng)生態(tài)系統(tǒng)技術(shù)

移動互聯(lián)網(wǎng)系統(tǒng)技術(shù)

移動互聯(lián)網(wǎng)流量技術(shù)

移動互聯(lián)網(wǎng)接入流量技術(shù)