• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種針對復雜查詢的分組入數據集市方法技術

    技術編號:24331134 閱讀:27 留言:0更新日期:2020-05-29 19:38
    本發明專利技術公開了一種針對復雜查詢的分組入數據集市方法,在數據從數據源抽取到數據集市的過程中,對有復雜需求的數據抽取,針對可能會產生復雜的數據源查詢的情況,提出了一種分組的加速入集市方法。首先通過對源數據分組列的特征分析判斷出否能分組,然后根據分組列的不同值進行拆分,最后將拆分后的數據導入數據集市。為了加速入集市的過程,同時減少內存壓力,數據將以“塊”的單位進行處理,數據拆分過程和數據導入過程將同步進行。

    A method of grouping into data marts for complex queries

    【技術實現步驟摘要】
    一種針對復雜查詢的分組入數據集市方法
    本專利技術涉及數據集市存儲
    ,更具體的說是涉及一種針對復雜查詢的分組入數據集市方法。
    技術介紹
    目前,現代信息技術已進入大數據時代。如何快捷的構建滿足特定用戶和部門的需求的數據存儲,已成為數據中心急需解決的問題。數據集市是從企業范圍內的數據倉庫,數據庫或者各種各樣的數據源抽取出來,按照列式數據進行存儲的一種面向決策分析需求的數據立方體。其中包括維度,維度的層次,需要計算的度量等。在各種各樣的海量源數據導入到數據集市過程中,對于復雜的抽取需求,其查詢性能可能呈數量級單位的下降。解決復雜數據抽取所衍生出來的復雜查詢導入數據集市的性能問題成為迫切需要。源數據導入數據集市大體可以分為三步。首先,連接數據源進行源數據查詢、抽取、加工,并把查詢結果加載至內存中;其次,對內存中的數據進行列式壓縮,數據重新組織為列式存儲;最后,生成具體的數據塊文件,分發到數據集市節點中存儲。由于需求的多樣性和復雜性,對源數據的查詢,抽取加工處理可能會轉化為源數據的復雜查詢。但是,傳統對復雜查詢分組入數據集市和普通查詢分組入數據集市的處理方式并無區別:根據分組列查詢出分組不同值,然后將不同值作為過濾條件分別加入對源數據的查詢中。這樣就會產生更多次的復雜查詢,導入數據集市速度受會到嚴重影響,甚至會影響到整個系統的穩定。源數據導入數據集市的另外一個關鍵點為系統內存使用問題。對于海量數據的處理,導入到數據集市中,中間要經過系統對數據轉列式存儲與壓縮處理。如何降低內存峰值,減少對象生命周期時間也是急需解決的問題之一。因此,如何加快數據入數據集市的速度,降低復雜查詢影響,同時如何在數據集市存儲過程中降低內存峰值是本領域技術人員亟需解決的問題。
    技術實現思路
    有鑒于此,本專利技術提供了一種針對復雜查詢的分組入數據集市方法,在數據從數據源抽取到數據集市的過程中,對有復雜需求的數據抽取,針對可能會產生復雜的數據源查詢的情況,提出了一種分組的加速入集市方法。首先通過對源數據分組列的特征分析判斷出否能分組,然后根據分組列的不同值進行拆分,最后將拆分后的數據導入數據集市。為了加速入集市的過程,同時減少內存壓力,數據將以“塊”的單位進行處理,并且把分組信息加入到最后生成數據塊的元信息,數據拆分過程和數據導入過程將同步進行,提高了數據入數據集市的速度。其中還包括評估入數據集市的可行性,根據分組列不同值在內存中對數據塊進行分割以降低復雜查詢的次數為1。為了實現上述目的,本專利技術采用如下技術方案:一種針對復雜查詢的分組入數據集市方法,包括如下具體步驟:步驟1:加載源數據,對所述源數據進行復雜查詢,并在所述復雜查詢中加入分組列的排序信息,對所述源數據進行特征分析,滿足分割特征的所述源數據存儲至內存中;否則,所述源數據按照所述排序信息的順序生成數據塊導入至數據集市節點;步驟2:在所述內存中對所述源數據根據所述分組列的不同值進行分割,獲得所述數據塊;步驟3:在所述數據塊中增加元數據信息,獲得增強數據塊;步驟4:將所述增強數據塊進行壓縮,獲得壓縮數據塊,并將所述壓縮數據塊分發到所述數據集市節點。優選的,源數據加載復雜查詢過程、源數據分割過程和添加信息壓縮數據塊入所述數據集市的過程,分別設置為三個線程模型,并采用數據流式處理進行并行處理。優選的,在所述步驟1中進行所述復雜查詢時,在數據查詢層根據所述分組列的所述排序信息對所述源數據進行排序。優選的,分組后的所述數據塊具有相同的數據特征,將所述數據特征記錄成所述元數據信息。優選的,所述源數據的所述加載為流式加載。優選的,如果所述復雜查詢的查詢API接口中支持設置排序列,則將所述排序信息追加到所述API接口中,將排序運算壓力下推到所述數據集市中;否則使用TimSort排序算法完成所述源數據的排序操作。優選的,所述步驟1中對所述源數據進行特征分析是以所述分組列對所述源數據進行額外查詢,判斷所述源數據是否滿足分組條件,具體過程如下:步驟11:獲取所述分組列類型、所述不同值的個數和每組所述分組類的平均數據量;步驟12:如果所述分組類類型不是數據,且所述不同值個數小于設定最大值,當所述平均數據量大于加載的所述源數據時,所述源數據滿足所述分組條件。經由上述的技術方案可知,與現有技術相比,本專利技術公開提供了一種針對復雜查詢的分組入數據集市方法,對源數據進行復雜查詢,并根據排序信息進行排序,通過分組類的查詢操作,根據分組條件對源數據進行分塊處理,從而將復雜查詢次數降低為1次;而對對源數據的復雜查詢、分組和分塊處理為并行處理,且對數據塊采用流式處理進行存儲,將分組信息加入到數據塊中則加快了數據入數據集市的速度,以及對數據塊進行壓縮,減少了存儲空間的使用。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。圖1附圖為本專利技術提供的針對復雜查詢分組如數據集市方法流程圖;圖2附圖為本專利技術提供的對源數據進行分組判斷流程圖;圖3附圖為本專利技術提供的分組類界面顯示示意圖。具體實施方式下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例?;诒緦@夹g中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。本專利技術實施例公開了一種針對復雜查詢的分組入數據集市方法,包括如下具體步驟:S1:加載源數據,對源數據進行復雜查詢,并在復雜查詢中加入分組列的排序信息,對源數據進行特征分析,滿足分割特征的源數據存儲至內存中;否則,源數據按照排序信息的順序生成數據塊導入至數據集市節點,其中生成數據塊的過程為,對源數據按照順序進行遍歷,當遍歷的數據滿足一個數據塊大小時,則生成一個數據塊,并開始生成下一個數據塊,直至遍歷結束;對源數據進行特征分析是以分組列對源數據進行額外查詢,判斷源數據是否滿足分組條件,S11:獲取分組列類型、不同值的個數和每組分組類的平均數據量;S12:如果分組類類型不是數據,且不同值個數小于設定最大值,當平均數據量大于加載的源數據時,源數據滿足分組條件;S2:在內存中對源數據根據分組列的不同值進行分割,獲得數據塊;S3:在數據塊中增加元數據信息,獲得增強數據塊;S4:將增強數據塊進行壓縮,獲得壓縮數據塊,并將壓縮數據塊分發到數據集市節點。為了進一步優化上述技術方案,源數據加載復雜查詢過程、源數據分割過程和添加信息壓縮數據塊入數據集市的過程,分別設置為三個線程模型,并采用數據流式處理進行并行處理。為了進一步優化上述技術方案本文檔來自技高網
    ...

    【技術保護點】
    1.一種針對復雜查詢的分組入數據集市方法,其特征在于,包括如下具體步驟:/n步驟1:加載源數據,對所述源數據進行復雜查詢,并在所述復雜查詢中加入分組列的排序信息,對所述源數據進行特征分析,滿足分割特征的所述源數據存儲至內存中;否則,所述源數據按照所述排序信息的順序生成數據塊并導入至數據集市節點;/n步驟2:在所述內存中對所述源數據根據所述分組列的不同值進行分割,獲得所述數據塊;/n步驟3:在所述數據塊中增加元數據信息,獲得增強數據塊;/n步驟4:將所述增強數據塊進行壓縮,獲得壓縮數據塊,并將所述壓縮數據塊分發到所述數據集市節點。/n

    【技術特征摘要】
    1.一種針對復雜查詢的分組入數據集市方法,其特征在于,包括如下具體步驟:
    步驟1:加載源數據,對所述源數據進行復雜查詢,并在所述復雜查詢中加入分組列的排序信息,對所述源數據進行特征分析,滿足分割特征的所述源數據存儲至內存中;否則,所述源數據按照所述排序信息的順序生成數據塊并導入至數據集市節點;
    步驟2:在所述內存中對所述源數據根據所述分組列的不同值進行分割,獲得所述數據塊;
    步驟3:在所述數據塊中增加元數據信息,獲得增強數據塊;
    步驟4:將所述增強數據塊進行壓縮,獲得壓縮數據塊,并將所述壓縮數據塊分發到所述數據集市節點。


    2.根據權利要求1所述的一種針對復雜查詢的分組入數據集市方法,其特征在于,源數據加載復雜查詢過程、源數據分割過程和添加信息壓縮數據塊入所述數據集市的過程,分別設置為三個線程模型,并采用數據流式處理進行并行處理。


    3.根據權利要求1所述的一種針對復雜查詢的分組入數據集市方法,其特征在于,在所述步驟1中進行所述復雜查詢時,在數據查詢層根據所述分組列的所述排序信息對所述源數據進行排序。


    4...

    【專利技術屬性】
    技術研發人員:不公告發明人
    申請(專利權)人:北京永洪商智科技有限公司,
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩精品无码免费视频| 亚洲日韩看片无码电影| 国产色无码精品视频免费| 少妇无码太爽了不卡在线观看| 99无码精品二区在线视频| 无码一区二区波多野结衣播放搜索| 亚洲v国产v天堂a无码久久| 日韩欧精品无码视频无删节| 无码永久免费AV网站| 小13箩利洗澡无码视频网站| 免费无码成人AV片在线在线播放| 亚洲中文无码a∨在线观看| 亚洲精品午夜无码电影网| 四虎成人精品国产永久免费无码| 无码国产色欲XXXXX视频| 亚洲成?Ⅴ人在线观看无码| 亚洲人片在线观看天堂无码| 日韩欧精品无码视频无删节| 国产亚洲AV无码AV男人的天堂| 国产精品无码素人福利不卡| 精品人妻无码一区二区三区蜜桃一 | 国产羞羞的视频在线观看 国产一级无码视频在线 | 亚洲AV无码一区二区三区鸳鸯影院| 久99久无码精品视频免费播放| 性虎精品无码AV导航| 亚洲AV无码乱码麻豆精品国产| 熟妇无码乱子成人精品| 亚洲日韩av无码| 自拍中文精品无码| 日韩人妻无码精品系列| 国产丝袜无码一区二区三区视频| 亚洲AV无码一区二区三区性色| 最新中文字幕av无码专区| 亚洲中文字幕在线无码一区二区| 久久AV高清无码| 中文有码无码人妻在线| 亚洲av无码成人精品国产| 东京热HEYZO无码专区| 免费无码黄动漫在线观看| 国精品无码A区一区二区| 亚洲VA中文字幕无码一二三区|