• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種海量醫療數據的快速統計查詢方法技術

    技術編號:8594060 閱讀:304 留言:0更新日期:2013-04-18 07:16
    本發明專利技術公開了一種海量醫療數據的快速統計查詢方法。首先從不同的數據源收集、過濾和處理醫療數據,保存處理后的醫療數據到分布式文件系統hdfs或者hbase中;針對某個或某些基于統計的醫療數據,利用所述分布式文件系統hdfs或者hbase來創建并初始化統計樹;針對新增的醫療數據進行一個或多個增量計算,并用增量計算的結果去更新所述統計樹;服務端基于所創建的一個或者多個統計樹來響應用戶的統計查詢請求,將所述統計查詢請求解析成基于一個或者多個統計樹的子查詢,并合并成多個子查詢的結果返回給所述用戶。該方法可以迅速定位統計數據的位置,避免大數據量的訪問,從而減輕了系統負載,提高了查詢效率和訪問的并發性。

    【技術實現步驟摘要】

    本專利技術涉及醫療數據
    ,尤其涉及。
    技術介紹
    目前,隨著我國經濟持續穩定的發展和現代科技的日新月異,人們越來越多的關注自身健康,在滿足日常工作和生活的需求之外,人們也迫切希望通過網絡或者手機上網就能隨時查看流行病的季節信息、了解每種疾病下的用藥情況以及針對自身疾病獲得一些個性化的推薦服務等。對于公共衛生機構,它們希望各個社區居民的醫療數據能夠自動匯總,并自動對這些數據進行統計分析,統計的結果用來進行流行病的趨勢分析和爆發預警,從而為制定防治干預計劃提供有力的參考依據。與此同時,隨著國家新醫改政策的頒布和實施,與健康直接相關的醫療行業開始迅猛發展,醫療數據越來越趨于高度集中化。大規模區域醫療信息系統和大型醫療數據中心將逐步建立,數據總量可達PB級以上的存儲需求,日更新量GB級甚至TB級。在海量醫療數據的訪問上,存在大規模數據統計計算的服務,而且需要盡可能快的查詢響應時間,通常還需要能夠做到高并發,例如各種統計查詢。同時健康云系統的基于統計的業務也相當復雜,且需求變化大,需要系統有很多的擴展性。而且醫療數據規模很大,且醫療數據之間具有強關聯性,不同類型的用戶對同一數據具有不同的觀察視角,從而對醫療數據的存儲模型有很高的要求以應付靈活多變的數據請求,大規模數據上還存在大量已知的或者未知的數據分析需求,查詢的總類多,需要支持各種定制性查詢。新的需求和國家政策必然推動大規模區域醫療信息系統和大型醫療數據中心的建立,這使得海量醫療數據上的快速統計查詢成為一個研究的難點問題。目前現有技術中實現醫療數據快速統計主要有兩種算法一種是使用傳統的數據庫實施即時統計,但使用該方法來進行統計查詢的效率很低;另一種方法是將基于MapReduce對hdfs上的數據進行并行統計分析,然后將分析的結果保存到hbase服務器中,最后在hbase服務器上實現統計查詢,相較于傳統關系數據庫的處理方法,這種算法的時間復雜度明顯優越,但仍沒有效解決數據量增大所帶來的計算量擴大問題,依然無法保證算法在統計過程中的穩定性。由此可見,由于全民醫療信息服務系統每天產生的數據量大,用戶對統計查詢的實時處理要求高,因此簡單地采用傳統數據庫、商業并行數據庫或者NOSQL數據庫對海量醫療數據進行在線統計分析然后返回結果的方式已不能滿足實際情況和需求。
    技術實現思路
    本專利技術的目的是提供,該方法可以迅速定位統計數據的位置,避免大數據量的訪問,從而減輕了系統負載,提高了查詢效率和訪問的并發性。本專利技術的目的是通過以下技術方案實現的,,所述方法包括從不同的數據源收集、過濾和處理醫療數據,保存處理后的醫療數據到分布式文件系統hdfs或者hbase中;針對某個或某些基于統計的醫療數據,利用所述分布式文件系統hdfs或者hbase來創建并初始化統計樹;針對新增的醫療數據進行一個或多個增量計算,并用增量計算的結果去更新所述統計樹;服務端基于所創建的一個或者多個統計樹來響應用戶的統計查詢請求,將所述統計查詢請求解析成基于一個或者多個統計樹的子查詢,并合并成多個子查詢的結果返回給所述用戶。所述從不同的數據源收集、過濾和處理醫療數據,保存處理后的醫療數據到分布式文件系統hdfs或者hbase中,具體包括利用各種消息中間件從不同的數據源收集醫療數據,并基于MapReduce程序對所收集的醫療數據進行過濾處理,將過濾處理后的數據導入到分布式文件系統hdfs或者hbase 中。所述利用所述分布式文件系統hdfs或者hbase來創建并初始化統計樹,具體包括利用傳統數據庫或分布式文件系統hdfs或者hbase來創建統計樹,該統計樹采用B-樹的存儲方式,且在所創建的統計樹結構中,同層兄弟節點的統計值采用從左至右進行累加的計算方式;借助sqoop工具初始化所創建的統計樹,將收集并處理后的醫療數據導入到所創建的統計樹中。所述針對新增的醫療數據進行一個或多個增量計算,并用增量計算的結果去更新所述統計樹,具體包括腳本程序依次調用執行一個或多個MapReduce程序對當日新增的醫療數據進行統計分析;將所述統計分析結果集中的每條記錄追加為所述統計樹最新的一個葉子節點,同時累加更新該葉子節點上游的所有父親節點的統計結果,實現統計樹更新。所述將統計查詢請求解析成基于一個或者多個統計樹的子查詢,并合并成多個子查詢的結果返回給所述用戶,具體包括所述服務端接收用戶提交的統計查詢請求,并將其解析為一個或者多個統計樹的子查詢;執行各個子查詢,將每個子查詢翻譯成從所述統計樹的存儲結構中獲取多個統計值,并對其通過簡單的加減運算得到各個子查詢對應的統計結果;對所述各個子查詢的統計結果進行合并,然后將合并后的結果返回給所述用戶。由上述本專利技術提供的技術方案可以看出,首先從不同的數據源收集、過濾和處理醫療數據,保存處理后的醫療數據到分布式文件系統hdfs或者hbase中;針對某個或某些基于統計的醫療數據,利用所述分布式文件系統hdfs或者hbase來創建并初始化統計樹;針對新增的醫療數據進行一個或多個增量計算,并用增量計算的結果去更新所述統計樹;服務端基于所創建的一個或者多個統計樹來響應用戶的統計查詢請求,將所述統計查詢請求解析成基于一個或者多個統計樹的子查詢,并合并成多個子查詢的結果返回給所述用戶。該方法可以迅速定位統計數據的位置,避免大數據量的訪問,從而減輕了系統負載,提高了查詢效率和訪問的并發性。附圖說明為了更清楚地說明本專利技術實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域的普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他附圖。圖1為本專利技術實施例提供的海量醫療數據的快速統計查詢方法流程示意圖;圖2為本專利技術實施例所舉實例存儲模型的結構示意圖;圖3為本專利技術實施例所舉實例中統計樹的存儲結構示意圖;圖4為本專利技術實施例所舉實例中用戶查詢的流程示意圖;圖5為本專利技術實施例所舉實例中查詢所耗時間的圖表示意圖。具體實施例方式下面結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例?;诒緦@夹g的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術的保護范圍。本專利技術實施例所述方法基于增量計算和統計樹支持快速統計算法,一方面利用增量計算只對當天的數據進行統計計算,然后用新的計算結果去更新統計樹,從而避免了大量的重復計算;另一方面用戶的查詢都集中在對統計樹的查詢上,避免了大量即時的計算。下面將結合附圖對本專利技術實施例作進一步地詳細描述,如圖1所示為本專利技術實施例提供的海量醫療數據的快速統計查詢方法流程示意圖,所述方法包括步驟11 :從不同的數據源收集、過濾和處理醫療數據,保存處理后的醫療數據到分布式文件系統hdfs或者hbase中。在該步驟中,首先按利用各種消息中間件從不同的數據源收集醫療數據,具體實現中,由于收集上來的醫療數據可能有壞數據、不合理的數據或者是重復的數據等,因此在服務端還需要有過濾組件來處理這些異常情況,因為MapReduce (映射規約)支持多數據源輸入,因此過濾組件可以基于MapReduce來實本文檔來自技高網
    ...

    【技術保護點】
    一種海量醫療數據的快速統計查詢方法,其特征在于,所述方法包括:從不同的數據源收集、過濾和處理醫療數據,保存處理后的醫療數據到分布式文件系統hdfs或者hbase中;針對某個或某些基于統計的醫療數據,利用所述分布式文件系統hdfs或者hbase來創建并初始化統計樹;針對新增的醫療數據進行一個或多個增量計算,并用增量計算的結果去更新所述統計樹;服務端基于所創建的一個或者多個統計樹來響應用戶的統計查詢請求,將所述統計查詢請求解析成基于一個或者多個統計樹的子查詢,并合并成多個子查詢的結果返回給所述用戶。

    【技術特征摘要】
    1.一種海量醫療數據的快速統計查詢方法,其特征在于,所述方法包括 從不同的數據源收集、過濾和處理醫療數據,保存處理后的醫療數據到分布式文件系統hdfs或者hbase中; 針對某個或某些基于統計的醫療數據,利用所述分布式文件系統hdfs或者hbase來創建并初始化統計樹; 針對新增的醫療數據進行ー個或多個增量計算,并用増量計算的結果去更新所述統計樹; 服務端基于所創建的一個或者多個統計樹來響應用戶的統計查詢請求,將所述統計查詢請求解析成基于ー個或者多個統計樹的子查詢,并合并成多個子查詢的結果返回給所述用戶。2.根據權利要求1所述海量醫療數據的快速統計查詢方法,其特征在于,所述從不同的數據源收集、過濾和處理醫療數據,保存處理后的醫療數據到分布式文件系統hdfs或者hbase中,具體包括 利用各種消息中間件從不同的數據源收集醫療數據,并基于MapReduce程序對所收集的醫療數據進行過濾處理,將過濾處理后的數據導入到分布式文件系統hdfs或者hbase中。3.根據權利要求1所述海量醫療數據的快速統計查詢方法,其特征在于,所述利用所述分布式文件系統hdfs或者hbase來創建并初始化統計樹,具體包括 利用傳統數據庫或分布式文件系統hdfs或者h...

    【專利技術屬性】
    技術研發人員:張帆,彭智須成忠,閆茜,甘波,
    申請(專利權)人:中國科學院深圳先進技術研究院,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产成人无码一区二区在线播放| 欧美性生交xxxxx无码影院∵| 国产成年无码AV片在线韩国| 成人A片产无码免费视频在线观看 成人无码AV一区二区 | 人妻无码一区二区三区四区| 精品无码中出一区二区| 亚洲AV无码专区在线播放中文| 色综合久久久无码中文字幕波多| 亚洲中文字幕无码一区二区三区| 亚洲熟妇av午夜无码不卡| 久久久久无码精品亚洲日韩| 一本天堂ⅴ无码亚洲道久久| 国精品无码A区一区二区| 亚洲Av无码一区二区二三区 | 国产乱人伦无无码视频试看| 久久精品成人无码观看56 | 伊人久久无码精品中文字幕| 99国产精品无码| 久久亚洲精品无码| 免费无码又爽又刺激一高潮| 无码日韩人妻精品久久| 亚洲中文无码永久免费| 久久久久亚洲av无码专区| 国产亚洲人成无码网在线观看| 日韩无码系列综合区| 成人免费无码大片a毛片软件 | 亚洲成a∧人片在线观看无码| 曰韩精品无码一区二区三区| 亚洲av无码专区在线观看素人| 无码被窝影院午夜看片爽爽jk| 无码乱肉视频免费大全合集| 久久久无码人妻精品无码| 精品无码久久久久久尤物| 秋霞无码一区二区| 亚洲精品无码少妇30P| 亚洲av永久中文无码精品综合| 亚洲精品天堂无码中文字幕 | 人妻少妇看A偷人无码精品视频| 精品无码一区二区三区电影| 中文字幕乱偷无码av先锋蜜桃| 久久精品aⅴ无码中文字字幕不卡|