The invention relates to a time series similarity prediction method based on DTW, which belongs to the technical field of time series data mining. The method cascaded the currently known methods for speeding up DTW, such as LB_Kim, LB_Keogh, inverse LB_Keogh, and traditional DTW methods, and filtering the query set at different stages using different methods. At the same time, in order to improve the query accuracy, we introduce Z score standardization, standardization of the query sequence before the calculation of DTW distance, in the process of reading data, synchronization of standardization, further improve the efficiency of the algorithm. Then, the improved DTW method is applied to the analog synthesis prediction of time series, so as to improve the prediction speed and accuracy. This method makes full use of the advantages of different methods, effectively improves the query speed of time series, and then improves the speed and accuracy of analog synthesis prediction method.
【技術實現步驟摘要】
一種基于DTW的時間序列相似性預測方法
本專利技術屬于數據挖掘
,特別是時間序列數據挖掘
,涉及一種基于DTW的時間序列相似性預測方法。
技術介紹
動態時間規整(DynamicTimeWarping,DTW)是時間序列的一個強大的相似性度量方法。雖然我們常見的歐氏距離計算簡單、容易理解,但它要求兩條時間序列的長度必須相等,且對時間軸伸縮和彎曲問題無能為力。DTW距離定義了序列之間的最佳對齊匹配關系,支持不同長度時間序列的相似性度量,支持時間軸的伸縮和彎曲。由于DTW距離比歐式距離有更好的魯棒性,因此被廣泛用于時間序列的相似性度量,這是很多時間序列數據挖掘問題的基礎,比如分類和聚類以及預測等。然而,DTW的時間和空間復雜度較高,導致基于DTW的數據挖掘效率很低。因此,如何降低DTW時空復雜度成為了當前的研究重點和難點。DTW最早是用于語音識別中的一項技術,目前在金融、生物、化學以及機器人等領域都有廣泛的應用,特別是在多媒體數據領域。目前,對DTW進行加速的方法主要有以下兩種:1)添加全局約束。這種方法的目的是對DTW中的規整路徑進行全局約束,即限定一個序列中的點只能同另一序列中位置相近的某些點進行匹配。然而,該方法由于只針對查詢空間進行約束,并未從實質上降低DTW方法的復雜度,且在查詢時,由于查詢范圍的限制,存在誤報情況。2)利用下界距離進行過濾。該方法的主要思想是尋找一種計算更簡單的距離度量來粗略地估計DTW距離,稱為DTW下界距離,通過它可以過濾掉大部分不滿足相似性要求的序列,從而提高查詢效率。然而,該類方法,如果下界距離選取復雜度較高,則會 ...
【技術保護點】
一種基于DTW的時間序列相似性預測方法,其特征在于:該方法包括以下步驟:S1:生成類比模式和參考模式:假設一個一維時間序列為T={x
【技術特征摘要】
1.一種基于DTW的時間序列相似性預測方法,其特征在于:該方法包括以下步驟:S1:生成類比模式和參考模式:假設一個一維時間序列為T={x1,x2,…,xm,…xm+k},先假定已有合適的模式長度k,則生成類比模式C={x1,x2,…,xm}和參考模式Q={xm+1,xm+2,…,xm+k},其中類比模式為時間序列T中的歷史數據,參考模式為時間序列最近的發展趨勢;S2:構造類比模式C的封帶,所述封帶指的是利用全局約束條件得到序列的上下邊界,其邊界所包含的部分;對C進行z-score標準化,z-score標準化是基于原始數據的均值(mean)和標準差(standarddeviation)進行數據的標準化,定義如下:其中,x為X中的數據點,μ為X的均值,σ為X的標準差;S3:利用LB_kimFL方法對類比模式C進行過濾,所述LB_kimFL方法為LB_kim方法的改進,具體如下:LB_kim方法通過提取四元組特征向量,包括序列第一個元素、最后一個元素和序列的最大值和最小值,該下界利用提取四元組中個向量之間平方差最大值最為下界,其算法復雜度為O(N),特征提取的計算公式如下:由于進行標準化后的時間序列數據的最大和最小值對于整個下界距離貢獻較小,因此,去除原來LB_kim方法中提取的四個特征點中的最大和最小值,只保留起始點和終止點,稱為LB_kimFL方法,其算法復雜度降為O(1),定義如下:S4:利用LB_keogh方法對查詢集進行過濾;S5:利用LB_rkeogh方法進行過濾,當步驟S4中的方法計算得到的下界距離還未超出預定閾值時,利用LB_rkeogh方法進行進一步判斷;S6:經過步驟S5得到與參考模...
【專利技術屬性】
技術研發人員:陶洋,李鵬亮,熊炫睿,沈敬紅,
申請(專利權)人:重慶郵電大學,
類型:發明
國別省市:重慶,50
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。