The invention provides a multi granularity real-time hot polymerization method, including: data stream of input data cleaning processing, and the processed data stream for structured data; for the first time in the pre structured data segmentation, and calculate the segmentation in all structured data in weight; weight calculation the current time slice of each event according to the weight of each word; the event aggregation, and calculate the weight of each event after polymerization according to the weight of each cluster events; according to the weight sorting of the cluster after the event generated event list. The technical proposal provided by the invention improves the granularity of the final event display result, the integrity and accuracy of the event, and facilitates the quick and accurate acquisition of the hotspot information by the user.
【技術實現步驟摘要】
一種多粒度實時熱點聚合方法
本專利技術涉及信息檢索技術,尤其涉及一種多粒度實時熱點聚合方法。
技術介紹
互聯網每時每刻都會產生的大量信息,其中有價值、信息量高的信息可視為熱點信息,傳統的新聞媒體通過人工對這些熱點信息進行編輯與發布進而形成新聞,以便于人們及時了解實時信息,把握新鮮資訊。這種通過人工形成新聞的方式,能夠保證新聞的準確性,但需要耗費大量時間,在一定意義上犧牲了新聞的實時性與客觀性。而伴隨著現代人工智能及自然語言處理技術的發展與興起,大量處理流式信息文本數據的非人工熱點事件檢測系統被開發,由機器代替人工,此類系統能夠在微博、博客、網頁等多源異構海量文本數據中快速發現文本結構異常,進而通過表示學習模型抽取事件表示,形成事件,因此擁有較高的時效性、客觀性與準確性。其中一些已經被實現的系統中應用機器學習、深度學習等方法,獲得了較為良好的效果。但由于此類非人工熱點事件檢測技術仍處于初始應用階段,很多真實世界中的情況無法預先考慮進來,諸如事件表示類似、同事件不同階段等情況,會造成時間顯示的冗余,影響用戶快速準確地獲取相關時間段內的熱點信息;此外,事件表示不清、事件含義模糊等情況的出現也會影響用戶獲取熱點信息的準確性。
技術實現思路
本專利技術提供一種多粒度實時熱點聚合方法,用于方便用戶快速準確地獲取熱點信息。本專利技術提供一種多粒度實時熱點聚合方法,包括:對輸入的流式數據進行數據清洗處理,并將處理后的流式數據表示為結構化數據;對第一預設時間片內的結構化數據進行分詞,并計算各分詞在所有結構化數據中的權重;根據各分詞的權重計算當前時間片內各事件的權重,當前時間片位 ...
【技術保護點】
一種多粒度實時熱點聚合方法,其特征在于,包括:對輸入的流式數據進行數據清洗處理,并將處理后的流式數據表示為結構化數據;對第一預設時間片內的結構化數據進行分詞,并計算各所述分詞在所有結構化數據中的權重;根據各所述分詞的權重計算當前時間片內各事件的權重,所述當前時間片位于所述第一預設時間片內,所述事件與所述結構化數據一一對應;對所述事件進行聚合,并根據各所述事件的權重計算聚合后的每個事件簇的權重;根據各所述事件簇的權重生成排序后的事件列表。
【技術特征摘要】
1.一種多粒度實時熱點聚合方法,其特征在于,包括:對輸入的流式數據進行數據清洗處理,并將處理后的流式數據表示為結構化數據;對第一預設時間片內的結構化數據進行分詞,并計算各所述分詞在所有結構化數據中的權重;根據各所述分詞的權重計算當前時間片內各事件的權重,所述當前時間片位于所述第一預設時間片內,所述事件與所述結構化數據一一對應;對所述事件進行聚合,并根據各所述事件的權重計算聚合后的每個事件簇的權重;根據各所述事件簇的權重生成排序后的事件列表。2.根據權利要求1所述的方法,其特征在于,所述結構化數據的屬性包括標題和下列屬性中的至少一項:時間、地點、人物、關鍵詞、事件類型、情緒;所述方法還包括:根據各所述分詞的權重計算當前時間片內結構化數據的各屬性的權重,并根據所述結構化數據的各屬性的權重基于各屬性生成排序后的屬性列表。3.根據權利要求2所述的方法,其特征在于,所述對所述事件進行聚合具體包括:根據各所述事件對應的結構化數據的標題間的文本編輯距離、各屬性的語義相似度和各事件的時間軸分布對所述事件進行聚合。4.根據權利要求1所述的方法,其特征在于,在所述根據各所述分詞的權重計算當前時間片內各事件的權重之前,所述方法還包括:對第一預設時間片內的結構化數據進行詞性標注;對各所述分詞進行詞性過濾。5.根據權利要求4所述的方法,其特征在于,在所述根據各所述分詞的權重計算當前時間片內的事件的權重之前,所述方法還包括:計算各所述分詞的語義相似度,對語義相似度大于第一預設閾值的分詞進行合并操作,并根據各所述分詞的權重和詞性計算合并后的各分詞的權重;則所述根據各所述分詞的權重計算當前時間片內各事件的權重,具體包括:根據所述合并后的各分詞的權重計算當前時間片內各事件的權重。6.根據權利要求5所述的方法,其特征在于,在所述根據所述合并后的各分詞的權重計算當前時間片內各事件的權重之前,所述方法還包括:刪除權重小于第二預設閾值的分詞。7.根據權利要求1-6任一項所述的方法,其特征在于,在所述對所述事件進行聚合之前,所述方法還包括:根據歷史時間片內的事件對當前時間片內的事件的影響力補償當前時間片內的事件的權重。8.根據權利要求1...
【專利技術屬性】
技術研發人員:李建欣,李晨,蘭天,張日崇,彭浩,
申請(專利權)人:北京航空航天大學,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。