• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種多粒度實時熱點聚合方法技術

    技術編號:15691012 閱讀:161 留言:0更新日期:2017-06-24 03:52
    本發明專利技術提供一種多粒度實時熱點聚合方法,包括:對輸入的流式數據進行數據清洗處理,并將處理后的流式數據表示為結構化數據;對第一預設時間片內的結構化數據進行分詞,并計算各分詞在所有結構化數據中的權重;根據各分詞的權重計算當前時間片內各事件的權重;對事件進行聚合,并根據各事件的權重計算聚合后的每個事件簇的權重;根據各事件簇的權重生成排序后的事件列表。本發明專利技術提供的技術方案,提升了最終事件顯示結果的粒度、事件的完整性和準確性,方便了用戶快速準確地獲取熱點信息。

    Multi granularity real-time hot spot polymerization method

    The invention provides a multi granularity real-time hot polymerization method, including: data stream of input data cleaning processing, and the processed data stream for structured data; for the first time in the pre structured data segmentation, and calculate the segmentation in all structured data in weight; weight calculation the current time slice of each event according to the weight of each word; the event aggregation, and calculate the weight of each event after polymerization according to the weight of each cluster events; according to the weight sorting of the cluster after the event generated event list. The technical proposal provided by the invention improves the granularity of the final event display result, the integrity and accuracy of the event, and facilitates the quick and accurate acquisition of the hotspot information by the user.

    【技術實現步驟摘要】
    一種多粒度實時熱點聚合方法
    本專利技術涉及信息檢索技術,尤其涉及一種多粒度實時熱點聚合方法。
    技術介紹
    互聯網每時每刻都會產生的大量信息,其中有價值、信息量高的信息可視為熱點信息,傳統的新聞媒體通過人工對這些熱點信息進行編輯與發布進而形成新聞,以便于人們及時了解實時信息,把握新鮮資訊。這種通過人工形成新聞的方式,能夠保證新聞的準確性,但需要耗費大量時間,在一定意義上犧牲了新聞的實時性與客觀性。而伴隨著現代人工智能及自然語言處理技術的發展與興起,大量處理流式信息文本數據的非人工熱點事件檢測系統被開發,由機器代替人工,此類系統能夠在微博、博客、網頁等多源異構海量文本數據中快速發現文本結構異常,進而通過表示學習模型抽取事件表示,形成事件,因此擁有較高的時效性、客觀性與準確性。其中一些已經被實現的系統中應用機器學習、深度學習等方法,獲得了較為良好的效果。但由于此類非人工熱點事件檢測技術仍處于初始應用階段,很多真實世界中的情況無法預先考慮進來,諸如事件表示類似、同事件不同階段等情況,會造成時間顯示的冗余,影響用戶快速準確地獲取相關時間段內的熱點信息;此外,事件表示不清、事件含義模糊等情況的出現也會影響用戶獲取熱點信息的準確性。
    技術實現思路
    本專利技術提供一種多粒度實時熱點聚合方法,用于方便用戶快速準確地獲取熱點信息。本專利技術提供一種多粒度實時熱點聚合方法,包括:對輸入的流式數據進行數據清洗處理,并將處理后的流式數據表示為結構化數據;對第一預設時間片內的結構化數據進行分詞,并計算各分詞在所有結構化數據中的權重;根據各分詞的權重計算當前時間片內各事件的權重,當前時間片位于第一預設時間片內,事件與結構化數據一一對應;對事件進行聚合,并根據各事件的權重計算聚合后的每個事件簇的權重;根據各事件簇的權重生成排序后的事件列表。在本專利技術的一實施例中,結構化數據的屬性包括標題和下列屬性中的至少一項:時間、地點、人物、關鍵詞、事件類型、情緒;上述方法還包括:根據各分詞的權重計算當前時間片內結構化數據的各屬性的權重,并根據結構化數據的各屬性的權重基于各屬性生成排序后的屬性列表。在本專利技術的一實施例中,對事件進行聚合具體包括:根據各事件對應的結構化數據的標題間的文本編輯距離、各屬性的語義相似度和各事件的時間軸分布對事件進行聚合。在本專利技術的一實施例中,在根據各分詞的權重計算當前時間片內各事件的權重之前,該方法還包括:對第一預設時間片內的結構化數據進行詞性標注;對各分詞進行詞性過濾。在本專利技術的一實施例中,在根據各分詞的權重計算當前時間片內的事件的權重之前,該方法還包括:計算各分詞的語義相似度,對語義相似度大于第一預設閾值的分詞進行合并操作,并根據各分詞的權重和詞性計算合并后的各分詞的權重;則根據各分詞的權重計算當前時間片內各事件的權重,具體包括:根據合并后的各分詞的權重計算當前時間片內各事件的權重。在本專利技術的一實施例中,在根據合并后的各分詞的權重計算當前時間片內各事件的權重之前,該方法還包括:刪除權重小于第二預設閾值的分詞。在本專利技術的一實施例中,在對事件進行聚合之前,該方法還包括:根據歷史時間片內的事件對當前時間片內的事件的影響力補償當前時間片內的事件的權重。在本專利技術的一實施例中,在對事件進行聚合之前,該方法還包括:對當前時間片內的突發事件的權重進行補償;突發事件為第二預設時間片內首次出現,且權重大于第三預設閾值的事件,第二預設時間片位于第一預設時間片內,當前時間片位于第二預設時間片內。在本專利技術的一實施例中,根據各分詞的權重和詞性計算合并后的各分詞的權重,具體包括:根據公式(1)計算各分詞在結構化數據中的權重;其中,wordi表示第i個分詞,wordj表示第j個分詞,表示wordi的權重;表示wordi的詞頻,表示第i個分詞的逆詞頻,表示wordj的詞頻,表示wordj的逆詞頻;表示wordi的來源屬性對應的權重,表示wordi的詞性對應的權重,表示wordj的來源屬性對應的權重,表示wordj的詞性對應的權重,numbersimilar表示與wordi的語義相似度大于第一預設閾值的分詞的個數。在本專利技術的一實施例中,根據公式(2)計算歷史時間片內的事件對當前時間片內的事件的影響力;其中,event_influenceresidual表示影響力值,hotscoreevent表示歷史時間片內與當前分析事件相關的事件的權重,eventnow表示當前分析事件的發生時間,eventend表示歷史時間片內與當前分析事件相關的事件的發生時間,weighttype表示事件類型對應的權重。本專利技術實施例提供的多粒度實時熱點聚合方法,通過對處理后的事件進行聚合,將相同或相似的事件聚合在了一起,提升了最終事件顯示結果的粒度,方便了用戶快速準確地獲取熱點信息;通過對事件的數據補全操作,提高了事件的完整性和準確性,進而提高了用戶獲取熱點信息的準確性。附圖說明圖1為本專利技術提供的多粒度實時熱點聚合方法實施例一的流程示意圖;圖2為本專利技術提供的多粒度實時熱點聚合方法實施例二的流程示意圖;圖3為本專利技術提供的多粒度實時熱點聚合系統的結構示意圖。具體實施方式下面結合附圖,對本專利技術的實施例進行描述。圖1為本專利技術提供的多粒度實時熱點聚合方法實施例一的流程示意圖,本實施例的執行主體可以是多粒度實時熱點聚合系統,如圖1所示,本實施例提供的方法包括以下步驟:S101、對輸入的流式數據進行數據清洗處理,并將處理后的流式數據表示為結構化數據。具體的,可以采用分布式爬蟲技術采集網絡(例如:新浪微博、新浪新聞、網易新聞等)中的流式數據,這些流式數據包括事件、新聞等熱點信息。將采集到流式數據輸入系統后,可以首先根據設定的規則對這些數據進行數據清洗工作,以過濾廣告數據,清洗垃圾數據;然后可以將其表示為格式統一、屬性表明、時間對齊的結構化數據。另外,由于流式數據輸入的來源不同、格式不同,此步驟可能會涉及包括多源異構處理、數據補全等操作在內的多種操作,此處不再詳細說明。S102、對第一預設時間片內的結構化數據進行分詞,并計算各分詞在所有結構化數據中的權重。具體的,本實施例中,選取對一個比較長的時間段(即第一預設時間片)內的結構化數據作為語料庫,對這些結構化數據通過分詞工具(如:NLPIR漢語分詞系統)進行分詞;然后計算每個分詞在語料庫(即所有結構化數據)中的權重,具體可以采用TF-IDF(termfrequency–inversedocumentfrequency)法計算分詞的權重。S103、根據各分詞的權重計算當前時間片內各事件的權重。具體的,事件與結構化數據一一對應,本實施例中,采用谷歌的PageRank網頁排名思想,根據各個分詞的權重,計算各結構化數據對應的事件的權重。本實施例中,為了提高事件權重計算結果的準確性,在計算當前時間片內各事件的權重時,采用根據第一時間片內的結構化數據計算出的分詞的權重。其中,當前時間片位于第一預設時間片內,即第一時間片的長度大于當前時間片的長度;具體的,當前時間片和第一預設時間片的長度可以根據實際需要設置,本實施例不做特別限定。S104、對事件進行聚合和數據補全操作,并根據各事件的權重計算聚合后的每個事件簇的權重。一個完整的事件往往會由諸多不同階段的小事件組合而成,這些本文檔來自技高網...
    一種多粒度實時熱點聚合方法

    【技術保護點】
    一種多粒度實時熱點聚合方法,其特征在于,包括:對輸入的流式數據進行數據清洗處理,并將處理后的流式數據表示為結構化數據;對第一預設時間片內的結構化數據進行分詞,并計算各所述分詞在所有結構化數據中的權重;根據各所述分詞的權重計算當前時間片內各事件的權重,所述當前時間片位于所述第一預設時間片內,所述事件與所述結構化數據一一對應;對所述事件進行聚合,并根據各所述事件的權重計算聚合后的每個事件簇的權重;根據各所述事件簇的權重生成排序后的事件列表。

    【技術特征摘要】
    1.一種多粒度實時熱點聚合方法,其特征在于,包括:對輸入的流式數據進行數據清洗處理,并將處理后的流式數據表示為結構化數據;對第一預設時間片內的結構化數據進行分詞,并計算各所述分詞在所有結構化數據中的權重;根據各所述分詞的權重計算當前時間片內各事件的權重,所述當前時間片位于所述第一預設時間片內,所述事件與所述結構化數據一一對應;對所述事件進行聚合,并根據各所述事件的權重計算聚合后的每個事件簇的權重;根據各所述事件簇的權重生成排序后的事件列表。2.根據權利要求1所述的方法,其特征在于,所述結構化數據的屬性包括標題和下列屬性中的至少一項:時間、地點、人物、關鍵詞、事件類型、情緒;所述方法還包括:根據各所述分詞的權重計算當前時間片內結構化數據的各屬性的權重,并根據所述結構化數據的各屬性的權重基于各屬性生成排序后的屬性列表。3.根據權利要求2所述的方法,其特征在于,所述對所述事件進行聚合具體包括:根據各所述事件對應的結構化數據的標題間的文本編輯距離、各屬性的語義相似度和各事件的時間軸分布對所述事件進行聚合。4.根據權利要求1所述的方法,其特征在于,在所述根據各所述分詞的權重計算當前時間片內各事件的權重之前,所述方法還包括:對第一預設時間片內的結構化數據進行詞性標注;對各所述分詞進行詞性過濾。5.根據權利要求4所述的方法,其特征在于,在所述根據各所述分詞的權重計算當前時間片內的事件的權重之前,所述方法還包括:計算各所述分詞的語義相似度,對語義相似度大于第一預設閾值的分詞進行合并操作,并根據各所述分詞的權重和詞性計算合并后的各分詞的權重;則所述根據各所述分詞的權重計算當前時間片內各事件的權重,具體包括:根據所述合并后的各分詞的權重計算當前時間片內各事件的權重。6.根據權利要求5所述的方法,其特征在于,在所述根據所述合并后的各分詞的權重計算當前時間片內各事件的權重之前,所述方法還包括:刪除權重小于第二預設閾值的分詞。7.根據權利要求1-6任一項所述的方法,其特征在于,在所述對所述事件進行聚合之前,所述方法還包括:根據歷史時間片內的事件對當前時間片內的事件的影響力補償當前時間片內的事件的權重。8.根據權利要求1...

    【專利技術屬性】
    技術研發人員:李建欣李晨蘭天張日崇彭浩
    申請(專利權)人:北京航空航天大學
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 狠狠躁天天躁中文字幕无码 | 国产av无码专区亚洲av果冻传媒 | 亚洲av无码片vr一区二区三区| 亚洲精品无码成人片久久| 亚洲精品无码av天堂| 久久人妻少妇嫩草AV无码专区 | 亚洲成a人无码亚洲成www牛牛| 国产精品无码一区二区在线观| 亚洲VA中文字幕无码毛片| 国产免费午夜a无码v视频| 无码137片内射在线影院| 亚洲中文字幕无码久久综合网| 久久亚洲中文字幕无码| 欧洲人妻丰满av无码久久不卡| 亚洲国产精品无码久久九九| 亚洲av中文无码字幕色不卡| 99久久国产热无码精品免费| 国产AV无码专区亚洲AV手机麻豆| 一本一道中文字幕无码东京热 | 精品国产v无码大片在线观看| 中文无码日韩欧免费视频| 亚洲日韩乱码中文无码蜜桃 | 国产成人AV片无码免费| 亚洲a∨无码一区二区| 久久人妻av无码中文专区| 成人无码A区在线观看视频| 国产成人精品无码专区| 国产成人综合日韩精品无码| 无码h黄肉3d动漫在线观看| 午夜无码性爽快影院6080| 无码精品国产dvd在线观看9久| 久久久久久国产精品免费无码| 无码人妻久久久一区二区三区| 亚洲国产精品无码专区影院 | 免费无码毛片一区二区APP| 国产网红无码精品视频| 亚洲AV无码国产丝袜在线观看 | 亚洲日韩av无码中文| 亚洲精品GV天堂无码男同| 精品国产V无码大片在线看| 亚洲人成无码网站在线观看|