• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于用戶查詢日志實時發現熱點視頻的方法和裝置制造方法及圖紙

    技術編號:8533043 閱讀:194 留言:0更新日期:2013-04-04 16:11
    一種基于用戶查詢日志實時發現熱點視頻的方法和裝置,其首先將一段時間內的用戶視頻查詢日志進行切詞,得到原子詞;然后,統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數以及任意兩個原子詞同時出現在同一條用戶查詢中的次數;根據得到的次數值采用逐點互信息(PMI)的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度,將關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;最后對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞。

    【技術實現步驟摘要】
    一種基于用戶查詢日志實時發現熱點視頻的方法和裝置
    本專利技術屬于互聯網數據統計分析
    ,尤其涉及一種基于用戶查詢日志實時發現熱點視頻的方法和裝置。
    技術介紹
    隨著互聯網的迅猛發展,用戶對視頻搜索結果提出了更高的要求,不僅需要搜索結果相關,而且還應有較高的實時性,這使得實時搜索變得日趨重要。視頻實時搜索指的是對視頻庫中的信息進行即時、快速的搜索,實現即搜即得的效果。通過實時搜索,用戶可以在第一時間獲取到熱點事件的第一手信息。然而,相比于傳統搜索,實時搜索也帶來了巨大的挑戰。對于熱點事件,由于其突發性和不可預測性,很可能相關視頻的數量和點擊量較少,導致在它們在搜索結果中排序靠后,從而無法真正滿足用戶對實時性的需求。因為實時熱點具有在較短時間內搜索量大的特點,通過對最新的用戶查詢日志分析最有可能發現出新的熱點詞和熱點事件,以此來改善搜索排序結果對實時性的反應。分析用戶日志時所遇到的一個困難是:每天的用戶查詢日志中都會不斷涌現出新名詞、新熱點,如“歐洲杯”,“樓道王菲劉美麟”等,而原有的切詞程序無法反映出這些新詞的語義關聯,即有可能將語義上應連接在一起的構成一個詞的字符串切分為多個詞。切詞程序一般采用基于詞表的方法,即根據一個預先給定的詞表對字符串掃描,通過一定的匹配方法(正向最大、逆向最大、雙向匹配等)找到一種最合適的詞語切分,這一方法的缺點在于:無法切分出原詞表中不包含的詞,即新詞。這一缺陷將可能導致模糊匹配(即搜索時只對部分查詢詞進行匹配)的結果不夠理想。
    技術實現思路
    鑒于現有技術中存在的問題,本專利技術的目的在于提供一種基于用戶查詢日志實時發現熱點視頻的方法,其特征在于包括如下步驟:S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;S4、根據步驟S2和S3得到的次數值采用逐點互信息(PMI)的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;S5、將步驟S4中所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;S6、在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞返回。進一步,本專利技術所述的基于用戶查詢日志實時發現熱點視頻的方法,其特征在于所述步驟S4中所述逐點互信息(PMI)的方法的具體計算方法如下:任給兩個原子詞A、B,它們的關聯度表示為其中,P(A,B)表示A,B出現在同一條用戶視頻查詢日志中次數,P(A)、P(B)分別表示A、B在所述一段時間內的用戶視頻查詢日志中出現的次數。進一步,本專利技術所述的基于用戶查詢日志實時發現熱點視頻的方法,其特征在于采用最大似然估計(Maximumlikelihoodestimate)來計算次數。此外,本專利技術還提供了一種基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于包括如下模塊:切詞模塊,用于將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;原子詞出現次數統計模塊,用于統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;原子詞共現次數統計模塊,用于根據所述原子詞出現次數統計模塊得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;關聯度計算模塊,用于根據所述原子詞出現次數統計模塊和所述原子詞共現次數統計模塊得到的次數值采用逐點互信息(PMI)的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;復合詞生成模塊,用于將所述關聯度計算模塊所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;熱點關鍵詞確定模塊,用于在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前而的復合詞作為實時發現熱點視頻的關鍵詞返同。進一步,本專利技術所述的基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于所述關聯度計算模塊中所述逐點互信息(PMI)的方法的具體計算方法如下:任給兩個原子詞A、B,它們的關聯度表示為其中,P(A,B)表示A,B出現在同一條用戶視頻查詢日志中次數,P(A)、P(B)分別表示A、B在所述一段時間內的用戶視頻查詢日志中出現的次數。進一步,本專利技術所述的基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于采用最大似然估計(Maximumlikelihoodestimate)來計算次數。本專利技術將逐點互信息這一信息論中的概念,應用于用戶查詢日志的分析,解決了新名詞涌現而導致的切詞不準確以及視頻實時熱點的發現問題。本專利技術不僅有嚴格的理論基礎,而且在工程實現上簡單高效,有效地避免了因采用級聯方式(即窮舉任意兩詞或多詞的組合)而帶來的組合爆炸的問題。本方法可使得視頻熱點發現完全自動化,無需人工的參與,在極大提高效率的同時又保證了較高的準確率。附圖說明圖1是本專利技術基于用戶查詢日志實時發現熱點視頻的方法的實現原理圖;圖2是本專利技術基于用戶查詢日志實時發現熱點視頻的方法的流程圖;圖3是本專利技術基于用戶查詢日志實時發現熱點視頻的裝置的功能框圖。具體實施方式為使本專利技術的上述目的、特征和優點更加明顯易懂,下面結合附圖和具體實施方式對本專利技術作進一步詳細的說明:因為實時熱點具有在較短時間內搜索量大的特點,通過對最新的用戶查詢日志分析最有可能發現出新的熱點詞和熱點事件,以此來改善搜索排序結果對實時性的反應。圖1是本專利技術基于用戶查詢日志實時發現熱點視頻的方法的實現原理圖;如圖1所示,本專利技術將一段時間內的用戶查詢日志輸入到切詞程序中,得到每條用戶查詢的切詞結果,這里所提取出的詞我們稱為原子詞。然后,在此基礎上統計原子詞的詞頻信息和它們的共現次數(即兩詞同時出現在同一條用戶查詢中),并采用逐點互信息(PMI)的計算方法,將語義上密切關聯的兩個或多個原子詞合成為一個復合詞,由此迭代生成出新詞表。最后,按新詞表中詞的詞頻排序,自動發現出熱點詞和熱點事件。圖2是本專利技術基于用戶查詢日志實時發現熱點視頻的方法的流程圖;如圖所示,本專利技術基于用戶查詢日志發現視頻實時熱點的方法包括如下步驟:S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;切詞程序根據已有詞表以最大正向匹配的方法對查詢進行切分。例如,用戶輸入查詢:“還珠格格主題曲”,切詞程序返回結果“還珠|格格|主題曲”,即該查詢中包含了三個原子詞:“還珠”、“格格”和“主題曲”。S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;例如,從一天的用戶查詢日志中統計得到:“還珠”出現61,661次,“格格”出現65,564次,“主題曲”出現306,050次。S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查本文檔來自技高網...
    一種基于用戶查詢日志實時發現熱點視頻的方法和裝置

    【技術保護點】
    一種基于用戶查詢日志實時發現熱點視頻的方法,其特征在于包括如下步驟:S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;S4、根據步驟S2和S3得到的次數值采用逐點互信息(PMI)的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;S5、將步驟S4中所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;S6、在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞返回。

    【技術特征摘要】
    1.一種基于用戶查詢日志實時發現熱點視頻的方法,其特征在于包括如下步驟:S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞,其中切詞程序根據已有詞表以最大正向匹配的方法對查詢進行切分;S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;S4、根據步驟S2和S3得到的次數值采用逐點互信息的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;S5、將步驟S4中所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;S6、在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞返回;所述步驟S4中所述逐點互信息的方法的具體計算方法如下:任給兩個原子詞A、B,它們的關聯度表示為其中,P(A,B)表示A,B出現在同一條用戶視頻查詢日志中次數,P(A)、P(B)分別表示A、B在所述一段時間內的用戶視頻查詢日志中出現的次數;其中,采用最大似然估計來計算次數。2.一種基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于包括如下模塊:切詞模塊,用于將...

    【專利技術屬性】
    技術研發人員:李力行姚健潘柏宇盧述奇尹玉宗
    申請(專利權)人:合一網絡技術北京有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码国产精品一区二区免费模式| 成在人线AV无码免费| 亚洲日韩VA无码中文字幕| 亚欧无码精品无码有性视频| 日韩人妻无码一区二区三区 | 免费A级毛片无码A∨免费| 国产精品久久久久无码av| 亚洲?V无码成人精品区日韩| 无码人妻一区二区三区在线视频 | 久久久久亚洲AV无码去区首| 人妻丰满熟妇AV无码区HD| 亚洲爆乳无码精品AAA片蜜桃| 午夜无码A级毛片免费视频| 日韩少妇无码喷潮系列一二三 | 97久久精品无码一区二区| 亚洲国产精品无码久久九九| 亚洲欧洲免费无码| 无码人妻少妇久久中文字幕蜜桃| 无码专区国产无套粉嫩白浆内射| 亚洲av永久中文无码精品综合| 国产AV无码专区亚洲精品| 中文字幕精品无码久久久久久3D日动漫| 日韩精品成人无码专区免费| 一本大道在线无码一区| 无码av最新无码av专区| 亚洲av日韩av无码| 亚洲国产精品无码AAA片| 日韩人妻无码一区二区三区| 国产亚洲情侣一区二区无码AV| 伊人久久无码精品中文字幕| 精品久久久无码人妻字幂| 日韩毛片免费无码无毒视频观看| 亚洲av无码专区在线观看亚| 亚洲午夜无码毛片av久久京东热| 久久久久久人妻无码| 无码人妻精品一区二区三区蜜桃| 91精品无码久久久久久五月天| 久久午夜福利无码1000合集| 久久亚洲精品无码VA大香大香| 高清无码v视频日本www| 免费无码午夜福利片69|