本申請提供一種文字作品的追蹤方法,包括:獲取從未授權網站的地址下載的待識別的文字作品;生成所述待識別的文字作品的數字指紋;將所述待識別的文字作品的數字指紋與預存在母本指紋庫中的所有數字指紋進行比對,分別得到待識別的文字作品的數字指紋與母本指紋庫中的數字指紋的相似度值;所述母本指紋庫存儲有文字作品母本庫中的所有文字作品的數字指紋;當有至少一條相似度值小于設定閾值時,則判定所述待識別的文字作品屬于非法拷貝,保存所述被判定為非法拷貝的文字作品的信息及所述未授權網站的地址信息至匹配結果庫;對所述匹配結果庫中的所述未授權網站的地址中被判定為非法拷貝的文字作品定期進行追蹤。本申請的方法可靠性高,易于實現。
【技術實現步驟摘要】
本申請涉及計算機網絡
,特別是涉及ー種文字作品的追蹤方法和裝置。
技術介紹
在互聯網快速發展的同時,數字化技術也在高速發展,這使得各類信息的數字化程度越來越高。數字化信息以其易復制性、高效性、易傳輸性極大地促進了人類社會的發展。然而正是由于數字化信息的易復制性,使得各類盜版及侵權行為頻頻發生,如對數字化信息隨意進行篡改、拷貝、未經授權非法使用等。這種行為嚴重損害了消費者、版權所有者的合法利益,極度挫傷了內容創造者及版權所有者創作的積極性。因此,需要ー種快速有效的版權保護技術來保護數字媒體的版權,對網絡上流傳的數字文字作品的非法拷貝進行識別和追蹤,從而保護版權所有者和內容創造者的合法權利。 數字版權技術目前主要流行的方法有兩種以數據加密和防拷貝為核心的數字版權管理(Digital Rights Management, DRM)技術和數字水印技術。其中,數字水印技術是在數字產品中嵌入隱藏的標記,這種標記通常不可見,一般需要通過專用的檢測工具才能提取。數字水印技術嵌入的內容通常是銷售商或發行商在數字產品拷貝中嵌入與購買者身份相關的唯一性信息,當發現非法拷貝后,銷售商通過檢測嵌入的指紋來識別非法拷貝的來源。現有技術中,有ー種將數字水印技術應用于主動的版權追蹤系統的方法,它的目的是找到網絡上流傳的數字產品非法拷貝的分發者,而不是對那些展現非法拷貝的盜版網站進行打擊;它對通過手打等水印消隱的非法拷貝沒有識別和追蹤能力,可靠性不高。
技術實現思路
為解決上述技術問題,本申請實施例提供ー種文字作品的追蹤方法和裝置,可以及時準確地對網絡流傳的文字作品的非法拷貝進行識別和追蹤,可靠性高、易于實現,技術方案如下ー種文字作品的追蹤方法,包括獲取從未授權網站的地址下載的待識別的文字作品;生成所述待識別的文字作品的數字指紋;將所述待識別的文字作品的數字指紋與預存在母本指紋庫中的所有數字指紋進行比對,分別得到待識別的文字作品的數字指紋與母本指紋庫中的數字指紋的相似度值;所述母本指紋庫存儲有文字作品母本庫中的所有文字作品的數字指紋;當有至少一條相似度值小于設定閾值時,則判定所述待識別的文字作品屬于非法拷貝,保存所述被判定為非法拷貝的文字作品的信息及所述未授權網站的地址信息至匹配結果庫;對所述匹配結果庫中的所述未授權網站中的被判定為非法拷貝的文字作品定期進打追蹤。優選的,所述方法進ー步包括利用網絡爬蟲工具抓取相關的網頁地址,從所述網頁地址下載文字作品,建立所述文字作品的文本索弓I,生成文字作品索引庫;所述文字作品索引庫保存有文字作品與網頁地址的對應關系;從所述文字作品索引庫中讀取文字作品,當根據所述文字作品與網頁地址的對應關系判定所述文字作品為從未授權網站的地址下載的文字作品吋,將所述文字作品作為待識別的文字作品。優選的,所述對所述匹配結果庫中的所述未授權網站的地址中的被判定為非法拷貝的文字作品定期進行追蹤具體包括從所述匹配結果庫中提取所述未授權網站的地址信息;查詢所述未授權網站中的被判定為非法拷貝的文字作品內容是否存在,如果所述文字作品內容不存在,則更新所述匹配結果庫中的信息,將匹配結果庫中的所述未授權網 站的地址信息刪除;如果所述文字作品存在,則向所述未授權網站發送侵權警告信息。優選的,所述方法進ー步包括為文字作品母本庫中的每一部文字作品生成對應的數字指紋。優選的,所述為文字作品母本庫中的每一部文字作品生成對應的數字指紋具體包括從所述文字作品母本庫中讀取一部文字作品;從劃分方式集合中選取所有劃分方式作為預設的劃分方式;將所述文字作品按照預設的劃分方式劃分為至少ー個文字作品単元;提取每一個所述文字作品單元中的文字特征信息作為該文字作品單元的指紋特征;保存所述文字作品中的所有文字作品單元的指紋特征,生成所述文字作品的數字指紋。優選的,所述生成所述待識別的文字作品的數字指紋具體包括從劃分方式集合中選取至少ー種劃分方式作為預設的劃分方式;將所述待識別的文字作品按照預設的劃分方式劃分為至少ー個文字作品単元;提取每一個所述文字作品單元中的文字特征信息作為該文字作品單元的指紋特征;保存所述待識別的文字作品中至少ー個文字作品單元的指紋特征,生成所述待識別的文字作品的數字指紋。優選的,所述提取每ー個所述文字作品単元中的文字特征信息作為該文字作品單元的指紋特征具體包括將所述文字作品単元中的所有文字轉化為對應的拼音;提取每ー個文字對應的拼音的首字母,按照首字母對所述文字作品単元中的所有文字進行分類,統計每ー類首字母所包括的文字的字數;分別計算每ー類首字母所包括的文字的字數占所述文字作品単元中的所有文字的字數的比例,得到每ー類首字母對應的比例;將所述每ー類字母對應的比例組合成字符串,生成該文字作品単元的指紋特征。優選的,所述劃分方式集合包括將文字作品整體作為ー個文字作品單元進行劃分;和/或將文字作品的每ー個章節作為ー個文字作品單元進行劃分;和/或 將文字作品的每ー個段落作為ー個文字作品單元進行劃分。優選的,所述方法進ー步包括向所述匹配結果庫中的未授權網站發送侵權警告信息。優選的,所述方法進ー步包括讀取所述匹配結果庫中的未授權網站的地址信息和被判定為非法拷貝的文字作品的信息并顯示。本申請還公開了ー種文字作品的追蹤裝置,包括待識別文字作品獲取單元,用于獲取從未授權網站的地址下載的待識別的文字作品;待識別文字作品數字指紋生成単元,用于生成所述待識別的文字作品的數字指紋;數字指紋比對単元,用于將所述待識別的文字作品的數字指紋與預存在母本指紋庫中的所有數字指紋進行比對,分別得到待識別的文字作品的數字指紋與母本指紋庫中的數字指紋的相似度值;所述母本指紋庫存儲有文字作品母本庫中的所有文字作品的數字指紋;匹配単元,用于當有至少一條相似度值小于設定閾值時,則判定所述待識別的文字作品屬于非法拷貝,保存所述被判定為非法拷貝的文字作品的信息及所述未授權網站的地址信息至匹配結果庫;追蹤單元,用于對所述匹配結果庫中的所述未授權網站中的被判定為非法拷貝的文字作品定期進行追蹤。優選的,所述裝置進ー步包括文本索引庫建立単元,用于利用網絡爬蟲工具抓取相關的網頁地址,從所述網頁地址下載文字作品,建立所述文字作品的文本索引,生成文字作品索引庫;所述文字作品索弓I庫保存有文字作品與網頁地址的對應關系。優選的,所述裝置進ー步包括母本指紋庫建立単元,用于為文字作品母本庫中的每一部文字作品生成對應的數字指紋,建立母本指紋庫。本申請實施例的有益效果是本申請實施例提供的文字作品的追蹤方法和裝置,通過提取從未授權網址下載的待識別的文字作品的數字指紋,將所述待識別文字作品的數字指紋與預存在母本指紋庫中的所有數字指紋進行比對,分別得到待識別文字作品的數字指紋與母本指紋庫中的數字指紋的相似度值,當相似度值小于設定閾值時判定所述待識別的文字作品屬于非法拷貝,將判定為非法拷貝的文字作品及其網址信息保存至匹配結果庫中,并對所述匹配結果庫中的網頁地址中被判定為非法拷貝的文字作品定期進行追蹤,從而實現了對盜版文字作品的識別和追蹤。本申請提供的方法的目的不是跟蹤和識別文字作品非法拷貝的分發者,而是追蹤和識別所有展現非法拷貝的盜版網站,追蹤范圍更廣;提取文字作品本身的特征信息作為數字指紋,當網絡上的拷貝和母本本文檔來自技高網...
【技術保護點】
一種文字作品的追蹤方法,其特征在于,所述方法包括:獲取從未授權網站的地址下載的待識別的文字作品;生成所述待識別的文字作品的數字指紋;將所述待識別的文字作品的數字指紋與預存在母本指紋庫中的所有數字指紋進行比對,分別得到待識別的文字作品的數字指紋與母本指紋庫中的數字指紋的相似度值;所述母本指紋庫存儲有文字作品母本庫中的所有文字作品的數字指紋;當有至少一條相似度值小于設定閾值時,則判定所述待識別的文字作品屬于非法拷貝,保存所述被判定為非法拷貝的文字作品的信息及所述未授權網站的地址信息至匹配結果庫;對所述匹配結果庫中的所述未授權網站中的被判定為非法拷貝的文字作品定期進行追蹤。
【技術特征摘要】
【專利技術屬性】
技術研發人員:鄭達,陸堅,
申請(專利權)人:盛樂信息技術上海有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。