本發明專利技術公開了一種電子郵件收集分類方法,包括:掃描服務器中所有被舉報的郵件,提取被舉報次數大于或等于n的目標郵件,n為默認值,所述被舉報的郵件包括被舉報為正常郵件及被舉報為垃圾郵件的郵件;計算所述目標郵件的置信度,得出計算結果;根據所述計算結果判定所述目標郵件為垃圾郵件或正常郵件,并存儲到數據庫中。采用本發明專利技術無需安排專人對大量郵件進行分類標注,而是直接利用計算機收集用戶的反饋信息,減輕了人工的工作量,確保了分類的準確率,同時也無需人工對郵件進行閱讀,保護了用戶的隱私。
【技術實現步驟摘要】
本專利技術涉及通信
,尤其涉及。
技術介紹
目前,進行文本分類使用的是人工智能分類算法,這些算法需先對學習樣本進行學習,構造出對應的判別模型后,才可進行文本分類;因此,需先獲取學習樣本,目前獲取學習樣本的方法是人工直接對一批抽樣進行標注,標注郵件為垃圾郵件或非垃圾郵件。由于分類算法需要有足夠的學習信息量,至少需要對幾萬封學習樣本進行學習才能構造出一個可靠的模型,因此,需要安排專人對幾萬封郵件進行分類標注,其工作量巨大,而且人工長期進行這類重復工作,容易出現失誤,導致樣本錯誤率增高,影響分類算法最終的學習效果;另外,在對郵件進行分類標注時,需人工閱讀用戶郵件,侵犯了用戶的隱 私。
技術實現思路
本專利技術實施例所要解決的技術問題在于,提供,該方法無需安排專人對大量郵件進行分類標注,而是直接利用計算機收集用戶的反饋信息,減輕了人工的工作量,確保了分類的準確率,同時也無需人工對郵件進行閱讀,保護了用戶的隱私。為了解決上述技術問題,本專利技術實施例提供了,包括掃描服務器中所有被舉報的郵件,提取被舉報次數大于或等于η的目標郵件,η為默認值,所述被舉報的郵件包括被舉報為正常郵件及被舉報為垃圾郵件的郵件;計算所述目標郵件的置信度,得出計算結果;根據所述計算結果判定所述目標郵件為垃圾郵件或正常郵件,并存儲到數據庫中。作為上述方案的改進,所述計算所述目標郵件的置信度的步驟包括將所有把目標郵件舉報為正常郵件的舉報人的置信度相加,得出總正常郵件置信度X ;將所有把目標郵件舉報為垃圾郵件的舉報人的置信度相加,得出總垃圾郵件置信度Y;計算總正常郵件置信度X與總垃圾郵件置信度Y的差的絕對值Ix-Yl,得出計算結果。作為上述方案的改進,所述根據所述計算結果判定所述目標郵件為垃圾郵件或正常郵件的步驟包括將所述總正常郵件置信度X與總垃圾郵件置信度Y的差的絕對值Ix-Yl與閾值T進行比較,判斷Ix-Yl是否小于τ,判斷為是時,暫時不對該郵件進行判定,判斷為否時,比較X與Y的大小,當X大于Y時,判定郵件為正常郵件,當X小于Y時,判定郵件為垃圾郵件。作為上述方案的改進,在所述計算所述目標郵件的置信度的步驟之前還包括將初次舉報郵件的舉報人的初始置信度預設為I。作為上述方案的改進,所述電子郵件收集分類方法還包括更新舉報人的置信度,增加與最終判定結果一致的舉報人的置信度,降低與最終判定結果不一致的舉報人的置信度。作為上述方案的改進,所述置信度的增加速度比降低速度慢。作為上述方案的改進,所述置信度設有最大值及最小值,所述置信度上升到最大值后就不再增加,下降到最小值后就不再降低。實施本專利技術的有益效果在于通過計算機掃描服務器中所有被舉報的郵件,提取被舉報次數大于或等于系統默認值的目標郵件,基于置信度對目標郵件進行置信度計算,然后根據計算結果判定被舉報的郵件為垃圾郵件或正常郵件,并收集到對應的數據庫中;該過程是通過計算機基于置信度對用戶反饋信息進行直接處理,減輕了人工的工作強度及工作量,確保了分類的準確率,且無需人工對郵件進行閱讀,保護了用戶的隱私。附圖說明圖I是本專利技術的第一實施例流程結構示意圖; 圖2是本專利技術的第二實施例流程結構示意 圖3是本專利技術的第三實施例流程結構示意 圖4是本專利技術的第四實施例流程結構示意圖。具體實施例方式為使本專利技術的目的、技術方案和優點更加清楚,下面將結合附圖對本專利技術作進一步地詳細描述。圖I是本專利技術的第一實施例流程結構示意圖,包括S100,掃描服務器中所有被舉報的郵件,提取被舉報次數大于或等于η的目標郵件。η為默認值,所述被舉報的郵件包括被舉報為正常郵件及被舉報為垃圾郵件的郵件。需要說明的是,是通過計算機自動對服務器中所有被舉報的郵件進行掃描,計算機每隔一定時間就會對服務器掃描一次;默認值η可根據具體情況設置,優選地,默認值η為3。S101,計算所述目標郵件的置信度,得出計算結果。S102,根據所述計算結果判定所述目標郵件為垃圾郵件或正常郵件,并存儲到數據庫中。需要說明的是,判定結果為垃圾郵件的存儲到垃圾郵件數據庫中,判定結果為正常郵件的存儲到正常郵件數據庫中。圖2是本專利技術的第二實施例流程結構示意圖,包括S200,掃描服務器中所有被舉報的郵件,提取被舉報次數大于或等于η的目標郵件。η為默認值,所述被舉報的郵件包括被舉報為正常郵件及被舉報為垃圾郵件的郵件。需要說明的是,是通過計算機自動對服務器中所有被舉報的郵件進行掃描,計算機每隔一定時間就會對服務器掃描一次;默認值η可根據具體情況設置,優選地,默認值η為3。S201,將所有把目標郵件舉報為正常郵件的舉報人的置信度相加,得出總正常郵件置信度X。S202,將所有把目標郵件舉報為垃圾郵件的舉報人的置信度相加,得出總垃圾郵件置信度Y。需要說明的是,步驟S201與S202沒有先后順序,可同時進行。S203,計算總正常郵件置信度X與總垃圾郵件置信度Y的差的絕對值IX-YI,得出計算結果。S204,根據所述計算結果判定所述目標郵件為垃圾郵件或正常郵件,并存儲到數據庫中。需要說明的是,判定結果為垃圾郵件的存儲到垃圾郵件數據庫中,判定結果為正常郵件的存儲到正常郵件數據庫中。 例如,M郵件經掃描發現被舉報了 4次,大于默認值3(預設),因此被提取為目標郵件,其中舉報人A和B將M郵件舉報為正常郵件,舉報人C和D將M郵件舉報為垃圾郵件,舉報人A的置信度為5,舉報人B的置信度為10,舉報人C的置信度為3,舉報人D的置信度為8 ;則總正常郵件置信度X為5+10=15,總垃圾郵件置信度Y為3+8=11,總正常郵件置信度X與總垃圾郵件置信度Y的差的絕對值IX-YI為115-111 =4。圖3是本專利技術的第三實施例流程結構示意圖,包括S300,掃描服務器中所有被舉報的郵件,提取被舉報次數大于或等于η的目標郵件。η為默認值,所述被舉報的郵件包括被舉報為正常郵件及被舉報為垃圾郵件的郵件。需要說明的是,是通過計算機自動對服務器中所有被舉報的郵件進行掃描,計算機每隔一定時間就會對服務器掃描一次;默認值η可根據具體情況設置,優選地,默認值η為3。S301,將所有把目標郵件舉報為正常郵件的舉報人的置信度相加,得出總正常郵件置信度X。S302,將所有把目標郵件舉報為垃圾郵件的舉報人的置信度相加,得出總垃圾郵件置信度Y。需要說明的是,步驟S301與S302沒有先后順序,可同時進行。S303,計算總正常郵件置信度X與總垃圾郵件置信度Y的差的絕對值IX-YI,得出計算結果。S304,將所述總正常郵件置信度X與總垃圾郵件置信度Y的差的絕對值IX-YI與閾值τ進行比較,判斷Ix-Yl是否小于τ。需要說明的是,閾值T可根據具體情況進行預設,通常閾值T要高于初始置信度,優選地閾值T為3。判斷為是時,暫時不對該郵件進行判定。需要說明的是,對暫時不進行判定的目標郵件,將其繼續暫存服務器中,留予后續掃描判定。判斷為否時,比較X與Y的大小,當X大于Y時,判定郵件為正常郵件,當X小于Y時,判定郵件為垃圾郵件。需要說明的是,判定結果為垃圾郵件的存儲到垃圾郵件數據庫中,判定結果為正常郵件的存儲到正常郵件數據庫中。例如,m郵件經掃描發現被舉報了 4次,大于默認值3 (預設),因此被提取為目標郵件,其中舉報人a和b將m郵件舉報為正常郵件,舉報人c和d本文檔來自技高網...
【技術保護點】
一種電子郵件收集分類方法,其特征在于,包括:掃描服務器中所有被舉報的郵件,提取被舉報次數大于或等于n的目標郵件,n為默認值,所述被舉報的郵件包括被舉報為正常郵件及被舉報為垃圾郵件的郵件;計算所述目標郵件的置信度,得出計算結果;根據所述計算結果判定所述目標郵件為垃圾郵件或正常郵件,并存儲到數據庫中。
【技術特征摘要】
【專利技術屬性】
技術研發人員:林延中,潘慶峰,
申請(專利權)人:盈世信息科技北京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。