本發(fā)明專利技術(shù)實施例涉及網(wǎng)頁技術(shù)領(lǐng)域,公開了一種信息處理方法,包括:獲取待檢測網(wǎng)址以及獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址;爬取所述待檢測網(wǎng)址和所述鏈接網(wǎng)址,得到爬蟲結(jié)果;識別所述爬蟲結(jié)果中是否存在特征信息;若所述爬蟲結(jié)果中存在特征信息,將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中。本發(fā)明專利技術(shù)還提出一種信息處理裝置、電子設(shè)備以及一種計算機可讀存儲介質(zhì)。本發(fā)明專利技術(shù)提供的信息處理方法、信息處理裝置、電子設(shè)備以及計算機可讀存儲介質(zhì)可以快速檢測到網(wǎng)頁中存在的特征信息,提高網(wǎng)頁特征信息檢測結(jié)果的可靠性。
Information processing methods, devices, electronic equipment and storage media
【技術(shù)實現(xiàn)步驟摘要】
信息處理方法、裝置、電子設(shè)備及存儲介質(zhì)
本專利技術(shù)實施例涉及網(wǎng)頁
,特別涉及一種信息處理方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì)。
技術(shù)介紹
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)頁的數(shù)量呈現(xiàn)爆發(fā)式增長,網(wǎng)頁內(nèi)的信息也越來越豐富。目前很多網(wǎng)頁都添加了合作伙伴等第三方的站點鏈接,專利技術(shù)人發(fā)現(xiàn),這些站點鏈接上的信息存在不可控性,當(dāng)用戶訪問網(wǎng)頁時若跳轉(zhuǎn)至存在非法信息的站點,將極大的降低用戶體驗,甚至可能帶來用戶信息的泄露。但目前,通常通過人工審核的方式對網(wǎng)頁及網(wǎng)頁添加的第三方的站點鏈接是否存在不恰當(dāng)?shù)男畔⑦M行審核,由于通常第三方的站點鏈接會跟隨熱點更改,因此,通常需要在短時間內(nèi)對大量信息進行審核,這種人工審核的方式效率不高,并且由于效率不高也會帶來審核結(jié)果誤差率高的問題,從而導(dǎo)致對網(wǎng)頁內(nèi)容檢測結(jié)果的可靠性不高。
技術(shù)實現(xiàn)思路
本專利技術(shù)實施方式的目的在于提供一種信息處理方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì),可以快速檢測到網(wǎng)頁中存在的特征信息,提高網(wǎng)頁特征信息檢測結(jié)果的可靠性。為解決上述技術(shù)問題,本專利技術(shù)的實施方式提供了一種信息處理方法,所述方法包括:獲取待檢測網(wǎng)址以及獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址;爬取所述待檢測網(wǎng)址和所述鏈接網(wǎng)址,得到爬蟲結(jié)果;識別所述爬蟲結(jié)果中是否存在特征信息;若所述爬蟲結(jié)果中存在特征信息,將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中。本專利技術(shù)的實施方式還提供了一種信息處理裝置,所述裝置包括:獲取模塊,用于獲取待檢測網(wǎng)址以及獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址;爬蟲模塊,用于爬取所述待檢測網(wǎng)址和所述鏈接網(wǎng)址,得到爬蟲結(jié)果;識別模塊,用于識別所述爬蟲結(jié)果中是否存在特征信息;保存模塊,用于若所述爬蟲結(jié)果中存在特征信息,將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中。本專利技術(shù)的實施方式還提供了一種電子設(shè)備,所述電子設(shè)備包括:至少一個處理器;以及,與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行上述的信息處理方法。本專利技術(shù)的實施方式還提供了一種計算機可讀存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述信息處理。本專利技術(shù)實施方式相對于現(xiàn)有技術(shù)而言,其獲取待檢測網(wǎng)址以及獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址;爬取所述待檢測網(wǎng)址和所述鏈接網(wǎng)址,得到爬蟲結(jié)果;識別所述爬蟲結(jié)果中是否存在特征信息;若所述爬蟲結(jié)果中存在特征信息,將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中。通過爬取待檢測網(wǎng)址,從而能夠快速全面的獲取到待檢測網(wǎng)址和鏈接網(wǎng)址的信息并識別是否存在特征信息,提高了檢測網(wǎng)頁中是否存在特征信息的效率和準(zhǔn)確率,降低了錯誤率,提高了網(wǎng)頁特征信息檢測結(jié)果的可靠性,并且,本專利技術(shù)將準(zhǔn)確的識別結(jié)果保存到不可被篡改的區(qū)塊鏈中,進一步提高了網(wǎng)頁特征信息檢測結(jié)果的可靠性。進一步地,本專利技術(shù)通過遞歸爬取待檢測網(wǎng)址的方式,可以盡可能多的獲取到鏈接網(wǎng)址,從而能夠更加全面的獲取到點擊待檢測網(wǎng)址之后的可能瀏覽到的頁面信息,可以更全面的識別到特征信息是否存在,有利于提高檢測的準(zhǔn)確率。優(yōu)選地,所述獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址包括:遞歸爬取所述待檢測網(wǎng)址,得到所述待檢測鏈接網(wǎng)址的鏈接網(wǎng)址。優(yōu)選地,所述爬蟲結(jié)果包含多條爬取記錄,每條爬取記錄包含爬取內(nèi)容,所述識別所述爬蟲結(jié)果中是否存在特征信息包括:通過爬取內(nèi)容判斷所述多條爬取記錄中是否存在與預(yù)設(shè)特征信息匹配策略相匹配的目標(biāo)爬取記錄;若存在與所述預(yù)設(shè)特征信息匹配策略相匹配的目標(biāo)爬取記錄,確定所述目標(biāo)爬取記錄中存在特征信息。優(yōu)選地,所述將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中包括:將存在特征信息的目標(biāo)爬取記錄的爬取信息和/或所述預(yù)設(shè)特征信息匹配策略進行內(nèi)容拼接,得到包含所述爬蟲結(jié)果中的特征信息的特征信息識別記錄;將所述特征信息識別記錄保存在區(qū)塊鏈的區(qū)塊體中。優(yōu)選地,所述方法還包括:獲取所述區(qū)塊體對應(yīng)的交易號,通過所述交易號回溯查找所述特征信息識別記錄。優(yōu)選地,所述將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中包括:將存在特征信息的目標(biāo)爬取記錄的爬取信息和/或所述預(yù)設(shè)特征信息匹配策略進行內(nèi)容拼接,得到包含所述爬蟲結(jié)果中的特征信息的特征信息識別記錄;將所述所述特征信息識別記錄保存在區(qū)塊鏈的區(qū)塊體中。優(yōu)選地,所述特征信息為敏感信息。附圖說明一個或多個實施例通過與之對應(yīng)的附圖中的圖片進行示例性說明,這些示例性說明并不構(gòu)成對實施例的限定,附圖中具有相同參考數(shù)字標(biāo)號的元件表示為類似的元件,除非有特別申明,附圖中的圖不構(gòu)成比例限制。圖1為本專利技術(shù)第一實施例提供的信息處理方法的流程示意圖;圖2為本專利技術(shù)第二實施例提供的信息處理裝置的結(jié)構(gòu)示意圖;圖3為本專利技術(shù)第三實施例提供的電子設(shè)備的內(nèi)部結(jié)構(gòu)示意圖;本專利技術(shù)目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。具體實施方式為使本專利技術(shù)實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本專利技術(shù)的各實施方式進行詳細(xì)的闡述。然而,本領(lǐng)域的普通技術(shù)人員可以理解,在本專利技術(shù)各實施方式中,為了使讀者更好地理解本申請而提出了許多技術(shù)細(xì)節(jié)。但是,即使沒有這些技術(shù)細(xì)節(jié)和基于以下各實施方式的種種變化和修改,也可以實現(xiàn)本申請所要求保護的技術(shù)方案。本專利技術(shù)的第一實施方式涉及一種信息處理方法。下面對本實施方式的實現(xiàn)細(xì)節(jié)進行具體的說明,以下內(nèi)容僅為方便理解提供的實現(xiàn)細(xì)節(jié),并非實施本方案的必須。請參見圖1,圖1為第一實施例提供的信息處理方法的流程示意圖。本實施例中信息處理方法包括:S1,獲取待檢測網(wǎng)址以及獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址。本實施例中,所述待檢測網(wǎng)址是要進行檢測的網(wǎng)站的地址,待檢測網(wǎng)址的鏈接地址是指點擊待檢測網(wǎng)址中的內(nèi)容之后跳轉(zhuǎn)進入的網(wǎng)址。一種可選實施例中,所述待檢測網(wǎng)址和鏈接網(wǎng)址可以從與第三方的交互郵件中獲取。另一種可選實施例中,所述待檢測網(wǎng)址和鏈接網(wǎng)址保存在文本文件中,則可以直接從文本文件中獲取待檢測網(wǎng)址以及鏈接網(wǎng)址。另一可選實施例中,所述待檢測網(wǎng)址和鏈接網(wǎng)址保存在表格文件中,如保存在excel中,則可以直接從表格文件中獲取待檢測網(wǎng)址以及鏈接網(wǎng)址。又一種可選實施例中,所述待檢測網(wǎng)址和鏈接網(wǎng)址可以先后獲取,具體的,獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址包括:遞歸爬取所述待檢測網(wǎng)址,得到所述待檢測鏈接網(wǎng)址的鏈接網(wǎng)址。具體的,遞歸爬取所述待檢測網(wǎng)址,得到所述待檢測鏈接網(wǎng)址的鏈接網(wǎng)址包括:掃描所述待檢測網(wǎng)址的網(wǎng)頁內(nèi)容,獲取所述網(wǎng)頁內(nèi)容中包含的網(wǎng)頁鏈接標(biāo)識符,獲取所述網(wǎng)頁鏈接標(biāo)識符標(biāo)識的網(wǎng)址為第一鏈接網(wǎng)址,以及獲取第一鏈接網(wǎng)址中鏈接的第二鏈接網(wǎng)址,獲取第二鏈接網(wǎng)址中鏈接的第三鏈接網(wǎng)址,以此類推。在具體實施時,可以獲取存在的所有鏈接網(wǎng)址,也可以用戶對待檢測網(wǎng)站的歷史點擊深度確定遞歸的次數(shù),其中,歷史點擊深度可以根據(jù)預(yù)設(shè)埋點的方法獲取。本實施例中,所述鏈接標(biāo)識符包括但不限于www,https,http。本實施例中,當(dāng)將待檢測網(wǎng)址保存在文本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種信息處理方法,其特征在于,所述方法包括:/n獲取待檢測網(wǎng)址以及獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址;/n爬取所述待檢測網(wǎng)址和所述鏈接網(wǎng)址,得到爬蟲結(jié)果;/n識別所述爬蟲結(jié)果中是否存在特征信息;/n若所述爬蟲結(jié)果中存在特征信息,將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中。/n
【技術(shù)特征摘要】
1.一種信息處理方法,其特征在于,所述方法包括:
獲取待檢測網(wǎng)址以及獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址;
爬取所述待檢測網(wǎng)址和所述鏈接網(wǎng)址,得到爬蟲結(jié)果;
識別所述爬蟲結(jié)果中是否存在特征信息;
若所述爬蟲結(jié)果中存在特征信息,將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中。
2.如權(quán)利要求1所述的信息處理方法,其特征在于,所述獲取所述待檢測網(wǎng)址的鏈接網(wǎng)址包括:
遞歸爬取所述待檢測網(wǎng)址,得到所述待檢測鏈接網(wǎng)址的鏈接網(wǎng)址。
3.如權(quán)利要求1或2所述的信息處理方法,其特征在于,所述爬蟲結(jié)果包含多條爬取記錄,每條爬取記錄包含爬取內(nèi)容,所述識別所述爬蟲結(jié)果中是否存在特征信息包括:
通過爬取內(nèi)容判斷所述多條爬取記錄中是否存在與預(yù)設(shè)特征信息匹配策略相匹配的目標(biāo)爬取記錄;
若存在與所述預(yù)設(shè)特征信息匹配策略相匹配的目標(biāo)爬取記錄,確定所述目標(biāo)爬取記錄中存在特征信息。
4.如權(quán)利要求3所述的信息處理方法,其特征在于,所述將所述爬蟲結(jié)果中的特征信息保存至區(qū)塊鏈中包括:
將存在特征信息的目標(biāo)爬取記錄的爬取信息和/或所述預(yù)設(shè)特征信息匹配策略進行內(nèi)容拼接,得到包含所述爬蟲結(jié)果中的特征信息的特征信息識別記錄;
將所述特征信息識別記錄保存在區(qū)塊鏈的區(qū)塊體中。
5.如權(quán)利要求4所述的信息處理方法,其特征在于,所述方法還包括:
獲取所述區(qū)塊體對應(yīng)的交易號,通過所述交易號回溯查找所述特征信息識別記錄。
6.如權(quán)利要求4所述的信...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:侯姍姍,秦俊鋒,楊夢茹,張云蕾,周一楓,
申請(專利權(quán))人:中移杭州信息技術(shù)有限公司,中國移動通信集團有限公司,
類型:發(fā)明
國別省市:浙江;33
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。