• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>淮陰工學院專利>正文

    一種多維度網頁瀏覽行為評估方法技術

    技術編號:15704890 閱讀:245 留言:0更新日期:2017-06-26 10:16
    本發明專利技術公開了一種多維度網頁瀏覽行為評估方法,首先對搜狗語料庫中的文本分詞,以TF?IDF作為文本特征,采用樸素貝葉斯方法對語料庫進行訓練得到文本訓練集,將搜狗語料庫中的文本折半切分,得到驗證測試集,通過遍歷得到最優拉普拉斯平滑參數Alpha,再爬取已瀏覽網頁的指定文本內容,得到已瀏覽網頁標題集,接著采用Alpha的樸素貝葉斯方法對已瀏覽網頁標題集進行分類,得到已瀏覽網頁分類集,并將大于閾值的網頁信息加入文本訓練集中,利用瀏覽網頁時的停留時間、瀏覽終端等多維度數據,采用終端?時間?分類判別方法對網頁瀏覽數據進行評估,得到評估結果。本發明專利技術方法有效分析了網頁瀏覽信息,提高了網頁瀏覽行為評估的準確度。

    【技術實現步驟摘要】
    一種多維度網頁瀏覽行為評估方法
    本專利技術屬于網頁瀏覽行為分析
    ,特別涉及一種基于TF-IDF和樸素貝葉斯多維度的網頁瀏覽行為評估方法。
    技術介紹
    瀏覽網頁行為評估方法對實現人員的行為習慣分析有著重要的作用和意義。傳統的網頁瀏覽分析由問卷調查的方法已經不能滿足社會信息化發展的需求。近年來針對不同種類人群的網絡行為分析,研究者提出了相應的分析方法,如神經網絡、支持向量機、決策樹、KNN方法、遺傳方法等。朱全銀、賈笑穎等人已有的研究基礎包括:朱全銀,嚴云洋,周培,谷天峰.一種基于線性插補與自適應滑動窗口的商品價格預測模型.山東大學學報.2012,Vol.42(5):53-58;朱全銀,潘祿,劉文儒,等.Web科技新聞分類抽取方法[J].淮陰工學院學報,2015,24(5):18-24;李翔,朱全銀.聯合聚類和評分矩陣共享的協同過濾推薦[J].計算機科學與探索,2014,8(6):751-759;QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82;QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285;QuanyinZhu,SuqunCao,PeiZhou,YunyangYan,HongZhou.IntegratedPriceForecastbasedonDichotomyBackfillingandDisturbanceFactorAlgorithm.InternationalReviewonComputersandSoftware,2011,Vol.6(6):1089-1093;ZhuQuan-yin,YinYonghua,YanYun-yang,GuTian-feng.ANovelEfficientAdaptiveSlidingWindowModelforWeek-aheadPriceForecasting.TELKOMNIKAIndonesianJournalofElectricalEngineering.2014.Vol.12(3):2219-2226;ZhuQuanyin,PanLu,YinYonghuaLiXiang.InfluenceonNormalizationandMagnitudeNormalizationforPriceForecastingofAgriculturalProducts.InformationTechnologyJournal(ITJ).2013.Vol.12(15):3046-3057;QuanyinZhu,JinDing,YonghuaYin,PeiZhou.AHybridApproachforNewProductsDiscoveryofCellPhoneBasedonWebMining.JournalofInformationandComputationalScience(JICS).2012,Vol.9(16):5039-5046。朱全銀、賈笑穎等人申請、公開與授權的相關專利:朱全銀,尹永華,嚴云楊,曹蘇群等,一種基于神經網絡的多品種商品價格預測的數據預處理方法.中國專利:ZL201210325368.6,2016.06.08;朱全銀,胡蓉靜,何蘇群,周培等.一種基于線性插補與自適應滑動窗口的商品價格預測方法.中國專利:ZL201110423015.5,2015.07.01;朱全銀,曹蘇群,嚴云洋,胡蓉靜等,一種基于二分數據修補與擾亂因子的商品價格預測方法.中國專利:ZL201110422274.6,2015.07.01;朱全銀,辛誠,李翔,潘舒新等,一種基于K-means和LDA雙向驗證的網絡行為習慣聚類方法.中國專利公開號:CN106202480A,2016.12.07;朱全銀,辛誠,劉斌,潘舒新等,一種基于分類語料庫-關鍵詞詞頻-記錄關聯的網絡行為習慣量化方法.中國專利公開號CN106202498A,2016.12.07;李翔,朱全銀,胡榮林,周泓.一種基于譜聚類的冷鏈物流配載智能推薦方法.中國專利公開號:CN105654267A,2016.06.08。TF-IDF:TF-IDF(TermFrequency–InverseDocumentFrequency)是一種用于資訊檢索與文本挖掘的常用加權技術。在一份給定的文件里,詞頻(TermFrequency,TF)指的是某一個給定的詞語在該文件中出現的次數;逆向文件頻率(InverseDocumentFrequency,IDF)是一個詞語普遍重要性的度量,某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。樸素貝葉斯方法:樸素貝葉斯方法是文本分類的一種熱門方法,文本分類是以詞頻為特征判斷文件所屬類別或其他的問題。樸素貝葉斯分類器是一系列以假設特征之間強獨立下運用貝葉斯定理為基礎的簡單概率分類器。樸素貝葉斯分類器是高度可擴展的,因此需要數量與學習問題中的變量(特征/預測器)成線性關系的參數。最大似然訓練可以通過評估一個封閉形式的表達式來完成,只需花費線性時間,而不需要其他很多類型的分類器所使用的費時的迭代逼近。拉普拉斯平滑參數:拉普拉斯平滑(LamplaceSmoothing)是一種比較常用的平滑方法,用于解決零概率問題。所謂的零概率問題,就是在計算新實例的概率時,如果某個分量在訓練集中從沒出現過,會導致整個實例的概率計算結果為0。針對這種情況,使用拉普拉斯平滑值后,在計算數據的最大似然估計時,會在計算公式中加上取值范圍的大小,從而修正樸素貝葉斯算法,避免了零概率的出現。
    技術實現思路
    專利技術目的:針對現有技術中存在的問題,本專利技術提供一種減少網頁瀏覽數據量,節約時間;能夠準確反映人員的網頁瀏覽行為的多維度網頁瀏覽行為評估方法。技術方案:為解決上述技術問題,本專利技術提供的一種多維度網頁瀏覽行為評估方法,包括如下步驟:步驟一:對搜狗語料庫中的文本分詞,計算詞語的詞頻TF和逆向文件概率IDF作為文本特征,采用樸素貝葉斯方法對語料庫進行文本分類訓練,得到文本訓練集,對搜狗語料庫中的文本折半切分,得到驗證測試集,通過遍歷,得到最優拉普拉斯平滑參數Alpha;步驟二:通過一種改進型的自適應網頁爬取方法,對待處理的網頁瀏覽數據進行標題數據的爬取,得到處理后的已瀏覽網頁標題集;步驟三:對步驟二中處理后的已瀏覽網頁標題集進行分詞,得到網頁分詞集,使用步驟一中的拉普拉斯平滑參數Alpha的樸素貝葉斯方法對網頁分詞集進行分類,得到已瀏覽網頁分類集,設置網頁類型判斷閾值,將大于閾值的網頁分詞集加入文本文檔來自技高網
    ...
    一種多維度網頁瀏覽行為評估方法

    【技術保護點】
    一種多維度網頁瀏覽行為評估方法,其特征在于,包括如下步驟:步驟一:對搜狗語料庫中的文本分詞,計算詞語的詞頻TF和逆向文件概率IDF作為文本特征,采用樸素貝葉斯方法對語料庫進行文本分類訓練,得到文本訓練集,對搜狗語料庫中的文本折半切分,得到驗證測試集,通過遍歷,得到最優拉普拉斯平滑參數Alpha;步驟二:通過一種改進型的自適應網頁爬取方法,對待處理的網頁瀏覽數據進行標題數據的爬取,得到處理后的已瀏覽網頁標題集;步驟三:對步驟二中處理后的已瀏覽網頁標題集進行分詞,得到網頁分詞集,使用步驟一中的拉普拉斯平滑參數Alpha的樸素貝葉斯方法對網頁分詞集進行分類,得到已瀏覽網頁分類集,設置網頁類型判斷閾值,將大于閾值的網頁分詞集加入文本訓練集中;步驟四:對處理后的網頁分類、瀏覽時間、瀏覽終端等網頁瀏覽數據進行預處理,采用終端?時間?分類判別方法對處理后的網頁瀏覽數據進行評估,得到網頁瀏覽行為評估結果。

    【技術特征摘要】
    1.一種多維度網頁瀏覽行為評估方法,其特征在于,包括如下步驟:步驟一:對搜狗語料庫中的文本分詞,計算詞語的詞頻TF和逆向文件概率IDF作為文本特征,采用樸素貝葉斯方法對語料庫進行文本分類訓練,得到文本訓練集,對搜狗語料庫中的文本折半切分,得到驗證測試集,通過遍歷,得到最優拉普拉斯平滑參數Alpha;步驟二:通過一種改進型的自適應網頁爬取方法,對待處理的網頁瀏覽數據進行標題數據的爬取,得到處理后的已瀏覽網頁標題集;步驟三:對步驟二中處理后的已瀏覽網頁標題集進行分詞,得到網頁分詞集,使用步驟一中的拉普拉斯平滑參數Alpha的樸素貝葉斯方法對網頁分詞集進行分類,得到已瀏覽網頁分類集,設置網頁類型判斷閾值,將大于閾值的網頁分詞集加入文本訓練集中;步驟四:對處理后的網頁分類、瀏覽時間、瀏覽終端等網頁瀏覽數據進行預處理,采用終端-時間-分類判別方法對處理后的網頁瀏覽數據進行評估,得到網頁瀏覽行為評估結果。2.根據權利要求1所述的一種多維度網頁瀏覽行為評估方法,其特征在于,所述步驟一中得到最優拉普拉斯平滑參數Alpha的具體方法為:步驟1.1:定義網頁分類類型、搜狗語料庫文本類型和停用詞;步驟1.2:對搜狗語料庫中的文本進行分詞并且剔除停用詞;步驟1.3:計算分詞后文本詞語的詞頻TF和逆向文件概率IDF;步驟1.4:以TF-IDF作為文本特征,使用樸素貝葉斯方法訓練搜狗語料庫中的文本,得到文本訓練集;步驟1.5:將搜狗語料庫中的文本折半拆分,作為驗證測試集,通過遍歷,得到使用樸素貝葉斯方法時的最優拉普拉斯平滑參數Alpha。3.根據權利要求1所述的一種多維度網頁瀏覽行為評估方法,其特征在于,所述步驟二中得到處理后的已瀏覽網頁標題集的具體方法為:步驟2.1:定義已瀏覽網頁地址集、網頁停用詞集和已瀏覽網頁標題集;步驟2.2:將已瀏覽網頁地...

    【專利技術屬性】
    技術研發人員:朱全銀潘舒新馮萬利李翔賈笑穎胡榮林周泓于柿民趙陽瞿學新楊茂燦唐海波邵武杰
    申請(專利權)人:淮陰工學院
    類型:發明
    國別省市:江蘇,32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 欧洲无码一区二区三区在线观看 | 亚洲国产日产无码精品| 少妇无码AV无码一区| 亚洲精品无码久久久久秋霞 | 久久亚洲精品无码播放| 无码福利写真片视频在线播放| 亚洲AV无码专区国产乱码不卡 | 精品日韩亚洲AV无码一区二区三区 | 亚洲AV无码一区二区三区牲色| 国产亚洲大尺度无码无码专线| 无码国产精品一区二区免费虚拟VR| 国产自无码视频在线观看| 精品少妇人妻AV无码专区不卡 | 无码专区HEYZO色欲AV| 无码日韩精品一区二区免费暖暖| 无码任你躁久久久久久老妇| 制服在线无码专区| 亚洲av无码成人黄网站在线观看| 狼人无码精华AV午夜精品| 亚洲国产成人无码AV在线| 国产精品无码专区| 免费a级毛片无码a∨免费软件| 无码日韩人妻AV一区二区三区| 亚洲av永久中文无码精品| 无码人妻丰满熟妇区96 | 精品少妇人妻AV无码专区不卡 | 999久久久无码国产精品| 人妻无码一区二区不卡无码av| 亚洲中文字幕无码永久在线| 亚洲中文字幕无码爆乳AV| 狠狠躁天天躁无码中文字幕| 惠民福利中文字幕人妻无码乱精品 | 一本色道无码道DVD在线观看| 亚洲国产成人精品无码一区二区 | 精品无人区无码乱码大片国产| 蜜色欲多人AV久久无码| 亚洲av永久无码精品网址| 日韩毛片无码永久免费看| H无码精品3D动漫在线观看| 中文一国产一无码一日韩| 国产AV无码专区亚洲Av|