• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法技術(shù)

    技術(shù)編號(hào):10040235 閱讀:214 留言:0更新日期:2014-05-14 10:50
    本發(fā)明專利技術(shù)涉及一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,該具體過程為:基于網(wǎng)絡(luò)爬蟲對(duì)目標(biāo)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集;基于采集到的社交網(wǎng)絡(luò)中用戶對(duì)象之間的交互關(guān)系,計(jì)算每個(gè)用戶對(duì)象在交互網(wǎng)絡(luò)拓?fù)渲械南嚓P(guān)度;構(gòu)建用戶對(duì)象靜態(tài)的交互網(wǎng)絡(luò);利用層次聚類,根據(jù)用戶對(duì)象的相關(guān)度得到緊密的用戶社群結(jié)構(gòu);對(duì)于劃分出的每個(gè)社群,查找數(shù)據(jù)庫(kù)獲得該社群對(duì)應(yīng)的文本信息,將其作為文檔輸入,使用SVM分類,計(jì)算出該社群的熱門話題。本發(fā)明專利技術(shù)提出了一種基于社群劃分的社群話題發(fā)現(xiàn)方法,與現(xiàn)有的在線社交網(wǎng)絡(luò)話題發(fā)現(xiàn)方法相比,可以有效排除噪音數(shù)據(jù),獲得更為緊密的社群之間的話題,有助于更深入地了解社交網(wǎng)絡(luò)的信息傳播規(guī)律。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及社會(huì)計(jì)算
    ,尤其涉及一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法
    技術(shù)介紹
    隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)正逐漸成為人們交往的重要渠道,人與人之間的社會(huì)網(wǎng)絡(luò)關(guān)系蘊(yùn)藏進(jìn)了互聯(lián)網(wǎng)中,誕生了社交網(wǎng)絡(luò)服務(wù)。在社交網(wǎng)站通過在線服務(wù)向其用戶提供服務(wù)的過程中,用戶間形成了基于網(wǎng)絡(luò)的成員之間的社交網(wǎng)絡(luò)關(guān)系。社交網(wǎng)絡(luò)在我們的日常生活扮演重要角色。人們通過社會(huì)性關(guān)系來(lái)完成互相間的通信和信息分享。在這個(gè)過程中,形成了社交網(wǎng)絡(luò)中的話題。社交網(wǎng)絡(luò)是基于用戶關(guān)系實(shí)現(xiàn)信息的分享、獲取以及傳播的互聯(lián)網(wǎng)平臺(tái)。用戶利用社交網(wǎng)絡(luò)構(gòu)建和維持著自身的人際網(wǎng)絡(luò)關(guān)系,并在相關(guān)平臺(tái)上發(fā)布消息。社交網(wǎng)絡(luò)中通常包括一些松散的用戶集群,其中的成員相互聯(lián)系較之其余用戶更加密切,我們稱之為社群。發(fā)現(xiàn)這種固有的社會(huì)結(jié)構(gòu)中的話題分布有助于我們更深入地了解社交網(wǎng)絡(luò)的信息傳播規(guī)律。中國(guó)專利200880124053.7、201210210349.9提出了一些在線社交網(wǎng)絡(luò)的社群識(shí)別方法,但是無(wú)法在劃分的社群中發(fā)現(xiàn)話題。專利201210514421.7提出使用專家知識(shí)人工去除噪音用戶發(fā)現(xiàn)社交網(wǎng)絡(luò)中的重要目標(biāo)和專利201210054254.2采用分析用戶話題鏈接行為識(shí)別社交網(wǎng)絡(luò)中的話題領(lǐng)袖,都只能獲得社交網(wǎng)絡(luò)核心用戶的話題內(nèi)容。專利201210350117.3提出了一種發(fā)現(xiàn)社交網(wǎng)絡(luò)中弱鏈接的方法,可以有效尋找到話題路徑,但是無(wú)法發(fā)現(xiàn)具體的話題。專利201210210349.9能夠挖掘社交網(wǎng)絡(luò)中話題核心圈,依舊無(wú)法覆蓋所有社群的話題。鑒于上述缺陷,本專利技術(shù)創(chuàng)作者經(jīng)過長(zhǎng)時(shí)間的研究和實(shí)踐終于獲得了本創(chuàng)作。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的目的在于提供一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,用以克服上述技術(shù)缺陷。為實(shí)現(xiàn)上述目的,本專利技術(shù)提供一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,該具體過程為:步驟1,基于網(wǎng)絡(luò)爬蟲對(duì)目標(biāo)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集;步驟2,基于采集到的社交網(wǎng)絡(luò)中用戶對(duì)象之間的交互關(guān)系,計(jì)算每個(gè)用戶對(duì)象在交互網(wǎng)絡(luò)拓?fù)渲械南嚓P(guān)度;步驟3,構(gòu)建用戶對(duì)象靜態(tài)的交互網(wǎng)絡(luò);步驟4,利用層次聚類,根據(jù)用戶對(duì)象的相關(guān)度得到緊密的用戶社群結(jié)構(gòu);步驟5,對(duì)于劃分出的每個(gè)社群,查找數(shù)據(jù)庫(kù)獲得該社群對(duì)應(yīng)的文本信息,將其作為文檔輸入,使用SVM分類,計(jì)算出該社群的熱門話題。進(jìn)一步,通過下述公式(1)計(jì)算用戶之間的相關(guān)度ηij,并存入數(shù)據(jù)庫(kù)中,ηij=αij+1Σk=1nαik+n·h1+βij+1Σk=1nβik+n·h2+λij+1Σk=1nλik+n·h3---(1)]]>其中,ηij表示用戶i和用戶j的相關(guān)度,αij表示用戶i對(duì)用戶j的評(píng)論次數(shù),βij表示用戶i對(duì)用戶j的轉(zhuǎn)發(fā)次數(shù),γij表示用戶i對(duì)用戶j的分享次數(shù);h1,h2,h3分別表示評(píng)論、轉(zhuǎn)發(fā)、分享這三種操作的權(quán)值。進(jìn)一步,在上述步驟3中,對(duì)于一個(gè)含有n個(gè)用戶的社群Q,設(shè)其中的用戶分別為U1、U2、...Ui...Un,對(duì)于其中任意個(gè)用戶Ui,通過公式(1)的用戶相關(guān)度公式,可以計(jì)算出其和其它N-1個(gè)用戶的相關(guān)度ηij;定義向量為用戶i的社群相關(guān)度向量,則該向量表示用戶i對(duì)于社群中所有用戶的相關(guān)度;計(jì)算出社群中所有用戶的相關(guān)度向量Ai后,定義矩陣T為社群Q的相關(guān)度矩陣。進(jìn)一步,所述層次聚類,將網(wǎng)絡(luò)中聚類最近的兩個(gè)點(diǎn)或者集合不斷的聚集在一起,形成新的集合,最后會(huì)形成一顆聚類二叉樹,根據(jù)給定的社群數(shù)量,可以將其分割為任意數(shù)量的子樹,每個(gè)子樹對(duì)應(yīng)的用戶集合就是一個(gè)社群,在裁剪的過程中,不斷丟棄那些子樹個(gè)數(shù)為一的孤立節(jié)點(diǎn),實(shí)現(xiàn)對(duì)噪音數(shù)據(jù)的過濾。進(jìn)一步,在上述步驟4中,對(duì)目標(biāo)社交網(wǎng)絡(luò)劃分為K個(gè)社群的過程具體過程為:步驟41:對(duì)于一個(gè)社交網(wǎng)絡(luò)的相關(guān)度矩陣MQ,使用層次聚類方法獲得其聚類樹ClusterTree;步驟42:將ClusterTree加入聚類樹集合Q中;步驟43:如果Q中的聚類集合數(shù)量大于K直接進(jìn)入步驟44,否則選取集合Q中根節(jié)點(diǎn)距離最大的聚類樹拆為兩顆子樹,如果子樹的根節(jié)點(diǎn)數(shù)量小于2,則刪除該子樹,否則將子樹添加到集合Q中;步驟44:如果Q中的聚類集合數(shù)量小于K直接進(jìn)入步驟45,否則選取集合Q中根節(jié)點(diǎn)距離最小的兩顆聚類樹合并為一顆子樹;步驟45:如果Q中的聚類集合數(shù)量等于K則結(jié)束,否則返回43。進(jìn)一步,根據(jù)三種操作的重要程度不同和比例關(guān)系,所述h1=0.45;h2=0.3,h3=0.25。進(jìn)一步,所述步驟1中采集信息包括用戶發(fā)布的所有新鮮事文本,以及新鮮事條目下其他用戶對(duì)其進(jìn)行的轉(zhuǎn)發(fā)、分享、評(píng)論等交互操作;并在采集過程中,解析新鮮事信息中包含的交互操作。與現(xiàn)有技術(shù)相比較本專利技術(shù)的有益效果在于:本專利技術(shù)提出了一種基于社群劃分的社群話題發(fā)現(xiàn)方法,與現(xiàn)有的在線社交網(wǎng)絡(luò)話題發(fā)現(xiàn)方法相比,可以有效排除噪音數(shù)據(jù),獲得更為緊密的社群之間的話題,有助于更深入地了解社交網(wǎng)絡(luò)的信息傳播規(guī)律。附圖說(shuō)明圖1為本專利技術(shù)實(shí)例中話題發(fā)現(xiàn)的流程圖;圖2為本專利技術(shù)實(shí)例中的社群劃分過程的流程圖;圖3為本專利技術(shù)實(shí)例中的社群話題發(fā)現(xiàn)結(jié)果。具體實(shí)施方式以下結(jié)合附圖,對(duì)本專利技術(shù)上述的和另外的技術(shù)特征和優(yōu)點(diǎn)作更詳細(xì)的說(shuō)明。請(qǐng)參閱圖1所示,本專利技術(shù)對(duì)在線社交網(wǎng)絡(luò)平臺(tái)的不同社群熱點(diǎn)話題的發(fā)現(xiàn)的具體過程為:步驟1,基于網(wǎng)絡(luò)爬蟲對(duì)目標(biāo)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集;該數(shù)據(jù)信息包括用戶發(fā)布的所有新鮮事文本,以及新鮮事條目下其他用戶對(duì)其進(jìn)行的轉(zhuǎn)發(fā)、分享、評(píng)論等交互操作;并在采集過程中,解析新鮮事信息中包含的交互操作,如轉(zhuǎn)發(fā)、評(píng)論、分析、贊等。基于網(wǎng)絡(luò)爬蟲技術(shù),從目標(biāo)社交網(wǎng)絡(luò)中選取一個(gè)種子用戶,從其頁(yè)面開始,依次進(jìn)入社交網(wǎng)絡(luò)的其他用戶,采集其數(shù)據(jù)信息,并將采集結(jié)果存入數(shù)據(jù)庫(kù)中。步驟2,基于采集到的社交網(wǎng)絡(luò)中用戶對(duì)象之間的交互關(guān)系,計(jì)算每個(gè)用戶對(duì)象在交互網(wǎng)絡(luò)拓?fù)渲械南嚓P(guān)度;用戶相關(guān)度指的是用戶之間的交互程度,是本專利技術(shù)用來(lái)衡量用戶之間差異性,劃分不同的用戶社群的基準(zhǔn)。通過將用戶之間的操作加權(quán)賦值并歸一化,相互交互較多的用戶相關(guān)度較高,而相互交互較少的用戶相關(guān)度較低。本專利技術(shù)通過下述公式(1)計(jì)算用戶之間的相關(guān)度ηij,并存入數(shù)據(jù)庫(kù)中,ηij=αij本文檔來(lái)自技高網(wǎng)
    ...
    一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法

    【技術(shù)保護(hù)點(diǎn)】
    一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于,該具體過程為:步驟1,基于網(wǎng)絡(luò)爬蟲對(duì)目標(biāo)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集;步驟2,基于采集到的社交網(wǎng)絡(luò)中用戶對(duì)象之間的交互關(guān)系,計(jì)算每個(gè)用戶對(duì)象在交互網(wǎng)絡(luò)拓?fù)渲械南嚓P(guān)度;步驟3,構(gòu)建用戶對(duì)象靜態(tài)的交互網(wǎng)絡(luò);步驟4,利用層次聚類,根據(jù)用戶對(duì)象的相關(guān)度得到緊密的用戶社群結(jié)構(gòu);步驟5,對(duì)于劃分出的每個(gè)社群,查找數(shù)據(jù)庫(kù)獲得該社群對(duì)應(yīng)的文本信息,將其作為文檔輸入,使用SVM分類,計(jì)算出該社群的熱門話題。

    【技術(shù)特征摘要】
    1.一種在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征在于,該具體
    過程為:
    步驟1,基于網(wǎng)絡(luò)爬蟲對(duì)目標(biāo)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集;
    步驟2,基于采集到的社交網(wǎng)絡(luò)中用戶對(duì)象之間的交互關(guān)系,計(jì)算每
    個(gè)用戶對(duì)象在交互網(wǎng)絡(luò)拓?fù)渲械南嚓P(guān)度;
    步驟3,構(gòu)建用戶對(duì)象靜態(tài)的交互網(wǎng)絡(luò);
    步驟4,利用層次聚類,根據(jù)用戶對(duì)象的相關(guān)度得到緊密的用戶社群結(jié)
    構(gòu);
    步驟5,對(duì)于劃分出的每個(gè)社群,查找數(shù)據(jù)庫(kù)獲得該社群對(duì)應(yīng)的文本
    信息,將其作為文檔輸入,使用SVM分類,計(jì)算出該社群的熱門話題。
    2.根據(jù)權(quán)利要求1所述的在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其
    特征在于,
    通過下述公式(1)計(jì)算用戶之間的相關(guān)度ηij,并存入數(shù)據(jù)庫(kù)中,
    ηij=αij+1Σk=1nαik+n·h1+βij+1Σk=1nβik+n·h2+λij+1Σk=1nλik+n·h3---(1)]]>其中,ηij表示用戶i和用戶j的相關(guān)度,αij表示用戶i對(duì)用戶j的評(píng)
    論次數(shù),βij表示用戶i對(duì)用戶j的轉(zhuǎn)發(fā)次數(shù),γij表示用戶i對(duì)用戶j的分
    享次數(shù);h1,h2,h3分別表示評(píng)論、轉(zhuǎn)發(fā)、分享這三種操作的權(quán)值。
    3.根據(jù)權(quán)利2所述的在線社交網(wǎng)絡(luò)中社群話題的發(fā)現(xiàn)方法,其特征
    在于,在上述步驟3中,對(duì)于一個(gè)含有n個(gè)用戶的社群Q,設(shè)其中的用戶分
    別為U1、U2、...Ui...Un,對(duì)于其中任意個(gè)用戶Ui,通過公式(1)的用
    戶相關(guān)度公式,可以計(jì)算出其和其它N-1個(gè)用戶的相關(guān)度ηij;
    定義向量為用戶i的社群相
    關(guān)度向量,則該向量表示用戶i對(duì)于社群中所有用戶的相關(guān)度;
    計(jì)算出社群中所有...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:於志文張星梁韻基郭斌倪紅波王柱
    申請(qǐng)(專利權(quán))人:西北工業(yè)大學(xué)
    類型:發(fā)明
    國(guó)別省市:陜西;61

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲国产精品无码久久| 精品人妻中文无码AV在线| 亚洲中文字幕无码中文字在线| 午夜寂寞视频无码专区| 国产亚洲美日韩AV中文字幕无码成人| 亚洲VA中文字幕无码毛片| 日韩人妻系列无码专区| 午夜亚洲AV日韩AV无码大全| 天天看高清无码一区二区三区| 无码专区久久综合久中文字幕| 日韩AV无码精品一二三区| 亚洲AV无码无限在线观看不卡| 中文无码久久精品| 天码av无码一区二区三区四区 | 日韩人妻无码精品久久免费一| 狠狠精品干练久久久无码中文字幕| 97无码人妻福利免费公开在线视频| 久久亚洲精品无码gv| 人妻无码一区二区三区AV| 国精品无码一区二区三区在线 | 亚洲中文字幕无码爆乳| 国产AV无码专区亚洲AV毛网站| 亚洲成?Ⅴ人在线观看无码| 亚洲精品无码人妻无码| 最新无码人妻在线不卡| 精品欧洲av无码一区二区14| 久久午夜无码免费| 久久精品无码一区二区三区| 人妻丰满熟妇aⅴ无码| 久久中文精品无码中文字幕| 超清纯白嫩大学生无码网站| 国产做无码视频在线观看 | 亚洲精品一级无码中文字幕| 国产精品爽爽va在线观看无码| 无码人妻精品一二三区免费| 无码日本精品XXXXXXXXX| 亚洲爆乳精品无码一区二区| 成人年无码AV片在线观看| 五十路熟妇高熟无码视频| 免费无码又爽又刺激一高潮| 亚洲中文久久精品无码|