The embodiment of the invention discloses a method and a device for training object clustering method and model to solve the existing technology in the classification process due to factors of human intervention, and affect the final accuracy of classification problems. Including the object clustering method: according to the preset characteristic corresponding with each object sets the object to be clustering in the value of Euclidean distance between any set in the object of two objects; the set of objects in the object according to the Euclidean distance distribution in three-dimensional space; the set of objects based on the distribution of objects in the three-dimensional space, first determine the number of objects in the neighborhood of the core object within a predetermined radius is not less than the preset value; the preset radius to determine the number of objects in the neighborhood within a predetermined radius is not less than the preset value, and is the first core object within the field of the second core the object; the first object and the second core objects belonging to the same object group.
【技術(shù)實(shí)現(xiàn)步驟摘要】
對(duì)象分群方法、模型訓(xùn)練方法及裝置
本申請(qǐng)涉及計(jì)算機(jī)技術(shù),特別涉及一種對(duì)象分群方法、模型訓(xùn)練方法及裝置。
技術(shù)介紹
目前,機(jī)器學(xué)習(xí)(MachineLearning,ML)應(yīng)用于人工智能的各個(gè)領(lǐng)域。例如:通過(guò)提取用戶的信用數(shù)據(jù)來(lái)進(jìn)行機(jī)器學(xué)習(xí),得到信用評(píng)分模型。以信用評(píng)分的應(yīng)用為例,一般是將所有用戶的信用數(shù)據(jù)來(lái)進(jìn)行機(jī)器學(xué)習(xí),得到一個(gè)統(tǒng)一的信用評(píng)分模型,并在這個(gè)統(tǒng)一的信用評(píng)分模型中完成所有用戶的信用評(píng)估。實(shí)踐證明,由于用戶群中存在不同的群體特性或人群分布,上述統(tǒng)一的信用評(píng)分模型往往很難達(dá)到令人滿意的信用評(píng)估效果。故,合理地對(duì)用戶群進(jìn)行人群劃分,并根據(jù)不同人群分別建立信用評(píng)估模型,已成為當(dāng)前信用評(píng)估過(guò)程的重要環(huán)節(jié)。現(xiàn)有技術(shù)中,一般可以利用監(jiān)督學(xué)習(xí)(SupervisedLearning)或半監(jiān)督學(xué)習(xí)(Semi-SupervisedLearning,SSL)來(lái)實(shí)現(xiàn)上述群劃分,例如:邏輯回歸(LogisticRegression)。其中,在監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)中,一般需要預(yù)先對(duì)群劃分進(jìn)行人為定義(如:預(yù)先確定群聚類(lèi)的個(gè)數(shù))。可見(jiàn),在現(xiàn)有技術(shù)中,由于在監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)的過(guò)程中,一般需要預(yù)先對(duì)群劃分進(jìn)行人為定義,使得群劃分過(guò)程中因存在人為干預(yù)的因素,而影響最終群劃分的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
本申請(qǐng)實(shí)施例的目的是提供一種對(duì)象分群方法、模型訓(xùn)練方法及裝置,以解決現(xiàn)有技術(shù)中的群劃分過(guò)程中因存在人為干預(yù)的因素,而影響最終群劃分的準(zhǔn)確性的問(wèn)題。為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供的對(duì)象分群方法、模型訓(xùn)練方法及裝置是這樣實(shí)現(xiàn)的:一種對(duì)象分群方法,包括:根據(jù)與待分群的對(duì)象集合中的各個(gè)對(duì)象對(duì) ...
【技術(shù)保護(hù)點(diǎn)】
一種對(duì)象分群方法,其特征在于,包括:根據(jù)與待分群的對(duì)象集合中的各個(gè)對(duì)象對(duì)應(yīng)的預(yù)設(shè)特征值,確定所述對(duì)象集合中的任意兩個(gè)對(duì)象之間的歐式距離;將所述對(duì)象集合中的對(duì)象按照所述歐式距離在三維空間內(nèi)進(jìn)行分布;基于所述對(duì)象集合中的對(duì)象在所述三維空間內(nèi)的分布,確定在預(yù)設(shè)半徑的鄰域內(nèi)的對(duì)象數(shù)量不小于預(yù)設(shè)數(shù)值的第一核心對(duì)象;確定在預(yù)設(shè)半徑的鄰域內(nèi)的對(duì)象數(shù)量不小于預(yù)設(shè)數(shù)值的、且處于所述第一核心對(duì)象的預(yù)設(shè)半徑的領(lǐng)域內(nèi)的第二核心對(duì)象;將所述第一核心對(duì)象和所述第二核心對(duì)象歸屬于同一個(gè)對(duì)象群。
【技術(shù)特征摘要】
1.一種對(duì)象分群方法,其特征在于,包括:根據(jù)與待分群的對(duì)象集合中的各個(gè)對(duì)象對(duì)應(yīng)的預(yù)設(shè)特征值,確定所述對(duì)象集合中的任意兩個(gè)對(duì)象之間的歐式距離;將所述對(duì)象集合中的對(duì)象按照所述歐式距離在三維空間內(nèi)進(jìn)行分布;基于所述對(duì)象集合中的對(duì)象在所述三維空間內(nèi)的分布,確定在預(yù)設(shè)半徑的鄰域內(nèi)的對(duì)象數(shù)量不小于預(yù)設(shè)數(shù)值的第一核心對(duì)象;確定在預(yù)設(shè)半徑的鄰域內(nèi)的對(duì)象數(shù)量不小于預(yù)設(shè)數(shù)值的、且處于所述第一核心對(duì)象的預(yù)設(shè)半徑的領(lǐng)域內(nèi)的第二核心對(duì)象;將所述第一核心對(duì)象和所述第二核心對(duì)象歸屬于同一個(gè)對(duì)象群。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述第一核心對(duì)象和所述第二核心對(duì)象歸屬于同一個(gè)對(duì)象群之后,還包括:將所述對(duì)象集合中未歸屬于任何一個(gè)對(duì)象群的對(duì)象確定為離群對(duì)象;確定與所述離群對(duì)象距離最近的最近對(duì)象群;將所述離群對(duì)象歸屬于所述最近對(duì)象群。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述第二核心對(duì)象,包括:確定在預(yù)設(shè)半徑的鄰域內(nèi)的對(duì)象數(shù)量不小于預(yù)設(shè)數(shù)值的、且從所述第一核心對(duì)象直接密度可達(dá)或密度可達(dá)的第二核心對(duì)象。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述第一核心對(duì)象之后,還包括:判斷所述第一核心對(duì)象是否可以歸屬于已經(jīng)存在的任何一個(gè)對(duì)象群;若否,則新建一個(gè)對(duì)象群并將該第一核心對(duì)象歸屬于該新建的對(duì)象群。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述預(yù)設(shè)特征值確定所述歐式距離之前,還包括:提取與待分群的對(duì)象集合中的各個(gè)對(duì)象對(duì)應(yīng)的至少一個(gè)預(yù)設(shè)特征數(shù)據(jù);對(duì)提取的所述預(yù)設(shè)特征數(shù)據(jù)進(jìn)行歸一化處理,得到預(yù)設(shè)特征值。6.一種對(duì)象分群方法,其特征在于,包括:根據(jù)與待分群的對(duì)象集合中的各個(gè)對(duì)象對(duì)應(yīng)的預(yù)設(shè)特征值,確定所述對(duì)象集合中的任意兩個(gè)對(duì)象之間的歐式距離;將所述對(duì)象集合中的對(duì)象按照所述歐式距離在三維空間內(nèi)進(jìn)行分布;基于所述對(duì)象集合中的對(duì)象在所述三維空間內(nèi)的分布,確定在預(yù)設(shè)半徑的鄰域內(nèi)的對(duì)象數(shù)量不小于預(yù)設(shè)數(shù)值的核心對(duì)象,得到由核心對(duì)象組成的核心對(duì)象集合;若所述核心對(duì)象集合中的第一核心對(duì)象處于第二核心對(duì)象的預(yù)設(shè)半徑的領(lǐng)域內(nèi),將所述第一核心對(duì)象和所述第二核心對(duì)象歸屬于同一個(gè)對(duì)象群。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,將所述第一核心對(duì)象和所述第二核心對(duì)象歸屬于同一個(gè)對(duì)象群之后,還包括:將所述對(duì)象集合中的不是核心對(duì)象的對(duì)象確定為離群對(duì)象;確定與所述離群對(duì)象距離最近的最近對(duì)象群;將所述離群對(duì)象歸屬于所述最近對(duì)象群。8.根據(jù)權(quán)利要求6所述的方法,其特征在于,若所述核心對(duì)象集合中的第一核心對(duì)象處于第二核心對(duì)象的預(yù)設(shè)半徑的領(lǐng)域內(nèi),將所述第一核心對(duì)象和所述第二核心對(duì)象歸屬于同一個(gè)對(duì)象群,包括:若所述核心對(duì)象集合中的第一核心對(duì)象從所述第二核心對(duì)象直接密度可達(dá)或密度可達(dá),將所述第一核心對(duì)象和所述第二核心對(duì)象歸屬于同一個(gè)對(duì)象群。9.一種模型訓(xùn)練方法,其特征在于,包括:利用所述權(quán)利要求1-8中任意一項(xiàng)所述的對(duì)象分群方法將待分群的對(duì)象集合中的對(duì)象進(jìn)行分群;根據(jù)預(yù)先確定的與分群得到的各個(gè)對(duì)象群對(duì)應(yīng)的待選取特征,提取與各個(gè)對(duì)象群中包含的對(duì)象對(duì)應(yīng)的所述待選取特征;利用提取的各個(gè)對(duì)象群中包含的對(duì)象的所述待選取特征進(jìn)行模型訓(xùn)練,得到與各個(gè)對(duì)象群對(duì)應(yīng)的模型。10.一種對(duì)象分群裝置,其特征在于,包括:第一確定單元,用于根據(jù)與待分群的對(duì)象集合中的各個(gè)對(duì)象對(duì)應(yīng)的...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:席炎,王曉光,隋宛辰,漆遠(yuǎn),張柯,姜曉燕,王少萌,俞吳杰,施興,
申請(qǐng)(專(zhuān)利權(quán))人:阿里巴巴集團(tuán)控股有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:開(kāi)曼群島,KY
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。