【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及人工智能,尤其涉及一種訓(xùn)練文本數(shù)據(jù)獲取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,大數(shù)據(jù)、云計(jì)算等技術(shù)不斷累積和精進(jìn),以互聯(lián)網(wǎng)為首的公開數(shù)據(jù)資源獲取渠道以及大量企業(yè)內(nèi)部都積累海量的數(shù)據(jù)資源。這些數(shù)據(jù)對于各個(gè)領(lǐng)域,包括金融領(lǐng)域的人工智能模型的訓(xùn)練產(chǎn)生顯著作用。利用公開渠道獲得的大量通用數(shù)據(jù)結(jié)合企業(yè)內(nèi)部積累的專業(yè)領(lǐng)域數(shù)據(jù)進(jìn)行大模型的預(yù)訓(xùn)練和微調(diào)訓(xùn)練可以顯著提升大模型在專業(yè)領(lǐng)域的應(yīng)用效能。
2、然而,由于公開渠道獲取的數(shù)據(jù)質(zhì)量參差不齊,無法滿足各個(gè)專業(yè)領(lǐng)域的人工智能訓(xùn)練對于質(zhì)量和專業(yè)性的要求,因此亟需一種能夠生成專業(yè)性強(qiáng)且質(zhì)量高的訓(xùn)練文本數(shù)據(jù)的訓(xùn)練文本生成方案。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)實(shí)施例提供一種訓(xùn)練文本數(shù)據(jù)獲取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),能夠生成專業(yè)性強(qiáng)且質(zhì)量高的訓(xùn)練文本數(shù)據(jù)。
2、第一方面,本專利技術(shù)實(shí)施例提供一種訓(xùn)練文本數(shù)據(jù)獲取方法,包括:
3、建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體;
4、將所述超立方體平均劃分為多個(gè)子立方體;
5、確定進(jìn)行聚類的簇?cái)?shù)量并基于所述簇?cái)?shù)量和各個(gè)子立方體內(nèi)所述文本向量的數(shù)量確定初始質(zhì)心;以及
6、基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行聚類得到多個(gè)聚類結(jié)果簇,并基于所述多個(gè)聚類結(jié)果簇確定訓(xùn)練文本數(shù)據(jù)。
7、第二方面,本專利技術(shù)實(shí)施例提供一種訓(xùn)練文本數(shù)據(jù)獲取裝置,包括:
< ...【技術(shù)保護(hù)點(diǎn)】
1.一種訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體,包括:
3.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述確定進(jìn)行聚類的簇?cái)?shù)量并基于所述簇?cái)?shù)量和各個(gè)子立方體內(nèi)所述文本向量的數(shù)量確定初始質(zhì)心,包括:
4.根據(jù)權(quán)利要求3所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述各個(gè)子立方體含初始質(zhì)心的概率以及所述簇?cái)?shù)量確定所述初始質(zhì)心,包括:
5.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行聚類得到多個(gè)聚類結(jié)果簇,包括:
6.根據(jù)權(quán)利要求5所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行本輪聚類得到多個(gè)本輪結(jié)果簇,包括:
7.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述多個(gè)聚類結(jié)果簇確定訓(xùn)練文本數(shù)據(jù),包括:
8.一種訓(xùn)練文本數(shù)據(jù)獲取裝
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一所述的訓(xùn)練文本數(shù)據(jù)獲取方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一所述的訓(xùn)練文本數(shù)據(jù)獲取方法。
...【技術(shù)特征摘要】
1.一種訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體,包括:
3.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述確定進(jìn)行聚類的簇?cái)?shù)量并基于所述簇?cái)?shù)量和各個(gè)子立方體內(nèi)所述文本向量的數(shù)量確定初始質(zhì)心,包括:
4.根據(jù)權(quán)利要求3所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述各個(gè)子立方體含初始質(zhì)心的概率以及所述簇?cái)?shù)量確定所述初始質(zhì)心,包括:
5.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行聚類得到多個(gè)聚類結(jié)果簇,包括:
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:吳光緒,劉華杰,
申請(專利權(quán))人:中國工商銀行股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。