• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種訓(xùn)練文本數(shù)據(jù)獲取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)制造方法及圖紙

    技術(shù)編號:45078840 閱讀:11 留言:0更新日期:2025-04-25 18:18
    本發(fā)明專利技術(shù)實(shí)施例公開一種訓(xùn)練文本數(shù)據(jù)獲取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),該方法包括:建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體;將超立方體平均劃分為多個(gè)子立方體;確定進(jìn)行聚類的簇?cái)?shù)量并基于簇?cái)?shù)量和各個(gè)子立方體內(nèi)文本向量的數(shù)量確定初始質(zhì)心;以及基于簇?cái)?shù)量以及初始質(zhì)心對各個(gè)文本向量進(jìn)行聚類得到多個(gè)聚類結(jié)果簇,并基于多個(gè)聚類結(jié)果簇確定訓(xùn)練文本數(shù)據(jù)。本發(fā)明專利技術(shù)實(shí)施例能夠生成專業(yè)性強(qiáng)且質(zhì)量高的訓(xùn)練文本數(shù)據(jù)。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及人工智能,尤其涉及一種訓(xùn)練文本數(shù)據(jù)獲取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


    技術(shù)介紹

    1、隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,大數(shù)據(jù)、云計(jì)算等技術(shù)不斷累積和精進(jìn),以互聯(lián)網(wǎng)為首的公開數(shù)據(jù)資源獲取渠道以及大量企業(yè)內(nèi)部都積累海量的數(shù)據(jù)資源。這些數(shù)據(jù)對于各個(gè)領(lǐng)域,包括金融領(lǐng)域的人工智能模型的訓(xùn)練產(chǎn)生顯著作用。利用公開渠道獲得的大量通用數(shù)據(jù)結(jié)合企業(yè)內(nèi)部積累的專業(yè)領(lǐng)域數(shù)據(jù)進(jìn)行大模型的預(yù)訓(xùn)練和微調(diào)訓(xùn)練可以顯著提升大模型在專業(yè)領(lǐng)域的應(yīng)用效能。

    2、然而,由于公開渠道獲取的數(shù)據(jù)質(zhì)量參差不齊,無法滿足各個(gè)專業(yè)領(lǐng)域的人工智能訓(xùn)練對于質(zhì)量和專業(yè)性的要求,因此亟需一種能夠生成專業(yè)性強(qiáng)且質(zhì)量高的訓(xùn)練文本數(shù)據(jù)的訓(xùn)練文本生成方案。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)實(shí)施例提供一種訓(xùn)練文本數(shù)據(jù)獲取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),能夠生成專業(yè)性強(qiáng)且質(zhì)量高的訓(xùn)練文本數(shù)據(jù)。

    2、第一方面,本專利技術(shù)實(shí)施例提供一種訓(xùn)練文本數(shù)據(jù)獲取方法,包括:

    3、建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體;

    4、將所述超立方體平均劃分為多個(gè)子立方體;

    5、確定進(jìn)行聚類的簇?cái)?shù)量并基于所述簇?cái)?shù)量和各個(gè)子立方體內(nèi)所述文本向量的數(shù)量確定初始質(zhì)心;以及

    6、基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行聚類得到多個(gè)聚類結(jié)果簇,并基于所述多個(gè)聚類結(jié)果簇確定訓(xùn)練文本數(shù)據(jù)。

    7、第二方面,本專利技術(shù)實(shí)施例提供一種訓(xùn)練文本數(shù)據(jù)獲取裝置,包括:

    <p>8、超立方體獲取模塊,用于建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體;

    9、子立方體獲取模塊,用于將所述超立方體平均劃分為多個(gè)子立方體;

    10、簇?cái)?shù)量和質(zhì)心獲取模塊,用于確定進(jìn)行聚類的簇?cái)?shù)量并基于所述簇?cái)?shù)量和各個(gè)子立方體內(nèi)所述文本向量的數(shù)量確定初始質(zhì)心;以及

    11、聚類結(jié)果和訓(xùn)練文本數(shù)據(jù)獲取模塊,用于基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行聚類得到多個(gè)聚類結(jié)果簇,并基于所述多個(gè)聚類結(jié)果簇確定訓(xùn)練文本數(shù)據(jù)。

    12、第三方面,本專利技術(shù)實(shí)施例還提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如本專利技術(shù)實(shí)施例中任一所述的訓(xùn)練文本數(shù)據(jù)獲取方法。

    13、第四方面,本專利技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本專利技術(shù)實(shí)施例中任一所述的訓(xùn)練文本數(shù)據(jù)獲取方法。

    14、本專利技術(shù)實(shí)施例提供的一種訓(xùn)練文本數(shù)據(jù)獲取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),通過建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體,進(jìn)而平均劃分超立方體后基于劃分得到的子立方體內(nèi)文本向量的數(shù)量確定聚類的初始質(zhì)心,可以有效提升初始質(zhì)心的選取質(zhì)量,減少了對初始質(zhì)心選擇的敏感性;通過基于初始質(zhì)心對各個(gè)文本向量進(jìn)行聚類,能夠提高聚類的穩(wěn)定性和一致性,并提升捕捉文本語義信息效率,優(yōu)化文本聚類效果;進(jìn)一步通過基于聚類結(jié)果簇確定訓(xùn)練文本數(shù)據(jù),能夠提高獲取訓(xùn)練文本數(shù)據(jù)的效率并提高所獲取的訓(xùn)練文本數(shù)據(jù)的質(zhì)量和專業(yè)性。

    本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體,包括:

    3.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述確定進(jìn)行聚類的簇?cái)?shù)量并基于所述簇?cái)?shù)量和各個(gè)子立方體內(nèi)所述文本向量的數(shù)量確定初始質(zhì)心,包括:

    4.根據(jù)權(quán)利要求3所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述各個(gè)子立方體含初始質(zhì)心的概率以及所述簇?cái)?shù)量確定所述初始質(zhì)心,包括:

    5.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行聚類得到多個(gè)聚類結(jié)果簇,包括:

    6.根據(jù)權(quán)利要求5所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行本輪聚類得到多個(gè)本輪結(jié)果簇,包括:

    7.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述多個(gè)聚類結(jié)果簇確定訓(xùn)練文本數(shù)據(jù),包括:

    8.一種訓(xùn)練文本數(shù)據(jù)獲取裝置,其特征在于,包括:

    9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一所述的訓(xùn)練文本數(shù)據(jù)獲取方法。

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一所述的訓(xùn)練文本數(shù)據(jù)獲取方法。

    ...

    【技術(shù)特征摘要】

    1.一種訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述建立各個(gè)候選文檔對應(yīng)的文本向量,并繪制包括各個(gè)文本向量的超立方體,包括:

    3.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述確定進(jìn)行聚類的簇?cái)?shù)量并基于所述簇?cái)?shù)量和各個(gè)子立方體內(nèi)所述文本向量的數(shù)量確定初始質(zhì)心,包括:

    4.根據(jù)權(quán)利要求3所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述各個(gè)子立方體含初始質(zhì)心的概率以及所述簇?cái)?shù)量確定所述初始質(zhì)心,包括:

    5.根據(jù)權(quán)利要求1所述的訓(xùn)練文本數(shù)據(jù)獲取方法,其特征在于,所述基于所述簇?cái)?shù)量以及所述初始質(zhì)心對所述各個(gè)文本向量進(jìn)行聚類得到多個(gè)聚類結(jié)果簇,包括:

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:吳光緒,劉華杰,
    申請(專利權(quán))人:中國工商銀行股份有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻熟妇AV又粗又大| 日木av无码专区亚洲av毛片| 无码乱码观看精品久久| 国产AV无码专区亚洲AV蜜芽 | 久久国产精品无码网站| 久久久久亚洲av无码专区蜜芽| 免费无码又黄又爽又刺激| 亚洲va中文字幕无码久久| 精品人妻系列无码人妻漫画| 国产精品亚洲аv无码播放| 成人麻豆日韩在无码视频| 无码精品A∨在线观看免费| 东京热人妻无码一区二区av | 精品无码国产一区二区三区51安| 人妻少妇无码精品视频区| 中文字幕精品三区无码亚洲| 国产办公室秘书无码精品99| 国产精品热久久无码av| 在线精品免费视频无码的| 综合无码一区二区三区四区五区| 中文无码AV一区二区三区| 无码人妻精品一区二区三区9厂| 无码国产福利av私拍| 人妻中文无码久热丝袜| 人妻无码人妻有码中文字幕| 亚洲AV无码一区二区三区国产 | 亚洲精品无码av片| 国产精品久久久久无码av| 亚洲AV无码乱码在线观看富二代| 精品久久久无码中文字幕天天| 67194成是人免费无码| 亚洲人av高清无码| 性色AV蜜臀AV人妻无码| 亚洲日韩av无码中文| 中文AV人妻AV无码中文视频 | 国产99久久九九精品无码| 国产精品无码亚洲一区二区三区 | 亚洲av无码电影网| 无码国产精品一区二区免费3p| 亚洲啪啪AV无码片| 无码人妻精品一区二区在线视频 |