• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數據獲取方法、裝置、電子設備及存儲介質制造方法及圖紙

    技術編號:24455724 閱讀:49 留言:0更新日期:2020-06-10 15:29
    本發明專利技術實施例公開一種數據獲取方法、裝置、電子設備及存儲介質,涉及計算機技術領域,能夠有效提高模型訓練中訓練數據的獲取速度。所述數據獲取方法,包括:確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。本發明專利技術適用于機器學習的模型訓練中。

    A data acquisition method, device, electronic equipment and storage medium

    【技術實現步驟摘要】
    一種數據獲取方法、裝置、電子設備及存儲介質
    本專利技術涉及計算機
    ,尤其涉及一種數據獲取方法、裝置、電子設備及存儲介質。
    技術介紹
    近年來,人工智能技術在產業和生活中得到了越來越廣泛的應用。機器學習作為人工智能領域的一個重要分支,能夠通過大量的訓練數據,得到較為理想的數學模型,從而模擬人的思維。然而,由于模型訓練所需的數據量巨大,常常是千萬級的文件數量,訓練數據的讀取速度成為影響模型訓練效率的重要因素。對于模型訓練中,訓練數據的讀取速度較慢的問題,相關領域尚無有效的解決方案。
    技術實現思路
    有鑒于此,本專利技術實施例提供一種數據獲取方法、裝置、電子設備及存儲介質,能夠有效提高模型訓練中訓練數據的獲取速度。第一方面,本專利技術實施例提供一種數據獲取方法,包括:確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。可選的,所述預設策略包括:將所述訓練數據集中文件大小小于第一閾值的文件作為所述目標文件;或者,根據所述訓練數據集中各文件的文件大小以及所述內存剩余空間,確定所述目標文件,以使所述目標文件的數量大于第二閾值,和/或以使所述目標文件保留在內核的頁緩存中后,所述內存剩余空間小于第三閾值。可選的,所述在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中包括:從所述訓練數據集中讀取第一文件;確定所述第一文件是否為首次讀取的所述目標文件;在所述第一文件為首次讀取的所述目標文件的情況下,為所述第一文件添加預設標記,以使虛擬文件系統VFS根據所述預設標記,將所述第一文件保留在內核的頁緩存中。可選的,所述將所述目標文件保留在內核的頁緩存中之后,所述方法還包括:接收從所述訓練數據集中讀取第二文件的指令;在內核的頁緩存中查找所述第二文件;在查找到所述第二文件的情況下,從所述內核的頁緩存中獲取所述第二文件,以利用所述第二文件進行模型訓練;在未查找到所述第二文件的情況下,從遠端服務器獲取所述第二文件,以利用所述第二文件進行模型訓練。可選的,所述方法還包括:將所述訓練數據集緩存在本地硬盤;在未查找到所述第二文件的情況下,從本地硬盤獲取所述第二文件,以利用所述第二文件進行模型訓練。可選的,所述確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系之前,所述方法還包括:清空內存。第二方面,本專利技術的實施例還提供一種數據獲取裝置,包括:確定單元,用于確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;選擇單元,用于在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;保留單元,用于在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。可選的,所述預設策略包括:將所述訓練數據集中文件大小小于第一閾值的文件作為所述目標文件;或者,根據所述訓練數據集中各文件的文件大小以及所述內存剩余空間,確定所述目標文件,以使所述目標文件的數量大于第二閾值,和/或以使所述目標文件保留在內核的頁緩存中后,所述內存剩余空間小于第三閾值。可選的,所述保留單元包括:讀取模塊,用于從所述訓練數據集中讀取第一文件;確定模塊,用于確定所述第一文件是否為首次讀取的所述目標文件;添加模塊,用于在所述第一文件為首次讀取的所述目標文件的情況下,為所述第一文件添加預設標記,以使虛擬文件系統VFS根據所述預設標記,將所述第一文件保留在內核的頁緩存中。可選的,所述裝置還包括:接收單元,用于在將所述目標文件保留在內核的頁緩存中之后,接收從所述訓練數據集中讀取第二文件的指令;查找單元,用于在內核的頁緩存中查找所述第二文件;獲取單元,用于在查找到所述第二文件的情況下,從所述內核的頁緩存中獲取所述第二文件,以利用所述第二文件進行模型訓練;在未查找到所述第二文件的情況下,從遠端服務器獲取所述第二文件,以利用所述第二文件進行模型訓練。可選的,所述裝置還包括:硬盤緩存單元,用于將所述訓練數據集緩存在本地硬盤;所述獲取單元,還用于在未查找到所述第二文件的情況下,從本地硬盤獲取所述第二文件,以利用所述第二文件進行模型訓練。可選的,所述裝置還包括清空單元,用于在確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系之前,清空內存。第三方面,本專利技術的實施例還提供一種電子設備,所述電子設備包括:殼體、處理器、存儲器、電路板和電源電路,其中,電路板安置在殼體圍成的空間內部,處理器和存儲器設置在電路板上;電源電路,用于為上述電子設備的各個電路或器件供電;存儲器用于存儲可執行程序代碼;處理器通過讀取存儲器中存儲的可執行程序代碼來運行與可執行程序代碼對應的程序,用于執行本專利技術的實施例提供的任一種數據獲取方法。第四方面,本專利技術的實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執行,以實現本專利技術的實施例提供的任一種數據獲取方法。本專利技術的實施例提供的數據獲取方法、裝置、電子設備及存儲介質,能夠確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系,在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件,在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。這樣,當內存剩余空間無法容納下訓練數據集的全部數據時,緩存中的數據就不會按照默認的文件讀取頻率的高低來確定是否保留在緩存中,從而導致每次讀取文件都由于該文件之前的讀取頻率過低而無法命中。而是對默認的緩存規則進行主動干預,根據預設策略,在訓練數據集中選擇了至少一個目標文件進行緩存,從而有效提高了緩存命中率,因此也有效提高了模型訓練中訓練數據的獲取速度。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。圖1為本專利技術的實施例提供的數據獲取方法的一種流程圖;圖2為本專利技術的實施例提供的數據獲取裝置的一種結構示意圖;圖3為本專利技術的實施例提供的數據獲取裝置中保留單元的一種結構示意圖;圖4為本專利技術本文檔來自技高網...

    【技術保護點】
    1.一種數據獲取方法,其特征在于,包括:/n確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;/n在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;/n在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。/n

    【技術特征摘要】
    1.一種數據獲取方法,其特征在于,包括:
    確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;
    在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;
    在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。


    2.根據權利要求1所述的方法,其特征在于,所述預設策略包括:
    將所述訓練數據集中文件大小小于第一閾值的文件作為所述目標文件;
    或者,
    根據所述訓練數據集中各文件的文件大小以及所述內存剩余空間,確定所述目標文件,以使所述目標文件的數量大于第二閾值,和/或以使所述目標文件保留在內核的頁緩存中后,所述內存剩余空間小于第三閾值。


    3.根據權利要求1所述的方法,其特征在于,所述在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中包括:
    從所述訓練數據集中讀取第一文件;
    確定所述第一文件是否為首次讀取的所述目標文件;
    在所述第一文件為首次讀取的所述目標文件的情況下,為所述第一文件添加預設標記,以使虛擬文件系統VFS根據所述預設標記,將所述第一文件保留在內核的頁緩存中。


    4.根據權利要求1所述的方法,其特征在于,所述將所述目標文件保留在內核的頁緩存中之后,所述方法還包括:
    接收從所述訓練數據集中讀取第二文件的指令;
    在內核的頁緩存中查找所述第二文件;
    在查找到所述第二文件的情況下,從所述內核的頁緩存中獲取所述第二文件,以利用所述第二文件進行模型訓練;
    在未查找到所述第二文件的情況下,從遠端服務器獲取所述第二文件,以利用所述第二文件進行模型訓練。


    5.根據權利要求4所述的方法,其特征在于,還包括:
    將所述訓練數據集緩存在本地硬盤;
    在未查找到所述第二文件的情況下,從本地硬盤獲取所述第二文件,以利用所述第二文件進行模型訓練。

    <...

    【專利技術屬性】
    技術研發人員:余虹建李錦豐
    申請(專利權)人:北京獵豹移動科技有限公司
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码一区二区三区电影| 精品久久久无码中文字幕边打电话| 亚洲精品无码中文久久字幕| 久久精品无码一区二区WWW| 毛片免费全部播放无码| 无码中文字幕色专区| 亚洲综合无码精品一区二区三区 | 日韩人妻无码一区二区三区 | 无码国模国产在线无码精品国产自在久国产 | 亚洲午夜国产精品无码| 无码人妻丰满熟妇区BBBBXXXX| 亚洲av无码成人精品区| 白嫩少妇激情无码| 日韩精品无码免费专区网站| 在线观看亚洲AV每日更新无码 | 无码av不卡一区二区三区| 亚洲成av人片不卡无码| 亚洲AV无码专区在线播放中文| 无码人妻丰满熟妇区毛片| 精品人妻无码区在线视频| 亚洲AV永久无码区成人网站 | 国产高清无码毛片| 蜜芽亚洲av无码一区二区三区| 免费无码成人AV在线播放不卡 | 久久精品aⅴ无码中文字字幕重口| 一级片无码中文字幕乱伦| 夫妻免费无码V看片| 国产精品无码一区二区三区不卡 | 性无码一区二区三区在线观看| 亚洲AV无码乱码在线观看性色扶 | 夜夜添无码一区二区三区| 久久亚洲国产成人精品无码区| 国产色无码精品视频国产| mm1313亚洲国产精品无码试看| 孕妇特级毛片WW无码内射| 少妇久久久久久人妻无码| 无码专区国产精品视频| 免费A级毛片无码免费视| 国产成人无码av在线播放不卡 | 日日日日做夜夜夜夜无码| 亚洲国产综合无码一区|