本發明專利技術實施例公開一種數據獲取方法、裝置、電子設備及存儲介質,涉及計算機技術領域,能夠有效提高模型訓練中訓練數據的獲取速度。所述數據獲取方法,包括:確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。本發明專利技術適用于機器學習的模型訓練中。
A data acquisition method, device, electronic equipment and storage medium
【技術實現步驟摘要】
一種數據獲取方法、裝置、電子設備及存儲介質
本專利技術涉及計算機
,尤其涉及一種數據獲取方法、裝置、電子設備及存儲介質。
技術介紹
近年來,人工智能技術在產業和生活中得到了越來越廣泛的應用。機器學習作為人工智能領域的一個重要分支,能夠通過大量的訓練數據,得到較為理想的數學模型,從而模擬人的思維。然而,由于模型訓練所需的數據量巨大,常常是千萬級的文件數量,訓練數據的讀取速度成為影響模型訓練效率的重要因素。對于模型訓練中,訓練數據的讀取速度較慢的問題,相關領域尚無有效的解決方案。
技術實現思路
有鑒于此,本專利技術實施例提供一種數據獲取方法、裝置、電子設備及存儲介質,能夠有效提高模型訓練中訓練數據的獲取速度。第一方面,本專利技術實施例提供一種數據獲取方法,包括:確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。可選的,所述預設策略包括:將所述訓練數據集中文件大小小于第一閾值的文件作為所述目標文件;或者,根據所述訓練數據集中各文件的文件大小以及所述內存剩余空間,確定所述目標文件,以使所述目標文件的數量大于第二閾值,和/或以使所述目標文件保留在內核的頁緩存中后,所述內存剩余空間小于第三閾值。可選的,所述在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中包括:從所述訓練數據集中讀取第一文件;確定所述第一文件是否為首次讀取的所述目標文件;在所述第一文件為首次讀取的所述目標文件的情況下,為所述第一文件添加預設標記,以使虛擬文件系統VFS根據所述預設標記,將所述第一文件保留在內核的頁緩存中。可選的,所述將所述目標文件保留在內核的頁緩存中之后,所述方法還包括:接收從所述訓練數據集中讀取第二文件的指令;在內核的頁緩存中查找所述第二文件;在查找到所述第二文件的情況下,從所述內核的頁緩存中獲取所述第二文件,以利用所述第二文件進行模型訓練;在未查找到所述第二文件的情況下,從遠端服務器獲取所述第二文件,以利用所述第二文件進行模型訓練。可選的,所述方法還包括:將所述訓練數據集緩存在本地硬盤;在未查找到所述第二文件的情況下,從本地硬盤獲取所述第二文件,以利用所述第二文件進行模型訓練。可選的,所述確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系之前,所述方法還包括:清空內存。第二方面,本專利技術的實施例還提供一種數據獲取裝置,包括:確定單元,用于確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;選擇單元,用于在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;保留單元,用于在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。可選的,所述預設策略包括:將所述訓練數據集中文件大小小于第一閾值的文件作為所述目標文件;或者,根據所述訓練數據集中各文件的文件大小以及所述內存剩余空間,確定所述目標文件,以使所述目標文件的數量大于第二閾值,和/或以使所述目標文件保留在內核的頁緩存中后,所述內存剩余空間小于第三閾值。可選的,所述保留單元包括:讀取模塊,用于從所述訓練數據集中讀取第一文件;確定模塊,用于確定所述第一文件是否為首次讀取的所述目標文件;添加模塊,用于在所述第一文件為首次讀取的所述目標文件的情況下,為所述第一文件添加預設標記,以使虛擬文件系統VFS根據所述預設標記,將所述第一文件保留在內核的頁緩存中。可選的,所述裝置還包括:接收單元,用于在將所述目標文件保留在內核的頁緩存中之后,接收從所述訓練數據集中讀取第二文件的指令;查找單元,用于在內核的頁緩存中查找所述第二文件;獲取單元,用于在查找到所述第二文件的情況下,從所述內核的頁緩存中獲取所述第二文件,以利用所述第二文件進行模型訓練;在未查找到所述第二文件的情況下,從遠端服務器獲取所述第二文件,以利用所述第二文件進行模型訓練。可選的,所述裝置還包括:硬盤緩存單元,用于將所述訓練數據集緩存在本地硬盤;所述獲取單元,還用于在未查找到所述第二文件的情況下,從本地硬盤獲取所述第二文件,以利用所述第二文件進行模型訓練。可選的,所述裝置還包括清空單元,用于在確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系之前,清空內存。第三方面,本專利技術的實施例還提供一種電子設備,所述電子設備包括:殼體、處理器、存儲器、電路板和電源電路,其中,電路板安置在殼體圍成的空間內部,處理器和存儲器設置在電路板上;電源電路,用于為上述電子設備的各個電路或器件供電;存儲器用于存儲可執行程序代碼;處理器通過讀取存儲器中存儲的可執行程序代碼來運行與可執行程序代碼對應的程序,用于執行本專利技術的實施例提供的任一種數據獲取方法。第四方面,本專利技術的實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執行,以實現本專利技術的實施例提供的任一種數據獲取方法。本專利技術的實施例提供的數據獲取方法、裝置、電子設備及存儲介質,能夠確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系,在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件,在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。這樣,當內存剩余空間無法容納下訓練數據集的全部數據時,緩存中的數據就不會按照默認的文件讀取頻率的高低來確定是否保留在緩存中,從而導致每次讀取文件都由于該文件之前的讀取頻率過低而無法命中。而是對默認的緩存規則進行主動干預,根據預設策略,在訓練數據集中選擇了至少一個目標文件進行緩存,從而有效提高了緩存命中率,因此也有效提高了模型訓練中訓練數據的獲取速度。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。圖1為本專利技術的實施例提供的數據獲取方法的一種流程圖;圖2為本專利技術的實施例提供的數據獲取裝置的一種結構示意圖;圖3為本專利技術的實施例提供的數據獲取裝置中保留單元的一種結構示意圖;圖4為本專利技術本文檔來自技高網...
【技術保護點】
1.一種數據獲取方法,其特征在于,包括:/n確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;/n在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;/n在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。/n
【技術特征摘要】
1.一種數據獲取方法,其特征在于,包括:
確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系;
在所述數據存儲空間大于所述內存剩余空間的情況下,根據預設策略,在所述訓練數據集中選擇至少一個文件為目標文件;
在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中,以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。
2.根據權利要求1所述的方法,其特征在于,所述預設策略包括:
將所述訓練數據集中文件大小小于第一閾值的文件作為所述目標文件;
或者,
根據所述訓練數據集中各文件的文件大小以及所述內存剩余空間,確定所述目標文件,以使所述目標文件的數量大于第二閾值,和/或以使所述目標文件保留在內核的頁緩存中后,所述內存剩余空間小于第三閾值。
3.根據權利要求1所述的方法,其特征在于,所述在所述目標文件首次被讀取后,將所述目標文件保留在內核的頁緩存中包括:
從所述訓練數據集中讀取第一文件;
確定所述第一文件是否為首次讀取的所述目標文件;
在所述第一文件為首次讀取的所述目標文件的情況下,為所述第一文件添加預設標記,以使虛擬文件系統VFS根據所述預設標記,將所述第一文件保留在內核的頁緩存中。
4.根據權利要求1所述的方法,其特征在于,所述將所述目標文件保留在內核的頁緩存中之后,所述方法還包括:
接收從所述訓練數據集中讀取第二文件的指令;
在內核的頁緩存中查找所述第二文件;
在查找到所述第二文件的情況下,從所述內核的頁緩存中獲取所述第二文件,以利用所述第二文件進行模型訓練;
在未查找到所述第二文件的情況下,從遠端服務器獲取所述第二文件,以利用所述第二文件進行模型訓練。
5.根據權利要求4所述的方法,其特征在于,還包括:
將所述訓練數據集緩存在本地硬盤;
在未查找到所述第二文件的情況下,從本地硬盤獲取所述第二文件,以利用所述第二文件進行模型訓練。
<...
【專利技術屬性】
技術研發人員:余虹建,李錦豐,
申請(專利權)人:北京獵豹移動科技有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。