一種數據獲取方法、裝置、電子設備及存儲介質制造方法及圖紙

技術編號：24455724 閱讀：49 留言：0更新日期：2020-06-10 15:29

本發明專利技術實施例公開一種數據獲取方法、裝置、電子設備及存儲介質，涉及計算機技術領域，能夠有效提高模型訓練中訓練數據的獲取速度。所述數據獲取方法，包括：確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系；在所述數據存儲空間大于所述內存剩余空間的情況下，根據預設策略，在所述訓練數據集中選擇至少一個文件為目標文件；在所述目標文件首次被讀取后，將所述目標文件保留在內核的頁緩存中，以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。本發明專利技術適用于機器學習的模型訓練中。

A data acquisition method, device, electronic equipment and storage medium

全部詳細技術資料下載

【技術實現步驟摘要】
一種數據獲取方法、裝置、電子設備及存儲介質
本專利技術涉及計算機
，尤其涉及一種數據獲取方法、裝置、電子設備及存儲介質。
技術介紹
近年來，人工智能技術在產業和生活中得到了越來越廣泛的應用。機器學習作為人工智能領域的一個重要分支，能夠通過大量的訓練數據，得到較為理想的數學模型，從而模擬人的思維。然而，由于模型訓練所需的數據量巨大，常常是千萬級的文件數量，訓練數據的讀取速度成為影響模型訓練效率的重要因素。對于模型訓練中，訓練數據的讀取速度較慢的問題，相關領域尚無有效的解決方案。
技術實現思路
有鑒于此，本專利技術實施例提供一種數據獲取方法、裝置、電子設備及存儲介質，能夠有效提高模型訓練中訓練數據的獲取速度。第一方面，本專利技術實施例提供一種數據獲取方法，包括：確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系；在所述數據存儲空間大于所述內存剩余空間的情況下，根據預設策略，在所述訓練數據集中選擇至少一個文件為目標文件；在所述目標文件首次被讀取后，將所述目標文件保留在內核的頁緩存中，以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。可選的，所述預設策略包括：將所述訓練數據集中文件大小小于第一閾值的文件作為所述目標文件；或者，根據所述訓練數據集中各文件的文件大小以及所述內存剩余空間，確定所述目標文件，以使所述目標文件的數量大于第二閾值，和/或以使所述目標文件保留在內核的頁緩存中后，所述內存剩余空間...

【技術保護點】
1.一種數據獲取方法，其特征在于，包括：/n確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系；/n在所述數據存儲空間大于所述內存剩余空間的情況下，根據預設策略，在所述訓練數據集中選擇至少一個文件為目標文件；/n在所述目標文件首次被讀取后，將所述目標文件保留在內核的頁緩存中，以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。/n

【技術特征摘要】
1.一種數據獲取方法，其特征在于，包括：
確定訓練數據集所需的數據存儲空間與內存剩余空間的大小關系；
在所述數據存儲空間大于所述內存剩余空間的情況下，根據預設策略，在所述訓練數據集中選擇至少一個文件為目標文件；
在所述目標文件首次被讀取后，將所述目標文件保留在內核的頁緩存中，以便將來再次讀取所述目標文件時從所述內核的頁緩存中獲取所述目標文件。

2.根據權利要求1所述的方法，其特征在于，所述預設策略包括：
將所述訓練數據集中文件大小小于第一閾值的文件作為所述目標文件；
或者，
根據所述訓練數據集中各文件的文件大小以及所述內存剩余空間，確定所述目標文件，以使所述目標文件的數量大于第二閾值，和/或以使所述目標文件保留在內核的頁緩存中后，所述內存剩余空間小于第三閾值。

3.根據權利要求1所述的方法，其特征在于，所述在所述目標文件首次被讀取后，將所述目標文件保留在內核的頁緩存中包括：
從所述訓練數據集中讀取第一文件；
確定所述第一文件是否為首次讀取的所述目標文件；
在所述第一文件為首次讀取的所述目標文件的情況下，為所述第一文件添加預設標記，以使虛擬文件系統VFS根據所述預設標記，將所述第一文件保留在內核的頁緩存中。

4.根據權利要求1所述的方法，其特征在于，所述將所述目標文件保留在內核的頁緩存中之后，所述方法還包括：
接收從所述訓練數據集中讀取第二文件的指令；
在內核的頁緩存中查找所述第二文件；
在查找到所述第二文件的情況下，從所述內核的頁緩存中獲取所述第二文件，以利用所述第二文件進行模型訓練；
在未查找到所述第二文件的情況下，從遠端服務器獲取所述第二文件，以利用所述第二文件進行模型訓練。

5.根據權利要求4所述的方法，其特征在于，還包括：
將所述訓練數據集緩存在本地硬盤；
在未查找到所述第二文件的情況下，從本地硬盤獲取所述第二文件，以利用所述第二文件進行模型訓練。

<...

【專利技術屬性】
技術研發人員：余虹建，李錦豐，
申請(專利權)人：北京獵豹移動科技有限公司，
類型：發明
國別省市：北京;11

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術