一種文本摘要改寫方法、裝置、設備及介質制造方法及圖紙

技術編號：45246793 閱讀：2 留言：0更新日期：2025-05-13 18:44

本發(fā)明專利技術提供了一種文本摘要改寫方法、裝置、設備及介質，首先是文本長度控制下的語料生成，即基于HSK中文水平等級生成所需長度的文本段落；然后是基于國際中文教育詞匯等級的文本改寫；接著是基于相似語義的文本改寫。該方法能幫助國際中文教師將難度較高的的中文文本改寫成適合等級的閱讀語料，實現(xiàn)教育資源的高效率構建。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及自然語言處理，具體涉及一種文本摘要改寫方法、裝置、設備及介質。

技術介紹

1、

2、在教育留學生的中文水平的過程中，教師會遇到大量未經處理的中文語料，如果使用人工改寫文本，不僅修改困難，而且時間成本極大，而目現(xiàn)有的智能自然語言改寫方案在面對難度較高的的中文文本時，存在改寫困難的問題。

3、有鑒于此，提出本申請。

技術實現(xiàn)思路

1、有鑒于此，本專利技術的目的在于提供一種文本摘要改寫方法、裝置、設備及介質，能夠有效解決現(xiàn)有技術中在教育留學生的中文水平的過程中，教師會遇到大量未經處理的中文語料，如果使用人工改寫文本，不僅修改困難，而且時間成本極大，而目現(xiàn)有的智能自然語言改寫方案在面對難度較高的的中文文本時，存在改寫困難的問題。

2、本專利技術公開了一種文本摘要改寫方法,包括：

3、獲取用戶輸入的改寫文本和改寫難度等級，根據(jù)預設的hsk中文水平等級對所述改寫文本和所述改寫難度等級進行抽取處理，生成所述最大句子限制數(shù)量參數(shù)nl和所述最大中文字符字數(shù)限制參數(shù)max_word，并將抽取成功的文本存入text文本中；

4、根據(jù)預設的標準等級詞語詞典對所述最大句子限制數(shù)量參數(shù)nl、所述最大中文字符字數(shù)限制參數(shù)max_word和所述text文本進行等級詞匯改寫處理，生成等級詞匯改寫結果，并使用text4文本保存所述等級詞匯改寫結果；

5、根據(jù)預設的同義詞語料庫詞典和標準等級詞語詞典對所述所述最大句子限制數(shù)量參數(shù)nl、

6、根據(jù)改寫后的文本和所述改寫難度等級，對所述text5文本進行統(tǒng)計各類數(shù)據(jù)處理，生成總改寫結果，進行輸出。

7、優(yōu)選地，根據(jù)預設的hsk中文水平等級對所述改寫文本和所述改寫難度等級進行抽取處理，并將抽取成功的文本存入text文本中，具體為：

8、對所述改寫難度等級和預設的hsk中文水平等級進行預處理，生成對應的語句數(shù)量和最大中文字符數(shù)量，并將所述語句數(shù)量和所述最大中文字符數(shù)量分別存入最大句子限制數(shù)量參數(shù)nl和最大中文字符字數(shù)限制參數(shù)max_word中；

9、對所述最大句子限制數(shù)量參數(shù)nl和所述最大中文字符字數(shù)限制參數(shù)max_word進行導入，并對所述改寫文本進行抽取，生成迭代結果，將所述迭代結果存在result文本中；

10、對所述result文本進行判斷處理，當所述result文本中的中文字符大于所述最大中文字符字數(shù)限制參數(shù)max_word時，生成不符合條件結果，根據(jù)所述最大句子限制數(shù)量參數(shù)nl和所述最大中文字符字數(shù)限制參數(shù)max_word重新對所述result文本進行導入、抽取和判斷；

11、當所述result文本中的中文字符不大于所述最大中文字符字數(shù)限制參數(shù)max_word時，生成符合條件結果，將所述result文本存入text文本中。

12、優(yōu)選地，根據(jù)預設的標準等級詞語詞典對所述最大句子限制數(shù)量參數(shù)nl、所述最大中文字符字數(shù)限制參數(shù)max_word和所述text文本進行等級詞匯改寫處理，生成等級詞匯改寫結果，具體為：

13、將預設的標準等級詞語詞典打開，存入file2文本中，并將所述file2文本轉成列表形式，存入file3文本中；

14、對所述text文本進行分詞處理，生成分詞結果，并將所述分詞結果存入數(shù)組text2中；

15、根據(jù)所述file3文本對所述數(shù)組text2的數(shù)據(jù)進行遍歷處理，并判斷所述數(shù)組text2中是否有非中文字符構成；

16、若是，進行跳過；

17、若否，將所述數(shù)組text2中的數(shù)據(jù)送入所述file3文本中進行比較處理；

18、當判斷到在所述file3文本中沒有找到與所述數(shù)組text2數(shù)據(jù)的對應等級時，進行跳過；

19、當判斷到在所述file3文本中找到與所述數(shù)組text2數(shù)據(jù)的對應等級時，生成比較結果，將所述比較結果存儲到數(shù)組x中；

20、對所述數(shù)組x和所述file2文本進行詞語等級比較處理，當對應的等級詞匯大于或者少于所述最大句子限制數(shù)量參數(shù)nl時，進行跳過，否則對所述數(shù)組x進行替換處理；

21、將替換好的數(shù)組進行偏歷，生成字符串，并使用text4文本保存改寫好的等級詞匯改寫結果。

22、優(yōu)選地，根據(jù)預設的同義詞語料庫詞典和標準等級詞語詞典對所述所述最大句子限制數(shù)量參數(shù)nl、所述最大中文字符字數(shù)限制參數(shù)max_word和所述text文本進行同義詞詞匯改寫處理，生成同義詞詞匯改寫結果，具體為：

23、將預設的同義詞語料庫詞典打開，存入file文本中，并將所述file文本轉成列表形式，存入file1文本中；

24、將預設的標準等級詞語詞典打開，存入file2文本中，并將所述file2文件轉成列表形式，存入file3文本中；

25、對所述text文本進行分詞處理，生成分詞結果，并將所述分詞結果存入數(shù)組text2中；

26、根據(jù)所述file文本對所述數(shù)組text2的數(shù)據(jù)進行遍歷處理，并判斷所述數(shù)組text2中是否有非中文字符構成；

27、若是，進行跳過；

28、若否，將所述數(shù)組text2中的數(shù)據(jù)送入所述file1文本中進行比較處理；

29、當判斷到在所述file3文本中沒有找到與所述數(shù)組text2對應的同義詞時，進行跳過；

30、當判斷到在所述file3文本中找到與所述數(shù)組text2對應的同義詞時，生成比較結果，將所述比較結果存儲到數(shù)組x中；

31、對所述數(shù)組x和所述file2文本進行詞語等級比較處理，當對應的等級詞匯大于或者少于所述最大句子限制數(shù)量參數(shù)nl時，進行跳過，否則對所述數(shù)組x進行替換處理；

32、將替換好的數(shù)組進行偏歷，生成字符串，并使用text5文本保存改寫好的同義詞詞匯改寫結果。

33、優(yōu)選地，根據(jù)改寫后的文本和所述改寫難度等級，對所述text5文本進行統(tǒng)計各類數(shù)據(jù)處理，生成總改寫結果，進行輸出，具體為：

34、根據(jù)改寫后的文本和所述改寫難度等級，統(tǒng)計所述text5文本中所有在標準語法等級中的詞匯；

35、當找到對應等級時，對應詞匯的等級詞匯數(shù)量加一；

36、當判斷到統(tǒng)計完成時，根據(jù)分詞總量，用對應的等級詞匯數(shù)量除以總詞匯數(shù)量得到對應的比例，并用變量word_single以字典的形式保存不同難度等級的單個字的等級；

37、以變量word_pro以字典的形式保存詞語不同難度的等級比例；

38、對于無法處理的或無法在標準等級詞語庫中找到的額外使用變量level_ch_out以字典的形式保存?zhèn)€數(shù)和位置；

39、將所述text5文本進行中文字符個數(shù)統(tǒng)計本文檔來自技高網...

【技術保護點】

1.一種文本摘要改寫方法,其特征在于，包括：

2.根據(jù)權利要求1所述的一種文本摘要改寫方法，其特征在于，根據(jù)預設的HSK中文水平等級對所述改寫文本和所述改寫難度等級進行抽取處理，并將抽取成功的文本存入text文本中，具體為：

3.根據(jù)權利要求2所述的一種文本摘要改寫方法，其特征在于，根據(jù)預設的標準等級詞語詞典對所述最大句子限制數(shù)量參數(shù)nl、所述最大中文字符字數(shù)限制參數(shù)max_word和所述text文本進行等級詞匯改寫處理，生成等級詞匯改寫結果，具體為：

4.根據(jù)權利要求3所述的一種文本摘要改寫方法，其特征在于，根據(jù)預設的同義詞語料庫詞典和標準等級詞語詞典對所述所述最大句子限制數(shù)量參數(shù)nl、所述最大中文字符字數(shù)限制參數(shù)max_word和所述text文本進行同義詞詞匯改寫處理，生成同義詞詞匯改寫結果，具體為：

5.根據(jù)權利要求4所述的一種文本摘要改寫方法，其特征在于，根據(jù)改寫后的文本和所述改寫難度等級，對所述text5文本進行統(tǒng)計各類數(shù)據(jù)處理，生成總改寫結果，進行輸出，具體為：

6.根據(jù)權利要求5所述的一種文本摘要改寫方法，

7.一種文本摘要改寫裝置，其特征在于，包括：

8.一種文本摘要改寫設備，其特征在于，包括處理器、存儲器以及存儲在存儲器中且被配置由處理器執(zhí)行的計算機程序，處理器執(zhí)行計算機程序時實現(xiàn)如權利要求1至6任意一項所述的一種文本摘要改寫方法。

9.一種可讀存儲介質，其特征在于，存儲有計算機程序，計算機程序能夠被該存儲介質所在設備的處理器執(zhí)行，以實現(xiàn)如權利要求1至6任意一項所述的一種文本摘要改寫方法。

...

【技術特征摘要】

1.一種文本摘要改寫方法,其特征在于，包括：

2.根據(jù)權利要求1所述的一種文本摘要改寫方法，其特征在于，根據(jù)預設的hsk中文水平等級對所述改寫文本和所述改寫難度等級進行抽取處理，并將抽取成功的文本存入text文本中，具體為：

5.根據(jù)權利要求4所述的一種文本摘要改寫方法...

【專利技術屬性】
技術研發(fā)人員：蘇翠航，張怡，陳銘，左天悅，許景朝，張禾延，蔡燁暉，王華珍，
申請(專利權)人：華僑大學，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術