• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種中文語言的特征信息提取方法及裝置制造方法及圖紙

    技術編號:28037344 閱讀:32 留言:0更新日期:2021-04-09 23:19
    本發(fā)明專利技術提供一種中文語言的特征信息提取方法及裝置,所述方法包括:獲取待識別文本;對所述待識別文本進行分詞并標注詞性,獲得所述待識別文本的詞向量;根據(jù)所述詞向量以及第一語義規(guī)則狀態(tài)機,獲得所述待識別文本對應的第一特征要素,每個第一特征要素對應所述第一語義規(guī)則狀態(tài)機中的一條第一識別分支;其中,所述第一語義規(guī)則狀態(tài)機是預先生成的,包括多條第一識別分支;根據(jù)每個第一特征要素以及每個第一特征要素對應第一識別分支所對應的轉(zhuǎn)化規(guī)則,獲得所述待識別文本的特征信息。所述裝置用于執(zhí)行上述方法。本發(fā)明專利技術實施例提供的中文語言的特征信息提取方法及裝置,提高了特征信息的提取效率。

    【技術實現(xiàn)步驟摘要】
    一種中文語言的特征信息提取方法及裝置
    本專利技術涉及人工智能
    ,具體涉及一種中文語言的特征信息提取方法及裝置。
    技術介紹
    基于自然語言處理技術,可以用于識別用戶語言描述的操作意圖,以更自然的方式,實現(xiàn)人機交互。現(xiàn)有技術中,可以通過關鍵詞匹配理解用戶意圖,通常通過預置相關的關鍵詞,匹配關鍵詞在語句中是否出現(xiàn)來判斷用戶操作意圖。由于該技術通過關鍵詞進行匹配,只能識別大概的意圖,并且識別的準確率低,經(jīng)常發(fā)生誤判和錯判的情況。還可以基于正則表達式進行模式匹配識別,通過編寫正則表達式,窮舉所有可能的表述方式,對其中的查詢特征信息進行提取。但是,正則表達式編寫規(guī)則復雜,技術難度高,通過這種方式進行自然語言處理,工作量巨大,需要大量的人工來編寫識別規(guī)則;并且規(guī)則執(zhí)行效率低下,支持的場景有限,難以大規(guī)模使用。還可以基于神經(jīng)網(wǎng)絡的機器學習技術,通過對海量數(shù)據(jù)樣本的標注和訓練,生成數(shù)據(jù)識別模型,基于生成的模型進行自然語言理解和處理。由于機器學習技術在需要針對大量的樣本數(shù)據(jù)進行標注和訓練,模型的學習成本較高,且需要較長的訓練周期,在一些無法獲取足夠樣本的場景下,難以使用;并且訓練生成的模型優(yōu)化困難,難以干預或調(diào)整。
    技術實現(xiàn)思路
    針對現(xiàn)有技術中的問題,本專利技術實施例提供一種中文語言的特征信息提取方法及裝置,能夠至少部分地解決現(xiàn)有技術中存在的問題。一方面,本專利技術提出一種中文語言的特征信息提取方法,包括:獲取待識別文本;對所述待識別文本進行分詞并標注詞性,獲得所述待識別文本的詞向量;根據(jù)所述詞向量以及第一語義規(guī)則狀態(tài)機,獲得所述待識別文本對應的第一特征要素,每個第一特征要素對應所述第一語義規(guī)則狀態(tài)機中的一條第一識別分支;其中,所述第一語義規(guī)則狀態(tài)機是預先生成的,包括多條第一識別分支;根據(jù)每個第一特征要素以及每個第一特征要素對應第一識別分支所對應的轉(zhuǎn)化規(guī)則,獲得所述待識別文本的特征信息。另一方面,本專利技術提供一種中文語言的特征信息提取裝置,包括:獲取單元,用于獲取待識別文本;第一獲得單元,用于對所述待識別文本進行分詞并標注詞性,獲得所述待識別文本的詞向量;第二獲得單元,用于根據(jù)所述詞向量以及第一語義規(guī)則狀態(tài)機,獲得所述待識別文本對應的第一特征要素,每個第一特征要素對應所述第一語義規(guī)則狀態(tài)機中的一條第一識別分支;其中,所述第一語義規(guī)則狀態(tài)機是預先生成的,包括多條第一識別分支;提取單元,用于根據(jù)每個第一特征要素以及每個第一特征要素對應第一識別分支所對應的轉(zhuǎn)化規(guī)則,獲得所述待識別文本的特征信息。再一方面,本專利技術提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述任一實施例所述中文語言的特征信息提取方法的步驟。又一方面,本專利技術提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述任一實施例所述中文語言的特征信息提取方法的步驟。本專利技術實施例提供的中文語言的特征信息提取方法及裝置,能夠獲取待識別文本,對待識別文本進行分詞并標注詞性,獲得待識別文本的詞向量,根據(jù)詞向量以及第一語義規(guī)則狀態(tài)機,獲得待識別文本對應的第一特征要素,每個第一特征要素對應第一語義規(guī)則狀態(tài)機中的一條第一識別分支,根據(jù)每個第一特征要素以及每個第一特征要素對應第一識別分支所對應的轉(zhuǎn)化規(guī)則,獲得待識別文本的特征信息,能夠從自然語言文本中,快速識別出特征信息,提高了特征信息的提取效率。附圖說明為了更清楚地說明本專利技術實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:圖1是本專利技術一實施例提供的中文語言的特征信息提取方法的流程示意圖。圖2是本專利技術另一實施例提供的中文語言的特征信息提取方法的流程示意圖。圖3是本專利技術一實施例提供的第一語義規(guī)則狀態(tài)機的結(jié)構(gòu)示意圖。圖4是本專利技術再一實施例提供的中文語言的特征信息提取方法的流程示意圖。圖5是本專利技術一實施例提供的語義網(wǎng)絡的結(jié)構(gòu)示意圖。圖6是本專利技術又一實施例提供的中文語言的特征信息提取方法的流程示意圖。圖7是本專利技術一實施例提供的第二語義規(guī)則狀態(tài)機的結(jié)構(gòu)示意圖。圖8是本專利技術一實施例提供的修正后的詞向量與第二語義規(guī)則狀態(tài)機中的每條第二識別分支進行匹配的流程圖。圖9是本專利技術一實施例提供的中文語言的特征信息提取裝置的結(jié)構(gòu)示意圖。圖10是本專利技術一實施例提供的電子設備的實體結(jié)構(gòu)示意圖。具體實施方式為使本專利技術實施例的目的、技術方案和優(yōu)點更加清楚明白,下面結(jié)合附圖對本專利技術實施例做進一步詳細說明。在此,本專利技術的示意性實施例及其說明用于解釋本專利技術,但并不作為對本專利技術的限定。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。為了便于理解本申請?zhí)峁┑募夹g方案,下面先對本申請技術方案的相關內(nèi)容進行說明。本專利技術實施例提供的中文語言的特征信息提取方法,能夠識別用戶中文自然語言中數(shù)據(jù)分析涉及到的特征語言信息,可以精確提取用戶語言表達中的數(shù)據(jù)分析所需的特性信息,而對于語言表達中輔助語義描述(如感嘆、疑問語氣、重復強調(diào)等等),則會進行模糊化處理。本專利技術實施例提供的中文語言的特征信息提取方法,可廣泛應用于各種基于語音、文本等形式的智能化人機交互,快速提取用戶中文自然語言中描述的特征信息,從而實現(xiàn)基于中文自然語言的交互式問答查詢,為用戶提供智能化的交互體驗。圖1是本專利技術一實施例提供的中文語言的特征信息提取方法的流程示意圖,如圖1所示,本專利技術實施例提供的中文語言的特征信息提取方法,包括:S101、獲取待識別文本;具體地,服務器能夠獲取待識別文本,所述待識別文本可以是一句話,也可以是一段文本,根據(jù)實際需要進行設置,本專利技術實施例不做限定。其中,本專利技術實施例提供的中文語言的特征信息提取方法的執(zhí)行主體包括但不限于服務器。例如,用戶可以通過鍵盤輸入一句話“我想看看2018年以來各地區(qū)銷售收入的變化情況?”,服務器可以獲取到上述語句作為待識別文本。例如,服務器可以從文件中讀取一段文本作為待識別文本。例如,用戶以語音輸入的方式輸入“我想看看2018年以來各地區(qū)銷售收入的變化情況?”,服務器可以將上述語音輸入轉(zhuǎn)化為文本,將轉(zhuǎn)化的文本作為待識別文本。S102、對所述待識別文本進行分詞并標注詞性,獲得所述待識別文本的詞向量;具體地,所服務器在獲得所述待識別文本之后,可以對所述待識別文本進行分詞,獲得所述待識別文本包括的每個詞語,然后對每個詞語進行詞性標注,獲得每個詞語的詞性,并將所述待識別文本包括的每個詞語按照閱讀順序進行排序,獲得所述待識別文本的詞向量,所述詞向量包括每個詞語、每個詞語的詞性以及各個詞語本文檔來自技高網(wǎng)...

    【技術保護點】
    1.一種中文語言的特征信息提取方法,其特征在于,包括:/n獲取待識別文本;/n對所述待識別文本進行分詞并標注詞性,獲得所述待識別文本的詞向量;/n根據(jù)所述詞向量以及第一語義規(guī)則狀態(tài)機,獲得所述待識別文本對應的第一特征要素,每個第一特征要素對應所述第一語義規(guī)則狀態(tài)機中的一條第一識別分支;其中,所述第一語義規(guī)則狀態(tài)機是預先生成的,包括多條第一識別分支;/n根據(jù)每個第一特征要素以及每個第一特征要素對應第一識別分支所對應的轉(zhuǎn)化規(guī)則,獲得所述待識別文本的特征信息。/n

    【技術特征摘要】
    1.一種中文語言的特征信息提取方法,其特征在于,包括:
    獲取待識別文本;
    對所述待識別文本進行分詞并標注詞性,獲得所述待識別文本的詞向量;
    根據(jù)所述詞向量以及第一語義規(guī)則狀態(tài)機,獲得所述待識別文本對應的第一特征要素,每個第一特征要素對應所述第一語義規(guī)則狀態(tài)機中的一條第一識別分支;其中,所述第一語義規(guī)則狀態(tài)機是預先生成的,包括多條第一識別分支;
    根據(jù)每個第一特征要素以及每個第一特征要素對應第一識別分支所對應的轉(zhuǎn)化規(guī)則,獲得所述待識別文本的特征信息。


    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述待識別文本的詞向量以及第一語義規(guī)則狀態(tài)機,獲得所述待識別文本對應的第一特征要素包括:
    將所述待識別文本的詞向量與所述第一語義規(guī)則狀態(tài)機中的每條第一識別分支進行匹配;
    若判斷獲知所述詞向量包括的詞語與所述第一識別分支匹配,則將與所述第一識別分支匹配的詞語作為與所述第一識別分支對應的第一特征要素。


    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述待識別文本的詞向量與所述第一語義規(guī)則狀態(tài)機中的每條第一識別分支進行匹配包括:
    按照所述詞向量包括的詞語的排列順序,根據(jù)每個詞語和/或每個詞語對應的詞性以及第一語義匹配規(guī)則將每個詞語與每條第一識別分支包括的第一個語義單元進行匹配;其中,每條第一識別分支包括至少一個語義單元;所述第一語義匹配規(guī)則是預設的。


    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括:
    若判斷獲知所述詞語與所述第一識別分支包括的第一個語義單元匹配,則從所述詞語的下一個詞語開始按照所述詞向量包括的詞語的排列順序依次將每個詞語與所述第一識別分支包括的語義單元進行匹配,直到完成所述第一識別分支的匹配。


    5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,還包括:
    通過行業(yè)詞庫對所述待識別文本的詞向量進行修正并標注分類,獲得修正后的詞向量;其中,所述行業(yè)詞庫是預先生成的;
    根據(jù)修正后的詞向量以及第二語義規(guī)則狀態(tài)機,獲得所述待識別文本對應的第二特征要素,每個第二特征要素對應所述第二語義規(guī)則狀態(tài)機中的一條第二識別分支;其中,所述第二語義規(guī)則狀態(tài)機是預先生成的,包括多條第二識別分支;
    根據(jù)每個第二特征要素以及每個第二特征要素對應第二識別分支所對應的轉(zhuǎn)化規(guī)則,獲得所述待識別文本的特征...

    【專利技術屬性】
    技術研發(fā)人員:李紀洲王星宇吳明星
    申請(專利權(quán))人:北京久其軟件股份有限公司
    類型:發(fā)明
    國別省市:北京;11

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码无需播放器在线观看| 日日摸日日碰夜夜爽无码| 无码夫の前で人妻を侵犯| 精品成在人线AV无码免费看| 亚洲av无码一区二区三区天堂| 日韩成人无码中文字幕| 亚洲日韩av无码中文| 亚洲一区二区三区无码中文字幕| 久久av无码专区亚洲av桃花岛| 天堂无码在线观看| 亚洲AV无码国产一区二区三区| 亚洲第一极品精品无码久久| 无码人妻精品一区二区蜜桃AV| 50岁人妻丰满熟妇αv无码区| 亚洲一区AV无码少妇电影☆| 加勒比无码一区二区三区| 久久久亚洲精品无码| 永久免费av无码网站yy| 免费无遮挡无码永久在线观看视频 | julia无码人妻中文字幕在线| 亚洲va无码va在线va天堂| 免费无遮挡无码永久在线观看视频| 97人妻无码一区二区精品免费| 亚洲大尺度无码无码专区| 亚洲熟妇无码八AV在线播放| 亚洲成a人无码av波多野按摩| 蜜臀亚洲AV无码精品国产午夜. | 国内精品无码一区二区三区| 无码任你躁久久久久久| 无码区日韩特区永久免费系列 | YW尤物AV无码国产在线观看| 性色av无码免费一区二区三区| 在人线av无码免费高潮喷水| 亚洲一区无码中文字幕乱码| 无码午夜人妻一区二区三区不卡视频| 久久精品无码一区二区日韩AV| 国产激情无码一区二区三区| 狠狠躁狠狠爱免费视频无码| 中国少妇无码专区| 午夜不卡无码中文字幕影院| 久久精品岛国av一区二区无码 |