• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>復旦大學專利>正文

    一種將中文短語結構樹庫轉化為依存結構樹庫的系統和方法技術方案

    技術編號:8532979 閱讀:358 留言:0更新日期:2013-04-04 16:04
    本發明專利技術屬于自然語言處理技術領域,具體為一種將中文短語結構樹庫轉化為依存結構樹庫的系統和方法,方法具體包括:拆分復雜的樹結構;建立更準確的核心映射表;利用規則的方法解決漢語中的復雜結構;建立依賴關系類型標注規范;利用規則的方法確定依賴關系類型。本發明專利技術公開的系統包括:拆分器,用于將樹庫中的長句拆分為短句;核心映射表,用于得到每個詞的初始依賴頭節點;依賴規則器,用于確定每個詞的最終依賴頭節點;依賴關系規范器,用于確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。本發明專利技術將PennChineseTreeBank中文結構樹庫轉換成依存樹庫,更具準確性和規范性,更合理。

    【技術實現步驟摘要】

    本專利技術屬于自然語言處理
    ,具體為一種將中文短語結構樹庫轉換為依存結構樹庫的系統及其方法。
    技術介紹
    隨著自然語言處理的發展,基于規則的研究方法逐漸顯示出它的局限性,人們越來越趨向于用基于統計學的方法從真實的語料中獲取自然語言的規律。句法分析位于自然語言處理中的一個核心位置,其性能的好壞,對其他技術有著重要的影響。它也是以基于統計學的方法為主流方法。所以語料數據在句法分析中充當了一個重要的角色。語料的準確度的高低與規模的大小從最基礎的層面決定著句法分析的性能的好壞,沒有大規模、高準度的語料,再好的算法也失去了他的作用。樹庫作為一種對句子進行了深層句法標注的語料庫越來越引起人們的興趣。目前研究人員在樹庫研究方面開展了大量的研究和開發工作,也取得了可觀的成果。這些樹庫采用的標注體系差別巨大,按照描述方法大體分為兩種,一種是短語結構樹,一種是依存樹。在世界范圍來說,大多數大規模樹庫是基于短語結構的。關于漢語樹庫中,基于短語結構標注的樹庫也占有主要地位,其中最為著名的是賓夕法尼亞大學的中文樹庫Penn Chinese Treebank0在語法體系中,依存語法以其形式簡潔、易于標注、便于應用等優點,逐漸受到研究人員的重視。而基于依存句法的漢語樹庫的匱乏無疑限制了漢語句法分析的發展。由于標注樹庫需要完善的標注體系和規范的標注流程,來保證標注的質量,這是一件費時費力的工作。研究發現短語結構和依存結構雖然在表現形式上不同,但是它們都是對句子語法結構的描述,因此在結構上存在一致性。而現今短語結構樹庫是充足的,我們可以根據他們之間的聯系可以將短語結構轉換成依存結構,得到我們想要的依存樹庫,從而免去了大量的人工標注工作。目前國內外不少人都嘗試了將短語結構樹庫轉化為依存樹庫。其中最主流的方法是利用核心節點映射表來找到每一層的核心節點,且同一層的其他節點都依賴于這個核心節點,并用遞歸的方式遍歷整棵結構樹。樹庫轉換工具PENN2MALT就是利用這一思想的主流轉換工具,它提供了 Penn Treebank和Penn Chinese Treebank的核心節點映射表,以及它的可執行文件,現在都已經免費共享。PENN2MALT對于Penn Treebank英文語料的轉換達到了很好的效果,不過由于漢語的復雜性,以及PENN2MALT自身的規則的簡單性,用PENN2MALT轉換的PennChineseTreebank中文語料結果效果并不是很好,如果用他轉換后的語料來訓練依存句法的話,會影響依存句法最終的性能。所以我們根據漢語的特點,定義了大量的規則,用規則的方法開發了自己的轉換工具,用這個轉換工具轉換后的語料相對于PENN2MALT轉換的語料,具有更高的準確性和規范性。
    技術實現思路
    本專利技術目的在于提出一種基于規則的中文樹庫轉換系統和方法,將PennChineseTreeBank中文結構樹庫轉換成更合理更規范的依存樹庫。本專利技術提出的一種將中文短語結構樹庫轉化為依存結構樹庫的方法,其具體步驟如下 I)讀入PennChineseTreebank中文樹庫,并通過拆分器,將樹庫中的長句拆分為短句。2)確定最終的核心映射表,并利用核心映射表得到每個詞的初始依賴頭節點。3)通過依賴規則器確定每個詞的最終依賴頭節點。4) 建立依賴關系類型標注規范,通過依賴關系規范器,確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。本專利技術主要包括拆分復雜的樹結構;建立更準確的核心映射表,并排除標點、語氣詞、感嘆詞做核心詞的情況;利用規則的方法解決漢語中的特殊語法結構;建立依賴關系類型標注規范;利用規則的方法確定依賴關系類型。下面來--介紹本專利技術的主要內容。一、拆分復雜的樹結構 在Penn Chinese Treebank樹庫中存在許多長句子,并且這些長句子被標注在一棵結構樹中,其結構非常的復雜,這樣的結構樹中可能存在多個根節點,而且這些根節點相互之間不存在依賴關系,所以如果將這樣的長句轉換成依存樹的話,會大大降低依存樹庫的準確率。而本專利技術中采用拆分器將這些長句切割成若干個短句子,每個短句子自身形成一個獨立的結構樹,從而降低了結構樹的復雜度。再將這些重新生成的結構樹轉換成依賴樹,從而得到更高準確率和規范性的依賴樹庫。其具體規則為根據樹結構的特點,在根節點的孩子節點中,將其為逗號或分號的設為拆分點,把長句拆分為短句,且拆分后的樹以原來的根節點作為現在的根節點。二、建立更準確的核心映射表, PENN2MALT轉換工具的源代碼雖然沒有開源,但是它核心映射表已經被公布,本專利技術通過大量實驗,發現用它公布的核心映射表轉換的語料并不是很理想,于是通過對PennChinese Treebank樹庫的研究,建立了自己的核心映射表,如表I所示。 表I本文檔來自技高網
    ...

    【技術保護點】
    一種將中文短語結構樹庫轉化為依存結構樹庫的方法,其特征在于,具體步驟如下:a)讀入PennChineseTreebank中文樹庫,并通過拆分器,將樹庫中的長句拆分為短句;b)確定最終的核心映射表,并利用核心映射表得到每個詞的初始依賴頭節點;c)通過依賴規則器確定每個詞的最終依賴頭節點;d)???建立依賴關系類型標注規范,通過依賴關系規范器,確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。

    【技術特征摘要】
    1.一種將中文短語結構樹庫轉化為依存結構樹庫的方法,其特征在于,具體步驟如下 a)讀入PennChineseTreebank中文樹庫,并通過拆分器,將樹庫中的長句拆分為短句; b)確定最終的核心映射表,并利用核心映射表得到每個詞的初始依賴頭節點; c)通過依賴規則器確定每個詞的最終依賴頭節點; d)建立依賴關系類型標注規范,通過依賴關系規范器,確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。2.根據權利要求1所述的方法,其特征在于步驟a)中所述拆分器根據樹結構的特點,在根節點的孩子節點中,將為逗號或分號的設為拆分點,把長句拆分為短句,且拆分后的樹以原來的根節點作為現在的根節點。3.根據權利要求1所述的方法,其特征在于步驟b)中所述核心映射表是仿照PENN2MALT轉換工具中公布的核心映射表的格式,根據PennChineseTreebank中文樹庫的特點和依賴樹的特點,確定的更準確的核心映射表,其排除了標點、語氣詞、感嘆詞做核心詞的情況。根據權利要求1所述的方法,其特征在于步驟c)中所述依賴規則器,其根據漢語語法的特點以及PennChineseTreebank中文樹庫的標注特點,對于只用步驟b)中所述核心映射表不能確定的依賴結構,確定具體的規則,來確定每個詞的最終依賴頭節點;其中所述具體的規則為 a)“把”字結構和“被”字結構的規則“把”字或“被”字節點后緊跟的節點的孩子中,如果是主謂或者主謂賓結構,則主語和謂語都依賴于“把”字或“被”字節點,并作為他們的賓語; b)“得”字結構的規則“得”字節點以他前面的動詞為核心詞,他后面的賓語以“得”字節點為核心詞; c)并列結構的規則讓最前面的名詞作為核心詞,而那些連接并列名詞之間的連詞依賴到連詞后面的名詞,如果并列名詞是用頓號隔開的話,頓號依賴到它前面的名詞; d)特殊的動詞短語的規則特殊的動詞短語結構的標注包括V⑶、VRD、VSB、VCP、VPT、VNV。通過對這些特殊動詞短語結構的研究,得到如下規則表4.根據權利要求1所述的方法,其特征在于,步驟...

    【專利技術屬性】
    技術研發人員:邱錫鵬趙建雙,
    申請(專利權)人:復旦大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV成人片无码网站| 无码毛片内射白浆视频| 国产办公室秘书无码精品99| 久久久久无码国产精品不卡 | 亚洲乱亚洲乱妇无码| 国产精品无码一区二区三区免费| 亚洲日韩VA无码中文字幕| 亚洲a∨无码精品色午夜| 无码囯产精品一区二区免费| 成在人线AV无码免费| 免费A级毛片无码A∨免费| 国产亚洲精品a在线无码| 国产爆乳无码视频在线观看3| 久久久久成人精品无码中文字幕| 亚洲人成影院在线无码观看| 免费无码AV电影在线观看| 99久久国产热无码精品免费| 野花在线无码视频在线播放| 亚洲精品无码久久不卡| 无码少妇丰满熟妇一区二区| 精品无码一区二区三区爱欲| 久久无码专区国产精品| 中文字幕无码一区二区免费| 亚洲Av无码国产情品久久| 亚洲成av人片在线观看天堂无码| 无码一区二区波多野结衣播放搜索 | 亚洲国产精品无码专区影院 | 精品国产a∨无码一区二区三区| 成人无码午夜在线观看| 精品少妇人妻av无码专区| 日韩AV无码精品一二三区| 亚洲AV无码一区二区乱子仑| 亚洲a∨无码男人的天堂| 无码精品国产dvd在线观看9久| 久久久久亚洲精品无码蜜桃 | 久久久久亚洲AV无码观看| 97碰碰碰人妻视频无码| 无码av免费毛片一区二区| 亚洲中文无码av永久| 无码任你躁久久久久久| 无码中文字幕色专区|