【技術實現步驟摘要】
本專利技術屬于自然語言處理
,具體為一種將中文短語結構樹庫轉換為依存結構樹庫的系統及其方法。
技術介紹
隨著自然語言處理的發展,基于規則的研究方法逐漸顯示出它的局限性,人們越來越趨向于用基于統計學的方法從真實的語料中獲取自然語言的規律。句法分析位于自然語言處理中的一個核心位置,其性能的好壞,對其他技術有著重要的影響。它也是以基于統計學的方法為主流方法。所以語料數據在句法分析中充當了一個重要的角色。語料的準確度的高低與規模的大小從最基礎的層面決定著句法分析的性能的好壞,沒有大規模、高準度的語料,再好的算法也失去了他的作用。樹庫作為一種對句子進行了深層句法標注的語料庫越來越引起人們的興趣。目前研究人員在樹庫研究方面開展了大量的研究和開發工作,也取得了可觀的成果。這些樹庫采用的標注體系差別巨大,按照描述方法大體分為兩種,一種是短語結構樹,一種是依存樹。在世界范圍來說,大多數大規模樹庫是基于短語結構的。關于漢語樹庫中,基于短語結構標注的樹庫也占有主要地位,其中最為著名的是賓夕法尼亞大學的中文樹庫Penn Chinese Treebank0在語法體系中,依存語法以其形式簡潔、易于標注、便于應用等優點,逐漸受到研究人員的重視。而基于依存句法的漢語樹庫的匱乏無疑限制了漢語句法分析的發展。由于標注樹庫需要完善的標注體系和規范的標注流程,來保證標注的質量,這是一件費時費力的工作。研究發現短語結構和依存結構雖然在表現形式上不同,但是它們都是對句子語法結構的描述,因此在結構上存在一致性。而現今短語結構樹庫是充足的,我們可以根據他們之間的聯系可以將短語結構轉換成依存結構, ...
【技術保護點】
一種將中文短語結構樹庫轉化為依存結構樹庫的方法,其特征在于,具體步驟如下:a)讀入PennChineseTreebank中文樹庫,并通過拆分器,將樹庫中的長句拆分為短句;b)確定最終的核心映射表,并利用核心映射表得到每個詞的初始依賴頭節點;c)通過依賴規則器確定每個詞的最終依賴頭節點;d)???建立依賴關系類型標注規范,通過依賴關系規范器,確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。
【技術特征摘要】
1.一種將中文短語結構樹庫轉化為依存結構樹庫的方法,其特征在于,具體步驟如下 a)讀入PennChineseTreebank中文樹庫,并通過拆分器,將樹庫中的長句拆分為短句; b)確定最終的核心映射表,并利用核心映射表得到每個詞的初始依賴頭節點; c)通過依賴規則器確定每個詞的最終依賴頭節點; d)建立依賴關系類型標注規范,通過依賴關系規范器,確定詞與詞之間的最終依賴關系,形成最終的依賴樹庫。2.根據權利要求1所述的方法,其特征在于步驟a)中所述拆分器根據樹結構的特點,在根節點的孩子節點中,將為逗號或分號的設為拆分點,把長句拆分為短句,且拆分后的樹以原來的根節點作為現在的根節點。3.根據權利要求1所述的方法,其特征在于步驟b)中所述核心映射表是仿照PENN2MALT轉換工具中公布的核心映射表的格式,根據PennChineseTreebank中文樹庫的特點和依賴樹的特點,確定的更準確的核心映射表,其排除了標點、語氣詞、感嘆詞做核心詞的情況。根據權利要求1所述的方法,其特征在于步驟c)中所述依賴規則器,其根據漢語語法的特點以及PennChineseTreebank中文樹庫的標注特點,對于只用步驟b)中所述核心映射表不能確定的依賴結構,確定具體的規則,來確定每個詞的最終依賴頭節點;其中所述具體的規則為 a)“把”字結構和“被”字結構的規則“把”字或“被”字節點后緊跟的節點的孩子中,如果是主謂或者主謂賓結構,則主語和謂語都依賴于“把”字或“被”字節點,并作為他們的賓語; b)“得”字結構的規則“得”字節點以他前面的動詞為核心詞,他后面的賓語以“得”字節點為核心詞; c)并列結構的規則讓最前面的名詞作為核心詞,而那些連接并列名詞之間的連詞依賴到連詞后面的名詞,如果并列名詞是用頓號隔開的話,頓號依賴到它前面的名詞; d)特殊的動詞短語的規則特殊的動詞短語結構的標注包括V⑶、VRD、VSB、VCP、VPT、VNV。通過對這些特殊動詞短語結構的研究,得到如下規則表4.根據權利要求1所述的方法,其特征在于,步驟...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。