【技術實現步驟摘要】
一種交通事故損害賠償中法律條文預測方法
本專利技術屬于法律智能領域,尤其適用于法律智能中的司法認知智能研究領域,其目的在于針對交通事故案件進行法律條文預測,是一種幫助公眾了解法律知識與案件的情況,同時為法律行業提供輔助意見的方法。
技術介紹
隨著大量司法數據的逐漸開放和NLP技術的飛速發展,司法文書已經成為學術研究領域的重要研究對象。目前關于法律智能的研究尚少,而且主要集中在基于機器學習和數據挖掘的法律推理和法律適應性方面,少量的研究是關于自動判決預測、相關法條預測、相似案件檢索、證據分析等方面的。在現有的法律智能系統研究中,大部分是針對部分刑事指控,而不是整個案件,因此還不能投入使用。雖然在自動量刑方面取得了一些成果,但在同類案件的推薦和相關法律條文的預測方面仍缺乏進展,具有較大的研究意義和實用價值。今年發布了中國20年特大事故大數據分析報告,表明我國交通運輸業仍是重大交通事故發生的集中區。同時,我國對重大安全事故的歸責和處罰也越來越嚴厲。因此,對交通裁判文書的研究、特征的發現和運用具有重要的價值和意義。對此,本專利技術提出一種交通事故損害賠償中法條預測方法。本專利技術通過兩個不同的角度對法條進行預測:第一種角度是將預測問題看作是一個多標簽分類問題。用事實的文件作為輸入,把案件中引用的法條作為標簽。在訓練過程中,使用特征提取器將數據輸入到特征集中,在這個步驟中,特征提取器使用word2vec。這些特征集將捕獲每個輸入的基本分類信息。然后將帶有標簽的特征對輸入到機器學習算法中,建立分類模型。而 ...
【技術保護點】
1.一種交通事故損害賠償中法律條文預測方法,其特征在于,該方法基于特征提取對事實文本和法律條文進行數據清洗和特征選擇,構建用于模型訓練的特征和特征向量,使用Twitter LDA學習法條的文本表示,使用word2vec提取案情特征;在此基礎上,應用支持向量機方法構建預測模型,生成一個法條預測模型svm-Model;最后,將案情的特征向量輸入到svm-Model中,最終生成當前案情涉及到的法律條文;該方法包括下列步驟:/n1)分詞。給定文本,將完整的語料分成若干詞語,事實和法律條文需要分開輸入,使用的是目前使用最廣泛的中文分詞方法——jieba分詞法。標記詞性并保留詞性為n、vn、nt、ns和v的詞。刪除停用詞如標點和語氣詞。/n本步驟的目的是從為后續特征提取做準備。/n2)特征提取。用卡方檢驗進行特征選擇,以法條作為分類標簽。選擇對每類影響最大的1000個單詞組成一個詞袋,然后對其進行去重。也可以導入外部詞匯,以提高準確性。由于詞匯專業性很強,一些常見的單詞也被添加入停用詞,如原告、被告、事故等。本步驟的目的是避免由于分詞結果導致矩陣太稀疏,消耗大量內存。/n首先構建word2vec模 ...
【技術特征摘要】
1.一種交通事故損害賠償中法律條文預測方法,其特征在于,該方法基于特征提取對事實文本和法律條文進行數據清洗和特征選擇,構建用于模型訓練的特征和特征向量,使用TwitterLDA學習法條的文本表示,使用word2vec提取案情特征;在此基礎上,應用支持向量機方法構建預測模型,生成一個法條預測模型svm-Model;最后,將案情的特征向量輸入到svm-Model中,最終生成當前案情涉及到的法律條文;該方法包括下列步驟:
1)分詞。給定文本,將完整的語料分成若干詞語,事實和法律條文需要分開輸入,使用的是目前使用最廣泛的中文分詞方法——jieba分詞法。標記詞性并保留詞性為n、vn、nt、ns和v的詞。刪除停用詞如標點和語氣詞。
本步驟的目的是從為后續特征提取做準備。
2)特征提取。用卡方檢驗進行特征選擇,以法條作為分類標簽。選擇對每類影響最大的1000個單詞組成一個詞袋,然后對其進行去重。也可以導入外部詞匯,以提高準確性。由于詞匯專業性很強,一些常見的單詞也被添加入停用詞,如原告、被告、事故等。本步驟的目的是避免由于分詞結果導致矩陣太稀疏,消耗大量內存。
首先構建word2vec模型,提取候選關鍵字的詞向量。與傳統的文本表示方法相比,詞之間的語義關系在高維空間中得到更好的體現。讓Dn表示測試事實,對于給定的文檔D,經過分割、部分詞性標注、重復數據刪除、停止詞刪除等數據預處理操作,得到n個候選關鍵字D=[t1,t2,...,tn]。然后遍歷它們,提取候選關鍵詞WV=[v1,v2,...,vm]。可以使用K-Means對它們進行聚類,得到每個聚類的中心。本實驗中的數據是關于交通事故損害賠償的,因此一個聚類就足夠了。計算單詞的歐幾里德距離和聚類中心,并進行排序,選擇前N個單詞作為文檔的關鍵字。
下面是歐幾里得距離的方程:
使用TwitterLDA可以更好地理解特征性、信息量大、篇幅短的法條的語義,所以使用LDA處理法條文本。LDA是一種基于貝葉斯模型的生成統計模型。每個文檔都可以被看作是各種主題的混合體,其中每個文檔都被認為有一組主題通過LDA分配給它。假設在Twitter中存在T個主題,對于主題t,單詞分布由表示,而對于背景單詞,單詞分布由表示,θu表示用戶u的主題分布,π是在背景單詞和主題單詞之間選擇的伯努利分布。如算法1和下圖所示。用戶創建推文,首先基于θu選擇主題,然后通過所選主題或背景模型選擇一些單詞來。
如上所訴,采用兩種方法進行特征提取。一個是用案情作為輸入,將法條作為標簽,在分詞之后,不用參考法條的內容進行預測。法律條文的標簽序號從1個到204個,每個案件的標簽不超過7個。使用word2vec來訓練事實文本。另一方法輸入事實文本和法律條文,分別構建事實和法律條文的特征向量,使用word2vec來訓練事實文本,使用TwitterLDA處理法條文本。本發明共涉及204篇法條,因此將主題數量設置為204篇,并在主題下打印特征詞,構建一個詞袋,用詞袋過濾它的原始文本。
事實文本必須轉化成數值才能輸入到模型中,將特征提取后的數據進行歸一化,歸一化的目的是提高縮放不變性機器學習模型的正確率,而且可以加快模型的收斂速度,提高訓練速度。
4)建立模型。在將法條視為標簽的方法中,將特征向量對和標簽對輸入到機器學習算法中。這里可以使用一對多策略來處理多標簽分類問題。在考慮語義的方法中,可以用一個三元組來表示數據:案情、法律條文、每篇法律條文是否引用。
在分類方面,由于一個案件可以引用多個法律條文,法律條文的預測可以視為一個多標簽分類問題。使用χ代表樣本空間,R={λ1,λ2,...,λm}代表有限的標簽集。假設樣本x∈χ有關的一個子集R,L∈2R,R的這個子集被稱為一組相關的標簽。用向量y=(y1,y1,...ym)表示L,其中yi為0或1,...
【專利技術屬性】
技術研發人員:何鐵科,嚴格,陳振宇,李玉瑩,
申請(專利權)人:南京大學,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。