本發(fā)明專(zhuān)利技術(shù)公開(kāi)了一種企業(yè)名稱(chēng)智能分類(lèi)的方法及系統(tǒng),涉及文本處理技術(shù)領(lǐng)域,解決了企業(yè)名稱(chēng)分類(lèi)不夠高效靈活的技術(shù)問(wèn)題,其技術(shù)方案要點(diǎn)是采用標(biāo)注模塊對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)進(jìn)行人工標(biāo)注,通過(guò)文本分類(lèi)模塊對(duì)數(shù)據(jù)進(jìn)行句子長(zhǎng)度填充、分詞、去停用詞和名詞代換等一系列的預(yù)處理,同時(shí)智能投票調(diào)度模塊采用智能投票機(jī)制,保證了企業(yè)名稱(chēng)分類(lèi)方法的可靠性;借助于HTTP數(shù)據(jù)交換模塊,能快速將服務(wù)器端的預(yù)測(cè)結(jié)果傳遞到前臺(tái)服務(wù)端,保證了企業(yè)名稱(chēng)分類(lèi)方法的響應(yīng)速度;借助于前臺(tái)服務(wù)端,本發(fā)明專(zhuān)利技術(shù)適用于各種操作系統(tǒng)、各類(lèi)瀏覽器,支持不同輸入方式,保證了企業(yè)名稱(chēng)分類(lèi)方法的靈活性。
【技術(shù)實(shí)現(xiàn)步驟摘要】
企業(yè)名稱(chēng)智能分類(lèi)的方法及系統(tǒng)
本公開(kāi)涉及文本處理
,尤其涉及一種企業(yè)名稱(chēng)智能分類(lèi)的方法及系統(tǒng)。
技術(shù)介紹
在互聯(lián)網(wǎng)銀行個(gè)人網(wǎng)貸系統(tǒng)中,貸款的個(gè)人信用審核階段,需要對(duì)申請(qǐng)人所在單位企業(yè)資質(zhì)進(jìn)行查詢(xún),用于輔助判別申請(qǐng)人信用級(jí)別。由于目前網(wǎng)貸系統(tǒng)和個(gè)人風(fēng)險(xiǎn)評(píng)級(jí)的業(yè)務(wù)流程中,對(duì)申請(qǐng)人所屬企業(yè)的風(fēng)險(xiǎn)等級(jí)判斷完全依靠人工查詢(xún),效率和準(zhǔn)確率極低。人工查詢(xún)的方式為:利用搜索引擎手動(dòng)查詢(xún),例如按照學(xué)校是否重點(diǎn)、是否公辦、小學(xué)幼兒園排名逐個(gè)分不同類(lèi)別;企業(yè)則是由企業(yè)數(shù)據(jù)提供網(wǎng)站上手動(dòng)逐個(gè)查詢(xún),按照是否事業(yè)單位、是否省級(jí)市級(jí)、上市情況等人工分類(lèi)。個(gè)體判斷的差異性和搜索引擎查詢(xún)的精細(xì)度等人為干預(yù)過(guò)程,使得一些評(píng)判標(biāo)準(zhǔn)并不唯一確定。因而,需要一種降低人工工作量、可靠性高、響應(yīng)速度快、靈活性好、審核效率高的企業(yè)名稱(chēng)分類(lèi)的方法和系統(tǒng)。
技術(shù)實(shí)現(xiàn)思路
本公開(kāi)提供了一種企業(yè)名稱(chēng)智能分類(lèi)的方法及系統(tǒng),達(dá)到高效且靈活對(duì)企業(yè)名稱(chēng)進(jìn)行分類(lèi)的技術(shù)目的。本公開(kāi)的上述技術(shù)目的是通過(guò)以下技術(shù)方案得以實(shí)現(xiàn)的:一種企業(yè)名稱(chēng)智能分類(lèi)的方法,包括:對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)進(jìn)行人工標(biāo)注,得到原始數(shù)據(jù)集;對(duì)所述原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理;使用TF-IDF模型對(duì)預(yù)處理后的所述原始數(shù)據(jù)集進(jìn)行特征提取,使用one-hot編碼和word2vec模型將提取的特征轉(zhuǎn)為詞向量;將所述詞向量分別投入到Capsule模型、TextCNN模型和LightGBM模型進(jìn)行訓(xùn)練和測(cè)試,測(cè)試結(jié)果達(dá)到預(yù)設(shè)精度的則停止訓(xùn)練并保存相應(yīng)模型,否則重新進(jìn)行訓(xùn)練和測(cè)試;載入訓(xùn)練完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述詞向量進(jìn)行預(yù)測(cè),分別得到第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果;采用智能投票機(jī)制對(duì)所述第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果進(jìn)行投票決策,得到最終預(yù)測(cè)結(jié)果;將所述最終預(yù)測(cè)結(jié)果返回至前臺(tái)服務(wù)端,與用戶(hù)進(jìn)行交互。進(jìn)一步地,所述數(shù)據(jù)預(yù)處理包括句子長(zhǎng)度填充、分詞、去停用詞和名詞代換。進(jìn)一步地,所述智能投票機(jī)制包括最差機(jī)制和少數(shù)服從多數(shù)機(jī)制,所述最差機(jī)制為:當(dāng)?shù)谝活A(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果中出現(xiàn)最低評(píng)級(jí)時(shí),則所述最終預(yù)測(cè)結(jié)果直接為最低評(píng)級(jí);所述少數(shù)服從多數(shù)機(jī)制為:當(dāng)?shù)谝活A(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果都不是最低評(píng)級(jí)時(shí),根據(jù)所述少數(shù)服從多數(shù)機(jī)制投票選出所述最終預(yù)測(cè)結(jié)果。一種企業(yè)名稱(chēng)智能分類(lèi)的系統(tǒng),包括:標(biāo)注模塊,對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)進(jìn)行人工標(biāo)注,得到原始數(shù)據(jù)集;文本分類(lèi)模塊,包括:預(yù)處理單元,對(duì)所述原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理;特征提取單元,使用TF-IDF模型對(duì)預(yù)處理后的所述原始數(shù)據(jù)集進(jìn)行特征提取,使用one-hot編碼和word2vec模型將提取的特征轉(zhuǎn)為詞向量;模型訓(xùn)練單元,將所述詞向量分別投入到Capsule模型、TextCNN模型和LightGBM模型進(jìn)行訓(xùn)練和測(cè)試,測(cè)試結(jié)果達(dá)到預(yù)設(shè)精度的則停止訓(xùn)練并保存相應(yīng)模型,否則重新進(jìn)行訓(xùn)練和測(cè)試;預(yù)測(cè)單元,載入訓(xùn)練完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述詞向量進(jìn)行預(yù)測(cè),分別得到第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果;智能投票調(diào)度模塊,采用智能投票機(jī)制對(duì)所述第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果進(jìn)行投票決策,得到最終預(yù)測(cè)結(jié)果;HTTP數(shù)據(jù)交換模塊,將所述最終預(yù)測(cè)結(jié)果傳送給前臺(tái)服務(wù)端;前臺(tái)服務(wù)端,與用戶(hù)進(jìn)行交互。進(jìn)一步地,所述預(yù)處理單元包括句子長(zhǎng)度填充單元、分詞單元、去停用詞單元和名詞代換單元。進(jìn)一步地,所述智能投票調(diào)度模塊包括:最差機(jī)制單元,當(dāng)?shù)谝活A(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果中出現(xiàn)最低評(píng)級(jí)時(shí),則所述最差機(jī)制單元直接給出最低評(píng)級(jí)的所述最終預(yù)測(cè)結(jié)果;投票單元,當(dāng)?shù)谝活A(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果都不是最低評(píng)級(jí)時(shí),所述投票單元根據(jù)少數(shù)服從多數(shù)機(jī)制投票選出所述最終預(yù)測(cè)結(jié)果。本公開(kāi)的有益效果在于:本公開(kāi)所述的企業(yè)名稱(chēng)智能分類(lèi)的方法及系統(tǒng)通過(guò)文本分類(lèi)模塊和智能投票調(diào)度模塊,對(duì)數(shù)據(jù)進(jìn)行句子長(zhǎng)度填充、分詞、去停用詞和名詞代換等一系列的預(yù)處理,同時(shí)提出智能投票機(jī)制,保證了企業(yè)名稱(chēng)分類(lèi)方法的可靠性;借助于HTTP數(shù)據(jù)交換模塊,能快速將服務(wù)器端的預(yù)測(cè)結(jié)果傳遞到前臺(tái)服務(wù)端,保證了企業(yè)名稱(chēng)分類(lèi)方法的響應(yīng)速度;借助于前臺(tái)服務(wù)端,本專(zhuān)利技術(shù)適用于各種操作系統(tǒng)、各類(lèi)瀏覽器,支持不同輸入方式,保證了企業(yè)名稱(chēng)分類(lèi)方法的靈活性。附圖說(shuō)明圖1為本公開(kāi)方法流程圖;圖2為本公開(kāi)系統(tǒng)示意圖;圖3為本公開(kāi)實(shí)施例的分詞樣例示意圖;圖4為本公開(kāi)實(shí)施例的去停用詞樣例示意圖;圖5為本公開(kāi)實(shí)施例的名詞代換樣例示意圖;圖6為本公開(kāi)實(shí)施例的前臺(tái)服務(wù)端界面。具體實(shí)施方式下面將結(jié)合附圖對(duì)本公開(kāi)技術(shù)方案進(jìn)行詳細(xì)說(shuō)明。在本公開(kāi)的描述中,需要理解地是,術(shù)語(yǔ)“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量,僅用來(lái)區(qū)分不同的組成部分。圖1為本公開(kāi)方法流程圖,如圖1所示,首先對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)進(jìn)行人工標(biāo)注,標(biāo)注后的企業(yè)名稱(chēng)文本數(shù)據(jù)則為原始數(shù)據(jù)集。由于軟件功能無(wú)法完全對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)進(jìn)行精準(zhǔn)的標(biāo)注,因而對(duì)無(wú)法標(biāo)注的部分需要進(jìn)行人工標(biāo)注。然后對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,再使用TF-IDF模型對(duì)預(yù)處理后的原始數(shù)據(jù)集進(jìn)行特征提取,使用one-hot編碼和word2vec模型將提取的特征轉(zhuǎn)為詞向量。將詞向量分別投入到Capsule模型、TextCNN模型和LightGBM模型進(jìn)行訓(xùn)練和測(cè)試,測(cè)試結(jié)果達(dá)到預(yù)設(shè)精度則停止訓(xùn)練并保存相應(yīng)模型,否則對(duì)未達(dá)到預(yù)設(shè)精度的模型重新進(jìn)行訓(xùn)練和測(cè)試。然后載入訓(xùn)練完成的Capsule模型、TextCNN模型和LightGBM模型并投入詞向量進(jìn)行預(yù)測(cè),分別得到第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果,采用智能投票機(jī)制對(duì)第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果進(jìn)行投票決策,得到最終預(yù)測(cè)結(jié)果,最后將最終預(yù)測(cè)結(jié)果返回至前臺(tái)服務(wù)端,與用戶(hù)進(jìn)行交互。本實(shí)施例將企業(yè)名稱(chēng)智能分類(lèi)為A、B、C、D四類(lèi)標(biāo)簽,企業(yè)的風(fēng)險(xiǎn)等級(jí)從低到高,A類(lèi)企業(yè)信用等級(jí)最高風(fēng)險(xiǎn)最小即最高評(píng)級(jí),而D類(lèi)企業(yè)信用等級(jí)最低風(fēng)險(xiǎn)最大即最低評(píng)級(jí)。對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)標(biāo)注后構(gòu)成原始數(shù)據(jù)集,原始數(shù)據(jù)集供下一步數(shù)據(jù)預(yù)處理使用。數(shù)據(jù)預(yù)處理過(guò)程為:首先進(jìn)行句子長(zhǎng)度填充,即利用文本填充技術(shù),為文本前面或后面填充象征開(kāi)始或者結(jié)束的符號(hào),句子長(zhǎng)度填充即將不同的企業(yè)名稱(chēng)填充成一樣的長(zhǎng)度,方便后續(xù)處理。然后通過(guò)分詞將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞,將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列,分詞可采用不同的算法,從而實(shí)現(xiàn)不同的分詞效果,例如有正向最大匹配法、逆向最大匹配法、統(tǒng)計(jì)法等,本實(shí)施例采用jieba分詞對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)進(jìn)行分詞處理,其具體分詞實(shí)施方式參見(jiàn)圖3。之后,調(diào)用一個(gè)停用詞表,根據(jù)停用詞表所記錄的停本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種企業(yè)名稱(chēng)智能分類(lèi)的方法,其特征在于,包括:/n對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)進(jìn)行人工標(biāo)注,得到原始數(shù)據(jù)集;/n對(duì)所述原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理;/n使用TF-IDF模型對(duì)預(yù)處理后的所述原始數(shù)據(jù)集進(jìn)行特征提取,使用one-hot編碼和word2vec模型將提取的特征轉(zhuǎn)為詞向量;/n將所述詞向量分別投入到Capsule模型、TextCNN模型和LightGBM模型進(jìn)行訓(xùn)練和測(cè)試,測(cè)試結(jié)果達(dá)到預(yù)設(shè)精度的則停止訓(xùn)練并保存相應(yīng)模型,否則重新進(jìn)行訓(xùn)練和測(cè)試;/n載入訓(xùn)練完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述詞向量進(jìn)行預(yù)測(cè),分別得到第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果;/n采用智能投票機(jī)制對(duì)所述第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果進(jìn)行投票決策,得到最終預(yù)測(cè)結(jié)果;/n將所述最終預(yù)測(cè)結(jié)果返回至前臺(tái)服務(wù)端,與用戶(hù)進(jìn)行交互。/n
【技術(shù)特征摘要】
1.一種企業(yè)名稱(chēng)智能分類(lèi)的方法,其特征在于,包括:
對(duì)企業(yè)名稱(chēng)文本數(shù)據(jù)進(jìn)行人工標(biāo)注,得到原始數(shù)據(jù)集;
對(duì)所述原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理;
使用TF-IDF模型對(duì)預(yù)處理后的所述原始數(shù)據(jù)集進(jìn)行特征提取,使用one-hot編碼和word2vec模型將提取的特征轉(zhuǎn)為詞向量;
將所述詞向量分別投入到Capsule模型、TextCNN模型和LightGBM模型進(jìn)行訓(xùn)練和測(cè)試,測(cè)試結(jié)果達(dá)到預(yù)設(shè)精度的則停止訓(xùn)練并保存相應(yīng)模型,否則重新進(jìn)行訓(xùn)練和測(cè)試;
載入訓(xùn)練完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述詞向量進(jìn)行預(yù)測(cè),分別得到第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果;
采用智能投票機(jī)制對(duì)所述第一預(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果進(jìn)行投票決策,得到最終預(yù)測(cè)結(jié)果;
將所述最終預(yù)測(cè)結(jié)果返回至前臺(tái)服務(wù)端,與用戶(hù)進(jìn)行交互。
2.如權(quán)利要求1所述的企業(yè)名稱(chēng)智能分類(lèi)的方法,其特征在于,所述數(shù)據(jù)預(yù)處理包括句子長(zhǎng)度填充、分詞、去停用詞和名詞代換。
3.如權(quán)利要求1所述的企業(yè)名稱(chēng)智能分類(lèi)的方法,其特征在于,所述智能投票機(jī)制包括最差機(jī)制和少數(shù)服從多數(shù)機(jī)制,所述最差機(jī)制為:當(dāng)?shù)谝活A(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果中出現(xiàn)最低評(píng)級(jí)時(shí),則所述最終預(yù)測(cè)結(jié)果直接為最低評(píng)級(jí);
所述少數(shù)服從多數(shù)機(jī)制為:當(dāng)?shù)谝活A(yù)測(cè)結(jié)果、第二預(yù)測(cè)結(jié)果和第三預(yù)測(cè)結(jié)果都不是最低評(píng)級(jí)時(shí),根據(jù)所述少數(shù)服從多數(shù)機(jī)制投票選出所述最終預(yù)測(cè)結(jié)果。
4.一種企業(yè)名稱(chēng)智能分類(lèi)的系統(tǒng),其特征在于,包括:
標(biāo)注模塊,...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:王珂,陳菲琪,張昕然,王景斌,
申請(qǐng)(專(zhuān)利權(quán))人:江蘇蘇寧銀行股份有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:江蘇;32
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。