公務(wù)員期刊網(wǎng) 論文中心 正文

機(jī)器學(xué)習(xí)模型下企業(yè)信用風(fēng)險(xiǎn)淺析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了機(jī)器學(xué)習(xí)模型下企業(yè)信用風(fēng)險(xiǎn)淺析范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。

機(jī)器學(xué)習(xí)模型下企業(yè)信用風(fēng)險(xiǎn)淺析

摘要:本文基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)方法,探索構(gòu)建企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型,并對(duì)公司信用類債券發(fā)行人的違約風(fēng)險(xiǎn)進(jìn)行監(jiān)測。在1000余個(gè)指標(biāo)中,通過信息值和隨機(jī)森林指標(biāo)重要度計(jì)算等方法,篩選出14個(gè)對(duì)信用風(fēng)險(xiǎn)有顯著影響的指標(biāo),構(gòu)建機(jī)器學(xué)習(xí)模型,計(jì)算企業(yè)的違約概率,并利用ROC曲線確定預(yù)警閾值,將高于閾值的企業(yè)列入預(yù)警名單。經(jīng)實(shí)際違約企業(yè)情況檢驗(yàn),模型預(yù)警效果良好。

關(guān)鍵詞:機(jī)器學(xué)習(xí);信用債券;風(fēng)險(xiǎn)監(jiān)測

引言

在經(jīng)濟(jì)增速放緩影響企業(yè)盈利、金融去杠桿加大再融資難度、前期債務(wù)快速增長加重當(dāng)期還款壓力等多重因素影響下,我國貸款不良率和債券違約率有所攀升,企業(yè)債務(wù)風(fēng)險(xiǎn)已成為值得關(guān)注的金融風(fēng)險(xiǎn)之一。2014—2021年,我國債券市場違約金額逐年攀升,累計(jì)達(dá)6369.9億元,違約主體涉及中央國有企業(yè)、地方國有企業(yè)、民營企業(yè)等。近年來,國家高度重視金融風(fēng)險(xiǎn)防范工作,將防范化解金融風(fēng)險(xiǎn)列為“三大攻堅(jiān)戰(zhàn)”之一,多次強(qiáng)調(diào)要夯實(shí)金融穩(wěn)定的基礎(chǔ),深化信用體系改革。因此,對(duì)企業(yè)債務(wù)風(fēng)險(xiǎn)進(jìn)行實(shí)時(shí)動(dòng)態(tài)監(jiān)測預(yù)警,是當(dāng)前形勢下貫徹落實(shí)防范化解重大金融風(fēng)險(xiǎn)工作部署的重要舉措。企業(yè)債務(wù)風(fēng)險(xiǎn)監(jiān)測預(yù)警可前置風(fēng)險(xiǎn)管控端口,是防控市場信用風(fēng)險(xiǎn)的重要抓手。相對(duì)于亡羊補(bǔ)牢式的風(fēng)險(xiǎn)處置而言,未雨綢繆式的風(fēng)險(xiǎn)監(jiān)測預(yù)警可實(shí)現(xiàn)風(fēng)險(xiǎn)的早預(yù)警、早發(fā)現(xiàn)、早防范、早處置,有利于減緩企業(yè)債務(wù)風(fēng)險(xiǎn)發(fā)生后對(duì)經(jīng)濟(jì)社會(huì)造成的沖擊,降低風(fēng)險(xiǎn)防范化解的成本。本文的主要?jiǎng)?chuàng)新點(diǎn)包括以下三方面。一是創(chuàng)新實(shí)證方法,充分挖掘大數(shù)據(jù)信息。傳統(tǒng)研究主要選擇企業(yè)財(cái)務(wù)數(shù)據(jù),且數(shù)據(jù)頻率以年度為主,難以準(zhǔn)確、及時(shí)監(jiān)測信用風(fēng)險(xiǎn)。本文創(chuàng)新性地應(yīng)用機(jī)器學(xué)習(xí)模型,發(fā)揮大數(shù)據(jù)優(yōu)勢,通過機(jī)器對(duì)大量財(cái)務(wù)和非財(cái)務(wù)數(shù)據(jù)進(jìn)行自我學(xué)習(xí),挖掘海量、多維、動(dòng)態(tài)數(shù)據(jù)信息,提高監(jiān)測預(yù)警準(zhǔn)確性、及時(shí)性和前瞻性。二是采用集成學(xué)習(xí)(Ensemble)算法,解決正負(fù)樣本不均問題。我國剛性兌付打破時(shí)間較晚,違約樣本出現(xiàn)的時(shí)間較短,時(shí)間序列數(shù)據(jù)較少,難以使用傳統(tǒng)的實(shí)證方法進(jìn)行風(fēng)險(xiǎn)監(jiān)測。本文創(chuàng)新性地采用基于套袋法(Bagging,全稱為Bootstrapaggregating,意為自助聚合)的Ensemble算法,有效解決正負(fù)樣本嚴(yán)重不均衡問題。三是計(jì)算每家企業(yè)的預(yù)測違約概率,提升信用區(qū)分度。傳統(tǒng)信用評(píng)級(jí)方法是將企業(yè)信用風(fēng)險(xiǎn)分為若干檔,相同檔內(nèi)的企業(yè)信用風(fēng)險(xiǎn)缺乏區(qū)分度。本文采用機(jī)器學(xué)習(xí)模型,計(jì)算每家企業(yè)的預(yù)測違約概率,并轉(zhuǎn)換為信用評(píng)分,這樣可以直觀反映企業(yè)信用風(fēng)險(xiǎn)狀況,顯著區(qū)分不同企業(yè)之間的信用差異。

一、樣本選擇、指標(biāo)篩選及模型擬合

(一)樣本選擇

筆者選取截至2021年6月末歷史上有公募信用債發(fā)行記錄的5521家企業(yè)作為建模樣本,其中,含有歷史違約記錄1的企業(yè)有133家。對(duì)于已違約企業(yè)、無違約無存續(xù)債企業(yè)、無違約有存續(xù)債企業(yè),觀測日分別為首次違約日、最后一筆信用債到期日、2021年6月30日。自變量為樣本截至觀測日可獲取的財(cái)務(wù)及非財(cái)務(wù)數(shù)據(jù)指標(biāo);因變量為樣本歷史上是否發(fā)生違約,違約記為1,未違約記為0。

(二)指標(biāo)篩選

在指標(biāo)方面,基于數(shù)據(jù)情況和業(yè)務(wù)理解,筆者加工1000余個(gè)指標(biāo),包括財(cái)務(wù)基礎(chǔ)指標(biāo)132個(gè)、財(cái)務(wù)衍生指標(biāo)171個(gè),通過均值、方差、變異系數(shù)加工財(cái)務(wù)分析指標(biāo)903個(gè)、非財(cái)務(wù)指標(biāo)152個(gè),均已刪除缺失率較高的指標(biāo)。其中,財(cái)務(wù)指標(biāo)基于樣本觀測日近三年的財(cái)報(bào)數(shù)據(jù)(含季報(bào)、半年報(bào)和年報(bào)共12個(gè)時(shí)點(diǎn)的財(cái)報(bào)數(shù)據(jù))進(jìn)行加工;非財(cái)務(wù)指標(biāo)包含工商信息、主體評(píng)級(jí)、審計(jì)意見、法律訴訟、成交價(jià)格、地方經(jīng)濟(jì)財(cái)政等。在進(jìn)行指標(biāo)篩選時(shí),首先,區(qū)分定性指標(biāo)和定量指標(biāo),將其進(jìn)行變量分箱并計(jì)算信息值(IV),其中,定性指標(biāo)依據(jù)變量取值進(jìn)行分箱,定量指標(biāo)基于分類決策樹進(jìn)行最優(yōu)分箱。另外,利用隨機(jī)森林算法計(jì)算指標(biāo)重要度,經(jīng)初步篩選,得到IV值較高或者重要度較高的指標(biāo)共219個(gè)。其次,對(duì)初篩指標(biāo)進(jìn)行更細(xì)化的分箱調(diào)整和證據(jù)權(quán)重(WOE)轉(zhuǎn)換,進(jìn)行分箱調(diào)整時(shí)關(guān)注各指標(biāo)分箱個(gè)數(shù)、每個(gè)分箱中的樣本數(shù)、分箱中違約率單調(diào)性、可解釋性等因素,使得各個(gè)指標(biāo)分箱更加合理。最后,計(jì)算WOE轉(zhuǎn)換后各指標(biāo)的相關(guān)系數(shù),對(duì)于共線性較強(qiáng)的一組指標(biāo),僅保留IV值較高或更加符合業(yè)務(wù)邏輯的一個(gè)指標(biāo),得到65個(gè)候選指標(biāo)。

(三)模型擬合

在模型擬合方面,違約樣本比例僅為2.41%,存在較嚴(yán)重的正負(fù)樣本不均衡情況?;谔状ǖ腅nsemble算法提供了一種簡單有效的改進(jìn)方法,即利用套袋法在原始訓(xùn)練集的隨機(jī)子集上構(gòu)建某一種分類器的多個(gè)實(shí)例,然后集成這些分類器,形成最終預(yù)測結(jié)果。實(shí)踐中,筆者采用套袋法先對(duì)未違約樣本進(jìn)行欠采樣,即每次有放回地隨機(jī)選取1/5的未違約樣本,與違約樣本分別組成5組訓(xùn)練樣本。再將每組訓(xùn)練樣本的85%劃定為訓(xùn)練集,其余15%劃定為測試集,采用逐步回歸方法對(duì)65個(gè)候選指標(biāo)進(jìn)行篩選并擬合邏輯回歸模型。擬合結(jié)果顯示,由5組訓(xùn)練樣本得到的5個(gè)邏輯回歸子模型入模指標(biāo)有較高的一致性。最后,選取5個(gè)子模型中顯著性檢驗(yàn)p值均小于0.05的14個(gè)指標(biāo)入模,重新擬合每個(gè)子模型的回歸系數(shù),取每個(gè)子模型中回歸系數(shù)的平均值,得到最終邏輯回歸模型:其中,p'為基于欠采樣訓(xùn)練樣本計(jì)算的違約概率,x1至x14為各入模指標(biāo)經(jīng)WOE轉(zhuǎn)換之后的指標(biāo),具體含義見表1。在模型結(jié)果方面,根據(jù)擬合的模型計(jì)算違約概率p',將其調(diào)整為與原始樣本分布相吻合的違約概率p。然后,按照以下設(shè)置對(duì)模型進(jìn)行轉(zhuǎn)換:當(dāng)違約幾率2(odds)即p/(1-p)為1時(shí),對(duì)應(yīng)的信用評(píng)分設(shè)為600分(此時(shí)違約概率p為50%)。同時(shí),違約幾率每翻一番,設(shè)對(duì)應(yīng)的信用評(píng)分降低20分;違約幾率每降低一半,設(shè)對(duì)應(yīng)的信用評(píng)分提高20分。轉(zhuǎn)換后得到每個(gè)樣本的總體信用評(píng)分以及在每個(gè)入模指標(biāo)上的得分,信用評(píng)分越低表示違約風(fēng)險(xiǎn)越高。將所有樣本的信用評(píng)分進(jìn)行等頻分箱,共分為20檔,即每個(gè)信用評(píng)分區(qū)間中大約有5%的樣本,各檔的信用評(píng)分分布如表2所示??梢钥吹?,87.22%的違約樣本的信用評(píng)分位于信用評(píng)分最低一檔,說明模型對(duì)違約樣本和未違約樣本有較好的區(qū)隔能力。

二、閾值選取和訓(xùn)練效果

閾值選取是影響二分類模型效果的重要因素。筆者根據(jù)模型預(yù)測違約概率,計(jì)算不同閾值下模型對(duì)應(yīng)的假陽率和真陽率并繪制散點(diǎn)圖,形成ROC曲線3。在ROC曲線上找出使假陽率盡可能低、真陽率盡可能高的點(diǎn)。這里通過ROC曲線確定的最優(yōu)預(yù)警閾值為違約概率2.6%(對(duì)應(yīng)的信用評(píng)分為705),即違約概率大于等于2.6%(信用評(píng)分小于等于705)的企業(yè)預(yù)測為高信用風(fēng)險(xiǎn)。通過比較樣本的預(yù)測違約概率與選取的閾值的大小,筆者對(duì)每個(gè)建模樣本進(jìn)行“違約”“未違約”的分類預(yù)測。將每個(gè)建模樣本的模型預(yù)測情況與實(shí)際違約情況進(jìn)行比較,統(tǒng)計(jì)模型在建模樣本上的訓(xùn)練效果。結(jié)果顯示,模型整體靈敏度(召回率)4為94.74%,即94.74%的違約企業(yè)被正確識(shí)別;特異度5為93.75%,即93.75%的未違約企業(yè)被正確識(shí)別;準(zhǔn)確率6為93.77%,即全部企業(yè)中93.77%被正確識(shí)別;精確率7為27.21%,即在模型識(shí)別的違約企業(yè)中27.21%是正確的(見表3)。模型精確率相對(duì)不高的原因是進(jìn)行企業(yè)信用風(fēng)險(xiǎn)監(jiān)測的主要目的在于發(fā)現(xiàn)高風(fēng)險(xiǎn)企業(yè),因此更關(guān)注模型的靈敏度,即模型命中實(shí)際違約企業(yè)的比例越高就越好,而擴(kuò)大命中比例相應(yīng)會(huì)降低精確率。從通常用來檢驗(yàn)二分類模型效果的指標(biāo)來看,模型的F1分?jǐn)?shù)8為0.42,AUC9為0.96,KS值10為0.87。以上各指標(biāo)表明模型對(duì)違約樣本的預(yù)測能力較好,對(duì)違約樣本和非違約樣本有較強(qiáng)的區(qū)隔能力,模型效果良好。

三、模型實(shí)證效果檢驗(yàn)

依據(jù)模型,筆者對(duì)截至2021年6月末有存續(xù)且未違約公募信用類債券的3504家企業(yè)進(jìn)行預(yù)測,并將企業(yè)按信用評(píng)分由低到高排序,將預(yù)測違約概率大于等于2.6%定義為高風(fēng)險(xiǎn)企業(yè),共得到165家企業(yè)。跟蹤其后續(xù)違約情況,實(shí)際預(yù)測效果如表4矩陣所示。數(shù)據(jù)顯示,模型預(yù)警到2021年7月1日至12月31日違約的28家企業(yè)中的26家,命中率11為92.86%,且命中的26家違約企業(yè)均在高風(fēng)險(xiǎn)前100名內(nèi),說明模型對(duì)違約企業(yè)具有良好的監(jiān)測預(yù)警效果。從目前來看,使用本文模型可起到提前預(yù)警企業(yè)信用風(fēng)險(xiǎn)的作用。未來,一方面,隨著實(shí)際違約企業(yè)的不斷積累,應(yīng)持續(xù)跟蹤和評(píng)估模型效果,不斷對(duì)模型進(jìn)行優(yōu)化迭代。另一方面,企業(yè)處于動(dòng)態(tài)發(fā)展中,應(yīng)以一定的頻率獲取企業(yè)最新的數(shù)據(jù)并代入模型,更新計(jì)算結(jié)果,實(shí)現(xiàn)對(duì)企業(yè)債務(wù)風(fēng)險(xiǎn)的動(dòng)態(tài)監(jiān)測預(yù)警。

作者:周雙雙 張子鵬 單位:中央結(jié)算公司深圳分公司