公務(wù)員期刊網(wǎng) 論文中心 正文

電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究范文,希望能給你帶來靈感和參考,敬請閱讀。

電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究

摘要:電子商務(wù)信用風(fēng)險(xiǎn)評(píng)估是建設(shè)信用體系的重要環(huán)節(jié)。在企業(yè)電子商務(wù)數(shù)據(jù)采集存在缺失值的情況下,本文比較了BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、極限學(xué)習(xí)機(jī)以及對(duì)應(yīng)的集成模型在含缺失值預(yù)測樣本的魯棒性。實(shí)證數(shù)據(jù)分析結(jié)果顯示,極限學(xué)習(xí)機(jī)及其集成模型在上述情況下優(yōu)于其他模型。

關(guān)鍵詞:信用風(fēng)險(xiǎn)預(yù)警;缺失值;機(jī)器學(xué)習(xí)

1引言

2019年中國電子商務(wù)報(bào)告數(shù)據(jù)顯示,我國的電子商務(wù)逐年穩(wěn)步增長,在國民經(jīng)濟(jì)中的比重越來越大,發(fā)揮著重要的經(jīng)濟(jì)和社會(huì)作用[1]。但是另一份報(bào)告指出信用風(fēng)險(xiǎn)破壞著健康的電子商務(wù)交易環(huán)境[2],阻礙了電子商務(wù)的進(jìn)一步快速發(fā)展。構(gòu)建信用管理體系,將信用風(fēng)險(xiǎn)納入體系有助于規(guī)范和推動(dòng)電子商務(wù)市場。有效的信用風(fēng)險(xiǎn)評(píng)估可以提升交易主體的信心,加速商務(wù)活動(dòng)的過程,從而為電商創(chuàng)造更有利的發(fā)展環(huán)境。電商信用評(píng)估模型的建立一般通過指標(biāo)設(shè)計(jì)及數(shù)據(jù)采集、指標(biāo)篩選以及模型訓(xùn)練和評(píng)估3個(gè)基本步驟。目前國內(nèi)外已有研究顯示[2-7],在電商數(shù)據(jù)樣本少、維度高以及類別不平衡的情況下,基于機(jī)器學(xué)習(xí)方法的電商信用風(fēng)險(xiǎn)評(píng)估模型效果優(yōu)于傳統(tǒng)的統(tǒng)計(jì)方法,能夠有效地評(píng)估信用風(fēng)險(xiǎn)。然而建立好的模型僅能在待測樣本所有指標(biāo)數(shù)據(jù)完整的情況下工作。在實(shí)際情況中,由于數(shù)據(jù)采集受到企業(yè)制度、隱私規(guī)范等情況的限制,難以為待評(píng)估的企業(yè)收集到完整指標(biāo)數(shù)據(jù)。此時(shí)模型的應(yīng)用就受到了極大的限制。一個(gè)很自然的解決方法就是為含缺失值的樣本補(bǔ)全缺失數(shù)據(jù),然后再進(jìn)行評(píng)估。因此,研究待測樣本在常規(guī)的缺失值補(bǔ)全方式下模型的魯棒性可以為模型的應(yīng)用提供有價(jià)值的參考,具有重要的實(shí)踐意義?,F(xiàn)有研究在電商信用風(fēng)險(xiǎn)預(yù)測模型中常用的機(jī)器學(xué)習(xí)技術(shù)包括反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(jī)(SVM)、決策樹(DT)以及上述模型的同質(zhì)集成和異質(zhì)集成模型。一些研究人員使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行信用風(fēng)險(xiǎn)預(yù)警等級(jí)的預(yù)測[2-4],不同的是王新輝使用誤差反向傳播來進(jìn)行優(yōu)化[2],ZhangX使用粒子群算法進(jìn)行優(yōu)化[3],HuangXB使用廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)和概率神經(jīng)網(wǎng)絡(luò)(PNN)[4]。一些研究人員使用SVM作為同質(zhì)集成模型的基分類器[5-6],不同的是陳云等通過隨機(jī)子集模型(RSM)方法集成[5],而周可瀅通過Bagging方法來集成[6]。XuYZ等綜合評(píng)估了DT分別與邏輯回歸(LR)、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)及神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型性能[7],提出了決策樹-神經(jīng)網(wǎng)絡(luò)的組合模型。對(duì)樣本缺失數(shù)據(jù)的填補(bǔ)除了傳統(tǒng)方法外,還有基于統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)的方法。金勇進(jìn)歸納和介紹了均值填補(bǔ)、回歸填補(bǔ)、多重填補(bǔ)、隨機(jī)估計(jì)填補(bǔ)和演繹估計(jì)填補(bǔ)等傳統(tǒng)的缺失數(shù)據(jù)填補(bǔ)方法[8]。樸范玉使用自動(dòng)編碼器通過完整數(shù)據(jù)學(xué)習(xí)了待填補(bǔ)的數(shù)據(jù)特征[9],再通過學(xué)習(xí)好的自動(dòng)編碼器完成數(shù)據(jù)的填補(bǔ)。孟杰使用隨機(jī)森林模型來完成調(diào)查問卷缺失數(shù)據(jù)的填補(bǔ)[10]。曹衛(wèi)權(quán)研究了機(jī)器學(xué)習(xí)中的數(shù)據(jù)特征[11],提出了一種近似填補(bǔ)方法。張網(wǎng)娟則在卷積神經(jīng)網(wǎng)絡(luò)模型的背景下研究了缺失數(shù)據(jù)的填補(bǔ)方法[12]。由于基于統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)的方法需要獲得數(shù)據(jù)分布的先驗(yàn)假設(shè),直接應(yīng)用在電商數(shù)據(jù)少量樣本的場景下容易造成嚴(yán)重的數(shù)據(jù)偏差,因此本文擬采用最常用和傳統(tǒng)的均值填補(bǔ)方法。與以往為了改善模型性能的缺失數(shù)據(jù)填補(bǔ)不同,本文研究訓(xùn)練好的模型對(duì)含缺失值待測樣本的影響。現(xiàn)有的機(jī)器學(xué)習(xí)算法在超參數(shù)的選擇下幾乎都可以達(dá)到良好的一致的效果,但是在預(yù)測樣本含缺失值的情況下可能造成不同的性能下降,即對(duì)含缺失值樣本有不同的魯棒性。本文研究在電商模型中不同的機(jī)器學(xué)習(xí)模型,使用常規(guī)均值填補(bǔ)的缺失值預(yù)測樣本情況下的魯棒性。

2對(duì)比模型及缺失值填補(bǔ)方法

2.1對(duì)比模型

在電商信用評(píng)估中常用的機(jī)器學(xué)習(xí)模型有BPNN、SVM和DT。為了進(jìn)一步評(píng)估不同的模型,本文將極限學(xué)習(xí)機(jī)(ELM)加入對(duì)比模型。除了以上四種模型以外,考慮到集成學(xué)習(xí)可以降低模型的偏差,進(jìn)一步增強(qiáng)模型在不同場景下的泛化能力,更加準(zhǔn)確和公正地評(píng)估模型的性能[13],本文將以上四個(gè)模型作為基分類器進(jìn)行同質(zhì)的集成學(xué)習(xí),對(duì)多個(gè)基分類器的結(jié)果使用相對(duì)多數(shù)投票法的結(jié)合策略,然后進(jìn)一步比較性能。BPNN是一種分層的非線性映射網(wǎng)絡(luò)結(jié)構(gòu)[14]。其輸入數(shù)據(jù)通過網(wǎng)絡(luò)權(quán)重的線性變換后,再由具備非線性能力的激活函數(shù)映射后輸出,根據(jù)輸出預(yù)測值與真值之間的誤差逆向傳播來更新網(wǎng)絡(luò)權(quán)重達(dá)到優(yōu)化模型的目的。BPNN可用于回歸和分類,在分類任務(wù)中通常在輸出層使用Softmax函數(shù)進(jìn)行歸一化,誤差由交叉熵來表達(dá)。SVM通過尋找能使二類樣本間的最大間隔超平面來建立模型[15],一般通過SMO等優(yōu)化技術(shù)來求解。SVM可以將樣本經(jīng)過核函數(shù)映射到希爾伯特空間后再計(jì)算超平面以獲得非線性的類決策邊界。SVM經(jīng)過“一對(duì)多”、“一對(duì)一”等訓(xùn)練方式拓展后可以應(yīng)用于多分類任務(wù)。DT依據(jù)屬性值的不同來以樹狀結(jié)構(gòu)按樣本屬性劃分樣本類別[16]。劃分屬性的選擇基準(zhǔn)為信息熵、基尼系數(shù)等信息度量。當(dāng)樹狀結(jié)構(gòu)的葉子結(jié)點(diǎn)類別一致或?qū)傩灾狄恢聲r(shí)停止算法。ELM使用的結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)相似[17],在求解方法和思想上有較大的區(qū)別。ELM首先通過線性變換結(jié)合非線性的激活函數(shù)將訓(xùn)練樣本隨機(jī)投影到新的空間,在新的空間內(nèi)直接求解使得投影后的樣本與真值之間最小誤差的線性變換矩陣。由于投影的隨機(jī)性和直接計(jì)算解析解,ELM求解速度快,其泛化能力在一定程度上優(yōu)于BPNN。

2.2無類別先驗(yàn)均值填補(bǔ)方法

使用類均值補(bǔ)全缺失值,即使用該樣本所屬類別在該屬性值上的均值代替缺失值,并以此參與模型訓(xùn)練和預(yù)測。但是在本文的場景中缺失值的樣本為待測樣本,未知其類別,也就無法使用對(duì)應(yīng)類別的屬性均值代替缺失值。因此,本文使用各個(gè)類別的均值分別替代缺失值后,再對(duì)補(bǔ)全缺失值的樣本進(jìn)行預(yù)測。即若模型為k分類問題,則每一個(gè)待測樣本需要使用k個(gè)類的均值分別代替補(bǔ)全,每一個(gè)待測樣本會(huì)產(chǎn)生k個(gè)補(bǔ)全后的樣本。通過補(bǔ)全后的測試集樣本數(shù)量為原測試集樣本的k倍。由于補(bǔ)全缺失值后的樣本受到所填補(bǔ)的非所屬類均值數(shù)據(jù)的干擾,會(huì)造成原有模型在測試準(zhǔn)確率上的下降,因此可以通過模型在補(bǔ)全后的樣本測試集上測試準(zhǔn)確率來判斷模型對(duì)缺失值預(yù)測樣本的魯棒性。

3實(shí)證研究及其分析

3.1數(shù)據(jù)來源及其指標(biāo)體系

本文采用王新輝建立的指標(biāo)體系及其調(diào)研的18家企業(yè)數(shù)據(jù)[2],使用該體系中的全部19個(gè)指標(biāo)作為研究的數(shù)據(jù)來源。王新輝首先根據(jù)19個(gè)指標(biāo)間的相關(guān)系[2],使用主成分分析法選擇出13個(gè)重要指標(biāo),然后根據(jù)這些指標(biāo)和專家打分劃分出不同的信用風(fēng)險(xiǎn)等級(jí),最后使用BPNN訓(xùn)練得到模型。本文為了降低類別不平衡問題對(duì)模型魯棒性造成的影響,綜合考慮實(shí)踐的信用風(fēng)險(xiǎn)預(yù)警等級(jí)情況,將數(shù)據(jù)集重新劃分為以下3個(gè)等級(jí),對(duì)應(yīng)的預(yù)警等級(jí)和分值范圍為:無風(fēng)險(xiǎn)預(yù)警A(70-100),低風(fēng)險(xiǎn)預(yù)警B(40-69),風(fēng)險(xiǎn)預(yù)警C(0-39)。此時(shí)原始數(shù)據(jù)中的18家企業(yè)信用風(fēng)險(xiǎn)分值和風(fēng)險(xiǎn)預(yù)警等級(jí)如表1所示。根據(jù)表1,本文取前13家企業(yè)為訓(xùn)練樣本,后5家為測試樣本。然后對(duì)5個(gè)測試樣本假設(shè)為缺失值樣本,為了平衡對(duì)比模型各個(gè)屬性上的差異,樣本中的各個(gè)屬性都假設(shè)為缺失值,這樣每一個(gè)待測樣本都產(chǎn)生19個(gè)測試樣本。這19個(gè)樣本分別對(duì)應(yīng)著19個(gè)屬性缺失值。按照上述的假設(shè),測試集共有5*19=95個(gè)樣本,在每一個(gè)屬性上缺失值樣本各5個(gè)。對(duì)這95個(gè)含缺失值的預(yù)測樣本使用無先驗(yàn)的類均值填補(bǔ)方法,每一個(gè)預(yù)測樣本需要分別填補(bǔ)3次,對(duì)應(yīng)3個(gè)類別的預(yù)警級(jí)別,最終在類別上無先驗(yàn),屬性值上均衡的測試集樣本數(shù)量共有95*3=285個(gè)測試樣本。

3.2模型參數(shù)選擇及實(shí)驗(yàn)設(shè)置

模型中的各個(gè)參數(shù)選擇通過交叉驗(yàn)證來選擇。在BPNN模型中,使用單隱層結(jié)構(gòu),隱層的結(jié)點(diǎn)數(shù)量為5個(gè),激活函數(shù)為Sigmoid函數(shù),優(yōu)化方法采用L-BFGS算法,收斂條件為誤差小于0.001或迭代達(dá)到最大次數(shù)。在SVM模型中,使用RBF徑向基函數(shù)為核函數(shù),其核寬度參數(shù)為1/19,懲罰因子C為1,收斂條件為誤差小于0.001或迭代達(dá)到最大次數(shù)。若在集成時(shí),則參數(shù)C和核寬度在一定范圍內(nèi)隨機(jī)抽樣以增加多樣性。在DT模型中,使用信息熵增益。在ELM模型中,隱層結(jié)點(diǎn)數(shù)選擇為7個(gè)結(jié)點(diǎn),激活函數(shù)同樣設(shè)置為Sigmoid函數(shù)。在檢測基分類器的效果時(shí),每個(gè)模型各運(yùn)行500次取測試準(zhǔn)確率平均值作為比較;在檢測集成模型的效果時(shí),使用500個(gè)基學(xué)習(xí)器進(jìn)行相對(duì)多數(shù)投票法來預(yù)測最終分類結(jié)果,每個(gè)集成模型運(yùn)行10次,取準(zhǔn)確率均值作為度量比較模型效果。

3.3實(shí)驗(yàn)結(jié)果及分析

不同的基分類器運(yùn)行500次后準(zhǔn)確率的平均值如圖1所示。每組數(shù)據(jù)左邊代表原始數(shù)據(jù)集上的準(zhǔn)確率,右邊代表含缺失值的預(yù)測樣本準(zhǔn)確率??梢悦黠@地發(fā)現(xiàn),含缺失值的預(yù)測樣本準(zhǔn)確率明顯低于原始數(shù)據(jù)集。同時(shí)還可以發(fā)現(xiàn)以下結(jié)論:SVM分類器的準(zhǔn)確率明顯高于其他分類器;ELM對(duì)缺失值的魯棒性最好,模型準(zhǔn)確率下降的幅度最少。這說明SVM在小規(guī)模的數(shù)據(jù)集上訓(xùn)練得到的模型具備更好的泛化能力,而ELM由于進(jìn)行了隨機(jī)投影,因此更不容易受到缺失值的影響。使用不同數(shù)量的基分類器進(jìn)行集成的模型效果如圖2所示。圖2所展示的是含缺失值預(yù)測數(shù)據(jù)集的準(zhǔn)確率。從圖中可以明顯看出,ELM為基分類器的集成模型明顯高于其他模型。當(dāng)基分類器的數(shù)量達(dá)到一定程度時(shí),模型的預(yù)測效果較為穩(wěn)定。根據(jù)圖2的結(jié)論,集成分類器的數(shù)量設(shè)置為500。使用500個(gè)基分類器的集成模型運(yùn)行10次后,以及單個(gè)基分類器運(yùn)行500次后的原始數(shù)據(jù)集準(zhǔn)確率和含缺失值樣本的測試數(shù)據(jù)集準(zhǔn)確率的平均值如圖3所示。從圖中展示的結(jié)果可以看出:(1)以ELM為基分類器的集成模型無論在原始測試集和含缺失值的測試集中都具備最高的準(zhǔn)確率,表明在小樣本高維度的情況下,ELM的隨機(jī)投影能夠充分挖掘數(shù)據(jù)內(nèi)部聯(lián)系,提高模型的泛化能力。(2)以ELM為基分類器的集成模型在原始測試集和含缺失值測試集上的準(zhǔn)確率一致,沒有下降,表明集成的ELM模型對(duì)含缺失值測試集具備良好的魯棒性。(3)除了SVM外的其他模型,通過集成后都提高了其模型在原始測試集和含缺失值測試上的準(zhǔn)確率。(4)SVM在集成后幾乎沒有提高準(zhǔn)確率。這可能是在小樣本情況下,不同基分類器所學(xué)習(xí)到的支持向量幾乎一致,因此難以在集成學(xué)習(xí)下進(jìn)一步提高準(zhǔn)確率。

4結(jié)語

本文以電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)預(yù)警為背景,研究了基于BPNN、SVM、DT以及ELM模型的分類器在含缺失值的預(yù)測樣本情況下的魯棒性。實(shí)證分析顯示,ELM在魯棒性方面表現(xiàn)優(yōu)于其他類型的分類器。以ELM為基分類器的集成模型不僅在魯棒性方法同樣優(yōu)于其他模型,在集成后的模型中也達(dá)到了最好的準(zhǔn)確率。本文所設(shè)計(jì)的無類別先驗(yàn)的均值補(bǔ)全方法所生成的測試集與實(shí)際情況下的含缺失值樣本還存在著差異,今后考將慮從實(shí)際情況出發(fā)進(jìn)一步驗(yàn)證不同模型的魯棒性。

作者:陳艷 蔣偉杰 單位:福州大學(xué)至誠學(xué)院經(jīng)濟(jì)管理系 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院