公務員期刊網 論文中心 正文

談銀行信息系統生僻字問題

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談銀行信息系統生僻字問題范文,希望能給你帶來靈感和參考,敬請閱讀。

談銀行信息系統生僻字問題

一、信息系統字符集情況介紹

(一)字符集概述字符是各種文字和符號的總稱,包括各國文字、標點符號、圖形符號、數字等。字符集(Characterset)是多個字符的集合,字符集種類較多,每個字符集包含的字符個數不同,目前漢字字符集主要有:《信息交換用漢字編碼字符集基本集》(GB2312-1980),《漢字內碼擴展規(guī)范》(GBK),《信息技術信息交換用漢字編碼字符集基本集的擴充》(GB18030-2000),《信息技術中文編碼字符集》(GB18030-2005),《信息技術通用多八位編碼字符集(UCS)》(GB13000-2010)。國外軟件系統考慮跨語言、跨平臺處理需求,常用的字符集為Unicode,在操作系統、應用程序中廣泛應用。從執(zhí)行效力看,Unicode與GBK為行業(yè)性規(guī)范,GB2312-1980、GB13000-2010為國家推薦性標準,GB18030-2000和GB18030-2005為國家強制性標準。GB18030-2005現已代替GB18030-2000,其與GB18030-2000相同部分為強制性。從兼容、支持角度看,GB18030-2005能夠與GB2312-1980完全兼容,與GBK基本兼容,支持Unicode4.0的全部統一漢字。GB13000-2010等同于國際標準化組織(ISO)的通用多八位編碼字符集(ISO/IEC10646:2003)和多語言軟件制造商聯盟的統一碼(Unicode4.0)。詳細信息見表1。

(二)銀行字符集采用情況以某省城市商業(yè)銀行和農聯社的487個信息系統為樣本,統計其所涉操作系統、數據庫、對外接口及應用(包括中間件、報文傳輸、源代碼)字符集情況。從統計結果看,操作系統、數據庫、對外接口及應用采用的字符集主要是Unicode、GBK,少數為GB2312、GB18030,且支持GB18030的全部為Linux平臺,行業(yè)性規(guī)范成為應用主流,國家標準反而應用較少,詳細情況見表2。造成這一現象的主要原因是:國際上,Unicode由大的軟件制造商組成的聯盟制定,具有跨語言、跨平臺優(yōu)勢,使其成為應用主流。國內來講,作為基礎軟件的Windows操作系統自帶字符集還是GBK,對于GB18030-2005,Windows雖然提供了擴展支持包,卻沒有實現全面的支持。加之GB18030-2005的宣傳、推廣不足,多年下來,形成了GBK的市場應用存量與慣性,一定程度上限制了對GB18030-2005的應用。

二、生僻字原因分析

金融行業(yè)生僻字是信息系統在存儲、傳輸、顯示等過程中無法正常處理的字符,按照產生原因可劃分為三種情況:一是采用不同字符集的系統交互導致部分字符無法處理。比如當采用GB18030字符集的應用與采用GBK字符集的應用交互時,由于GBK字符只有21003個,在這范圍之外的字符就會無法處理。二是部分字符“一字多碼”導致無法處理?!耙蛔侄啻a”的出現主要是因為Unicode的編碼空間內存在用戶自定義區(qū)(PUA),允許自定義編碼來處理一些生僻字,這些生僻字后期又被Unicode正式收錄,造成一個漢字既有PUA編碼又有Unicode正式碼的“一字多碼”問題。例如“䶮”字,其在Unicode自定義區(qū)編碼為“E863”,而其正式編碼為“4DAE”。由于GB18030-2005與Unicode編碼的一一對應關系,“一字多碼”問題同樣存在于GB18030-2005編碼空間。這部分字大約有3000多個,包括GBK在1995年制定時收錄的52個漢字和公安部人口信息系統中收錄的方正自定義字中的大部分。三是終端設備字庫和常用輸入法不支持生僻字。一方面,很多終端設備字庫和輸入法支持的規(guī)范、標準內的字符不全,有的僅支持GBK的21003個字,有的雖然支持GB18030的4字節(jié)字符,但不全面,導致終端無法輸入、顯示和打印。另一方面,公安部人口信息系統中存在大約4700個生僻字,屬于方正公司自定義字,需要購買方正字庫獲得,否則這4700個生僻字終端無法輸入、顯示和打印。

三、生僻字應對方法

(一)技術層面處理方法一是按照“存量升級、增量符合”“先輔助后核心”的原則升級改造。原先使用GBK、GB2312字符集的存量系統升級為GB18030-2005字符集,擴大支持的字符集范圍;原先使用UTF-8、UTF-16編碼方式但僅支持Unicode基本多語言平面(BMP)的存量系統,升級為支持Unicode全部平面。新增信息系統則強制支持GB18030-2005字符集。二是針對特殊情況個案處理。對于采用GBK字符集的DB2數據庫,目前升級字符集難度較大,需要DB2廠商的開發(fā)支持,金融機構可采用傳輸、存儲時不進行GBK轉碼,直接按照GB18030編碼格式進行二進制存儲作為過渡解決方案。對于“一字多碼”問題,則是在存儲環(huán)節(jié)統一轉化為其Unicode正式碼或其Unicode正式碼對應的GB18030編碼,從而實現字符編碼的統一。三是升級終端字庫和輸入法,擴大終端支持的字符數量,解決終端生僻字的輸入、顯示和打印問題。

(二)業(yè)務層面處理方法業(yè)務層面的生僻字處理主要有兩個環(huán)節(jié):一是客戶信息錄入環(huán)節(jié)。在征得客戶同意后,商業(yè)銀行業(yè)務人員通常采用拆字、拼音、繁體字代替等方法變通處理。例如通過拆字方法將客戶姓名“王陹”錄入為“王(耳升日)”;使用拼音將“張䶮”錄入為“張YAN”,并在備注欄輸入“張(上龍下天)”;使用繁體字將“讠永”錄入為“詠”。二是客戶信息校驗環(huán)節(jié)。各商業(yè)銀行生僻字處理方法、規(guī)則不一,導致跨行轉賬、綁卡等業(yè)務環(huán)節(jié)客戶信息自動校驗無法通過,商業(yè)銀行業(yè)務人員通常采取人工干預方式處理。例如跨行來賬業(yè)務因生僻字問題出現戶名不符時,通過電話聯系客戶或向付款行發(fā)出查詢,確認相同后再進行入賬處理;或者要求客戶臨柜進行業(yè)務辦理,增加社???、機動車駕駛證、戶口簿等作為輔助核驗手段。

四、生僻字應對建議

(一)加快金融業(yè)生僻字處理指南的制定標準化、規(guī)范化的生僻字業(yè)務處理流程有助于克服各銀行處理標準不一導致的識別、處理問題,也是當前條件下金融業(yè)應對生僻字問題、提升金融服務體驗最直接、有效的方法。建議進一步加快金融業(yè)生僻字處理指南的制定,統一規(guī)定拆字、拼音、繁體字代替等方法的具體使用情形。整理全行業(yè)遇到的生僻字,建立生僻字替代查找?guī)欤奖阋痪€業(yè)務人員使用,從而發(fā)揮金融行業(yè)標準的標桿和促進作用,不斷提升金融服務水平與效率。

(二)循序推進金融行業(yè)字符集升級金融行業(yè)信息系統眾多,對所有信息系統進行字符集升級,涉及核心系統、柜面系統、支付平臺、網銀互聯平臺、網銀及手機銀行等系統,需對數以萬計的代碼源文件進行改動,其中的開發(fā)和測試投入成本較大,也面臨一定的時間與風險考驗,因此,推動金融行業(yè)信息系統字符集升級將是一個長期過程,必須堅持循序漸進原則,區(qū)分“存量系統”與“新增系統”“輔助系統”與“核心系統”,綜合考量各項影響因素,合理制定推進計劃,逐步完成字符集升級改造。

(三)加大國家強制標準宣傳實施力度面向開發(fā)商、行業(yè)用戶開展針對性宣傳,增強標準貫徹意識,落實標準為民利企的發(fā)展理念。對不符合GB18030-2005強制要求的基礎軟件產品,如操作系統、數據庫等,應禁止核發(fā)銷售許可;對已經納入標準、擁有正式編碼的字符,不得使用自定義編碼,杜絕“一字多碼”現象;對尚未納入正式編碼且在公民身份信息系統中已經廣泛使用的自定義字符,由標準管理部門統一管理,公開自定義字符、編碼對應關系,建立專門字庫,供各方免費獲取使用。

(四)強化部門協同一體推進生僻字問題涉及多個部門和環(huán)節(jié):在管理層面,生僻字問題涉及稅務、電信、社保、金融、公安、工信等諸多部門;在技術層面,生僻字問題涉及操作系統、數據庫、對外接口、中間件、源文件等諸多環(huán)節(jié)。單個部門、單個環(huán)節(jié)努力無法根本解決問題。建議由標準主管部門牽頭組織,各行業(yè)部門根據業(yè)務場景配合協同,由點到面、由縱向到橫向一體推進,才能從根本上解決生僻字問題。

作者:馬征 單位:中國人民銀行濟南分行