公務(wù)員期刊網(wǎng) 論文中心 正文

談數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了談數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

談數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)

摘要:在現(xiàn)代科學(xué)技術(shù)的帶動(dòng)下,電子信息化技術(shù)得到了極大的推廣及應(yīng)用,其中醫(yī)學(xué)信息數(shù)字化發(fā)展成了將來(lái)發(fā)展的主要趨勢(shì)。隨著人口基數(shù)的不斷上升,醫(yī)療系統(tǒng)中的病歷檔案數(shù)據(jù)量也在逐年遞增,如何在中醫(yī)病歷檔案數(shù)據(jù)中有效地挖掘醫(yī)學(xué)知識(shí),并運(yùn)用實(shí)踐于中醫(yī)臨床疾病的輔助診斷,成為了當(dāng)下醫(yī)學(xué)界較為關(guān)注的問(wèn)題。本研究將根據(jù)中醫(yī)病歷檔案數(shù)據(jù)實(shí)際應(yīng)用情況,設(shè)計(jì)構(gòu)建出具有病歷檔案管理以及數(shù)據(jù)挖掘等作用的系統(tǒng)。該系統(tǒng)中所具有病歷檔案管理模塊可進(jìn)行海量數(shù)據(jù)的錄入、篩選、儲(chǔ)存以及檢索等功能;數(shù)據(jù)挖掘模塊可通過(guò)基于粗糙集理論的粗糙集值約簡(jiǎn)算法、基于邏輯與運(yùn)算的關(guān)聯(lián)規(guī)則挖掘算法、基于組織競(jìng)爭(zhēng)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)反向傳播算法實(shí)現(xiàn)臨床疾病主要癥狀的提取,得到對(duì)應(yīng)的中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,以此探究出癥狀與中醫(yī)證型之間的關(guān)聯(lián)。

關(guān)鍵詞:中醫(yī)醫(yī)學(xué);病案管理:數(shù)據(jù)挖掘;系統(tǒng)數(shù)據(jù)

1研究背景

在中醫(yī)醫(yī)學(xué)的不斷發(fā)展的過(guò)程中累積了極多的患者病案數(shù)據(jù),在這些數(shù)據(jù)資料中潛在著許多具有醫(yī)學(xué)研究?jī)r(jià)值的內(nèi)容,在當(dāng)前現(xiàn)代化科學(xué)技術(shù)的推動(dòng)下。中醫(yī)學(xué)病案數(shù)據(jù)的收集整理由傳統(tǒng)人工形式過(guò)渡到了數(shù)字化處理的方式,而數(shù)字化中醫(yī)病案能夠更加方便、快捷地存儲(chǔ)病案數(shù)據(jù),可以更好地滿足科研人員的需要。因此,中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)在中醫(yī)學(xué)科中具有重要的作用及意義[1]。中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)是集成檔案管理、數(shù)據(jù)挖掘等功能為一體的數(shù)據(jù)管理處理系統(tǒng),通過(guò)該系統(tǒng)中數(shù)據(jù)挖掘模塊,能夠?qū)膊∵M(jìn)行科學(xué)的分析,并提取出疾病的主要癥狀,以此得到中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,并探究出癥狀與中醫(yī)證型之間的關(guān)聯(lián),為中醫(yī)醫(yī)務(wù)人員提供科學(xué)、合理的診治策略,為中醫(yī)學(xué)科中新規(guī)律、新技術(shù)提供堅(jiān)實(shí)的支持[2]。

2中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)的構(gòu)成及作用

中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)基于C#.Net開(kāi)發(fā)環(huán)境,采用瀏覽器和服務(wù)器架構(gòu)模式。系統(tǒng)中包含病歷檔案管理以及數(shù)據(jù)挖掘兩個(gè)主要功能模塊(系統(tǒng)框架結(jié)構(gòu)如圖1所示)。這樣的結(jié)構(gòu)能夠?yàn)樵趯?shí)施病歷檔案管理的基礎(chǔ)上為數(shù)據(jù)挖掘提供了大量數(shù)據(jù)支持;數(shù)據(jù)挖掘模塊主要實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及知識(shí)分析的功能[3]。

2.1病歷檔案管理模塊

該模塊能夠極大地滿足實(shí)際中對(duì)于病歷檔案的收集、篩選、分類、儲(chǔ)存以及檢索等功能。在實(shí)際的應(yīng)用中先有醫(yī)師將紙質(zhì)病歷檔案進(jìn)行整理后錄入到系統(tǒng)數(shù)據(jù)庫(kù)后,系統(tǒng)將會(huì)對(duì)數(shù)據(jù)資料進(jìn)行處理,便于后期對(duì)于病歷檔案數(shù)據(jù)挖掘以及檢索的需要。

2.2數(shù)據(jù)挖掘模塊

系統(tǒng)中數(shù)據(jù)挖掘模塊的核心功能是對(duì)數(shù)據(jù)庫(kù)進(jìn)行知識(shí)挖掘分析,其中挖掘的過(guò)程可分為三個(gè)步驟:第一,數(shù)據(jù)的預(yù)處理,此階段是檢查所錄入的病歷檔案數(shù)據(jù)一致性、數(shù)據(jù)中的無(wú)效值以及缺失值,并將這些錯(cuò)誤進(jìn)行識(shí)別、糾正、轉(zhuǎn)化以及實(shí)施粗糙集屬性約簡(jiǎn)處理等,從而保障所挖掘的數(shù)據(jù)的準(zhǔn)確性、有效性;第二,數(shù)據(jù)挖掘,該步驟旨在實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘、對(duì)數(shù)據(jù)神經(jīng)網(wǎng)路進(jìn)行分析預(yù)測(cè)等目標(biāo);第三,知識(shí)分析,將所挖掘到的知識(shí)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,求解對(duì)應(yīng)的中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,以此探究出癥狀與中醫(yī)證型之間的關(guān)聯(lián)。

3系統(tǒng)算法設(shè)計(jì)

3.1MIBARK改進(jìn)算法

本研究中將采用的基于屬性重要性、互信息的MIBARK改進(jìn)算法是將決策表中個(gè)體屬性所產(chǎn)生的互信息轉(zhuǎn)變、屬性的依賴程度作為屬性重要性的衡量標(biāo)準(zhǔn),并在不會(huì)造成分類質(zhì)量受到影響的情況將其中冗雜屬性進(jìn)行剔除,以此實(shí)現(xiàn)良好的屬性約簡(jiǎn)。MIBARK改進(jìn)算法的主要描述為:輸入-決策表,其中U為對(duì)象數(shù)據(jù)集,AT為對(duì)象屬性集,C為條件屬性集,D為決策屬性集;輸出-決策信息,其中U為非空有限論域,為屬性集,C為條件屬性集,D為決策屬性。在進(jìn)行數(shù)據(jù)預(yù)處理時(shí)能夠?qū)膊∵M(jìn)行科學(xué)的分析,并提取出疾病的主要癥狀,以此為后續(xù)數(shù)據(jù)挖掘奠定實(shí)施的基礎(chǔ)。

3.2Apriori改進(jìn)算法

通過(guò)計(jì)算機(jī)能夠進(jìn)行快速的邏輯運(yùn)算,對(duì)于Apriori算法實(shí)施改進(jìn):將系統(tǒng)數(shù)據(jù)庫(kù)中個(gè)體采用位串表示,其中“1”表示數(shù)據(jù)庫(kù)中個(gè)體數(shù)據(jù)出現(xiàn),“0”表示未出現(xiàn),改進(jìn)后的Apriori算法僅需要讀取一次數(shù)據(jù)庫(kù)后便可以獲得初步的項(xiàng)位串。匯總結(jié)果為“1”的總量,作為支持度基數(shù),將支持度基數(shù)高于標(biāo)準(zhǔn)值的候選結(jié)果為1項(xiàng)集L1項(xiàng);由L1轉(zhuǎn)化為項(xiàng)序列,即,針對(duì)各數(shù)據(jù)生成編碼位串,若單項(xiàng)出現(xiàn)在轉(zhuǎn)化的項(xiàng)集向內(nèi),其對(duì)應(yīng)的項(xiàng)序列表示為“1”,未出現(xiàn)則為“0”;連接Lk-1,并將其中項(xiàng)變化進(jìn)行邏輯“或”處理,之后匯總結(jié)果為“1”的總量,當(dāng)為k時(shí)應(yīng)加入至候選Ck中;將Ck與Lk-1進(jìn)行匹配,并進(jìn)行邏輯“與”處理,獲得與Ck相對(duì)應(yīng)的項(xiàng)位串,結(jié)果中“1”的總量便是候選項(xiàng)支持基數(shù),將支持度基數(shù)高于標(biāo)準(zhǔn)值的候選項(xiàng)設(shè)為頻繁k項(xiàng)集Lk的項(xiàng);重復(fù)以上操作,直至Lk內(nèi)單項(xiàng)數(shù)量低于(k+1)。結(jié)束運(yùn)算。通過(guò)Apriori改進(jìn)算法能夠?qū)膊∵M(jìn)行科學(xué)的分析,并提取出疾病的主要癥狀,以此得到中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系。

3.3神經(jīng)網(wǎng)絡(luò)反向傳播改進(jìn)算法

基于組織競(jìng)爭(zhēng)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)反向傳播改進(jìn)算法能夠通過(guò)自適應(yīng)的方式改進(jìn)算法,實(shí)現(xiàn)快速收斂、防止陷入鞍點(diǎn)的情況。神經(jīng)網(wǎng)絡(luò)反向傳播改進(jìn)算法的核心是通過(guò)隱藏層誤差計(jì)算修正最大誤差的節(jié)點(diǎn)的權(quán)值,其它單元權(quán)值則需要進(jìn)行反向修正。在計(jì)算進(jìn)行迭代后會(huì)將誤差函數(shù)值與前次計(jì)算結(jié)果項(xiàng)對(duì)比,若數(shù)值增加則說(shuō)明學(xué)習(xí)率調(diào)整過(guò)大,需要在下次計(jì)算中進(jìn)行相應(yīng)的下調(diào)調(diào)整,反之增加幅度。中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)首先會(huì)調(diào)用MIBARK改進(jìn)算法挖掘疾病癥狀、證型匹配等數(shù)據(jù),提取出主癥狀集,之后采用神經(jīng)網(wǎng)絡(luò)反向傳播改進(jìn)算法構(gòu)建預(yù)測(cè)模型,進(jìn)行數(shù)據(jù)的分類預(yù)測(cè)、梳理,從而獲得疾病癥狀與證型存在的匹配規(guī)律。

4系統(tǒng)應(yīng)用

4.1病歷檔案管理模塊的實(shí)現(xiàn)

此模塊主要作用為病歷檔案的錄入以及實(shí)現(xiàn)相關(guān)數(shù)據(jù)的檢索。病歷檔的案錄入又可分為基本信息以及病歷數(shù)據(jù)的錄入,基本信息要求具有全面性,涵蓋患者的詳細(xì)資料,病歷數(shù)據(jù)主要包括患者病歷中的全部資料[4]。在該系統(tǒng)中,數(shù)據(jù)的檢索除了能夠精確的搜索到患者基本信息以及病歷數(shù)據(jù)外,還具有打印功能。

4.1.1病歷檔案的錄入。在進(jìn)行病歷檔案的錄入的信息主要包括患者的基本信息以及病歷資料。錄入過(guò)程是在系統(tǒng)固有的輸入模板中實(shí)現(xiàn),通過(guò)設(shè)定好的輸入選項(xiàng)能夠有效地規(guī)劃信息的輸入,并對(duì)具有模糊輸入選項(xiàng)給予默認(rèn)數(shù)值或是系統(tǒng)提示。錄入具有斷點(diǎn)記憶以及分析操作的功能,系統(tǒng)會(huì)選擇已輸入信息中的病歷檔案號(hào)作為數(shù)據(jù)的識(shí)別碼,便于數(shù)據(jù)的更新及查找。此外,系統(tǒng)具有字典表,能夠進(jìn)一步規(guī)范所錄入的數(shù)據(jù),如自動(dòng)規(guī)范藥物名稱以及對(duì)應(yīng)的編號(hào)、規(guī)范疾病的癥狀證型的編碼。

4.1.2數(shù)據(jù)檢索。中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)具有精準(zhǔn)及模糊兩種檢索方式,可根據(jù)詳細(xì)的條件檢索到需要的數(shù)據(jù)。醫(yī)務(wù)人員通過(guò)檢索功能能夠及時(shí)、準(zhǔn)確地查詢到患者的病歷檔案信息,從而能夠結(jié)果患者以往的治療情況給予正確的治療意見(jiàn),同時(shí)也能夠通過(guò)查閱病歷檔案也能夠發(fā)現(xiàn)在以往治療中忽略的問(wèn)題,此外,通過(guò)查閱具有豐富經(jīng)驗(yàn)醫(yī)師所錄入的數(shù)據(jù)信息還能夠豐富個(gè)人的診斷學(xué)識(shí)。需要注意的是,醫(yī)務(wù)人員對(duì)所檢索到的數(shù)據(jù)信息只有檢索查閱的權(quán)限,無(wú)法進(jìn)行修改,從而保障檔案資料的原始性,當(dāng)發(fā)生問(wèn)題后也能夠?qū)ふ业絾?wèn)題的根源所在。

4.2數(shù)據(jù)挖掘模塊的實(shí)現(xiàn)

系統(tǒng)中數(shù)據(jù)挖掘模塊主要具有實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及知識(shí)分析的功能(流程如圖2所示)。

4.2.1數(shù)據(jù)預(yù)處理。在實(shí)施數(shù)據(jù)預(yù)處理前,應(yīng)通過(guò)數(shù)據(jù)庫(kù)導(dǎo)入所需要類別的數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行規(guī)范化、量化分級(jí)處理,從中獲取有效數(shù)據(jù),具體流程為數(shù)據(jù)的篩選(剔除缺省以及錯(cuò)誤信息)、數(shù)據(jù)轉(zhuǎn)化(使用SQL語(yǔ)句將醫(yī)學(xué)信息按照數(shù)據(jù)字典表轉(zhuǎn)化成機(jī)器處理數(shù)據(jù))。中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)中具有數(shù)據(jù)橫向轉(zhuǎn)化功能,當(dāng)數(shù)據(jù)轉(zhuǎn)化完畢后將會(huì)被保存在數(shù)據(jù)挖掘庫(kù)之中,便于后續(xù)的調(diào)用。

4.2.2數(shù)據(jù)挖掘。數(shù)據(jù)挖掘主要針對(duì)規(guī)范處理后的數(shù)據(jù),如疾病癥狀、證型以及中藥數(shù)據(jù)集等,采用數(shù)據(jù)挖掘算法、關(guān)聯(lián)分析知識(shí)和神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)知識(shí)進(jìn)行挖掘。其中在進(jìn)行關(guān)聯(lián)分析知識(shí)挖掘過(guò)程中將會(huì)采用系統(tǒng)中設(shè)置的算法以及結(jié)合持度、置信度閾值關(guān)聯(lián)規(guī)則,并顯示出頻繁項(xiàng)集的關(guān)聯(lián)分析計(jì)算結(jié)果(系統(tǒng)關(guān)聯(lián)分析截面如圖3所示)。

4.2.3知識(shí)分析進(jìn)行知識(shí)分析時(shí)需要結(jié)合挖掘知識(shí)庫(kù)中的數(shù)據(jù),通過(guò)所設(shè)定的分析條件得到對(duì)應(yīng)的中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,以此探究出癥狀與中醫(yī)證型之間的關(guān)聯(lián)。

5結(jié)論

通過(guò)對(duì)中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),能夠達(dá)到在進(jìn)行病歷檔案管理的同時(shí)進(jìn)行數(shù)據(jù)挖掘的目的,從而得到藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,從而幫助醫(yī)師能夠?yàn)榛颊呓o予正確的治療意見(jiàn)或提升診斷知識(shí)。研究證明,利用中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)能夠有效地滿足醫(yī)務(wù)人員工作中的需要,能夠?yàn)椴∪颂峁└玫脑\治方案。

參考文獻(xiàn)

[1]武澤政.中醫(yī)診療輔助支持系統(tǒng)的研究與實(shí)現(xiàn)[D].包頭:內(nèi)蒙古科技大學(xué),2019.

[2]王倩,石艷敏,史春暉,等.基于云平臺(tái)Hadoop的中醫(yī)數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(10):45-48,79.

[3]楊林芬.基于大數(shù)據(jù)分析技術(shù)的名老中醫(yī)醫(yī)案價(jià)值挖掘研究[D].昆明:云南大學(xué),2019.

[4]崔驥,許家佗.人工智能背景下中醫(yī)診療技術(shù)的應(yīng)用與展望[J].第二軍醫(yī)大學(xué)學(xué)報(bào),2018,39(8):846-851.

作者:高俊全 單位:河北醫(yī)科大學(xué)第四醫(yī)院