公務(wù)員期刊網(wǎng) 論文中心 正文

軟件工程數(shù)據(jù)挖掘技術(shù)探討

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了軟件工程數(shù)據(jù)挖掘技術(shù)探討范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

軟件工程數(shù)據(jù)挖掘技術(shù)探討

摘要:本文將從軟件工程數(shù)據(jù)挖掘的概述角度出發(fā),對(duì)相關(guān)定義進(jìn)行介紹,同時(shí)闡述其主要特征,并且分析數(shù)據(jù)挖掘技術(shù)的常用方式,進(jìn)而列舉此項(xiàng)技術(shù)在軟件工程中的應(yīng)用途徑,指出其未來(lái)應(yīng)用趨勢(shì),以期為有關(guān)部門提供可靠參考。

關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);軟件工程;信息數(shù)據(jù)庫(kù)

當(dāng)今社會(huì)已經(jīng)進(jìn)入了信息化時(shí)代,互聯(lián)網(wǎng)與計(jì)算機(jī)技術(shù)的持續(xù)發(fā)展,帶動(dòng)了數(shù)據(jù)挖掘技術(shù)的全面提升,尤其是軟件工程中此項(xiàng)技術(shù)已經(jīng)得到了廣泛應(yīng)用。在如今數(shù)據(jù)挖掘技術(shù)中,有關(guān)部門正致力于智能化、自動(dòng)化技術(shù)的研發(fā)和應(yīng)用領(lǐng)域中,以便使相關(guān)技術(shù)潛力被挖掘出來(lái),有效處理龐大的信息系統(tǒng)。

1軟件工程中數(shù)據(jù)挖掘概述

1.1數(shù)據(jù)挖掘定義。所謂數(shù)據(jù)挖掘,即從相應(yīng)大數(shù)據(jù)庫(kù)當(dāng)中將可以為人理解、具備很大可利用性、正確性以及新穎性模式的一類高等處理流程,其屬于發(fā)現(xiàn)知識(shí)的新形式,重點(diǎn)依靠計(jì)算機(jī)來(lái)檢索數(shù)據(jù),進(jìn)而發(fā)現(xiàn)新趨勢(shì)以及新模式。在此過(guò)程中,應(yīng)當(dāng)多次提取相關(guān)知識(shí),隨后把有關(guān)數(shù)據(jù)全面篩選出來(lái),以最科學(xué)的方式加以處理,使學(xué)習(xí)效率得到全面提升。而挖掘數(shù)據(jù)的主要任務(wù)便是獲得更加實(shí)用、優(yōu)秀的邏輯思維,并且有效拓展、驗(yàn)證現(xiàn)有知識(shí)。1.2軟件工程中數(shù)據(jù)挖掘定義。在大規(guī)模數(shù)據(jù)當(dāng)中將所需數(shù)據(jù)信息充分挖掘出來(lái),即傳統(tǒng)數(shù)據(jù)挖掘。而在當(dāng)前的軟件工程當(dāng)中,借助自動(dòng)搜尋功能取得想要得到的信息數(shù)據(jù),也就是軟件工程中的數(shù)據(jù)挖掘。1.3軟件工程中數(shù)據(jù)挖掘特征。與傳統(tǒng)數(shù)據(jù)挖掘相比,軟件工程中的數(shù)據(jù)挖掘特色較為明顯。在傳統(tǒng)數(shù)據(jù)挖掘技術(shù)當(dāng)中,主要包括了版本信息以及軟件報(bào)告等有關(guān)的結(jié)構(gòu)數(shù)據(jù);而在軟件工程中的數(shù)據(jù)挖掘技術(shù)對(duì)應(yīng)系統(tǒng)信息數(shù)據(jù)當(dāng)中,包括了極多注釋、代碼等非結(jié)構(gòu)化的信息數(shù)據(jù),二者算法并不相同,然而卻具備較為緊密的關(guān)聯(lián),所以,軟件工程中數(shù)據(jù)挖掘技術(shù)最大特征,便是數(shù)據(jù)復(fù)雜性。在傳統(tǒng)數(shù)據(jù)挖掘技術(shù)應(yīng)用過(guò)程中,其主要功能便是將報(bào)表系統(tǒng)處理結(jié)果提供給相應(yīng)用戶;而在軟件工程中數(shù)據(jù)挖掘技術(shù)應(yīng)用過(guò)程中,并不需要此類結(jié)果,其重點(diǎn)需要的便是將推翻或者符合結(jié)果的軟件缺陷、實(shí)例等的定位信息。

2數(shù)據(jù)挖掘技術(shù)常用方式

2.1神經(jīng)網(wǎng)絡(luò)方式。此類方式主要是對(duì)人腦神經(jīng)元加以模擬,并且將Hebb的學(xué)習(xí)規(guī)則以及MP模型當(dāng)作重要基礎(chǔ),同時(shí)以神經(jīng)網(wǎng)絡(luò)的連接權(quán)值對(duì)知識(shí)加以表示,有關(guān)學(xué)習(xí)主要體現(xiàn)在逐步計(jì)算相應(yīng)權(quán)值的過(guò)程中。在此方式中,最常用到的模型包含了自組織網(wǎng)絡(luò)、前饋式網(wǎng)絡(luò)以及反饋式網(wǎng)絡(luò),而各類模型又會(huì)分別被用在聚類、預(yù)測(cè)以及聯(lián)想記憶等。2.2遺傳算法應(yīng)用。此類方式主要是以生物自然的篩選以及遺傳激勵(lì)隨機(jī)搜索的算法為基礎(chǔ),屬于數(shù)據(jù)挖掘技術(shù)當(dāng)中最常見(jiàn)的操作模式之一。在遺傳算法的應(yīng)用過(guò)程中,其最大的優(yōu)勢(shì)便在于能夠促使許多表面聯(lián)系不大的各類事物,可以在各個(gè)模型之間構(gòu)建有關(guān)聯(lián)系,確保各事物得以協(xié)同、全面發(fā)展。與此同時(shí),由于生物界對(duì)遺傳基因越發(fā)重視,也使得此方法得以被更有效的應(yīng)用。2.3可視化技術(shù)應(yīng)用。數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用文/楊品軍(云南師范大學(xué)實(shí)驗(yàn)中學(xué)云南省昆明市650031)此項(xiàng)技術(shù)主要是借助某些圖表來(lái)表現(xiàn)出相應(yīng)數(shù)據(jù),例如,借助簡(jiǎn)單的圖形將數(shù)據(jù)庫(kù)各項(xiàng)數(shù)據(jù)展示出來(lái),能夠很直觀地呈現(xiàn)給研究人員,形象化單調(diào)數(shù)據(jù),使得研究人員可以更加容易地對(duì)相關(guān)數(shù)據(jù)信息加以全面掌握。2.4統(tǒng)計(jì)分析法運(yùn)用。在此方法的應(yīng)用過(guò)程中,技術(shù)人員通常會(huì)借助主成分分析以及回歸分析等方式來(lái)對(duì)大數(shù)據(jù)庫(kù)各個(gè)字段間關(guān)系加以全面分析,其中的關(guān)系主要涵蓋了多重關(guān)系,可函數(shù)關(guān)系屬于極為重要的一種關(guān)系,各類函數(shù)關(guān)系往往能夠以公式的方式加以表示,但是相關(guān)的關(guān)系卻難以借助某些特定公式進(jìn)行表示,而應(yīng)用統(tǒng)計(jì)分析法便可以合理利用此類關(guān)系。2.5決策樹(shù)技術(shù)應(yīng)用。此項(xiàng)技術(shù)通常會(huì)被應(yīng)用到分類、整合各類信息數(shù)據(jù),特別是在處理大量數(shù)據(jù)信息時(shí),不僅可以幫助研究人員在較短時(shí)間中將關(guān)鍵信息找出來(lái),更能夠簡(jiǎn)單化、快速化信息分類,同時(shí)確保信息分類更加精準(zhǔn)。然而此項(xiàng)技術(shù)也有一些缺陷,主要體現(xiàn)在其抗噪性能相對(duì)較差,且無(wú)法全方位對(duì)更復(fù)雜理念加以表述。

3數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用途徑

3.1信息數(shù)據(jù)軟件的建立。3.1.1大數(shù)據(jù)庫(kù)系統(tǒng)。所謂大數(shù)據(jù)倉(cāng)庫(kù),主要是面向穩(wěn)定的、主體的以及集成的一類數(shù)據(jù)信息集合,經(jīng)由構(gòu)建倉(cāng)庫(kù)的方式來(lái)對(duì)經(jīng)營(yíng)管理制定決策的過(guò)程予以全力支持。從本質(zhì)上來(lái)看,此過(guò)程重點(diǎn)包含了以下階段:(1)源數(shù)據(jù)階段:在此階段當(dāng)中,重點(diǎn)需要收集綜合數(shù)據(jù)、歷史數(shù)據(jù)以及當(dāng)前數(shù)據(jù)。(2)預(yù)處理源數(shù)據(jù)階段:此階段主要包含了軟件數(shù)據(jù)文檔以及關(guān)系數(shù)據(jù)庫(kù)等。(3)倉(cāng)庫(kù)管理階段:重點(diǎn)包含了數(shù)據(jù)信息倉(cāng)庫(kù)管理的工具、數(shù)據(jù)建模工具、抽取、元數(shù)據(jù)庫(kù)、裝載以及轉(zhuǎn)換等。(4)知識(shí)DM分析工具,主要包含了序列分析工具、分類分析工具、關(guān)聯(lián)分析工具以及聚類分析工具等。(5)可視化軟件領(lǐng)域?qū)I(yè)知識(shí),將能夠?qū)浖|(zhì)量產(chǎn)生影響的關(guān)鍵因素揭示出來(lái)。以上五點(diǎn)便全面組成了整體大數(shù)據(jù)倉(cāng)庫(kù)的管理體系。3.1.2大數(shù)據(jù)庫(kù)建模。此項(xiàng)工作的主要任務(wù)便是把現(xiàn)有數(shù)據(jù)信息全面歸納到一起,從而構(gòu)建出科學(xué)的大數(shù)據(jù)資源信息庫(kù)。信息庫(kù)當(dāng)中重點(diǎn)包含的信息有可行性研究報(bào)告、客戶需求信息、軟件系統(tǒng)信息以及客戶評(píng)估信息等:(1)可行性研究報(bào)告:研究技術(shù)應(yīng)用是否具備運(yùn)行可行性,以及法律、經(jīng)濟(jì)、使用與技術(shù)等能否達(dá)到預(yù)期效果。(2)客戶需求信息:技術(shù)人員應(yīng)當(dāng)把客戶需求信息及時(shí)進(jìn)行整理、歸納,以便確定系統(tǒng)數(shù)據(jù)、功能以及界面等。(3)軟件系統(tǒng)信息:此類信息屬于應(yīng)用軟件的重要基礎(chǔ),重點(diǎn)包含了系統(tǒng)總體需求、支撐環(huán)境、規(guī)模和范圍等。(4)客戶評(píng)估信息:此類信息重點(diǎn)會(huì)被應(yīng)用到軟件測(cè)試工作中,這些測(cè)試包括了形式化測(cè)試、動(dòng)態(tài)測(cè)試以及靜態(tài)測(cè)試等,從而收獲對(duì)應(yīng)信息,進(jìn)而把客戶需求信息和客戶評(píng)估信息全面匯總,以便在應(yīng)用軟件的質(zhì)量加以合理權(quán)衡,將各種存在錯(cuò)誤及時(shí)發(fā)現(xiàn)出來(lái),并且進(jìn)行合理修改。3.2應(yīng)用于開(kāi)發(fā)開(kāi)源軟件。此類軟件主要屬于開(kāi)放源代碼的一類應(yīng)用軟件。當(dāng)前此類軟件對(duì)于廣大用戶而言都屬于免費(fèi)應(yīng)用的,因此導(dǎo)致軟件的管控工作很難順利進(jìn)行下去。但是在軟件工程當(dāng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠使開(kāi)源軟件整體質(zhì)量得到有效提升。比如在某大學(xué)所設(shè)計(jì)的信息數(shù)據(jù)挖掘平臺(tái)當(dāng)中,便可以確保跟蹤管理平臺(tái)的使用者以及開(kāi)發(fā)者,這能夠在很大程度上使開(kāi)源軟件整體質(zhì)量得到全面提升,進(jìn)而使相應(yīng)損失率被降低。3.3應(yīng)用于對(duì)程序代碼與結(jié)構(gòu)的挖掘。在對(duì)程序結(jié)構(gòu)、代碼等進(jìn)行挖掘的過(guò)程中,克隆代碼檢測(cè)法屬于一類較為常用的數(shù)據(jù)挖掘技術(shù),其又會(huì)被細(xì)分成以下四種方法,即標(biāo)識(shí)符對(duì)比、度量、程序結(jié)構(gòu)以及文本對(duì)比。上述方法各自具備不同特征,在實(shí)際應(yīng)用過(guò)程中,一般都需要對(duì)現(xiàn)實(shí)狀況加以確定,從而篩選出最合理挖掘技術(shù)。在克隆代碼的檢測(cè)過(guò)程中,往往會(huì)對(duì)某個(gè)主要代碼進(jìn)行復(fù)制和粘貼,而在特殊需求之下,會(huì)按照實(shí)際需求對(duì)一部分代碼進(jìn)行改正,對(duì)這部分代碼進(jìn)行檢測(cè),重點(diǎn)是避免出現(xiàn)大面積的故障,以便對(duì)系統(tǒng)安全進(jìn)行有效維護(hù),將可靠環(huán)境提供給軟件的日常工作。除此之外,Aspect技術(shù)也屬于當(dāng)今世界上較為常見(jiàn)挖掘技術(shù)之一,此項(xiàng)技術(shù)屬于日常研究過(guò)程中提到的“橫切關(guān)注點(diǎn)”挖掘技術(shù)。在軟件工程當(dāng)中,對(duì)于改造面向軟件的工作,重點(diǎn)便是將Aspect挖掘技術(shù)相關(guān)問(wèn)題解決好。在解決過(guò)程中,技術(shù)人員雖然擁有許多解決方式,然而度量分析法才是最核心的解決方式。3.4應(yīng)用到軟件項(xiàng)目管理。在實(shí)際工作過(guò)程中,對(duì)軟件項(xiàng)目的日常管理工作,一般擁有系統(tǒng)化、復(fù)雜化的特征。因此,在軟件項(xiàng)目管理工作當(dāng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),主要的任務(wù)包括了:(1)挖掘組織關(guān)系:例如某公司在舉辦年會(huì)活動(dòng)的過(guò)程中,一旦沒(méi)有妥善處理好人員分配問(wèn)題,便極易引發(fā)諸多混亂局面。所以,為了科學(xué)配置公司的人力資源,一般都會(huì)借助數(shù)據(jù)挖掘技術(shù)對(duì)全體職員職責(zé)進(jìn)行科學(xué)區(qū)分,以便使項(xiàng)目實(shí)現(xiàn)有序化的管理,進(jìn)而使其辦事效率得到全面提升。(2)對(duì)版本的控制信息進(jìn)行有效挖掘:在系統(tǒng)面對(duì)外部系統(tǒng)侵入的時(shí)候,數(shù)據(jù)挖掘技術(shù)會(huì)提出相應(yīng)的警告;與此同時(shí),此項(xiàng)技術(shù)還能夠?qū)ο到y(tǒng)修復(fù)狀況進(jìn)行全面檢測(cè)。而版本控制信息最重要的作用,便是使民眾能夠更加順利地查看軟件的版本信息,將數(shù)據(jù)挖掘技術(shù)應(yīng)用其中,便能夠有效確保系統(tǒng)得以安全工作,最終提升軟件項(xiàng)目管理整體水準(zhǔn)。3.5記錄傳輸信息的路徑。數(shù)據(jù)挖掘技術(shù)對(duì)于傳輸信息的路徑而言,可以對(duì)其進(jìn)行更有效的記錄,并且以之為基礎(chǔ),保證信息與軟件間得以良好互動(dòng),從而防止時(shí)間被浪費(fèi),也更加便于實(shí)際操作。在尋找數(shù)據(jù)信息的過(guò)程中,重點(diǎn)是借助分析程序執(zhí)行途徑來(lái)完成的,隨后將探尋到的信息傳輸途徑當(dāng)作重要基礎(chǔ),從而展開(kāi)持續(xù)跟蹤,有效整合信息數(shù)據(jù),建立健全信息數(shù)據(jù)系統(tǒng),促使信息數(shù)據(jù)得以被高效傳輸?shù)墓δ茉趯?duì)應(yīng)系統(tǒng)內(nèi)部被充分實(shí)現(xiàn)。3.6應(yīng)用于對(duì)版本信息的檢測(cè)。對(duì)于軟件運(yùn)行信息數(shù)據(jù)來(lái)說(shuō),每代軟件都各有區(qū)別,一旦新版本問(wèn)世,老一代版本內(nèi)部便會(huì)存在難以兼容的狀況。雖然從整體上來(lái)看,軟件版本的迭代更新往往會(huì)使軟件的使用功能趨于完善,然而也會(huì)常常出現(xiàn)丟失用戶個(gè)人數(shù)據(jù)信息的問(wèn)題。截止到目前,能夠?qū)ι鲜鰻顩r有效規(guī)避的關(guān)鍵方式,便是應(yīng)用數(shù)據(jù)挖掘技術(shù),此技術(shù)除了可以在第一時(shí)間檢測(cè)到軟件版本的更新信息,還可以及時(shí)對(duì)用戶個(gè)人數(shù)據(jù)信息進(jìn)行備份,同時(shí)把采集到的有效數(shù)據(jù)信息備份到云端,也不會(huì)加大軟件負(fù)荷,進(jìn)而確保數(shù)據(jù)信息保持完整性以及精準(zhǔn)性。3.7運(yùn)用到檢測(cè)漏洞。在日常開(kāi)發(fā)軟件的過(guò)程中,時(shí)常會(huì)出現(xiàn)各種各樣的漏洞,此現(xiàn)象十分常見(jiàn)。在通常狀況中,以傳統(tǒng)檢測(cè)技術(shù)展開(kāi)漏洞檢測(cè)工作,雖然能夠在檢測(cè)時(shí)發(fā)現(xiàn)大多數(shù)的系統(tǒng)漏洞,然而依然很難檢測(cè)出那些小漏洞,從而致使檢測(cè)并不徹底、全面,最終對(duì)整體系統(tǒng)產(chǎn)生不良影響。在實(shí)踐過(guò)程中得知,數(shù)據(jù)挖掘技術(shù)在應(yīng)用于對(duì)上述系統(tǒng)漏洞進(jìn)行檢測(cè)的時(shí)候,能夠使檢測(cè)更加有效、精準(zhǔn),這主要是由于,數(shù)據(jù)挖掘技術(shù)在系統(tǒng)全面管控系統(tǒng)數(shù)據(jù)信息時(shí),可以充分掌握運(yùn)輸數(shù)據(jù)信息的主要路徑。一旦數(shù)據(jù)異常,此項(xiàng)技術(shù)便可以在第一時(shí)間有所察覺(jué),走動(dòng)記錄發(fā)現(xiàn)的異常數(shù)據(jù)信息,并且檢測(cè)數(shù)據(jù)信息自身問(wèn)題,對(duì)多余信息數(shù)據(jù)以及缺少的信息數(shù)據(jù)加以及時(shí)處理,隨后重新排列被整理之后的信息數(shù)據(jù),并且將數(shù)據(jù)位置記下來(lái)。在此條件之下,軟件系統(tǒng)便不會(huì)再存在系統(tǒng)漏洞。

4數(shù)據(jù)挖掘技術(shù)在軟件工程中的未來(lái)應(yīng)用趨勢(shì)

在研究部門詳細(xì)劃分?jǐn)?shù)據(jù)挖掘技術(shù)的各個(gè)方向之后,相應(yīng)的研發(fā)工作進(jìn)展較為順利,研究人員的熱情處于高漲狀態(tài),而各領(lǐng)域研發(fā)成果也比較大,這些成果會(huì)極大影響到軟件工程開(kāi)發(fā)的整體質(zhì)量以及效率。當(dāng)前部分軟件工程所應(yīng)用的數(shù)據(jù)挖掘技術(shù)較為陳舊,亟需技術(shù)人員及時(shí)轉(zhuǎn)變傳統(tǒng)發(fā)展觀念,學(xué)習(xí)掌握更新穎、更先進(jìn)以及更合理的計(jì)算方法(如主動(dòng)學(xué)習(xí)以及流行學(xué)習(xí))。除此之外,相應(yīng)檢索方式改變也很大,在過(guò)去,檢索往往需要輸入精準(zhǔn)關(guān)鍵詞,得到的反饋也多為簡(jiǎn)單語(yǔ)句,而在應(yīng)用數(shù)據(jù)挖掘技術(shù)之后,可幫人們使用自然語(yǔ)言展開(kāi)檢索操作,最終獲得完整文檔。

5結(jié)論

總體而言,在軟件工程當(dāng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),其應(yīng)用價(jià)值很大。因此,對(duì)數(shù)據(jù)挖掘技術(shù)強(qiáng)化研究,對(duì)于軟件工程的全面發(fā)展意義深遠(yuǎn)。所以,有關(guān)部門需要全面擴(kuò)大研究范圍,加大研究深度,確保數(shù)據(jù)挖掘技術(shù)可以更可靠、成熟地被應(yīng)用到軟件工程當(dāng)中,促使其應(yīng)用效果得到全面強(qiáng)化。

參考文獻(xiàn)

[1]程志平,徐涢基.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用探究[J].信息技術(shù)與信息化,2018(12):210-212.

[2]張宇.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用與研究[J].現(xiàn)代信息科技,2018,2(05):25-26.

[3]段彬,魏巍.數(shù)據(jù)挖掘在軟件工程領(lǐng)域中的應(yīng)用淺析[J].信息系統(tǒng)工程,2018(04):89.

[4]朱楠.淺析數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用與研究[J].信息系統(tǒng)工程,2018(01):40.

[5]劉銘,呂丹,安永燦.大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].科技導(dǎo)報(bào),2018(9).

作者:楊品軍 單位:云南師范大學(xué)實(shí)驗(yàn)中學(xué)

相關(guān)熱門標(biāo)簽