前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的特征主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:深度學(xué)習(xí);機(jī)器學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
1概述
深度學(xué)習(xí)(Deep Learning)是人工智能、圖像建模、模式識別、神經(jīng)網(wǎng)絡(luò)、最優(yōu)化理論和信號處理等領(lǐng)域的交叉學(xué)科,主要構(gòu)建和模擬人腦進(jìn)行分析學(xué)習(xí),它屬于機(jī)器學(xué)習(xí)的新興領(lǐng)域。
2大數(shù)據(jù)與深度學(xué)習(xí)
目前,光學(xué)檢測、互聯(lián)網(wǎng)、用戶數(shù)據(jù)、互聯(lián)網(wǎng)、金融公司等許多領(lǐng)域都出現(xiàn)了海量數(shù)據(jù),采用BP算法對于訓(xùn)練神經(jīng)網(wǎng)絡(luò)出現(xiàn)了梯度越來越稀疏、收斂到局部最小值只能用有標(biāo)簽的數(shù)據(jù)來訓(xùn)練等缺點(diǎn)。Hinton于2006年提出了深度學(xué)習(xí)的概念,Lecun等人提出了卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)利用空間關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能。
CPU和GPU計(jì)算能力大幅提升,為深度學(xué)習(xí)提供了硬件平臺和技術(shù)手段,在海量大數(shù)據(jù)處理技術(shù)上解決了早期神經(jīng)網(wǎng)絡(luò)訓(xùn)練不足出現(xiàn)的過擬合、泛化能力差等問題。
大數(shù)據(jù)和深度學(xué)習(xí)必將互相支撐,推動科技發(fā)展。
3深度學(xué)習(xí)模型
深度學(xué)習(xí)模型實(shí)際上是一個(gè)包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),目前主要有卷積神經(jīng)網(wǎng)絡(luò),深深度置信神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)。
1)卷積神經(jīng)網(wǎng)絡(luò)
在機(jī)器學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò)的一種,神經(jīng)元不再是全連接的模式,而是應(yīng)用了局部感受區(qū)域的策略。然而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)使用神經(jīng)元間全連接的網(wǎng)絡(luò)結(jié)構(gòu)來處理圖像任務(wù),因此,出現(xiàn)了很多缺陷,導(dǎo)致模型⑹急劇增加,及其容易過擬合。
在卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)中的神經(jīng)元只與前一層的部分神經(jīng)元連接,利用圖像數(shù)據(jù)的空間結(jié)構(gòu),鄰近像素間具有更強(qiáng)的相關(guān)性,單個(gè)神經(jīng)元僅對局部信息進(jìn)行響應(yīng),相鄰神經(jīng)元感受區(qū)域存在重疊,因此,綜合所有神經(jīng)元可以得到全局信息的感知。
另外,一個(gè)卷積層中的所有神經(jīng)元均由同一個(gè)卷積核對不同區(qū)域數(shù)據(jù)響應(yīng)而得到,即共享同一個(gè)卷積核,使得卷積層訓(xùn)練參數(shù)的數(shù)量急劇減少,提高了網(wǎng)絡(luò)的泛化能力。
一般在卷積層后面會進(jìn)行降采樣操作,對卷積層提取的特征進(jìn)行聚合統(tǒng)計(jì)。降采樣區(qū)域一般不存在重疊現(xiàn)象。降采樣簡化了卷積層的輸出信息,進(jìn)一步減少了訓(xùn)練參數(shù)的數(shù)量,增強(qiáng)了網(wǎng)絡(luò)的泛化能力。
卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了局部特征的自動提取,使得特征提取與模式分類同步進(jìn)行,適用于處理高分辨率的圖像數(shù)據(jù)。目前,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、自然語言處理等領(lǐng)域得到廣泛應(yīng)用。
2)深度置信網(wǎng)絡(luò)
深度置信網(wǎng)絡(luò)是一種生成模型,網(wǎng)絡(luò)中有若干隱藏層,同一隱藏層內(nèi)的神經(jīng)元沒有連接,隱藏層間的神經(jīng)元全連接。神經(jīng)網(wǎng)絡(luò)經(jīng)過“反向運(yùn)行”得到輸入數(shù)據(jù)。
深度置信網(wǎng)絡(luò)可以用做生成模型,通過前期的逐層無監(jiān)督學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)可以較好的對輸入數(shù)據(jù)進(jìn)行描述,然后把訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)看作深度神經(jīng)網(wǎng)絡(luò),最后得到分類任務(wù)的深度神經(jīng)網(wǎng)絡(luò)。
深度置信網(wǎng)絡(luò)可以用于圖像識別、圖像生成等領(lǐng)域,深度置信網(wǎng)絡(luò)可以進(jìn)行無監(jiān)督或半監(jiān)督的學(xué)習(xí),利用無標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,提高神經(jīng)網(wǎng)絡(luò)性能。但近幾年由于卷積神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,深度置信網(wǎng)絡(luò)已經(jīng)很少被提及。
3)循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)是一種專門用于處理時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它與典型的前饋型神經(jīng)網(wǎng)絡(luò)最大區(qū)別在于網(wǎng)絡(luò)中存在環(huán)形結(jié)構(gòu),隱藏層內(nèi)部的神經(jīng)元是互相連接的,可以存儲網(wǎng)絡(luò)的內(nèi)部狀態(tài),其中包含序列輸入的歷史信息,實(shí)現(xiàn)了對時(shí)序動態(tài)行為的描述。這里的時(shí)序并非僅僅指代時(shí)間概念上的順序,也可以理解為序列化數(shù)據(jù)間的相對位置。如語音中的發(fā)音順序,某個(gè)英語單詞的拼寫順序等。序列化輸入的任務(wù)都可以用循環(huán)神經(jīng)網(wǎng)絡(luò)來處理。如語音、視頻、文本等。對于序列化數(shù)據(jù),每次處理時(shí)輸入為序列中的一個(gè)元素,比如單個(gè)字符、單詞、音節(jié),期望輸出為該輸入在序列數(shù)據(jù)中的后續(xù)元素。循環(huán)神經(jīng)網(wǎng)絡(luò)可以處理任意長度的序列化數(shù)據(jù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)可以用于機(jī)器翻譯、連寫字識別、語音識別等。循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)結(jié)合,將卷積神經(jīng)網(wǎng)絡(luò)用于檢測并識別圖像中的物體,循環(huán)神經(jīng)網(wǎng)絡(luò)用于識別出物體的名稱為輸入,生成合理的語句,從而實(shí)現(xiàn)對圖像內(nèi)容的描述。
4深度學(xué)習(xí)應(yīng)用
1)語音識別
語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。其應(yīng)用領(lǐng)域主要有語音輸入系統(tǒng)、語音控制系統(tǒng)和智能對話查詢系統(tǒng),語音識別極大地推動了人工智能的快速發(fā)展。1952年Davis等人研究了世界上第一個(gè)能識別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。大規(guī)模的語音識別研究是在20世紀(jì)70年代以后,在小詞匯量、孤立詞的識別方面取得了實(shí)質(zhì)性的進(jìn)展。2012年,微軟研究院使用深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在語音識別上將識別錯(cuò)誤率降低了20%,取得了突破性的進(jìn)展。2015年11月17日,浪潮集團(tuán)聯(lián)合全球可編程芯片巨頭Altera,以及中國最大的智能語音技術(shù)提供商科大訊飛,共同了一套DNN語音識別方案。
2)圖像分析
圖像是深度學(xué)習(xí)最早嘗試的應(yīng)用領(lǐng)域。1989年,LeCun和他的同事們就發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)的工作。2012年10月,Hinton和他的兩個(gè)學(xué)生用更深的CNN在ImageNet挑戰(zhàn)上獲得了第一名,使圖像識別向前躍進(jìn)了一大步。
自2012年以來,深度學(xué)習(xí)應(yīng)用于圖像識別使得準(zhǔn)確率大大上升,避免了消耗人工特征抽取的時(shí)間,極大地提升了效率,目前逐漸成為主流的圖像識別與檢測方法。
關(guān)鍵詞:機(jī)器學(xué)習(xí);深度學(xué)習(xí);推薦算法;遠(yuǎn)程教育
深度學(xué)習(xí)(DeepLearning),也叫階層學(xué)習(xí),是機(jī)器學(xué)習(xí)領(lǐng)域研究的分支,它是學(xué)習(xí)樣本數(shù)據(jù)的表示層次和內(nèi)在規(guī)律,在學(xué)習(xí)的過程中獲取某些信息,對于數(shù)據(jù)的解釋有巨大幫助。比如對文字?jǐn)?shù)據(jù)的學(xué)習(xí),在網(wǎng)絡(luò)上獲取關(guān)鍵字,對圖像數(shù)據(jù)的學(xué)習(xí),進(jìn)行人臉識別等等。
一、深度學(xué)習(xí)發(fā)展概述
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域里一種對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。一句話總結(jié)三者之間的關(guān)系就是:“機(jī)器學(xué)習(xí),實(shí)現(xiàn)人工智能的方法;深度學(xué)習(xí),實(shí)現(xiàn)機(jī)器學(xué)習(xí)的技術(shù)。深度學(xué)習(xí)目前是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域研究的主要方向,為計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺等領(lǐng)域帶來了革命性的進(jìn)步。機(jī)器學(xué)習(xí)最早在1980年被提出,1984年分類與回歸樹出現(xiàn),直到1986年,Rumelhart等人反向傳播(BackPropaga-tion,BP)算法的提出,解決了感知模型只能處理線性分類的問題,1989年出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的發(fā)展。在1990年至2012年,機(jī)器學(xué)習(xí)逐漸成熟并施以應(yīng)用,GeoffreyHinton在2006年設(shè)計(jì)出了深度信念網(wǎng)絡(luò),解決了反向傳播算法神經(jīng)網(wǎng)絡(luò)中梯度消失的問題,正式提出了深度學(xué)習(xí)的概念,逐漸走向深度學(xué)習(xí)飛速發(fā)展的時(shí)期。隨后,各種具有獨(dú)特神經(jīng)處理單元和復(fù)雜層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)不斷涌現(xiàn),深度學(xué)習(xí)技術(shù)不斷提高人工智能領(lǐng)域應(yīng)用方面的極限。
二、深度學(xué)習(xí)主要模型
1、卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是指有著深度結(jié)構(gòu)又包含著卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò)。卷積物理上理解為系統(tǒng)某一時(shí)刻的輸出是有多個(gè)輸入共同疊加的結(jié)果,就是相當(dāng)于對一個(gè)原圖像的二次轉(zhuǎn)化,提取特點(diǎn)的過程。卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上就是一個(gè)不斷提取特征,進(jìn)行特征選擇,然后進(jìn)行分類的過程,卷積在CNN里,首先對原始圖像進(jìn)行特征提取。所以卷積神經(jīng)網(wǎng)絡(luò)能夠得到數(shù)據(jù)的特征,在模式識別、圖像處理等方面應(yīng)用廣泛。一個(gè)卷積神經(jīng)網(wǎng)絡(luò)主要由三層組成,即卷積層(convolutionlayer)、池化層(poolinglayer)、全連接層(fullyconnectedlayer)。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心部分,通過一系列對圖像像素值進(jìn)行的卷積運(yùn)算,得到圖像的特征信息,同時(shí)不斷地加深節(jié)點(diǎn)矩陣的深度,從而獲得圖像的深層特征;池化層的本質(zhì)是對特征圖像進(jìn)行采樣,除去冗雜信息,增加運(yùn)算效率,不改變特征矩陣的深度;全連接將層間所有神經(jīng)元兩兩連接在一起,對之前兩層的數(shù)據(jù)進(jìn)行分類處理。CNN的訓(xùn)練過程是有監(jiān)督的,各種參數(shù)在訓(xùn)練的過程中不斷優(yōu)化,直到得到最好的結(jié)果。目前,卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型也被廣泛研究,如全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNeuralNetworks,F(xiàn)CN)和深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循環(huán)神經(jīng)網(wǎng)絡(luò)區(qū)別于卷積神經(jīng)網(wǎng)絡(luò)在圖片處理領(lǐng)域的應(yīng)用,循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)主要應(yīng)用在自然語言處理領(lǐng)域。RNN最大的特點(diǎn)就是神經(jīng)元的輸出可以繼續(xù)作為輸入,再次利用到神經(jīng)元中循環(huán)使用。RNN是以序列的方式對數(shù)據(jù)進(jìn)行讀取,這也是RNN最為獨(dú)特的特征。RNN的串聯(lián)式結(jié)構(gòu)適用于時(shí)間序列的數(shù)據(jù),可以完好保持?jǐn)?shù)據(jù)中的依賴關(guān)系。循環(huán)神經(jīng)網(wǎng)絡(luò)主要有三層結(jié)構(gòu),輸入層,隱藏層和輸出層。隱藏層的作用是對輸入層傳遞進(jìn)來的數(shù)據(jù)進(jìn)行一系列的運(yùn)算,并將結(jié)果傳遞給輸出層進(jìn)行輸出。RNN可用于許多不同的地方。下面是RNN應(yīng)用最多的領(lǐng)域:1.語言建模和文本生成,給出一個(gè)詞語序列,試著預(yù)測下一個(gè)詞語的可能性。這在翻譯任務(wù)中是很有用的,因?yàn)樽钣锌赡艿木渥訉⑹强赡苄宰罡叩膯卧~組成的句子;2.語音識別;3.生成圖像描述,RNN一個(gè)非常廣泛的應(yīng)用是理解圖像中發(fā)生了什么,從而做出合理的描述。這是CNN和RNN相結(jié)合的作用。CNN做圖像分割,RNN用分割后的數(shù)據(jù)重建描述。這種應(yīng)用雖然基本,但可能性是無窮的;4.視頻標(biāo)記,可以通過一幀一幀地標(biāo)記視頻進(jìn)行視頻搜索。3、深度神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetworks,DNN)可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。多層神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DNN其實(shí)也是指的一個(gè)東西,DNN有時(shí)也叫做多層感知機(jī)(Mul-ti-Layerperceptron,MLP)。DNN內(nèi)部的神經(jīng)網(wǎng)絡(luò)層也是分為三類,輸入層,隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。深度神經(jīng)網(wǎng)絡(luò)(DNN)目前作為許多人工智能應(yīng)用的基礎(chǔ),并且在語音識別和圖像識別上有突破性應(yīng)用。DNN的發(fā)展也非常迅猛,被應(yīng)用到工業(yè)自動駕駛汽車、醫(yī)療癌癥檢測等領(lǐng)域。在這許多領(lǐng)域中,深度神經(jīng)網(wǎng)絡(luò)技術(shù)能夠超越人類的準(zhǔn)確率,但同時(shí)也存在著計(jì)算復(fù)雜度高的問題。因此,那些能夠解決深度神經(jīng)網(wǎng)絡(luò)表現(xiàn)準(zhǔn)確度或不會增加硬件成本高效處理的同時(shí),又能提升效率和吞吐量的技術(shù)是現(xiàn)在人工智能領(lǐng)域能夠廣泛應(yīng)用DNN技術(shù)的關(guān)鍵。
三、深度學(xué)習(xí)在教育領(lǐng)域的影響
1、學(xué)生學(xué)習(xí)方面通過網(wǎng)上學(xué)習(xí)的實(shí)時(shí)反饋數(shù)據(jù)對學(xué)生的學(xué)習(xí)模式進(jìn)行研究,并修正現(xiàn)有教學(xué)模式存在的不足。分析網(wǎng)絡(luò)大數(shù)據(jù),相對于傳統(tǒng)在線學(xué)習(xí)本質(zhì)區(qū)別在于捕捉學(xué)生學(xué)習(xí)過程,有針對性,實(shí)現(xiàn)學(xué)生個(gè)性化學(xué)習(xí)。舉個(gè)例子,在學(xué)習(xí)過程中,可以通過學(xué)習(xí)平臺對學(xué)生學(xué)習(xí)課程所花費(fèi)的時(shí)間,參與的程度,知識的偏好等等數(shù)據(jù)加以分析。也可以通過學(xué)生學(xué)習(xí)某門課程的次數(shù),鼠標(biāo)點(diǎn)擊次數(shù)、停留的時(shí)間等,來推斷學(xué)生學(xué)習(xí)情況。通過以上或類似數(shù)據(jù)匯總分析,可以正向引導(dǎo)學(xué)生學(xué)習(xí),并給予積極的學(xué)習(xí)評價(jià)。這種利用計(jì)算機(jī)收集分析出來的客觀數(shù)據(jù),很好展示了學(xué)生學(xué)習(xí)行為的結(jié)果,總結(jié)學(xué)習(xí)規(guī)律,而不需要教師多年的教學(xué)經(jīng)驗(yàn)來判斷。對于教育研究者而言,利用深度學(xué)習(xí)技術(shù)可以更客觀準(zhǔn)確地了解學(xué)生,使教學(xué)工作良好發(fā)展更進(jìn)一步。2、教學(xué)方面學(xué)習(xí)平臺的數(shù)據(jù)能夠?qū)虒W(xué)模式的適應(yīng)度進(jìn)行預(yù)測,通過學(xué)生的考試成績和對教師的線上評價(jià)等加以分析,能夠預(yù)測出某一階段的教學(xué)方式發(fā)發(fā)是否可行,影響如何。通過學(xué)生與教師的在線互動,學(xué)生測驗(yàn)時(shí)完成的時(shí)間與完成的結(jié)果,都會產(chǎn)生大量的有效的數(shù)據(jù),都可以為教師教學(xué)支持服務(wù)的更好開展提供幫助,從而避免低效率的教學(xué)模式造成教學(xué)資源的浪費(fèi)。
四、成人遠(yuǎn)程教育中深度學(xué)習(xí)技術(shù)的可應(yīng)用性
深度學(xué)習(xí)方面的應(yīng)用在眾多領(lǐng)域都取得了成功,比如電商商品推薦、圖像識別、自然語言處理、棋類博弈等等。在遠(yuǎn)程教育方面,深度學(xué)習(xí)的技術(shù)還有很大的發(fā)揮空間,智能網(wǎng)絡(luò)教育的實(shí)現(xiàn)是人們的眾望所盼。若要將深度學(xué)習(xí)技術(shù)應(yīng)用到遠(yuǎn)程教育平臺,首先要清楚學(xué)生的需求和教學(xué)資源如何分配。1、針對學(xué)生的學(xué)習(xí)需求與學(xué)習(xí)特征進(jìn)行分析美國斯坦福大學(xué)克里斯皮希研究團(tuán)隊(duì)的研究成果顯示,通過對學(xué)生知識學(xué)習(xí)進(jìn)行時(shí)間建模,可以精確預(yù)測出學(xué)生對知識點(diǎn)的掌握情況,以及學(xué)生在下一次學(xué)習(xí)中的表現(xiàn)。深度學(xué)習(xí)的應(yīng)用可以幫助教師推測出學(xué)生的學(xué)習(xí)能力發(fā)展水平。通過學(xué)生與教學(xué)環(huán)境的交互行為,分析其學(xué)習(xí)風(fēng)格,避免教師用經(jīng)驗(yàn)進(jìn)行推斷而產(chǎn)生的誤差。2、教學(xué)資源的利用與分配深度學(xué)習(xí)技術(shù)能夠形成智能的分析結(jié)論。計(jì)算機(jī)實(shí)時(shí)采集數(shù)據(jù)集,對學(xué)生的學(xué)習(xí)情況加以分析,使教師對學(xué)生的學(xué)習(xí)狀態(tài)、情緒狀態(tài)等有更加清晰、準(zhǔn)確的了解。有了上面良好的教學(xué)模式,教師對學(xué)生的學(xué)習(xí)狀態(tài)有了更準(zhǔn)確的掌握,對學(xué)生的學(xué)習(xí)結(jié)果就有了更科學(xué)的教學(xué)評價(jià)。基于深度學(xué)習(xí)的人工智能技術(shù),還可以輔助教師實(shí)現(xiàn)智能閱卷,通過智能閱卷自動總結(jié)出學(xué)習(xí)中出現(xiàn)的問題,幫助教師減少重復(fù)性勞動,減輕教師負(fù)擔(dān)。作為成人高校,遠(yuǎn)程教育是我們的主要教學(xué)手段,也是核心教學(xué)方式,學(xué)校的教學(xué)必定是在學(xué)生方便學(xué)習(xí)的同時(shí),以學(xué)生的學(xué)習(xí)效果為重。通過深度學(xué)習(xí)技術(shù),可以科學(xué)地分析出學(xué)生的學(xué)習(xí)效果,對后續(xù)教與學(xué)給予科學(xué)、可靠的數(shù)據(jù)支撐。我們可以在平臺上為每位同學(xué)建立學(xué)習(xí)模型,根據(jù)學(xué)生的學(xué)習(xí)習(xí)慣為其定制個(gè)性化方案,按他們的興趣進(jìn)行培養(yǎng),發(fā)揮他們專業(yè)的潛能。同時(shí),可以將學(xué)生正式在線參加學(xué)習(xí)和考試的學(xué)習(xí)行為和非學(xué)習(xí)時(shí)間瀏覽網(wǎng)站的行為結(jié)合到一起,更加科學(xué)地分析出學(xué)生在學(xué)習(xí)網(wǎng)站上感興趣的地方。采用深度學(xué)習(xí)算法,根據(jù)學(xué)生學(xué)習(xí)行為產(chǎn)生的海量數(shù)據(jù)推算出學(xué)生當(dāng)前狀態(tài)與目標(biāo)狀態(tài)之間的差距,做到精準(zhǔn)及時(shí)的學(xué)習(xí)需求反饋。有助于幫助學(xué)生明確學(xué)習(xí)目標(biāo),教師確立教學(xué)目標(biāo),真正做好因材施教?;谏疃葘W(xué)習(xí)各種智能識別技術(shù),可以為教師的線上教學(xué)活動增光添彩,在反饋學(xué)生學(xué)習(xí)狀態(tài)的同時(shí),采用多種形式的教學(xué)方法吸引學(xué)生的注意力,增強(qiáng)教學(xué)活動的互動性,達(dá)到良好的教學(xué)效果。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語言模型;分析
1 卷積神經(jīng)網(wǎng)絡(luò)語言模型
CNN語言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預(yù)訓(xùn)練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓(xùn)練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進(jìn)行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因?yàn)榫仃嚨拿恳恍卸急硎倦x散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實(shí)現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時(shí),卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過池化函數(shù)為特征映射進(jìn)行降維并且減少了待估計(jì)參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關(guān)系。
最后,將得到的高級特征輸入softmax分類層進(jìn)行分類操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機(jī)地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當(dāng)它超過該值時(shí),將向量的l2范數(shù)縮放到指定閾值。在訓(xùn)練期間,要最小化的目標(biāo)是分類的交叉熵?fù)p失,要估計(jì)的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項(xiàng)以及softmax函數(shù)的權(quán)重向量。
2 卷積神經(jīng)網(wǎng)絡(luò)語言模型應(yīng)用分析
CNN語言模型已經(jīng)廣泛應(yīng)用于諸如文本分類,關(guān)系挖掘以及個(gè)性化推薦等NLP任務(wù),下面將對這些應(yīng)用進(jìn)行具體的介紹與分析。
2.1 CNN在文本分類中的應(yīng)用分析
kim提出了利用CNN進(jìn)行句子分類的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實(shí)現(xiàn)了效果很優(yōu)異的句子分類方法。通過對輸入向量的調(diào)整,進(jìn)一步提高了性能實(shí)現(xiàn)了包括情感極性分析以及話題分類的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計(jì)了兩種通道,一種是靜態(tài)通道,另一種是動態(tài)通道。在卷積層每一個(gè)濾波器都通過靜態(tài)與動態(tài)兩種通道進(jìn)行計(jì)算,然后將計(jì)算結(jié)果進(jìn)行拼接。在池化層采用dropout正則化策略,并對權(quán)值向量進(jìn)行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評論數(shù)據(jù)集,內(nèi)容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹庫是MR數(shù)據(jù)集的擴(kuò)展,但該數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集、驗(yàn)證集及測試集并給出了細(xì)粒度的標(biāo)記,標(biāo)記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類任務(wù)是將句子分為主觀句與客觀句兩類。TREC數(shù)據(jù)集為問題數(shù)據(jù)集,其分類任務(wù)是將所有問題分為六類,例如關(guān)于數(shù)字、人物或位置等信息的問題。CR數(shù)據(jù)集為評論數(shù)據(jù)集,包括客戶對MP3、照相機(jī)等數(shù)碼產(chǎn)品的評論,其分類任務(wù)是將其分為積極評價(jià)與消極評價(jià)兩類。MPQA數(shù)據(jù)集是意見極性檢測任務(wù)數(shù)據(jù)集。通過實(shí)驗(yàn)證明,該方法在這幾個(gè)典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。
2.2 CNN在關(guān)系挖掘中的應(yīng)用分析
Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢和Web文檔學(xué)習(xí)低維語義向量表示。為了在網(wǎng)絡(luò)查詢或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過輸入單詞序列上下文時(shí)間窗口中的每個(gè)單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應(yīng)用非線性變換來提取高級語義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。
2.3 CNN在個(gè)性化推薦中的應(yīng)用分析
Weston等人提出了一種能夠利用標(biāo)簽(hashtag)有監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過預(yù)標(biāo)注的100,000標(biāo)簽進(jìn)行訓(xùn)練。該方法除了標(biāo)簽預(yù)測任務(wù)本身能取得好的效果外,學(xué)習(xí)到的特征對于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時(shí)將標(biāo)簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現(xiàn)的標(biāo)簽通過評分函數(shù)對任何給定的主題標(biāo)簽進(jìn)行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標(biāo)簽t的詞嵌入表示。因此,通過對分?jǐn)?shù)f(w,t)進(jìn)行排序可以獲取所有候選主題標(biāo)簽中排序第一的話題進(jìn)行推薦。實(shí)驗(yàn)數(shù)據(jù)集采用了兩個(gè)大規(guī)模語料集,均來自流行的社交網(wǎng)絡(luò)文本并帶有標(biāo)簽。第一個(gè)數(shù)據(jù)集稱作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬條文本,共含有55億單詞。第二個(gè)數(shù)據(jù)集被稱作pages,包括3530萬條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。
3 結(jié)束語
卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語言模型已經(jīng)取得了非常大的發(fā)展,對于自然語言處理中的各項(xiàng)任務(wù)均取得了優(yōu)異的結(jié)果。本文通過對幾項(xiàng)典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓(xùn)練的向量表示一般效果會優(yōu)于預(yù)訓(xùn)練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。
[關(guān)鍵詞]卷積網(wǎng)絡(luò),mnist,深度學(xué)習(xí);
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2017)02-0168-01
1 概述
幾年來,深度卷積網(wǎng)絡(luò)技術(shù)飛速發(fā)展,在圖像,語音,自然語言處理等多個(gè)人工智能領(lǐng)域紛紛取得領(lǐng)先。深度卷積網(wǎng)絡(luò)作為深度神經(jīng)網(wǎng)絡(luò)的一種,其具有獨(dú)特的類似于人眼局部感受野的卷積核,以及類似于生物神經(jīng)的層次級聯(lián)結(jié)構(gòu)。由于權(quán)值共享的特性,網(wǎng)絡(luò)的參數(shù)大大減少,同時(shí)降低了對訓(xùn)練數(shù)據(jù)過擬合的風(fēng)險(xiǎn),具有比其他種類的深度網(wǎng)絡(luò)更加易于訓(xùn)練的好處。
2 深度卷積網(wǎng)絡(luò)
2.1 深度卷積層的結(jié)構(gòu)
一個(gè)典型的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖2-1所示。
深度卷積網(wǎng)絡(luò)的第一層是輸入層,接下來是若干個(gè)卷基層和下采樣層,最后是一個(gè)分類器,如softmax分類器,由分類器輸出相應(yīng)的分類結(jié)果。通常,每一個(gè)卷基層后面都緊跟一個(gè)下采樣層。在卷基層,利用局部連接和權(quán)值共享可以減少網(wǎng)絡(luò)的訓(xùn)練參數(shù),降低計(jì)算的復(fù)雜性。通過卷積運(yùn)算,得到的卷積結(jié)果通過sigmoid等激活函數(shù)的輸出得到這一層的特征圖,然后作為下一層(下采樣層)的輸入。在下采樣層。將前一層對應(yīng)的特征圖中相鄰若干個(gè)特征通過池化操作合并成一個(gè)特征。輸入的圖像數(shù)據(jù)可以直接傳送到第一個(gè)卷積層,進(jìn)行逐層特征學(xué)習(xí),最后利用有標(biāo)簽樣本數(shù)據(jù)輸入到softmax分類器,通過后向反饋微調(diào)整個(gè)網(wǎng)絡(luò)的參數(shù)。
2.2 深度卷積網(wǎng)絡(luò)的學(xué)習(xí)算法
2.2.1 卷積層的學(xué)習(xí)
卷積層是利用局部連接和權(quán)值共享,減少網(wǎng)絡(luò)的自由參數(shù)個(gè)數(shù),降低網(wǎng)絡(luò)參數(shù)選取復(fù)雜度。在每一個(gè)卷積層中,用一個(gè)可學(xué)習(xí)的卷積核與上一層若干個(gè)特征圖進(jìn)行卷積,再通過一個(gè)激活函數(shù)f,如sigmoid利用式2-1就可以得到相應(yīng)的輸入特征。
這里l表示層數(shù),k是卷積核,*表示二維卷積,表示偏置,是輸入特征圖集合。
2.2.2 下采樣層的學(xué)習(xí)
下采樣層利用圖像局部相關(guān)性原理,對圖像進(jìn)行子抽樣,在減少數(shù)據(jù)處理量的同時(shí)保留有用信息。這里通常是對前一層對應(yīng)的特征圖中的向量特征進(jìn)行池化操作。池化分為平均池化和最大池化等,池化后特征圖數(shù)量不變,但特征圖變小,輸出的特征可用式2-2計(jì)算。
其中對應(yīng)權(quán)值,b表示相應(yīng)偏置,dowm表示下采樣函數(shù)。
深度卷積網(wǎng)絡(luò),輸入端直接輸入圖像像素,采用由前向后的逐層學(xué)習(xí)方式,計(jì)算損失函數(shù),再通過bp算法對整個(gè)訓(xùn)練參數(shù)進(jìn)行調(diào)整。
3 深度學(xué)習(xí)中常用方法
3.1 線性校正單元
線性校正單元(ReLU)是當(dāng)前最普遍使用的非線性激活函數(shù),其函數(shù)形式為f(x)=max(x,0)。在過去神經(jīng)網(wǎng)絡(luò)通常使用Tanh或Sigmoid函數(shù)作為激活函數(shù)。研究表明,生理神經(jīng)元編碼可能是以稀疏分布的形式表示,因?yàn)樯窠?jīng)元的活動電位和突出后效應(yīng)消耗了絕大部分能量,同時(shí)能激活的神經(jīng)元數(shù)量預(yù)測在1%至4%之間,所以大部分神經(jīng)元處在靜息狀態(tài)。盡管ReLU非線性,并且在零點(diǎn)處不可微分,但是它可以生成真正的零來進(jìn)行稀疏表示,所以對生理神經(jīng)元激活的擬合更好。實(shí)驗(yàn)表明,ReLU作為激活函數(shù),在網(wǎng)絡(luò)中學(xué)習(xí)的更快。
3.2 Dropoup
在網(wǎng)絡(luò)的訓(xùn)練過程中,過擬合是個(gè)常見的問題,尤其是在訓(xùn)練大規(guī)模網(wǎng)絡(luò)的時(shí)候,Dropout 是處理這個(gè)問題的一種方法。Dropout 是指在訓(xùn)練的時(shí)候,以隨機(jī)概率拋棄神經(jīng)元的連接,進(jìn)而增加網(wǎng)絡(luò)的健壯性。若在訓(xùn)練中使用了 Dropout,則會導(dǎo)致網(wǎng)絡(luò)連接數(shù)變少,所以測試的時(shí)候需要通過對該層的所有權(quán)值等比例縮小,以平均近似訓(xùn)練時(shí)的網(wǎng)絡(luò)。神經(jīng)元與Dropout 隨機(jī)挑選的單元進(jìn)行訓(xùn)練,會使得每個(gè)單元不依賴于特定單元從而變得更加健壯,進(jìn)而產(chǎn)生有用的特征信息。
4 仿真實(shí)驗(yàn)
本文采用matlab仿真環(huán)境,網(wǎng)絡(luò)采用五層結(jié)構(gòu),前兩層為卷積層,卷積核分別為3和5。中間兩層為全連接,最后一層是softmax分類器。實(shí)驗(yàn)結(jié)果如圖4-1所示。結(jié)果可以看到,錯(cuò)誤率大約為0.48%左右,此網(wǎng)絡(luò)擁有很高的識別率。
參考文獻(xiàn)
[1] 段寶彬,韓立新. 改進(jìn)的深度卷積網(wǎng)絡(luò)及在碎紙片拼接中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(9):176-181.
[2] 鄭昌艷,梅衛(wèi),王剛. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的蛇形機(jī)動航跡圖像識別[J].火力與指揮控制,2016.05.
[3] 張宏毅. 基于深度卷e網(wǎng)絡(luò)的同款商品圖像檢索研究[J].圖形圖像,2016.04.
[4] 劉暢. MRI腦影像的深度卷積網(wǎng)絡(luò)分割和三維可視化[D].
[5] Glorot X, Bordes A, Bengio Y.Deep sparse rectifier neural networks;International Conferenc e on Artificial Intelligence and Statistics[C], 2011.
[6] Lennie P.The cost of cortical computation [J].Current biology,2003,13(6):493-497.
摘要:
針對帶鋼表面缺陷檢測系統(tǒng)的速度滯后,精度偏低等問題,在分析成像理論和圖像檢測理論的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了一種帶鋼表面缺陷高速高精度在線檢測系統(tǒng).該系統(tǒng)首先采用大功率半導(dǎo)體均勻發(fā)光激光器技術(shù)、高速線掃描成像技術(shù)和基于圖形處理器的Gabor紋理濾波技術(shù)實(shí)現(xiàn)了高速高分辨率的圖像采集和處理,然后采用基于嵌套循環(huán)的K-折交叉驗(yàn)證、信息增益率和BP神經(jīng)網(wǎng)絡(luò)方法構(gòu)建了高準(zhǔn)確率的分類器,以達(dá)到對帶鋼表面缺陷高速高精度在線檢測.實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)滿足了現(xiàn)有帶鋼生產(chǎn)速度的要求,具有較高的精度和準(zhǔn)確率.
關(guān)鍵詞:
圖像采集和處理;圖像檢測;Gabor紋理濾波;神經(jīng)網(wǎng)絡(luò)
0引言
鋼鐵企業(yè)為了提高競爭力,對帶鋼的生產(chǎn)提出了新的要求,也對帶鋼表面檢測系統(tǒng)提出了更高的要求,既要有更高的檢測速度還要有更加準(zhǔn)確的檢測精度[1].而與此同時(shí),跟隨機(jī)器視覺技術(shù)的發(fā)展,帶鋼表面檢測系統(tǒng)也得到了廣泛的研究與應(yīng)用[2].主要研究包括:①光源技術(shù).由于帶鋼檢測對光源要求頻度高、體積小,這限制了傳統(tǒng)光源在其應(yīng)用[3],激光具有方向性好、亮度高、體積小等優(yōu)點(diǎn),被廣泛應(yīng)用于帶鋼檢測應(yīng)用中,國內(nèi)的徐科等[4]提出熱軋鋼檢測中用綠光作為激光光源,但激光照明需解決均勻性問題.②掃描技術(shù).由于電荷耦合元件能夠?qū)崿F(xiàn)實(shí)時(shí)檢測,成為目前研究和應(yīng)用的主流技術(shù)[5].但是,CCD電荷耦合器需在同步時(shí)鐘的控制下,以行為單位一位一位地輸出信息,速度較慢,而互補(bǔ)金屬氧化物半導(dǎo)體光電傳感器采集光信號的同時(shí)就可以取出電信號,還能同時(shí)處理各單元的圖像信息,速度比CCD電荷耦合器快很多[6].③圖像處理算法.受限于帶鋼加工過程的特性,帶鋼表面呈現(xiàn)出隨機(jī)紋理的特點(diǎn),對于隨機(jī)紋理圖像的處理分析,目前常用的方法有共生矩陣法、頻域?yàn)V波法、分形法等.作為頻域?yàn)V波法的代表,二維Gabor濾波器有著與生物視覺系統(tǒng)相近的特點(diǎn)[7],廣泛應(yīng)用于紋理圖像的處理分析.但是,CPU很難滿足現(xiàn)在的帶鋼檢測的實(shí)時(shí)要求[8].④分類算法.特征選擇的主流算法是主成分分析和信息增益.主成分分析存在特征向量方向不一致的問題,而且如何確定主成分存在主觀性[9].信息增益可以衡量特征的優(yōu)劣,利用它可對特征進(jìn)行排序,方便后面的特征選擇,但信息增益適用于離散特征,信息增益率既適用于離散特征也適用于連續(xù)特征[10],被廣泛應(yīng)用于特征選擇的過程中.圖像分類算法主流算法包括支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò).支持向量機(jī)不適用于大樣本的分類問題[11].BP神經(jīng)網(wǎng)絡(luò)方法具有能夠解決非線性分類問題,對噪聲不敏感等優(yōu)點(diǎn),被廣泛應(yīng)用于帶鋼檢測中,如王成明等[12]提出的基于BP神經(jīng)網(wǎng)絡(luò)的帶鋼表面質(zhì)量檢測方法等,但是BP神經(jīng)網(wǎng)絡(luò)的超參的設(shè)定往往具有隨機(jī)性,這嚴(yán)重影響了分類效果[13].本文首先介紹了帶鋼表面缺陷高速高分辨率成像系統(tǒng)的設(shè)計(jì),針對光源的不均勻性、圖像處理速度慢等問題,提出改進(jìn)方法,然后介紹了分類器的構(gòu)建,針對樣本劃分的隨機(jī)性、特征選擇的隨機(jī)性以及BP神經(jīng)網(wǎng)絡(luò)超參設(shè)定的隨機(jī)性問題,做出改進(jìn),最后介紹試驗(yàn)結(jié)果.
1帶鋼表面缺陷高速高分辨率的成像系統(tǒng)的設(shè)計(jì)
1)大功率半導(dǎo)體均勻發(fā)光激光器技術(shù).激光能夠保證帶鋼表面缺陷的檢出率[14],本系統(tǒng)選用808nm半導(dǎo)體激光器作為照明源,出光功率可達(dá)30W,亮度可達(dá)1500流明.激光照明需解決均勻性的問題,本文采用了基于鮑威爾棱鏡的激光線發(fā)生辦法,解決了激光照明的均勻性問題,其光路如圖1所示.該方法首先在激光聚焦位置放置圓形球面透鏡,負(fù)責(zé)將發(fā)散的激光束匯聚成準(zhǔn)平行光,同時(shí)控制光柱的粗細(xì),然后,利用鮑威爾棱鏡的擴(kuò)散效果對圓柱的一個(gè)方向進(jìn)行擴(kuò)束,最終形成激光線.為保證亮度及寬度的適應(yīng)性,激光器出光口距離圓透鏡、鮑威爾棱鏡的距離可以精密調(diào)整.為了降低反射亮度損失,在透鏡表面鍍上808±5nm的T≥99%的增透膜.
2)基于GPU的Gabor紋理濾波技術(shù).二維Ga-bor濾波器具有易于調(diào)諧方向、徑向頻率帶寬及中心頻率等特征,本文采用該方法來進(jìn)行圖像處理,二維Gabor函數(shù)為guv(x,y)=k2σ2exp-N2(x2+y2)2σ[]2×expi(k•()xy[])-exp-σ2{()}2(1)其中:k=kxk()y=kvcosψμkvsinψ()μ;kv=2-v+22π;ψμ=μπN;v的取值決定了Gabor濾波的波長;μ的取值表示Gabor核函數(shù)的方向;N為總的方向數(shù).設(shè)f(x,y)為圖像函數(shù),guv(x,y)為卷積函數(shù),則卷積輸出N(u,v)可表示為N(u,v)=f(x,y)*guv(x,y)(2)二維Gabor濾波算法計(jì)算量較大,為了保證了帶鋼表面缺陷檢測的實(shí)時(shí)性,采用基于GPU的并行處理架構(gòu),其計(jì)算流程如圖2所示.GPU的算法分為兩個(gè)流程:訓(xùn)練過程主要針對無缺陷圖像進(jìn)行,通過訓(xùn)練完成紋理圖像的背景建模,一方面消除背景變化帶來的干擾,另一方面形成有效的Gabor卷積參數(shù),以便在檢測過程中得到最優(yōu)的檢出效果.檢測過程對實(shí)際拍攝的缺陷圖像進(jìn)行分析,首先按照GPU的核心數(shù)和緩存大小對圖像進(jìn)行分解,本文所有GPU的核心數(shù)為1024,顯存2G,因此將原始圖像分解為1000塊,分別加載到1000個(gè)核心中,同時(shí)并發(fā)運(yùn)行卷積運(yùn)算.最后將各個(gè)窗口的卷積結(jié)果合并到一起,得到完成的濾波結(jié)果,最后借助于背景模式,將背景的干擾消除,得到干凈的缺陷區(qū)域.
3)成像系統(tǒng).根據(jù)缺陷檢測的精度要求(1800m/min的檢測速度,0.25mm的精度),帶鋼的規(guī)格要求(1900mm規(guī)格),對帶鋼進(jìn)行成像系統(tǒng)設(shè)計(jì).基于互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)的成像芯片具有速度快,用電低等優(yōu)勢.選用兩個(gè)4K線掃描CMOS相機(jī)作為成像核心器件,選用CameraLinkFull接口作為數(shù)據(jù)輸出.兩個(gè)4K掃描中間重疊100mm作為圖像拼接區(qū).兩組線激光光源與線掃描組成系統(tǒng)的主要成像模塊.成像系統(tǒng)結(jié)構(gòu)如圖3所示.
2構(gòu)建分類器
檢測缺陷類別及其特征描述如表1所示.
1)訓(xùn)練集和樣本集劃分.主要缺陷類別有5個(gè),每個(gè)類別收集樣本7000,共計(jì)35000個(gè)樣本.為了避免訓(xùn)練集和樣本集劃分的盲目性,采用10-折交叉驗(yàn)證的方式劃分訓(xùn)練集和測試集,即將樣本集分成10份,從中選1份為測試集,剩下的為訓(xùn)練集,如圖4所示,究竟選擇哪一份作為測試集,需在后面的嵌套循環(huán)中實(shí)現(xiàn).
2)特征選擇.缺陷區(qū)域的長度、寬度、面積、區(qū)域?qū)Ρ榷鹊裙灿?jì)138個(gè)特征形成初始特征集合,利用信息增益率來對各個(gè)特征排序.設(shè)樣本集T的某個(gè)特征子集S中,相異值構(gòu)成集合A,集合A把特征子集S劃分為多個(gè)子集{S1,S2,Sv,…},|Sv|、|S|為集和大小,信息增益率的公式為Gainration(S,A)=Gain(S,A)Intrinsiclnfo(S,A)(3)式中Gain(S,A)為信息增益,是分裂前的信息減去分裂后的信息,公式為Gain(S,A)=InfoBefore(S)-InfoAfter(S)=Entropy(S)-∑v∈Values(A)|Sv||S|Entropy(Sv)(4)式中Entropy(S)為集合S的熵,公式為Entropy(S)=Entropy(p1,p2,…,pm)=-∑mi=1pilogpi(5)式中pi為第i個(gè)類別的概率.式(3)中,Intrinsiclnfo(S,A)為內(nèi)在信息,公式為Intrinsiclnfo(S,A)=∑v∈Values(A)|Sv||S|log(|Sv||S|)(6)利用信息增益率對特征進(jìn)行排序,再利用循環(huán)(從1到138循環(huán))實(shí)現(xiàn)最優(yōu)的特征個(gè)數(shù)的確定.
3)BP神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)的確定.BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到帶鋼表面質(zhì)量檢測上具有很多優(yōu)勢,但也存在一些問題,主要體現(xiàn)在隱含層節(jié)點(diǎn)數(shù)選取的盲目性和初始權(quán)值選取的隨機(jī)性.對于隱含層節(jié)點(diǎn)數(shù)確定問題,利用隱含層節(jié)點(diǎn)數(shù)常用計(jì)算公式[15](2(m+n)+1,n+槡m+a,log2n,n為輸入層節(jié)點(diǎn)數(shù),m為輸出層節(jié)點(diǎn)數(shù),a為的[1,10]常數(shù))求得節(jié)點(diǎn)數(shù)的可能取值集合n1,求得該集合最大值n1-max和最小值n1-min,從n1-min開始到n1-max,利用循環(huán),節(jié)點(diǎn)數(shù)逐個(gè)增加,確定最優(yōu)的隱含層節(jié)點(diǎn)數(shù)[16];
4)BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值的選?。?dāng)隱含層節(jié)點(diǎn)數(shù)確定后,需要確定輸入層和隱含層之間、隱含層和輸出層之間的初始權(quán)值.首先生成10組隨機(jī)數(shù)數(shù)組,利用循環(huán)確定最優(yōu)的隨機(jī)數(shù)數(shù)組.
5)判別標(biāo)準(zhǔn)和嵌套循環(huán).上述各循環(huán)中,分類效果好與壞的判別標(biāo)準(zhǔn)是分類的總體精度,公式為OA=∑niin(7)式中:nii為樣本被預(yù)測為類別i,n為樣本個(gè)數(shù).上述各循環(huán)組合在一起就是一個(gè)嵌套循環(huán),其N-S盒圖如圖5所示,最外層是測試集和訓(xùn)練集的10折交叉驗(yàn)證,第1層是確定最優(yōu)的特征數(shù),第3層是確定最優(yōu)的隱含層節(jié)點(diǎn)數(shù),第4、5層是確定最優(yōu)的輸入層和隱含層、隱含層和輸出層的初始權(quán)值[17-20].經(jīng)以上循環(huán),確定D3作為測試集,最優(yōu)特征數(shù)為23個(gè),最優(yōu)的隱含層節(jié)點(diǎn)數(shù)是46個(gè),同時(shí)也確定了最優(yōu)的初始權(quán)值,對應(yīng)的3層BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型如圖6所示.
3實(shí)驗(yàn)結(jié)果
1)鮑威爾棱鏡與柱透鏡進(jìn)行對比在實(shí)際工作距離1.5m處,采用0.1m為間隔使用光功率計(jì)測試光源功率,如圖7所示,橫軸為測試點(diǎn),縱軸為測試點(diǎn)的光功率.實(shí)驗(yàn)表明,鮑威爾棱鏡均勻性優(yōu)于柱透鏡.
2)Gabor濾波方法與其他方法比較將動態(tài)閾值法+Blob分析法(方法A)和灰度共生矩陣紋理背景消除法(方法B)兩種方法與Gabor濾波方法進(jìn)行比較,如圖8所示.由于缺陷與背景灰度相近(圖(a)),致使方法A缺陷丟失(圖(b)),由于缺陷與背景紋理相近(圖(d)),致使方法B產(chǎn)生噪聲(圖(e)),Gabor方法取得了不錯(cuò)的效果(圖(e)、(圖(f))).
3)GPU與CPU比較以4096×4096的圖像為例,選10幅有代表性圖像,利用CPU(最新的inteli7-2600處理器,4核8線程,2.6GHz,內(nèi)存8G)和GPU(nVidiaGTX970,4G緩存顯卡)進(jìn)行Ga-bor運(yùn)算,計(jì)算時(shí)間如表2所示,GPU計(jì)算效率明顯優(yōu)于CPU,其中CPU的平均耗時(shí)為290.4ms,而GPU的平均耗時(shí)為31.7ms.
4)檢測效果在產(chǎn)線速度為1775m/min,最小檢測缺陷的尺寸為0.25mm的檢測系統(tǒng)中,對帶鋼的主要4種類型缺陷進(jìn)行檢測統(tǒng)計(jì),檢測結(jié)果如表3所示.可計(jì)算出整體檢出率99.9%,檢測準(zhǔn)確率99.4%.
4結(jié)論
本文提出將基于鮑威爾棱鏡的大功率激光器應(yīng)用到光源的設(shè)計(jì)中,保證光源光照的均勻性;提出了新的帶鋼表面缺陷檢測系統(tǒng)的成像系統(tǒng)結(jié)構(gòu)設(shè)計(jì),保證了快速、高精度的生成圖像;提出了基于GPU的二維Gabor濾波圖像處理的算法,滿足了實(shí)時(shí)處理的要求;提出了基于嵌套循環(huán)的分類器擇優(yōu)算法,避免了樣本集選擇、特征選擇和BP神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)定的盲目性.借助上述技術(shù),系統(tǒng)實(shí)現(xiàn)了較好的效果,滿足當(dāng)前帶鋼生產(chǎn)的檢測需求.
參考文獻(xiàn):
[1]張長富.中國鋼鐵工業(yè)運(yùn)行情況和發(fā)展展望[J].中國鋼鐵業(yè),2013(4):5-8.
[2]劉彩章.基于機(jī)器視覺的帶鋼表面缺陷成像系統(tǒng)理論與實(shí)驗(yàn)研究[D].武漢:武漢科技大學(xué),2012:2-4.
[3]高瑀含,安志勇,李娜娜等.高斯光束整形系統(tǒng)的光學(xué)設(shè)計(jì)[J].光學(xué)精密工程,2011,19(7):1464-1471.
[4]徐科,楊朝霖,周鵬.熱軋帶鋼表面缺陷在線檢測的方法與工業(yè)應(yīng)用[J].機(jī)械工程學(xué)報(bào),2009,45(4):111-114.
[5]李霞.基于CCD的鋼板測寬儀系統(tǒng)設(shè)計(jì)[D].秦皇島:燕山大學(xué),2014:5-10.
[6]石東新,傅新宇,張遠(yuǎn).CMOS與CCD性能及高清應(yīng)用比較[J].通訊技術(shù),2010,43(12):174-179.
[7]高梓瑞.Gabor濾波器在紋理分析中的應(yīng)用研究[D].武漢:武漢理工大學(xué),2012:6-10.
[8]王成順.表面缺陷檢測GPU并行圖像處理技術(shù)[D].合肥:合肥工業(yè)大學(xué),2012:3-6.
[9]徐永智,華慧川.對主成分分析三點(diǎn)不足的改進(jìn)[J].科技管理研究,2009(6):128-130.
[10]李佳龍,閻威武,白曉慧,等.基于數(shù)據(jù)驅(qū)動與信息增益率多指標(biāo)決策模型的生活飲用水水質(zhì)評估[J].大連理工大學(xué)學(xué)報(bào),2016,56(1):92-96.
[11]張曉雷.支持向量機(jī)若干問題的研究[D].北京:清華大學(xué),2012:1-20.
[12]王成明,顏云輝,李駿,等.基于BP神經(jīng)網(wǎng)絡(luò)的冷軋帶鋼表面質(zhì)量檢測研究[J].機(jī)械設(shè)計(jì)與制造,2007(6):106-108.
[13]高正中,張曉燕,龔群英.基于BP神經(jīng)網(wǎng)絡(luò)的超聲波流量計(jì)的設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2016,39(16):6-9.
[14]周洋,何平安,蔣千年等.激光束整形光學(xué)系統(tǒng)的設(shè)計(jì)與研究[J].光學(xué)與光電技術(shù),2006,4(2):26-28.
[15]飛思科技產(chǎn)品研發(fā)中心.神經(jīng)網(wǎng)絡(luò)理論與Matlab7實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2005.
[16]沈花玉,王兆霞,高成耀等.BP神經(jīng)網(wǎng)絡(luò)隱含層單元數(shù)的確定[J].天津理工大學(xué)學(xué)報(bào),2008,24(5):13-15.
[17]文冬林.BP神經(jīng)網(wǎng)絡(luò)中一種逃離局部極小點(diǎn)的方法研究[D].貴陽:貴州大學(xué),2008.
[18]甘勝豐.帶鋼表面缺陷圖像檢測與分類方法研究[D].北京:中國地質(zhì)大學(xué),2013:3-20.
[19]吳彬彬.機(jī)器視覺方法在帶鋼表面缺陷檢測中的應(yīng)用研究[D].武漢:武漢科技大學(xué),2015:4-50.
關(guān)鍵詞:圖像分割;邊緣檢測;算子
中圖分類號: 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599(2011)22-0000-02
Image Segmentation Stud and Achievement Based on Visual C + + Image Edge Detection
Lei Xun,Cheng Luyu,Zheng Tao,Wang Xidi
(Xinjiang Agricultural University of Computer and Information Engineering,Urumqi 830052,China)
Abstract:Recalling the definition of image segmentation and classification algorithms,introduces the emerging modern image segmentation techniques:transform based on wavelet analysis and neural network-based image segmentation.In visual C++ platform to achieve several edge detection simulation.
Keywords:Image segmentation;Edge detection;Operators
圖像分割是計(jì)算機(jī)視覺領(lǐng)域中最基本、也是最困難的問題之一,分割結(jié)果的好壞直接影響到后續(xù)工作的優(yōu)劣。由于圖像的多樣性和復(fù)雜性,目前還沒有一種完全通用的分割方法可以實(shí)現(xiàn)對所有圖像的正確分割,因此圖像分割技術(shù)一直是圖像處理鄰域的研究熱點(diǎn)之一。
一、圖像分割算法介紹
(一)圖像閾值分割。對灰度圖像的閾值分割就是首先對圖像中的所有像素點(diǎn)根據(jù)灰度值來進(jìn)行分級,之后通過算法來確定一個(gè)確定的閾值相比較,將大于以及小于閾值的灰度值對應(yīng)的像素點(diǎn)進(jìn)行分類,而后對兩類不同的像素點(diǎn)進(jìn)行二值化??梢钥闯觯撝档拇_定是圖像閾值分割算法研究的重點(diǎn)。
(二)圖像邊緣檢測法。圖像的邊緣是指圖像局部區(qū)域亮度變化顯著的部分。該區(qū)域的灰度剖面一般可以看做一個(gè)階躍,即從一個(gè)灰度值的很小的緩沖區(qū)域內(nèi)急劇變化到另一個(gè)灰度相差較大的灰度值。[1]邊緣檢測主要是圖像的灰度變化的度量,檢測和定位。邊緣檢測的基本思想:先利用邊緣增強(qiáng)算子,突出圖像中的局部邊緣,然后定義像素的“邊緣強(qiáng)度”,通過設(shè)置閾值的方法提取邊緣點(diǎn)集。[2]
(三)區(qū)域提取法。區(qū)域提取法有兩種方法:區(qū)域生長法和區(qū)域分裂合并法。區(qū)域生長法是從某個(gè)像素出發(fā),按照一定的準(zhǔn)則,逐步合并鄰近像素形成所需的分割區(qū)域,當(dāng)滿足一定的條件時(shí),區(qū)域分割完畢;區(qū)域分裂合并法是從整個(gè)圖像出發(fā),逐漸分裂切割得到各個(gè)子區(qū)域。在實(shí)際應(yīng)用當(dāng)中通常是這兩種基本方法的結(jié)合。兩種方法的關(guān)鍵都是如何選擇合適的相似準(zhǔn)則。
(四)結(jié)合特定理論工具的分割算法?;谛〔ǚ治龊妥儞Q的分割方法:小波分析計(jì)算復(fù)雜度低,抗噪聲能力強(qiáng),且容易與其它方法結(jié)合進(jìn)行圖像分割。小波分析發(fā)展了傳統(tǒng)的傅立葉變換思想,對非平穩(wěn)信號具有更好的分析能力。[3]基于小波分析的動態(tài)閾值分割方法,先由二進(jìn)制小波變換將圖像的直方圖分解為不同層次的小波系數(shù), 然后依據(jù)一定的分割準(zhǔn)則和小波系數(shù)選擇閾值門限,利用閾值標(biāo)出圖像分割的區(qū)域。把小波分析引入圖像分割,利用小波分析動態(tài)取得閾值,可以實(shí)現(xiàn)很好的分割效果。
基于神經(jīng)網(wǎng)絡(luò)的分割方法:人工神經(jīng)網(wǎng)絡(luò),也稱為神經(jīng)網(wǎng)絡(luò)(Neural Networks),即從生物學(xué)神經(jīng)系統(tǒng)的信號傳遞而抽象發(fā)展成的一種方法。是由大量模擬神經(jīng)元的數(shù)學(xué)模型相互連接,模擬人腦處理信息的方式,通過學(xué)習(xí)可以進(jìn)行并行分布處理的非線性網(wǎng)絡(luò)系統(tǒng)。在神經(jīng)網(wǎng)絡(luò)的應(yīng)用中,相當(dāng)多的神經(jīng)網(wǎng)絡(luò)模型都是采用BP神經(jīng)網(wǎng)絡(luò)或者它的改進(jìn)形式。
二、邊緣檢測的Visual C++實(shí)現(xiàn)
(一)原理和算法
邊緣是一定數(shù)量點(diǎn)灰度發(fā)生變化的地方,那么邊緣檢測大體上就是計(jì)算這個(gè)灰度變化帶的導(dǎo)數(shù)。對這種變化最有用得兩個(gè)特征是灰度的變化率和方向,分別以梯度向量的幅度和方向來表示它們。
基于灰度的一階導(dǎo)數(shù)可以得到了原始數(shù)據(jù)灰度的梯度,可以利用此數(shù)據(jù)搜尋圖像灰度峰值,基于灰度的二階導(dǎo)數(shù)實(shí)質(zhì)上是灰度梯度的變化率。在理想的連續(xù)變化情況下,在二階導(dǎo)數(shù)中檢測過零點(diǎn)就是梯度中的局部最大值,峰值檢測就是邊線檢測,邊緣檢測算子檢查每個(gè)像素的鄰域并量化灰度變化率,也包括方向的確定。
1.Roberts邊緣檢測算子。Roberts邊緣檢測算子是2 X 2 算子模板,利用斜向上的4個(gè)像素交叉差分定義。因此該算子對45度和135度方向上的邊緣較為敏感。該模板數(shù)學(xué)表示為:g(x,y)=[ - ]2+ - ]2}1/2 ,其中f(x,y)是具有整數(shù)像素坐標(biāo)的輸入圖像。
2.Prewitt邊緣算子
為了在邊緣檢測中減少噪聲的影響,1970年P(guān)rewitt提出Prewitt算子。Prewitt算子從加大邊緣檢測算子模板大小出發(fā),由2X2擴(kuò)大到3X3來計(jì)算差分算子,其水平方向和垂直方向上的算子模板為以下兩個(gè):
. .
3.Sobel邊緣算子
Sobel算子從不同的方向檢測邊緣,距離不同的像素具有不同的權(quán)值,在邊緣點(diǎn)處達(dá)到極值的現(xiàn)象進(jìn)行邊緣檢測。圖像中的每個(gè)點(diǎn)都用下面這兩個(gè)卷積核做卷積,一個(gè)核對通常的垂直邊緣響應(yīng)最大,而另一個(gè)對水平邊緣響應(yīng)最大。
一個(gè)是檢測水平邊沿的 .一個(gè)是檢測豎直平邊沿的 。
4.拉普拉斯算子是對二維函數(shù)進(jìn)行運(yùn)算的二階導(dǎo)數(shù)算子。通常使用的拉普拉斯邊緣檢測算子如下:
.
由于拉普拉斯算子是一個(gè)二階導(dǎo)數(shù),所以它將在邊緣處產(chǎn)生一個(gè)陡峭的零交叉。而噪聲點(diǎn)對邊緣檢測有一定的影響,所以可以利用平滑濾波器進(jìn)行平滑后再進(jìn)行邊緣檢測效果會更好,譬如高斯拉普拉斯算子。
(二)仿真實(shí)驗(yàn)與分析
本實(shí)驗(yàn)采用的軟件環(huán)境為Windows XP,編程環(huán)境Visual C++6.0,對bmp文件進(jìn)行格式分析后先將24位位圖轉(zhuǎn)換為256位圖,二值化后再利用邊緣檢測算子對圖片分別進(jìn)行卷積運(yùn)算。
實(shí)驗(yàn)結(jié)果如下所示:
原圖
Robert算子 Prewitt算子
Sobel算子 拉普拉斯算子
Robert算子利用4個(gè)像素進(jìn)行計(jì)算,邊緣定位準(zhǔn),對噪聲敏感,適于處理陡峭的低噪聲圖像。Prewitt 算子對噪聲有抑制作用,但Prewitt算子對圖像邊緣的定位不如Robert算子,與Prewitt算子相比,Sobel算子對于像素的位置的影響做了加權(quán),因此效果更好。Laplacian 算子同樣對噪聲比較敏感,所以通常都是用Laplacian 算子和平滑算子結(jié)合生成的模板進(jìn)行圖像分割處理。
結(jié)論語:
本實(shí)驗(yàn)只是利用各種邊緣檢測算子對灰度圖像的分割進(jìn)行了研究,但通常圖像信息中空間復(fù)雜性和相關(guān)性都比較強(qiáng),每種方法也只局限于特定的分割對象。實(shí)際應(yīng)用中往往是各種算法的綜合處理。各種算法雖然都可以不斷改進(jìn),但如果要從根本上提高圖像處理質(zhì)量的話,未來需要成功加入高層的語義信息才能滿足社會更多的需求。
參考文獻(xiàn):
[1]殷國軍,秦莉.圖像分割算法研究綜述[J].河北工程技術(shù)高等??茖W(xué)校學(xué)報(bào).2009,(02)
[2]黃鋒華,劉琪芳,冀金鳳.基于MATLAB數(shù)字圖像邊緣檢測算子的研究[J].機(jī)械工程與自動化,2011,(04)
[3]王彪,李建文,王鐘斐,基于小波分析的新閾值去噪方法,計(jì)算機(jī)工程與設(shè)計(jì),2011,(03)
[作者簡介]
關(guān)鍵詞: 積分投影; 循環(huán)神經(jīng)網(wǎng)絡(luò); 長短時(shí)記憶網(wǎng)絡(luò); 防止過擬合技術(shù); 精度; 留一法
中圖分類號:TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2017)04-13-04
Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.
Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation
0 引言
人們表情的短時(shí)間變化,也叫微表情,心理學(xué)在這方面的研究很早就開始了。近年來,有關(guān)利用機(jī)器學(xué)習(xí)的方法來對微表情進(jìn)行研究的學(xué)者越來越多,其成為當(dāng)前一個(gè)熱門研究方向。微表情的研究成果可用于測謊[2-4]、臨床診斷等方面,因橐話閎思幢閌切睦硪繳也很難注意到1/25~1/5秒人表情的變化[1],而這時(shí),機(jī)器可以很好的對微表情進(jìn)行自動的識別。
最近,基于積分投影和紋理描述符的方法被用在人臉識別[5],然而,很少有研究將積分投影用于包含人臉的時(shí)間序列中進(jìn)行識別。微表情與人臉識別有很大不同,特征很難單從每幀圖片中提取,這時(shí)就需要考慮時(shí)間軸。LSTM可以對時(shí)序數(shù)據(jù)進(jìn)行分類,以前基本用在語音識別和自然語言處理的任務(wù)中,很少用于圖像識別,可能是因?yàn)長STM處理的是一維的數(shù)據(jù),而圖像是二維的數(shù)據(jù)。將圖像的二維信息積分投影到一維(水平方向和垂直方向),并以此作為LSTM的輸入并分類,這樣就能將二者很好的結(jié)合起來。
本文構(gòu)造了基于積分投影和LSTM的深度學(xué)習(xí)的模型來對微表情進(jìn)行識別。得到的結(jié)果不僅比以前的基于局部二值模式(LBP)的方法好,而且也略微的優(yōu)于最近基于積分投影的論文中的方法。
1 CASME II微表情數(shù)據(jù)集介紹
2014年,中科院心理研究所建立了更進(jìn)一步改進(jìn)的自然誘發(fā)的微表情數(shù)據(jù)庫CASMEII[8]。CASMEII有26個(gè)平均年齡為22歲左右的亞洲人,9類表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)組成。用來錄制的高速相機(jī)為200 fps。高速相機(jī)可以捕捉更細(xì)節(jié)的微表情。CASMEII是據(jù)我們所知目前最好的自然誘發(fā)的微表情數(shù)據(jù)庫。
2 基于差分圖像的積分投影
Mateos等人的開拓性工作[6-7]表明積分投影可以提取同一人臉圖像的共同基本特征。積分投影將人臉的特征水平和垂直投影,可以用公式⑴和⑵表示:
其中It(x,y)表示時(shí)間為t時(shí),圖像位于(x,y)時(shí)的像素值,Ht(y)和Vt(x)表示水平和垂直積分投影。直接將積分投影應(yīng)用到CASME II微表情數(shù)據(jù)集上效果如圖1所示。
然而,由于微表情的變化是十分微小的,若直接采用上面的積分投影會有很多噪聲,從圖1(c)可以看出區(qū)分不是很明顯。因此,我們采用改進(jìn)的積分投影方法??梢杂霉舰呛廷缺硎荆?/p>
我們將每個(gè)視頻下的2到N幀微表情的圖像減去第1幀,將得到的差分圖像做積分投影,效果如圖2所示。
從圖2的(c)可以看出,采用基于差分圖像的水平積分投影效果更好,去掉了不必要的噪聲。
3 長短時(shí)記憶網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以用來處理時(shí)序數(shù)據(jù),但它有一個(gè)明顯的缺陷,就是不能記憶發(fā)生在較久以前的信息。長短時(shí)記憶網(wǎng)絡(luò)(LSTM)[9]是一種特殊的RNN,比RNN多了一些特殊的門和細(xì)胞,可以學(xué)習(xí)長期依賴信息。LSTM結(jié)構(gòu)如圖3所示。
最上面橫著帶箭頭的線包含細(xì)胞單元,作用是記憶之前LSTM單元的信息。x和+表示點(diǎn)分的乘法與加法,表示Sigmoid激活函數(shù)(如公式⑸),tanh表示雙曲正切激活函數(shù)(如公式⑹)。
最下面圓圈中的X和最上面圓圈中的h分別表示時(shí)序輸入和輸出。
通用的LSTM結(jié)構(gòu)可以參考圖4,圖4中,底層節(jié)點(diǎn)為輸入,頂層節(jié)點(diǎn)為輸出,中間層為隱藏層節(jié)點(diǎn)或記憶塊。(a)描述的是傳統(tǒng)的 感知機(jī)(MLP)網(wǎng)絡(luò),即不考慮數(shù)據(jù)的時(shí)序性,認(rèn)為數(shù)據(jù)是獨(dú)立的;(b)將輸入序列映射為一個(gè)定長向量(分類標(biāo)簽),可用于文本、視頻分類;(c)輸入為單個(gè)數(shù)據(jù)點(diǎn),輸出為序列數(shù)據(jù),典型的代表為圖像標(biāo)注;(d)這是一種結(jié)構(gòu)序列到序列的任務(wù),常被用于機(jī)器翻譯,兩個(gè)序列長度不一定相等;(e)這種結(jié)構(gòu)會得到一個(gè)文本的生成模型,每詞都會預(yù)測下一時(shí)刻的字符。
4 LSTM-IP模型
因?yàn)镃ASME II數(shù)據(jù)集每個(gè)視頻下微表情圖像幀數(shù)是不一樣的,為了方便我們統(tǒng)一LSTM的輸入,所以我們提取了最能代表這個(gè)視頻微表情的10幀,同時(shí),本文將整個(gè)數(shù)據(jù)集圖像的尺寸統(tǒng)一到200×200像素,將原來彩色圖像轉(zhuǎn)化為灰度圖像。通過基于差分圖像的積分投影,得到一個(gè)視頻下差分圖像每幀圖像的水平和垂直投影,一個(gè)圖像可以得到一個(gè)200維的水平向量和一個(gè)200維的垂直向量,因?yàn)椴罘謭D像是后面9張減去了第一張圖像,所以一個(gè)視頻下共有9個(gè)水平向量和9個(gè)垂直向量,初始化兩個(gè)9×200大小的一維向量分別保存水平向量和垂直向量。
本文采用圖4(b)和圖4(e)結(jié)合的LSTM結(jié)構(gòu),如圖5所示。
頂層的X_IP表示將一個(gè)視頻下9個(gè)差分圖像的水平投影組成的9×200的一維特征向量作為輸入,經(jīng)過第一層LSTM得到9×128的一維特征向量,接著經(jīng)過第二層LSTM得到9×128的一維特征向量,最后經(jīng)過一層LSTM得到一個(gè)128的特征向量,Y_IP也是同樣的處理過程。最后將這兩部分的128的特征向量連接起來作為一個(gè)256的特征向量輸入softmax分類器,結(jié)果輸出屬于五類微表情的哪一類。在圖5的每兩層之間加入一層Dropout層,Dropout的比率設(shè)為0.5。LSTM內(nèi)部參數(shù)初始化采用了glorot_normal,相比較于其他初始化方法,glorot_normal效果最好。
Softmax和Dropout在深度學(xué)習(xí)中都是常用的技術(shù)。Softmax是邏輯斯特回歸應(yīng)用于多分類的推廣。Dropout[10]這種技術(shù)的作用是減少過擬合,是一種正則化技術(shù),通過防止由完全連接的層引起神經(jīng)元的參數(shù)過多,有助于減少神經(jīng)網(wǎng)絡(luò)的過度擬合問題。給定 dropout率p,其在我們的LSTM中被設(shè)置為0.5,50%單位將被保留,而另外50%將被放棄。簡單地說,“Dropout”只是隨機(jī)忽略一些神經(jīng)元。然而在測試階段,每個(gè)神經(jīng)元的輸出將通過因子1-p(保持率)加權(quán)以保持與訓(xùn)練階段中產(chǎn)生相同的效果。如圖6所示。
我們的實(shí)驗(yàn)采用基于Theano的keras框架,keras借b了Torch的搭建深度學(xué)習(xí)網(wǎng)絡(luò)的方式,而且使用筆者比較熟悉的Python語言(Torch使用Lua語言),keras的底層可以是Theano或者Tensorflow,可能是因?yàn)閗eras最先在Theano開發(fā)的,經(jīng)過實(shí)驗(yàn)比較單個(gè)GPU下,Theano的速度要比Tensorflow快,所以我們的底層采用Theano。
5 實(shí)驗(yàn)結(jié)果與分析
現(xiàn)在微表情識別的算法主要是基于LBP改進(jìn)的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-
TOP)等。我們將LSTM-IP算法與以前的方法做了比較,如表1所示。
實(shí)驗(yàn)是在CASME II上做的,因?yàn)镃ASME II微表情數(shù)據(jù)集是最新最好的微表情數(shù)據(jù)集。STLBP-IP也是基于積分投影的,結(jié)合了1DLBP來提取特征。通過表1的比較我們發(fā)現(xiàn),基于積分投影的算法效果好于原來基于LBP的算法,可以得出,采用提取積分投影特征的方法在微表情數(shù)據(jù)集CASME II上效果比較好??梢钥闯觯琒TLBP-IP的性能優(yōu)于文獻(xiàn)[27]的重新實(shí)現(xiàn),STLBP-IP的精度提高了20.64%。從表1中可知,時(shí)間插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,與STLBP-IP相比,LBP-TOP在微表情識別上的效果上有很大的差距(19.43%)。比較兩種基于積分投影的方法,本文提出的方法略微好于STLBP-IP,但通過閱讀STLBP-IP的論文筆者發(fā)現(xiàn),這種方法存在繁瑣的調(diào)參過程,比如圖像如何分塊,SVM核參數(shù)的選擇,而本文提出的LSTM-IP算法可以自動從差分圖像的積分投影中學(xué)習(xí),調(diào)參的內(nèi)容比較少,而且速度也很快。這些結(jié)果表明,LSTM-IP實(shí)現(xiàn)了令人滿意的效果,而不是LOCP-TOP和LBP-SIP。 這部分地解釋了LSTM-IP通過使用積分投影來保持形狀和辨識的能力。
實(shí)驗(yàn)采用了留一法交叉驗(yàn)證,CASME II有26個(gè)subjects,通過把每個(gè)subject作為測試,其余作為訓(xùn)練,循環(huán)26次,最后把每次測試得到的正確視頻個(gè)數(shù)相加除以總的視頻數(shù),得到識別精度,這種方法現(xiàn)在是微表情識別主流的驗(yàn)證方法。
6 Y束語
基于差分圖像的積分投影方法,保存了我們微表情形狀的特征,然后增強(qiáng)微表情的辨別力。深度學(xué)習(xí)在圖像識別領(lǐng)域已經(jīng)取得了很不錯(cuò)的成績,而現(xiàn)在深度學(xué)習(xí)的技術(shù)還沒有應(yīng)用于微表情識別。本文將差分圖像的積分投影與LSTM結(jié)合,從實(shí)驗(yàn)結(jié)果上看,結(jié)果要好于以前的方法。我們認(rèn)為深度學(xué)習(xí)的探索不會停止,會有越來越多新的網(wǎng)絡(luò)模型產(chǎn)生,也會有越來越多的深度學(xué)習(xí)的技術(shù)應(yīng)用于微表情識別。
我們將繼續(xù)探索基于深度學(xué)習(xí)的微表情識別的方法及技術(shù)手段。卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上取得了很好的成績,但筆者也將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于微表情上,效果并不好,可能是因?yàn)槲⒈砬樵趫D像上變化比較細(xì)微,卷積神經(jīng)網(wǎng)絡(luò)不容易捕捉到特征,但如果考慮了一個(gè)視頻時(shí)間序列的特性,也許會有比較好的結(jié)果,對此還有待進(jìn)一步研究。隨著技術(shù)的進(jìn)步,相信微表情識別效果會越來越好,并最終能夠應(yīng)用于我們的生活中。
參考文獻(xiàn)(References):
[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-
srevealed. com,2003.
[2] Ekman P. Darwin, deception, and facial expression[J].
Annals of the New York Academy of Sciences,2003.1000(1):205-221
[3] Ekman P. Lie catching and microexpressions[J]. The
philosophy of deception,2009:118-133
[4] Ekman P, O'Sullivan M. From flawed self-assessment to
blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686
[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp
texture analysis[J]. Proc. FCTA,2013: 14-19
[6] Mateos G G. Refining face tracking with integral projections
[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368
[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P
E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234
[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved
spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041
[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].
Neural computation,1997.9(8):1735-1780
[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving
neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223
[11] Zhao G, Pietikainen M. Dynamic texture recognition
using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).
[12] Wang Y, See J, Phan R C W, et al. Lbp with six
intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537
[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal
contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612
關(guān)鍵詞:深度學(xué)習(xí);器材管理;深度信念網(wǎng)絡(luò);效率;損耗
1.引言
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的延伸和進(jìn)一步發(fā)展,它基于機(jī)器學(xué)習(xí),從廣義上講是機(jī)器學(xué)習(xí)的一種,但與機(jī)器學(xué)習(xí)有較大不同,深度學(xué)習(xí)的模型和人腦皮層結(jié)構(gòu)有較大相似,從某種意義上講,深度學(xué)習(xí)是智能學(xué)習(xí),可對復(fù)雜數(shù)據(jù)進(jìn)行有效處理[1]。深度學(xué)習(xí)模型既可以作為特征提取器,也可以用作特征分類器,并且二者可以同時(shí)應(yīng)用,直接得到想要的分類結(jié)果。器材有成千上萬種,每種器材的性能、數(shù)量、有效期、生產(chǎn)廠家這些基本要素Ю戳舜罅康氖據(jù),而深度學(xué)習(xí)應(yīng)用于大數(shù)據(jù)挖掘方面,實(shí)踐中已經(jīng)取得較好的效果。現(xiàn)在是一個(gè)“大數(shù)據(jù)+深度學(xué)習(xí)”的時(shí)代。本文研究在器材管理中如何運(yùn)用深度學(xué)習(xí),來探尋器材管理中蘊(yùn)含的內(nèi)在規(guī)律,通過得出的管理規(guī)則進(jìn)行器材管理,來提高器材管理的信息化水平。
2.深度學(xué)習(xí)的典型模型
深度學(xué)習(xí)基礎(chǔ)是受限玻爾茲曼機(jī)(RBM),玻爾茲曼機(jī)( BM)可以認(rèn)為是一種能量模型。即參數(shù)空間中每一種情況均有一個(gè)標(biāo)量形式的能量與之對應(yīng)。對全連通玻爾茲曼機(jī)進(jìn)行簡化,其限制條件是在給定可見層或者隱層中的其中一層后,另一層的單元彼此獨(dú)立,即為受限玻爾茲曼機(jī)。深度學(xué)習(xí)的典型模型主要有:自動編碼器(AE),卷積神經(jīng)網(wǎng)絡(luò)(CNN),深度信念網(wǎng)絡(luò)(DBN)三種[2]。
(1)自動編碼器
自編碼器的基本原理:將輸入的原始信號進(jìn)行編碼,使用編碼得到的新信號重建原始信號,求得重建的元信號與原始信號相比重建誤差最小。它的優(yōu)點(diǎn)是可以有效的提取信號中的主要特征,減少信息冗余,提高信息處理效率。模式分類中經(jīng)常用到的以下方法:K均值聚類、稀疏編碼、主成分分析等均可理解為是一個(gè)自動編碼器。
(2)卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)善于提取數(shù)據(jù)局部特征,模型復(fù)雜度較低,權(quán)值的數(shù)量較少,它組合局部感受野(滑動窗口)、權(quán)重共享(減少自由參數(shù)數(shù)量)、和空間或時(shí)間上的子采樣這3 種結(jié)構(gòu)去確保平移和變形上的不變性。
(3)深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)(DBN)主要采用貪婪逐層訓(xùn)練方法。簡言之通過預(yù)先訓(xùn)練與反向調(diào)節(jié)來訓(xùn)練整個(gè)DBN網(wǎng)絡(luò):在預(yù)先訓(xùn)練階段,先逐個(gè)訓(xùn)練每一個(gè)受限玻爾茲曼機(jī)RBM,逐層疊加,并將下一層的RBM 的輸出作為上一層RBM 的輸入; 在反向調(diào)節(jié)階段可以采用BP訓(xùn)練,通過誤差函數(shù)進(jìn)行反向調(diào)節(jié).
3.基于深度信念網(wǎng)絡(luò)(DBN)的器材管理方法
器材管理的目的是在最大器材利用率下所用資金最少,耗費(fèi)管理人員精力最少。從模型分析上來說,這是一個(gè)求最優(yōu)化模型的問題。深度信念網(wǎng)絡(luò)在求取最優(yōu)化方面具有一定的優(yōu)越性。深度信念網(wǎng)絡(luò)(DBN)的優(yōu)點(diǎn):(1)采用并行結(jié)構(gòu),可同時(shí)處理多組數(shù)據(jù),計(jì)算效率得到較大提升,對處理大數(shù)據(jù)有優(yōu)勢;(2)可以用較小的模型參數(shù)波動得到較高的分類結(jié)果,模型穩(wěn)定性較好[3]。
對器材管理者來說如何制定性價(jià)比最高的器材采購方案,最優(yōu)的器材下發(fā)方案,最優(yōu)的器材存儲方案是急需解決的三個(gè)問題。
器材采購方案:其制定主要基于器材的價(jià)格,儲存年限,采購批次,采購量,售后服務(wù)等因素,針對每種器材的上述指標(biāo)進(jìn)行量化打分,再根據(jù)每種器材的側(cè)重點(diǎn)分配量化系數(shù),整合成10種數(shù)據(jù)輸入。將這些數(shù)據(jù)輸入到訓(xùn)練好的深度信念網(wǎng)絡(luò)(DBN)中得出每種器材的采購點(diǎn)數(shù),根據(jù)點(diǎn)數(shù)決定采購的器材數(shù)量、品種、規(guī)格和型號。
器材的下發(fā)方案:器材的下發(fā)要考慮不同單位的需求,現(xiàn)有庫存情況,近期器材補(bǔ)充情況,近期大項(xiàng)工作需求情況,根據(jù)不同情況對不同單位,不同器材,具體工作設(shè)定不同顏色的標(biāo)簽,通過標(biāo)簽整合,將這些數(shù)據(jù)輸入到訓(xùn)練好的深度信念網(wǎng)絡(luò)(DBN)中得到具體的下?lián)芊桨浮?/p>
器材儲存方案:儲存主要包括使用單位庫存情況,倉庫庫存情況,供貨單位協(xié)議代儲情況,運(yùn)用深度信念網(wǎng)絡(luò)(DBN)對器材消耗情況進(jìn)行分析,進(jìn)而得出,單位庫存的數(shù)質(zhì)量,使用單位庫存的數(shù)質(zhì)量,供貨單位協(xié)議代儲數(shù)質(zhì)量,使三者處于一個(gè)最優(yōu)化狀態(tài),既不影響使用,又可降低庫存空間的需求,減少資金占用。
4. 實(shí)驗(yàn)結(jié)果
本文采用深度信念網(wǎng)絡(luò)(DBN)對1000種器材采購、運(yùn)輸、庫存、消耗使用以及不同品牌的通用器材采購成本進(jìn)行了實(shí)驗(yàn)分析,通過深度信念網(wǎng)絡(luò)(DBN)的優(yōu)化,采購效率提高10%,運(yùn)輸時(shí)間縮短20%,庫存量降低15%,使用消耗準(zhǔn)確度提高5%,采購成本降低18%。
5. 未來發(fā)展與展望
深度學(xué)習(xí)方法在器材管理中的應(yīng)用還處于初步探索之中,但是初步運(yùn)用表明,其在“大數(shù)據(jù)+云計(jì)算”時(shí)代,對提高器材管理的信息化水平具有較大的實(shí)用價(jià)值和經(jīng)濟(jì)價(jià)值,用于器材管理的深度學(xué)習(xí)模型,還較為簡單,還有進(jìn)一步發(fā)展的空間,實(shí)踐應(yīng)用中對器材數(shù)據(jù)特征的提取還有待加強(qiáng),只有深刻的理解器材管理的特征及需求,才能有針對性的建立模型,提高模型的可靠性和有效性。使器材管理水平更上一層樓,使器材管理跟上信息化發(fā)展的步伐。
參考文獻(xiàn):
[1] 孫志軍,薛磊,許陽明.基于深度學(xué)習(xí)的邊際Fisher分析特征提取算法[J].電子與信息學(xué)報(bào),2013,35(4):805-811.
[2] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究, 2012, 29( 8) : 2806 - 2810.
[3] 胡曉林,朱軍.深度學(xué)習(xí)―――機(jī)器學(xué)習(xí)領(lǐng)域的新熱點(diǎn)[J].中國計(jì)算機(jī)學(xué)會通訊, 2013,9( 7) : 64 - 69.
作者簡介:
康克成(1981.04-)河北昌黎人,研究生,碩士,工程師,中國人民92819部隊(duì),研究方向:信息與通信工程;
王強(qiáng)(1981.02-)山東膠州人,本科,助理工程師,中國人民92819部隊(duì),研究方向:裝備管理;
關(guān)鍵詞:邊緣檢測;邊緣;梯度算子
中圖分類號:TP391
邊緣檢測是圖像處理中最基本最經(jīng)典的技術(shù)問題之一,它對于圖像分析和圖像理解有著重要作用。因此,邊緣檢測在模式識別等高層次圖像處理領(lǐng)域有著重要的地位。然而由于圖像前期處理過程中的失誤易造成圖像的模糊和變形使得邊緣檢測很困難,這就要求研究性能更好的邊緣檢測算子。經(jīng)過多年的發(fā)展,到現(xiàn)在算法已有成百上千種。
邊緣為圖像中灰度發(fā)生急劇變化的區(qū)域邊界,兩個(gè)具有不同灰度值的相鄰區(qū)域之間總存在著邊緣,可以利用微分運(yùn)算方便地檢測到。人們提出了用圖像灰度分布的梯度來反映圖像灰度變化的微分邊緣算子,如1965年提出的Robert算子[1],在其基礎(chǔ)上改進(jìn)得到的Sobel算子、Prewitt算子和Kirsch算子等。這些算子由于計(jì)算量小和操作簡單在當(dāng)今使用較多,但易產(chǎn)生較寬的響應(yīng),故需作細(xì)化處理,影響了邊緣定位的精度。因而又產(chǎn)生了與邊緣方向無關(guān)的二階微分邊緣檢測算子,即Laplacian算子[2]。它利用圖像強(qiáng)度的二階導(dǎo)數(shù)零交叉點(diǎn)使邊緣的定位更準(zhǔn)確。
近年來隨著應(yīng)用的需要,傳統(tǒng)方法越來越難以滿足要求。針對這種情況,人們提出了許多新的邊緣檢測方法。這些新的方法利用各種新的理論工具對圖像進(jìn)行邊緣檢測,例如基于數(shù)學(xué)形態(tài)學(xué)的檢測技術(shù),借助統(tǒng)計(jì)學(xué)方法的檢測技術(shù)[4]、利用神經(jīng)網(wǎng)絡(luò)的檢測技術(shù)[5]、利用模糊理論的檢測技術(shù)[6]、利用信息論的檢測技術(shù)[7]、利用遺傳算法的檢測技術(shù)等得到了興起與發(fā)展,表現(xiàn)異?;钴S。
由于實(shí)際圖像中含有噪聲和物理和光照等原因,利用一種邊緣檢測算子不可能有效的檢測出這些邊緣,當(dāng)需要提取多空間范圍內(nèi)的變化特性時(shí),要考慮多算子的綜合應(yīng)用。因此,傳統(tǒng)的邊緣檢測算法檢測效果并不理想。
1 邊緣檢測的步驟
1.1 邊緣檢測的步驟
(1)濾波:邊緣和噪聲同屬于圖像中強(qiáng)度劇烈變化部位,因此噪聲對邊緣檢測有很大的影響,于是有必要使用濾波器來改善邊緣檢測算子的性能。
(2)增強(qiáng):增強(qiáng)邊緣的原理是確定圖像各點(diǎn)鄰域強(qiáng)度的變化值。增強(qiáng)算法可以將鄰域灰度值有顯著變化的點(diǎn)突顯出來。
(3)檢測:在圖像中,有許多點(diǎn)的梯度幅值比較大,而這些點(diǎn)并不都是邊緣,所以需要確定哪些點(diǎn)是真正的邊緣點(diǎn)。最簡單的辦法是利用梯度幅值的閾值作為判據(jù)。
(4)定位:邊緣定位即精確的確定邊緣點(diǎn)的具置。
圖像邊緣檢測的基本步驟如圖1所示:
1.2 邊緣檢測要求
對于圖像的邊緣檢測來說,一般在檢測過程中出現(xiàn)各種各樣的情況,導(dǎo)致誤差的出現(xiàn)。因此,對邊緣檢測有如下的要求:
(1)漏檢率與誤檢率較少。
(2)邊緣定位較準(zhǔn)確。
(3)對于每一個(gè)邊緣只有一個(gè)響應(yīng)。
2 經(jīng)典邊緣檢測算法
2.1 經(jīng)典邊緣檢測的基本算法
一階微分算子是通過梯度算子或一階導(dǎo)數(shù)算子估計(jì)圖像灰度變化的梯度方向,增強(qiáng)圖像中的灰度變化區(qū)域,然后將梯度值與給定的閾值進(jìn)行比較來確定具體的邊緣。
對于連續(xù)函數(shù) ,它在點(diǎn) 處的x方向,y方向和 方向的一階方向?qū)?shù)為:
它在點(diǎn) 處的梯度是一個(gè)矢量,即
梯度幅值為:
梯度方向角為:
基于上述理論人們提出了許多經(jīng)典算子的,如Sobel算子、Roberts算子、Prewitt算子等。但在實(shí)際應(yīng)用中,常常以圖像的一階差分運(yùn)算代替圖像的一階微分運(yùn)算。所有這些基于梯度的邊緣檢測算法主要有兩點(diǎn)區(qū)別:1)邊緣檢測算子的方向。2)在同一方向上近似圖像一階導(dǎo)數(shù)合成梯度算子的方式。
2.1.1 Sobel算子
Sobel是一種將方向差分運(yùn)算與局部平均相結(jié)合的邊緣檢測方法。它計(jì)算一個(gè)圖像強(qiáng)度的梯度近似值。該算子是在以(x,y)為中心的3 3鄰域上計(jì)算 的偏導(dǎo)數(shù)。為了抑制噪聲,給它的中心點(diǎn)加一個(gè)權(quán)重,則它的數(shù)字梯度近似等于下式:
梯度大小為:
它的卷積模板算子如下:
用以上模板與圖像進(jìn)行卷積運(yùn)算后,按照式9可以求出圖像的梯度幅度值g(x,y),然后選擇適當(dāng)?shù)拈撝礣,如果在(x,y)處g(x,y)>T,則此點(diǎn)為邊緣點(diǎn);否則為非邊緣點(diǎn)。
在較小的鄰域范圍內(nèi),Sobel算子比較理想,受噪聲的影響比較小。當(dāng)使用到大的鄰域時(shí),抗噪聲特性會更好,但計(jì)算量會增加,得出的邊緣較粗。因?yàn)榫植科骄?jì)算的原因,易產(chǎn)生誤檢,造成邊緣定位精度不夠高。因此,Sobel算子在精度要求不高的情況下,是一種不錯(cuò)的邊緣檢測算法。Sobel算子對噪聲具有平滑作用,提供較為精確的邊緣方向信息。如果它與其他的算法相結(jié)合可能會達(dá)到更好的檢測效果。
2.1.2 Canny算子
Canny邊緣檢測方法是通過計(jì)算圖像像素點(diǎn)的梯度,根據(jù)局部極值來獲得邊緣信息的方法。1986年,Canny通過對過去一系列邊緣檢測算子的方法和應(yīng)用,進(jìn)行總結(jié)分析,用數(shù)學(xué)的形式推導(dǎo)出最優(yōu)邊緣檢測算子。Canny認(rèn)為一個(gè)良好的邊緣檢測算法應(yīng)滿足以下幾點(diǎn)要求:
(1)定位能力好。檢測出的邊緣點(diǎn)盡可能落在實(shí)際圖像邊緣的中心。
(2)優(yōu)良的檢測性能。誤檢和漏檢的概率小。
(3)單一響應(yīng)。盡可能減少虛假邊緣的響應(yīng)和多個(gè)響應(yīng)的發(fā)生,最好是單一邊緣只產(chǎn)生一個(gè)響應(yīng)。
Canny邊緣檢測算法主要步驟:
第一步:平滑。使用高斯函數(shù)對待檢測圖像進(jìn)行平滑濾波處理,得到平滑圖像。
第二步:計(jì)算平滑圖像中每個(gè)像素點(diǎn)的局部梯度幅度值和邊緣方向。
第三步:對梯度進(jìn)行非極大值抑制。在梯度幅度的集合圖像中,在邊緣強(qiáng)度的極大值附近會產(chǎn)生屋脊帶。為了細(xì)化邊緣,尋找梯度幅值圖像中極大值的點(diǎn),并將所有非極大值的像素設(shè)為零。
第四步:得到圖像邊緣信息。給定兩個(gè)閾值T1和T2,T1
Canny邊緣檢測算子的缺點(diǎn)與改進(jìn):1)高斯濾波對于某些特定的噪聲效果不是很好,還有待改進(jìn),提供性能更好的自適應(yīng)去噪方法。2)雙閥值的參數(shù)是人為設(shè)定,不能根據(jù)圖像的邊緣特征來確定的,有可能對噪聲的抑制不是很好,同時(shí)也可能丟失邊緣信息,導(dǎo)致邊緣檢測效果是很理想,即對于不同的圖像不具有自適應(yīng)性。因此,有必要根據(jù)圖像的特征自適應(yīng)確定圖像的閥值來達(dá)到理想的檢測效果。3)在多角度上計(jì)算梯度。
3 基于形態(tài)學(xué)邊緣檢測
設(shè)g(x,y)為輸入圖像,E(x,y)表示圖像的邊緣函數(shù),f(x,y)為檢測算子。形態(tài)學(xué)中的膨脹會縮小圖像的背景區(qū)域,擴(kuò)張圖像的目標(biāo)區(qū)域;而腐蝕恰恰相反,它會擴(kuò)張背景區(qū)域,縮小目標(biāo)區(qū)域。根據(jù)這樣性質(zhì),可以構(gòu)造圖像的邊緣檢測算子如下:
灰度膨脹運(yùn)算表示: (11)
同理灰度腐蝕運(yùn)算表示: (12)
那么膨脹腐蝕型邊緣檢測算子可如下表示:
由以上的操作運(yùn)算,我們知道膨脹運(yùn)算會使圖像邊緣變的模糊,腐蝕運(yùn)算會使圖像邊緣信息損失一些細(xì)節(jié)信息。為了避免上述情況,對上述算子加以修改:
邊緣算子修正為:
邊緣算子改進(jìn)以后,添加了一些原圖像邊緣信息,也可能添加了一些噪聲。
4 神經(jīng)網(wǎng)絡(luò)邊緣檢測算法
為了檢測有256灰度值的灰度圖像的邊緣,可以考慮一個(gè)類似BP神經(jīng)網(wǎng)絡(luò)[3][9]的模型,該模型由8個(gè)子BP神經(jīng)網(wǎng)絡(luò)組成,每一個(gè)子網(wǎng)絡(luò)可以檢測2值圖像的邊緣。每一個(gè)子BP神經(jīng)網(wǎng)絡(luò)對應(yīng)灰度圖像的一個(gè)位平面。每個(gè)神經(jīng)網(wǎng)絡(luò)的輸出會根據(jù)每個(gè)位平面的權(quán)重做調(diào)整。8個(gè)位平面的權(quán)重依次為1/256、2/256、4/256、8/256、16/256、32/256、64/256、128/256。通過類似的模型,可以很精確的檢測出灰度圖像的邊緣。結(jié)構(gòu)如圖2所示:
5 總結(jié)
邊緣檢測是圖像處理領(lǐng)域中最基本的問題,也是圖像處理其他工作的基礎(chǔ)。如何準(zhǔn)確、快速地進(jìn)行邊緣檢測一直是圖像處理領(lǐng)域的熱點(diǎn)。一個(gè)邊緣檢測算法的好壞主要體現(xiàn)在能否做到以下兩點(diǎn):一是正確地檢測出所有邊緣并不出現(xiàn)偽邊緣;二是盡可能地抑制噪聲對圖像的影響,即去噪能力。通過上面的分析可知,前人提出的很多經(jīng)典算法,比如微分算子法,BP神經(jīng)網(wǎng)絡(luò)算法,基于形態(tài)學(xué)的檢測算法,基于關(guān)聯(lián)規(guī)則的檢測算法[8]等,對于現(xiàn)在邊緣檢測的要求而言,其效果都不是特別理想。這就需要我們尋找更好的算法,其研究更多的向多尺度、多領(lǐng)域、多方法融合的方向發(fā)展。
參考文獻(xiàn):
[1]岡薩雷斯.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2007:467-471.
[2]孫即祥.數(shù)字圖像處理[M].河北出版社,1993.
[3]Weiqing Li,Chengbiao Wang,Qun Wang,Guangshe Chen,An Edge Detection Method Based on Optimized BP Neural Network. ? 2008 IEEE DOI 10.1109/ISISE.2008,310.
[4]S.Konishi,A.Yuille and J.Coughlan.A statistical approach to multi-scale edge detection.Image and Vision Computing,2003,21:37-485.
[5]S.C.Douglas,T.H.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.
[6]D.S.Kim,W.H.Lee and I.S.Kweon.Automatic edge detection using 3*3 ideal binary pixel patterns and fuzzy-based edge thresholding.Pattern Recognition Letters,2004,25:101-106.
[7]Q.Tian,X.Li and N.M.Bilgutay.Multiple Target Detection Using Split Spectrum Processing and Group Delay Moving Entropy.IEEE Trans.On UFFC,1995,42(6):1075-1886.
[8]洪俊田,陶劍鋒,李剛.基于灰色關(guān)聯(lián)的數(shù)字圖像去噪研究[J].武漢理工大學(xué)學(xué)報(bào),2006,2:15-17.
[9[S.C.Douglas.TH.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.