公務(wù)員期刊網(wǎng) 精選范文 語音識(shí)別技術(shù)范文

語音識(shí)別技術(shù)精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的語音識(shí)別技術(shù)主題范文,僅供參考,歡迎閱讀并收藏。

語音識(shí)別技術(shù)

第1篇:語音識(shí)別技術(shù)范文

【關(guān)鍵詞】語音識(shí)別技術(shù);發(fā)展趨勢(shì)

語音識(shí)別是一門交叉學(xué)科。語音識(shí)別研究經(jīng)歷了50多年的研究歷程,經(jīng)過50多年的積累研究,獲得了巨大的進(jìn)展。特別是近20年來,語音識(shí)別技術(shù)取得了顯著的進(jìn)步,并逐步的走向市場(chǎng)。在未來的日子里,語音識(shí)別技術(shù)將應(yīng)用更為廣泛。

一、語音識(shí)別技術(shù)概述

語音識(shí)別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識(shí)別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來。以語音識(shí)別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和每個(gè)方面。

廣泛意義上的語音識(shí)別按照任務(wù)的不同可以分為4個(gè)方向:說話人識(shí)別、關(guān)鍵詞檢出、語言辨識(shí)和語音識(shí)別。說話人識(shí)別技術(shù)是以話音對(duì)說話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場(chǎng)合,只關(guān)注那些包含特定詞的句子,例如對(duì)一些特殊人名、地名的電話監(jiān)聽等。語言辨識(shí)技術(shù)是通過分析處理一個(gè)語音片斷以判別其所屬語言種類的技術(shù),本質(zhì)上也是語音識(shí)別技術(shù)的一個(gè)方面。語音識(shí)別就是通常人們所說的以說話的內(nèi)容作為識(shí)別對(duì)象的技術(shù),它是4個(gè)方面中最重要和研究最廣泛的一個(gè)方向,也是本文討論的主要內(nèi)容。

二、語音識(shí)別的研究歷史

語音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。

1959年,Rorgie和Forge采用數(shù)字計(jì)算機(jī)識(shí)別英文元音和孤立詞,從此開始了計(jì)算機(jī)語音識(shí)別。

60年代,蘇聯(lián)的Matin等提出了語音結(jié)束點(diǎn)的端點(diǎn)檢測(cè),使語音識(shí)別水平明顯上升;Vintsyuk提出了動(dòng)態(tài)編程,這一提法在以后的識(shí)別中不可或缺。60年代末、70年代初的重要成果是提出了信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),有效地解決了語音信號(hào)的特征提取和不等長(zhǎng)語音匹配問題;同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代語音識(shí)別研究進(jìn)一步走向深入:HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識(shí)別中成功應(yīng)用。1988年,F(xiàn)ULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語音識(shí)別系統(tǒng)。

進(jìn)入90年代后,語音識(shí)別技術(shù)進(jìn)一步成熟,并開始向市場(chǎng)提品。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。同時(shí)漢語語音識(shí)別也越來越受到重視。IBM開發(fā)的ViaVoice和Microsoft開發(fā)的中文識(shí)別引擎都具有了相當(dāng)高的漢語語音識(shí)別水平。

進(jìn)入21世紀(jì),隨著消費(fèi)類電子產(chǎn)品的普及,嵌入式語音處理技術(shù)發(fā)展迅速[2]。基于語音識(shí)別芯片的嵌入式產(chǎn)品也越來越多,如Sensory公司的RSC系列語音識(shí)別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語音識(shí)別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語音識(shí)別系統(tǒng)。

三、語音識(shí)別技術(shù)的發(fā)展現(xiàn)狀

語音識(shí)別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號(hào)的平均識(shí)別率可以達(dá)到90%以上。正式有了如此高的識(shí)別率之后,語音識(shí)別技術(shù)慢慢地從實(shí)驗(yàn)室演示系統(tǒng)逐步走向?qū)嵱没唐?。以IBM Via Voice和Dragon Dictation為代表的兩個(gè)聽寫機(jī)系統(tǒng)的出現(xiàn),使“語音識(shí)別”逐步進(jìn)入大眾視線,引起了廣泛的社會(huì)關(guān)注。

由于校對(duì)和更正識(shí)別的錯(cuò)誤很麻煩和浪費(fèi)時(shí)間,這樣便降低語音識(shí)別的優(yōu)勢(shì)。同時(shí),由于使用的環(huán)境或講話口音習(xí)慣等因素的影響,語音識(shí)別的內(nèi)容大大降低,識(shí)別的內(nèi)容不能達(dá)到100%的正確,所以很多人認(rèn)為目前的語音識(shí)別系統(tǒng)還無法滿足實(shí)用要求。

目前,AT&T和MIT等將語音識(shí)別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動(dòng)轉(zhuǎn)接、電話查詢、數(shù)字串識(shí)別的任務(wù)中,當(dāng)講話的內(nèi)容是系統(tǒng)所存儲(chǔ)的內(nèi)容存在的,且使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時(shí),語音識(shí)別的正確識(shí)別率可以接近100%。但是,在實(shí)際使用中如果這些條件被破壞,則會(huì)對(duì)識(shí)別系統(tǒng)造成一定的影響。

我國的語音識(shí)別研究一直緊跟國際水平,國家也很重視。國內(nèi)中科院的自動(dòng)化所、聲學(xué)所以及清華大學(xué)等科研機(jī)構(gòu)和高校都在從事語音識(shí)別領(lǐng)域的研究和開發(fā)。國家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),并取得了高水平的科研成果。我國中科院自動(dòng)化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機(jī)對(duì)話系統(tǒng),其準(zhǔn)確率和系統(tǒng)響應(yīng)率均可達(dá)90%以上。

四、語音識(shí)別技術(shù)發(fā)展趨勢(shì)

語音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù)。隨著計(jì)算機(jī)和語音處理技術(shù)的發(fā)展,語音識(shí)別系統(tǒng)的實(shí)用性將進(jìn)一步提高。應(yīng)用語音的自動(dòng)理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識(shí)別產(chǎn)品的應(yīng)用,如聲控?fù)芴?hào)電話、語音記事本等,基于特定任務(wù)和環(huán)境的聽寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。這預(yù)示著語音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。隨著語音技術(shù)的進(jìn)步和通信技術(shù)的飛速發(fā)展,語音識(shí)別技術(shù)將為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來極大的便利,其應(yīng)用和經(jīng)濟(jì)、社會(huì)效益前景非常良好.

雖然語音識(shí)別在過去的20年里有了很大的發(fā)展,但是,仍然存在很多的不足,有待于進(jìn)一步的探索,具體可分為以下幾個(gè)方面:

1.提高可靠性。語音識(shí)別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在比較嘈雜的公共環(huán)境中,人的意識(shí)會(huì)有意識(shí)的排除非需要的聲學(xué)環(huán)境因素,這對(duì)語音識(shí)別系統(tǒng)而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習(xí)慣。這同樣會(huì)給語音識(shí)別系統(tǒng)很大的識(shí)別麻煩。目前,在提高語音系統(tǒng)在不同環(huán)境中的可靠性,同時(shí)要應(yīng)用現(xiàn)代技術(shù)讓語音識(shí)別系統(tǒng)更加智能化,掌握人們語言隨意性的部分規(guī)律,以達(dá)到最佳的識(shí)別效果。

2.增加詞匯量。系統(tǒng)可以識(shí)別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個(gè)重要度量。一個(gè)語音識(shí)別系統(tǒng)使用的聲學(xué)模型和語音模型如果太過于局限,當(dāng)用戶所講的詞匯超出系統(tǒng)已知的范圍時(shí),則語音識(shí)別系統(tǒng)不能準(zhǔn)確的識(shí)別出相應(yīng)的內(nèi)容,比如,當(dāng)突然從中文轉(zhuǎn)為英文、法文、俄文時(shí),計(jì)算機(jī)就會(huì)常常輸出混亂奇怪的結(jié)果。但是,隨著系統(tǒng)建模方法的不斷改進(jìn)、搜索算法效率的提高以及硬件資源的發(fā)展,未來的語音識(shí)別系統(tǒng)可能會(huì)做到詞匯量無限制和多種語言混合,這樣用戶在使用的時(shí)候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對(duì)語音識(shí)別系統(tǒng)的限制。

3.應(yīng)用拓展。語音識(shí)別技術(shù)可以用于把費(fèi)腦、費(fèi)力、費(fèi)時(shí)的機(jī)器操作變成一件很容易很有趣味性的事,比如,當(dāng)人們出現(xiàn)手忙、手不能及以及分身無術(shù)的場(chǎng)景時(shí),通過語音識(shí)別系統(tǒng)的模型構(gòu)造,則能夠在象駕駛室、危險(xiǎn)的工業(yè)場(chǎng)合、遠(yuǎn)距離信息獲取、家電控制等各個(gè)方面,語音識(shí)別技術(shù)可能帶動(dòng)一系列嶄新或更便捷功能的設(shè)備出現(xiàn),更加方便人的工作和生活。其應(yīng)用的范圍和前景非常廣泛。不僅能夠應(yīng)用于日常生活,更重要的會(huì)帶來生產(chǎn)方式的革命,是下一代智能化控制的基礎(chǔ)。

第2篇:語音識(shí)別技術(shù)范文

語音識(shí)別技術(shù)的應(yīng)用

與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是我們長(zhǎng)期以來夢(mèng)寐以求的事情。而提起語音識(shí)別.我們最容易想到的還要數(shù)不會(huì)講笑話的Siri。

作為世界上第一家上市的語音識(shí)別公司,Siri的“娘家”Nuance有著輝煌的歷史,曾經(jīng)在語音領(lǐng)域一統(tǒng)江湖。蘋果iPhone手機(jī)的虛擬語音助手Siri、三星的語音助手S-Voice.各大航空公司和頂級(jí)銀行的自動(dòng)呼叫中心和虛擬在線語音助手,都采用了Nuance的技術(shù)。近年來,Nuance的語音識(shí)別技術(shù)已經(jīng)從實(shí)驗(yàn)室走向市場(chǎng),將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。

在智能車載領(lǐng)域,Nuance定制的汽車級(jí)語音平臺(tái)Dragon Drive獲得了201 5CES創(chuàng)新大獎(jiǎng),通過將車載平臺(tái)與手機(jī)連接,Nuance可以幫用戶實(shí)現(xiàn)語音控制GPS導(dǎo)航、信息收發(fā)、電話接打、社交網(wǎng)絡(luò)更新等等。

在前一段時(shí)間,Nuance在其官方博客上,公布了將發(fā)力醫(yī)療領(lǐng)域的消息。消息中說,Nuance在醫(yī)療領(lǐng)域進(jìn)軍,不僅僅通過智能手表追蹤運(yùn)動(dòng)情況和心率,還將會(huì)直接根據(jù)人的身體狀況匹配相應(yīng)的服務(wù),如合適的餐廳或食物等,當(dāng)然這些大多是基于可穿戴設(shè)備的。另外他們還考慮到更多場(chǎng)景.諸如緊急語音求助、醫(yī)患對(duì)話存檔、呼叫中心的對(duì)話聽寫等。

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,以及手機(jī)等移動(dòng)終端的普及應(yīng)用,目前可以從多個(gè)渠道獲取大量文本或語音方面的語料,這為語音識(shí)別中的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語言模型和聲學(xué)模型成為可能。在語音識(shí)別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。從Nuance向醫(yī)療領(lǐng)域發(fā)力看出,由于醫(yī)療領(lǐng)域詞匯庫專業(yè)性強(qiáng)演變性弱,只要建立完整的數(shù)據(jù)庫,就可以做到對(duì)疾病名稱、藥品名稱相對(duì)精確的識(shí)別。

如今國內(nèi)也有了相應(yīng)的應(yīng)用如支持語音搜索功能的病歷夾與珍立拍,致力于為醫(yī)生提供一個(gè)安全存儲(chǔ)病歷資料的云空間,方便查找病例。而科大訊飛、云知聲、盛大、捷通華聲、中科信利、尚科語音、搜狗語音助手、紫冬口譯、騰訊語音、百度語音等都日漸被用戶習(xí)慣的系統(tǒng),都采用了最新的語音識(shí)別技術(shù),市面上其他相關(guān)的產(chǎn)品也直接或間接嵌入了類似的技術(shù)。

從打字到語音的習(xí)慣改變

隨著語音識(shí)別在移動(dòng)終端上的應(yīng)用越來越火熱,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。

騰訊、百度都建立了自己的語音團(tuán)隊(duì),在移動(dòng)搜索領(lǐng)域發(fā)力 隨著吳恩達(dá)加盟,擔(dān)任首席科學(xué)家,負(fù)責(zé)百度研究院,百度看起來更加高大上了許多。吳恩達(dá)的研究領(lǐng)域就是機(jī)器學(xué)習(xí)和人工智能,研究重點(diǎn)是深度學(xué)習(xí)。深度學(xué)習(xí)被認(rèn)為是當(dāng)前的機(jī)器學(xué)習(xí)算法里最接近人腦思維的一種。在語音識(shí)別方面,會(huì)對(duì)互聯(lián)網(wǎng)、家用電器帶來很大的改革在百度Big Talk2015年第一期公開課上,吳恩達(dá)說,“語音會(huì)是改革互聯(lián)網(wǎng)的很大一個(gè)因素。語音識(shí)別會(huì)推動(dòng)物聯(lián)網(wǎng)的革命,比如汽車界面、家用設(shè)備,以及可穿戴設(shè)備。在這方面,特別是在移動(dòng)互聯(lián)網(wǎng)方面,中國其實(shí)領(lǐng)先于美國和其他國家很多?!?/p>

今天國內(nèi)的很多用戶都會(huì)使用語音搜索,如年幼的用戶、年齡大的用戶,或文化程度不高的用戶,對(duì)于他們來說,用語音搜索或許是可以讓我們知道他們需求的唯一方式。因此,語音對(duì)話機(jī)器人、語音助手互動(dòng)工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開此方面的研究和應(yīng)用,目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。比如搜狗在移動(dòng)搜索領(lǐng)域“發(fā)聲”,推出“微信頭條”功能宣稱可以根據(jù)用戶興趣變化,來智慧地滿足用戶的差異化閱讀需求。

第3篇:語音識(shí)別技術(shù)范文

一、簡(jiǎn)述移動(dòng)電子商務(wù)存在的安全問題

無線通信網(wǎng)絡(luò)在創(chuàng)造移動(dòng)電子商務(wù)時(shí),也帶來一系列不安全的因素,例如黑客竊聽、盜取信息、篡改用戶信息等。同時(shí),有關(guān)法律法規(guī)的不夠完善也嚴(yán)重制約著移動(dòng)電子商務(wù)的快速發(fā)展。

1.竊聽用戶信息

過去的電子商務(wù)中,入侵者可以運(yùn)用有線網(wǎng)絡(luò),進(jìn)一步實(shí)施有關(guān)的竊聽工作,因此,極易判定入侵者的具置和信息。在無線網(wǎng)絡(luò)環(huán)境下,進(jìn)行追蹤比較困難,因此在無線網(wǎng)絡(luò)環(huán)境下,入侵者如果具備網(wǎng)卡或相關(guān)的無線設(shè)備從任何地點(diǎn)都能進(jìn)入無線網(wǎng)絡(luò)中。

2.黑客篡改用戶信息

篡改用戶信息的情況在無線電子商務(wù)中非常普遍,如果非法用戶采用無線通信網(wǎng)絡(luò)獲取用戶的交易信息,可以隨意把篡改或刪除信息發(fā)送出去,這會(huì)給用戶帶來很大的損失。黑客也可以截取用戶的登陸名稱或密碼,從而竊取用戶的合法賬號(hào)。

二、語音識(shí)別技術(shù)在移動(dòng)電子商務(wù)中的應(yīng)用

1.創(chuàng)建安全模型

本文設(shè)計(jì)的安全模式,是以語音識(shí)別技術(shù)為基礎(chǔ),創(chuàng)建移動(dòng)電子商務(wù)安全模型。該系統(tǒng)包含移動(dòng)設(shè)備用戶、語音服務(wù)提供商、移動(dòng)電子商務(wù)企業(yè)三個(gè)部分組合而成??蛻舳溯斎氲恼Z音信息先讓移動(dòng)電子商務(wù)企業(yè)接收,隨之傳送至語音服務(wù)提供商進(jìn)行處理。設(shè)計(jì)的模型主要表現(xiàn)在儲(chǔ)存語音信息、進(jìn)行語音識(shí)別、及時(shí)更新、傳輸安全四個(gè)方面,從而有效保障電子商務(wù)交易的安全運(yùn)行。

2.安全模型的各項(xiàng)功能

(1)存儲(chǔ)語音信息

在無線電子商務(wù)實(shí)際交易時(shí),全部的語音信息會(huì)先存在移動(dòng)電子商務(wù)企業(yè)的語音數(shù)據(jù)庫內(nèi),移動(dòng)電子商務(wù)企業(yè)把用戶讀入的信息轉(zhuǎn)換為數(shù)字符號(hào),存入專業(yè)的語音數(shù)據(jù)內(nèi)并標(biāo)明用戶名稱、時(shí)間等信息,從而更好的標(biāo)識(shí)語音信息。移動(dòng)電子商務(wù)企業(yè)把新增加的語音信息發(fā)送到語音服務(wù)提供商,由他們對(duì)這一段語音信息給予相應(yīng)的處理,成功獲取這段語音特征之后,自行把特征信息輸送到移動(dòng)電子商務(wù)企業(yè)的語音特征數(shù)據(jù)庫內(nèi),并標(biāo)明相對(duì)應(yīng)的用戶名稱、時(shí)間等信息,隨之進(jìn)一步展開語音識(shí)別。從上述的分析可知,對(duì)用戶輸入的語音信號(hào)進(jìn)行去噪、提取特征先是由語音服務(wù)提供商進(jìn)程處理。語音服務(wù)提供商把語音信息傳輸給電子商務(wù)企業(yè)的語音特征數(shù)據(jù)庫之后,電子商務(wù)企業(yè)系統(tǒng)會(huì)先對(duì)語音特征是否已經(jīng)出現(xiàn)在數(shù)據(jù)庫中,如果查詢獲知該用戶名存在,表明數(shù)據(jù)庫已經(jīng)詳細(xì)記錄該用戶的語音信息;隨后把新錄入的語音特征與上一次最新的語音特征展開比較。若兩次語音特征一致,表明該語音順利通過系統(tǒng)識(shí)別,證明用戶的身份合法。同時(shí),由于語音并不是獨(dú)特或唯一的,進(jìn)行語音識(shí)別時(shí)極易受到外界環(huán)境的干擾,對(duì)確定語音識(shí)別發(fā)生源非常困難。此時(shí),可以使用相關(guān)技術(shù)在服務(wù)器端設(shè)置聲吶裝置,當(dāng)用戶進(jìn)行語音識(shí)別驗(yàn)證過程中,憑借超聲波判定發(fā)生源體積的大小。但該設(shè)備無法安裝在客戶端上,如果這樣非法用戶可以把客戶端的聲吶設(shè)備拆卸下來,從而致使發(fā)生源可信度降低。

(2)及時(shí)更新語音特征

移動(dòng)電子商務(wù)企業(yè)不僅僅要接受輸入的語音信息,同時(shí)要及時(shí)更新語音特征,從而提升語音識(shí)別的準(zhǔn)確度。具體實(shí)施步驟如下:首先必須具備充足的歷史信息才能有效總結(jié)新的規(guī)律。移動(dòng)電子商務(wù)企業(yè)可以建立定時(shí)查看用戶語音特征的系統(tǒng),如果系統(tǒng)檢測(cè)到語音特征數(shù)據(jù)庫共出現(xiàn)30余條相同用戶名的語音特征,系統(tǒng)會(huì)自動(dòng)對(duì)語音特征展開比較,從而找尋其中的差別,最后獲取新的語音特征。把新的語音特征作為21條語音特征輸入語音特征數(shù)據(jù)庫內(nèi),之后發(fā)送到相關(guān)企業(yè)數(shù)據(jù)庫內(nèi)。若看到某一用戶名下語音特征多于20條,運(yùn)用這一信息數(shù)除以20,如果得出的余數(shù)是0,在采用最新的20條信息按照上述的步驟進(jìn)行處理。運(yùn)用上述方法對(duì)語音特征進(jìn)行更新。

(3)傳輸語音信息

由于無線網(wǎng)絡(luò)具有開放性的特征,因此網(wǎng)絡(luò)的通信安全極易受到威脅。不管是移動(dòng)電子商務(wù)企業(yè)把語音信息傳輸出去,還是語音服務(wù)提供商對(duì)語音特征進(jìn)行處理,把其傳送給無線電子商務(wù)企業(yè)中,不可避免會(huì)遭受黑客的竊聽和篡改,保護(hù)語音信息的安全性和完整性顯得尤為重要??梢圆捎眯畔㈦[藏技術(shù)對(duì)語音信息進(jìn)行加密操作,用來隱藏的載體可以是圖像或者一段音樂。若使用圖像,要先把圖像轉(zhuǎn)換為相對(duì)應(yīng)的格式,隨之把語音特征信息或語音信息轉(zhuǎn)換為該格式,把信息的開頭、結(jié)尾、內(nèi)容信息標(biāo)記后插入其中,保障圖片信息不會(huì)改變。隨后把圖片和經(jīng)過加密的信息標(biāo)記格式一次發(fā)送給相關(guān)的企業(yè)或解碼系統(tǒng),解碼系統(tǒng)在受到信息標(biāo)記格式之后,把圖片信息的語音特征讀入相對(duì)應(yīng)的數(shù)據(jù)庫內(nèi)。同時(shí),解密系統(tǒng)可以依照標(biāo)記的信息開頭、結(jié)判定信息的完整性,有效阻止黑客竊聽和篡改信息。

第4篇:語音識(shí)別技術(shù)范文

關(guān)鍵詞:語音識(shí)別;CHMM模型;特征參數(shù)選擇

中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A

1 引言

在語音識(shí)別的三大算法中CHMM算法的高識(shí)別率是以大計(jì)算量和大存儲(chǔ)量為代價(jià)的,在基于嵌入式技術(shù)的語音識(shí)別系統(tǒng)或具有較強(qiáng)實(shí)時(shí)性要求的語音識(shí)別系統(tǒng)等特殊情況下,系統(tǒng)的資源和計(jì)算能力往往受到較大的限制,在保證一定識(shí)別率情況下減少識(shí)別算法對(duì)系統(tǒng)存儲(chǔ)與計(jì)算資源的需求,具有重要意義。而語音識(shí)別系統(tǒng)的性能與系統(tǒng)所采用的特征參數(shù)密切相關(guān),這就為我們利用特征參數(shù)的選取來實(shí)現(xiàn)系統(tǒng)識(shí)別性能與計(jì)算資源需求之間的折衷處理成為可能。目前,有很多文獻(xiàn)做了各類特征參數(shù)對(duì)識(shí)別效果影響程度的研究工作,卻沒有討論同一種類參數(shù)分量的問題;則通過對(duì)相鄰分量的組合,用實(shí)驗(yàn)結(jié)果說明了MFCC分量的相對(duì)重要性,但他們都僅用實(shí)驗(yàn)結(jié)果加以說明,缺乏理論分析。

本文從CHMM模型的特點(diǎn)出發(fā):一方面從理論上給出了選擇特征參數(shù)的數(shù)學(xué)依據(jù),另一方面提出根據(jù)特征參數(shù)對(duì)系統(tǒng)誤識(shí)率的影響程度,選擇特征參數(shù)的方法。

2 基于CHMM模型特征參數(shù)選擇的理論分析

CHMM的Gauss概率密度函數(shù)的協(xié)方差矩陣本來應(yīng)該是對(duì)稱的滿矩陣,為了降低對(duì)計(jì)算復(fù)雜度和存儲(chǔ)量的要求,一般簡(jiǎn)化為對(duì)角矩陣。采用對(duì)角協(xié)方差陣使模型的參數(shù)減少,也有利于避免因訓(xùn)練樣本不足而影響模型參數(shù)估計(jì)的可靠性。而且實(shí)驗(yàn)結(jié)果表明,概率密度函數(shù)的個(gè)數(shù)較多且取對(duì)角協(xié)方差陣的方案優(yōu)于概率密度函數(shù)較少且取滿元協(xié)方差陣的方案。所以,實(shí)際中一般使用具有對(duì)角協(xié)方差陣的Gauss概率密度函數(shù)。CHMM計(jì)算

的特征矢量。通常,人們使用MFCC+AMFCC或LPCC+ALPCC作為特征矢量,即將MFCC、AMFCC、LPCC、ALPCC作為整體來處理。需要注意的是MFCC和LPCC雖然分別有其完整的物理意義,即Mel刻度聽覺參數(shù)的同態(tài)變換系數(shù)和聲道參數(shù),將他們的各個(gè)分量獨(dú)立考慮會(huì)破壞其物理意義的完整性,但在基于對(duì)角協(xié)方差陣的CHMM的模型中,各個(gè)分量相互獨(dú)立,從而使得我們可以根據(jù)各個(gè)分量的重要性來選擇分量,構(gòu)成特征矢量以減少計(jì)算量。另一方面,由于舍去的是對(duì)誤識(shí)率影響較小的分量,所以系統(tǒng)的識(shí)別效果不會(huì)顯著改變,從而充分有效的利用了特征矢量的區(qū)分特性。在減少計(jì)算量的同時(shí),保證了識(shí)別率。

3 CHMM算法計(jì)算量與存儲(chǔ)量的分析

3.1 MFCC、AMFCC求取

目前,在語音識(shí)別系統(tǒng)中,最常用就是具有較好抗噪性能的MFCC+AMFCC參數(shù)。其求取步驟為:1)對(duì)預(yù)處理后的每一幀語音信號(hào)先進(jìn)行快速傅里葉變換以獲得頻譜分布信息2)然后將頻域信號(hào)通過一組三角濾波器,中心頻率在Mel刻度上均勻分布3)求出每個(gè)濾波器的輸出對(duì)數(shù)能量4)對(duì)其進(jìn)行離散余弦變換得MFCC5)對(duì)MFCC求差分得AMFCC

3.2 計(jì)算量與存儲(chǔ)量的分析

設(shè)CHMM模型采用N個(gè)狀態(tài)、M階混合Gauss概率密度函數(shù)的Markov鏈;特征矢量維數(shù)為n;訓(xùn)練數(shù)據(jù)為l遍語音數(shù)據(jù),為方便表示設(shè)每遍語音數(shù)據(jù)幀數(shù)為T,模型庫容量為R。訓(xùn)練:①每次參數(shù)迭代前計(jì)算

數(shù)下降N*M*T*R*K次;模板庫中Gauss概率密度函數(shù)參數(shù)個(gè)數(shù)減少N*M*R*2*K個(gè)。

4 實(shí)驗(yàn)及其結(jié)果分析

實(shí)驗(yàn)數(shù)據(jù):6個(gè)女性發(fā)音,0~9十個(gè)數(shù)字,每個(gè)數(shù)字發(fā)音50次,其中30次用于建立CHMM模型;實(shí)驗(yàn)?zāi)P瓦x擇:采用六個(gè)狀態(tài)的從左到右的無跨越的4階混合Gauss概率密度函數(shù)的CHMM模型,端點(diǎn)檢測(cè)方法選擇經(jīng)典的雙門限方法。

實(shí)驗(yàn)Ⅰ 在MFCC+AMFCC中去掉某一分量找到對(duì)誤識(shí)率影響較大的分量(見表1)。

實(shí)驗(yàn)Ⅱ 在MFCC+AMFCC中去掉對(duì)誤識(shí)率影響小的分量,找到最佳(見表2)。

從實(shí)驗(yàn)結(jié)果可以看出,在CHMM模型上采用MFCC1、MFCC2、MFCC4、MFCC5、MFCC7、MFCC8、MFCC10、MFCC11、MFCCi(i≠11)組成19維的特征矢量,系統(tǒng)的誤識(shí)率僅上升2.75%,即系統(tǒng)的識(shí)別率仍有95.75%,可以滿足實(shí)際需要。而模板庫參數(shù)個(gè)數(shù)下降2400個(gè);同時(shí)在訓(xùn)練中N(U,σ2)的計(jì)算次數(shù)減少了41,834,880*K次(K為迭代次數(shù));匹配時(shí)N(u,σ2)的計(jì)算次數(shù)減少1200*T次(T為待識(shí)語音幀數(shù))。實(shí)驗(yàn)結(jié)果表明:與常規(guī)的24維MFCC+MFCC相比,選擇其中對(duì)識(shí)別率貢獻(xiàn)大的主要分量構(gòu)成的低維特征矢量,系統(tǒng)在訓(xùn)練、識(shí)別過程中N(u,σ2)的計(jì)算次數(shù)和模板庫參數(shù)個(gè)數(shù)明顯下降,而系統(tǒng)誤識(shí)率僅略微上升。

5 結(jié)論

第5篇:語音識(shí)別技術(shù)范文

關(guān)鍵詞 數(shù)字識(shí)別;圖像預(yù)處理;特征提??;神經(jīng)網(wǎng)絡(luò)

引言

目前,識(shí)別技術(shù)已經(jīng)廣泛地應(yīng)用到了各個(gè)領(lǐng)域中。為了達(dá)到對(duì)一幅圖像中的數(shù)字進(jìn)行識(shí)別的目的,我們要對(duì)圖像進(jìn)行一些處理,這些處理工作的好壞直接決定了識(shí)別的質(zhì)量,這些處理技術(shù)依次為圖像的讀取、對(duì)讀取的圖像進(jìn)行灰度變換、按照量化指標(biāo)對(duì)灰度變換后的圖像進(jìn)行二值化、然后對(duì)二值化后的圖像中的字符信息進(jìn)行切分等。在進(jìn)行完上述預(yù)處理工作后進(jìn)行特征提取,再輸入到已經(jīng)訓(xùn)練好的BP網(wǎng)絡(luò)進(jìn)行識(shí)別。

1 識(shí)別的流程

識(shí)別的流程按照引言中的步驟進(jìn)行,主要分為兩大部分,第一部分為圖像的預(yù)處理、第二部分為通過神經(jīng)網(wǎng)絡(luò)進(jìn)行印刷體數(shù)字的識(shí)別。預(yù)處理部分的流程:圖像輸入-灰度變換-圖像二值化-緊縮重排-歸一化調(diào)整-圖像分割-特征提取。神經(jīng)網(wǎng)絡(luò)數(shù)字識(shí)別的具體流程:樣本訓(xùn)練-字符特征輸入-識(shí)別并給出結(jié)果。

2 基于神經(jīng)網(wǎng)絡(luò)的特征提取算法概述

圖像在經(jīng)過了前期的預(yù)處理后,由原來雜亂無章的字符變?yōu)榱苏R排列的、大小相同的一列字符,在這里圖像歸一化后的寬度為8像素,高度為16像素,這樣就大大方便了對(duì)字符特征的提取。我們把提取的特征存儲(chǔ)在特征向量里,然后把特征向量輸入到神經(jīng)網(wǎng)絡(luò)中,這樣就可以對(duì)字符進(jìn)行識(shí)別了。由以上的論述我們可以得出結(jié)論,特征提取的算法是整個(gè)識(shí)別過程的關(guān)鍵,它的好壞直接決定了識(shí)別的成敗。對(duì)圖像中的字符進(jìn)行特征提取的算法有很多,下面對(duì)幾種重要的分別進(jìn)行介紹。

2.1骨架特征提取法

由于圖像的來源不同,這就使得圖像的線條所使用的像素不同,在圖像上表現(xiàn)出來就是線條的粗細(xì)的不同,這樣就使得它們的差別很大。如果我們將不同的圖像統(tǒng)一到相同的像素水平,那么它們的差別也就不那么明顯了。我們使用骨架特征提取算法,就會(huì)使得識(shí)別具有一定的適應(yīng)廣度和寬度。

2.2逐像素特征提取法

這種圖像的特征提取算法是最為常用的方法,它的特點(diǎn)是能夠保留圖像中的全部特征信息,不過這種特征提取算法對(duì)圖像的噪聲較為敏感,對(duì)原始圖像的質(zhì)量要求較高,它采用逐行掃描的辦法,對(duì)圖像進(jìn)行掃描,為整個(gè)圖像建立一個(gè)以圖像中的像素個(gè)數(shù)相同的特征向量矩陣。矩陣值為0或1,圖像中的黑色像素記為1,白色像素記為0。

2.3垂直方向數(shù)據(jù)統(tǒng)計(jì)特征提取法

此算法是對(duì)逐像素提取算法的改進(jìn),他使得特征向量矩陣的維數(shù)降低,便于后期的識(shí)別。該算法首先對(duì)圖像進(jìn)行水平掃描,在這一過程中,統(tǒng)計(jì)沒一列的黑色像素?cái)?shù),然后進(jìn)行對(duì)圖像進(jìn)行垂直掃描,并記錄每一行上的黑色像素?cái)?shù),對(duì)于一個(gè)字符寬度和長(zhǎng)度為W和H的字符,他的特征向量的維數(shù)就為W+H。

2.4特征點(diǎn)提取法

這一特征提取算法首先對(duì)字符進(jìn)行分割,利用實(shí)現(xiàn)設(shè)定的四條線將字符分為八個(gè)部分,分別統(tǒng)計(jì)每個(gè)部分中黑色像素的數(shù)目,可以得到八個(gè)特征。然后統(tǒng)計(jì)水平和垂直兩個(gè)方向上,穿過四條線的黑色像素?cái)?shù),得到四個(gè)特征,最后將整個(gè)圖像中黑色像素的數(shù)目作為一個(gè)特征,一共得到十三個(gè)特征。該方法具有很強(qiáng)的適應(yīng)性,但是由于特征點(diǎn)較少,使得在樣本的訓(xùn)練過程中很難收斂。

可以看出,識(shí)別算法各有特點(diǎn),根據(jù)實(shí)踐需要,本識(shí)別算法中的特征提取算法采用逐像素特征提取法。原因是這種算法的執(zhí)行效率高,方法簡(jiǎn)單容易實(shí)現(xiàn),且對(duì)于神經(jīng)網(wǎng)絡(luò)來說有很快的收斂性,具有較好的訓(xùn)練效果。

3 BP網(wǎng)絡(luò)進(jìn)行數(shù)字識(shí)別算法設(shè)計(jì)

BP網(wǎng)中中各層中的節(jié)點(diǎn)數(shù)是設(shè)計(jì)BP網(wǎng)絡(luò)最基本的一點(diǎn),對(duì)于神經(jīng)網(wǎng)絡(luò)的輸入層而言,其節(jié)點(diǎn)數(shù)為經(jīng)過圖像預(yù)處理里后特征向量的維數(shù)??梢灾苯永妹總€(gè)點(diǎn)的像素值作為特征,這里特征提取采用逐像素提取法,歸一化后圖像的寬度為8,高度為16,因此對(duì)于輸入樣本來說,每一個(gè)樣本都會(huì)由128個(gè)特征,因此神經(jīng)網(wǎng)絡(luò)的輸入層的特征數(shù)為128。

對(duì)于神經(jīng)網(wǎng)絡(luò)內(nèi)部隱藏層的節(jié)點(diǎn)數(shù)來說,其節(jié)點(diǎn)數(shù)沒有特別的規(guī)定,總的來說,隱藏層的神經(jīng)元的數(shù)目與神經(jīng)網(wǎng)絡(luò)的精度成正比,與訓(xùn)練時(shí)間成反比。如果神經(jīng)網(wǎng)絡(luò)的神經(jīng)元設(shè)置的過多,會(huì)對(duì)識(shí)別率造成較大影響,使得識(shí)別率大幅下降。因此在這里根據(jù)多年的實(shí)踐經(jīng)驗(yàn)在神經(jīng)網(wǎng)絡(luò)的隱藏層選取10神經(jīng)單元。 對(duì)于輸出層而言,要根據(jù)設(shè)定的輸出標(biāo)準(zhǔn)來確定輸入層的節(jié)點(diǎn)數(shù)。在本算法中采用8421的編碼進(jìn)行編碼。對(duì)于0-9這十個(gè)數(shù)字,分別對(duì)應(yīng)十個(gè)8421碼,例如,0的8421碼為(0,0,0,0),1的8421碼為(0,0,0,1),依次類推,因此神經(jīng)元的數(shù)目選定為4,就可以表示這十個(gè)數(shù)字,然而,因?yàn)樯窠?jīng)元的激勵(lì)函數(shù)(傳輸函數(shù))是S型函數(shù),期望輸出只能是大于0小于1的數(shù),而不能是1或者0,因此用0.1來代表0,0.9代表1,否則算法將不能收斂。

神經(jīng)網(wǎng)絡(luò)搭建好后,要對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,也就是確定神經(jīng)網(wǎng)絡(luò)中各個(gè)參數(shù)的權(quán)值。本程序的訓(xùn)練樣為圖片。首先將圖片進(jìn)行預(yù)處理,然后提取特征,將特征值輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。在這里使用10個(gè)字符的圖片進(jìn)行訓(xùn)練,在圖片里包含了ARIAL字體0-9十個(gè)數(shù)字。

通過50個(gè)相關(guān)訓(xùn)練樣本進(jìn)行訓(xùn)練后,BP網(wǎng)絡(luò)對(duì)于數(shù)字字體的識(shí)別率能夠達(dá)到百分之九十以上。訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)就可以對(duì)數(shù)數(shù)據(jù)進(jìn)行識(shí)別了。

4結(jié)論

本文以VC為平臺(tái),運(yùn)用人工神經(jīng)網(wǎng)絡(luò)的思想(主要采用BP神經(jīng)網(wǎng)絡(luò)),實(shí)現(xiàn)了對(duì)印刷體數(shù)字識(shí)別。系統(tǒng)實(shí)現(xiàn)分為圖像預(yù)處理和神經(jīng)網(wǎng)絡(luò)識(shí)別兩大模塊。首先,掃描進(jìn)入電腦的圖像需保存為256色位圖或者是256級(jí)灰度圖像。首先對(duì)圖像進(jìn)行預(yù)處理,然后進(jìn)行特征提取,再輸入BP網(wǎng)絡(luò)進(jìn)行識(shí)別。BP神經(jīng)網(wǎng)絡(luò)進(jìn)行字符識(shí)別的過程主要包括網(wǎng)絡(luò)的訓(xùn)練、數(shù)據(jù)的讀取、字符的判定、結(jié)果的輸出等。本系統(tǒng)通過對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,形成了具有良好識(shí)別能力的網(wǎng)絡(luò),對(duì)印刷體數(shù)字進(jìn)行識(shí)別檢測(cè),達(dá)到了一定的準(zhǔn)確度,滿足了設(shè)計(jì)要求。

參考文獻(xiàn)

第6篇:語音識(shí)別技術(shù)范文

【關(guān)鍵詞】語音識(shí)別 音頻文字自動(dòng)提取

一、引言

由于計(jì)算機(jī)技術(shù)近年來發(fā)展非常迅速,使人們用語言與計(jì)算機(jī)進(jìn)行通信與交流已成為可能,而起草文稿、撰寫文章、準(zhǔn)備教案、會(huì)議記錄等都需要文字整理,對(duì)比傳統(tǒng)的鍵盤和鼠標(biāo)輸入方式,語音識(shí)別技術(shù)在速度上要提高2~4倍。

從音頻中自動(dòng)提取文字是以語音識(shí)別系統(tǒng)為核心,對(duì)參考文本和對(duì)應(yīng)語音進(jìn)行強(qiáng)制對(duì)準(zhǔn)的過程,其目的在于將音頻信息轉(zhuǎn)換為文本文字。作為語音識(shí)別領(lǐng)域中一種常見的預(yù)處理技術(shù),音頻文字自動(dòng)提取廣泛應(yīng)用在政府機(jī)關(guān)、企事業(yè)單位的會(huì)議記錄;網(wǎng)絡(luò)文字直播;媒體采訪速記;錄像文字整理;廣播電視媒體;錄音文字整理;大量文字的錄入排版、打印輸出,計(jì)算機(jī)輔助語言教學(xué)等方面,此外,還可為現(xiàn)場(chǎng)直播的新聞、演講、會(huì)議等生成字幕;為語言教學(xué)、游戲娛樂、電影制作等生成多媒體庫;為歌曲制作同步的歌詞顯示等。

由此可見,音頻中提取文字這項(xiàng)技術(shù)的用處很大,而目前能實(shí)現(xiàn)自動(dòng)翻譯的語音識(shí)別同生速記系統(tǒng)還正在研究之中。市場(chǎng)上要將錄音轉(zhuǎn)換成文字的方法就是找專業(yè)的速記公司,進(jìn)行人工翻譯,工作量大,效率慢,而且收費(fèi)很高,一般每小時(shí)錄音收費(fèi)為200元左右。

二、背景及發(fā)展現(xiàn)狀

語音識(shí)別技術(shù)的研究工作起始于20世紀(jì)50年代,貝爾實(shí)驗(yàn)室通過提取語音特征參數(shù),第一個(gè)實(shí)現(xiàn)了可以識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。20世紀(jì)80年代,人工神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識(shí)別,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)ANN被成功應(yīng)用,進(jìn)入90年代后語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室逐步走向?qū)嵱?。我國語音識(shí)別研究工作起步于20世紀(jì)80年代,從1987年開始執(zhí)行國家863計(jì)劃后,以清華大學(xué)電子工程系與中科院自動(dòng)化研究所為代表的研究機(jī)構(gòu),得到了國家自然科學(xué)基金重大和重點(diǎn)項(xiàng)目等基金的支持,取得了豐碩的研究成果。目前市場(chǎng)上主要產(chǎn)品有北京陽宸電子技術(shù)公司的 VS-99 語音自動(dòng)識(shí)別系統(tǒng)、科大訊飛的 InterVeri 系列等開發(fā)的語音自動(dòng)識(shí)別系統(tǒng)等。

三、語音識(shí)別原理

自動(dòng)語音識(shí)別技術(shù)(Auto Speech Recognize,簡(jiǎn)稱ASR),在整個(gè)構(gòu)建過程中包括兩個(gè)階段:訓(xùn)練階段和識(shí)別階段。在訓(xùn)練階段,ASR系統(tǒng)進(jìn)行語音收集,然后對(duì)收集的語音進(jìn)行降噪處理,消除部分噪音和發(fā)音者的個(gè)性特點(diǎn),為了使處理后的信號(hào)更清晰,可以將發(fā)音者語音中的詞匯內(nèi)容轉(zhuǎn)換為數(shù)字格式,即計(jì)算機(jī)可讀的輸入,例如二進(jìn)制編碼,然后ASR系統(tǒng)將提取的每個(gè)語音單位的特征矢量進(jìn)行一定的處理,然后存入到模板庫中。

在模式匹配(即識(shí)別)過程中,ASR系統(tǒng)通過學(xué)習(xí)算法產(chǎn)生特征矢量,在識(shí)別時(shí)將輸入語音的特征矢量與模板庫征矢量相比較,找到最匹配的單詞序列。目前最具有代表性的ASR技術(shù)有動(dòng)態(tài)時(shí)間環(huán)繞技術(shù)、隱馬爾科夫(markov)模型(HMM)和人工神經(jīng)網(wǎng)(ANN)模型。其中基于HMM的技術(shù)最為流行且語音識(shí)別性能最好。

四、 音頻文字自動(dòng)提取的設(shè)計(jì)與實(shí)現(xiàn)

通常音頻素材所占的容量都比較大,為了節(jié)省工作量,在使用素材之前,一般使用goldwave將音頻素材分割成所需要的長(zhǎng)度。再配合使用Windows 7系統(tǒng)中的語音識(shí)別功能,通過該功能,可以讓我們徹底拋開鼠標(biāo)和鍵盤,只用語音控制電腦,特別是配合word軟件,還能實(shí)現(xiàn)文本的語音輸入,識(shí)別的準(zhǔn)確性也較高。為了使win7語音識(shí)別系統(tǒng)獲得更清晰的語音素材,需要在播放音頻素材的同時(shí)使用內(nèi)錄功能,文本軟件會(huì)記錄下提取到的音頻文字內(nèi)容,創(chuàng)建文本文檔,也可在文檔中進(jìn)行修改或更正錯(cuò)誤。

盡管win7系統(tǒng)可以實(shí)現(xiàn)音頻文字的自動(dòng)提取,由于環(huán)境噪聲、使用者的語音差別等等因素,所以其最終識(shí)別率并不高。所以,我們還需要對(duì)win7語音識(shí)別系統(tǒng)進(jìn)行模型訓(xùn)練。通過不斷糾正其錯(cuò)誤識(shí)別文字,在數(shù)據(jù)庫中加入生僻名詞,反復(fù)使用音頻素材對(duì)模型進(jìn)行訓(xùn)練,使語音識(shí)別系統(tǒng)最終能完全識(shí)別音頻素材,以此來優(yōu)化模型,提高語音系統(tǒng)的識(shí)別率。

五、總結(jié)和展望

如今計(jì)算機(jī)語音識(shí)別技術(shù)作為一股潛在的發(fā)展技術(shù)極大提高人們的現(xiàn)實(shí)生活需要,不僅轉(zhuǎn)變了人們的生活方式,提高了工作效率,更加推動(dòng)了社會(huì)的進(jìn)步和文明的發(fā)展,所以從音頻中自動(dòng)提取文字具有廣闊的應(yīng)用前景,由于語音自動(dòng)識(shí)別的局限性,使得這項(xiàng)技術(shù)任重而道遠(yuǎn),。

在今后的科研中,音頻中自動(dòng)提取文字將被更加廣泛的應(yīng)用,各種具有音頻自動(dòng)提取文字的產(chǎn)品也將漸漸在市場(chǎng)上出現(xiàn),隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展創(chuàng)新,語音識(shí)別系統(tǒng)將會(huì)引領(lǐng)我們的信息技術(shù)革命到一個(gè)新的臺(tái)階。

第7篇:語音識(shí)別技術(shù)范文

關(guān)鍵詞:?jiǎn)纹瑱C(jī);LD3320語音識(shí)別模塊;智能家居;聲控系統(tǒng)

中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2016)11-00-03

0 引 言

智能家居(smart home)的概念很早就被提出來,但是一直沒有在現(xiàn)實(shí)中被具體實(shí)踐,直到1984年出現(xiàn)的首棟智能型建筑拉開了全人類爭(zhēng)相構(gòu)建智能家居的帷幕。智能家居不是某一項(xiàng)家庭電器的智能化,而是以住宅為平臺(tái),為實(shí)現(xiàn)家居安全舒適、科學(xué)環(huán)保、健康節(jié)能的家居生活環(huán)境,依賴綜合布線和網(wǎng)絡(luò)通信技術(shù),將家電設(shè)備聯(lián)系起來,構(gòu)建高效、流暢的家居設(shè)備管理系統(tǒng),方便人們對(duì)家用設(shè)備進(jìn)行操作與管理,為人類提供智能、舒適的生活方式。

1 語音識(shí)別的發(fā)展歷史及應(yīng)用領(lǐng)域

從工業(yè)革命開始,人類逐漸受益于高速的機(jī)器生產(chǎn),但隨著科技的發(fā)展,人類開始?jí)粝胫c機(jī)器進(jìn)行交流溝通,讓機(jī)器明白人類的命令,然后給予回應(yīng),真正實(shí)現(xiàn)用機(jī)器代替人類進(jìn)行繁重勞動(dòng)的目標(biāo)。語音識(shí)別技術(shù)為該目標(biāo)的實(shí)現(xiàn)提供了可能,該技術(shù)將其接收到的音頻信號(hào)轉(zhuǎn)換為機(jī)器可識(shí)別的文本或命令后進(jìn)行進(jìn)一步處理?,F(xiàn)如今,經(jīng)歷半個(gè)多世紀(jì)的探索與創(chuàng)新,語音識(shí)別技術(shù)在各領(lǐng)域都實(shí)現(xiàn)了應(yīng)用,小到兒童玩具、個(gè)人家庭電器、電子產(chǎn)品,大到醫(yī)療、工業(yè)生產(chǎn)等,語音識(shí)別系統(tǒng)都發(fā)揮著不可替代的作用。從世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的語音識(shí)別系統(tǒng)到如今廣泛應(yīng)用在各行各業(yè)的語音識(shí)別系統(tǒng),我們希望語音識(shí)別技術(shù)在未來取得更大的發(fā)展。

語音識(shí)別技術(shù)的發(fā)展離不開研究者們的卓越貢獻(xiàn),由一開始特定人、小詞匯的識(shí)別到如今非特定人、連續(xù)發(fā)音、大量詞匯的識(shí)別,這其中各種技術(shù)的更新發(fā)展必不可少。廣泛使用的計(jì)算機(jī)網(wǎng)絡(luò)和普遍使用的手機(jī)、ipad等提供了大量文本和語音方面的材料資源,多渠道的資源為語音識(shí)別中的語言模型和聲學(xué)模型的訓(xùn)練提供了有力支持。語音識(shí)別的未來發(fā)展令人期待。

2 智能家居聲控系統(tǒng)的方案設(shè)計(jì)

2.1 系統(tǒng)總體結(jié)構(gòu)圖

圖1所示為系統(tǒng)總體設(shè)計(jì)結(jié)構(gòu)框圖。該系統(tǒng)的硬件部分包括電源、LD3320芯片、單片機(jī)、繼電器等。語音識(shí)別由LD3320芯片實(shí)現(xiàn),系統(tǒng)整體控制由MCS-51單片機(jī)實(shí)現(xiàn),包括對(duì)LD3320芯片的初始化等。用戶語音指令經(jīng)麥克風(fēng)送給LD3320語音識(shí)別模塊,LD3320識(shí)別處理后,把識(shí)別結(jié)果傳送給單片機(jī),單片機(jī)將根據(jù)識(shí)別結(jié)果對(duì)外設(shè)進(jìn)行相應(yīng)控制。若語音指令無法識(shí)別,則由單片機(jī)控制LD3320語音模塊重新進(jìn)入新的識(shí)別處理過程。

2.2 LD3320語音識(shí)別模塊

LD3320芯片是一個(gè)專用于語音識(shí)別的芯片,該芯片在設(shè)計(jì)時(shí)注重高效與節(jié)能,無需外接任何輔助芯片,直接集成了語音識(shí)別處理模塊和外部電路,如麥克風(fēng)接口、語音輸出接口、AD/DA轉(zhuǎn)換器等,使其可以實(shí)現(xiàn)語音識(shí)別、聲音控制及人機(jī)對(duì)話等功能。

2.2.1 主要特征

完成非特定人的語音識(shí)別命令。在語音識(shí)別技術(shù)發(fā)展之初,只能由特定的人進(jìn)行語音命令來完成任務(wù),且需要錄音和練習(xí)等,而現(xiàn)在只需用戶使用相同的語言就可以進(jìn)行識(shí)別,且識(shí)別效率大大提高,識(shí)別率高達(dá)95%,無需外接輔助,實(shí)現(xiàn)了單芯片語音識(shí)別。

由于用戶的語音命令有多種可能,如意思相同但語音命令不同或受到口音語氣的影響等,LD3320芯片中的識(shí)別語句是動(dòng)態(tài)可編輯,可修改的,在設(shè)計(jì)時(shí)可根據(jù)具體情況考慮多種可能,如設(shè)置50條識(shí)別語句留作用戶語音命令的候選語音,以提高系統(tǒng)的整體水平。不過設(shè)置時(shí)需注意識(shí)別語句的長(zhǎng)度,如果設(shè)置漢字則不能超過10個(gè),設(shè)置拼音串則不能超過79個(gè)。支持串行接口和并行接口,也可設(shè)置為休眠狀態(tài),方便激活。

2.2.2 LD3320語音口令識(shí)別處理過程

LD3320芯片的語音口令識(shí)別處理過程如圖2所示。

2.2.3 LD3320語音識(shí)別模塊使用技巧

在一些特別的應(yīng)用場(chǎng)合,人們希望語音識(shí)別系統(tǒng)具有較高的識(shí)別精度。本系統(tǒng)設(shè)計(jì)采用“用戶口令觸發(fā)模式”以提高抗干擾能力,避免單片機(jī)對(duì)外設(shè)控制時(shí)產(chǎn)生錯(cuò)誤動(dòng)作。

程序設(shè)計(jì)中設(shè)置一個(gè)短句作為用戶命令的觸發(fā)口令。如定義“小明”作為用戶的觸發(fā)口令。在等待用戶觸發(fā)時(shí),特別是有雜音、噪音的情況下,系統(tǒng)將啟動(dòng) “循環(huán)識(shí)別處理”模式,把觸發(fā)口令“小明”和其他幾十個(gè)用來吸收錯(cuò)誤的詞匯設(shè)置進(jìn)LD3320語音識(shí)別芯片。如果LD3320芯片中程序檢測(cè)到用戶的觸發(fā)口令時(shí),則開啟“觸發(fā)模式”,用戶給出一級(jí)口令,若檢測(cè)為正確口令,則芯片將給出指示,即提示燈開始閃爍(大約2 s)后,開啟二級(jí)口令的接收檢測(cè)即“識(shí)別模式”,LD3320識(shí)別到預(yù)設(shè)的二級(jí)口令后,如臥室開燈、臥室關(guān)燈等,將識(shí)別結(jié)果送給單片機(jī),由單片機(jī)對(duì)外設(shè)進(jìn)行控制。在等待口令時(shí),可能會(huì)進(jìn)行誤識(shí)別,即在其他聲音干擾下接收到相似的語音片段,程序可以專門對(duì)垃圾詞語進(jìn)行處理或不處理,然后進(jìn)入循環(huán)識(shí)別狀態(tài),用戶只需發(fā)出新的口令即可觸發(fā)。通過二級(jí)口令觸發(fā)模式,用戶可以更加方便的進(jìn)行語音操作,且準(zhǔn)確率較高。

2.2.3.1 巧妙運(yùn)用關(guān)鍵詞語的ID,提高識(shí)別效率

由于用戶的發(fā)音習(xí)慣不同,可能同一個(gè)意思的不同語音命令無法被準(zhǔn)確執(zhí)行。我們將語音命令的關(guān)鍵詞語的拼音串設(shè)計(jì)在LD3320芯片內(nèi),例如一級(jí)口令“小明”,然后傳入一個(gè)ID代表這個(gè)詞語,一旦識(shí)別成功后,將這個(gè)ID作為識(shí)別的結(jié)果對(duì)外輸出。在 LD3320語音芯片中,同一個(gè)ID可以對(duì)應(yīng)不同的關(guān)鍵詞匯,而且ID不需要連續(xù),編程方式非常簡(jiǎn)單。例如“中國”“華夏”,可以設(shè)置為同一個(gè)ID,之后再進(jìn)行其他處理步驟。

2.2.3.2 對(duì)于關(guān)鍵詞ID設(shè)置多個(gè)可能發(fā)音,充分利用50項(xiàng)候選可識(shí)別語句

有時(shí)用戶可能不會(huì)用同一個(gè)詞來發(fā)出命令,例如“開燈”,用戶可能會(huì)說“開大燈”“打開燈”“打開電燈”“把電燈打開”等,其說話的口音、語氣、情緒、習(xí)慣是不同的。因此需把用戶的這些發(fā)音習(xí)慣都考慮到程序設(shè)計(jì)中,完全利用LD3320芯片的特性,充分利用50條可動(dòng)態(tài)編輯的關(guān)鍵識(shí)別條目,編輯不同的候選語句并設(shè)置到芯片中。這樣用戶在發(fā)出命令后,被準(zhǔn)確執(zhí)行的效率增加,完善了系統(tǒng)的功能。

2.2.3.3 用戶通過語音命令后得到語音識(shí)別結(jié)果的等待時(shí)間調(diào)節(jié)

在本系統(tǒng)中,用戶發(fā)出口令后芯片大約有12 s的反應(yīng)時(shí)間,然后才會(huì)給出識(shí)別反應(yīng)。通過語音識(shí)別芯片的檢測(cè)機(jī)制來判斷用戶的口令是否全部發(fā)出,如監(jiān)測(cè)出一段連續(xù)的噪音,就認(rèn)為用戶口令已發(fā)完,之后給出識(shí)別結(jié)果。

2.2.4 使用過程中應(yīng)注意的問題

在測(cè)試過程中發(fā)現(xiàn),LD3320模塊應(yīng)用時(shí)要注意以下問題:

(1)用戶使用時(shí)背景聲音(噪音、雜音等)會(huì)造成一定的干擾;

(2)設(shè)置語音模塊內(nèi)識(shí)別列表的內(nèi)容和50個(gè)可編輯的候選語句有關(guān);

(3)設(shè)置識(shí)別列表中各詞匯之間的相似程度;

(4)用戶的發(fā)音快慢、大小、口音以及發(fā)音是否清晰等;

(5)距離麥克風(fēng)的位置遠(yuǎn)近以及接收語音的外設(shè)(麥克風(fēng)等)質(zhì)量等。

3 智能家居聲控系統(tǒng)的軟件程序設(shè)計(jì)

智能家居聲控系統(tǒng)的程序處理過程主要包括單片機(jī)初始化;LD3320芯片的初始化;LD3320語音識(shí)別結(jié)果寄存器的讀取以及單片機(jī)對(duì)外設(shè)的控制等。

3.1 具體軟件功能模塊介紹

(1)單片機(jī)初始化函數(shù):void MCU_init()

名稱:void MCU_init()。

功能:?jiǎn)纹瑱C(jī)初始化。

(2)中斷處理函數(shù):void ExtInt0Handler(void) interrupt 0

名稱:中斷處理函數(shù)。

功能:對(duì)LD3320的中斷請(qǐng)求進(jìn)行處理。

其他說明:語音識(shí)別模塊接收到音頻信號(hào)后進(jìn)入函數(shù),判斷識(shí)別結(jié)果,若無結(jié)果則設(shè)置寄存器開始下次識(shí)別。

(3)用戶執(zhí)行函數(shù):void User_handle(uint8 dat)

名稱:用戶執(zhí)行函數(shù)。

功能:識(shí)別結(jié)果成功后,MUC進(jìn)行之后的處理。

(4)LD3320復(fù)位函數(shù):void LD_Reset()

功能描述:復(fù)位LD模塊。

(5)LD3320初始化函數(shù):void LD_Init_Common()

功能描述:LD模塊命令初始化。

其他說明:該函數(shù)一般不需要修改。

(6)LD3320ASR功能初始化函數(shù):void LD_Init_ASR()

功能描述:LD模塊ASR功能初始化。

其他說明:該函數(shù)一般不需要修改。

(7)運(yùn)行ASR識(shí)別處理函數(shù)uint8 RunASR(void)

功能描述:運(yùn)行ASR識(shí)別流程。

返回值:asrflag:1->啟動(dòng)成功;0->啟動(dòng)失敗。

其他說明:識(shí)別順序如下:

① RunASR()函數(shù)實(shí)現(xiàn)一次完整的ASR語音識(shí)別流程;

② LD_AsrStart()函數(shù)實(shí)現(xiàn)了ASR初始化;

③ LD_AsrAddFixed()函數(shù)添加關(guān)鍵詞語到LD3320中;

④ LD_AsrRun()函數(shù)啟動(dòng)一次ASR語音識(shí)別流程。

任何一次ASR識(shí)別流程均從初始化開始,皆按照此順序進(jìn)行。

(8)語音命令添加函數(shù):uint8 LD_AsrAddFixed()

功能描述:向LD模塊添加關(guān)鍵詞。

返回值:flag:1->添加成功。

(9)識(shí)別結(jié)果獲取函數(shù):uint8 LD_GetResult()

功能描述:獲取識(shí)別結(jié)果。

返回值:LD_ReadReg(0xc5 ),讀取內(nèi)部寄存器返回的識(shí)別碼。

3.2 系統(tǒng)程序流程圖

聲控系統(tǒng)單片機(jī)程序流程圖如圖3所示。

4 系統(tǒng)測(cè)試

本系統(tǒng)以“小明”為一級(jí)指令口令,每次識(shí)別時(shí)必須先觸發(fā)一級(jí)口令,才能進(jìn)行二級(jí)口令,如臥室關(guān)燈、臥室開燈、客廳開燈、客廳關(guān)燈等。

系統(tǒng)加入電源后對(duì)麥克風(fēng)說“小明”一級(jí)口令,指示燈閃爍亮燈后,再對(duì)著麥克風(fēng)說:“臥室開燈”二級(jí)口令則繼電器控制臥室燈亮。目前該系統(tǒng)能識(shí)別的二級(jí)口令有5個(gè),分別是“客廳開燈”“客廳關(guān)燈”“臥室開燈”“臥室關(guān)燈”和“close all”,實(shí)際可以根據(jù)具體布置需要增加控制節(jié)點(diǎn)及相應(yīng)識(shí)別口令。

5 結(jié) 語

智能家居聲控系統(tǒng)不僅能為大家?guī)硎孢m的居住環(huán)境,還具有系統(tǒng)可靠性高,誤識(shí)率低,方便適用的特點(diǎn),具有廣大的應(yīng)用前景。

參考文獻(xiàn)

[1]王炳錫.實(shí)用語音識(shí)別基礎(chǔ)――21世紀(jì)高等院校技術(shù)優(yōu)秀教材[M].北京:國防工業(yè)出版社,2015.

[2]譚浩強(qiáng).C程序設(shè)計(jì)教程[M].北京:清華大學(xué)出版社,2007.

[3]金鑫,田,闕大順.基于LD3320的語音控制系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)[J].電腦與信息技術(shù),2011,19(6):22-25.

[4]徐波.語音識(shí)別技術(shù)發(fā)展現(xiàn)狀與展望[Z].中科院自動(dòng)化研究所,2011.

第8篇:語音識(shí)別技術(shù)范文

轉(zhuǎn)機(jī)

讓計(jì)算機(jī)能夠識(shí)別人類的語音,從而使得人們能夠用自己的母語與計(jì)算機(jī)進(jìn)行人機(jī)交互,一直是計(jì)算機(jī)學(xué)科追求的目標(biāo)之一。談到語音識(shí)別,就不能不談一下李開復(fù)。

1983年秋,李開復(fù)進(jìn)入卡內(nèi)基·梅隆大學(xué),師從羅杰·瑞迪教授,攻讀博士學(xué)位。瑞迪建議李開復(fù)選擇不特定語者的語音識(shí)別系統(tǒng)作為研究方向,并建議采用專家系統(tǒng)的方法,來解決讓電腦聽懂每個(gè)人說的話的難題。瑞迪是人工智能領(lǐng)域的權(quán)威,后來還獲得1994年圖靈獎(jiǎng)。經(jīng)過近1年的研究,盡管研究有了一些進(jìn)展,但李開復(fù)最終認(rèn)識(shí)到,受技術(shù)發(fā)展的限制,專家系統(tǒng)相當(dāng)長(zhǎng)時(shí)間內(nèi)難以解決這一難題。在一位同門師兄的提醒下,李開復(fù)轉(zhuǎn)而采用統(tǒng)計(jì)模型的研究路徑,終獲成功。1988年,李開復(fù)獲得博士學(xué)位。時(shí)至今日,語音識(shí)別技術(shù)依舊采用的是李開復(fù)開創(chuàng)的統(tǒng)計(jì)模型。

1998年,IBM中文語音識(shí)別技術(shù)Via Voice在國內(nèi)PC市場(chǎng)掀起了一場(chǎng)中文語音輸入熱潮。第二年,當(dāng)今國內(nèi)最大的智能語音識(shí)別公司科大訊飛誕生于中國科技大學(xué)。

同年,出任微軟中國研究院院長(zhǎng)的李開復(fù)曾告訴媒體,語音識(shí)別需要的計(jì)算資源太多,實(shí)用化還要走很長(zhǎng)的路。

“中文語音識(shí)別市場(chǎng)在2000年左右逐漸由熱變冷,這主要是由于當(dāng)時(shí)算法還比較初級(jí),對(duì)計(jì)算資源的需求很大,產(chǎn)業(yè)環(huán)境也不成熟。于是,很多人轉(zhuǎn)去做別的行業(yè)。也正是在這個(gè)時(shí)候,我們團(tuán)隊(duì)的主要成員初涉這個(gè)領(lǐng)域,進(jìn)入研究所和高校讀博讀碩?!绷杭叶骶驮谀莻€(gè)時(shí)期考入中科院自動(dòng)化所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室。模式識(shí)別實(shí)驗(yàn)室分為圖像識(shí)別和語音識(shí)別兩大研究方向,圖像識(shí)別領(lǐng)域誕生了漢王公司,而梁家恩則在語音識(shí)別領(lǐng)域歷經(jīng)5年寒窗,完成了碩博連讀。

梁家恩介紹說:“我們這些人一直專注于語音識(shí)別和語義理解的研究。到了2010年左右,語音識(shí)別技術(shù)取得了突破性進(jìn)展,移動(dòng)互聯(lián)網(wǎng)也得到普及。加之2011年10月蘋果iPhone 4S,作為新產(chǎn)品一大亮點(diǎn)的智能語音助手Siri在市場(chǎng)上再次引爆語音識(shí)別熱。我們覺得商業(yè)化的機(jī)會(huì)已經(jīng)成熟,2012年6月,我們創(chuàng)建了云知聲,并搭建了用于語音識(shí)別的公有云平臺(tái)?!?/p>

突破

雖然現(xiàn)在的語音識(shí)別還是采用統(tǒng)計(jì)算法,但這十多年來,語音識(shí)別技術(shù)發(fā)展很快。

“首先是數(shù)據(jù)資源豐富了,以前在實(shí)驗(yàn)室收集幾百個(gè)人的語音都非常困難,現(xiàn)在我們有了語音云平臺(tái),吸引了各地不同口音的人們,每天采集上百GB的數(shù)據(jù)量,樣本非常豐富,這有利于分析和改進(jìn)我們的系統(tǒng)?,F(xiàn)在的樣本規(guī)模比李開復(fù)老師當(dāng)時(shí)做的系統(tǒng)的樣本規(guī)模擴(kuò)大了幾個(gè)數(shù)量級(jí),而且現(xiàn)在的數(shù)據(jù)都是真實(shí)數(shù)據(jù),遠(yuǎn)非那時(shí)模擬數(shù)據(jù)所能比擬,這在統(tǒng)計(jì)算法中至關(guān)重要。”梁家恩表示。

“二是統(tǒng)計(jì)技術(shù)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)等關(guān)鍵技術(shù)取得較大的突破,在環(huán)境噪聲處理和對(duì)口音識(shí)別方面的改進(jìn)非常明顯,識(shí)別率顯著提升。算法上也做了一些優(yōu)化,以前的算法你要做一系列實(shí)驗(yàn)可能需要一兩年的時(shí)間,根本沒法實(shí)現(xiàn)?!绷杭逸x說,“再有就是智能手機(jī)中CPU技術(shù)的進(jìn)步以及GPU的應(yīng)用,加之后臺(tái)云計(jì)算處理能力的提升,為智能語音識(shí)別提供了強(qiáng)大的計(jì)算資源。”

語音識(shí)別實(shí)際上是搜索。梁家恩介紹說,語音識(shí)別就是從一句話的聲波中提取語音特征,然后與后臺(tái)數(shù)據(jù)進(jìn)行匹配,由于現(xiàn)在的數(shù)據(jù)庫非常大,因此比對(duì)的精確度比過去要高得多。雖說都是搜索,但百度搜索是文本檢索,它要求捕獲全網(wǎng)信息的變化,即信息更新要快。而語音識(shí)別上,因?yàn)檎Z音特征與文本并沒有對(duì)應(yīng)關(guān)系,因此,比對(duì)精確度就成為語音識(shí)別的核心技術(shù)所在。

由于面向語音識(shí)別這一特定應(yīng)用,云知聲的公有云平臺(tái)與通用的云平臺(tái)也有所區(qū)別。“我們底層采用的也是集群架構(gòu),單臺(tái)服務(wù)器并發(fā)線程數(shù)達(dá)到100,這已是業(yè)界最快的;再通過災(zāi)備、安全等技術(shù)來確保平臺(tái)的穩(wěn)??;然后是將目前已經(jīng)建立的北京、上海和廣州機(jī)房的計(jì)算資源聯(lián)在一起。我們也對(duì)虛擬化做了測(cè)試,但虛擬化會(huì)帶來5%~10%的性能損失,這與我們追求性能最高化的目標(biāo)不符合。因此,我們采用高性能計(jì)算平臺(tái),讓硬件對(duì)語音識(shí)別這一特定應(yīng)用進(jìn)行優(yōu)化?!?/p>

互聯(lián)網(wǎng)思維

伴隨著智能手機(jī)和平板電腦取代PC成為個(gè)人計(jì)算市場(chǎng)的主流,人機(jī)交互也從傳統(tǒng)的鍵盤操作轉(zhuǎn)換為觸屏操作。而在注重用戶體驗(yàn)的移動(dòng)互聯(lián)網(wǎng)時(shí)代,智能語音識(shí)別將帶來更快更方便的用戶體驗(yàn),特別是在車載、可穿戴式電腦等應(yīng)用上。

梁家恩認(rèn)為,作為自然高效的交互方式,智能語音技術(shù)不僅要識(shí)別用戶的話語,而且還要能夠智能地通過屏幕或者TTS(從文本到語音)的方式實(shí)現(xiàn)與用戶交流,因而在智能移動(dòng)設(shè)備、廣播電視、呼叫中心、會(huì)議記錄、語言學(xué)習(xí)、知識(shí)學(xué)習(xí)、互動(dòng)娛樂等領(lǐng)域有著廣闊的應(yīng)用前景。

“我想查一下今天晚上北京飛上海的航班?!痹诓稍L過程中梁家恩對(duì)著手機(jī)說,話音剛落,手機(jī)屏幕上刷新出北京至上海的航班信息。

這個(gè)簡(jiǎn)單的演示可以直白地反映出云知聲的商業(yè)模式。由于智能手機(jī)與機(jī)主的對(duì)應(yīng)關(guān)系,加之其定位和支付功能,這句話已經(jīng)包含了這一具有在線支付手同的潛在顧客是誰、在什么地方、具體需求是什么。這對(duì)于商家而言,客戶信息已經(jīng)足夠了,商家甚至還可以通過手機(jī)號(hào)碼來關(guān)聯(lián)客戶的信用、過往的消費(fèi)習(xí)慣等,從而做出精準(zhǔn)的營(yíng)銷響應(yīng)。

“我們不像現(xiàn)在市場(chǎng)有的語音識(shí)別公司那樣,通過軟件授權(quán)的方式向用戶收費(fèi)。我們相信互聯(lián)網(wǎng)的力量,所有語音用戶需求匯總到后臺(tái)后,所蘊(yùn)含的商業(yè)價(jià)值要遠(yuǎn)遠(yuǎn)大于軟件授權(quán)帶來的價(jià)值?!绷杭叶髡f,“我們承諾將公有云平臺(tái)服務(wù)的體驗(yàn)做到極致并且永遠(yuǎn)免費(fèi),同時(shí)云知聲的智能語音技術(shù)向合作伙伴完全開放,即不限領(lǐng)域、不限形態(tài)、不限商業(yè)模式。當(dāng)后臺(tái)數(shù)據(jù)的商業(yè)價(jià)值變現(xiàn)時(shí),我們將與合作伙伴分成?!?/p>

第9篇:語音識(shí)別技術(shù)范文

關(guān)鍵詞:語音識(shí)別;孤立詞;動(dòng)態(tài)時(shí)間規(guī)整;朝鮮語

中圖分類號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2013)0010010304

作者簡(jiǎn)介:王曉丹(1981-),女,碩士,延邊大學(xué)工學(xué)院講師,研究方向?yàn)檎Z音識(shí)別、模式識(shí)別;金國哲(1983-),男,碩士,延邊大學(xué)工學(xué)院講師,研究方向?yàn)橛螒蜍浖?/p>

0引言

語音識(shí)別是讓機(jī)器自動(dòng)識(shí)別和理解語音信號(hào),并把語音信號(hào)轉(zhuǎn)化為相應(yīng)的文本或命令的技術(shù)[1]。語音識(shí)別技術(shù)的解決將不僅使計(jì)算機(jī)成為普通百姓得心應(yīng)手的工具,而且對(duì)于許多機(jī)器的操作、生產(chǎn)過程的控制,還有通信、口語機(jī)器翻譯等領(lǐng)域來說,語音識(shí)別都大有用武之地[2]。目前,信息產(chǎn)業(yè)發(fā)展迅速,方便、快捷、高效的電子產(chǎn)品越來越受到用戶的青睞。語音識(shí)別作為人機(jī)交互的一項(xiàng)關(guān)鍵技術(shù),具備了這樣的特點(diǎn),特別在一些特定的環(huán)境或是對(duì)于一些特定的人,語音識(shí)別可以帶來很大的方便。語音識(shí)別系統(tǒng)實(shí)際上屬于一種模式識(shí)別系統(tǒng),它包括特征提取、模式匹配、參考模式庫等基本單元,其原理如圖1所示。

輸入的模擬語音信號(hào)首先進(jìn)行預(yù)處理,包括預(yù)加重、分幀處理、數(shù)模轉(zhuǎn)換、自動(dòng)增益控制等過程。為了從每一個(gè)詞條中提取出隨時(shí)間變化的語音特征序列,作為一個(gè)模型保存為參考模板,就要對(duì)預(yù)處理后的語音信號(hào)進(jìn)行特征參數(shù)提取。待識(shí)別的語音信號(hào)同樣經(jīng)過特征參數(shù)提取后生成測(cè)試模板。對(duì)語音的識(shí)別過程即是將測(cè)試模板與參考模板進(jìn)行匹配的過程,識(shí)別結(jié)果即是相似率最高的一個(gè)參考模板。對(duì)于輸入信號(hào)計(jì)算測(cè)定,再根據(jù)若干準(zhǔn)則和專家知識(shí),來判決選出最終結(jié)果并由識(shí)別系統(tǒng)輸出。語音識(shí)別系統(tǒng)設(shè)計(jì)要考慮服務(wù)對(duì)象、詞表大小、工作環(huán)境、發(fā)音方式、任務(wù)性質(zhì)等許多因素,不同的應(yīng)用需要采用不同的方法實(shí)現(xiàn),才能達(dá)到理想的效果[3]。本文所采用的朝鮮語緊急呼叫號(hào)碼的語音識(shí)別系統(tǒng)采用后文所述的幾個(gè)步驟和方法。

1預(yù)處理

本設(shè)計(jì)中對(duì)語音信號(hào)的預(yù)處理過程包括預(yù)加重、分幀處理及窗化處理。

1.1語音信號(hào)的預(yù)加重

采用預(yù)加重方法處理語音信號(hào)能補(bǔ)償語音信號(hào)的固有衰落,而且能有效地消除唇輻射的影響[4]。該方法的傳遞函數(shù)為:H(z)=1-0.94z-1(1)

設(shè)S(n)為輸入的語音信號(hào),經(jīng)過預(yù)加重后得到的信號(hào)為:

中找出語音的開始和終止點(diǎn)。確定語音信號(hào)的起止點(diǎn)能更好地對(duì)語音信號(hào)進(jìn)行識(shí)別,從而提高系統(tǒng)識(shí)別率和獲取到更好的語音特征參數(shù)。端點(diǎn)檢測(cè)的常用方法有短時(shí)過零率、短時(shí)平均能量、基于熵的特征、短時(shí)頻域處理等幾種[6]。本文中端點(diǎn)檢測(cè)部分選擇短時(shí)平均能量和短時(shí)過零率相結(jié)合的方法。清音的過零率要高于濁音和靜音部分,因此短時(shí)過零率可用于確定清音。而濁音和清音的時(shí)域能量要高于靜音部分,所以短時(shí)時(shí)域平均能量可用于確定濁音。在進(jìn)行語音檢測(cè)時(shí),首先找出哪一幀語音的能量超過能量門限,然后往前根據(jù)過零率確定語音的起點(diǎn),同樣方法可確定語音的終點(diǎn)。

2特征提取如何選擇語音特征直接關(guān)系到最終的識(shí)別效果。每段語音經(jīng)過特征提取后具有了各自的特征值,特征間的距離量度反映出語音間的相似度。因此特征選擇的標(biāo)準(zhǔn)應(yīng)使得異音字特征間的距離盡量大,同音字間的距離盡量小。同時(shí),在保持高識(shí)別率的情況下,還應(yīng)盡量減少特征維數(shù),以減小特征參數(shù)的計(jì)算量。人耳對(duì)200Hz到5kHz之間的語音信號(hào)最為敏感,高音不容易掩蔽低音,反之則較容易,高頻處的聲音掩蔽的臨界帶寬較低頻端小。因此本文的朝鮮語孤立詞語音識(shí)別系統(tǒng)首先采用在Mel頻率軸上均勻分布的三角形濾波器,設(shè)

圖3語音識(shí)別仿真過程

Step3:對(duì)分幀處理后的每幀信號(hào)求MFCC系數(shù)。Step4:通過DTW算法求出測(cè)試模板與參考模板的特征參數(shù),選擇差值最小的作為輸出結(jié)果。語音控制器選用“Cool Edit Pro V2.1”進(jìn)行錄音采樣。Cool Edit Pro 是美國 Adobe Systems 公司開發(fā)的一款功能強(qiáng)大、效果出色的多軌錄音和音頻處理軟件。該軟件可提供多種特效為作品增色,如壓縮、擴(kuò)展、延遲、降噪、回聲、失真等。并且可同時(shí)在幾個(gè)文件中進(jìn)行剪切、粘貼、合并、重疊聲音的操作,還可以生成靜音、噪音、低音、電話信號(hào)等。本文采樣率為8 000Hz,聲道為單聲道,采樣精度為16位。語音庫需要對(duì)朝鮮語的“”、“”、“”、“”、“”這幾個(gè)詞進(jìn)行錄音采樣。采集到的音頻信號(hào),經(jīng)過Matlab提供的wav文件讀寫函數(shù),以及聲卡的錄音和放音函數(shù),可以實(shí)現(xiàn)某些語音信號(hào)處理工作。語音工具箱voicebox為實(shí)現(xiàn)語音識(shí)別提供了許多實(shí)用函數(shù)。本語音識(shí)別系統(tǒng)的文件包含15個(gè)模板語音文件,25個(gè)語音庫文件和5個(gè)處理函數(shù)。

以下分別就5種韓國緊急電話號(hào)碼進(jìn)行了識(shí)別實(shí)驗(yàn),并對(duì)結(jié)果進(jìn)行了部分截圖,實(shí)驗(yàn)結(jié)果包含模板波形圖和測(cè)試結(jié)果。第一組是天氣預(yù)報(bào)電話號(hào)碼131;第二組是報(bào)警電話號(hào)碼112;第三組是火警電話號(hào)碼119;第四組是電話咨詢號(hào)碼114;第五組是海洋咨詢電話號(hào)碼。如圖4和圖5是分別對(duì)韓國火警電話119的采樣后的語音波形圖和識(shí)別結(jié)果。

通過對(duì)特定人朝鮮語呼叫號(hào)碼的語音識(shí)別結(jié)果的分析,可以得出以下結(jié)論:①在語音庫樣本數(shù)量足夠,相關(guān)被測(cè)人數(shù)適當(dāng)?shù)那闆r下,DTW算法能夠有效地識(shí)別語音控制指令;②識(shí)別效果與測(cè)試內(nèi)容緊密相關(guān),對(duì)于、這類數(shù)字,該算法完全可以準(zhǔn)確識(shí)別出結(jié)果;③對(duì)

于有連讀發(fā)音的號(hào)碼、、等,由于個(gè)人發(fā)音特點(diǎn)的差異,該算法會(huì)偶爾出現(xiàn)識(shí)別錯(cuò)誤的現(xiàn)象,但錯(cuò)誤率在6%以下。

5結(jié)語

本文實(shí)現(xiàn)了朝鮮語緊急呼叫號(hào)碼語音識(shí)別系統(tǒng)的軟件算法部分。其過程主要包括:語音預(yù)加重處理、短時(shí)能量和過零率兩級(jí)端點(diǎn)檢測(cè)算法進(jìn)行端點(diǎn)檢測(cè)、MFCC算法進(jìn)行語音特征參數(shù)提取等。綜合考慮環(huán)境、算法復(fù)雜度等因素,DTW算法能夠既簡(jiǎn)單又有效地識(shí)別朝鮮語緊急呼叫號(hào)碼。通過MATLAB仿真實(shí)驗(yàn),驗(yàn)證了該算法識(shí)別朝鮮語詞匯的準(zhǔn)確率較高。出錯(cuò)的主要原因有:①靜音部分過長(zhǎng)和無靜音時(shí)的差別;②朝鮮語發(fā)音規(guī)則決定個(gè)人發(fā)音特點(diǎn)的差異較大。這些問題都有待進(jìn)一步研究。

參考文獻(xiàn):

[1]MOKBEL, CHAFIC E,CHOLLET,et al.Automatic word recognition in cars[J].IEEE Transactions on Speech and Audio Processing,2005:346356.

[2]陳尚勤.近代語音識(shí)別[M].成都:電子科技大學(xué)出版社,1991.

[3]高宏濤,張德賢.語音識(shí)別技術(shù)研究及實(shí)現(xiàn)[J].光盤技術(shù),2007,(3):2428.