0
首頁(yè) 精品范文 語音識(shí)別

語音識(shí)別

時(shí)間:2022-05-29 10:25:06

開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇語音識(shí)別,希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。

第1篇

關(guān)鍵詞: 語音識(shí)別; 識(shí)別原理; 聲學(xué)建模方法; 多維模式識(shí)別系統(tǒng)

中圖分類號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學(xué)表現(xiàn),與機(jī)器進(jìn)行語音交流是人類一直以來的夢(mèng)想。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語音識(shí)別技術(shù)也取得突破性的成就,人與機(jī)器用自然語言進(jìn)行對(duì)話的夢(mèng)想逐步接近實(shí)現(xiàn)。語音識(shí)別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會(huì)朝著智能化和自動(dòng)化發(fā)展的關(guān)鍵技術(shù),使人們對(duì)信息的處理和獲取更加便捷,從而提高人們的工作效率。

1 語音識(shí)別技術(shù)的發(fā)展

語音識(shí)別技術(shù)起始于20世紀(jì)50年代。這一時(shí)期,語音識(shí)別的研究主要集中在對(duì)元音、輔音、數(shù)字以及孤立詞的識(shí)別。

20世紀(jì)60年代,語音識(shí)別研究取得實(shí)質(zhì)性進(jìn)展。線性預(yù)測(cè)分析和動(dòng)態(tài)規(guī)劃的提出較好地解決了語音信號(hào)模型的產(chǎn)生和語音信號(hào)不等長(zhǎng)兩個(gè)問題,并通過語音信號(hào)的線性預(yù)測(cè)編碼,有效地解決了語音信號(hào)的特征提取。

20世紀(jì)70年代,語音識(shí)別技術(shù)取得突破性進(jìn)展。基于動(dòng)態(tài)規(guī)劃的動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。

20世紀(jì)80年代,語音識(shí)別任務(wù)開始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語音的識(shí)別,識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語音時(shí)變性和平穩(wěn)性,開始被廣泛應(yīng)用于大詞匯量連續(xù)語音識(shí)別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學(xué)建模[2?3];在語言模型方面,以N元文法為代表的統(tǒng)計(jì)語言模型開始廣泛應(yīng)用于語音識(shí)別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模方法開始廣泛應(yīng)用于LVCSR系統(tǒng),語音識(shí)別技術(shù)取得新突破。

20世紀(jì)90年代以后,伴隨著語音識(shí)別系統(tǒng)走向?qū)嵱没?,語音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展[5]。同時(shí),人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識(shí)別算法以及進(jìn)一步的語言模型的研究等課題[6]。此外,語音識(shí)別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識(shí)別的準(zhǔn)確率,便于實(shí)現(xiàn)語音識(shí)別技術(shù)的產(chǎn)品化。

2 語音識(shí)別基礎(chǔ)

2.1 語音識(shí)別概念

語音識(shí)別是將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程[7]。語音識(shí)別以語音為研究對(duì)象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支。語音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域[8]。

根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對(duì)說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識(shí)別系統(tǒng);根據(jù)對(duì)說話人的依賴程度,可分為特定人和非特定人語音識(shí)別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)。

2.2 語音識(shí)別基本原理

從語音識(shí)別模型的角度講,主流的語音識(shí)別系統(tǒng)理論是建立在統(tǒng)計(jì)模式識(shí)別基礎(chǔ)之上的。語音識(shí)別的目標(biāo)是利用語音學(xué)與語言學(xué)信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉(zhuǎn)化成詞序列[W=w1,w2,…,wN]并輸出?;谧畲蠛篁?yàn)概率的語音識(shí)別模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要尋找的最可能的詞序列[W],應(yīng)該使[P(X|W)]與[P(W)]的乘積達(dá)到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學(xué)模型決定。[P(W)]是[W]獨(dú)立于語音特征矢量的先驗(yàn)概率,由語言模型決定。由于將概率取對(duì)數(shù)不影響[W]的選取,第四個(gè)等式成立。[logP(X|W)]與[logP(W)]分別表示聲學(xué)得分與語言得分,且分別通過聲學(xué)模型與語言模型計(jì)算得到。[λ]是平衡聲學(xué)模型與語言模型的權(quán)重。從語音識(shí)別系統(tǒng)構(gòu)成的角度講,一個(gè)完整的語音識(shí)別系統(tǒng)包括特征提取、聲學(xué)模型、語言模型、搜索算法等模塊。語音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng),對(duì)于不同的語音識(shí)別系統(tǒng),人們所采用的具體識(shí)別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語音信號(hào)送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫(kù)模塊,由聲音模式匹配模塊根據(jù)模型庫(kù)對(duì)該段語音進(jìn)行識(shí)別,最后得出識(shí)別結(jié)果[9]。

語音識(shí)別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語音信號(hào)中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動(dòng)增益控制等處理過程,將語音信號(hào)數(shù)字化;特征提取模塊對(duì)語音的聲學(xué)參數(shù)進(jìn)行分析后提取出語音特征參數(shù),形成特征矢量序列。語音識(shí)別系統(tǒng)常用的特征參數(shù)有短時(shí)平均幅度、短時(shí)平均能量、線性預(yù)測(cè)編碼系數(shù)、短時(shí)頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對(duì)識(shí)別效果極為重要。

圖1 語音識(shí)別基本原理框圖

由于語音信號(hào)本質(zhì)上屬于非平穩(wěn)信號(hào),目前對(duì)語音信號(hào)的分析是建立在短時(shí)平穩(wěn)性假設(shè)之上的。在對(duì)語音信號(hào)作短時(shí)平穩(wěn)假設(shè)后,通過對(duì)語音信號(hào)進(jìn)行加窗,實(shí)現(xiàn)短時(shí)語音片段上的特征提取。這些短時(shí)片段被稱為幀,以幀為單位的特征序列構(gòu)成語音識(shí)別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預(yù)測(cè)系數(shù)能夠從人耳聽覺特性的角度準(zhǔn)確刻畫語音信號(hào),已經(jīng)成為目前主流的語音特征。為補(bǔ)償幀間獨(dú)立性假設(shè),人們?cè)谑褂妹窢柕棺V系數(shù)及感知線性預(yù)測(cè)系數(shù)時(shí),通常加上它們的一階、二階差分,以引入信號(hào)特征的動(dòng)態(tài)特征。

聲學(xué)模型是語音識(shí)別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類、模型參數(shù)估計(jì)等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現(xiàn)象。在考慮了語境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡(jiǎn)化模型的訓(xùn)練。在訓(xùn)練過程中,系統(tǒng)對(duì)若干次訓(xùn)練語音進(jìn)行預(yù)處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語音的參考模式庫(kù)。

搜索是在指定的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)詞序列的過程。搜索的本質(zhì)是問題求解,廣泛應(yīng)用于語音識(shí)別、機(jī)器翻譯等人工智能和模式識(shí)別的各個(gè)領(lǐng)域。它通過利用已掌握的知識(shí)(聲學(xué)知識(shí)、語音學(xué)知識(shí)、詞典知識(shí)、語言模型知識(shí)等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對(duì)輸入的語音信號(hào)在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。在識(shí)別階段,將輸入語音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫(kù)中的模式進(jìn)行相似性度量比較,將相似度最高的模式所屬的類別作為識(shí)別中間候選結(jié)果輸出。為了提高識(shí)別的正確率,在后處理模塊中對(duì)上述得到的候選識(shí)別結(jié)果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識(shí)別結(jié)果的可靠程度等。最終通過增加約束,得到更可靠的識(shí)別結(jié)果。

2.3 聲學(xué)建模方法

常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識(shí)別法(ANN)等。

DTW 是較早的一種模式匹配的方法。它基于動(dòng)態(tài)規(guī)劃的思想,解決孤立詞語音識(shí)別中的語音信號(hào)特征參數(shù)序列比較時(shí)長(zhǎng)度不一的模板匹配問題。在實(shí)際應(yīng)用中,DTW通過計(jì)算已預(yù)處理和分幀的語音信號(hào)與參考模板之間的相似度,再按照某種距離測(cè)度計(jì)算出模板間的相似度并選擇最佳路徑。

HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)所建立的統(tǒng)計(jì)模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的,它是一種基于參數(shù)模型的統(tǒng)計(jì)識(shí)別方法。HMM可模仿人的言語過程,可視作一個(gè)雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程[10]。

ANN以數(shù)學(xué)模型模擬神經(jīng)元活動(dòng),將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對(duì)人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語音識(shí)別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識(shí)別算法,克服了ANN在描述語音信號(hào)時(shí)間動(dòng)態(tài)特性方面的缺點(diǎn),進(jìn)一步提高了語音識(shí)別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計(jì)音素或狀態(tài)的后驗(yàn)概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語音識(shí)別的準(zhǔn)確率。

3 語音識(shí)別的應(yīng)用

語音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識(shí)別語音中的要求、請(qǐng)求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯(cuò)的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時(shí)間,使人機(jī)交流變得簡(jiǎn)便易行,比如用于聲控語音撥號(hào)系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對(duì)話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語翻譯,即通過將口語識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實(shí)現(xiàn)跨語言交流[11]。

語音識(shí)別技術(shù)在軍事斗爭(zhēng)領(lǐng)域里也有著極為重要的應(yīng)用價(jià)值和極其廣闊的應(yīng)用空間。一些語音識(shí)別技術(shù)就是著眼于軍事活動(dòng)而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對(duì)語音識(shí)別系統(tǒng)的識(shí)別精度、響應(yīng)時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識(shí)別技術(shù)已在軍事指揮和控制自動(dòng)化方面得以應(yīng)用。比如,將語音識(shí)別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動(dòng)操作和控制各種開關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時(shí)間和精力集中于對(duì)攻擊目標(biāo)的判斷和完成其他操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術(shù)優(yōu)勢(shì)。

4 結(jié) 語

語音識(shí)別的研究工作對(duì)于信息化社會(huì)的發(fā)展,人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,語音識(shí)別技術(shù)將取得更多重大突破,語音識(shí)別系統(tǒng)的研究將會(huì)更加深入,有著更加廣闊的發(fā)展空間。

參考文獻(xiàn)

[1] 馬志欣,王宏,李鑫.語音識(shí)別技術(shù)綜述[J].昌吉學(xué)院學(xué)報(bào),2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào),2009,23(1):112?123.

[6] 顧亞強(qiáng).非特定人語音識(shí)別關(guān)鍵技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2009.

[7] 中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.GB/T21023?2007 中文語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2007.

[8] 王文慧.基于ARM的嵌入式語音識(shí)別系統(tǒng)研究[D].天津:天津大學(xué),2008.

[9] 何湘智.語音識(shí)別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化,2002(3):3?6.

第2篇

>> Linux平臺(tái)下的ALSA聲音編程 基于Sphinx的機(jī)器人語音識(shí)別系統(tǒng)構(gòu)建與研究 linux平臺(tái)下智能卡的支持方案 Linux平臺(tái)下的MySQL存儲(chǔ)管理技術(shù)研究 Linux平臺(tái)下FTP客戶端的設(shè)計(jì)思路 自主學(xué)習(xí)平臺(tái)下英語語音教學(xué)模式的構(gòu)建 TensorFlow平臺(tái)下的手寫字符識(shí)別 Linux平臺(tái)下數(shù)據(jù)包過濾防火墻的研究與實(shí)踐 基于SkyEye的虛擬嵌式平臺(tái)下Linux內(nèi)核移植技術(shù)的研究 Windows和Linux平臺(tái)下的腰椎治療儀實(shí)時(shí)仿真 嵌入式Linux平臺(tái)下隨機(jī)序列算法的設(shè)計(jì) IP多播技術(shù)在Linux平臺(tái)下電子教室中的應(yīng)用與研究 基于ARM11在Linux平臺(tái)下網(wǎng)絡(luò)通信的設(shè)計(jì)與實(shí)現(xiàn) Linux系統(tǒng)平臺(tái)下會(huì)計(jì)軟件的發(fā)展前景展望 虛擬機(jī)linux平臺(tái)下基于Xshell的遠(yuǎn)程登錄服務(wù)的設(shè)計(jì)與實(shí)現(xiàn) 在Linux平臺(tái)下基于MPI的并行PC集群搭建的實(shí)現(xiàn) 基于Sphinx4的語音解碼模塊設(shè)計(jì) 云服務(wù)安全平臺(tái)研究開發(fā)與語音識(shí)別應(yīng)用 基于車聯(lián)網(wǎng)平臺(tái)下自然語音辨識(shí)系統(tǒng)的研發(fā) .NET平臺(tái)下中文語音合成技術(shù)的研究與實(shí)踐 常見問題解答 當(dāng)前所在位置:l。提交文件后,會(huì)產(chǎn)生由4個(gè)數(shù)字和后綴名組成的文件,假設(shè)其中包括的兩個(gè)文件為8521.dic字典文件和8521.lm語言模型文件即我們所需要的文件??梢杂脙蓚€(gè)線程處理這一過程,從而提高程序的性能:一個(gè)線程用來監(jiān)聽和處理語音命令,一個(gè)線程用來執(zhí)行命令對(duì)應(yīng)的應(yīng)用程序,如圖1所示。

假設(shè)C語言源程序名為hello_ps.c則可以編寫如下的Makefile文件:

#Makefile for hello_ps.c

obj=hello_ps

modeldir=$(shell pkg-config--variable=modeldir pocketsphinx)

flags=$(shell pkg-config--cflags--libs pocketsphinx sphinxbase)

$(obj):$(obj).c

gcc $(obj).c-o $(obj)-DMODELDIR=\"$(modeldir)\"$(flags)

運(yùn)行make命令編譯即可產(chǎn)生hello_ps文件。然后運(yùn)行./hello_ps-lm 8521.lm -dict 8521.dic就可以測(cè)試了。

五、結(jié)束語

本文介紹了語音識(shí)別引擎pocketsphinx在Linux環(huán)境下的應(yīng)用程序編程,語音識(shí)別有著廣泛的應(yīng)用。如我們常見的聲控?fù)芴?hào)電話,語音識(shí)別鎖等等。語音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景色。

參考文獻(xiàn):

[1]Carnegie Mellon University./wiki/

[2]/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB

第3篇

關(guān)鍵詞:連續(xù)語音識(shí)別;關(guān)鍵技術(shù);創(chuàng)新

談到語音識(shí)別,就不得不提到李開復(fù)------前微軟研究院院長(zhǎng),他在哥倫比亞大學(xué)時(shí)主攻的就是語音識(shí)別,即通過機(jī)器來識(shí)別語音。語音識(shí)別是現(xiàn)代社會(huì)背景下的一門新興學(xué)科,它最主要的功能就是可以讓計(jì)算機(jī)聽懂人說的話,進(jìn)而為人們提供更高效且方便的服務(wù)。它是人類和計(jì)算機(jī)之間利用語言進(jìn)行交流 的橋梁,也是一門與多種學(xué)科緊密聯(lián)系的實(shí)用技術(shù)?,F(xiàn)階段,人們對(duì)連續(xù)語音識(shí)別的研究已經(jīng)取得了一定的成就。目前,我們研究語音識(shí)別的重點(diǎn)正在向特定應(yīng)用領(lǐng)域口語的識(shí)別和理解方面轉(zhuǎn)變。在這個(gè)研究中,有幾種關(guān)鍵技術(shù),下面我們就對(duì)其中幾種關(guān)鍵技術(shù)進(jìn)行簡(jiǎn)單的分析。

1、詞語定位技術(shù)

詞語定位技術(shù),在語音識(shí)別技術(shù)中非常重要的技術(shù)。主要通過對(duì)關(guān)鍵詞進(jìn)行定位,這種技術(shù)跟語言的語法特點(diǎn)有很大關(guān)系,是將語句中的關(guān)鍵詞語提取出來的一種定位技術(shù)。比如主語,謂語,賓語就是關(guān)鍵語素,先將這些語素定位對(duì)于完善整句話有著非常重要的意義,因?yàn)檫@些語素已經(jīng)勾勒出了語句的骨架。打個(gè)比方,蓋個(gè)房子要加鋼筋,來增加建筑物的強(qiáng)度和支撐作用,關(guān)鍵語素就是語句意群的鋼筋。通常詞語定位是通過設(shè)置并及時(shí)更新關(guān)鍵詞庫(kù)來實(shí)現(xiàn)的。

2、關(guān)聯(lián)搜索技術(shù)

在確定完基本語素后,就要根據(jù)語素之間的關(guān)聯(lián)性,進(jìn)行搜索,那些語素是一個(gè)意群,同在一個(gè)意群中的語素如何排列。利用相關(guān)性確定意群非常重要,因?yàn)樵~語詞之間不是任意搭配的,而是有規(guī)律的,這種規(guī)律就是語法,包括書面語語法和口語的語法。語法是語音識(shí)別的規(guī)則,因此是非常重要的。關(guān)聯(lián)的方式在語法的約束下主要有以下幾種:1.相關(guān)詞語出現(xiàn)的概率;2.相關(guān)詞語的詞性;3.相關(guān)詞語出現(xiàn)的語境的重復(fù)率等等。

連接詞識(shí)別就是說,系統(tǒng)中存儲(chǔ)的HMM針對(duì)的是孤立詞,但識(shí)別的語音是由這些詞組成的詞串。由于這一技術(shù)是一個(gè)連接序列,即根據(jù)給定發(fā)音序列來找到與其最匹配的參考模塊詞,所以,下面的問題必須得到解決:(1)在序列中,有些時(shí)候即使知道詞長(zhǎng)度的大概范圍,也不知道詞的具體數(shù)量;(2)除整個(gè)序列的首末端點(diǎn)之外,序列之中每個(gè)詞的邊界位置并不知道。

3、抗阻礙性

在語音識(shí)別系統(tǒng)中,阻礙無處不在,具體說來,阻礙包括以下幾個(gè)方面:1.方言帶來的語音識(shí)別的阻礙;2.口音帶來的語音識(shí)別的阻礙;3.外界干擾(噪聲)帶來的語音識(shí)別的阻礙;4.系統(tǒng)設(shè)備局限性帶來的語音識(shí)別的阻礙等等。

一般情況下,在實(shí)驗(yàn)室(環(huán)境相對(duì)安靜)中訓(xùn)練合格的語音識(shí)別系統(tǒng)用在實(shí)際環(huán)境(環(huán)境與訓(xùn)練的實(shí)驗(yàn)室環(huán)境不相匹配)的時(shí)候性能就會(huì)明顯下降。所以,運(yùn)用頑健語音識(shí)別技術(shù)就是為了研究一些補(bǔ)償技術(shù)借以提高系統(tǒng)在不同環(huán)境中的性能。

根據(jù)語音系統(tǒng)中噪聲的特點(diǎn),我們研究出了一些抑制噪聲的方法,如根據(jù)信號(hào)與噪聲在各個(gè)尺度上的小波譜表現(xiàn)不一樣的特點(diǎn),可以運(yùn)用小波變換的噪聲抑制;根據(jù)含噪語音信號(hào)能量譜就是噪聲信號(hào)和語音信號(hào)能量譜之和這一特點(diǎn),可以運(yùn)用EVRC編碼噪聲抑制方法,等等。

4、搜索策略技術(shù)

在利用計(jì)算機(jī)來識(shí)別語音的時(shí)候,未知的模式,即從輸入語音中求出的特征參數(shù),與事前所定的標(biāo)準(zhǔn)模式是否一致,這個(gè)問題必須檢查。目前語音識(shí)別的實(shí)現(xiàn)主要是通過聲音識(shí)別芯片分析聲音的波形來實(shí)現(xiàn)的,人的說話聲音有音調(diào)、音色的不同,因而所形成的生意的波形也不同,芯片通過比對(duì)聲音圖譜來確定語音內(nèi)容,達(dá)到聲音識(shí)別的目的,這也就是聲音識(shí)別的原理。然而,在實(shí)際情況中,由于語音具有許多的不確定的因素,想達(dá)到完全一致比較困難。搜索策略是連續(xù)語音識(shí)別研究中的一個(gè)是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時(shí)刻對(duì)每一條路徑都假定當(dāng)前幀有可能是這一路徑的后續(xù),借此進(jìn)行一個(gè)完整的搜索。

總體來說,搜索策略技術(shù)受到容量的限制。所以,我們必須確定應(yīng)該保留哪些路徑,這就要求我們確定一定閥值,這個(gè)閥值既不能過嚴(yán)也不能過寬。對(duì)于這個(gè)問題,我們一定要采用合適的算法,如傳統(tǒng)的幀同步算法、基于統(tǒng)計(jì)知識(shí)的幀同步搜索算法原理和受詞法約束的詞搜索樹等算法都是比較適合這一部分的。

結(jié)論:

    本文總結(jié)了連續(xù)語音識(shí)別中幾種關(guān)鍵技術(shù),并對(duì)它們進(jìn)行了簡(jiǎn)單的介紹和分析。目前連續(xù)語音識(shí)別技術(shù)的研究并不成熟,它要向正確的方向健康發(fā)展就必須把詞語定位技術(shù)、關(guān)聯(lián)搜索技術(shù)、抗阻礙性技術(shù)、搜索策略技術(shù)等技術(shù)都正確運(yùn)用于實(shí)際工作中。

參考文獻(xiàn):

[1]馮麗娟,吾守爾·斯拉木.維吾爾語連續(xù)語音識(shí)別技術(shù)研究[J].現(xiàn)代計(jì)算機(jī):下半月,2010,(1)

第4篇

轉(zhuǎn)機(jī)

讓計(jì)算機(jī)能夠識(shí)別人類的語音,從而使得人們能夠用自己的母語與計(jì)算機(jī)進(jìn)行人機(jī)交互,一直是計(jì)算機(jī)學(xué)科追求的目標(biāo)之一。談到語音識(shí)別,就不能不談一下李開復(fù)。

1983年秋,李開復(fù)進(jìn)入卡內(nèi)基·梅隆大學(xué),師從羅杰·瑞迪教授,攻讀博士學(xué)位。瑞迪建議李開復(fù)選擇不特定語者的語音識(shí)別系統(tǒng)作為研究方向,并建議采用專家系統(tǒng)的方法,來解決讓電腦聽懂每個(gè)人說的話的難題。瑞迪是人工智能領(lǐng)域的權(quán)威,后來還獲得1994年圖靈獎(jiǎng)。經(jīng)過近1年的研究,盡管研究有了一些進(jìn)展,但李開復(fù)最終認(rèn)識(shí)到,受技術(shù)發(fā)展的限制,專家系統(tǒng)相當(dāng)長(zhǎng)時(shí)間內(nèi)難以解決這一難題。在一位同門師兄的提醒下,李開復(fù)轉(zhuǎn)而采用統(tǒng)計(jì)模型的研究路徑,終獲成功。1988年,李開復(fù)獲得博士學(xué)位。時(shí)至今日,語音識(shí)別技術(shù)依舊采用的是李開復(fù)開創(chuàng)的統(tǒng)計(jì)模型。

1998年,IBM中文語音識(shí)別技術(shù)Via Voice在國(guó)內(nèi)PC市場(chǎng)掀起了一場(chǎng)中文語音輸入熱潮。第二年,當(dāng)今國(guó)內(nèi)最大的智能語音識(shí)別公司科大訊飛誕生于中國(guó)科技大學(xué)。

同年,出任微軟中國(guó)研究院院長(zhǎng)的李開復(fù)曾告訴媒體,語音識(shí)別需要的計(jì)算資源太多,實(shí)用化還要走很長(zhǎng)的路。

“中文語音識(shí)別市場(chǎng)在2000年左右逐漸由熱變冷,這主要是由于當(dāng)時(shí)算法還比較初級(jí),對(duì)計(jì)算資源的需求很大,產(chǎn)業(yè)環(huán)境也不成熟。于是,很多人轉(zhuǎn)去做別的行業(yè)。也正是在這個(gè)時(shí)候,我們團(tuán)隊(duì)的主要成員初涉這個(gè)領(lǐng)域,進(jìn)入研究所和高校讀博讀碩。”梁家恩就在那個(gè)時(shí)期考入中科院自動(dòng)化所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。模式識(shí)別實(shí)驗(yàn)室分為圖像識(shí)別和語音識(shí)別兩大研究方向,圖像識(shí)別領(lǐng)域誕生了漢王公司,而梁家恩則在語音識(shí)別領(lǐng)域歷經(jīng)5年寒窗,完成了碩博連讀。

梁家恩介紹說:“我們這些人一直專注于語音識(shí)別和語義理解的研究。到了2010年左右,語音識(shí)別技術(shù)取得了突破性進(jìn)展,移動(dòng)互聯(lián)網(wǎng)也得到普及。加之2011年10月蘋果iPhone 4S,作為新產(chǎn)品一大亮點(diǎn)的智能語音助手Siri在市場(chǎng)上再次引爆語音識(shí)別熱。我們覺得商業(yè)化的機(jī)會(huì)已經(jīng)成熟,2012年6月,我們創(chuàng)建了云知聲,并搭建了用于語音識(shí)別的公有云平臺(tái)。”

突破

雖然現(xiàn)在的語音識(shí)別還是采用統(tǒng)計(jì)算法,但這十多年來,語音識(shí)別技術(shù)發(fā)展很快。

“首先是數(shù)據(jù)資源豐富了,以前在實(shí)驗(yàn)室收集幾百個(gè)人的語音都非常困難,現(xiàn)在我們有了語音云平臺(tái),吸引了各地不同口音的人們,每天采集上百GB的數(shù)據(jù)量,樣本非常豐富,這有利于分析和改進(jìn)我們的系統(tǒng)。現(xiàn)在的樣本規(guī)模比李開復(fù)老師當(dāng)時(shí)做的系統(tǒng)的樣本規(guī)模擴(kuò)大了幾個(gè)數(shù)量級(jí),而且現(xiàn)在的數(shù)據(jù)都是真實(shí)數(shù)據(jù),遠(yuǎn)非那時(shí)模擬數(shù)據(jù)所能比擬,這在統(tǒng)計(jì)算法中至關(guān)重要。”梁家恩表示。

“二是統(tǒng)計(jì)技術(shù)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)等關(guān)鍵技術(shù)取得較大的突破,在環(huán)境噪聲處理和對(duì)口音識(shí)別方面的改進(jìn)非常明顯,識(shí)別率顯著提升。算法上也做了一些優(yōu)化,以前的算法你要做一系列實(shí)驗(yàn)可能需要一兩年的時(shí)間,根本沒法實(shí)現(xiàn)?!绷杭逸x說,“再有就是智能手機(jī)中CPU技術(shù)的進(jìn)步以及GPU的應(yīng)用,加之后臺(tái)云計(jì)算處理能力的提升,為智能語音識(shí)別提供了強(qiáng)大的計(jì)算資源?!?/p>

語音識(shí)別實(shí)際上是搜索。梁家恩介紹說,語音識(shí)別就是從一句話的聲波中提取語音特征,然后與后臺(tái)數(shù)據(jù)進(jìn)行匹配,由于現(xiàn)在的數(shù)據(jù)庫(kù)非常大,因此比對(duì)的精確度比過去要高得多。雖說都是搜索,但百度搜索是文本檢索,它要求捕獲全網(wǎng)信息的變化,即信息更新要快。而語音識(shí)別上,因?yàn)檎Z音特征與文本并沒有對(duì)應(yīng)關(guān)系,因此,比對(duì)精確度就成為語音識(shí)別的核心技術(shù)所在。

由于面向語音識(shí)別這一特定應(yīng)用,云知聲的公有云平臺(tái)與通用的云平臺(tái)也有所區(qū)別?!拔覀兊讓硬捎玫囊彩羌杭軜?gòu),單臺(tái)服務(wù)器并發(fā)線程數(shù)達(dá)到100,這已是業(yè)界最快的;再通過災(zāi)備、安全等技術(shù)來確保平臺(tái)的穩(wěn)??;然后是將目前已經(jīng)建立的北京、上海和廣州機(jī)房的計(jì)算資源聯(lián)在一起。我們也對(duì)虛擬化做了測(cè)試,但虛擬化會(huì)帶來5%~10%的性能損失,這與我們追求性能最高化的目標(biāo)不符合。因此,我們采用高性能計(jì)算平臺(tái),讓硬件對(duì)語音識(shí)別這一特定應(yīng)用進(jìn)行優(yōu)化?!?/p>

互聯(lián)網(wǎng)思維

伴隨著智能手機(jī)和平板電腦取代PC成為個(gè)人計(jì)算市場(chǎng)的主流,人機(jī)交互也從傳統(tǒng)的鍵盤操作轉(zhuǎn)換為觸屏操作。而在注重用戶體驗(yàn)的移動(dòng)互聯(lián)網(wǎng)時(shí)代,智能語音識(shí)別將帶來更快更方便的用戶體驗(yàn),特別是在車載、可穿戴式電腦等應(yīng)用上。

梁家恩認(rèn)為,作為自然高效的交互方式,智能語音技術(shù)不僅要識(shí)別用戶的話語,而且還要能夠智能地通過屏幕或者TTS(從文本到語音)的方式實(shí)現(xiàn)與用戶交流,因而在智能移動(dòng)設(shè)備、廣播電視、呼叫中心、會(huì)議記錄、語言學(xué)習(xí)、知識(shí)學(xué)習(xí)、互動(dòng)娛樂等領(lǐng)域有著廣闊的應(yīng)用前景。

“我想查一下今天晚上北京飛上海的航班。”在采訪過程中梁家恩對(duì)著手機(jī)說,話音剛落,手機(jī)屏幕上刷新出北京至上海的航班信息。

這個(gè)簡(jiǎn)單的演示可以直白地反映出云知聲的商業(yè)模式。由于智能手機(jī)與機(jī)主的對(duì)應(yīng)關(guān)系,加之其定位和支付功能,這句話已經(jīng)包含了這一具有在線支付手同的潛在顧客是誰、在什么地方、具體需求是什么。這對(duì)于商家而言,客戶信息已經(jīng)足夠了,商家甚至還可以通過手機(jī)號(hào)碼來關(guān)聯(lián)客戶的信用、過往的消費(fèi)習(xí)慣等,從而做出精準(zhǔn)的營(yíng)銷響應(yīng)。

“我們不像現(xiàn)在市場(chǎng)有的語音識(shí)別公司那樣,通過軟件授權(quán)的方式向用戶收費(fèi)。我們相信互聯(lián)網(wǎng)的力量,所有語音用戶需求匯總到后臺(tái)后,所蘊(yùn)含的商業(yè)價(jià)值要遠(yuǎn)遠(yuǎn)大于軟件授權(quán)帶來的價(jià)值?!绷杭叶髡f,“我們承諾將公有云平臺(tái)服務(wù)的體驗(yàn)做到極致并且永遠(yuǎn)免費(fèi),同時(shí)云知聲的智能語音技術(shù)向合作伙伴完全開放,即不限領(lǐng)域、不限形態(tài)、不限商業(yè)模式。當(dāng)后臺(tái)數(shù)據(jù)的商業(yè)價(jià)值變現(xiàn)時(shí),我們將與合作伙伴分成?!?/p>

第5篇

關(guān)鍵詞:語音識(shí)別技術(shù);內(nèi)容監(jiān)管;應(yīng)用

中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2017)08-0020-01

隨著廣播電視管理的不斷完善,對(duì)電視節(jié)目?jī)?nèi)容的監(jiān)管也越來越嚴(yán)格,對(duì)音頻搜索等技術(shù)的需求也在逐漸增加。但是,音頻搜索技術(shù)還有很多難題尚未解決,如中文分詞瓶頸、第三方數(shù)據(jù)存儲(chǔ)量限制、數(shù)據(jù)處理分析瓶頸和音頻識(shí)別準(zhǔn)確度等等,這樣在應(yīng)用時(shí)會(huì)出現(xiàn)很多問題,相關(guān)部門需加大研發(fā)力度,讓音頻識(shí)別技術(shù)更加完善和規(guī)范。

1 語音識(shí)別關(guān)鍵技術(shù)介紹

1.1 語音模型自適應(yīng)技術(shù)

因?yàn)榄h(huán)境、人的性別和口音等因素的干擾,語音數(shù)據(jù)會(huì)產(chǎn)生較大變化,在特殊條件下的訓(xùn)練無法推廣應(yīng)用,而自適應(yīng)就可以根據(jù)測(cè)試數(shù)據(jù)進(jìn)行調(diào)整避免誤判。在變換的自適應(yīng)中,采用相同的變換更新參數(shù),當(dāng)自適應(yīng)模型參數(shù)確定后,就可以用少量自適應(yīng)數(shù)據(jù)變換方程,利用變換方程來重新估計(jì)模型參數(shù)[1]。一般來說,變換方程的數(shù)目小于目標(biāo)模型參數(shù),所以使用少量自適應(yīng)數(shù)據(jù)就可以估計(jì)出變換方程。但是變換方程并不能探測(cè)出單個(gè)模型的特征,其漸進(jìn)性較差,無法估計(jì)特征相近人模型。

1.2 說話人識(shí)別技術(shù)

說話人識(shí)別也被稱為聲紋識(shí)別,通過語音信號(hào)來識(shí)別說話人的身份。說話人識(shí)別主要分為兩類,即開集識(shí)別和閉集識(shí)別,兩者主要通過是否需要拒識(shí)來區(qū)別。開集識(shí)別更具普遍性,相比閉集識(shí)別技術(shù)更難。比如說,我們同時(shí)監(jiān)聽多個(gè)人說話,開集識(shí)別需要在多個(gè)說話人中找到指定的說話人。開集說話有兩大缺陷:虛警錯(cuò)誤和漏報(bào)錯(cuò)誤,兩者之間互相制約互相影響。在應(yīng)用過程中,可調(diào)整識(shí)別模塊更傾向于少虛警錯(cuò)誤或漏報(bào)錯(cuò)誤。研究中會(huì)通過等錯(cuò)誤率去判斷說話人識(shí)別系統(tǒng)的性能是否達(dá)標(biāo),如果虛警錯(cuò)誤率和漏報(bào)錯(cuò)誤率相等就是等錯(cuò)誤率[2]。等錯(cuò)誤率會(huì)受到測(cè)試語音長(zhǎng)短、樣本語音信道匹配度和說話人語音長(zhǎng)短等因素的影響,如果說話人語音越長(zhǎng),測(cè)試語音也就越長(zhǎng),兩者的差異也就越小,等錯(cuò)誤率也會(huì)相應(yīng)降低。

1.3 P鍵詞識(shí)別技術(shù)

關(guān)鍵詞識(shí)別技術(shù)分為單階段系統(tǒng)和兩階段系統(tǒng)兩大類,單階段系統(tǒng)識(shí)別主要是在關(guān)鍵詞系統(tǒng)中進(jìn)行識(shí)別,當(dāng)關(guān)鍵詞出現(xiàn)變化,系統(tǒng)就要重新識(shí)別。兩階段系統(tǒng)是將一般意義的連續(xù)語音轉(zhuǎn)換為文本,然后借助文本匹配途徑找到關(guān)鍵詞。這種系統(tǒng)比較靈活,可以隨時(shí)變換關(guān)鍵詞,是目前使用最多的關(guān)鍵詞識(shí)別技術(shù)。通過語音關(guān)鍵詞檢測(cè)特定內(nèi)容具有兩個(gè)優(yōu)勢(shì):首先是準(zhǔn)確率更高,其次是關(guān)鍵詞會(huì)多次出現(xiàn)。這樣在內(nèi)容監(jiān)管中就可以允許出現(xiàn)漏檢錯(cuò)誤,不必每次都準(zhǔn)確地識(shí)別關(guān)鍵詞。

2 語音識(shí)別技術(shù)的具體應(yīng)用

2.1 音頻模板匹配技術(shù)

在已知節(jié)目片頭曲的條件下,可以使用音頻模板匹配技術(shù)進(jìn)行自動(dòng)打點(diǎn)和分割。因?yàn)槭艿揭纛l壓縮和信號(hào)傳輸?shù)挠绊?,?dǎo)致模板之間存在差異,就可以通過提取多頻帶能量相對(duì)比率,利用各個(gè)頻帶能量分布趨勢(shì)穩(wěn)定的特點(diǎn),就可以解決音頻信號(hào)扭曲造成的不穩(wěn)定問題。

2.2 音頻切分和分類技術(shù)

在處理廣播電視音頻信息的時(shí)候,例如語音識(shí)別和檢測(cè)關(guān)鍵詞,需要先對(duì)廣播電視的音頻進(jìn)行切分,一般都會(huì)采用靜音檢測(cè)法來切分,這樣可以準(zhǔn)確定位,為音頻分類工作奠定了基礎(chǔ)。對(duì)切分的音頻片段進(jìn)行分類,需要根據(jù)音頻類型采取不同的處理方法。非靜音主要分為語音和非語音兩類,而語音又分為純語音和非純語音,非語音分為音樂和環(huán)境音。

2.3 自動(dòng)發(fā)現(xiàn)技術(shù)

將廣告識(shí)別作為案例,利用音頻檢測(cè)獲取新廣告:首先是針對(duì)未知節(jié)目和廣告而設(shè)計(jì),因此需要去除已知模板,這樣可以減少計(jì)算量。接著是利用音頻向量的快速搜索算法確定重復(fù)片段的預(yù)留位置,因?yàn)橐纛l向量都是通過音頻段的信息展開檢索,就會(huì)出現(xiàn)音頻字分布相同、但排列不同的音頻片段,也會(huì)有一些錯(cuò)誤片段,所以需要篩選過濾一遍。最后是利用音頻指紋搜索找出音頻向量模型的重復(fù)片段。因?yàn)橐纛l指紋檢索技術(shù)是利用音頻幀的排列信息開展工作,所以準(zhǔn)確度更高,可以檢測(cè)出誤報(bào)片段。完成上述步驟以后,就可以通過圖像幀變化率來區(qū)分非廣告的重復(fù)部分。因?yàn)閺V告的播出費(fèi)用是按照播放時(shí)間來定的,所以廣告商需要在有限的時(shí)間內(nèi)向觀眾傳遞更多的信息,所以視頻幀的變化率就比較大,而電視劇的變化率較小,這樣就可以去除重播的非廣告類節(jié)目[3]。

3 結(jié)語

隨著科學(xué)技術(shù)的不斷發(fā)展,語音識(shí)別技術(shù)的應(yīng)用范圍也越來越廣,識(shí)別的準(zhǔn)確度也在不斷提高。廣播電視對(duì)語音監(jiān)管的要求也在提高,語音識(shí)別技術(shù)必須達(dá)到要求,這樣不僅可以提高節(jié)目的搜索速度,對(duì)關(guān)鍵內(nèi)容進(jìn)行快速定位,還可以減輕工作人員的工作壓力,提升監(jiān)管水平。

參考文獻(xiàn)

[1]陳彪,丁鵬.一種基于語音關(guān)鍵詞識(shí)別的廣播電視內(nèi)容監(jiān)測(cè)系統(tǒng)[J].廣播與電視技術(shù),2015,26(12):31-32.

第6篇

關(guān)鍵詞 機(jī)器人 語音識(shí)別 聲學(xué)模型 語音特征參數(shù)

中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A

1語音識(shí)別技術(shù)的研究意義

人們使用的聲音語言是一種人在特定高度思維和意識(shí)活動(dòng)下的產(chǎn)品。語言是人類最直接以及最理想的交流方式,也是人機(jī)通信是最方便的方式。在機(jī)器人發(fā)展的高級(jí)發(fā)展階段中,機(jī)器人的智能語音識(shí)別與人類的活動(dòng)是密切相關(guān)的,有聲語言的人機(jī)交互信息成為重要的手段。例如,語音識(shí)別獲取外界信息很自然,沒有特殊的訓(xùn)練方法,隨著機(jī)器人技術(shù)的發(fā)展和廣泛應(yīng)用,有越來越多的機(jī)會(huì)來接觸人類和機(jī)器人,所以人們希望通過語音識(shí)別和機(jī)器人去處理,不管誰能能準(zhǔn)確安全,方便地操縱機(jī)器人。機(jī)器人和人類之間的信息交互,表現(xiàn)在兩個(gè)方面,一是對(duì)更高層次的機(jī)器人操作,方便軟件的設(shè)計(jì)開發(fā),這種多為教學(xué)機(jī)器人,另一種是在實(shí)際操作的要求下完成信息交互任務(wù)的機(jī)器人。智能機(jī)器人作為機(jī)器人技術(shù)發(fā)展的高級(jí)階段,其發(fā)展趨勢(shì)是:不僅要求機(jī)器人具有高度的自治能力,還要使機(jī)器人和人類之間的協(xié)調(diào)也具有一定的智能性。這就要求機(jī)器人具有不同的高性能主動(dòng)做事能力,而不是被動(dòng)地接受任務(wù),為了實(shí)現(xiàn)這一目標(biāo),自然語言作為人機(jī)信息交換將發(fā)揮越來越重要的作用。目前,智能機(jī)器人已成為機(jī)器人研究領(lǐng)域的一個(gè)熱點(diǎn)。工業(yè)機(jī)器人是智能機(jī)器人的一個(gè)重要研究領(lǐng)域。當(dāng)今,工業(yè)機(jī)器人的發(fā)展方興未艾,巨大的市場(chǎng)潛力,使真正的工業(yè)機(jī)器人的已經(jīng)在市場(chǎng)上嶄露頭角,以滿足人們?nèi)找嬖鲩L(zhǎng)的需求,我們不能沒有一個(gè)高性能的語音識(shí)別系統(tǒng)。由于工業(yè)機(jī)器人是面向生產(chǎn)實(shí)際的需要,最好的工作方式是讓機(jī)器人能顧聽懂最常見的人類語言,完成指定的工作,并能與人交流。機(jī)器人語音識(shí)別是機(jī)器人研究領(lǐng)域中的語音識(shí)別應(yīng)用,最終的目標(biāo)是讓機(jī)器人了解人們的口頭語言,然后按照人們的命令來行動(dòng)或反應(yīng),從而形成一個(gè)良好的人機(jī)對(duì)話系統(tǒng)。為了能夠進(jìn)一步推動(dòng)智能機(jī)器人的開發(fā)應(yīng)用,因此,在語音識(shí)別機(jī)器人的研究領(lǐng)域中,機(jī)器人語音識(shí)別系統(tǒng)是工業(yè)機(jī)器人的實(shí)際推廣應(yīng)用,具有重要的意義。

語音識(shí)別技術(shù)在智能機(jī)器人中的應(yīng)用已經(jīng)有很多年的歷史,作為智能機(jī)器人的一個(gè)分支,工業(yè)機(jī)器人得到了迅速發(fā)展,工業(yè)機(jī)器人通過語音識(shí)別從工業(yè)噪聲中提取有效的語音命令。為了實(shí)現(xiàn)機(jī)器人在一些特殊工業(yè)環(huán)境中工作的目的,機(jī)器人要能夠識(shí)別命令意圖。語音識(shí)別技術(shù),可以實(shí)現(xiàn)人機(jī)對(duì)話,從而讓機(jī)器能模仿人類完成所有工作的分配,使其在各行各業(yè)中能夠得以應(yīng)用。目前所面臨的實(shí)際問題是:噪聲和干擾環(huán)境下對(duì)大型工業(yè)機(jī)器人的語音識(shí)別有嚴(yán)重的影響。在機(jī)器人識(shí)別領(lǐng)域,工業(yè)環(huán)境中的實(shí)時(shí)性是一個(gè)非常重要的任務(wù)。機(jī)器人在工業(yè)環(huán)境下應(yīng)用的聽覺識(shí)別是使智能機(jī)器人發(fā)展速率低的瓶頸。

2語音識(shí)別系統(tǒng)的發(fā)展

2.1語音識(shí)別系統(tǒng)的發(fā)展方向

語音識(shí)別系統(tǒng)是基于一套應(yīng)用軟件系統(tǒng)的硬件平臺(tái)和操作系統(tǒng)的一些。語音識(shí)別一般分為兩個(gè)步驟。第一步是學(xué)習(xí)或培訓(xùn)。這一階段的任務(wù)是建立基本單元的聲學(xué)模型來進(jìn)行識(shí)別和模型的語音語法分析等。第二步是識(shí)別或測(cè)試。根據(jù)識(shí)別系統(tǒng)的類型可以滿足一個(gè)識(shí)別方法的要求,使用語音分析的方法來分析語音特征參數(shù),并建立了比較和測(cè)量系統(tǒng)模型,根據(jù)一定的標(biāo)準(zhǔn),鑒定結(jié)果。

語音識(shí)別系統(tǒng)的應(yīng)用可分為兩個(gè)發(fā)展方向,其中一個(gè)是大詞匯連續(xù)語音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及結(jié)合電話網(wǎng)或互聯(lián)網(wǎng)的語音信息服務(wù)系統(tǒng),這些系統(tǒng)是在計(jì)算機(jī)平臺(tái)上的一個(gè)重要發(fā)展方向。其次是應(yīng)用的小型化,便攜式音頻產(chǎn)品,如無線移動(dòng)電話的撥號(hào),語音控制車載設(shè)備,智能玩具,家用電器和其他方面的應(yīng)用的遠(yuǎn)程控制,這些應(yīng)用系統(tǒng)大多采用特殊的硬件系統(tǒng)來實(shí)現(xiàn),特別是語音信號(hào)處理芯片和語音識(shí)別芯片,最近幾年快速發(fā)展,為其廣泛應(yīng)用創(chuàng)造了極為有利的條件。

2.2語音識(shí)別系統(tǒng)的模型與模式

語音識(shí)別系統(tǒng)的核心是聲學(xué)模型和模式分類。首先通過學(xué)習(xí)算法,訓(xùn)練語音聲學(xué)模型的特點(diǎn)是通過學(xué)習(xí)過程來生成聲學(xué)模型,這是識(shí)別潛在的模型的前提,是最關(guān)鍵的語音識(shí)別系統(tǒng)的一部分。聲學(xué)模型的目的是提供一種有效的方法來計(jì)算特征向量的聲音序列和每個(gè)發(fā)音模板之間的距離。人的發(fā)音在每一刻發(fā)音之前和之后都會(huì)受到影響。

為了模仿自然連續(xù)的協(xié)同發(fā)音和識(shí)別不同的發(fā)音,通常需要使用復(fù)雜的聲學(xué)模型。聲學(xué)模型和語言的發(fā)音特點(diǎn)的設(shè)計(jì)是密切相關(guān)的。聲學(xué)模型單元大小與單詞發(fā)音,音節(jié)模式和音位語音訓(xùn)練數(shù)據(jù)大小有關(guān),故要求其系統(tǒng)識(shí)別具有很大的靈活性。大詞匯量語音識(shí)別系統(tǒng),通常采用較小的單元和少量的計(jì)算,該模型只有較小的存儲(chǔ)容量,減少訓(xùn)練數(shù)據(jù)的數(shù)量,但相應(yīng)的聲音定位和分割問題就顯得更加困難,規(guī)則識(shí)別模型變得越來越復(fù)雜。通常大型模型中識(shí)別單元包括協(xié)同發(fā)音,這有利于提高系統(tǒng)的識(shí)別率,但訓(xùn)練數(shù)據(jù)也相對(duì)增加。必須根據(jù)不同語言的特點(diǎn)來識(shí)別詞匯,詞匯量大小決定單位大小。

參考文獻(xiàn)

第7篇

關(guān)鍵詞:語音識(shí)別;LD3320;STM32F407;W25Q128

隨著科技的發(fā)展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現(xiàn)在的語音操作,其越來越便捷,越來越人性化。語音操作的基礎(chǔ)就是語音識(shí)別技術(shù)(Automatic Speech Recognition),簡(jiǎn)稱ASR,其目標(biāo)就將人類語言轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。語音識(shí)別作為一門交叉學(xué)科,從產(chǎn)生到現(xiàn)在已取得了顯著的進(jìn)步,現(xiàn)在已逐步走向市場(chǎng),并且人們預(yù)計(jì),語音識(shí)別技術(shù)在未來10年將會(huì)應(yīng)用于人們生活的各個(gè)領(lǐng)域。

根據(jù)發(fā)音人的不同,語音識(shí)別技術(shù)可分為特定人語音識(shí)別和非特定人語音識(shí)別兩類,前者只能識(shí)別一個(gè)或幾個(gè)人的語音,而后者則能被任何人使用。本文設(shè)計(jì)的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語音識(shí)別芯片,并配以存儲(chǔ)空間為16M字節(jié)的W25Q128芯片,能夠?qū)崿F(xiàn)2000個(gè)場(chǎng)景共計(jì)識(shí)別句100000條的語音識(shí)別操作。

1 系統(tǒng)整體結(jié)構(gòu)

如圖1所示,整個(gè)系統(tǒng)主要是由STM32F407處理器、LD3320語音識(shí)別芯片以及W25Q128Flash芯片構(gòu)成。其中STM32F407處理器用于切換場(chǎng)景和場(chǎng)景關(guān)鍵詞更改;LD3320語音識(shí)別芯片用于語音識(shí)別,W25Q128Flash芯片用于存識(shí)別句,兩種都是通過SPI總線與處理器相連。整套系統(tǒng)與外部其他系統(tǒng)則是通過串口進(jìn)行通信。

2 系統(tǒng)硬件介紹及存儲(chǔ)空間設(shè)計(jì)

2.1 系統(tǒng)硬件介紹

2.1.1 STM32F407ZGT6處理器

STM32F407ZGT6采用Cortex_M4內(nèi)核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個(gè)SPI、6個(gè)串口等?;谄鋸?qiáng)大的配置,所以本系統(tǒng)的處理器選用該芯片。

2.1.2 LD3320語音識(shí)別模塊

LD3320語音識(shí)別模塊是ICRoute公司的一款產(chǎn)品,其特有的快速而穩(wěn)定的優(yōu)化算法,能夠完成非特定人語音識(shí)別,識(shí)別準(zhǔn)確率高達(dá)95%。該模塊每次最多可以設(shè)置50條候選識(shí)別詞或識(shí)別句,只要單個(gè)詞或句長(zhǎng)度不超過10個(gè)漢字和79字節(jié)的拼音串,同時(shí)我們可以對(duì)識(shí)別內(nèi)容動(dòng)態(tài)編輯。模塊的通訊方式有并行和串行兩種,根據(jù)需求的不同可以選擇不同的通訊方式。除了語音識(shí)別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數(shù)據(jù)依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。

2.1.3 W25Q128Flash芯片

W25Q128是華邦公司推出的大容量SPIFLASH產(chǎn)品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個(gè)扇區(qū),每個(gè)扇區(qū)4KB。由于W25Q128的最小擦除單位為一扇區(qū),也就是說每次擦除4KB。

2.2 存儲(chǔ)空間設(shè)計(jì)

由于W25Q128芯片每次擦除的單位為4KB,而每句識(shí)別語句至少有80字節(jié),一個(gè)場(chǎng)景有50句識(shí)別語句,所以一個(gè)扇區(qū)用于一個(gè)場(chǎng)景是不夠的,因此我們將兩個(gè)扇區(qū)劃為一個(gè)場(chǎng)景;圖2是單個(gè)場(chǎng)景數(shù)據(jù)存儲(chǔ)關(guān)系圖,圖中每個(gè)場(chǎng)景占8192字節(jié),每條識(shí)別語句占100個(gè)字節(jié),其中第一個(gè)字節(jié)為識(shí)別語句編號(hào),范圍為1-50;單個(gè)場(chǎng)景的第一個(gè)扇區(qū)可以存儲(chǔ)40條識(shí)別語句,第二個(gè)扇區(qū)可以存儲(chǔ)10條識(shí)別語句,其中第4000B-4096B和5096B-8190B保留,不存儲(chǔ)數(shù)據(jù),整個(gè)場(chǎng)景的最后兩個(gè)字節(jié)用于存儲(chǔ)場(chǎng)景編號(hào),范圍為1-2000。W25Q128共有4096個(gè)扇區(qū),理論上可以劃分2048個(gè)場(chǎng)景,但是我們只劃分2000個(gè)場(chǎng)景,也就是4000個(gè)扇區(qū);還剩下96個(gè)扇區(qū),剩下的第1-50扇區(qū)用于存放每個(gè)場(chǎng)景的相關(guān)信息,計(jì)算可以得到每個(gè)場(chǎng)景有1KB的存儲(chǔ)空間,然后我們將最后一個(gè)扇區(qū)的最后兩個(gè)字節(jié)存儲(chǔ)現(xiàn)在所在場(chǎng)景編號(hào),剩下的空間保留。

3 系統(tǒng)軟件設(shè)計(jì)

3.1 通訊協(xié)議格式設(shè)置

整個(gè)系統(tǒng)主要具有場(chǎng)景切換和場(chǎng)景識(shí)別語句存取功能,表1是部分對(duì)應(yīng)協(xié)議格式。

3.2 初始化函數(shù)及操作函數(shù)介紹

STM32處理器與其他各個(gè)模塊建立通信連接,除了連接好對(duì)應(yīng)IO口后,還需要對(duì)各個(gè)IO進(jìn)行初始化,這樣才能進(jìn)行數(shù)據(jù)的收發(fā),以下是主函數(shù)中相關(guān)初始化函數(shù):

NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設(shè)置系統(tǒng)中斷優(yōu)先級(jí)分組

delay_init(168); //初始化延時(shí)函數(shù)

LED_Init();//指示燈初始化

KEY_Init();//按鍵初始化

IWDOG_Init();//看門狗初始化

USART1_Init(9600);//初始化串口1

W25QXX_Init();//W25Q128初始化

LD3320_Init();//LD3320初始化

while(W25QXX_ReadID()!=W25Q128) //檢測(cè)是否存在W25Q128

{

LED0=!LED0; //如果檢測(cè)不到W25Q128指示燈1會(huì)不停閃爍

}

第8篇

關(guān)鍵詞:Mel頻率倒譜系數(shù);支持向量機(jī);語音識(shí)別;特征提取

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2012)003-0153-02

作者簡(jiǎn)介:李玲俐(1977-),女,湖北洪湖人,碩士,廣東司法警官職業(yè)學(xué)院講師,研究方向?yàn)閿?shù)據(jù)挖掘與模式識(shí)別。

0 引言

語音識(shí)別是一種模式識(shí)別,就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)3個(gè)方面。目前一些語音識(shí)別系統(tǒng)的適應(yīng)性比較差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),因此要提高系統(tǒng)魯棒性和自適應(yīng)能力。支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計(jì)學(xué)理論發(fā)展起來的新的機(jī)器學(xué)習(xí)方法,采用將數(shù)據(jù)從低維空間映射到高維空間的思想,由支持向量來決定最優(yōu)分割線,SVM先自動(dòng)找出對(duì)分類有較好區(qū)分能力的支持矢量,然后構(gòu)造出分類器來最大化類與類的間隔,因此有較好的適應(yīng)能力和較高的分準(zhǔn)率。

本文在現(xiàn)有語音識(shí)別技術(shù)基礎(chǔ)上,提出一種MFCC(Mel Frequency Cepstrum Coefficients,Mel頻率倒譜系數(shù))+SVM的語音識(shí)別方法,實(shí)現(xiàn)對(duì)幾種英文單詞的分類。實(shí)驗(yàn)結(jié)果表明,該識(shí)別方法具有較高的準(zhǔn)確率。

1 語音識(shí)別系統(tǒng)

語音識(shí)別過程一般分為3個(gè)階段:信號(hào)處理、特征提取和模式識(shí)別,如圖1所示。

1.1 MFCC特征提取

特征提取是數(shù)據(jù)挖掘和模式識(shí)別中的一個(gè)重要步驟。其目的是從原有特征數(shù)據(jù)中提取出與特定任務(wù),如分類、壓縮、識(shí)別等密切相關(guān)的新特征(或特征子集),以有效地完成特定任務(wù)或進(jìn)一步減少計(jì)算量。

研究者通常使用經(jīng)典的特征提取技術(shù),如MFCC、連續(xù)小波變換(Continuous Wavelet Transform,CWT)和短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)來提取語音片段的特征。Mel頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對(duì)應(yīng)關(guān)系。MFCC則是利用它們之間的這種關(guān)系,計(jì)算得到的Hz頻譜特征。由于MFCC具有良好的識(shí)別性能和抗噪能力,在語音識(shí)別中得到廣泛的使用,而且研究人員仍在對(duì)MFCC的各種參數(shù)進(jìn)行實(shí)驗(yàn)和調(diào)整,并通過同其它模型的協(xié)同工作來找出提高識(shí)別率的方法。

MFCC參數(shù)的提取包括以下幾個(gè)步驟(如圖2所示):

(1)預(yù)加重。通過一個(gè)一階有限激勵(lì)響應(yīng)高通濾波器,使信號(hào)的頻譜變得平坦,不易受到有限字長(zhǎng)效應(yīng)的影響。

(2)分幀。根據(jù)語音的短時(shí)平穩(wěn)特性,語音可以以幀為單位進(jìn)行處理。n為每一幀語音采樣序列的點(diǎn)數(shù),本系統(tǒng)取n=256。

(3)加窗。為了減小語音幀的截?cái)嘈?yīng),降低幀兩端的坡度,使語音幀的兩端不引起急劇變化而平滑過渡,需要讓語音幀乘以一個(gè)窗函數(shù)。目前常用的窗函數(shù)是Hamming窗。

(4)對(duì)每幀序列s(n)進(jìn)行預(yù)加重、分幀加窗后,然后經(jīng)過離散FFT變換,將s(n)取模的平方得到離散功率譜S(n)。

(5)計(jì)算S(n)通過M個(gè)濾波器Hm(n)后所得的功率譜,即計(jì)算S(n)和Hm(n)在各離散頻率點(diǎn)上的乘積之和,得到M個(gè)參數(shù)Pm,m=0,1,…,M-1。

(6)計(jì)算Pm的自然對(duì)數(shù),得到Lm,m=0,1,…,M-1。

(7)對(duì)L0,L1,…,Lm-1計(jì)算其離散余弦變換,得到Dm,m=0,1,…,M-1。

(8)舍去代表直流成分的L0,L1,…,Lm-1,取L0,L1,…,Lm-1作為MFCC參數(shù)。

1.2 SVM分類器設(shè)計(jì)

在線性可分的情況下,SVM構(gòu)造一個(gè)超平面H,設(shè)線性可分樣本集為(xi,yi),i=1,2,…,n,U∈{+1,-1} 是類別標(biāo)號(hào)。所有在這個(gè)超平面上的點(diǎn)x滿足:

w?x+b=0

其中:w為權(quán)重向量,b為分類閾值。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,在保證分類間隔最大,即尋找最優(yōu)分類面的條件下,w和b必須滿足如下條件:

yi[(w?xi)+b]≥1

xi為訓(xùn)練樣本,在此約束下,求解最優(yōu)超平面問題可以轉(zhuǎn)換為求函數(shù):Φ(w)=12w2=12(w?w)的最小值。最優(yōu)問題的解由Lagrange函數(shù)的極值點(diǎn)給出:

L(w,b,α)=12w2-∑li=1αi{yi[(w?xi)+b]-1}

αi為L(zhǎng)agrange乘子,對(duì)w和b求偏導(dǎo),并令所求式為零,求得:

∑li=1yiαi=0

對(duì)于線性不可分的情況,可以通過非線性變換轉(zhuǎn)化為某個(gè)高維空間中的線性問題。即將SVM中的內(nèi)積x?y由核函數(shù)K(x,y)所取代。常用的核函數(shù)有:

(1)多項(xiàng)式核函數(shù)K(x,xi)=[(x?xi)+b]d,其中d是多項(xiàng)式的階數(shù)。

(2)Gauss核函數(shù)K(x,xi)=exp-x-xiσ2 ,其中σ是Gauss函數(shù)的寬度。

(3)Sigmoid核函數(shù)K(x,xi)=tanh[v(x,xi)+c],其中v和c是尺度和偏置參數(shù)。

由經(jīng)驗(yàn)觀察可知,Gauss核函數(shù)比其它兩種核函數(shù)優(yōu)越,所以本文選用Gauss核函數(shù),對(duì)于給定的核函數(shù)。最優(yōu)分類函數(shù)為:

yi=sgn∑xi∈wiyik(xi,xj)+

2 實(shí)驗(yàn)設(shè)置及結(jié)果分析

本實(shí)驗(yàn)使用的語音信號(hào)采用Windows自帶的錄音軟件錄制,錄音背景為普通環(huán)境,錄制的語音以Wave 格式保存,采樣頻率為8KHz,16bit量化,單聲道。對(duì)10(5男5女)個(gè)人進(jìn)行錄音,語音樣本分別為6個(gè)單詞,并且每個(gè)人每個(gè)詞發(fā)音9遍,得到540個(gè)采樣數(shù)據(jù)。隨機(jī)抽取2/3的采樣作為訓(xùn)練樣本集,1/3作為測(cè)試樣本集。

由上述語音識(shí)別系統(tǒng)得到每一種語音的正確分類的樣本數(shù),并采用

識(shí)別準(zhǔn)確率=正確識(shí)別的樣本數(shù)樣本總數(shù)×100%

得到表1所示的識(shí)別結(jié)果,包括每種待識(shí)別單詞以及總計(jì)得到的正確識(shí)別數(shù)和識(shí)別準(zhǔn)確率。

3 結(jié)束語

本文提出了一種采用MFCC特征提取參數(shù),以SVM作為分類器識(shí)別幾種容易混淆的單詞的方法,結(jié)果表明,該語音識(shí)別方法具有結(jié)構(gòu)簡(jiǎn)單、高識(shí)別精度的特點(diǎn),可以在語音識(shí)別系統(tǒng)中得到實(shí)際應(yīng)用。當(dāng)然,今后的工作中還要考慮將SVM理論和其它分類方法結(jié)合起來,如SVM和隱馬爾可夫模型(HMM)相結(jié)合、將多類SVM等綜合方法應(yīng)用于更多的語音識(shí)別領(lǐng)域。

參考文獻(xiàn):

\[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.

\[2\] 陳剛,陳莘萌.一種考慮類別信息的音頻特征提取方法\[J\].計(jì)算機(jī)研究與發(fā)展,2006(11).

第9篇

關(guān)鍵詞:云計(jì)算;云服務(wù);云安全;語音識(shí)別;虛擬化技術(shù)

中圖分類號(hào):TP302 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2014)001000702

基金項(xiàng)目基金項(xiàng)目:渭南師范學(xué)院大學(xué)生創(chuàng)新項(xiàng)目(13XK069);陜西省大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(1857)

作者簡(jiǎn)介作者簡(jiǎn)介:劉琳茜(1992-),女,渭南師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院信息工程系學(xué)生,研究方向?yàn)檐浖こ?;李永康?992-),男,渭南師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院信息工程系學(xué)生,研究方向?yàn)檐浖こ?;索?971-),男,渭南師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院信息工程系副教授,研究方向?yàn)橛?jì)算機(jī)應(yīng)用。

0 引言

云計(jì)算[12]作為企業(yè)計(jì)算的一個(gè)新興領(lǐng)域,正逐步被應(yīng)用于企業(yè)的業(yè)務(wù)活動(dòng)之中,發(fā)揮著其低成本、快部署、靈活調(diào)整規(guī)模等優(yōu)勢(shì)。雖然基于云技術(shù)服務(wù),在安全性方面具有一定的優(yōu)勢(shì),但企業(yè)面對(duì)上傳和存儲(chǔ)大量數(shù)據(jù)時(shí),還是需要考慮安全性等問題。充分利用云技術(shù)的安全特性,在數(shù)據(jù)通信、文件存儲(chǔ)等方面進(jìn)行研究具有非常現(xiàn)實(shí)的意義。開發(fā)一個(gè)基于云技術(shù)平臺(tái)的語音識(shí)別系統(tǒng),不但能保證客戶機(jī)數(shù)據(jù)有極高的安全性,且在用戶使用過程中,能更方便快捷地獲取用戶所需信息和操作常用的應(yīng)用程序,用戶體驗(yàn)度更高。這與蘋果公司所開發(fā)的應(yīng)用Siri不同,本程序?qū)φZ音識(shí)別作進(jìn)一步的擴(kuò)充,能根據(jù)用戶語音輸入進(jìn)行文件調(diào)取、修改、程序運(yùn)行、數(shù)據(jù)輸入等操作,在國(guó)內(nèi)是一種新的嘗試。

1 平臺(tái)技術(shù)與技術(shù)體系結(jié)構(gòu)

1.1 平臺(tái)技術(shù)概述

該軟件系統(tǒng)的平臺(tái)技術(shù)包括3部分:基礎(chǔ)設(shè)施作為服務(wù)、平臺(tái)作為服務(wù)和軟件作為服務(wù)。基礎(chǔ)設(shè)施作為服務(wù)即IaaS 服務(wù)可以釋放各類企業(yè)用于存放、運(yùn)行、維護(hù)設(shè)備的資源,為使用者提供各種計(jì)算資源,包括服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)和數(shù)據(jù)中心空間,尤其適合開發(fā)與測(cè)試等資源密集型活動(dòng)。平臺(tái)作為服務(wù)即PaaS提供了基于云的環(huán)境,其中具有可支持用戶構(gòu)建和交付基于 Web(云)應(yīng)用的完整生命周期所需的一切沒有購(gòu)買和管理基礎(chǔ)軟件、硬件、供應(yīng)和托管的成本與復(fù)雜性。而軟件作為服務(wù)即SaaS是一種軟件模型,其中應(yīng)用集中托管在云計(jì)算環(huán)境中,并且用戶通過 Internet 訪問這些應(yīng)用。

1.2 技術(shù)體系結(jié)構(gòu)

該軟件系統(tǒng)的技術(shù)體系結(jié)構(gòu)如圖1所示。該軟件系統(tǒng)的技術(shù)體系結(jié)構(gòu)由四部分組成,面向服務(wù)的體系結(jié)構(gòu)(service-oriented architecture,SOA)是一個(gè)組件模型,它將應(yīng)用程序的不同功能單元(稱為服務(wù))通過這些服務(wù)之間定義良好的接口和契約聯(lián)系起來,接口是采用中立的方式進(jìn)行定義的,它獨(dú)立于實(shí)現(xiàn)服務(wù)的硬件平臺(tái)、操作系統(tǒng)和編程語言。這使得構(gòu)建在各種這樣系統(tǒng)中的服務(wù)可以以一種統(tǒng)一和通用的方式進(jìn)行交互。管理中間件分為用戶管理、任務(wù)管理、資源管理、安全管理,其中最重要的是安全管理,在安全管理方面,用戶在使用時(shí),客戶端設(shè)置三重加密方式,分別為鍵盤密碼的直接輸入,語音加密識(shí)別和人臉識(shí)別,用作平臺(tái)進(jìn)入的認(rèn)證。另外兩個(gè)部分分別為資源池和物理資源,為客戶機(jī)提交使用請(qǐng)求或文件需求時(shí)所做的調(diào)度與處理提供服務(wù)。

2 系統(tǒng)具體實(shí)現(xiàn)

2.1 平臺(tái)安全存儲(chǔ)與虛擬化技術(shù)

為了保證客戶機(jī)數(shù)據(jù)有極高的安全性,在對(duì)該軟件系統(tǒng)云安全進(jìn)行設(shè)計(jì)時(shí),采用如下設(shè)計(jì)原則:①發(fā)送和存儲(chǔ)盡量少的個(gè)人信息到云中,保護(hù)云中用戶的個(gè)人信息最大限度地實(shí)現(xiàn)由自己控制,允許用戶控制最為關(guān)鍵最為重要的個(gè)人信息,用戶也可以委托信任的第三方去管理個(gè)人信息;②允許用戶進(jìn)行選擇,加入和退出機(jī)制是目前使用的提供選擇的主要方式,用戶有權(quán)利對(duì)個(gè)人信息的使用進(jìn)行選擇,當(dāng)用戶提交某種請(qǐng)求時(shí),系統(tǒng)會(huì)將此次請(qǐng)求可能訪問到的個(gè)人信息反饋給用戶,用戶可以根據(jù)反饋回來的信息決定是否繼續(xù)操作,做到任何一次的個(gè)人信息訪問用戶都心里有數(shù);③明確和限制數(shù)據(jù)使用的目的;④提供反饋機(jī)制。

在存儲(chǔ)數(shù)據(jù)時(shí),使用SQL Server提供的數(shù)據(jù)服務(wù),目的是讓使用者可以存儲(chǔ)他們想存儲(chǔ)的任何數(shù)據(jù),同時(shí)使用者可以在任何時(shí)候、從任何終端和任何地方獲取其需要的任意大小的數(shù)據(jù)。采用的存儲(chǔ)機(jī)制(Queue)為容錯(cuò)機(jī)制[3],能夠在一定程度上提高該軟件系統(tǒng)的可靠性與穩(wěn)定性。在虛擬化技術(shù)上,采用硬件輔助虛擬化,利用硬件(主要是CPU)輔助處理敏感指令以實(shí)現(xiàn)完全虛擬化的功能,而用戶的操作系統(tǒng)無需修改,如VMWare、KVM、Xen[4]。具體實(shí)施為:虛擬層來執(zhí)行基于云環(huán)境下的應(yīng)用服務(wù)。虛擬機(jī)運(yùn)行在一個(gè)客戶端內(nèi),和其它VM共享資源。在云資源層,和云相關(guān)的核心硬件基礎(chǔ)設(shè)施服務(wù)是由數(shù)據(jù)中心組件來建模的,它用來處理服務(wù)請(qǐng)求,這些服務(wù)請(qǐng)求在VM(虛擬機(jī))中執(zhí)行。

2.2 語音識(shí)別

該軟件系統(tǒng)所要實(shí)現(xiàn)的目標(biāo)是達(dá)到語音人機(jī)交互與平臺(tái)結(jié)合。而在語音識(shí)別方面,其內(nèi)容主要包括語音特性分析和建模、語音數(shù)字壓縮編碼、語音識(shí)別、語音合成、語音增強(qiáng)、現(xiàn)代語音通信。該軟件系統(tǒng)的語音識(shí)別過程如圖2所示,當(dāng)用戶發(fā)出語音指令時(shí),通過語音信號(hào)處理技術(shù)[5]使用戶能在平臺(tái)上獲取所需信息或相關(guān)程序操作,而所需要的最終信息將直接通過屏幕或語音反饋到用戶端。其具體實(shí)現(xiàn)過程為:當(dāng)系統(tǒng)接收到一段語音指令時(shí),會(huì)先對(duì)用戶的身份進(jìn)行識(shí)別,此時(shí)的識(shí)別分為講話人身份證實(shí)SV(Speaker Verification)和說話人辨識(shí)SI(Speaker Identification),識(shí)別結(jié)果為Yes或No ,即當(dāng)系統(tǒng)確定此時(shí)的請(qǐng)求者為某位已認(rèn)證的用戶時(shí),便可進(jìn)入下一界面,為其提供服務(wù),反之則發(fā)送錯(cuò)誤提示信息。而說話人辨識(shí)即從N個(gè)對(duì)象中確定某個(gè)對(duì)象。而當(dāng)用戶的身份確定后,接著

會(huì)進(jìn)行語音內(nèi)容的識(shí)別,其內(nèi)容包括孤立字或詞識(shí)別(待識(shí)別的每個(gè)字或詞間有停頓)、句子或詞組識(shí)別(待識(shí)別的語音為一個(gè)個(gè)句子或者詞組)、連續(xù)語音識(shí)別(待識(shí)別的語音為連續(xù)的講話聲音)、語音理解(正確識(shí)別講話者講話的含義)。當(dāng)確定為其中的某一類時(shí),語音識(shí)別系統(tǒng)會(huì)對(duì)接收到的信息先進(jìn)行預(yù)處理工作,對(duì)相關(guān)的參數(shù)進(jìn)行分析和提取,用提取到的數(shù)據(jù)與已有的模板庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì),根據(jù)其比對(duì)的結(jié)果給用戶反饋出最終的信息。在用戶提交的所有任務(wù)都完成后,系統(tǒng)會(huì)向該使用者發(fā)送提示信息。

圖2 語音識(shí)別過程

2.3 網(wǎng)絡(luò)通信

同一個(gè)云組相當(dāng)于一個(gè)VPN,要實(shí)現(xiàn)共享本地?cái)?shù)據(jù)。

用戶能在該平臺(tái)上創(chuàng)建虛擬局域網(wǎng),處于同一云組的用戶相當(dāng)于處在同一個(gè)VPN(虛擬專用網(wǎng)絡(luò)Virtual Private Network)上,其之間的通信不受限制,此時(shí)用戶可以實(shí)現(xiàn)本地資源的共享等。

3 結(jié)語

基于云服務(wù)安全平臺(tái)的研究開發(fā)與語音識(shí)別應(yīng)用軟件系統(tǒng)主要針對(duì)云技術(shù)的加密與安全作進(jìn)一步研究,用有效的措施對(duì)用戶信息和程序安全作進(jìn)一步加強(qiáng),加入了語音識(shí)別使信息的獲取變得方便,網(wǎng)絡(luò)技術(shù)的應(yīng)用更增添了平臺(tái)的實(shí)用性。同時(shí)作為這種方式的客戶端有很高的拓展性,服務(wù)端處存放基于不同平臺(tái)的程序,對(duì)接收的信息進(jìn)行翻譯、模擬、處理,即使一臺(tái)便攜終端也會(huì)有很強(qiáng)的處理能力。

參考文獻(xiàn)參考文獻(xiàn):

[1] KAIHWANG,GEOFFREY C FOX,JACK J DONGARRA.云計(jì)算與分布式系統(tǒng):從并行處理到物聯(lián)網(wǎng)[M].北京:機(jī)械工業(yè)出版社,2013.

[2] 姚宏宇,田溯寧.云計(jì)算:大數(shù)據(jù)時(shí)代的系統(tǒng)工程[M].北京:電子工業(yè)出版社,2013.

[3] 牛如美,陳雨亭.一種基于異常處理的并發(fā)程序容錯(cuò)機(jī)制[J].計(jì)算機(jī)工程,2012(13):4447.

第10篇

關(guān)鍵詞:語音識(shí)別;神經(jīng)網(wǎng)絡(luò);遺傳算法;遺傳神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào):TP183文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)22-774-03

Research of Speech Recognition Based on Genetic Neural Network

ZHAO Feng

(Computer School of Wuhan University,Wuhan 430081,China)

Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.

Key words: speech recognition; neural network; genetic algorithm; genetic neural network

1 引言

語音識(shí)別SR(Speech Recognition)是指讓機(jī)器聽懂人說的話,即在各種情況下,準(zhǔn)確地識(shí)別出語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖[1]?,F(xiàn)代語音識(shí)別技術(shù)以神經(jīng)網(wǎng)絡(luò)為主要發(fā)展趨勢(shì),進(jìn)入20世紀(jì)90年代以來,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為語音識(shí)別的一條重要途徑。由于神經(jīng)網(wǎng)絡(luò)反映了人腦功能的基本特征,故具有自組織性、自適應(yīng)性和連續(xù)學(xué)習(xí)能力等特點(diǎn),特別適合于解決像語音識(shí)別這類模擬人的認(rèn)知過程和智能處理能力,難以用算法來描述而又有大量樣本可供學(xué)習(xí)的問題[2]。

人工神經(jīng)網(wǎng)絡(luò)(ANN)是采用大量的簡(jiǎn)單處理單元廣泛連接起來構(gòu)成的一種復(fù)雜信息處理網(wǎng)絡(luò)。網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)是應(yīng)用一系列輸入矢量,通過已確定的算法逐步調(diào)整網(wǎng)絡(luò)的權(quán)值,最終達(dá)到期望的目標(biāo)。BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中前向神經(jīng)網(wǎng)絡(luò)的核心部分,BP算法的學(xué)習(xí)過程由信號(hào)的正向傳播和誤差的反向傳播組成。隨著誤差逆?zhèn)鞑バ拚牟粩噙M(jìn)行,網(wǎng)絡(luò)對(duì)輸入模式響應(yīng)的正確率不斷上升。然而BP算法是一種梯度下降算法,梯度下降存在多極值問題,且BP網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練速度慢,容易陷入局部最小或振蕩。因此,參數(shù)的選擇非常重要。為克服標(biāo)準(zhǔn)BP算法存在的各種缺點(diǎn),本文研究用BP算法結(jié)合人工智能領(lǐng)域較為有效的方法――遺傳(GA)算法來訓(xùn)練網(wǎng)絡(luò)進(jìn)行語音識(shí)別,仿真實(shí)驗(yàn)表明,GABP算法使BP網(wǎng)絡(luò)在收斂速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺點(diǎn),基于GABP的語音識(shí)別系統(tǒng)的最高識(shí)別率和平均識(shí)別率都有了很大的提高。

2 語音識(shí)別的基本原理

大部分基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別系統(tǒng)實(shí)現(xiàn)識(shí)別功能都要經(jīng)過從特征參數(shù)提取到應(yīng)用識(shí)別算法進(jìn)行識(shí)別的過程,該過程如下圖1所示:

圖1 語音識(shí)別系統(tǒng)原理框圖

該文主要面向孤立數(shù)字識(shí)別系統(tǒng)作一些改進(jìn)研究,其基本識(shí)別過程也符合上圖1描述:輸入的語音信號(hào)首先進(jìn)行預(yù)處理,包括抗混疊濾波、聲音的預(yù)加重、加窗分癥處理與端點(diǎn)檢測(cè)等。預(yù)加重的目的是在于濾出低頻干擾,尤其是50Hz或60Hz的工頻干擾,將對(duì)于語音識(shí)別更為有用的高頻部分的頻譜進(jìn)行提升,以便于語音參數(shù)分析。

預(yù)加重濾波器傳遞函數(shù)為: H(Z)=1-0.9375Z-1(1)

若S(n)為預(yù)加重前語音信號(hào),則經(jīng)過預(yù)加重濾波器后得到的信號(hào)■(n)為:

■(n)= S(n)-0.9375 S(n-1)(2)

該文主要完成孤立數(shù)字識(shí)別,所要求識(shí)別的字?jǐn)?shù)不多,對(duì)環(huán)境的噪聲的適應(yīng)能力的要求也并不高,因此采用了目前比較流行的雙門限端點(diǎn)檢測(cè)算法,借助于語音信號(hào)短時(shí)平均能量和短時(shí)過零率來判定語音有效范圍的開始和結(jié)束。

語音信號(hào)經(jīng)過預(yù)處理后,接下來很重要的一環(huán)就是進(jìn)行特征提取,常用的特征包括短時(shí)平均能量和幅度、短時(shí)平均過零率、線性預(yù)測(cè)系數(shù)(LPC)、短時(shí)傅里葉變換和Mel頻率倒譜系數(shù)(MFCC)。語音特征參數(shù)的時(shí)間序列構(gòu)成了語音的模式,將其與通過應(yīng)用一系列已知信號(hào)訓(xùn)練提取的參考模式逐一進(jìn)行比較,獲得最佳匹配的參考模式便是識(shí)別結(jié)果。本文中對(duì)于預(yù)處理的每個(gè)有效語音信號(hào)段,都要提取其12個(gè)一階MFCC系數(shù),提取過程為:用漢明窗將語音切割成長(zhǎng)短一致的語音幀,對(duì)每幀語音進(jìn)行正反傅里葉變換,經(jīng)對(duì)數(shù)和離散余弦變換后取前12個(gè)數(shù)作為MFCC系數(shù)來描述每一個(gè)幀。最后將每個(gè)語音信號(hào)對(duì)應(yīng)的MFCC系數(shù)序列用K-means聚類算法進(jìn)行聚類,分為4個(gè)聚類,使得每個(gè)語音信號(hào)都得到相應(yīng)的12個(gè)4維一階MFCC系數(shù),即可作為語音的特征參數(shù)成為神經(jīng)網(wǎng)絡(luò)的輸入信號(hào)。

3 語音識(shí)別中的BP網(wǎng)絡(luò)構(gòu)造

語音識(shí)別中的BP網(wǎng)絡(luò)構(gòu)造主要包括輸入層、隱層、輸出層、初始權(quán)值、學(xué)習(xí)速率與期望誤差的選取幾個(gè)方面的問題。

1) 網(wǎng)絡(luò)層數(shù):理論上,在不限制隱層節(jié)點(diǎn)數(shù)的情況下,兩層(只有一個(gè)隱層)的BP網(wǎng)絡(luò)可以實(shí)現(xiàn)任意非線性映射。當(dāng)模式樣本很多時(shí),減小網(wǎng)絡(luò)規(guī)模,增加一個(gè)隱層是必要的,但BP網(wǎng)絡(luò)隱層數(shù)一般不超過兩層。本文所要求識(shí)別的模式樣本不多,因此一個(gè)隱層已經(jīng)足夠。

2) 輸入層節(jié)點(diǎn)數(shù):在BP網(wǎng)絡(luò)語音識(shí)別系統(tǒng)中,輸入層節(jié)點(diǎn)數(shù)與選取的語音信號(hào)特征參數(shù)的維度和階數(shù)有關(guān)。本文中每個(gè)語音信號(hào)都得到相應(yīng)的12個(gè)4維一階MFCC系數(shù),故輸入層的節(jié)點(diǎn)數(shù)為12×4=48。

3) 輸出層節(jié)點(diǎn)數(shù):輸出層的節(jié)點(diǎn)數(shù)取決于輸出數(shù)據(jù)的類型和表示該類型所需的數(shù)據(jù)大小。當(dāng)BP網(wǎng)絡(luò)用于語音識(shí)別時(shí),以二進(jìn)制形式來表示不同的識(shí)別結(jié)果,則輸出層的節(jié)點(diǎn)數(shù)可根據(jù)訓(xùn)練模板的語音數(shù)來確定。本文設(shè)定輸出節(jié)點(diǎn)數(shù)為10,分別對(duì)應(yīng)于0~9這10個(gè)數(shù)字。

4) 隱層節(jié)點(diǎn)數(shù):通過采用一個(gè)隱層,增加其神經(jīng)元數(shù)的方法來達(dá)到網(wǎng)絡(luò)訓(xùn)練精度的提高,這在結(jié)構(gòu)上,要比增加更多的隱層簡(jiǎn)單的多。但究竟選取多少個(gè)隱層節(jié)點(diǎn)才合適?在理論上并沒有個(gè)明確的規(guī)定。在具體設(shè)計(jì)時(shí),比較實(shí)際的做法是通過對(duì)不同神經(jīng)元數(shù)進(jìn)行訓(xùn)練對(duì)比,然后適當(dāng)?shù)募由弦稽c(diǎn)余量[4]。一般可利用下面式子決定:

n1=■+a(3)

其中n1為隱層節(jié)數(shù);m為輸入節(jié)點(diǎn)數(shù);n為輸出節(jié)點(diǎn)數(shù);a為取1~10的常數(shù)。本實(shí)驗(yàn)中輸入節(jié)點(diǎn)數(shù)為48,輸出節(jié)點(diǎn)數(shù)為10,a選取為常數(shù)4,因此隱層節(jié)點(diǎn)數(shù)n1=12。

5) 初始權(quán)值:由于系統(tǒng)是非線性的,初始值對(duì)于學(xué)習(xí)是否達(dá)到局部最小、是否能收斂以及訓(xùn)練時(shí)間的長(zhǎng)短關(guān)系很大。一般總是希望經(jīng)過初始加權(quán)后的每個(gè)神經(jīng)元的輸出值都接近于零。所以,一般取初始值在(-1,1)之間的隨機(jī)數(shù)。

6) 學(xué)習(xí)速率與期望誤差的選?。簩W(xué)習(xí)速率決定每一次循環(huán)訓(xùn)練中所產(chǎn)生的權(quán)值變化量。小的學(xué)習(xí)速率雖然會(huì)導(dǎo)致收斂速度慢,不過能保證網(wǎng)絡(luò)的誤差值不跳出誤差表面的低谷而最終趨于最小值。所以,一般情況下,學(xué)習(xí)速率的選取范圍在0.01~0.8之間。期望誤差0.000001。

解決了上述幾個(gè)方面的問題后,本文采用三層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),如圖2所示:輸入層各節(jié)點(diǎn)將輸入信號(hào)經(jīng)權(quán)重藕合到隱層的每個(gè)節(jié)點(diǎn),隱層各節(jié)點(diǎn)對(duì)來自前一層的信號(hào)加權(quán),經(jīng)激發(fā)函數(shù)轉(zhuǎn)換后再藕合到輸出層。

4 基于遺傳神經(jīng)網(wǎng)絡(luò)的語音識(shí)別

本文研究引用遺傳算法對(duì)網(wǎng)絡(luò)的初始連接權(quán)值進(jìn)行優(yōu)化處理,用BP算法完成給定精度的學(xué)習(xí)。

4.1 個(gè)體編碼方案

編碼對(duì)于網(wǎng)絡(luò)進(jìn)化過程的性能和效率影響很大,因此,編碼技術(shù)是連接權(quán)值進(jìn)化過程中學(xué)解決的首要問題和關(guān)鍵步驟。本文中考慮到BP網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)和結(jié)構(gòu)已經(jīng)固定,可以采用實(shí)數(shù)編碼方案,將網(wǎng)絡(luò)的權(quán)值和各節(jié)點(diǎn)的閥值依此排列得到一個(gè)向量。

假設(shè)一個(gè)具有m個(gè)節(jié)點(diǎn)的n層BP網(wǎng)絡(luò),如果第i個(gè)節(jié)點(diǎn)對(duì)應(yīng)的權(quán)值分別為vi(vi[-1,+1]),則一個(gè)個(gè)體用實(shí)數(shù)向量表示為X=(v1,v2,…vm)。

4.2 適應(yīng)度函數(shù)的選擇

一個(gè)網(wǎng)絡(luò)連接權(quán)值優(yōu)劣的標(biāo)準(zhǔn),是根據(jù)網(wǎng)絡(luò)對(duì)一組輸入得到的實(shí)際輸出與期望輸出之間的誤差大小來制定的。BP網(wǎng)絡(luò)中誤差平分和小,則表示該網(wǎng)絡(luò)性能比較好。本文中適應(yīng)度函數(shù)為:

f(x)=■(4)

其中,E為神經(jīng)網(wǎng)絡(luò)的輸出誤差,即:

■(5)

其中n為學(xué)習(xí)樣本總數(shù),yk,■k為第k個(gè)個(gè)體的期望輸出和實(shí)際輸出向量。

4.3 進(jìn)化參數(shù)

連接權(quán)的進(jìn)化過程中所涉及到的主要進(jìn)化參數(shù)有:種群規(guī)模、交叉率、變異率和進(jìn)化代數(shù)等等。交叉是最主要的進(jìn)化操作,交叉率是指各代中交叉產(chǎn)生的后代數(shù)與種群規(guī)模之比。常用的交叉率取值范圍為0.6~1.0。變異率是指種群中變異的基因數(shù)占總基因數(shù)的比例,其值控制了新基因引入的比例。常用變異率的數(shù)量級(jí)范圍為0.1~0.001。 種群規(guī)模是連接權(quán)進(jìn)化過程首先需要確定的參數(shù),是算法會(huì)否陷入局部解的主要影響因素。綜合考慮BP網(wǎng)絡(luò)的初始連接權(quán)值和交叉率、變異率的選擇,這里選擇種群規(guī)模為50。

5 仿真實(shí)驗(yàn)結(jié)果

仿真實(shí)驗(yàn)為針對(duì)非特定人的孤立數(shù)字詞語音識(shí)別。語音數(shù)據(jù)由二男二女(0到9共10個(gè)數(shù)字的普通話發(fā)音)通過PC話筒輸入,每個(gè)音每人發(fā)20遍,共計(jì)1000次發(fā)音,其中以每人每個(gè)音的前10次作訓(xùn)練樣本,后10次作測(cè)試樣本,錄音環(huán)境為安靜實(shí)驗(yàn)室,采樣頻率為11.025kHz。

經(jīng)過反復(fù)實(shí)驗(yàn),不斷改善實(shí)驗(yàn)環(huán)境,基于演化神經(jīng)網(wǎng)絡(luò)的識(shí)別得到了相對(duì)較高的識(shí)別率。對(duì)實(shí)驗(yàn)結(jié)果分析可知,結(jié)合了GA算法的BP網(wǎng)絡(luò)通過GA全局搜索得到一個(gè)權(quán)值最優(yōu)解,只迭代了151次便使得誤差值為0.000001 ,而普通BP算法要迭代517才能勉強(qiáng)達(dá)到期望誤差,由此可知,結(jié)合了GA算法的BP網(wǎng)絡(luò)避免了局部極小,減低了學(xué)習(xí)速率,提高了收斂速度。

表1 基于遺傳神經(jīng)網(wǎng)絡(luò)與普通BP網(wǎng)絡(luò)語音識(shí)別系統(tǒng)對(duì)比表

通過表1對(duì)比可知,基于演化神經(jīng)網(wǎng)絡(luò)識(shí)別算法的語音識(shí)別系統(tǒng)無論是在訓(xùn)練時(shí)的收斂速度還是在最后的識(shí)別率上,都要優(yōu)于普通的BP網(wǎng)絡(luò)語音識(shí)別系統(tǒng)。

6 結(jié)論

語音信號(hào)處理和神經(jīng)網(wǎng)絡(luò)均是目前研究的熱點(diǎn),文章主要針對(duì)語音識(shí)別的特點(diǎn),結(jié)合人工智能領(lǐng)域兩種比較有效的方法――BP網(wǎng)絡(luò)和GA算法,構(gòu)建了一種基于遺傳神經(jīng)網(wǎng)絡(luò)的語音識(shí)別算法。仿真實(shí)驗(yàn)結(jié)果表明,該算法避免了傳統(tǒng)BP算法容易陷入局部極小的缺點(diǎn),減低了訓(xùn)練時(shí)間,有效的提高了系統(tǒng)識(shí)別率。

參考文獻(xiàn):

[1] 趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.

[2] 蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)于應(yīng)用[M].北京:清華大學(xué)出版社,2003.

[3] 易克初.語音信號(hào)處理[M].北京:國(guó)防工業(yè)出版社,2000.

[4] 孫寧,孫勁光,孫宇.基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2005,34(3):58-61.

[5] 何英.Matlab擴(kuò)展編程[M].北京:清華大學(xué)出版社,2002.

第11篇

關(guān)鍵詞:語音識(shí)別系統(tǒng) 動(dòng)態(tài)時(shí)間規(guī)整 嵌入式

中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)03(b)-0071-01

隨著有關(guān)于嵌入式系統(tǒng)的軟件和硬件技術(shù)的進(jìn)步,語音識(shí)別系統(tǒng)得到了全面的應(yīng)用[1]。由于嵌入式系統(tǒng)受到各種軟硬件的約束,該系統(tǒng)通常運(yùn)行的是特定的任務(wù)[2,3]。所以開發(fā)者可以優(yōu)化軟硬件資源、減小規(guī)模、降低成本。但這對(duì)于語音識(shí)別系統(tǒng)的效率和準(zhǔn)確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對(duì)小詞匯量語音識(shí)別系統(tǒng),其準(zhǔn)確率與HMM等復(fù)雜算法幾乎相同。

1 DTW算法

動(dòng)態(tài)時(shí)間彎曲(Dynamic Time Warping,簡(jiǎn)稱DTW)是把時(shí)間規(guī)整和距離測(cè)度結(jié)合起來的一種非線性規(guī)整技術(shù)。設(shè):

(1)參考模板特征矢量序列為:c0,c1,…,cp;

(2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。

那么,DTW就是要計(jì)算函數(shù)D,從而使c和d之間的差別最小。

2 DTW在線并行算法

2.1 算法描述

DTW在線并行算法對(duì)于并行性的小詞匯語音識(shí)別系統(tǒng)特別適用。此方法第一步對(duì)問題分解,然后在多個(gè)運(yùn)算單元中單獨(dú)的計(jì)算已知模式和未知模式之間的距離,并且對(duì)每個(gè)運(yùn)算單元進(jìn)行的計(jì)算分解。在DTW運(yùn)算時(shí)要預(yù)先分配大小一定的內(nèi)存。最后一步是將每一個(gè)單元的運(yùn)算結(jié)果輸入到?jīng)Q策模塊,得到最終結(jié)論。

算法框圖如圖1所示,按照時(shí)間順序?qū)⒂?jì)算出的未知語音特征矢量輸入到各個(gè)DTW流水線。然后由決策模塊依據(jù)各個(gè)流水線的計(jì)算結(jié)果以及其他信息得出結(jié)論。但由于每個(gè)參考模式的長(zhǎng)度不同,各條流水線的計(jì)算時(shí)間是不同的,因此每條DTW流水線會(huì)設(shè)置一個(gè)完成標(biāo)志位Pi(1≤i≤N),依據(jù)這些完成標(biāo)志,決策模塊對(duì)已經(jīng)完成計(jì)算的流水線結(jié)果進(jìn)行處理。同時(shí)該算法還可以通過識(shí)別歷史來提前終止沒有完成的計(jì)算步驟。

2.2 算法分析

令特征矢量的維度為l,未知模式的長(zhǎng)度為k,參考模式的個(gè)數(shù)為n,參考模式的總長(zhǎng)度為p,局部判決函數(shù)的水平跨度為w,流水線條數(shù)為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數(shù)據(jù)類型所占的字節(jié)數(shù),則OP-DTW算法所需的內(nèi)存為wnt/p Byte。當(dāng)b≥n時(shí),算法所需時(shí)間為經(jīng)典DTW的1/n;當(dāng)b

3 結(jié)語

該文對(duì)一種DTW在線并行算法進(jìn)行了分析,該算法相對(duì)減少了由于數(shù)據(jù)引起的等待時(shí)間;提高了DTW的并行度,并充分挖掘出硬件的計(jì)算功能,減少處理的時(shí)間。由于DTW的適用性,該算法適合一維非線性數(shù)據(jù)的匹配問題。

參考文獻(xiàn)

[1] 林常志.基于統(tǒng)計(jì)的語音識(shí)別方法分析報(bào)告[R/OL].(2003-12-26)[2009-06-13].http:///data/林常志語音識(shí)技術(shù)報(bào)告.net.

[2] 李昱,林志謀,黃云鷹,等.基于短時(shí)能量和短時(shí)過零率的VAD算法及其FPGA實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2006,32(9):110-113.

第12篇

    關(guān)鍵詞:  RSC-3x, 識(shí)別率,噪音降除,電路設(shè)計(jì),PCB設(shè)計(jì),麥克風(fēng),電源

    RSC-3x是美國(guó)Sensory公司出品的交互式語音產(chǎn)品。它同RSC其他系列的產(chǎn)品一樣運(yùn)用神經(jīng)元算法實(shí)現(xiàn)了語音識(shí)別的功能,在理想環(huán)境下,其識(shí)別率可達(dá)97%以上。并具有語音合成、錄音回放、四聲道音樂合成等語音處理功能。由于內(nèi)含一個(gè)8位處理器,RSC-3x還可實(shí)現(xiàn)通用處理器的系統(tǒng)控制功能。RSC-3x的高性能和適中的價(jià)格使得它主要應(yīng)用在消費(fèi)類電子產(chǎn)品和價(jià)格敏感的家電產(chǎn)品上。

    但是,如何才能運(yùn)用RSC-3x系列產(chǎn)品開發(fā)出性能良好的語音識(shí)別產(chǎn)品呢?本文給出了在設(shè)計(jì)語音識(shí)別產(chǎn)品時(shí)應(yīng)在硬件方面考慮的若干問題。

    一、噪音降除

    語音識(shí)別的準(zhǔn)確率(簡(jiǎn)稱識(shí)別率)會(huì)受到諸多因素的干擾而下降。一個(gè)導(dǎo)致識(shí)別率下降最常見的因素就是噪音:來自系統(tǒng)內(nèi)部的電子噪音和麥克風(fēng)所拾取的聲頻噪音。RSC-3x的一個(gè)主要革新技術(shù)就是在其片內(nèi)加入了一個(gè)聲頻預(yù)放電路。來自典型的駐極體麥克風(fēng)的電壓信號(hào)只是毫伏級(jí)的,而能被RSC-3x使用的整個(gè)預(yù)放增益信號(hào)卻要放大到200倍以上。通過RSC-3x內(nèi)置的預(yù)放電路,只需外加少許的幾個(gè)被動(dòng)元器件就可以達(dá)到這個(gè)放大作用。良好的接地措施和消除模擬電路中的交叉干擾會(huì)進(jìn)一步確保良好的識(shí)別率。鼓勵(lì)用戶大聲說話和接近麥克風(fēng)可以輔助獲得良好的信噪比。

    二、電路設(shè)計(jì)

    圖一是RSC-3x聲頻預(yù)放部分的參考電路。阻值為1.5K的麥克風(fēng)電阻(Rx)對(duì)系統(tǒng)增益具有很大的影響,因此應(yīng)根據(jù)麥克風(fēng)的敏感度來決定其值的大小。圖中的1.5K是典型值。

    下表所列為Rx和Cx的推薦值:

    Rx

    Cx

    1K

    0.01uF

    1.5K

    0.0068uF

    2.2K

    0.0047uF

    2.7K

    0.0033uF

    3.9K

    0.0027uF

    4.7K

    0.0022uF

    三、PCB設(shè)計(jì)

    推薦使用帶地平面的雙面印制的PCB板。地平面應(yīng)覆蓋整個(gè)模擬電路區(qū)域而僅在RSC-3x附近接地。為減少交叉干擾,模擬地和數(shù)字地應(yīng)盡可能地從物理上分隔開來。特別要注意的是:將高速時(shí)鐘線(如地址線和數(shù)據(jù)線)遠(yuǎn)離麥克風(fēng)元器件和電路。

    每個(gè)數(shù)字IC都要在緊挨著VDD的地方接一個(gè)0.1uF的旁路電容,RSC芯片的每對(duì)VDD腳和VSS腳間都要接一個(gè)。該旁路電容應(yīng)該是最大電壓為50V的陶瓷電容。如果使用了3端穩(wěn)壓器(如7805),應(yīng)在其輸入/輸出腳和地之間接近穩(wěn)壓器的地方接上鉭旁路電容。

    在使用電池的產(chǎn)品中,串接一個(gè)二極管以避免電池裝反時(shí)損壞電路。

    如果產(chǎn)品中除了RSC還有其他需要用到數(shù)字時(shí)鐘的模塊(如開關(guān)電源、LCD驅(qū)動(dòng)器等),特別要注意防止這些信號(hào)進(jìn)入到RSC的聲頻電路中去。

    四、麥克風(fēng)的選擇

    對(duì)絕大部分的產(chǎn)品來說,廉價(jià)的多向駐極體電容麥克風(fēng)(最小敏感度為-60dB)就足夠了。在有些應(yīng)用中,信號(hào)與音頻噪音來源于不同方向時(shí),定向麥克風(fēng)可能更適合些。由于定向麥克風(fēng)的頻率反應(yīng)取決于麥克風(fēng)與聲源間的距離,這樣的麥克風(fēng)應(yīng)謹(jǐn)慎使用。為得到最佳性能,語音識(shí)別產(chǎn)品應(yīng)運(yùn)用于安靜的環(huán)境,說話人的嘴應(yīng)與麥克風(fēng)極為接近。 如果產(chǎn)品是為在嘈雜環(huán)境中使用而設(shè)計(jì)的,設(shè)計(jì)時(shí)要充分考慮周圍環(huán)境的噪音。提高信噪比將有助于產(chǎn)品的成功。

    五、 麥克風(fēng)的安放

    設(shè)計(jì)恰當(dāng)?shù)柠溈孙L(fēng)嵌入方式和選擇性能一致的麥克風(fēng)是重要的。因?yàn)閷?duì)麥克風(fēng)不當(dāng)?shù)穆晫W(xué)布置會(huì)降低RSC-3x的識(shí)別率。麥克風(fēng)元件有許多種可能的物理放置方式,但有的就會(huì)比別的性能更好效果更佳。為此,Sensory推薦了以下的麥克風(fēng)放置方案:

    首先: 產(chǎn)品中,麥克風(fēng)元件應(yīng)盡可能地接近外殼,應(yīng)完全位于塑料外殼內(nèi)。麥克風(fēng)元件和外殼間不應(yīng)有任何空隙。只要有空隙就會(huì)產(chǎn)生回音,從而降低識(shí)別率。

    其次:麥克風(fēng)元件的前部應(yīng)確保干凈無污,以免干擾識(shí)別。麥克風(fēng)前面的外殼上要保留直徑至少為5mm的孔。如果一定要在麥克風(fēng)的前面加塑料表面的話,塑料表面要盡可能地薄,最好不要超過0.7mm。

    三:如果可能的話,麥克風(fēng)與外殼間應(yīng)聲音隔離。可以將麥克風(fēng)用橡皮或泡沫等海綿物質(zhì)包裹起來。這樣做的目的在于防止由搬運(yùn)或震動(dòng)產(chǎn)品時(shí)產(chǎn)生的聽覺噪音被麥克風(fēng)采集。這種外來的噪音會(huì)降低識(shí)別率。

    如果麥克風(fēng)從距離說話人的嘴15cm的地方移到距離為30cm的地方,信號(hào)功率就降低了1/4。高音和低音間的差別也大于1/4。RSC-3x提供了一個(gè)AGC(自動(dòng)增益調(diào)節(jié))來補(bǔ)償太大或太小的聲音信號(hào)。AGC在麥克風(fēng)的預(yù)放內(nèi)工作。如果超過了AGC的調(diào)節(jié)范圍,軟件會(huì)給說話人提供一個(gè)聲音回饋,如提示“請(qǐng)說大聲點(diǎn)”或“請(qǐng)說小聲點(diǎn)”來提醒說話人。

    六、電源設(shè)計(jì)

    由于 RSC-3x工作時(shí)其語音識(shí)別電路要消耗約10mA 的電流,電源的設(shè)計(jì)在這里顯得尤為重要。如果系統(tǒng)連續(xù)聆聽尋找一個(gè)給定的詞匯,那么在幾小時(shí)內(nèi)就能消耗完一個(gè)紐扣電池的電能,幾天內(nèi)消耗掉一個(gè)大容量的堿性電池的電能。因此如果產(chǎn)品需要識(shí)別器一直處于工作狀態(tài)的話,系統(tǒng)應(yīng)該采用市電供電。相反的,如果電源采用電池供電的話,那么產(chǎn)品大部分時(shí)間應(yīng)工作于低功耗的“睡眠”狀態(tài),只在需要識(shí)別時(shí)被喚醒就行了。RSC-3x的喚醒可以通過按鍵或其他IO口事件或震蕩器二的時(shí)鐘倒計(jì)時(shí)來實(shí)現(xiàn),但無法被麥克風(fēng)采集到的語音信號(hào)喚醒。

亚洲精品无码久久久久久久性色,淫荡人妻一区二区三区在线视频,精品一级片高清无码,国产一区中文字幕无码
亚洲一区精品自拍 | 在线观看欧美高清福利片 | 亚洲欧美中文不卡 | 日本十八禁免费看污网站 | 日本有码中文字幕在线电影 | 亚洲中文字幕一区二区在线看 |