本書系統(tǒng)地介紹了語音識(shí)別在大模型時(shí)代的新技術(shù)與新應(yīng)用。全書共16章,原理部分涵蓋聲學(xué)特征、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經(jīng)網(wǎng)絡(luò)(DNN)、語言模型和加權(quán)有限狀態(tài)轉(zhuǎn)換器(WFST)、語音大模型,重點(diǎn)描述了GMM-HMM、DNN-HMM和端到端(E2E)三種語音識(shí)別框架;應(yīng)用部分包含Kaldi、W
"近年來人工智能技術(shù)突飛猛進(jìn),以語音識(shí)別為代表的音頻處理技術(shù)取得了大量突破,但該領(lǐng)域內(nèi)理論結(jié)合實(shí)戰(zhàn)的入門書籍卻較為缺乏,本書旨在為有志學(xué)習(xí)音頻信號(hào)處理的讀者提供一本實(shí)用的入門書籍。本書共13章,第1章和第2章是基礎(chǔ)部分,包括聲學(xué)基礎(chǔ)知識(shí)及Python基礎(chǔ)等內(nèi)容;第3到4章介紹了音頻信號(hào)的獲取及分析方法;第5~8章介紹了
本書的撰寫主要分為四個(gè)章節(jié):第一章數(shù)字音頻藝術(shù)的基本藝術(shù)體系;第二章數(shù)字音頻藝術(shù)教育;第三章廣播劇與影視動(dòng)漫聲音研究;第四章數(shù)字音頻的文化產(chǎn)業(yè)分析。主要內(nèi)容:1、理清數(shù)字音頻創(chuàng)意產(chǎn)業(yè)發(fā)展的脈絡(luò),建立數(shù)字音頻創(chuàng)意發(fā)展編年史。2、形成數(shù)字音頻創(chuàng)意教育引導(dǎo)機(jī)制的研究報(bào)告,提出音頻創(chuàng)意產(chǎn)業(yè)發(fā)展的咨詢報(bào)告。3、綜合性分析音頻創(chuàng)意
全書共分11章,主要介紹了聲學(xué)基礎(chǔ)知識(shí)、音頻信號(hào)的數(shù)字化、數(shù)字音頻壓縮編碼的基本原理及相關(guān)標(biāo)準(zhǔn)、信道編碼與調(diào)制技術(shù)、光盤存儲(chǔ)技術(shù)、電子樂器數(shù)字接口(MIDI)、數(shù)字音頻文件格式、音頻處理與控制設(shè)備、數(shù)字音頻工作站、數(shù)字聲音廣播、音頻測(cè)量與分析等內(nèi)容。每章都附有小結(jié)與習(xí)題,以指導(dǎo)讀者加深對(duì)本書主要內(nèi)容的理解。本書可作為高
本教材結(jié)合語音信息處理的理論與實(shí)踐部分,主要內(nèi)容包括語音產(chǎn)生與感知機(jī)理、語音信號(hào)處理、語音識(shí)別、統(tǒng)計(jì)語音合成、語音增強(qiáng)、聲紋識(shí)別、語音對(duì)話以及語音信息處理的前瞻技術(shù)等。全書共分8章。第1章介紹語音產(chǎn)生與感知機(jī)理,以及與此相關(guān)的語言基礎(chǔ)知識(shí),是全書的理論基礎(chǔ)。第2章介紹語音信號(hào)處理的基礎(chǔ),包括語音產(chǎn)生與感知的數(shù)學(xué)模型、語
本書是一本深入探討B(tài)BC監(jiān)聽音箱的專著。BBC在聲學(xué)領(lǐng)域貢獻(xiàn)卓著,其研發(fā)的監(jiān)聽音箱具有悠久的歷史和廣泛的影響力,對(duì)當(dāng)今的聲音美學(xué)理念和音響產(chǎn)品產(chǎn)生了深遠(yuǎn)影響。作者楊立新先生憑借多年對(duì)BBC設(shè)計(jì)理念的系統(tǒng)性研習(xí)、對(duì)BBC聲學(xué)文獻(xiàn)和監(jiān)聽音箱的深入研究,以及對(duì)原始設(shè)備的精心修復(fù)經(jīng)驗(yàn),為讀者提供了全面而系統(tǒng)的BBC監(jiān)聽音箱知識(shí)
本書從人類聽覺、視覺的處理機(jī)制出發(fā),系統(tǒng)地介紹了聽覺和視覺感知模型、音視頻(圖像)壓縮編碼技術(shù)、音視頻(圖像)處理技術(shù)、基于內(nèi)容的音視頻(圖像)檢索技術(shù)、數(shù)字音視頻技術(shù)的交叉應(yīng)用等內(nèi)容。同時(shí),本書還給出了相關(guān)知識(shí)的應(yīng)用實(shí)例,這寫實(shí)例都具有較高的參考和實(shí)用價(jià)值。本書涵蓋的學(xué)科領(lǐng)域十分廣泛,包括人工智能、信號(hào)處理、圖像處理
本書采用項(xiàng)目式的編寫方法,系統(tǒng)地介紹了語音識(shí)別的基本概念、基本原理和常用技術(shù),并使用Python語言對(duì)每項(xiàng)技術(shù)進(jìn)行了編程實(shí)現(xiàn)。全書共有8個(gè)項(xiàng)目,內(nèi)容涵蓋搭建語音識(shí)別開發(fā)環(huán)境、語音特征提取、構(gòu)建傳統(tǒng)聲學(xué)模型、使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建聲學(xué)模型、訓(xùn)練語言模型、構(gòu)建語音識(shí)別解碼器、構(gòu)建端到端的語音識(shí)別模型和中文普通話語音識(shí)別。
本書介紹了語音信號(hào)處理的基礎(chǔ)、原理、方法和應(yīng)用,以及該學(xué)科領(lǐng)域近年來取得的一些新的研究成果和技術(shù)。全書共分13章,內(nèi)容包括:緒論、語音信號(hào)處理的基礎(chǔ)知識(shí)、語音信號(hào)處理的常用算法、語音信號(hào)分析、語音信號(hào)特征提取技術(shù)、語音增強(qiáng)、語音識(shí)別、說話人識(shí)別、語音編碼、語音合成與轉(zhuǎn)換、語音信號(hào)情感處理、聲源定位、多模態(tài)語音信號(hào)處理。
本教材緊密結(jié)合《數(shù)字音效》課程設(shè)計(jì),以聲音概念為理論基礎(chǔ)、人種志方法論為研究方法,結(jié)合Audition聲音編輯軟件,以保護(hù)聲音文化遺產(chǎn)為目標(biāo),結(jié)合聲音研究實(shí)踐案例,最終實(shí)現(xiàn)把數(shù)字音效教材與交互媒體專業(yè)課程結(jié)合。該課程將理論課與實(shí)踐作業(yè)相結(jié)合,以更直接的方式接觸和理解聲音、空間和材質(zhì),使學(xué)生能夠運(yùn)用這些知識(shí)進(jìn)行個(gè)人創(chuàng)作。