本書系統(tǒng)地介紹了語音識別在大模型時代的新技術與新應用。全書共16章,原理部分涵蓋聲學特征、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經網絡(DNN)、語言模型和加權有限狀態(tài)轉換器(WFST)、語音大模型,重點描述了GMM-HMM、DNN-HMM和端到端(E2E)三種語音識別框架;應用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工業(yè)應用實踐介紹,內容主要來自工程經驗,極具實用性。
洪青陽,廈門大學人工智能學院教授,主要研究方向是語音識別、聲紋識別,先后主持國家自然科學基金三項,科技部創(chuàng)新基金兩項。牽頭組建廈門大學智能語音實驗室,帶領XMUSPEECH團隊連續(xù)兩屆獲東方語種識別(OLR)競賽第一名,成功研發(fā)閩南語識別與合成系統(tǒng)。具有豐富的工業(yè)研發(fā)經驗,與華為、海思、海信、鼎橋等知名企業(yè)合作,承擔過大量的智能語音項目,核心技術應用到華為智能手機、說咱閩南話AppPP、聲云語音轉寫和全國十幾個省市的司法/社保/證券/電力系統(tǒng)。發(fā)布國內第一套聲紋識別開源工具ASV-Subtools,助力學術研究和產業(yè)落地。擔任2020-—2021年全國聲紋識別研究與應用學術研討會主席、中文信息學會語音信息專委會副主任等職。獲電子工業(yè)出版社“優(yōu)秀作者獎”和華為“優(yōu)秀技術合作成果獎”。從事本科生、研究生的語音識別教學工作近二十年,從最早的動態(tài)時間規(guī)整(DTW)、隱馬爾可夫模型(HMM)到最新的端到端(E2E)語音識別、大模型框架,與時俱進更新教學內容,積累了豐富的教學經驗。李琳,廈門大學教授,博士生導師,主要研究方向為語音信號處理、聲紋識別、智能系統(tǒng)設計,主持國家自然科學基金兩項,負責國家科技部重點研發(fā)計劃項目子課題一項、省級科研項目一項,作為第一合作者參與國家自然基金兩項,曾獲福建省科技進步獎二等獎、福建省教學成果獎特等獎/二等獎、廈門市科技進步獎一等獎。