交互式语言学习系统中发音质量客观评价策略探讨

更新时间：2024-03-25 点赞:5900 浏览:15840 作者：用户投稿原创标记本站原创

基于语音处理技术的交互式计算机辅助语言学习系统(CALL)是目前语音技术的研究热门之一，它将改变现有的语言学习环境和教学模式，极大地提高语言学习效率。本论文针对交互式语言学习系统中的英语发音质量客观评价方法进行了深入、系统的研究。人对语音的发音质量进行主观评价的过程大致可以包括听觉、感知和评价三个阶段。现有的语音发音质量客观评价算法主要采用语音识别中的隐含马尔可夫模型(HMM)构建发音质量评价模型，对发音质量进行客观评价。但是该方法没有考虑人对语音感知方面的特点，整体上评价性能还很不理想。本论文针对现有方法存在的问题，在发音质量评价模型研究方面开展了一些创新性的研究工作，重点研究了语音的声学、听感知和韵律建模方法以及基于上述模型的发音质量客观评价方法。本论文提出了基于HMM的有参考语音的发音质量客观评价方法，主观和客观评价的相关系数从0.52(无参考语音)提高到0.67(有参考语言)。研究了母语口音、模型复杂度和对准层次对匹配分数与专家评分之间相关性的影响。提出一种基于听感知模型的发音质量客观评价方法。研究了段长对语音时间对准的影响。基于本论文提出的Mel频标映射的感知模型的客观分数与主观分数的相关系数达到0.723，优于基于HMM的方法。比较了基于Gamma分布和基于直方图分布的段长模型建模方法。基于Gamma分布的段长模型分数与专家评分的相关系数达到0.66。提出一种基于基音信息的基音模型。比较了均匀基音比分数和基音极值差分数与专家评分的相关性。基音极值差相对于基音的均值对发音质量评价更为重要，元音极值差分数与专家评分的相关系数达到0.38。比较了基于线性和SVM的机器分数融合方法。采用SVM的分数融合方法，将HMM声学模型、听感知模型、段长模型和基音模型的分数进行融合。融合后的客观分数与专家评分的相关性达到0.800，该结果是目前国内外有关文献报道的最好结果之一。本论文还提出了一种英语句子重音检测方法。在Boston大学广播新闻语料库上的测试表明，正确率达到82％。本论文制定了对学习者语音进行主观评分的规范并设计了用于发音质量客观评价的语音库。【关键词】：发音质量HMM感知模型段长模型基音融合SVM
【论文提纲】：中文摘要3-5英文摘要5-11第一章引言11-311.1国内英语教育的现状11-121.2数字化学习(E-learning)概述12-141.3计算机辅助语言学习概述14-161.3.1计算机辅助语言学习系统的发展14-151.3.2计算机辅助语言学习系统的特点和设计原则15-161.4CALL中的语音技术16-171.5语音质量的主观评价17-201.5.1语音通讯系统中常用的语音质量主观评价方法17-191.5.2CALL中的语音质量主观评价方法19-201.6语音质量客观评价方法20-261.6.1语音通讯系统中常用的语音质量客观评价方法20-211.6.2CALL中的语音发音质量客观评价方法21-261.6.2.1无参考语音的发音质量客观评价方法21-241.6.2.2有参考语音的发音质量客观评价方法24-261.7基于多模型融合的有参考语音的发音质量客观评价系统26-281.7.1发音质量主观评价和客观评价的比较26-271.7.2基于多模型融合的有参考语音的发音质量客观评价方法27-281.8客观分数到主观分数的映射28-291.9客观评价与主观评价的相关性29-301.10现有的发音质量客观评价系统的性能301.11论文的主要研究内容30-31第二章英语发音语音库设计和专家主观评分方法31-432.1CALL系统中的专家评分语音库设计31-332.1.1学习者语音库31-322.1.2面向CALL的英语口语语音库设计32-332.2面向CALL的专家评分语音库(ESC库)设计33-372.2.1专家评分语音库(ESC库)设计概述33-342.2.2专家评分语音库的发音质量评价层次和评价规范34-352.2.3ESC库的采集、标注和评价35-372.3面向CALL的非母语说话人英语口语语音库(NOSE)设计37-412.3.1NOSE库的设计概述37-382.3.2NOSE库具体描述38-402.3.3NOSE库的音素覆盖率40-412.4本论文采用的发音质量评价的练习和测试语音库41-422.5本章小结42-43第三章基于HMM的发音质量客观评价方法43-643.1基于HMM的语音识别基本算法43-463.1.1HMM的基本概念43-453.1.2HMM的三个基本问题45-463.2用于语音发音质量评价的声学模型46-523.2.1基于多发音字典的声学模型练习方法46-473.2.2英语母语语音练习的HMM识别结果47-483.2.3声学模型的修正48-523.2.3.1声学模型的非母语标准语音自适应49-513.2.3.2非母语语音直接练习HMM声学模型51-523.3基于HMM的无参考语音的发音质量客观评价方法52-533.4基于HMM的有参考语音的发音质量评价方法53-603.4.1匹配分数的定义54-553.4.2声学模型复杂度对匹配分数的影响55-563.4.3参考语音和测试语音对准层次对匹配分数的影响56-573.4.4用于发音质量评价的多发音字典研究57-603.5无参考语音和有参考语音方法与主观评价的相关性分析60-623.5.1无参考语音的后验概率分数与专家评分的相关性60-613.5.2基于不同HMM的有参考语音的匹配分数与专家评分的相关性分析61-623.6本章小节62-64第四章基于感知模型的发音质量客观评价方法64-944.1感知模型概述64-654.2CALL系统中发音质量客观评价与通讯系统中语音质量客观评价的比较65-664.2.1语音通讯系统中影响语音质量的因素分析和PESQ概述654.2.2CALL系统中发音质量客观评价与通讯系统中语音质量客观评价的比较65-664.3基于Bark频标映射的感知模型66-844.3.1语音信号的前端处理67-684.3.2语音信号的功率谱计算68-694.3.3响度的计算69-704.3.4测试语音和参考语音对准的研究70-754.3.4.1参考语音和测试语音时间上的对准71-724.3.4.2DTW对准中语音的标准段长对感知分数的影响72-734.3.4.3测试语音和参考语音的段长之间的相对误差73-744.3.4.4测试语音和参考语音的段长之间相对误差的补偿74-754.3.5感知分数的计算75-764.3.6基于不同HMM声学模型时间对准的感知分数性能的比较76-774.3.7对准层次对感知分数的影响77-794.3.8PESQ中的IRS滤波对感知分数的影响79-804.3.9掩蔽效应对感知分数的影响80-824.3.10DTW时间对准研究的实验结果82-844.3.10.1不同标准段长对相关系数的影响82-834.3.10.2段长比感知分数的影响834.3.10.3段长误差的补偿方法对感知分数的影响83-844.4基于Mel频标映射的感知模型84-894.4.1基于美尔频标映射的感知模型84-874.4.1.1Mel滤波器组输出的能量特征84-864.4.1.2Mel滤波器组的对数能量到响度的映射86-874.4.2基于Mel频标的感知模型的实验结果87-884.4.3能量归一化88-894.5声道长度归一化89-924.5.1共振峰提取方法904.5.2声道长度归一化方法90-924.6映射后的感知分数924.7本章小结92-94第五章发音质量客观评价中超音段信息的应用94-1175.1超音段信息在发音质量客观评价中的应用945.2基于段长模型的发音质量客观评价方法94-985.2.1段长直方图模型95-965.2.2段长Gamma分布模型96-975.2.3段长分数的计算与专家评分的相关性97-985.3基音信息在发音质量客观评价中的应用98-1045.3.1基音提取方法99-1005.3.2基于基音信息的发音质量客观评价方法100-1045.3.2.1均匀基音差分数100-1025.3.2.2基音极值差分数102-1045.4发音质量评价中的英语句子重音检测104-1155.4.1英语韵律概述104-1065.4.2英语句子重音识别概述106-1075.4.3正确率的定义1075.4.4基于HMM的句子重音识别算法107-1105.4.4.1多数据流HMM模型108-1095.4.4.2声学模型的练习1095.4.4.3句子重音识别109-1105.4.5用于重音识别的特征的区分性分析110-1125.4.6英语句子重音识别实验112-1155.4.6.1波士顿大学广播新闻语料库简介112-1135.4.6.2英语句子重音识别结果113-1155.5本章小节115-117第六章发音质量客观评价中的分数融合方法117-1296.1CALL系统中的信息融合策略117-1186.2机器分数映射后与专家评分的相关性118-1196.3CALL系统中的机器分数融合方法119-1286.3.1机器分数的线性融合119-1236.3.1.1机器分数线性融合的基本原理119-1206.3.1.2机器分数线性融合的相关性结果120-1236.3.2基于支持向量机(SVM)的机器分数融合123-1286.3.2.1支持向量机概述123-1246.3.2.2支持向量回归124-1266.3.2.3基于SVM的机器分数融合126-1286.4本章小节128-129第七章结论129-1337.1论文工作总结129-1317.1.1非母语英语语音库设计和专家主观评分方法1297.1.2基于HMM的发音质量客观评价方法129-1307.1.3基于感知模型的发音质量客观评价方法130-1317.1.4超音段信息在发音质量客观评价中的作用1317.1.5发音质量客观评价中的分数融合方法1317.2论文创新点131-1327.3未来工作展望132-133参考文献133-139攻读博士学位期间发表的论文139研究成果139-140致谢140