一种语音识别中的环境自适应方法

一种语音识别中的环境自适应方法

一、一种语音识别中的环境自适应方法(论文文献综述)

余本国,郇晋侠,刘晓峰,高伟涛[1](2021)在《语音识别系统在山西方言中的实现与应用》文中研究表明目前山西的语音识别系统多数为普通话识别,对于该地区方言识别的准确率并不理想。针对这一问题,采集山西地方方言语音和语料建立语音库,根据山西各地方言发音的特点,构建山西地方方言的语音识别系统,以山西声韵母为基元,提取Mel倒谱系数(MFCC)的特征参数,选择隐马尔可夫模型(Hidden Markov Model,HMM),实现山西当地方言的语音识别系统。实验结果显示,针对差别小的小区域方言识别,HMM的识别率有很好的稳定性。

朱方圆,马志强,陈艳,张晓旭,王洪彬,宝财吉拉呼[2](2021)在《语音识别中说话人自适应方法研究综述》文中认为语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分。近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术。然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题。因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向。相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题。首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向。

马金林,巩元文,马自萍,陈德光,朱艳彬,刘宇灏[3](2021)在《唇语识别的视觉特征提取方法综述》文中认为现有唇语识别研究多专注于提高识别精度、研究多模态输入特征等方面,对提高唇部视觉特征的有效性关注不多。而唇部的视觉信息在视觉语音识别和唇语识别中起着关键作用,尤其在音频被破坏或无音频信息时,唇部视觉信息尤为重要。如何获取准确有效的唇部视觉特征是当前唇语识别的难点工作之一。从唇语数据集、传统视觉特征提取方法、视觉特征提取的深度学习方法三方面综述了唇语识别方向近年来的最新研究工作:首先,总结了唇语识别数据集,将唇语数据集分为正视图和多视图两种类型,并总结整理两类数据集的特点、局限性和下载地址;其次,从像素点、形状和混合特征的角度介绍了唇部视觉特征提取的传统方法,重点介绍各方法的基本思想、网络结构和特点;然后,介绍了唇部视觉特征提取的深度学习方法,重点介绍2D CNN、3D CNN、2D CNN与3D CNN相结合、其他神经网络四种深度学习方法的网络结构和优缺点,并比较了这些方法在公开数据集上的性能表现;最后,对唇部视觉特征提取方法所面临的挑战和未来研究趋势进行了展望。

庄志豪,傅洪亮,陶华伟,杨静,谢跃,赵力[4](2021)在《基于深度自编码器子域自适应的跨库语音情感识别》文中研究表明针对不同语料库之间数据分布差异问题,提出一种基于深度自编码器子域自适应的跨库语音情感识别算法。首先,该算法采用两个深度自编码器分别获取源域和目标域表征性强的低维情感特征;然后,利用基于LMMD(local maximum mean discrepancy)的子域自适应模块,实现源域和目标域在不同低维情感类别空间中的特征分布对齐;最后,使用带标签的源域数据进行有监督地训练该模型。在eNTERFACE库为源域、Berlin库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了5.26%~19.73%;在Berlin库为源域、eNTERFACE库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了7.34%~8.18%。因此,所提方法可以有效地提取不同语料库的共有情感特征并提升了跨库语音情感识别的性能。

段杰鹏[5](2021)在《面向语音识别应用的开源软件演化技术研究》文中研究指明开源软件社区的出现,为软件开发提供了丰富的可参考原型资源,无论从软件技术原型到机器学习模型等等。然而,这些原型资源往往依赖具体应用背景和计算环境,很难适应个性化需求,如何有效利用这些开源原型是一个新的挑战。本文结合语音识别应用,研究如何利用软件演化技术解决开源语音模型自适应问题。利用反射机制,动态感知环境变化和语音识别需求的变化,并对开源软件进行自适应调整,以便满足个性化语音识别应用需求。研究中提出了模型驱动和数据驱动演化算法,以解决语音识别精度要求变化和语音模型环境变化引起的语音识别模型演化的个性化问题。以乒乓球技战术采集语音识别系统应用为案例,检验上述提出算法的有效性。设计并开发了一个乒乓球技战术采集语音识别原型系统,采用模型库、方法库和数据库体系结构,在方法库中不同方法的驱动下完成模型驱动和数据驱动的语音识别自适应过程。

陈旭[6](2021)在《基于逆ERB高斯滤波器组的录音回放攻击检测研究》文中研究指明

于佳慧[7](2021)在《基于深度学习和数据增强的维吾尔语语音识别研究》文中研究表明

丁伊丽[8](2021)在《维吾尔语语音识别中的子词建模方法研究》文中认为

赵静[9](2021)在《基于迁移学习的跨域人体行为识别方法研究》文中研究表明人体行为识别(Human Activity Recognition,HAR)是普适计算领域中重要的研究内容,在儿童运动监测、病人康复训练、老人跌倒检测等方面得到了广泛应用和发展。目前,基于深度学习的行为识别方法研究受到诸多学者的关注,但是大多数深度学习模型都旨在解决特定任务,当数据分布发生变化时,这些模型将需要大量计算能力并耗费大量时间来再次被重建。而迁移学习(Transfer Learning)可以使用预先训练好的网络并将其应用于我们的自定义任务,以及转移从先前任务中学习到的知识。因此,本文从参数迁移和特征迁移两个方面研究人体行为的跨域识别方法。主要内容包括:(1)人体行为识别一般流程包括动作数据采集、预处理、模型训练和识别等步骤。本文针对非特定动作类别迁移识别问题和目标域数据缺乏标签等问题,基于卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆网络(Long Short-Term Memory,LSTM)设计了一个基于迁移学习的跨域行为识别方法框架。同时,针对动作数据分割问题,提出了一种基于变化点检测的动作数据分割方法,可以实现连续动作数据中不同动作数据的准确分割,为模型训练提供输入数据。(2)提出了一种基于参数迁移的动作识别方法。针对目标域中新行为的出现所导致的整体数据分布变化,从而引起模型性能下降的问题,首先使用源域样本训练基于CNN-LSTM的HAR模型,将其跨域迁移应用于目标域;然后,当目标域样本发生变化或出现新的行为类别时,通过冻结HAR模型中CNN和LSTM特征提取层的参数,将网络参数进行保留,重新训练模型的全连接分类层,最终得到的通过参数迁移学习更新后的HAR模型。新的HAR模型在保持对源域特定动作的识别能力的同时,增加了动作识别的类型,同时也能识别目标域中的新行为。实验结果表明该方法能够在保持模型对源域中已有的特定动作识别精度的基础上,逐渐加入对目标域中新行为的识别能力,具有良好的识别精度。(3)提出一种基于特征迁移的动作识别方法。针对目标域中采集的样本数据标签缺失问题,首先通过无监督源域选择方法,通过度量目标域到不同源域之间的相关距离,为目标域选择相关性最高的源域;其次将选定的源域和目标域样本通过深度自适应网络(DAN,Deep Adaptation Network)联合多核最大均值差异(Multi-Kernel Maximum MeanDiscrepancy,MK-MMD)的方法最小化两域的整体分布差异,将源域训练的模型跨域迁移应用于目标域。实验结果表明,当目标域中存在大量无标签数据时,使用迁移后的模型可以对无标签的目标域进行标注。除此之外,当源域数据和目标域数据之间服从不同分布时,该方法可以对齐源域和目标域的整体分布差异,增加模型跨域迁移后对目标域样本的适应性,同时不会引起模型性能的明显下降,也避免重新训练一个新模型所耗费的大量时间。

邵子璇[10](2021)在《基于深度学习的说话人识别技术研究》文中指出

二、一种语音识别中的环境自适应方法(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一种语音识别中的环境自适应方法(论文提纲范文)

(1)语音识别系统在山西方言中的实现与应用(论文提纲范文)

1 引言
2 山西方言概括
    2.1 山西方言的作用
    2.2 山西方言的特色
    2.3 当前研究方言现状与应用
        2.3.1 研究现状
        2.3.2 应用
3 山西方言语音识别概括
    3.1 语音识别原理
    3.2 预处理
    3.3 特征参数
    3.4 声学模型
    3.5 语言模型
4 HTK工具基本介绍
5 方言语音识别的设计与实现
    5.1 语音库建立
        5.1.1 科学的划分区域
        5.1.2 音语料的设计
        5.1.3 注
    5.2 特征参数提取
    5.3 模型训练
    5.4 模式识别与分析
    5.6 实验结果分析
6 结语

(2)语音识别中说话人自适应方法研究综述(论文提纲范文)

1 基于特征域的说话人自适应方法
    1.1 基于特征变换的说话人自适应
        1.1.1 基于特征变换原理
        1.1.2 基于特征变换的改进方法
    1.2 基于辅助特征的说话人自适应
        1.2.1 基于辅助特征原理
        1.2.2 基于辅助特征的改进方法
        1.2.2. 1 添加辅助信息的改进方法
        1.2.2. 2 说话人编码的改进方法
2 基于模型域的说话人自适应
    2.1 基于模型参数的说话人自适应
        2.1.1 基于模型参数的原理
        2.1.2 基于模型参数的改进方法
        (1)部分参数自适应的改进方法
        (2)SVD的改进方法
        (3)LHUC的改进方法
    2.2 基于正则化的说话人自适应
        2.2.1 基于正则化原理
        2.2.2 基于正则化的改进方法
3 总结与展望
    (1)在线说话人自适应
    (2)无监督说话人自适应
    (3)面向端到端模型

(3)唇语识别的视觉特征提取方法综述(论文提纲范文)

1 唇语数据集
    1.1 正视图数据集
    1.2 多视图数据集
2 传统的唇部视觉特征提取方法
    2.1 基于像素点的方法
    2.2 基于形状的方法
    2.3 基于混合特征的方法
3 深度学习唇部视觉特征提取方法
    3.1 基于2D CNN的视觉特征提取方法
    3.2 基于3D CNN的视觉特征提取方法
    3.3 基于2D CNN与3D CNN结合的视觉特征提取方法
    3.4 基于其他神经网络的视觉特征提取方法
4 总结与展望
5 结束语

(4)基于深度自编码器子域自适应的跨库语音情感识别(论文提纲范文)

0 引言
1 深度自编码器子域自适应模型和基础模型
    1.1 深度自编码器子域自适应模型
    1.2 深度自编码器
    1.3 子域自适应
2 实验与结果分析
    2.1 语料库及语音特征提取
        2.1.1 语料库
        2.1.2 语音特征提取
    2.2 实验设置及评价指标
    2.3 实验结果及分析
3 结束语

(5)面向语音识别应用的开源软件演化技术研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 研究现状
    1.3 主要研究内容
    1.4 研究方法与技术
    1.5 本文组织结构
第二章 相关理论与技术
    2.1 开源语音识别系统
    2.2 软件演化技术
        2.2.1 C2体系结构风格与动态演化
        2.2.2 计算反射
        2.2.3 中间件
        2.2.4 再工程
    2.3 模型库决策支持
    2.4 语音识别技术
    2.5 神经网络
    2.6 乒乓球技战术语言
    2.7 本章总结
第三章 需求驱动的开源语音识别系统演化算法研究
    3.1 模型驱动演化
        3.1.1 演化模型
        3.1.2 模型驱动演化算法
    3.2 数据驱动演化
        3.2.1 演化模型
        3.2.2 数据驱动演化算法
    3.3 实验验证与分析
        3.3.1 应用案例介绍
        3.3.2 实验环境介绍
        3.3.3 模型驱动演化实验分析
        3.3.4 数据驱动演化实验分析
    3.4 本章总结
第四章 软件原型实现
    4.1 语音识别辅助乒乓球技战术采集系统设计
        4.1.1 再工程
        4.1.2 反射式中间件
        4.1.3 数据字典
    4.2 演化算法实现
    4.3 原型系统测试
    4.4 本章总结
第五章 结论与展望
    5.1 结论
    5.2 展望
参考文献
在学期间的研究成果
致谢

(9)基于迁移学习的跨域人体行为识别方法研究(论文提纲范文)

摘要
abstract
1 绪论
    1.1 研究背景与意义
    1.2 研究现状
        1.2.1 基于可穿戴传感器的人体行为识别
        1.2.2 基于深度学习的人体行为识别
        1.2.3 基于迁移学习的跨域人体行为识别
    1.3 主要工作与结构
        1.3.1 论文主要工作
        1.3.2 论文组织结构
2 人体行为跨域迁移识别的基本框架
    2.1 人体行为识别一般流程和问题分析
        2.1.1 人体行为识别一般流程
        2.1.2 人体行为识别问题分析
    2.2 基于迁移学习的人体行为识别框架
    2.3 变化点检测的数据分割方法
    2.4 迁移学习
    2.5 本章小结
3 基于参数迁移的动作识别方法
    3.1 理论基础
        3.1.1 卷积神经网络
        3.1.2 长短时记忆网络
    3.2 非特定动作识别方法
        3.2.1 非特定动作识别方法框架
        3.2.2 非特定动作识别模型
        3.2.3 非特定动作识别模型的迁移
    3.3 实验分析
        3.3.1 数据集
        3.3.2 模型训练
        3.3.3 特定动作的识别模型
        3.3.4 非特定动作的识别与模型更新
    3.4 本章小结
4 基于特征迁移的动作识别方法
    4.1 无监督源域选择方法
        4.1.1 问题描述
        4.1.2 无监督源域选择
    4.2 DAN网络跨域迁移方法
        4.2.1 理论基础
        4.2.2 网络结构
        4.2.3 损失函数
    4.3 实验分析
        4.3.1 数据集
        4.3.2 实验评估
    4.4 本章小结
5 总结与展望
    5.1 总结
    5.2 展望
致谢
参考文献
攻读硕士期间研究成果

四、一种语音识别中的环境自适应方法(论文参考文献)

  • [1]语音识别系统在山西方言中的实现与应用[J]. 余本国,郇晋侠,刘晓峰,高伟涛. 计算机与数字工程, 2021(10)
  • [2]语音识别中说话人自适应方法研究综述[J]. 朱方圆,马志强,陈艳,张晓旭,王洪彬,宝财吉拉呼. 计算机科学与探索, 2021
  • [3]唇语识别的视觉特征提取方法综述[J]. 马金林,巩元文,马自萍,陈德光,朱艳彬,刘宇灏. 计算机科学与探索, 2021
  • [4]基于深度自编码器子域自适应的跨库语音情感识别[J]. 庄志豪,傅洪亮,陶华伟,杨静,谢跃,赵力. 计算机应用研究, 2021(11)
  • [5]面向语音识别应用的开源软件演化技术研究[D]. 段杰鹏. 北方工业大学, 2021(01)
  • [6]基于逆ERB高斯滤波器组的录音回放攻击检测研究[D]. 陈旭. 南京财经大学, 2021
  • [7]基于深度学习和数据增强的维吾尔语语音识别研究[D]. 于佳慧. 新疆大学, 2021
  • [8]维吾尔语语音识别中的子词建模方法研究[D]. 丁伊丽. 新疆大学, 2021
  • [9]基于迁移学习的跨域人体行为识别方法研究[D]. 赵静. 西安理工大学, 2021(01)
  • [10]基于深度学习的说话人识别技术研究[D]. 邵子璇. 重庆邮电大学, 2021

标签:;  ;  ;  ;  ;  

一种语音识别中的环境自适应方法
下载Doc文档

猜你喜欢