上海论文网提供毕业论文和发表论文,专业服务20年。

融合注意力机制的深度回声消除算法探讨

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:0
  • 论文编号:
  • 日期:2024-07-25
  • 来源:上海论文网

计算机论文哪里有?本研究分析了回声的产生原理和回声消除的基本原理,阐述了回声信号常见的特征参数,然后描述了回声消除常用的评价指标,最后引出在回声消除中常见的几种神经网络结构,主要是从模型的基本概念到模型的基本结构进行深度分析。

第一章 绪论

1.2 国内外研究历史及现状

AEC方法的研究在早些年开始被提出研究,经过几十年的发展,这项技术逐步完善。 最早提出的AEC算法是利用自适应滤波来实现回声的消除。自适应滤波是一种广泛应用的回声消除技术,它基于一种自适应滤波器,根据回声延迟时间和回声信号的频率特性,自适应地调整滤波器参数,从而最小化回声信号的影响。经过自适应滤波后会有一些残留回波,虽然在大多数情况下,它的振幅比语音音频小得多,但它也会被人耳感知到,从而干扰正常通信。这些残留回波包括由于估计与实际不匹配而产生的线性残留和主要由音频设备上的非线性成分引起的非线性残留。

传统的AEC算法是将麦克风和扬声器间的回声脉冲响应(Echo Impulse Response, EIR)建模为线性滤波器,然后使用自适应滤波算法[4-7]估计出通信设备中扬声器和麦克风间的声学冲激响应(Acoustic Impulse Response, AIR),进而实现回声的消除。最初是通过最小均方算法(Least Mean Square, LMS)引入到自适应滤波器算法来实现回声的消除,文献[8-10]提出在输入信号中除去回声信号,其中回声路径使用LMS算法来模拟,此算法简单并得到广泛应用,它不需要任何相关函数的计算。然而,由于LMS算法在迭代过程中,步长始终保持不变,收敛性很弱,导致在整个回声消除的过程中存在很多不确定的因素,回声消除效果不佳。文献[11-13]提出使用归一化最小均方算法(Normalized Least Mean Square, NLMS)来代替LMS算法模拟回声路径,NLMS算法是在LMS算法的基础上添加了归一化操作,目的是提高该算法的收敛性能,但是由于参考信号功率的存在,NLMS算法的计算复杂度变高。

第三章 融合注意力机制的CS-BiLSTM回声消除算法

3.1 双向循环网络模型

BiL STM网络是由两个反方向的LSTM网络合并形成的网络结构,且这两个单向的LSTM网络都直接和输出层连接,BiL STM结构如图3.1所示。

计算机论文怎么写

  由BiL STM的结构图可以看到,前向LSTM网络可以看作从右边作为输入左边输出的正向计算,反向LSTM网络可看作从左边作为输入右边作为输出的反向计算,最后输出是由计算,最后输出是由两个LSTM同时训练将训练结果连接到同一输出层决定的。

第四章 基于DBNN模型的回声消除算法

4.1 双分支DBNN模型

预测的声学回声中存在一些近端语音的相关信息,预测的近端语音信号中同样存在一些声学回声的相关信息,预测的近端语音信号与预测的声学回声之间存在一定的相关性。根据这个特性,在预测的近端语音信号与预测的声学回声之间进行信息交互可以相互帮助恢复部分丢失的语音成分,并且更彻底地消除无关信息。本章基于双分支神经网络进行优化,提出了一种左右并行可交互地双分支神经网络(Double Branch Neural Network,DBNN)模型,在模型中,两个分支分别去学习预测近端语音信号与回声信号,为使两分支网络更好的学习建模,在两个分支之间引入了交互模块,这种交互可以使从一个分支中学到的特征来抵消不需要的部分特征,并且可以恢复另一支所缺失的部分,从而增强他们对特征的学习及判断能力。同时本章还提出了一个基于自注意力机制的特征提取模块,来获取近端语音信号与远端语言信号之间的相关性。

4.1.1 DBNN网络

双分支神经网络已被探索用于捕获跨模态信息的各种任务[67,68]或不同层次的信息[69,70],Yin等人[71]提出了在语音增强中利用双分支建模,分别预测增强信号的幅度和相位。在本章中,文中提出的基于DBNN网络的AEC算法结构如图4.1所示。DBNN网络的一个分支用于预测近端语音,另一条分支用于预测声学回声,两条分支的网络结构完全相同,具体为三部分:编码器、BSA(BiL STM Self-Attention)模块以及解码器

计算机论文参考

4.2 实验设置

4.2.1 实验环境设置

本文搭建的实验环境配置如表4.1所示,包括处理器、显卡等硬件环境和操作系统、 显卡驱动等软件环境。

计算机论文怎么写

4.2.2 数据集

本文实验中所涉及到的数据来源于Microsoft AEC Challenges数据集、VCTK数据集、TIMIT Corpus数据集具体信息如下:  Microsoft AEC Challenges数据集:与上一章节用法相同。

VCTK数据集[82]:由110位不同方言的美国人说英语录制,语音大都来自于报纸、日常口语通话和杂志。我们随机选取100位说话人,并在每位说话人的语音中随机选取50条语音制作数据集,按照4:4:1:1的比例将这100位说话人的语音分为训练集的近端语音与远端语音以及测试集的近端语音与远端语音。通过在前端和后端填充零,将近端语音信号与远端信号都扩展到5s的长度。

第五章 总结与展望

5.2 下一步工作及展望

越来越多语音通信的应用促进了远程通话语音的发展,开发量化捕获语音信号中回声信号的测量方法是一项艰巨的任务,这样的方法在回声消除算法中极为有用。本文是针对双端通话中的非线性回声问题,提出了基于注意力机制和神经网络的算法,来实现回声消除。虽然本文提出的两种算法在一定程度上都能够实现回声消除,实验也证明了提出的算法在消除回声信号领域有一定的潜力,但由于复杂的模型结构,在实际应用场景上依旧存在一定的问题。在未来,随着通信技术的发展和应用场景的不断扩展,回声消除技术也将不断创新与升级,以便更好地满足人们的需求。可以从网络模型的简化、数据集的完善和理论算法的实际应用着手,主要包括以下部分:

(1)研究的现实运用。就目前的回声消除模型而言,太过于复杂、实现起来成本较高及编程语言较为复杂,在实际应用上也有很大的困难,需要找一些比较简单的语言和轻量级的模型来实现。

(2)数据集的完善。建立数量庞大音质优异的回声消除数据库,重点完善回声信号数据库。可懂度和复杂度高的数据集对于深度神经网络的性能至关重要,完善的数据集可以促进网络模型的优化。

(3)输入信号的时域建模训练。语音分析的基础是基于傅里叶变换的基本思想,但语音信号是一种具有随机性、前后关联性和短时平稳性的时序信号。文中提出的模型基本都是将输入信号经过短时傅里叶变换形成时间、频率和强度的三维图形,然后再在频域进行模型的训练等操作。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!