阵列式麦克风的语音信号处理技术

来源:大牛讲堂 日期:2018-10-19

麦克风阵列的语音信号处理技术
熟悉人工智能的朋友一定明白,语音交互对于人机对话交互的重要意义,而一个完整的语音交互涉及到人的语音、语义,机器的麦克风、处理器、核心算法等多个部分,是一项看似简单,实则复杂的庞大工程!当然这是以小编的粗浅理解写成的总结,技术讲解咱还得靠大牛!
阵列麦克风对人工智能的意义
1.空间选择性:通过电扫阵列等空间定位技术可以获取声源的有效位置,智能设备在获取精准的声源位置信息,让我们的语音更加智能,通过算法获取高品质的语音信号质量。

2.麦克风阵列可以自动检测声源位置,跟踪说话人,同时可以获取多声源和跟踪移动声源的优势,无论你走到任何位置,智能设备都会对你的位置方向进行语音增强。

3.阵列麦克风增加了空域处理,对多信号空时频三维的处理弥补单信号在噪声抑制,回声抑制,混响抑制,声源定位,语音分离方面的不足,让我们的智能设备在复杂的环境中都可以获取高质量的语音信号,提供更好的智能语音体验。

麦克风阵列技术的技术难点

传统的阵列信号处理技术直接应用到麦克风阵列处理系统中往往效果不理想,其原因在于麦克风阵列处理有不同的处理特点:

1.阵列模型的建立

麦克风主要应用处理语音信号,拾音范围有限,且多用于近场模型,使得常规的阵列处理方法如雷达,声呐等平面波远场模型不再适用,在近场模型中,需要更加精准的球面波,需要考虑传播路径不同引起的幅度衰减不同。

2.宽带信号处理

通常的阵列信号处理多为窄带,即不同阵元在接受时延与相位差主要体现在载波频率,而语音信号未经过调制也没有载波,且高低频之比较大,不同阵元的相位延时与声源本身的特性关系很大—频率密切相关,使得传统的阵列信号处理方法不再完全适用。

3.非平稳信号处理

传统阵列处理中,多为平稳信号,而麦克风阵列的处理信号多是非平稳信号,或者短时平稳信号,因此麦克风阵列一般对信号做短时频域处理,每个频域均对应一个相位差,将宽带信号在频域上分成多个子带,每个子带做窄带处理,再合并成宽带谱。

4.混响

声音传播受空间影响较大,由于空间反射,衍射,麦克风收到的信号除了直达信号以外,还有多径信号叠加,使得信号被干扰,即为混响。在室内环境中,受房间边界或者障碍物衍射,反射导致声音延续,极大程度的影响语音的可懂度。

声源定位

声源定位技术在人工智能领域应用广泛,利用麦克风阵列来形成空间笛卡尔坐标系,根据不同的线性阵列,平面阵列和空间阵列,来确定声源在空间中的位置。智能设备首先可以对声源的位置做进一步的语音增强,当智能设备获取你的位置信息可以结合其他的传感器进行进一步的智能体验,比如机器人会听到你的呼唤走到你的身边,视频设备会聚焦锁定说话人等等。了解声源定位技术之前,我们需要了解近场模型和远场模型。
阵列技术的未来发展

麦克风阵列技术相对于单麦克风系统有很多优点,已成为语音增强及语音信号处理的重要部分。语音增强和声源定位已经成为阵列技术中不可缺少的部分,在视频会议,智能机器人,助听器,智能家电,通信,智能玩具,车载领域都需要声源定位和语音增强。各种信号处理技术,阵列信号处理技术都陆续结合到麦克风阵列的语音处理系统当中,并逐渐得到算法改进和进一步的广泛应用。在复杂的噪声环境,混响环境,声学环境下,强大的硬件处理能力也使得复杂算法实时处理语音增强成为了可能。在未来,语音和图像的紧密结合会成为人工智能领域的新的突破口,在人工智能的风口浪尖,是谁能将语音识别,语音理解,阵列信号处理,远场语音,图像识别,人脸识别,虹膜识别,声纹识别的技术巧妙并有机的结合在一起,并将技术的本质和与人为本的宗旨完美的结合,让我们拭目以待。
 

我们致力于研发、生产和销售专业化、国际化的视频会议系统产品

Copyright © 2017 深圳市华迅通技术有限公司 粤ICP备18132755号-1 飞浪网络