前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率,更谈不上实现声源定位和分离。
所以,当语音交互的场景过渡到以智能音箱、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,麦克风阵列技术应运而生。
麦克风阵列
麦克风阵列,特指应用于语音处理的按一定规则排列的多个麦克风系统。对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源定位测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。如果把语音识别看成一个接收信息、解析信息、做出反馈过程的话,麦克风阵列解决的是听不听得到、多远距离属于合理范围、不受噪音影响的问题。
麦克风阵列技术的技术难点
传统的阵列信号处理技术直接应用到麦克风阵列处理系统中往往效果不理想,其原因在于麦克风阵列处理有不同的处理特点。
·阵列模型的建立
麦克风主要应用处理语音信号,拾音范围有限,且多用于近场模型,使得常规的阵列处理方法如雷达,声呐等平面波远场模型不再适用,在近场模型中,需要更加精准的球面波,需要考虑传播路径不同引起的幅度衰减不同。
·宽带信号处理
通常的阵列信号处理多为窄带,即不同阵元在接受时延与相位差主要体现在载波频率,而语音信号未经过调制也没有载波,且高低频之比较大,不同阵元的相位延时与声源本身的特性关系很大—频率密切相关,使得传统的阵列信号处理方法不再完全适用。
·非平稳信号处理
传统阵列处理中,多为平稳信号,而麦克风阵列的处理信号多是非平稳信号,或者短时平稳信号,因此麦克风阵列一般对信号做短时频域处理,每个频域均对应一个相位差,将宽带信号在频域上分成多个子带,每个子带做窄带处理,再合并成宽带谱。
·混响
声音传播受空间影响较大,由于空间反射,衍射,麦克风收到的信号除了直达信号以外,还有多径信号叠加,使得信号被干扰,即为混响。在室内环境中,受房间边界或者障碍物衍射,反射导致声音延续,极大程度的影响语音的可懂度。利用麦克风阵列去混响的主要方法有以下几种:
基于盲语音增强的方法,即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。
基于波束形成的方法,通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。
基于逆滤波的方法,通过麦克风阵列估计房间的房间冲击响应,设计重构滤波器来补偿来消除混响。
·声源定位
声源定位技术在人工智能领域应用广泛,利用麦克风阵列来形成空间笛卡尔坐标系,根据不同的线性阵列,平面阵列和空间阵列,来确定声源在空间中的位置。智能设备首先可以对声源的位置做进一步的语音增强,当智能设备获取你的位置信息可以结合其他的传感器进行进一步的智能体验,比如机器人会听到你的呼唤走到你的身边,视频设备会聚焦锁定说话人等等。
发展趋势
麦克风阵列技术相对于单麦克风系统有很多优点,已成为语音增强及语音信号处理的重要部分。语音增强和声源定位已经成为阵列技术中不可缺少的部分,在视频会议,智能机器人,助听器,智能家电,通信,智能玩具,车载领域都需要声源定位和语音增强。
当下,大部分语音信号处理都是基于平稳信号的假设,但是语音信号的特征参数均是随时间而变化,是典型的非平稳态过程。因为语音信号具有短时平稳的特性,所以可以用主流信号处理方法对其处理。因此,麦克风阵列的基本原理和模型方面还存在较大的局限,所以基础研究的突破才是未来的根本。
小型化
麦克风阵列受制于半波长理论的限制,限制了ID设计的自由性。很多产品采用2个麦克风其实并非成本问题,而是出于ID设计考虑。实际上,借鉴雷达领域的合成孔径方法,麦克风阵列可以做的更小,移植到消费领域只是时间问题。
低成本化
当前无论是2个麦克风还是4、6个麦克风阵列,成本都是比较高的,这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件,而是整个结构的重新设计,包括器件、芯片、算法和云端。近年来,由于新技术的应用,多麦克风阵列的成本下降非常明显。
多人声的处理和识别
人的耳朵可以在嘈杂的环境中分辨想要的声音,并且能够同时识别多人说话的声音。但现在的麦克风阵列和语音识别还都是单人识别模式,距离多人识别的目标还很远。现在的算法思想主要是“抑制”,而不是“利用”,这实际上就是人为故意简化了物理模型,因此语音交互格局已定的说法经不起推敲,对语音交互的认识和探究应该说才刚刚开始,基础世界的探究很可能还会出现诺奖级的成果。若展望的更远一些,则是物理学的进展和人工智能的进展相结合,可能会颠覆当前的声学信号处理以及语音识别方法。
阵列麦克风对人工智能的意义
通过电扫阵列等空间定位技术可以获取声源的有效位置,智能设备在获取精准的声源位置信息,让我们的语音更加智能,通过算法获取高品质的语音信号质量。
麦克风阵列可以自动检测声源位置,跟踪说话人,同时可以获取多声源和跟踪移动声源的优势,无论你走到任何位置,智能设备都会对你的位置方向进行语音增强。
阵列麦克风增加了空域处理,对多信号空时频三维的处理弥补单信号在噪声抑制,回声抑制,混响抑制,声源定位,语音分离方面的不足,让我们的智能设备在复杂的环境中都可以获取高质量的语音信号,提供更好的智能语音体验。
总结
在万物互联的今天,麦克风阵列技术已经走进了我们的日常生活。在智能音响、智能家居、机器人、可穿戴设备等应用热潮正兴起的时代,语音交互由于其便捷性,成为人机交互入口的第一选择,麦克风阵列技术自然也成为热门的前端技术。进击的麦克风阵列还会给人工智能带来什么,让我们拭目以待。