02. 听觉注意解码准确性对助听器降噪系统的影响
Impact of auditory attention decoding accuracy on noise reduction systems for hearing aids (2026)

摘要
Hearing aid users often struggle to focus on a specific target speaker in multi-talker environments. Auditory attention decoding (AAD) algorithms, which extract attentional cues from electroencephalogram (EEG) signals, offer a potential solution. This study evaluates how AAD accuracy and decision window length affect the performance of a multichannel Wiener filter noise reduction system in a speaker and story-independent scenario. Simulations in two-speaker anechoic conditions show that, for decision windows of 1 s or less, AAD accuracies approximately above 81 % are required to meet minimum conversational speech quality (PESQ = 2.0), while accuracies approximately above 64 % suffice for intelligibility (STOI = 0.62). These results define quantitative performance targets for integrating AAD-based noise reduction into hearing aids and highlight the trade-off between decision latency, decoding accuracy, and perceptual benefit under idealized beamforming/VAD and anechoic conditions with high-density EEG.
助听器使用者在多说话者环境中常常难以专注于特定的目标说话者。听觉注意解码(AAD)算法可以从脑电图(EEG)信号中提取注意线索,提供一个潜在的解决方案。本研究评估了AAD准确率和决策窗口长度如何影响多通道维纳滤波噪声抑制系统在说话者和故事独立场景中的性能。双说话者无回声条件下的仿真表明,对于1秒或更短的决策窗口,AAD准确率需要大约超过81%才能达到最低的会话语音质量(PESQ = 2.0),而大约超过64%的准确率就足以满足可懂度要求(STOI = 0.62)。这些结果为将基于AAD的噪声抑制集成到助听器中设定了量化的性能目标,并突出了在理想的波束形成/VAD和无回声条件下、高密度EEG环境中决策延迟、解码准确率与感知收益之间的权衡。
1. Introduction
1.1 研究背景
问题背景:
听力损失用户在多说话人(“鸡尾酒会”)环境中难以聚焦于目标说话人,现有助听器在此方面存在不足。
现有解决方案与局限:
传统方法:依赖音量、视线方向等启发式规则,在目标源不具这些特征时效果不佳。
新兴技术:基于脑电图(EEG)的听觉注意力解码(AAD) 技术,可直接从大脑信号中解码用户注意力。
- 两大技术路径:
- 神经引导的语音提取:使用EEG信号直接引导深度学习模型从混合语音中提取目标语音。但存在模型复杂、泛化能力差(如依赖特定说话人)等问题,不适用于现实助听器。
- 分离后分类:先分离各说话人信号,再用AAD选择目标。这种方法更易于在助听器上实现,是本文采用的技术路径。
- 两大技术路径:
核心矛盾:AAD的准确率与决策窗口长度(延迟) 之间存在权衡。短窗口(低延迟)是实用性的关键,但会导致准确率下降。先前研究使用了长达30秒的决策窗口,这在现实中完全不实用。
参考的核心文献局限
- 只评估了AAD本身的分类性能,未集成到噪声抑制系统中评估最终语音效果。
- 依赖需要先验知识的伪迹去除算法。
- 存在数据泄露问题,导致性能评估虚高。
其他局限:
大多数研究只报告AAD分类准确率,但助听器的适用性最终取决于语音可懂度与质量。
1.2 本文贡献
- 核心目标:在说话者和故事独立的实用场景下,量化研究AAD准确率和决策窗口长度如何影响噪声抑制系统的客观语音质量(PESQ) 和可懂度(STOI)。
- 最终目的:为将AAD集成到助听器中,确定其准确率和延迟的最低性能要求,为实际设计提供定量基准。
2. Acoustic scenario description
2.1 核心内容概括
这一部分描述了一个理想化的双说话人混响场景:
位置:一位听者,其左右两侧(方位角±90°)各有一个说话人。
设备:助听器共有
M个麦克风,线性分布在双耳(左耳M/2个,右耳M/2个,信号通过无线传输同步)。接收信号:这些麦克风会捕捉到:
N个不同说话人的语音信号。环境中的环境噪声(扩散声场)和电路噪声。
关键假设:
- 语音源和噪声是遍历的,其统计特性可以在短时窗口内估计。
- 语音与噪声之间是不相关的。
2.2 公式解读

公式 (1): 单个麦克风接收到的信号

yₘ(λ, k):在第m个麦克风的 时频点(λ, k)上接收到的总信号。(λ是时间帧索引,k是频率点索引)Σ xₘᵢ(λ, k):所有N个说话人的语音信号在第m个麦克风处叠加的结果。nₘ(λ, k):在第m个麦克风处收到的环境噪声和电路噪声。
通俗理解:这个公式就是说,每个麦克风听到的声音 = 所有说话人声音的混合 + 背景噪音。
公式 (2): 语音信号的建模
公式(2) 是公式(1) 的一部分
sᵢ(λ, k):第i个说话人发出的纯净语音信号。aₘᵢ(λ, k):声学传递函数,它模拟了第i个声源发出的声音传播到第m个麦克风这个过程所发生的变化(如衰减、延迟)。xₘᵢ(λ, k):最终,第i个说话人的声音被第m个麦克风捕捉到的版本。
通俗理解:一个说话人的声音从嘴里发出,经过空气传播,再到被麦克风录下,这个过程会发生改变。
aₘᵢ就是描述这个“改变”的函数。所以,麦克风收到的某个说话人的声音 = 他发出的原始声音 × 传播路径的影响。
公式 (3): 所有麦克风信号的向量表示

这只是把公式(1)和(2)结合起来,并用向量形式表示所有 M 个麦克风的信息,这样更简洁,也便于后续的矩阵运算。
y(λ, k):一个向量,包含了所有M个麦克风在时频点(λ, k)上接收到的信号[y₁, y₂, ..., y_M]ᵀ。aᵢ(λ, k):一个向量,包含了第i个说话人到所有M个麦克风的声学传递函数[a₁ᵢ, a₂ᵢ, ..., a_Mᵢ]ᵀ。它定义了该说话人的空间位置信息。n(λ, k):一个向量,包含了所有M个麦克风处的噪声[n₁, n₂, ..., n_M]ᵀ。
公式 (4) & (5): 定义“期望信号”与“噪声+干扰”
这里对总信号 y(λ, k) 进行拆分,将其明确分为“我们想要的”和“我们不想要的”两部分。
期望信号向量
x(λ, k):
假设第一个说话人
s₁是听者关注的目标。那么,所有麦克风收到的、来自s₁的信号就是期望信号。干扰噪声向量
r(λ, k):
公式4 这个向量包含了所有干扰说话人(
i=2到N)的声音加上环境噪声。在本文的双说话人场景中,i=2就是那个干扰说话人。总信号的最终简化形式:

公式5 这个公式至关重要,它将复杂的声学场景简化为一个清晰的加法模型:总信号 = 期望信号 + (干扰 + 噪声)。
公式(6)
x̂(λ, k): 这是在时频点(λ, k)上,对参考麦克风处目标语音x₁(λ, k)的估计值。也就是我们最终想得到的、增强后的信号。y(λ, k): 这是我们熟悉的公式(3)中定义的向量,包含了所有M个麦克风在此时频点上接收到的信号[y₁, y₂, ..., y_M]ᵀ。它是算法的输入。w(λ, k): 这是多通道维纳滤波器在时频点(λ, k)上的复值权重向量[w₁, w₂, ..., w_M]ᵀ。这个权重向量是算法的核心,它包含了如何整合所有麦克风信息以突出目标、抑制噪声和干扰的“知识”。(·)^H: 表示埃尔米特转置(即共轭转置)。因为我们在处理复值的频域信号,所以需要共轭转置。
💡 直观理解:
您可以把这个公式想象成一个智能的、随时空变化的“音量调节旋钮”组合:
- 目标:从一堆混乱的麦克风信号
y中,提取出目标说话人在参考麦克风处的干净声音x̂。 - 方法:滤波器
w会对每一个麦克风的信号进行一项复杂的操作:- 调整幅度(缩放)
- 调整相位(延迟)
- 最终效果:所有经过这样精心调整后的麦克风信号被加在一起。在这个过程中,目标说话人的声音因为其特定的空间位置(由向量
a₁定义)而被同相叠加、增强;而噪声和干扰说话人的声音则因为来自不同方向而被异相抵消、削弱。
2.3 问题
Q1:公式1的时频点 (λ, k)
1. 什么是“时频点” (λ, k)?
想象一下你在看一部电影的频谱图:
- 横轴
λ:代表时间。比如λ=1代表电影开始的第10毫秒(取决于窗口长度和重叠),λ=2代表第20毫秒,以此类推。它把连续的时间切成了一帧一帧的短片段。 - 纵轴
k:代表频率。比如k=1代表0-100Hz,k=2代表100-200Hz,以此类推。它表示在这一帧时间里,声音是由哪些频率成分构成的。 - 时频点
(λ, k):就是这张图上的一个像素点。它精确地表示在某个特定的短暂时间片段(λ) 内,某个特定频率段(k) 上的信号强度(或能量)。
所以,公式 yₘ(λ, k) 读作:在第 m 个麦克风,第 λ 个时间帧,第 k 个频率 bin 上,接收到的总信号强度。
2. 为什么需要时频点?(核心原因)
① 利用“稀疏性”假设
如上图所示,这是最根本的原因。在任意一个非常短的时间窗口(例如32ms)内,多个说话人极少会在完全相同的时间、发出完全相同的频率。这意味着,在大多数时频点 (λ, k) 上,其能量主要只由一个占主导地位的声源(目标说话人或干扰者)贡献,其他声源在该点的能量很弱甚至为零。
② 简化处理,允许线性滤波
在时频域中,卷积混合(在时间域是复杂的)在窄带假设下可以近似为瞬时混合。这就使得公式(3)中的混合模型成立,并且可以使用像多通道维纳滤波器(MWF) 这样的线性滤波器 w(λ, k) 来进行处理。在时间域直接进行类似的线性过滤要困难得多。
③ 契合语音和非平稳信号的特性
语音和噪声都是非平稳信号,它们的统计特性随时间变化。在时频域中,我们可以针对每一帧(λ) 来估计和更新信号的统计信息(如协方差矩阵 Φ_y(λ,k)),这让算法能够自适应地跟踪声音环境的变化。
3. 一个生动的比喻
把整个一段语音信号想象成一幅完整的油画,画上是两个人物重叠在一起。
- 在时间域分离:就像让你不借助任何工具,直接把画上的两个人完美地剥离开,这几乎是不可能的。
- 在时频域分离:就像用一个高倍放大镜,逐个像素
(λ, k)地去观察这幅画。你会发现,在大多数像素点上,其实只显示了一个人物的颜色。你只需要在每个像素点上做一个简单的决定:“这个像素点更可能属于人物A还是人物B?”。 - MWF的作用:就是这个“决策过程”。它根据麦克风阵列收到的信息,在每个时频点上计算一个最优的权重,来提取目标信号并抑制干扰。
总结:使用“时频点” (λ, k) 是一种“分而治之”的策略。它将一个全局性的、高度复杂的非线性分离问题,分解成了大量局部的、相对简单的线性估计问题,从而使得实时的、高效的噪声抑制和语音增强成为可能。
3. AAD-based noise reduction system

本文提出一种将多通道波束形成(MWF)与基于脑电图(EEG)的算法结合,用于检测听觉注意力位置的降噪系统。
两个信号分别位于左右两侧,一个为目标信号,一个为干扰信号。
3.1 噪声抑制滤波器
这个模块负责并行地生成两个备选的“干净”语音流。
- 实现方式:使用两个独立的多通道维纳滤波器。
- MWF-L: 旨在增强来自左侧的说话人,并抑制右侧说话人和噪声。
- MWF-R: 旨在增强来自右侧的说话人,并抑制左侧说话人和噪声。
- 关键点:在此阶段,系统并不知道用户正在关注哪一侧。它只是“尽职”地准备好两个可能的选择,等待最终的指令。这对应于流程图中的模块 (a)。
公式详解:
我们的目标是估计参考麦克风(m=1)处目标语音信号 x₁(λ,k)。公式(6)给出了线性估计的方法,现在的问题就是:这个滤波器 w(λ,k) 应该怎么选,才是最好的?
理论基础:最小均方误差准则
论文指出,MWF源于一个最小均方误差(MMSE) 的线性估计过程。这是一个非常经典和直观的优化准则。
思想:寻找一个滤波器 w(λ,k),使得滤波器输出的估计值 x̂(λ,k) 与我们想要的真实值 x₁(λ,k) 之间的均方误差 最小。
用数学公式表达这个优化问题,就是公式(7):

E[·]: 表示求期望值(或平均值),这里是在计算时间上的平均。| · |²: 表示取模的平方,用于衡量误差的大小。x₁ - w^H y: 就是估计误差(真实值 - 估计值)。
通俗地说:这个公式命令计算机去找到一组最佳的权重 w,让估计出来的语音 x̂ 和真实的干净语音 x₁ 之间差距的平均平方值达到最小。
(其他的交给deepseek简单讲解吧)😭
好的,我们把 3.1、3.2 和 3.3 节放在一起,用一个完整且统一的比喻来讲解,让您彻底理解这三个核心模块是如何协同工作的。
想象一个 “智能秘书” 在嘈杂的会议室里帮你只听清你想听的那个人说话。这个系统的工作方式如下:
🎯 3.1 噪声抑制滤波器:两位专业的“速记员”
【他们的职责】
这两位速记员,一位专门负责记录左边的发言人(MWF-L),另一位专门负责记录右边的发言人(MWF-R)。他们的任务是实时地、并行地尽可能清晰地记录下各自负责的目标的讲话,并过滤掉对方的声音和房间里的其他杂音。【他们如何工作】
他们使用的工具是一个复杂的“公式”(多通道维纳滤波器 MWF)。这个公式能教他们如何综合所有麦克风的信息,像调整一堆旋钮一样,放大目标方向的声音,抵消干扰方向的声音。- 核心公式:
x̂ = w^H * y - 通俗解释:
w是这套“旋钮”的最佳设置方案。它是由Φ_xx(目标语音的特征)和Φ_rr(噪声的特征)计算出来的。速记员的工作就是根据这些特征,应用这个最佳方案,产出初步净化的记录稿。
- 核心公式:
【小结】
这两位速记员非常专业,但他们有个局限:他们只管记录自己负责的目标,并不知道你此刻真正想听的是左边这位还是右边这位。所以他们俩都在不停地工作,产出两份记录稿。
3.2 🔬 相干矩阵估计器:资深的“人物特征分析师”
【他的职责】
这位分析师不直接参与记录,他的任务是为上面的两位速记员提供“人物档案”。他需要分析出:- 目标人物的声学特征(
Φ_xx):左边的人声音有什么特点?右边的人声音有什么特点? - 干扰与噪声的特征(
Φ_rr):房间里的空调声、另一个人的声音,有什么特点?
- 目标人物的声学特征(
【他如何工作】(三步法)
- 定向收音:他使用两个定向麦克风(固定波束成形器),一个主要收左边的音,一个主要收右边的音。
- 判断状态:他雇了两个助理(语音活动检测器 VAD),分别监听这两个定向麦克风。左边的助理会在左边的人说话时举手,右边的同理。
- 建立档案:
- 当左边助理举手时,分析师就知道:此刻左边定向麦克风里主要是目标语音(左边),右边定向麦克风里主要是干扰噪声(右边+环境)。他立刻用此时的信号更新左边速记员(MWF-L)需要的“人物档案”。
- 当右边助理举手时,他就为右边速记员(MWF-R)更新档案。
【小结】
这位分析师通过“定向监听”和“状态判断”,间接地获取了纯净的目标和干扰特征,让两位速记员手中的“旋钮方案”(w)始终保持最佳状态。本文假设这位分析师和他的助理是“理想的”,永不犯错,以便集中考察最关键的部分。
3.3 🧠 听觉注意力解码器:洞察你内心的“决策主管”
【他的职责】
这位主管是最终的决策者。他的任务非常简单:看你一眼,就知道你此刻心里想听左边还是右边的人说话。然后,他命令系统将对应速记员的记录稿递给你。【他如何工作】
- 他通过一个特殊的“读心术头盔”(EEG设备)来实时感知你的大脑活动。
- 他不是一个冲动的人,他需要观察你一小段时间(比如1秒钟),收集足够的脑电数据,才会做出一个稳妥的决定(决策窗口)。
- 他使用一个训练好的“直觉模型”(CNN神经网络)来分析这些脑电数据,最终输出指令:“左” 或 “右”。
【核心挑战与权衡】
- 如果他观察你的时间太短(决策窗口短,如0.5秒),他很容易判断失误(准确率低),可能会把错误的记录稿递给你。
- 如果他观察你的时间太长(决策窗口长,如4秒),他的决策虽然很准,但反应太慢(延迟高),等你拿到记录稿时,话题可能已经过去了。
- 因此,他的“反应速度”和“判断准确率”之间的权衡,是本文研究的绝对核心。
3.4 💎 整体协作流程总结
现在,我们把这三个角色串联起来,看看这个“智能秘书系统”是如何工作的:
并行准备:
- 人物特征分析师(3.2) 不断为两位速记员(3.1) 提供最新的“人物档案”。
- 两位速记员根据档案,并行地、高质量地记录着各自目标的讲话,产出两份初步净化的记录稿。
最终决策:
- 决策主管(3.3) 通过“读心术”判断出你当前想听谁。
- 他发出一个简单的切换指令。
交付结果:
- 系统根据指令,选择对应速记员的记录稿,作为最终的语音输出给你听。
总而言之,3.1是干活的,3.2是给干活的人提供技术支持的,3.3是做最终决定的。论文的目的,就是研究这个“做最终决定”的决策主管(3.3),他的反应速度(决策窗口)和业务能力(准确率)要达到什么水平,才能保证你最终听到的东西(语音质量和可懂度)是满意的。
3.5 问题
Q2:噪声抑制滤波器和相干矩阵估计器的区别
🎨 核心比喻:厨师 vs. 食材处理员
想象一个高级餐厅的厨房,要为客人准备两道主菜(左声道和右声道)。
👨🍳 3.1 噪声抑制滤波器 - 主厨
- 角色:两位主厨
- 主厨-左:专门烹饪左声道这道菜。
- 主厨-右:专门烹饪右声道这道菜。
- 职责:负责“烹饪”出最终端给客人的菜肴。他们拿到处理好的食材,运用他们高超的厨艺(MWF算法),做出一道美味、干净、没有异味的菜。
- 工作内容:他们遵循一个固定的、最优的食谱(公式 w^opt = Φ_yy⁻¹ Φ_xx q)。这个食谱告诉他们如何精确地调配各种原料(麦克风信号),才能最好地突出主料(目标语音),掩盖或去除不好的味道(噪声和干扰)。
- 关键:他们是最终产品的产出者。系统最终的语音质量(PESQ)和可懂度(STOI)直接由他们的“厨艺”决定。
🥬 3.2 相干矩阵估计器 - 食材处理员
- 角色:一位资深的食材处理员
- 职责:负责为主厨准备最核心的、处理好的食材,而不是直接做菜。他的任务是:
- 分辨出什么是“上等主肉”(纯净的
Φ_xx- 目标语音的统计特征)。 - 分辨出什么是“需要剔除的筋膜和边角料”(纯净的
Φ_rr- 噪声和干扰的统计特征)。
- 分辨出什么是“上等主肉”(纯净的
- 工作内容:
- 他使用特殊的工具(固定波束成形器)来对混合在一起的原始食材进行粗分离。
- 他依靠经验(语音活动检测器 VAD)来判断什么时候拿到的是纯主肉,什么时候拿到的是纯边角料。
- 他将这些分析好的、代表食材特征的“样品”(
Φ_xx和Φ_rr)交给两位主厨。
- 关键:他是服务和支持者。他工作的准确性直接决定了主厨拿到的食谱(公式里的
Φ_xx和Φ_rr)是否靠谱,进而影响菜肴的最终品质。如果他提供的食材特征有误,主厨厨艺再高也做不出好菜。
💡 总结与类比
| 特性 | 3.1 噪声抑制滤波器 (主厨) | 3.2 相干矩阵估计器 (食材处理员) |
|---|---|---|
| 核心任务 | 产出最终增强后的语音信号。 | 估计和提供计算所需的统计特征(协方差矩阵)。 |
| 在公式中的位置 | 执行公式 x̂ = w^H y,是最终输出。 | 计算公式 w^opt = Φ_yy⁻¹ Φ_xx q 中的 Φ_xx 和 Φ_rr,是中间输入。 |
| 依赖关系 | 依赖于3.2提供的准确统计信息。 | 依赖于原始的麦克风信号和VAD/波束成形的性能。 |
| 比喻 | 烹饪 | 准备食材 |
所以,它们的根本区别是:
- 3.2 是“信息提供者”,它回答“是什么?”(What is the target? What is the noise?)
- 3.1 是“命令执行者”,它回答“怎么做?”(How to extract the target and suppress the noise?)
在本文的实验中,作者假设 “食材处理员”是完美的(理想波束成形和VAD),这样就能确保如果最终“菜肴”不好吃,那问题一定不是出在食材上,而很可能是出在决定上哪道菜的“大堂经理”(3.3 AAD) 身上,或者“主厨”的算法本身。这就隔离了变量,让作者能专注于研究AAD的性能影响。
更新日志
6ab22-于
