为了提高低复杂度神经网络在音频场景识别中的特征提取能力和性能,本文探索了基于卷积神经网络(CNN)的音频场景分类方 法。在传统 CNN 结构的基础上,增加并优化了单独的注意力映射层,比较了两种适用于轻量卷积网络的注意力机制,并在部分卷积层采 用了深度可分离卷积以减少参数量。原始卷积被低成本的分组条状卷积取代,设计了时频分离的卷积结构,最终提出了 SFAC(Sequence Frequency Attention CNN)网络模型。在语音场景多分类数据集上的实验结果表明,与多个基于 VGG 结构的基线模型相比,SFAC 在保持 低复杂度的同时实现了更高的准确度。