《基于多尺度注意力融合的说话人识别方法》作者：刘一泽，伍淳华【PDF】

书呆熊 · 发表于 2025-3-13 16:43

基于多尺度注意力融合的说话人识别方法
刘一泽，伍淳华
（北京邮电大学网络空间学院，北京，100876）
摘要：RcsNet模型是说话人识别领域内的主流模型，其具有优秀的局部信息获取能力，但获取全局信息欠缺。相关领域的研究表明将全局信息引入ResNet模型能够有效提高模型性能。因此，本文向ResNet模型引入多尺度特征提取和多尺度注意力融合模块，提出了基于多尺度注意力融合的说话人识别方法，通过这两个模块可以有效建模全局信息，丰富模型对于说话人身份信息的获取。其次，使用多头注意力池化代替传统统计池化，有效提升话语级特征向量对于不同说话人的区分度。最终通过仿真实验验证了本文所提方法的有效性和优越性
关键词：说话人识别；残差网络；注意力机制
中图分类号：TN912.34

		自动登录	找回密码
密码			立即注册

[论文] 《基于多尺度注意力融合的说话人识别方法》作者：刘一泽，伍淳华【PDF】

本帖子中包含更多资源

评分

浏览过的版块

重建论坛勋章