阡陌居

 找回密码
 立即注册
搜索
热搜: 新人报到
查看: 45|回复: 0

[论文] 《高效语义聚焦的唇动到语音合成框架》作者:孟敬字 谢东亮【PDF】

[复制链接]

用户组:分区版主

我,秦始皇,打钱

重建论坛爱心会员勋章重建论坛勋章版主勋章分区版主勋章

      UID
51
      积分
6864
      回帖
544
      主题
801
      发书数
333
      威望
4658
      铜币
4862
      贡献
1200
      阅读权限
100
      注册时间
2025-2-27
      在线时间
1137 小时
      最后登录
2025-4-28
发表于 2025-3-23 06:58 | 显示全部楼层 |阅读模式
高效语义聚焦的唇动到语音合成框架
孟敬字1,谢东亮2
1北京邮电大学计算机学院,北京100876
2北京邮电大学计算机学院,北京100876
摘要:唇动到语音合成的目标是根据无声说话人视频,合成与视频同步的高质量语音。然而,由于预测目标的复杂性及对先验知识的提取和利用不充分,先前大量工作所生成的语音听感机器化且准确度不高。为了解决这个问题,本文提出一种新的唇动到语音合成框架FusionV25。
首先设计音频掩码自编码器,采用不规则掩码重建的方式学习上下文语义信息,获取增强音频特征。然后设计音频自监督迭代聚类方法,细化该特征的聚类分配,得到量化的自监督语音单元,沟合成语音提供有效补充。同时设计去噪扩散模型,该模型结合卷积、多头注意力以及前馈神经网络聚焦带噪梅尔频谱的时序信息,从而在解码梅尔频谱时降低预测目标的复杂性。进一步地,以提取的唇部视频特征为条件,建立语音单元和梅尔频谱两个指导目标,充分利用该条件进行解码。最后,将两者融合用于指导音频的生成,很好地弥补了两个指导目标各自存在的缺陷。本文方法在公开的中文无约束多说话人数据集CMLR、CN-CVS上取得了先进的性能。
关键词:唇动到语音合成;音频掩码自编码器;自监督语音单元;去噪扩散模型
中图分类号:TP37






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1威望 +1 铜币 +2 收起 理由
飞乌与渔 + 1 + 2 论坛有您更精彩!

查看全部评分

❤︎   做好人 · 读好书 · 得好报   ❤︎
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2025-4-29 03:21 , Processed in 0.069078 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表