欢迎来到进口食品商务网!

一个产生更自然的合成语音的新模型

2024-06-10 22:10 来源:本站编辑

A new model to produce more natural synthesised speech

最近的技术进步使计算工具的发展成为可能,这些工具可以显着改善残疾人或感觉障碍者的生活质量。其中包括所谓的肌电-语音(ETS)转换模型,旨在将骨骼肌产生的电信号转换为语音。

不来梅大学和SUPSI的研究人员最近推出了diffi -ETS,这是一种ETS转换模型,可以产生更自然的合成语音。发表在预印本服务器arXiv上的一篇论文介绍了这个模型,它可以用来开发新的系统,让不能说话的人,比如接受了喉切除术(一种切除部分人类喉部的手术)的病人,与他人交流。

大多数以前介绍的ETS转换技术有两个关键组成部分:肌电信号编码器和声码器。肌电编码器将肌电信号转换为声学语音特征,声码器利用这些语音特征合成语音信号。

赵仁、凯文·谢克和他们的同事在论文中写道:“由于可用数据和噪声信号的不足,合成语音往往表现出较低的自然程度。”“在这项工作中,我们提出了diffi -ETS,这是一个使用基于分数的扩散概率模型来增强合成语音的自然度的ETS模型。扩散模型被用于提高肌电编码器预测的声学特征的质量。

与过去开发的许多其他ETS转换模型由编码器和声码器组成相比,研究人员的模型有三个组成部分,即肌电编码器,扩散概率模型和声码器。扩散概率模型,这些组件中的第二个,因此是一个新添加的,它可以产生更自然的合成语音。

Ren, Scheck和他们的同事训练了肌电编码器,以预测所谓的对数梅尔谱图(即音频信号的视觉表示)和肌电信号中的音素目标。另一方面,通过训练扩散概率模型来增强对数梅尔谱图,而预训练的声码器可以将该谱图转换为合成语音。

研究人员在一系列测试中评估了diffi -ETS模型,并将其与基线ETS技术进行了比较。他们的发现非常有希望,因为它合成的语音比基线方法产生的语音更自然,更像人类。

Ren, Scheck和他们的同事在他们的论文中写道:“在我们的实验中,我们评估了对预训练的EMG编码器预测的扩散模型进行微调,并以端到端的方式训练这两个模型。”“我们使用客观指标和听力测试将diffi -ETS与没有扩散的基线ETS模型进行了比较。结果表明,所提出的diffs - ets显著提高了语音的自然度。”

未来,该研究小组开发的ETS转换模型可以用于开发更好的人工生成可听语音的技术。这些系统可以让那些不会说话的人大声表达自己的想法,促进他们与他人的互动。

研究人员写道:“在未来的努力中,人们可以使用各种方法减少模型参数的数量,例如,模型压缩和知识蒸馏,从而实时生成语音样本。”此外,扩散模型可以与编码器和声码器一起训练,以进一步提高语音质量。

更多信息:赵仁等,Diff-ETS: Learning Diffusion probability Model for electrography to speech Conversion,中文信息学报,(2024)。期刊信息:arXiv .2405.08021

©2024 Science X Network

引用:一个产生更自然合成语音的新模型(2024年5月27日)检索自https://techxplore.com/news/2024-05-natural-speech.html本文档 作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司 内容仅供参考之用。

海招网声明:未经许可,不得转载。