SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

0. 题目

VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

VAW-GAN用于语音中情感元素的分解和重组

SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

1. 摘要

情感语音转换(EVC)旨在将语音情感从一种状态转换为另一种状态,同时保留语言内容和说话人身份。在本文中,我们通过变分自动编码Wasserstein生成对抗网络(VAW-GAN)研究语音中情感元素的纠缠和重组。我们提出了一个基于VAWGAN的基于扬声器的EVC框架,该框架包括两个VAW-GAN管道,一个用于频谱转换,另一个用于韵律转换。我们训练一个频谱编码器,使频谱特征中的情绪和韵律(F0)信息脱离纠缠;我们还训练了韵律编码器,以区分情感带来的韵律与语言内容信息带来的韵律。在运行时,频谱VAW-GAN的解码器以韵律VAW-GAN的输出为条件。声码器采用转换后的频谱和韵律特征来生成目标情感语音。实验验证了我们提出的方法在客观和主观评估中的有效性

关键词: emotional voice conversion, VAW-GAN, continuous wavelet transform

情感语音转换,VAW-GAN,连续小波变换

2. 简介

语音不仅通过词汇传达信息,还通过其韵律传达信息。 语音韵律会影响发声的句法和语义解释[1],即语言韵律。 它还显示一个人的情绪状态,即情绪韵律[2]。 情感语音转换是一种语音转换(VC)技术,用于将语音的情感韵律从一个语音转换到另一个语音,同时保留语言内容和说话人身份,如图1所示。EVC是一种用于许多应用程序的启用技术,例如文本转语音。 -语音[3-5],个性化语音合成[6、7]和会话机器人[8]

 

一般而言,语音转换旨在改变说话者在保留语言内容的同时保证语音的一致性[12]。 VC的早期研究包括高斯混合模型(GMM)[13],偏最小二乘回归[14]和稀疏表示[15-18]。 最近的深度学习方法,例如深度神经网络(DNN)[19,20],递归神经网络(RNN)[21]和生成对抗网络(GAN)[22],已经发展为最新技术。 为了消除对并行训练数据的需求,提出了变分自动编码网络(VAE)[23],周期一致的生成对抗网络(CycleGAN)[24]和星形生成对抗网络(StarGAN)[25]

 

由于说话人的身份被认为是说话人的物理属性的特征,并且他会影响到频谱的成都很大[26],因此频谱映射已成为传统语音转换的主要焦点[12]。 但是,我们注意到,情绪本质上是超分段的和分层的,高度复杂,具有与频谱和韵律相关的多个属性[26-28]。 在音素,单词和句子级别,情绪韵律在不同的时间尺度上被感知[29,30]。 因此,不能仅在帧级别上对其进行分析,也不能仅从频谱中对其进行简单转换。 韵律转换在情感语音转换中起着重要作用,本文还将对此进行研究

 

有关情感语音转换使用的一些早期研究基于对数高斯(LG)的线性变换方法[31-33]转换F0。 F0的这种简单表示不足以在不同的时间范围内表征韵律[18,27]。 连续小波变换(CWT)用多分辨率表示来描述句子级别的韵律[29,34],这使我们能够在不同的时间尺度上处理韵律转换[9,18]。 我们将继续探索将F0的CWT系数用作韵律特征

 

统计建模技术既简单又有效在韵律转换中。一种想法是使用分类树或回归树[32、33]将源语音的音高轮廓分解为分层结构,然后是GMM和基于回归的聚类方法。另一种策略是为频谱特征和韵律特征创建源字典和目标字典,并使用带有NMF的基于示例的技术来估计稀疏映射[35]。此外,还有一项研究结合了隐马尔可夫模型(HMM),GMM和F0段选择[36]进行频谱和韵律转换。最近的深度学习方法,例如深度信念网络(DBN)[37],深度双向长期短期记忆(DBLSTM)[38],高速公路神经网络[10,39],序列到序列[40]和基于规则的模型[41]在情感转换方面取得了卓越的表现。我们注意到,关于情感转换的现有研究并未提供对语音中情感元素分离的深入研究,这将是本文的重点

 

统计建模技术简单有效在韵律转换中。一种想法是使用分类树或回归树[32、33]将源语音的音高轮廓分解为分层结构,然后是GMM和基于回归的聚类方法。另一种策略是为频谱特征和韵律特征创建源字典和目标字典,并使用带有NMF的基于示例的技术来估计稀疏映射[35]。此外,还有一项研究结合了隐马尔可夫模型(HMM),GMM和F0段选择[36]进行频谱和韵律转换。最近的深度学习方法,例如深度信念网络(DBN)[37],深度双向长期短期记忆(DBLSTM)[38],高速公路神经网络[10,39],序列到序列[40]和基于规则的模型[41]在情感转换方面取得了卓越的表现。我们注意到,关于情感转换的现有研究并未提供对语音中情感元素分离的深入研究,这将是本文的重点

 

我们注意到CycleGAN是一种有效的方法韵律映射,并已用于情感语音转换[9]。 CycleGAN执行一对一的情感转换,并且不会通过分析情感因子来进行解耦。 诸如VAW-GAN [42]之类的编码器-解码器结构将更适合,因为它的编码器学会了与其他人解耦情感信息,并从与情感无关的分布中生成隐变量。 通过以情感标签和F0值等可控属性为条件,解码器可以重组新的情感类型的语音,从而促进多对多情感语音转换

 

本文的主要贡献包括:1)我们提出了一种基于VAWGAN的情感语音转换框架,该框架在非并行数据上进行了训练; 2)我们研究了使用CWT分解来表征VAW-GAN韵律映射的F0; 3)我们提出使用编码器将情感信息与语音内容解耦开,并使用解码器重组目标情感语音

 

3. 其他-容易懂

SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

通过小波变换建模韵律表征

 

情绪韵律通常指节段和超节段水平的音调,语调,强度和语速。 F0用于定量描述音高和语调。 但是,由于F0的不连续性和本质上的层次性,因此对其建模具有挑战性[59,60]。 话语的韵律是语言内容韵律和情感韵律之间的一种调节和汇总。 就情感转换而言,话语的语言内容韵律与情感。 在转换情感的时候,我们希望将语言内容韵律从源头转移到目标,但将源情感韵律改变为目标的情感韵律

 

我们假设语言内容的韵律和情感韵律体现在不同的时间尺度上。 多尺度F0分解使我们能够更有效地表征和操纵F0。 CWT是一种多尺度建模技术,可将F0分解为不同的时间尺度。 这种多尺度CWT系数已成功用于语音合成[61,62]和语音转换[18,34]。 遵循相同的想法,我们将F0分解为513个尺度,从微韵律级别到整个话语级别。 在513尺度表示中,精细尺度系数捕获短期变化,而粗糙尺度系数捕获长期变化。 我们采用墨西哥帽作为母小波,并选择转换因子τ0为5 ms。 我们将F0的CWT系数用作韵律特征

 

SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

 

SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

提出VAW-GAN框架分解语音的情感元素:

提出了一个依赖于说话者的EVC框架,该框架由两个用于频谱和韵律转换的并行管道组成,如图3所示。每个VAW-GAN管道都经过训练,以便编码器解开情感元素,而解码器则 以情感类型和F0为条件,以将情感言语与目标情感重新组合。 提议的框架称为VAW-GAN(SP + CWT + C),其中“ SP”和“ CWT”表示两个并行管线,“ C”表示解码器以CWT系数为条件

 

我们首先从中提取光谱特征(SP)和F0特征
使用WORLD声码器[63]提取原始音频。 我们在F0上执行CWT分解,以描述从微韵律级别到整个话语级别的韵律。 F0的CWT分解允许编码器学习不同时间范围内的情绪模式。 注意,由于语音中的有声/无声部分,从声码器获得的F0是不连续的。 因此,以下预处理程序是必要的:1)在未清音区域上进行线性插值; 2)F0从线性标度到对数标度的转换; 3)将所得F0归一化为零均值和单位方差

 

频谱编码器学习将语音中的情感与语音内容区分开, 他产生的隐变量表示与情感无关, 只有文本内容。 韵律编码器学会将情感韵律与语言内容韵律区分开, 进行解耦。 韵律编码器学会将情感韵律与语言韵律区分开,产生的潜在代码与情感无关。 较早的研究[9]表明,频谱和韵律的单独训练比联合训练具有更好的性能。 遵循这个想法,我们建议分别训练两个基于VAW-GAN的网络:1)以F0为条件进行频谱转换的VAW-GAN模型,表示为VAW-GAN用于频谱; 2)带有CWT分析的VAW-GAN模型,用于韵律转换,表示为韵律的VAW-GAN

 

自动编码器通常用于学习解缠结的表示。 我们期望用于韵律的VAW-GAN可以在不同的时间尺度上学习韵律模式,而用于频谱的VAW-GAN可以将与语音相关的韵律信息中的语音和说话者信息解开,并在隐变量中表示它们

 

这两个网络都包含三个主要组件,分别是:1)编码器,2)解码器/生成器和3)鉴别器。 在训练过程中,编码器的输入来自于同一说话者但情绪不同的输入帧。 编码器学习与情感无关的模式,并将输入帧转换为隐变量编码z。 我们假设潜在代码z仅包含说话者身份和语音内容的信息。 一个one-hot情感ID嵌入向量用于将情感信息提供给解码器/生成器。 由于从声码器获得的频谱特征高度依赖于F0并包含韵律信息,因此我们建议在VAW-GAN频谱训练期间将F0添加为解码器/发生器的附加输入。 这样,我们假设用于频谱的VAW-GAN可以消除频谱特征中的韵律信息,并在训练过程中生成与情感无关的隐变量编码z。然后,我们训练频谱的生成模型,并通过对抗训练进行韵律分析

 

SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

 

4. 其他-不容易懂

SLT2021: VAW-GAN FOR DISENTANGLEMENT AND RECOMPOSITION OF EMOTIONAL ELEMENTS IN SPEECH

韵律建模部分不怎么懂

上一篇:数据结构与算法的学习——思维的学习与高屋建瓴


下一篇:栈的基本操作