一、同语种说话人转换的实现(论文文献综述)
徐玲俐[1](2021)在《基于双编码器的快速one-shot跨语种语音转换方法》文中指出
何铮韬[2](2021)在《基于Adaptive Trans-StarGAN的非平行多对多语音转换方法》文中研究说明
袁昌龙[3](2020)在《融合i-vector嵌入和密集连接星型生成对抗网络的语音转换研究》文中提出语音是一个人发声时产生的一种包含说话人个性特征、语义信息以及情感信息的信号。语音转换的含义是将源说话人的声音进行转换,使其听起来具有目标说话人的个性特征,并且转换前后具有相同的语义信息。语音转换可分为平行文本的语音转换和非平行文本的语音转换,平行文本是指源说话人和目标说话人的发音的语音时长、说话内容、情感韵律等保持一致。然而,在实际任务场景中,收集平行语音十分耗时耗力,并且在跨语种转换,医疗辅助领域根本无法获得。此外,即使收集到这样的平行数据,大多语音转换方法仍然需要对训练数据进行时间对齐,对齐过程不可避免会引入误差,并需要其他复杂的过程,如精确的语料预处理或者手动纠正来解决时间对齐错误的问题。由于平行文本语音转换技术在实际应用中的局限性,非平行语音转换技术成为当前语音转换研究的热点和难点,其中基于星型生成对抗网络的语音转换方法提供了非平行文本条件下的多对多语音转换框架,基于此框架,本文提出一种基于融合i-vector嵌入和密集连接星型生成对抗网络的语音转换方法,以此来改善语音转换的性能。首先,提出了基于融合i-vector嵌入的Star GAN语音转换方法。为了更好地提升合成语音的个性相似度,本文在星型生成对抗网络模型中融合i-vector嵌入,i-vector是说话人是被领域中常用的一种特征,能够充分地表征说话人的个性特征,从而较好地提升转换语音的个性相似度,主客观评测结果表明本文提出的方案相比于基线系统,转换后语音的平均MCD值降低了3.25%,平均MOS值提升了8.02%,平均ABX值提升了5.25%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。进一步,提出了基于融合i-vector嵌入和Dense Net-Star GAN的语音转换方法。本文将密集连接网络引入星型生成对抗网络模型中来提升转换语音的音质,密集连接网络的引入可以很好地解决训练过程中网络退化问题,有利于训练过程中梯度的反向传播,以此来提升生成器编码阶段的语义信息的提取能力,进一步,本文采用高斯误差线性单元替换传统的整流线性单元作为Star GAN模型的激活函数,辅助解决深层网络在训练过程中梯度消失的问题,加快其收敛速度,从而较好地改善转换后语音的音质。最后,将上述两个改进点结合在一起,提出了基于融合i-vector嵌入和Dense Net-Star GAN的语音转换方法,主客观评测的结果表明本文提出的方案相比于基线系统,转换后语音的平均MCD值降低了7.72%,平均MOS提升了15.24%,平均ABX值提升了6.55%,说明本文提出的方案明显地改善了语音音质,同时也改善了说话人个性相似度。
徐东祥[4](2020)在《基于PSR-STARGAN的非平行多对多语音转换方法》文中进行了进一步梳理语音转换是一项在保持语义信息的同时转换说话人个性特征的任务,使转换后语音与源语音具有相同的语义信息并且与目标语音具有相同的说话人个性特征。传统的语音转换方法需要平行语音数据来训练转换模型,但在实际场景中很难获取平行数据。为突破该限制,众多非平行语音转换方法被提出,其中基于生成对抗网络的方法成为当前的主流,但是仍然存在转换后语音自然度较低和相似度较差的问题。本文重点研究基于星型生成对抗网络的语音转换模型,并对模型的整体结构进行分析并提出一系列改进。首先,为了改善转换后语音的质量,本文提出基于可切换标准化和残差网络的生成对抗网络的语音转换方法,一方面利用ResNet可解决深度神经网络退化问题的特点,将ResNet应用于基于星型生成对抗网络的语音转换模型中,通过在生成器的编码和解码阶段建立残差网络来降低模型学习难度,从而改善转换后语音的质量,另一方面基于星型生成对抗网络的语音转换模型指定将批标准化作为整个转换模型的数据标准化方式,该操作可能会造成模型性能的下降,因此本文提出在模型中使用可切换标准化代替原有的批标准化来对神经网络中每层的数据进行标准化处理,在训练过程中为神经网络的不同网络层自动选择不同的标准化方法及其组合形式,从而使模型获得最优性能。经主观和客观评价表明,本文提出的方法比基于STARGAN的语音转换方法转换后的语音的平均MCD值降低了6.96%,平均MOS值提升了9.34%,平均ABX值提升了5.48%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。进一步在上述改进模型的基础上,本文提出基于感知网络、可切换标准化和残差网络的生成对抗网络的语音转换方法,为了有效地保留频谱细节,改善转换后语音的自然度和相似度,利用感知网络来衡量转换后语音频谱在高维上与源和目标语音频谱之间差异的感知损失,从而改善模型的转换效果,提升模型对频谱细节的复现能力,使转换后语音频谱的自然度更好。经主观和客观评价表明,本文提出的方法比基于STARGAN的语音转换方法转换后的语音的平均MCD值降低了9.36%,平均MOS提升了19.29%,平均ABX值提升了6.32%,说明本文提出的方法极大地提升语音音质,同时也改善了说话人个性相似度。
沙淮[5](2020)在《非平行文本条件下基于Multi-Scale StarGAN的共享训练的多对多语音转换研究》文中认为语音转换的目标是将源说话人的语音进行转换,使其听起来像是目标说话人发出的声音,语义保持不变。语音转换可分为平行语料的语音转换和非平行语料的语音转换,区别在于用于训练的语料库中源说话人和目标说话人的语音内容和持续时间是否相同。但是,在语音转换的实际应用中,由于获取大量平行语料很困难,在有些情形下甚至不可实现,因此研究非平行语料下的语音转换成为亟需解决的问题。语音转换的评价指标主要包括两个方面:语音的音质和个性相似度。现有的非平行语音转换模型很难在这两个维度同时获得好的性能。本文重点研究了基于StarGAN语音转换模型,并针对上述两个问题提出了一系列改进。首先,为了改善转换后语音的音质,使其听起来更加逼真细腻,本文使用Multi-Scale结构来改进基准系统,提出基于Multi-Scale StarGAN的语音转换方法,提取目标说话人全局特征的不同级别的多尺度特征,增强了转换后语音的细节。通过主观和客观实验来验证改进的语音转换模型的性能,与基于StarGAN的语音转换模型相比,转换后语音的时域波形更加平稳,接近目标说话人,语谱图也更为清晰,平均MOS提高了21.8%,平均ABX提高了5.56%。结果表明,该方法在提高语音相似度的同时也有效提高了合成音质。其次,考虑到StarGAN通过训练鉴别器和分类器来训练生成器实现语音转换,因此通过使用Share-Learning训练鉴别器和分类器的共享模块Share-Block,本文提出基于ShareLearning的StarGAN的语音转换方法,改进鉴别器和分类器的性能,从而改善训练的稳定性和加快收敛速度,提高了合成语音的音质和相似度。充分的主观和客观评价表明,与基于StarGAN的语音转换模型相比,平均MOS提高了15.79%,平均ABX提高了2.38%。进一步,将本文的两个创新点进行结合,将Share-Learning加入到Multi-Scale StarGAN方法中,提出基于Multi-Scale StarGAN的共享训练的语音转换方法,经过主观和客观评价表明,该方法与Multi-Scale StarGAN方法转换后的语音相比,转换后语音的时域波形更加平稳,接近目标说话人,转换后语音的语谱图更加清晰,平均MOS提升了3.57%,平均ABX值提升了3.30%,说明该方法在语音音质和说话人个性相似度方面都有较大的提升。与基于StarGAN的语音转换模型相比,平均MOS提高了28.95%,平均ABX提高了9.03%。充分实验结果表明,该方法在提高语音相似度的同时提高了语音质量。
曹盼[6](2020)在《融合说话人嵌入和SE-ResNet的非平行多对多语音转换研究》文中研究说明语音信号中除了包含语义信息,还包含丰富的说话人身份和情感状态等信息。语音转换属于个性化语音生成的一个重要研究方向,旨在保持源语音语义信息不变,改变说话人的个性特征,使其具有目标语音的个性特征。语音转换在受损语音修复、影视配音、伪装/反伪装等领域有着广阔的应用前景。根据训练过程对语料的要求,可将语音转换划分为平行文本和非平行文本条件下的语音转换,在实际应用中,预先获取大量平行训练文本,不仅耗时耗力,而且在跨语种和医疗辅助系统中往往无法获取到平行文本,严重制约了语音转换在实际场景中的应用。因此,非平行文本下的语音转换研究具有更大的应用前景和现实意义,同时具有很大的挑战性,成为当前语音转换领域的研究热点与难点。一个理想的语音转换模型,既要保证转换后的目标说话人个性特征的准确性,同时又要兼顾转换后合成语音的音质。当前的语音转换,尤其是非平行文本条件下的语音转换,仍存在转换后的语音音质不理想和说话人个性相似度不高两大问题。鉴于此,本文基于星型生成对抗网络StarGAN的语音转换模型进行研究,针对上述两方面的问题进行了相应的探讨与改进工作。首先,为了提升转换语音的说话人个性相似度,本文提出融合x-vector嵌入的StarAGN语音转换方法。由于StarAGN模型通过传统编码中的one-hot来表征说话人身份,对转换语音的个性相似度提升有限。因此,本文在StarGAN模型的生成器解码阶段,引入含有丰富说话人个性信息的x-vector特征,与ont-hot标签互为辅助,前者为语音的合成提供丰富的说话人信息,后者作为精准的标签能准确区分不同说话人,两者相辅相成有效提升转换后语音的个性相似度,进一步实现高质量的语音转换。充分的主客观实验结果表明,转换后的语音平均MCD值较基准模型降低5.41%,MOS值提升6.64%,ABX值提升5.12%,验证了本文提出的方法能够显着提升说话人个性相似度,同时有助于改善合成语音的音质。其次,为了进一步改善转换后合成语音音质,本文提出一种基于SE-ResNet StarGAN的语音转换模型,针对基准模型StarGAN中存在的网络退化等问题,在生成器的编码和解码网络之间构建SE-ResNet网络,利用其引入注意力思想和门控机制对各通道的依赖性进行建模,通过全局信息学习每个特征通道的权重,并对特征进行逐通道调整,有选择性地加强包含有用信息的特征并抑制无用特征,从而进一步增强模型的表征能力,更好地提升模型对语音频谱的语义学习能力以及语音频谱的合成能力。充分的主客观实验结果表明,相比于基准模型,本文提出的方法转换后的语音的平均MCD值降低7.82%,平均MOS提升11.89%,平均ABX提升3.35%,验证了本文提出的方法能够有效地改善语音音质,同时也有助于提高转换语音的个性相似度。进一步,本文还将x-vector融入到上述改进模型中,即将两个改进点结合在一起,提出了SE-R StarGAN-x的语音转换模型,充分的主客观实验结果表明,转换后的语音较基准模型平均MCD值降低9.53%,MOS值提升19.58%,ABX值提升8.66%,验证了本文提出的方法在语音音质和说话人个性相似度方面均有显着的提升,实现了非平行文本条件下高质量的多对多语音转换。
赵光赢[7](2020)在《基于深度学习的藏语语音转换的研究》文中研究说明语音转换(Voice Conversion,VC)是一种用于修改源说话人的语音信息以匹配目标说话人的语音信息的技术,使得转换后的语音听起来像是目标说话人所说,同时保持语义信息不变。当前,主流的VC技术大多数都是在平行语料条件下实现的,但实际中,对低资源的藏语来说,平行语料的获取代价很大,声学特征的对齐也容易出现问题。因此,本文以研究藏语语音转换为目的,重点分别研究了平行、非平行语料条件下的藏语VC,其主要工作如下:1.梳理语音转换的基本流程,使用WORLD声码器进行语音声学参数的提取及语音合成工作。2.研究了面向VC的藏语卫藏方言语料库的设计问题,建立了藏语VC的基础。文本语料需覆盖藏语卫藏方言音素的各种组合情况,力求使不同音素的出现频次尽可能均衡,以避免数据稀疏问题。得到文本语料后,在录音棚录制对应的音频语料,并进行切分标注。3.在使用平行语料条件下将深度神经网络(Deep Neural Network,DNN)、生成对抗网络(Generative Adversarial Networks,GAN)引入到藏语语音频谱参数的转换中,通过大量实验,结果表明DNN、GAN网络都能实现藏语VC,且转换效果要优于基于高斯混合模型(Gaussian Mixture Model,GMM)的转换。4.受藏语平行语料的限制,本文又研究了更加灵活通用的非平行语料条件下的藏语VC。对上述GAN网络做出改进,提出了基于CycleGAN、StarGAN网络的藏语VC方法,通过大量实验,结果表明基于CycleGAN网络的藏语VC效果以接近在平行语料条件下的基于GMM的转换,且CycleGAN方法实现了“一对一”转换的双向转换,而GMM方法是“一对一”的单向转换;基于StarGAN网络的藏语VC效果差于在平行语料条件下的基于GMM的转换,但是StarGAN方法实现了“多对多”的转换,这种转换方法更加灵活、高效。
王柔化[8](2019)在《汉英不平衡双语者二语言语产出句法启动实验研究》文中认为双语者指的是能够在交际中应用两种语言的人。我国英语学习者中英语语法体系尚不完备、英语水平与汉语水平差异显着的双语人群被视为汉英不平衡双语者,其二语(L2)言语(口语)产出的认知加工过程,长期以来一直受到语言研究者们的关注。以往研究大多聚焦于言语产出过程的概念生成及编码机制,几乎没有学者对汉英不平衡双语者L2言语产出的程序化进程展开研究,更缺乏对L2目标结构言语产出准确度和反应速度的综合考察。言语产出(生成)的认知过程中,最复杂的就是言语产出构成加工的认知过程。想要深入理解外部语言刺激(程度、语种、通道)是否会使不平衡双语者对输入信息的片段产生认知构块,及不平衡双语者如何对心理词库及陈述性规则进行检索,从而促进L2产出的自动性处理,需要对不平衡双语者L2言语产出的准确度和速度进行考量。句法启动实验研究是对其进行考察的理想范式,近年来很多学者认为,句法启动已经成为心理学和语言学跨领域研究的新兴研究方向。因此,本文首先对句法启动及言语产出研究的理论和实证研究的现状进行梳理和述评。在文献梳理和述评的基础上,本文提出“汉英不平衡双语者言语产出模型”,在Kormos.J.(2006)的双语产出模型基础上加入自动处理等相关部分,细化长期记忆中的双语存储,使之更适合描述汉英不平衡双语者言语产出的认知加工过程。本模型的基本假设是:外部刺激(启动)会使汉英不平衡双语者在L2言语产出时发生激活级联和程序化,从而使L2言语产出构成自动处理,且自动处理激活级联与双语心理词库和陈述性规则的共享句法表征检索相关联。基于“汉英不平衡双语者言语产出模型”,本研究主要采用句法启动实验研究回答下列研究问题:(1)启动程度(外部刺激的强度)不同会对L2言语产出产生哪些影响?(2)启动方式(刺激语种和通道)不同会对L2言语产出产生哪些影响?(3)句法启动中L2水平、动词重复、名词生命度和个人体差异等其他因素是否会对L2言语产出有影响?针对这些问题,本实采用句法启动图片描述任务设计3×4变量启动实验,利用E-prime2.0软件及SR-Box发声反应盒,收集1/1000秒(毫秒ms)为单位的数据,对汉英不平衡双语者L2在线言语产出情况进行考察。实验从L2目标结构的言语生成准确性、反应速度两方面,考察外部刺激是否会使被试产生认知激活级联和程序化,用TOPSIS算法对双变量综合评价可以发现哪种刺激会对不平衡双语者的L2言语产出产生更大影响,其他因素是否也会对启动结果产生影响。为实现这三个研究目的,本研究收集了研究被试在实验条件下的即时口语产出数据,其中包括汉英不平衡双语者对不同启动强度(双向启动,单向启动和无启动)、不同启动通道(视觉及听觉)及不同启动句语种(英语及汉语)的目标句产出和发声反应时数据和第二语言水平、动词施事和动词受事名词生命度等级以及自然条件(如性别、高考分数、父母学历等)、学习环境(学习方式、学习途径等)、词汇熟悉度、语言能力自评等数据。实验研究发现:1)研究模块一(启动程度对L2言语产出的影响):产出比、反应时和综合启动量三方面结果均显示,无论哪种启动语种(英语、汉语),无论哪种启动通道(视觉、听觉),双向启动Q1组(既看又读,既听又跟读)各实验明显优于单向启动Q2组(只看不读,只听不跟读)的各实验结果;单向启动Q2组各实验结果又均明显优于无启动控制Kz组的各实验结果,且组间差异显着。由此得出,不同启动语种,不同启动通道的句法启动效应都与启动程度正相关。这些研究结果说明:既看又朗读、既听又跟读的双向启动,对学习者的口语表达促进作用,比只看或只听效果更好。这也印证了研究假设中频繁刺激带来激活级联,记忆强化产生程序化效应带动自动处理。重复演练等频繁刺激可以促进L2的言语生成,且多通道的重复刺激更有效。汉英不平衡双语者的英语口语表达,可以通过多通道的重复演练得到促进和提高。2)研究模块二(启动方式对L2言语产出的影响):双向启动的英语语内实验(A英语视觉启动、B英语听觉启动),产出比结果为英语听觉启动优于英语视觉启动;反应时结果为英语视觉快于英语听觉;综合启动效应量结果为英语听觉启动优于英语视觉启动(Q1A:M=0.525<B:M=0.570)。跨语言启动实验(C汉语视觉启动、D汉语听觉启动),产出比、反应时(逆向指标)和综合启动效应量都是汉语听觉启动优于汉语视觉启动(Q1C:M=0.524<Q1D:M=0.574)。同通道实验综合启动量比较(A英听0.525、C汉听0.524)/(B汉听0.570、D英听0.574)各实验结果,整体差异不大;只有反应时汉语听觉启动快于英语听觉启动。单向启动组的各实验整体趋势与双向启动组一致。控制组各实验数值基本持平。这些研究结果说明:听觉输入和英语语内输入,对学习者言语产出得促进效果更好。外语教师可以更加侧重听觉训练和英语语内训练。在加快不平衡双语者的L2言语产出反应速度方面,英语视觉和汉语听觉两种启动方式效果更好。汉语启动同样有效,不能忽视母语作用!3)研究模块三(L2言语产出的其他影响因素):汉英不平衡双语者二语水平与句法启动效应呈正相关,即相对高水平的不平衡汉英双语者启动效应强,低水平的启动效应弱;动词重复启动也能够影响汉英不平衡双语者二语言语产出,句子核心动词重复目标句产出数增多,即存在词汇增强效应;名词生命度等级差异不同与目标句产出情况差异明显,同时目标句产出数值和发声反应时长都显示出,名词生命度等级差为2时,目标句产出最多,生命度等级差为1级时,发声反应时均值最短。个体差异因素中,高考英语成绩与启动效应显着相关P=0.028<0.05,高考语文成绩呈弱相关P=0.084,其他自然条件等因素对汉英不平衡双语者的L2言语产出没有显着影响。这些研究结果说明:在诸多个人因素中,语言水平尤其是L2水平与汉英不平衡双语者的L2言语产出显着相关。在汉英不平衡双语者(二语水平中低级)中,水平相对越高,启动效果越好,即由于外部刺激产生激活级联,形成程序化自动处理受到L2水平(心理词库和陈述性规则系统的完善程度)影响。基于上述研究得出如下教育启示及建议。(1)重复演练:在二语学习过程中,重复演练等频繁刺激可以促进L2的言语生成,图片描述、同盟者脚本、句子回忆、句子补全任务皆可通过重复演练促进口语生成,且简单知识的重复演练也能促进高级句法结构的口语生成;(2)听力训练:在二语学习过程中,听觉输入和L2语内带来的刺激可以更有效的促进L2言语产出:即听力训练可以更有效的提高二语的产出能力;(3)知识训练:二语词汇句法知识储备对二语言语产出量和速度至关重要,从而说明要提高二语言语产出能力,应该在教学中加强二语词汇句法知识训练和积累;(4)母语训练:对于汉英共享句法表征,母语相应结构的输入对二语言语产出的质量和速度都具有积极的影响,即母语句法知识的正迁移有助于二语相关知识的习得。本实验结果印证了激活级联和程序化的研究假设,证明了“汉英不平衡双语者言语产出模型”的合理性,这对二语习得理论与心理学的融合研究有一定的启示意义。本研究采用TOPSIS逼近理想算法对产出比和反应时双变量的综合评价作为启动效应量,本实验研究也可为语言学研究领域的多变量综合评价研究方法提供有益的启示。
车滢霞[9](2015)在《约束条件下的结构化统计声学模型及非平行语料语音转换》文中研究表明语音转换是指将A说话人的语音进行转换并使其听起来像B说话人的语音,且保持语义内容不变的一种技术。传统的说话人语音转换方法大多基于平行语料,通过对平行训练语料的联合训练得到短时谱转换函数。但由于实际情况的限制,完全平行的高质量训练语料是非常难以获得有时甚至是不可能获得的,并且联合训练计算量大,故平行语料语音转换的发展受到限制。本文提出约束条件下结构化高斯混合模型并将其应用于非平行语料语音转换。首先,从源与目标说话人的非平行语料中提取出少量相同音节,在结构化高斯混合模型(SGMM:Structure Gaussian Mixture Model)的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在期望最大化迭代过程中对语音帧属于某高斯分量的后验概率进行修正,训练出基于约束的结构化高斯混合模型。然后,根据全局声学结构原理,利用模型快速匹配算法对源和目标说话人的约束条件下的结构化高斯混合模型的高斯分布进行匹配对准,得到短时谱转换函数。主观及客观评价实验结果表明,在转换后语音与目标语音之间的谱失真,转换后语音的目标倾向性和转换后语音的质量等方面,使用本文提出的转换方法优于传统的结构化语音转换方法,转换系统的性能也与基于平行语料的语音转换方法的性能更为接近。本课题主要对以下几个方面进行研究:1、通过对高斯混合模型(GMM:Gaussian Mixture Model)的理解和分析,将GMM应用于平行语料语音转换系统,对其转换性能进行评价并指出该方法的特点及存在的问题。2、深入研究全局声学结构及其原理,详细分析传统结构化非平行语料语音转换方法存在的问题,提出了一种快速模型匹配算法和基于约束条件的结构化高斯混合模型的非平行语料语音转换方法。3、在基于少量约束信息的基础上,实现高质量结构化非平行语料语音转换系统。4、利用主观和客观测评准则,对传统的高斯混合模型转换法,传统的结构化方法以及约束条件下的SGMM(C-SGMM)方法的实验结果进行测评,并对测评结果进行详细的分析,说明本课题提出方法的有效性及优越性。
李阳春[10](2014)在《倒谱本征空间结构化高斯混合模型及语音转换研究》文中指出语音转换是语音信号处理领域的一个重要分支,其目的是保持说话人语音的语义信息不变,只改变说话人的个性特征,源说话人语音经过转换后其个性特征更接近目标说话人的个性特征。传统的语音转换方法大多采用平行语料联合训练源-目标说话人的语音模型并由此推导出相应的语音转换函数,但在实际应用中难以获得完全平行的语料,而且训练联合说话人语音模型的计算量大,在多说话人之间进行语音转换时系统繁杂。本课题针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。首先提取说话人语音的倒谱特征参数,然后根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型(SGMM-ES,Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构(AUS, Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。主客观实验结果以及表明SGMM-ES语音转换系统的转换性能非常接近于传统平行语料的方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。本课题的研究内容主要包括以下几个方面:(1)、研究了语音产生的基本原理以及数学模型,对语音的个性特征参数进行了详细的分析,并基于STRAIGHT构成语音分析-合成平台。(2)、搭建了平行语料联合训练条件下基于GMM模型的语音转换平台作为基准系统,并具体分析了传统语音转换方法存在的问题。(3)、深入研究了语音的全局声学结构原理,提出了说话人倒谱本征空间结构化高斯混合模型(SGMM-ES)及其具体实现算法。(4)、在非平行语料非联合训练的条件下,实现了基于倒谱本征空间结构化高斯混合模型的语音转换系统。(5)、对GMM、SGMM、SGMM-ES三种方法得到的转换语音进行了主客观实验评测,并作了详细的分析,以验证本论文提出方法的有效性。
二、同语种说话人转换的实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、同语种说话人转换的实现(论文提纲范文)
(3)融合i-vector嵌入和密集连接星型生成对抗网络的语音转换研究(论文提纲范文)
摘要 |
Abstract |
专用术语注释表 |
第一章 绪论 |
1.1 语音转换的定义 |
1.2 语音转换的研究背景和意义 |
1.2.1 语音转换的研究意义 |
1.2.2 语音转换技术的研究背景 |
1.3 非平行文本条件下语音转换的研究现状 |
1.4 本文的主要工作和内容安排 |
1.4.1 主要工作 |
1.4.2 内容安排 |
第二章 语音转换的背景知识介绍 |
2.1 语音信号的产生机制 |
2.1.1 语音产生的生理机制 |
2.1.2 语音信号产生的数学模型 |
2.2 语音信号的特征参数 |
2.3 语音转换系统的基本原理 |
2.4 语音信号分析-合成模型 |
2.4.1 STRAIGHT模型 |
2.4.2 WORLD模型 |
2.4.3 WaveNet模型 |
2.5 语音信号的频谱转换 |
2.6 语音转换的基频转换 |
2.7 语音转换的质量评价标准 |
2.7.1 客观评价标准 |
2.7.2 主观评价标准 |
2.8 语音转换常用数据集 |
2.9 本章小结 |
第三章 基于StarGAN的语音转换 |
3.1 引言 |
3.2 StarGAN模型的基本原理 |
3.2.1 StarGAN模型结构 |
3.2.2 StarGAN模型训练目标 |
3.2.3 转换过程 |
3.3 非平行文本条件下基于StarGAN的多对多语音转换系统 |
3.4 实验仿真与结果分析 |
3.4.1 实验设置 |
3.4.2 实验结果分析 |
3.5 本章小结 |
第四章 融合i-vector嵌入的StarGAN语音转换 |
4.1 引言 |
4.2 i-vector |
4.2.1 i-vector简介 |
4.2.2 i-vector提取 |
4.3 融合i-vector嵌入的StarGAN多对多语音转换方法 |
4.3.1 融合i-vector嵌入的StarGAN模型结构 |
4.3.2 融合i-vector嵌入的StarGAN多对多语音转换系统 |
4.4 实验仿真与结果分析 |
4.4.1 网络结构 |
4.4.2 实验参数设置 |
4.4.3 实验结果分析 |
4.5 本章小结 |
第五章 融合i-vector嵌入的DenseNet-StarGAN语音转换 |
5.1 引言 |
5.2 DenseNet结构的原理 |
5.2.1 ResNet结构的原理 |
5.2.2 DenseNet结构的原理 |
5.3 GELU激活函数的原理 |
5.4 融合i-vector嵌入的DenseNet-StarGAN多对多语音转换方法 |
5.4.1 融合i-vector嵌入的DenseNet-StarGAN模型结构 |
5.4.2 融合i-vector嵌入的DenseNet-StarGAN多对多语音转换系统 |
5.5 实验仿真与结果分析 |
5.5.1 网络结构 |
5.5.2 实验参数设置 |
5.5.3 实验结果分析 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
附录1 攻读硕士学位期间申请的专利 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(4)基于PSR-STARGAN的非平行多对多语音转换方法(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 语音转换的定义 |
1.2 语音转换的研究背景和意义 |
1.2.1 语音转换的研究背景 |
1.2.2 语音转换的研究意义 |
1.3 非平行文本条件下语音转换的研究现状 |
1.4 本文的主要工作和内容安排 |
第二章 语音转换理论基础 |
2.1 语音信号的产生机制 |
2.1.1 语音发音系统 |
2.1.2 语音信号产生的数学模型 |
2.2 语音信号分析及特征处理 |
2.3 语音转换系统的基本原理 |
2.4 语音信号分析/合成模型 |
2.4.1 WaveNet模型 |
2.4.2 STRAIGHT模型 |
2.4.3 WORLD模型 |
2.5 语音信号的频谱转换 |
2.6 语音转换常用数据集 |
2.7 语音转换质量评价标准 |
2.7.1 客观评价标准 |
2.7.2 主观评价标准 |
2.8 本章小结 |
第三章 基于STARGAN的语音转换 |
3.1 引言 |
3.2 STARGAN模型的基本原理 |
3.2.1 模型结构 |
3.2.2 损失函数 |
3.3 非平行文本条件下基于STARGAN的多对多语音转换 |
3.3.1 训练目标 |
3.3.2 转换过程 |
3.4 实验仿真与结果分析 |
3.4.1 网络结构 |
3.4.2 实验参数设置 |
3.4.3 实验结果分析 |
3.5 本章小结 |
第四章 基于SR-STARGAN的语音转换方法 |
4.1 引言 |
4.2 ResNet结构的原理 |
4.3 SN的原理 |
4.4 基于SR-STARGAN的语音转换方法 |
4.5 实验仿真与结果分析 |
4.5.1 网络结构 |
4.5.2 实验参数设置 |
4.5.3 实验结果分析 |
4.6 本章小结 |
第五章 基于PSR-STARGAN的语音转换方法 |
5.1 引言 |
5.2 感知网络的原理 |
5.3 基于PSR-STARGAN的多对多语音转换 |
5.4 实验仿真与结果分析 |
5.4.1 网络结构 |
5.4.2 实验参数设置 |
5.4.3 实验结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
附录1 攻读硕士学位期间申请的专利 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(5)非平行文本条件下基于Multi-Scale StarGAN的共享训练的多对多语音转换研究(论文提纲范文)
摘要 |
Abstract |
专用术语注释表 |
第一章 绪论 |
1.1 语音转换的定义 |
1.2 语音转换的研究背景和意义 |
1.2.1 语音转换的研究背景 |
1.2.2 语音转换的研究意义 |
1.3 非平行文本条件下语音转换的研究现状 |
1.4 本文的主要工作内容安排 |
1.4.1 主要工作 |
1.4.2 内容安排 |
第二章 相关背景知识介绍 |
2.1 语音转换系统的基本原理 |
2.1.1 语音信号分析/合成模型 |
2.1.2 语音信号的特征参数 |
2.1.3 语音信号的特征转换 |
2.2 语音转换挑战任务和数据集 |
2.3 语音转换质量评价标准 |
2.3.1 客观评价标准 |
2.3.2 主观评价标准 |
2.4 本章小结 |
第三章 基于StarGAN的语音转换 |
3.1 引言 |
3.2 GAN模型的基本原理 |
3.2.1 GAN模型 |
3.2.2 WGAN模型 |
3.2.3 CycleGAN模型 |
3.3 非平行文本条件下基于StarGAN的多对多语音转换 |
3.3.1 基于语音转换任务的StarGAN网络 |
3.3.2 训练与转换流程 |
3.4 实验仿真与结果分析 |
3.4.1 实验设置 |
3.4.2 实验结果 |
3.5 本章小结 |
第四章 基于Multi-Scale StarGAN的语音转换 |
4.1 引言 |
4.2 残差网络基本原理 |
4.3 多级尺度基本原理 |
4.4 非平行文本条件下基于Multi-Scale StarGAN的语音转换 |
4.4.1 Multi-Scale StarGAN语音转换网络 |
4.4.2 训练与转换流程 |
4.5 实验仿真与结果分析 |
4.5.1 实验设置 |
4.5.2 实验结果 |
4.6 本章小结 |
第五章 基于Share-Learning的Multi-Scale StarGAN的语音转换 |
5.1 引言 |
5.2 共享学习的原理 |
5.3 Mish激活函数 |
5.4 非平行文本条件下基于Share-Learning的多对多语音转换 |
5.4.1 基于Share-Learning的StarGAN语音转换网络 |
5.4.2 基于Share-Learning的Multi-Scale StarGAN语音转换系统 |
5.5 实验仿真与结果分析 |
5.5.1 实验设置 |
5.5.2 实验结果 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
附录1 攻读硕士学位期间申请的专利 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(6)融合说话人嵌入和SE-ResNet的非平行多对多语音转换研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 语音转换的定义 |
1.2 语音转换技术概述 |
1.2.1 语音转换技术研究背景 |
1.2.2 语音转换挑战赛 |
1.3 语音转换技术的研究意义 |
1.4 本文主要工作和内容安排 |
第二章 语音转换理论基础 |
2.1 语音的产生与说话人身份 |
2.1.1 语音产生过程 |
2.1.2 说话人身份感知 |
2.2 语音转换系统基本原理 |
2.3 语音分析/合成模型 |
2.3.1 STRAIGHT |
2.3.2 WORLD |
2.3.3 WaveNet |
2.4 语音信号的特征参数 |
2.5 语音转换常用数据集 |
2.6 语音转换性能评价 |
2.6.1 客观评价标准 |
2.6.2 主观评价标准 |
2.7 非平行语音转换方法 |
2.7.1 基于C-VAE语音转换方法 |
2.7.2 基于VAWGAN的语音转换方法 |
2.7.3 基于CycleGAN的语音转换方法 |
2.8 本章小结 |
第三章 基于StarGAN的多对多语音转换 |
3.1 引言 |
3.2 StarGAN模型的基本原理 |
3.3 非平行文本条件下基于StarGAN的多对多语音转换 |
3.3.1 语音转换系统框图 |
3.3.2 基频转换 |
3.3.3 基于StarGAN的频谱转换 |
3.3.4 基于StarGAN的多对多语音转换系统 |
3.4 实验仿真与结果分析 |
3.4.1 实验环境 |
3.4.2 实验模型参数 |
3.4.3 实验结果分析 |
3.5 本章小结 |
第四章 基于StarGAN-x的语音转换方法 |
4.1 引言 |
4.2 x-vector特征 |
4.2.1 x-vector定义 |
4.2.2 x-vector提取 |
4.3 基于StarGAN-x的语音转换 |
4.3.1 融合x-vector的 StarGAN |
4.3.2 基于StarGAN-x的语音转换系统 |
4.4 实验仿真与结果分析 |
4.4.1 实验环境 |
4.4.2 实验模型参数 |
4.4.3 实验结果分析 |
4.5 本章小结 |
第五章 基于SE-R StarGAN-x语音转换方法 |
5.1 引言 |
5.2 SE-Res Net原理 |
5.3 基于SE-R StarGAN-x的语音转换系统 |
5.3.1 基于SE-R StarGAN的语音转换系统 |
5.3.2 基于SE-R StarGAN-x的语音转换系统 |
5.4 实验仿真与结果分析 |
5.4.1 实验环境 |
5.4.2 实验模型参数 |
5.4.3 实验结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
附录1 攻读硕士学位期间申请的专利 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(7)基于深度学习的藏语语音转换的研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 语音转换的基本概念 |
1.2 研究背景 |
1.3 研究现状 |
1.3.1 语音转换技术的研究现状 |
1.3.2 方言语音转换技术研究现状 |
1.4 研究意义 |
1.5 论文结构 |
第2章 语音转换基本内容 |
2.1 语音信号产生的机制和模型 |
2.1.1 发声器官 |
2.1.2 语音信号生成的数学模型 |
2.2 语音信号的特征选取和特征提取 |
2.2.1 语音信号特征的选取 |
2.2.2 特征提取 |
2.3 基于WORLD的语音信号分析与合成 |
2.4 语音转换系统框架 |
2.4.1 基音频率的转换 |
2.4.2 频谱包络的转换 |
2.5 实验评估标准 |
2.5.1 客观评测 |
2.5.2 主观评测 |
第3章 藏语语料库的构建 |
3.1 藏语方言概述 |
3.2 藏语语料库的设计 |
3.2.1 文本语料设计 |
3.2.2 语音语料的录制 |
第4章 基于神经网络的藏语语音转换 |
4.1 平行语料库条件下的藏语语音转换 |
4.1.1 基于DNN的VC |
4.1.2 基于GAN的VC |
4.2 平行语料条件下的实验设置及结果分析 |
4.2.1 实验语料及预处理 |
4.2.2 实验设置 |
4.2.3 实验评测 |
4.3 非平行语料库条件下的藏语语音转换 |
4.3.1 基于CycleGAN的 VC |
4.3.2 基于StarGAN的 VC |
4.4 非平行语料条件下的实验设置及结果分析 |
4.4.1 实验语料及预处理 |
4.4.2 实验设置 |
4.4.3 实验评测 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文及研究成果 |
(8)汉英不平衡双语者二语言语产出句法启动实验研究(论文提纲范文)
中文摘要 |
英文摘要 |
第一章 绪论 |
1.1 研究背景 |
1.2 研究问题 |
1.3 研究目的 |
1.4 研究意义 |
1.5 文本结构 |
第二章 文献综述 |
2.1 核心概念界定 |
2.2 句法启动研究 |
2.2.1 句法启动研究源起 |
2.2.2 句法启动的定性研究 |
2.2.3 句法启动的实验研究 |
2.3 言语产出研究 |
2.3.1 一语言语产出研究 |
2.3.2 双语言语产出研究 |
2.3.3 不平衡双语者二语言语产出研究 |
2.3.4 汉英不平衡双语者二语产出研究 |
2.4 本章小结 |
第三章 理论框架 |
3.1 Dell的激活扩散模型 |
3.2 Levelt的模块模型 |
3.3 Kormos的双语言语产出模型 |
3.4 本研究的理论框架和研究假设 |
3.4.1 汉英不平衡双语者言语产出的自动处理 |
3.4.2 汉英不平衡双语者言语产出模型加工模块的组成 |
3.5 本章小结 |
第四章 研究方法 |
4.1 具体研究问题 |
4.2 研究总体思路 |
4.3 具体研究方法 |
4.3.1 目标结构 |
4.3.2 研究被试 |
4.3.3 实验材料 |
4.3.4 实验流程 |
4.3.5 数据分析与综合启动量计算方法 |
4.4 本章小结 |
第五章 启动程度与启动效应 |
5.1 产出比数据与分析 |
5.2 反应时数据与分析 |
5.3 综合启动量数据与分析 |
5.4 结果与讨论 |
5.5 本章小结 |
第六章 启动呈现方式与启动效应 |
6.1 控制无启动Kz组 ABCD实验的组内检验值 |
6.2 双向启动Q1组ABCD实验的组内检验值 |
6.2.1 同一启动语种时视、听启动通道分析 |
6.2.2 同一启动通道时英、汉启动语种分析 |
6.3 单向启动Q2组ABCD实验的组内检验值 |
6.3.1 同一启动语种时视、听启动通道分析 |
6.3.2 同一启动通道时英、汉启动语种分析 |
6.4 结果与讨论 |
6.5 本章小结 |
第七章 启动效应的其他影响因素 |
7.1 二语水平与启动效应 |
7.2 动词重复与启动效应 |
7.3 名词生命度等级与句法启动效应 |
7.4 个体差异与句法启动效应 |
7.5 结果与讨论 |
7.6 本章小结 |
第八章 结论与启示 |
8.1 研究结果 |
8.2 研究启示 |
8.2.1 理论启示 |
8.2.2 应用价值 |
8.2.3 对外语教学的启示 |
8.3 研究的局限性及后续研究发展 |
参考文献 |
附录 |
后记 |
在学期间发表论文 |
(9)约束条件下的结构化统计声学模型及非平行语料语音转换(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 语音转换的定义 |
1.2 语音转换的研究意义与应用前景 |
1.3 课题的国内外研究现状 |
1.4 课题研究目标及主要工作 |
1.5 论文内容安排 |
第二章 语音转换理论基础 |
2.1 语音信号概述 |
2.1.1 语音信号的产生原理 |
2.1.2 语音信号产生的数学模型 |
2.2 语音信号分析 |
2.2.1 预处理 |
2.2.2 基音周期估计 |
2.2.3 线性预测分析 |
2.2.4 倒谱分析 |
2.3 语音的个性特征分析 |
2.4 STRAIGHT语音分析-合成算法 |
2.4.1 去除周期性影响的谱估计 |
2.4.2 平滑可靠的基频轨迹的提取 |
2.4.3 语音合成 |
2.5 语音转换系统概述 |
2.5.1 语音转换的基本原理 |
2.5.2 语音转换系统的系统组成 |
2.5.3 语音转换的主要方法 |
2.5.4 语音转换性能的评价准则 |
第三章 基于平行语料联合训练的语音转换方法 |
3.1 系统构成 |
3.2 语音特征参数的时间对齐 |
3.3 高斯混合模型 |
3.3.1 高斯混合模型的基本原理 |
3.3.2 高斯混合模型的训练 |
3.3.3 高斯混合模型训练的参数设置 |
3.4 基于高斯混合模型语音转换的转换函数 |
3.4.1 基频转换函数 |
3.4.2 短时谱转换函数 |
3.5 基于平行语料联合训练的语音转换的局限性 |
第四章 约束条件下的结构化统计声学模型及非平行语料语音转换 |
4.1 系统构成 |
4.2 约束条件下的结构化高斯混合模型 |
4.2.1 结构化高斯混合模型的基本原理 |
4.2.2 基于约束的K均值聚类 |
4.2.3 基于约束的EM算法 |
4.3 基于约束条件下结构化高斯混合模型的语音转换 |
4.4 快速模型匹配算法 |
第五章 语音转换实验及分析 |
5.1 语料库描述及参数设置 |
5.2 客观评价 |
5.3 主观评价 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间公开发表的论文 |
致谢 |
(10)倒谱本征空间结构化高斯混合模型及语音转换研究(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 语音转换的定义 |
1.2 语音转换研究的意义与发展应用 |
1.3 课题的国内外研究现状以及存在的问题 |
1.4 课题研究目标及主要工作 |
1.5 论文的结构安排 |
第二章 语音转换的理论基础 |
2.1 语音信号的基础知识 |
2.1.1 语音发音系统 |
2.1.2 语音信号的数学模型 |
2.2 语音的个性特征分析 |
2.3 语音信号分析 |
2.3.1 语音信号的预处理 |
2.3.2 端点检测 |
2.3.3 基音周期估计 |
2.3.4 语音信号的线性预测分析 |
2.4 语音分析-合成平台 STRAIGHT |
2.4.1 去除周期性影响的谱估计 |
2.4.2 平滑可靠的基频轨迹的提取 |
2.4.3 语音重构 |
2.4.4 STRAIGHT 谱包络的降维处理 |
2.5 语音转换系统原理 |
2.6 语音转换性能的评价标准 |
2.6.1 客观评价方法 |
2.6.2 主观评价方法 |
第三章 平行语料联合训练的语音转换方法 |
3.1 语音转换系统概述 |
3.2 语音转换的主要方法 |
3.2.1 矢量量化方法 |
3.2.2 说话人插值方法 |
3.2.3 神经网络方法 |
3.2.4 线性多变量回归方法 |
3.3 GMM 语音转换系统 |
3.3.1 语音信号的动态时间规整 |
3.3.2 GMM 模型的基本概念 |
3.3.3 GMM 模型的训练 |
3.3.4 GMM 模型训练的参数设置 |
3.3.5 GMM 模型的转换函数 |
3.4 传统语音转换系统的不足 |
第四章 倒谱本征空间结构化高斯混合模型的语音转换方法 |
4.1 语音转换系统结构 |
4.2 倒谱本征空间 |
4.2.1 倒谱本征空间的构成 |
4.2.2 倒谱本征空间的特性 |
4.3 倒谱本征空间 SGMM-ES 训练与转换函数推导 |
4.3.1 SGMM-ES 训练 |
4.3.2 SGMM-ES 与 AUS 对准 |
4.3.3 转换函数的推导 |
第五章 语音转换实验及分析 |
5.1 实验语料库的设计 |
5.2 客观评价实验 |
5.2.1 说话人识别测试 |
5.2.2 谱失真测度 |
5.3 主观评价实验 |
5.3.1 ABX 测试 |
5.3.2 MOS 评测 |
5.4 语谱图分析 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间公开发表的论文 |
致谢 |
四、同语种说话人转换的实现(论文参考文献)
- [1]基于双编码器的快速one-shot跨语种语音转换方法[D]. 徐玲俐. 南京邮电大学, 2021
- [2]基于Adaptive Trans-StarGAN的非平行多对多语音转换方法[D]. 何铮韬. 南京邮电大学, 2021
- [3]融合i-vector嵌入和密集连接星型生成对抗网络的语音转换研究[D]. 袁昌龙. 南京邮电大学, 2020(03)
- [4]基于PSR-STARGAN的非平行多对多语音转换方法[D]. 徐东祥. 南京邮电大学, 2020(02)
- [5]非平行文本条件下基于Multi-Scale StarGAN的共享训练的多对多语音转换研究[D]. 沙淮. 南京邮电大学, 2020(02)
- [6]融合说话人嵌入和SE-ResNet的非平行多对多语音转换研究[D]. 曹盼. 南京邮电大学, 2020(02)
- [7]基于深度学习的藏语语音转换的研究[D]. 赵光赢. 西北师范大学, 2020(01)
- [8]汉英不平衡双语者二语言语产出句法启动实验研究[D]. 王柔化. 东北师范大学, 2019(04)
- [9]约束条件下的结构化统计声学模型及非平行语料语音转换[D]. 车滢霞. 苏州大学, 2015(02)
- [10]倒谱本征空间结构化高斯混合模型及语音转换研究[D]. 李阳春. 苏州大学, 2014(10)