语音之家

 找回密码
 立即注册
搜索
热搜: 算法 软件 硬件
查看: 26|回复: 0

语音合成技术简介

[复制链接]

13

主题

14

帖子

118

积分

注册会员

Rank: 2

积分
118
发表于 2019-8-8 15:21:23 | 显示全部楼层 |阅读模式
什么是语音

语音的三大关键成分-信息,音色和韵律。

语音信息是指说话人说了什么内容。
语音的音色是指这段话是什么人说的,每个人都有自己独特的音色。
韵律就是我们说话的方式,声音的高低、快慢等。

语音合成的发展历史

起源:
语音合成技术的起源可以追溯到18到19世纪,当时是用机械装置来模拟人的发声,那时候科学家们会制作出一些精巧的气囊和风箱去搭建发声的系统,可以合成出一些元音和单音。

电子合成阶段:
20世纪初,出现了用电子合成器来模拟人发声的技术,贝尔实验室在1939年推出了名为“VODER”的电子发声器,使用电子器件来模拟声音的谐振。

共振峰合成阶段
20世纪80年代,随着集成电路技术的发展,出现了比较复杂的组合型的电子发生器,具有代表性的是KLATT在1980年发布的串/并联混合共振峰合成器。

单元拼接合成阶段
到了20世纪80、90年代随着PSOLA方法的提出和计算机能力的发展,单元挑选和波形拼接技术逐渐走向成熟。

基于HMM的参数合成阶段
将录制好的音库,提取出相应的语音参数,然后将标注数据和声学提取数据一同构建HMM的训练模型,通过上下文属性和问题集的决策树模型,训练出相应的HMM模型。

基于深度学习的阶段
随着AI技术不断发展,基于深度学习的语音合成技术逐渐被人们所知道,DNN/CNN/RNN等各种神经网络构型都可以用来做语音合成系统的训练,深度学习的算法可以更好地模拟人声变化规律。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|yuyinbbs.cn

GMT+8, 2019-8-21 13:48 , Processed in 0.049925 second(s), 18 queries .

快速回复 返回顶部 返回列表