语音之家

 找回密码
 立即注册
搜索
热搜: 算法 软件 硬件
查看: 30|回复: 0

语音识别-深度卷积神经网络

[复制链接]

13

主题

14

帖子

118

积分

注册会员

Rank: 2

积分
118
发表于 7 天前 | 显示全部楼层 |阅读模式
目前的语音识别,DNN、RNN/LSTM和CNN算是语音识别中几个比较主流的方向。。长短时记忆网络(LSTM,LongShort Term Memory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性进行建模,从而提高识别正确率。双向LSTM网络可以获得更好的性能,但同时也存在训练复杂度高、解码时延高的问题,尤其在工业界的实时识别系统中很难应用。

随着CNN在图像领域的发光发热,VGGNet,GoogleNet和ResNet的应用,为CNN在语音识别提供了更多思路,比如多层卷积之后再接 pooling 层,减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的 CNN 模型。

通常情况下,语音识别都是基于时频分析后的语音谱完成的,而其中语音时频谱是具有结构特点的。要想提高语音识别率,就是需要克服语音信号所面临各种各样的多样性,包括说话人的多样性(说话人自身、以及说话人间),环境的多样性等。一个卷积神经网络提供在时间和空间上的平移不变性卷积,将卷积神经网络的思想应用到语音识别的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看,则可以认为是将整个语音信号分析得到的时频谱当作一张图像一样来处理,采用图像中广泛应用的深层卷积网络对其进行识别。

从实用性上考虑,CNN也比较容易实现大规模并行化运算。通用框架如Tensorflow,Caffe等也提供CNN的并行化加速,为CNN在语音识别中的运用提供了可能。

Deep CNN的应用过程中,大致也分为两种策略:一种是HMM 框架中基于 Deep CNN结构的声学模型,CNN可以是VGG、Residual 连接的 CNN 网络结构、或是CLDNN结构。另一种是近两年非常火的端到端结构,比如在 CTC 框架中使用CNN或CLDNN实现端对端建模,或是最近提出的Low Frame Rate、Chain 模型等粗粒度建模单元技术。

CNN发展的趋势大体为:
   更加深和复杂的网络,CNN一般作为网络的前几层,可以理解为用CNN提取特征,后面接LSTM或DNN。同时结合多种机制,如attention model、ResNet 的技术等。
   End to End的识别系统,采用端到端技术CTC , LFR 等。
   粗粒度的建模单元,趋势为从state到phone到character,建模单元越来越大。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|yuyinbbs.cn

GMT+8, 2019-8-21 13:31 , Processed in 0.050195 second(s), 25 queries .

快速回复 返回顶部 返回列表