当前位置: 主页 > 技术方案

人工智能语音识别技术论文-基于神经网络的语音信号识别(2016.10.21)

发布时间:2023-06-11 22:11   浏览次数:次   作者:佚名

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能 够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智 能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经 网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学,它模拟 了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好地解决语 音识别这样一个复杂的模式分类问题提供了新的途径。本文针时语音识别的特点.BP 神 经网络在语音识别技术中的应用进行了探索性研究,对 进而结合人工智能领域较为有效的 方法——遗传(GA)算法。 针对传统BP 算法识别准确率高但训练速度慢的缺点,对 BP 网 络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识 别系统。仿真实验表明,该算法有效地缩短了识别时问,提高了网络训练速度和语音的识 别率。关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP 网络 RECOGNITIO THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind .Since the computer was invented ,many scientists have been devoted to enabling the computer to understand the natural language .Speech recognition is a comprehensive technology of such areas as acoustics, phonetics , linguistics , computer science,information processing and artificial intelligence ,which can be used widely .The research of speech recognition technology has been focused by the world for a long time .The neural network is a new developing science , which simulates the mechanism of human brain and was putted forward by the developing of modern science . is not the overall description of human brain , the abstract , It but simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing ,storing and searching .If people can understand these mechanisms , a new way for the research of artificial intelligence ,information processing and etc. can be opened up. Artificial neural network is a system which using a physically feasible system to imitate the structure and function of nerve cells in human brain ,which has the ability of self—learning ,contrasting ,reasoning and summarizing .It have offered a new way in solving such complicated pattern classification problems as speech recognition . This paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low, a new recognizing algorithm based on BP algorithm by combining with good effect method in ANN which named genetic algorithm (GA) was proposed and used to improve the BP neural network. Experiments results show that the training speed can be accelerated by the method and the recognition performance is also promoted . words: Key words speech recognition, neural network, genetic algorithm, genetic neural network, BP network 1 .绪论 1.1 1.1 课题背景1.1.1 语音识别概述随着计算机技 术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个 方面。

在现代社会中, 人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让 计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究 课题之一。语音识别 (Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下, 准确 地识别出语音的内容,从而根据其信息,执行人的各种意图。语音识别是一门涉及面 很广的交叉学科,它是目前发展最为迅速的信息研究诸领域中的一个。 语音识别的最大优 势在于使得人机用户界面更加自然和容易使用。随着计算机技术、模式识别和信号处理技 术及声学技术等的发展,使得能满足各种需要的语音识别系统实现成为可能。 近二三十年 来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通 信与电子系统、自动控制等领域中有着越来越广泛的应用。1.1.2 数字语音识别研究的 意义 语音识别的目标是让机器能听懂人类口述的语言,语音识别中的汉语数字语音识别,具 有更为重要的意义人工智能语音识别技术论文,在众多场合的实用化都会给人们带来极大的便利。语音电话拨号的 应用是现阶段语音识别技术中最重要的一个应用方向,在很多场合下,如司机开车、黑夜 或盲人拨打电话时,用手指拨电话号码是很不方便或不安全的,此时最自然的方式就是采 用语音拨号。

人工智能语音识别技术论文_视觉语音情感识别_语音情感识别 matlab

今天计算机和电子通信设备日益微型化,未来的计算机将会微缩成腕上的手 表般大小,而如果仍采用键盘输入是不可能的,有了数字语音识别技术,就可以在桌面上 用声音命令、控制或操纵计算机。利用语音进行工业控制可以避免复杂的控制面板,只 要一声令下,所有的机器就都在你的指挥之下了,它们真的可以做到听到你的话了。语 音控制也是以后家电遥控的一个必然发展方向,而家电遥控中不可避免地会用到数字的识 别,如电视机的频道、空调设定的温度、洗衣机的定时等。总之, 数字语音识别的研究对 于推动社会发展具有重要的作用。我们将在生活工作中渐渐体会到数字语音识别带来的种 种便利,它将有可能涉足人类生活的每一领域。1.2 语音识别的发展和现状语音识别的 研究工作大约开始于50 年代, 当时 AT& T Bell 实验室实现了第一个可识别十个英文数 字的语音识别系统——Audry 系统,可以识别10 个英文数字发音[1]。 60 年代,计算机 的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分 析技术( LP) [2] ,其中后者较好地解决了语音信号产生模型的问题。70 年代,语音识别 领域取得了突破。

在理论上,LP 技术得到进一步发展,动态时间归正技术( DTW)基本成 熟,特别是提出了矢量量化(VQ )和隐马尔可夫模型(HMM )理 论。在实践上,实现了 基于线性预测倒谱和DTW 技术的特定人孤立语音识别系统。80 年代, 语音识别研究进一 步走向深入,其显著特征是HMM 模型和人工神经元网络(ANN )在语音识别中的成功应 用。 HMM 模型的广泛应用应归功于AT&T Bell 实验室 Rabiner 等科学家的努力,他们把 原本艰涩的HMM 纯数学模型工程化,从而为更多研究者了解和认识。 ANN和 HMM 模 型建立的语音识别系统,性能相当。进入 90 年代,随着多媒体时代的来临人工智能语音识别技术论文,迫切要求语 音识别系统从实验室走向实用。美国、日本、韩国以及IBM 、Apple 、AT&T、NTT 等著名 公司都为语音识别系统的实用化开发研究投以巨资。我国语音识别研究工作一直紧跟国际 水平,国家把大词汇量语音识别的研究列入“863” 计划,除了要加强理论研究外,更要加 快 从 实 验 室演 示 系 统到 商 品的 转 化 。2. 语 音 识 别的 基 本 原理语 音识 别 SR(Speech Recognition) 是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而 根据其信息,执行人的各种意图[3] 。

人工智能语音识别技术论文_视觉语音情感识别_语音情感识别 matlab

现代语音识别技术以神经网络为主要发展趋势,进 入 20 世纪 90 年代以来, 神经网络已经成为语音识别的一条重要途径。由于神经网络反 映 r 人脑功能的基本特征,故具有自组织性、白适应性和连续学习能力等特点, 特别 适合于解决像语音识别这类模拟人的认知过程和智能处理能力,难以用算法来描述[4] 而 义有大量样本可供学习的问题。 人工神经网络(ANN)是采用大量的简单处理单元广泛连接 起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定 的算法逐步调整网络的权值,最终达到期望的目标。BP 神经网络是神经网络中前向神经 网络的核心部分,BP 算法的学习过程由信号的正向传播和误差的反向传播组成。随着误 差逆传播修正的不断进行,网络对输入模式响应的正确率不断上升。然而 BP 算法是一 种梯度 F 降算法, 梯度下降存在多极值问题,且 BP 网络学习训练速度慢,容易陷入局 部最小或振荡。因此,参数的选择非常重要。为克服标准 BP 算法存在的各种缺点,本 文研究用BP 算法结合人T 智能领域较为有效的方法——遗传 (GA)算法来训练网络进行 语音识别,仿真实验表明,GABP 算法使BP 网络在收敛速度上有了很大提高,尤其是克 服了容易陷入局部最小值的缺点,基于 GABP 的语音识别系统的最高识别率和平均识别率 都有了很大的提高。

大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参 数提取到应用识别算法进行识别的过程.该过程如下图l 所示: 神 经 网 络 识 别 语 音 识别 预处理 特 征 处 理 测 试 模 板 识别结果测度估计识别决策神 经 网 络 学 习 参 考 模 板 模板库 专家知识图 1 语音识别系统原理框图该文主要面向孤立数 字识别系统作一些改进研究,其摹本识别过程也符合上图l 描述: 输入的语音信号首先进 行预处理,包括抗混叠滤波、声音的预加重、加窗分症处理与端点检测等。预加重的目的 是在于滤出低频干扰,尤其是50Hz 或 60Hz 的工频干扰,将对于语音识别更为有用的高 频部分的频谱进行提升,以便于语音参数分析。预加重滤波器传递函数为: H(Z) = 1 - 0.9375Z -1 (1) ? 若 s(n)为预加重前语音信号,则经过预加重滤波器后得到的信号s (n)为: ? s (n)= S ( n ) ? 0.9375S ( n-1) (2) 该文主要完成孤立数字识别,所要求识别的字数不多,对环境的噪 声的适应能力的要求也并不高。

语音情感识别 matlab_视觉语音情感识别_人工智能语音识别技术论文

因此采用了目前比较流行的双门限端点检测算法.借助 于语音信号短时平均能量和短时过零率来判定语音有效范围的开始和结束。语音信号经过 预处理后,接下来很重要的一环就是进行特征提取,常用的特征包括短时平均能量和幅 度、短时平均过零率、线性预测系数(LPC)、短时傅里叶变换和Mel 频率倒谱系数 (MFCC)。 语音特征参数的时间序列构成了语音的模式,将其与通过应用一系列已知信号训练提取的 参考模式逐一进行比较.获得最佳匹配的参考模式便是识别结果。本文中对于预处理的 每个有效语音信号段,都要提取其12 个一阶 MFCC 系数。 提取过程为: 用汉明窗将语音 切割成长短一致的语音帧,对每帧语音进行正反傅里叶变换,经对数和离散余弦变换后取 前 12 个数作为 MFCC 系数来描述每一个帧。最后将每个语音信号对应的MFCC 系数序列 用 K — means 聚类算法进行聚类,分为 4 个聚类, 使得每个语音信号都得到相应的12 个 4 维一 阶 MFCC 系数,即可作为语音的特征参数成为神经网络的输人信号。3.语音识别 中的 BP 网络构造 语音识别中的BP 网络构造主要包括输入层、隐层、输出层、初始权 值、学习速率与期望误差的选取几个方面的问题。

1)网络层数:理论上,在不限制隐层节 点数的情况下,两层(只有一个隐层)的 BP 网络可 以实现任意非线性映射。当模式样本很 多时,减小网络规模,增加一个隐层是必要的,但BP 网络隐层数一般不超过两层。本文 所要求识别的模式样本不多,因此一个隐层已经足够。2)输入层节点数:BP 网络语音识 别系统中,在 输入层节点数与选取的语音信号特征参数的维度和阶数有关。本文中每个 语音信号都得到相应的12 个 4 维一阶 MFCC 系数, 故输入层的节点数为12×4=48 。3) 输出层节点数:输出层的节点数取决于输出数据的类型和表示该类型所需的数据大小。当 BP 网络用于语音识别时,以二进制形式来表示不同的识别结果,则输出层的节点数可根据 训练模板的语音数来确定。本文设定输出节点数为1O,分别对应于0— 9 这 10 个数字。 4)隐层节点数:通过采用一个隐层,增加其神经元数的方法来达到网络训练精度的提高, 这在结构上。要比增加更多的隐层简单的多。但究竞选取多少个隐层节点才合适?在理论上 并没有 1 个明确的规定。在具体设计时.比较实际的做法是通过对不同神经元数进行训 练对 [5] 比。

视觉语音情感识别_语音情感识别 matlab_人工智能语音识别技术论文

然后适当的加上一点余量。一般可利用下面式子决定:[6] n1 = m +a +a (3) 其 中 n1 为隐层节数;m 为输入节点数;n 为输出节点数;a 为取 l— 10 的常数。本实验中 输 入节点数为48 ,输出节点数为10 ,a 选取为常数4 ,因此隐层节点数n1 =12 。 5)初 始权值:由于系统是非线性的,初始值对于学习是否达到局部最小、是否能收敛以及训练 时间的长短关系很大。一般总是希望经过初始加权后的每个神经元的输出值都接近于零。 所以 ,一般取初始值在(-1, 1)之间的随机数。6)学习速率与期望误差的选取:学习速率决定 每一次循环训练中所产生的权值变化量。小的学习速率虽然会导致收敛速度慢,不过能保 证网络的误差值不跳出误差表面的低谷而最终趋于最小值。所以,一般情况下,学习速率 的选取范围在0.01~0.8 之间。期望误差0.O00001 。 解决了上述几个方面的问题后。本 文采用 i 层结构神经网络。如图2 所示:输入层各节点将输入信号经权重藕合到隐层的 每个节点.隐层各节点对来自前一层的信号加权,经激发 函数转换后再藕合到输出层。x1 x2 xn 图 2 含有一个隐层的神经网络o1 o2 oi 4 .基于遗传神经网络的语音识别本文研究 引用遗传算法对网络的初始连接权值进行优化处理,BP 算法完成给定精度用 的学习。

4 .1 个体编码方案编码对于网络进化过程的性能和效率影响很大。因此. 编码技术是连接 权值进化过程中学解决的首要问题和关键步骤。本文中考虑到BP 网络的节点数和结构已 经固定,可以采用实数编码方案, 将网络的权值和各节点的阀值依此排列得到一个向量。假 设一个具有m 个节点的n 层 BP 网络,如果第 i 个节点对应的权值分别为v i (v i [-l ,+l]) , 则一个个体用实数向量表示为X=[v 1 ,v 2 ,, v m ]。 4 .2 适应度函数的选择 一个网络连接 权值优劣的标准,是根据网络对一组输入得到的实际输出与期望输出之间的误差大小来制 定的。BP 网络中误差平分和小,则表示该网络性能比较好。本文中适应度函数为: 其中, E 为神经网络的输出误差,即 [7] f(x ) = 1 1+E (4) E = ? ? (y k ? y k )2 ∑ n k =1 其中 n 为学习 样本总数,y k , y k 为第 k 个个体的期望输出和实际输出向量。∧ 1 N ∧ (5) 4.3 进化 参数 连接权的进化过程中所涉及到的主要进化参数有:种群规模、交叉率、变异率和进化 代 数等等。

视觉语音情感识别_语音情感识别 matlab_人工智能语音识别技术论文

交叉是最主要的进化操作,交叉率是指各代中交叉产生的后代数与种群规模之 比。 常用的交叉率取值范围为0 .6— 1.0 。变异率是指种群中变异的基因数占总基因数的 比例, 其值控制了新基因引入的比例。常用变异率的数量级范围为0.1 —0 .00l 。种群规模 是连接 权进化过程首先需要确定的参数。是算法会否陷入局部解的主要影响因素。综合考 虑 BP 网 络的初始连接权值和交叉率、变异率的选择,这里选择种群规模为50。 5.仿 真实验结果仿真实验为针对非特定人的孤立数字词语音识别。语音数据由二男二女(O 到 9 共 10 个 数字的普通话发音)通过 PC 话筒输入, 每个音每人发20 遍。共计 1000 次发音, 其中以每人每个音的前1O 次作训练样本, 后1O 次作测试样本, 录音环境为安静实验室, 采样频率为11.025kHz。 经过反复实验。小断改善实验环境.基于演化神经网络的识别 得到了相对较高的识别率。对实验结果分析可知,结合了 GA 算法的 BP 网络通过 GA 全 局搜索得到一个权值最优解,只迭代 151 次便使得误差值为O.00000l , 而普通 BP 算法 要迭代 517 次才能勉强达到期望误差,[8] 由此可知。

结合了GA 算法的 BP 网络避免了 局部极小,减低了学习速率,提高了收敛速度。表 1 基于遗传神经网络和BP 网络语音 识别系统对比表训练代数 普通 BP 神经网络遗传神经网络517 151 平均识别率 84.2% 87.8% 最高识别率96.0% 96.0% 通过表 l 对比可知, 基于演化神经网络识别算法的语音识 别系统无论是在训练时的收敛速度还是在最后的识别率上,都要优于普通的BP 网络语音 识别系统。6.结论 语音信号处理和神经网络均是目前研究的热点,文章主要针对语音识 别的特点,结合人工智能领域两种比较有效的方法——BP 网络和 GA 算法,构建了一种 基丁遗传神经网络的语音识别算法。仿真实验结果表明:该算法避免了传统BP 算法容易 陷入局部极小的缺点,减 低了训练时间, 有效的提高了系统识别率。参考文献【1】K.H.Davis, R.Biddulph,and S.Balashek.Automatic Recognition of Spoken Digits 【M 】 .Acoust .Soc.Am .952 , 24(6) :637— 642. , 1 【2】胡航.语音信号处理(第一版 ) 【M 】 .哈尔滨:哈尔滨工业大 学出版社, 2000 . 【3】赵力. 语音信号处理【M 】 .北京: 机械工业出版社,2003 . 【4 】 蔡莲红,黄德智, 蔡锐.现代语音技术基础于应用【M 】 .北京:清华大学出版社, 2003 . 【5 】 孙宁,孙劲光, 孙宁.基于神经网络的语音识别技术研究【J】 .计算机与数字工程,2005 , 34(3):58— 61 . 【6 】夏克文,李吕彪,沈钧毅.前向神经网络隐含层节点数的最优算法 【J】 .计算机科学,2005 ,32(10) : 143— 145. 【7】王万良 .人工智能及其应用(第二 版) 【M 】北京:高等教育出版社, 2008.【8】Lippman R P. Review of Neural Network for Speech Recognition 【J】 .Neural Computation , 1989,l(1) :l— 38 .