人工智能语音识别技术论文-语音识别技术的研究工作原理及就业前景分析
一:前沿语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。二:语音识别技术概述语音识别技术,也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用人工智能语音识别技术论文,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。
如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。三.语音识别的研究历史语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsy提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEEKaiVQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。
这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。进入90年代后,语音识别技术进一步成熟,并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoiceMicrosoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBMViavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。四.国内研究历史及现状我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863划后,国家863能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。
我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和9%(定长数字串)。在有5长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5词邮包校核非特定人连续语音识别系统的识别率达到9%;并且可以识别普通话与四川话两种语言,达到实用要求。2月在北京自然博物馆新开设的动物展馆中展出的具有语音识别口语对话功能“熊猫”,采用了我们研发非特定人连续语音识别系统,在展览馆这样高噪声的环境下,该识别系统的识别率也超过了%,达到实用要求。通过该系统观众与“熊猫”自然对话可以了解熊猫的生活习惯、生理结构等信息,其形式生动、活泼,吸引了大量的学生与参观者。五、语音识别的几种基本方法一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹)基于语音学和声学的方法该方法起于其模型及语音知识过于复不同的语音基元且可以通过其语音信号每段对应一个或几个语音基元的声学特性。
然后根据相应声学特性对每个分段给出相近的语音标号第二步,得到词序列根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。)模板匹配的方法模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。1、动态时间规整(DTW)语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW:DynamicTimeWarping)。算一致。在这一过程词的时间轴要不均特征与模型特征对正2、隐马尔可夫法(HMM)隐马尔可夫法(HMM)是70年代引。HMM方法现已成为语音识别的主流技术,目前大连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。
前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言 语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模 仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性, 是较为理想的一种语音模型。 3、矢量量化(VQ) 矢量量化 (VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量 量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音 信号波形的k 个样点的每一帧,或有k 个参数的每一参数帧,构成k 维空间中的一个矢量,然后对矢量进行量化。量化时,将k 维无限空 间划分为M 个区域边界,然后将输入矢量与这些边界进行比较,并 小的区域边界的中心矢量值 。矢量量化器 测度定义 量,实现最大可能 的平均 的平均量化失 就应小于其他 信息 的平均量化失 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记 忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。 )神经网络的方法利用人工神经网络的方法是80 年代末期提出的一种新的语音识 别方法。
人工神经网络(A )本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、 容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识 别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍 处于实验探索阶段。 由于 不能很好的描述语音信号的时间动态特性,所以常把A 与传统识别方法结合,分别利用各自优点来进行语音识别。 六、语音识别系统的结构 一个完整的基于统计的语音识别系统可大致分为三部分: 语音信号预处理与特征提取 学模型与模式 (3)语言模型 与语言 处理、 )语音信号预处理与特征提取 是语音识别研究的第一步 。语音识别单 )、音节和音素 三种,具体 一种,由具体的研究任 单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复 杂,难以满足实时性要求。 音节单元多见于汉语语音识别,主 要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有 大约1300 个音节,但若不考虑声调,约有408 个无调音节,数量相 对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为 识别单元基本是可行的。
音素单元以前多见于英语语音识别的 研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。 原因在于汉语音节仅由声母(包括零声母有22 个)和韵母(共有28 个)构成人工智能语音识别技术论文,且声韵母声学特性相差很大。实际应用中常把声母依后续 韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易 混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以 如何获得稳定的音素单元,还有待研究。 语音识别一个根本的 问题是合理的选 用特征 。特征 数提取的目的是对语音信 包含了大量各 的因素,如成本,性能,响应时间 特定人语音识别系统一般 语义的特征 而特定人语音识别系统则 语义的特征 数的同时,尽量也包含 说话 Robustness)。 进行匹配与比较, 得到最佳的 矢量序列和每个发 板之间的距离。 训练数据量大小 较大的影响。 必须根据不同语 词汇量的大小 决定 单元的大小 为辅音、单元音 、复元音 、复鼻尾音 四种 节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调 的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的 一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再 由词构成句子。
汉语声母共有22 个,其中包括零声母,韵母共 有38 个。按音素分类,汉语辅音共有22 个,单元音13 个,复元音 13 个,复鼻尾音16 目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共 有412 个音节,包括轻音字,共有1282 个有调音节字,所以当在小 词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时 常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影 响,常采用声韵母建模。 基于统计的语音识别模型常用的就是 HMM 模型λ(N,M,π,A,B),涉及到HMM 模型的相关理论包括模型的 结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。 )语言模型与语言处理语言模型包括由识别语音命令构成的语法网络或由统计方法构 成的语言模型,语言处理可以进行语法、语义分析。 语言模型 对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根 据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字 则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语 法规则、语言的数学描述 模型等有关方面 。目前比 成功的语言模型 通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。
语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜 索空间,这有利于提高系统的识别。 七.突出成果 近几年来,特别是2009 年以来,借助机器学习领域深度学习研 究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发 1、技术新发展1)将机器学习领域深度学习研究引入到语音识别声学模型训练, 使用带RBM预训练的多层神经网络,极大提高了声学模型的准确率。 在此方面,微软公司的研究人员率先取得了突破性进展,他们使用深 层神经网络模型(DNN)后,语音识别错误率降低了30%,是近20 年来语音识别技术方面最快的进步。 2)目前大多主流的语音识别解码器已经采用基于有限状态机 FST)的解码网络,该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度,为 语音识别的实时应用提供了基础。 3)随着互联网的快速发展,以及手机等移动终端的普及应用, 目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别 中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大 规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配 和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和 紫冬口译、百度 其他相关的产品也直 接或间接嵌入 了类似的 理解。
首先必须将 连续的 讲话 单位,其次要 建立一 个理解语 这在英语 汉语中常见。 单个字母或词、字的语音特性受上下文的影响,以致改变了重 音、音调、音量和发音速度等。 环境噪声和干扰对语音识别有严重影响,致使识别率低。 十.存在问题的解决方法。 语音识别系统的性能受许多因素的影响,包括不同的说话人、说 话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统 克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳 定;采用自适应的方法,根据不同的影响来源,自动地、有针对性地 对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不 同因素分别介绍解决办法。 解决办法按针对语音特征的方法(以下称特征方法)和模型调整 的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒 性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理 方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关 (SI)模型,从而使其成为说话人自适应(SA)模型。 说话人自适应的特征方法有说话人规一化和说话人子空 加入的电子噪声。 提高系统鲁棒性的特征方法包括语音增 的特征,模型方法有并行模型组 PMC方法和在训 中人为加入噪声。
信道畸 变包括录 度的话筒、不同 词汇量非特 定人 精度就更高。这些技 由于大规模 集成 发展,这些复杂的 制成专用 芯片, 合成功能 并且取得很 性能表示满意。 预测在近五到十年内, 统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短 期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个 系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音 识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样 完善的语音识别系统则是很难预测的。就像在6 年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。