绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇语音识别技术范文,希望它们能为您的写作提供参考和启发。
该文主要致力于解决通话中的语音识别技术,长期可推广至QQ语音聊天等即时聊天软件中,相较于目前大多数语音识别软件需要手动打开更为主动,让用户感觉不到软件的存在,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,大大提高了效率,并对听力有障碍的人士有更为重要的意义。
一、语音识别基本原理
语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板,然后根据此模板的定义,通过查表就可以给出计算机的识别结果。 [1]
二、通话中语音识别技术
2.1技术原理:
1、基本架构:Smartalk通话系统基于“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务,并加以对手机GPS位置、通讯录、社交软件信息的分析,在“云”的辅助下对之进行处理和交换。Smartalk架构分为4个部分:客户端、语音视频服务、语音识别服务、云数据处理分析。利用“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务可将用户在通话中涉及的地点、人名、电话号码等关键词提取出来并加以分析对行程和下一步操作提供帮助。
2、基本平台:本系统基于APIcloud开发,兼容云端和第三方SDK,可跨平台(Android、IOS、Windows等)使用,采用标准的c++语言实现。
2.2功能实现:
1、基于“云之讯”开放平台的通话系统:云之讯融合通讯开放平台为企业及个人开发者提供各种通讯服务,包括在线语音服务、短信服务、视频服务、会议服务等,开发者通过嵌入云通讯API在应用中轻松实现各种通讯功能。
2、基于“科大讯飞”开放平台的语音识别系统:。讯飞开放平台使用户可通过互联网、移动互联网,使用任何设备方便的介入讯飞开放平台提供的“听、说、读、写”等全方位的人工智能服务。目前开放平台向开发者提供语音合成、语音识别、语音唤醒、语义理解、移动应用分析等多项服务。
3、语音识别与云端大数据结合分析:。利用基于“云之讯”通话系统和“科大讯飞”语音识别系统实现了实时的语音识别,加以云端大数据的结合,和实时的分析用户当前的需求和问题,及时的跟用户产生交流反馈,并根据用户长期的使用时间分析智能提前推送相关信息。
2.3未来展望:
基于大数据和互联网+技术的日益发展与完善,并随着通信传输速度的逐渐提高,可在实时的条件下分析与推送更多丰富的内容,加以与即时聊天软件的结合,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,并对听力有障碍的人士有更为重要的意义,未来的市场前景广阔。
三、语音识别技术应用
3.1 语音指令控制在汽车上的应用:
语音控制人员只需要用嘴说出命令控制字,就可以实现对系统的控制。在汽车上,可用于汽车导航、控制车载设备。如车灯、音响、天窗、座椅、雨刮器等。
3.2语音识别技术在医疗系统中的应用:
医疗语音识别技术,已有厂商开发了基于云平台的语音识别系统,可直接内嵌到医院电子病历系统中,让医生通过语音输入病人信息,填写医疗记录,下达医嘱信息。
四、相关市场调研
1、国内外市场分析:2015年全球智能语音产业规模达到61.2亿美元,较2014年增长34.2%。其中,中国智能语音产业规模达到40.3亿元,较2014年增长增长41.0%,远高于全球语音产业增长速度预计到2016年,中国语音产业规模预计达到59亿元。[2]
2、相关应用发展:拉斯维加斯消费电子展(CES)上展示的MindMeld。在通话中,如果参与者点击应用的一个按钮,那么MindMeld将利用Nuance的语音识别技术,分析此前15至30秒对话。随后,MindMeld将确定对话中的关键词,以及其他多个信息来源,查找具有相关性的信息,并在屏幕上向用户提供图片和链接地址。[3]
参 考 文 献
中图分类号:TP391.42 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02
近年来,随着科学技术的进步,语音识别技术的发展,通过语言操纵机器的梦想正在逐步变为现实。语音识别是语音信号处理的一个重要的研究方向,经过50多年的积累研究,尤其是近20年来,语音识别技术取得了显著进步,并且广泛应用于商业,比如苹果的siri系统。本文从语音识别的发展历史、发展方向来着重分析未来语音识别技术的发展趋势。
1 语音识别技术的发展历史
1.1 语音识别技术在国际的发展
早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT& T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query (电话语音识别)引擎等。
1.2 语音识别技术在国内的发展
我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。
现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。
2 语音识别技术的技术实现及困难
语音识别技术的实现方式是声音通过转换装置进入机器,而机器配有“语音辨识”程序,程序将得到的声音样本与数据库存储的样本进行比对,输出最匹配的结果,转化为机器语言,进而执行命令。真正建立辨识率高的语音辨识程序组,是非常困难而专业的,专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并具有较高辨识度。
2.1 语音识别的技术实现方式
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。
(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:
单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;
音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。
音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力
(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。
(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。
2.2 语音识别遇到的困难
目前,语音识别研究工作进展缓慢,困难具体表现在:
(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。
3 语音识别技术的发展趋势
3.1 进一步提高可靠性
目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;
3.2 增加词汇量
目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;
3.3 微型化并降低成本
语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。
4 结束语
21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着Internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源和现代化服务,所以,如何将这一技术可靠的、低成本的应用于商业和日常生活,是语音识别技术的发展方向和趋势。
参考文献:
[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用,2010:14-17.
[2]盛青.语音自动识别技术及其软件实时实现[J].西北工业大学,2001:45-47.
[3]廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010:34-36.
谈到语音识别,就不得不提到李开复------前微软研究院院长,他在哥伦比亚大学时主攻的就是语音识别,即通过机器来识别语音。语音识别是现代社会背景下的一门新兴学科,它最主要的功能就是可以让计算机听懂人说的话,进而为人们提供更高效且方便的服务。它是人类和计算机之间利用语言进行交流 的桥梁,也是一门与多种学科紧密联系的实用技术。现阶段,人们对连续语音识别的研究已经取得了一定的成就。目前,我们研究语音识别的重点正在向特定应用领域口语的识别和理解方面转变。在这个研究中,有几种关键技术,下面我们就对其中几种关键技术进行简单的分析。
1、词语定位技术
词语定位技术,在语音识别技术中非常重要的技术。主要通过对关键词进行定位,这种技术跟语言的语法特点有很大关系,是将语句中的关键词语提取出来的一种定位技术。比如主语,谓语,宾语就是关键语素,先将这些语素定位对于完善整句话有着非常重要的意义,因为这些语素已经勾勒出了语句的骨架。打个比方,盖个房子要加钢筋,来增加建筑物的强度和支撑作用,关键语素就是语句意群的钢筋。通常词语定位是通过设置并及时更新关键词库来实现的。
2、关联搜索技术
在确定完基本语素后,就要根据语素之间的关联性,进行搜索,那些语素是一个意群,同在一个意群中的语素如何排列。利用相关性确定意群非常重要,因为词语词之间不是任意搭配的,而是有规律的,这种规律就是语法,包括书面语语法和口语的语法。语法是语音识别的规则,因此是非常重要的。关联的方式在语法的约束下主要有以下几种:1.相关词语出现的概率;2.相关词语的词性;3.相关词语出现的语境的重复率等等。
连接词识别就是说,系统中存储的HMM针对的是孤立词,但识别的语音是由这些词组成的词串。由于这一技术是一个连接序列,即根据给定发音序列来找到与其最匹配的参考模块词,所以,下面的问题必须得到解决:(1)在序列中,有些时候即使知道词长度的大概范围,也不知道词的具体数量;(2)除整个序列的首末端点之外,序列之中每个词的边界位置并不知道。
3、抗阻碍性
在语音识别系统中,阻碍无处不在,具体说来,阻碍包括以下几个方面:1.方言带来的语音识别的阻碍;2.口音带来的语音识别的阻碍;3.外界干扰(噪声)带来的语音识别的阻碍;4.系统设备局限性带来的语音识别的阻碍等等。
一般情况下,在实验室(环境相对安静)中训练合格的语音识别系统用在实际环境(环境与训练的实验室环境不相匹配)的时候性能就会明显下降。所以,运用顽健语音识别技术就是为了研究一些补偿技术借以提高系统在不同环境中的性能。
根据语音系统中噪声的特点,我们研究出了一些抑制噪声的方法,如根据信号与噪声在各个尺度上的小波谱表现不一样的特点,可以运用小波变换的噪声抑制;根据含噪语音信号能量谱就是噪声信号和语音信号能量谱之和这一特点,可以运用EVRC编码噪声抑制方法,等等。
4、搜索策略技术
在利用计算机来识别语音的时候,未知的模式,即从输入语音中求出的特征参数,与事前所定的标准模式是否一致,这个问题必须检查。目前语音识别的实现主要是通过声音识别芯片分析声音的波形来实现的,人的说话声音有音调、音色的不同,因而所形成的生意的波形也不同,芯片通过比对声音图谱来确定语音内容,达到声音识别的目的,这也就是声音识别的原理。然而,在实际情况中,由于语音具有许多的不确定的因素,想达到完全一致比较困难。搜索策略是连续语音识别研究中的一个是否重要的课题。它的基本思路是,把帧作为搜索单位,在每一时刻对每一条路径都假定当前帧有可能是这一路径的后续,借此进行一个完整的搜索。
总体来说,搜索策略技术受到容量的限制。所以,我们必须确定应该保留哪些路径,这就要求我们确定一定阀值,这个阀值既不能过严也不能过宽。对于这个问题,我们一定要采用合适的算法,如传统的帧同步算法、基于统计知识的帧同步搜索算法原理和受词法约束的词搜索树等算法都是比较适合这一部分的。
结论:
本文总结了连续语音识别中几种关键技术,并对它们进行了简单的介绍和分析。目前连续语音识别技术的研究并不成熟,它要向正确的方向健康发展就必须把词语定位技术、关联搜索技术、抗阻碍性技术、搜索策略技术等技术都正确运用于实际工作中。
参考文献:
中图分类号:TP316.9
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2015.07.021
0 引言
随着计算机的发展,智能家居在近几年也得到了大家的重视,智能家居利用各种通信、网络技术实现家居设备集成,为用户提供了更加舒适高效的环境。近几年人们对智能家居的便利程度提出了更高的要求,同时语音识别技术也进一步的发展,但是语音在智能家居中的应用还是相对较少,一般还要依靠遥控、手机等中控设备。语言是信息交流的重要手段,语音识别可以用声音来控制设备完成一些特定的命令,减少用户如手机,遥控等中控设备的依赖,使生活更加方便。
本文通过对语音识别技术与嵌入式控制技术的研究,用语音命令实现直接管控从而可以取代以往利用手机或者遥控方式来控制的方法,方便操作而又能提高效率。本系统基于NL6621板与语音芯片VS1003实现语音采集,并采用当今语音识别领域的主流技术一一隐马尔科夫模型(Hidden Markov Model,HMM)算法实现对人语音命令的识别主要是进行模型训练和匹配。实验证明在多个语音样本对系统的训练识别下,系统在非特定人、孤立词语识别上具有良好的效果。
1 语音识别与智能家居
1.1 语音识别技术
语音识别技术本质上是一种模式匹配识别的过程,是机器通过识别和理解过程把语音信号转变成相应的文本文件或命令的技术。根据模式匹配过程语音识别系统可以如下图表示。语音识别系统可以分为:特定人和非特定人的识别、独立词和连续词的识别等,无论哪种识别系统识别过程都主要包括了语音信号预处理、特征提取、训练等。分别通过对信号的预处理分析和计算建立模板,当对语音进行识别时,需要将输入的语音与系统中存放的语音进行比较从而得到识别结果。
1.2 语音识别算法
人的言语过程是一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的不可观察的、根据言语需要和语法知识状态选择所发出的音素(词、句)的参数流,大量实验表明,隐马尔可夫模型(HMM)的确可以非常精确地描述语音信号的产生过程。隐马尔可夫模型是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程,采用HMM进行语音识别,实质上是一种概率运算,根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。一阶离散马尔可夫模型可表示为:有N个状态,Sl,S2... SN,存在一个离散的时间序列t=0,t=1…在每个时刻t,系统只能处于唯一一个状态qt,下一个时刻所处的状态是随机出现的,当前状态qt只与前面相邻的一个状态qt-l有关, 与其他状态无关,用表达式
HMM语音识别的一般过程:
1.前向后向算法计算
已知观测序列 和模型 ,如何有效的计算在给定模型条件下产生观测序列O的概率
2.Baum-Welch算法求出最优解 :
(1)初始化
(2)迭代计算
(3)最后计算
3.Viterbi算法解出最佳状态转移序列:
已知观测序列 和模型 ,如何选择在某种意义上最佳的状态序列。
(1)初始化
(2)迭代计算:
4.根据最佳状态序列对应的九给出候选音节或声韵母
5.通过语言模型形成词和句子
2 基于NL6621嵌入式硬件设计
语音识别的硬件平台主要包括中央处理器NL6621,可读写存储器,声卡芯片vs1003以及一些设备,硬件体系结构如图2所示。
主系统使用新岸线公司的NL6621。MCU采用的最高主频为160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,软AP,WiFi保护设置以及WMM-PS和WPA/WPA2安全协议。codec芯片是vs1003,它与核心控制器NL6621的数据通信是通过SPI总线方式进行的。它集成了麦克风输入接口,音频输出接口,对话筒输入或者线路输入进行IMA ADPCM编码,能有效的接受和播放音频信息。
硬件电路实现:VS1003通过xCS、xDCS引脚的置高或低来确认是哪一个接口处于传送状态。通过串行命令接口(SCI)和串行数据接口(SDI)来接收NL6621的控制命令和数据,通过SCI HDAT1来获取语音流;VS1003的功能控制,如初始化、软复位、暂停、音量控制、播放时间的读取等,均是通过SCI口写入特定寄存器实现的。两条SCI指令之间要通过DREQ引脚信号判断上一次处理是否完成。
3 基于NL6621嵌入式软件设计
软件设计主要包括两部分实现软件控制嵌入式系统和基于HMM技术的语音识别算法编写,基本的软件架构如图3所示。
针对嵌入式系统控制部分,包括硬件初始化以及采集音频信号。主要是使用NL6621提供的软件开发包,利用SDK编写应用程序,包括硬件管脚初始化,波特率匹配,录音文件配置,WiFi配置,录音,音频文件格式转化、程序编写完成后需要用烧写工具进行烧写。系统启动后,先初始化硬件模块。然后系统开始工作,通过语音输入设备MIC采集语音,并通过声卡VS1003输入语音。当系统监听到语音输入,开始语音识别,判断识别是否正确,若正确,将命令发送给执行设备,入耳不正确,给出相应
中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2012)02-0082-01
由于生活节奏的加快,汽车已经成为了人们生活中重要的工具,人们在车内的时间也更多。同时也希望能够在车内接收到外界的信息继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究。
1、端点检测
在进行语音识别时,首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前,语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计算量较大、识别响应时间较长端点检测的方法显然不使用,所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。
首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准,两者的结合能够更加精确的判断语音端点,并且两种算法都较为简单,能够满足车在多媒体的需求。
2、特征参数提取
在完成语音的端点检测之后,需要提取语音的特征参数,然后进行语音识别。目前用于语音特征参数提取的算法主要有LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱),由于MFCC具有更强的抗干扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车载环境。
分析MFCC的语音特征参数提取可以分成预加重、加窗、FFT(快速傅里叶变换)、滤波、自然对数提取、自然对数DCT计算这六个步骤。由于MFCC其计算精度以及计算量都较大,因此,使用MFCC作为车载系统的语音特征参数提取时,需要进行相应的改进:
(1)在MFCC实现的六个步骤中,例如加窗等步骤就可以实现进行计算,然后存储在数组中,在使用时进行查表提取,从而避免每一次语音识别时重复计算,从而加快了计算速度。
(2)FFT需要花费大量的时间(据统计,FFT需要花费MFCC56.32%的时间[2]),由于FFT算法是对复数进行处理,而语音信号的处理只涉及到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用文献3所提出的FFT运算方法,将长度为N的FFT预算降低到长度为N/2的FFT运算,从而提高了语音特征参数提取效率。
3、识别模式
语音识别的原理是模式匹配,通过计算现有语音模式与语音模板库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有DTW(动态时间规整)、HMM(隐马尔科夫模型)和ANN(人工神经元网络)。由于ANN计算量较大,因此不适合用于车载多媒体系统中,HMM需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因此, DTW模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。
为了更好的在车在多媒体系统中的嵌入式平台上实现DTW,对DTW进行进一步的改进:
(1)由于在语音识别汇总,对音头和音尾的判断存在一定的误差,因此,使用传统DTW方法在进行固定端点匹配时会存在一定的误差,从而降低了语音匹配成功率。为此,可以采用放宽端点限制的方法来使用DTW进行语音识别。其主要的思路是取消传统DTW中对音头和音尾严格对其的限制。从而,只要两次语音在开始的W帧内能够匹配成功,同时在结束的W帧内匹配成功,即认为两次语音匹配成功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特点,不会降低车载系统语音识别效率。
(2)在使用DTW进行语音模板匹配时,需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板T有N帧,待识别的语音R有M帧,那么通常需要申请M×N长度的空间,再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中,只需要M长度的空间来存放模板T第n-1帧与模板R中M帧之间的距离,在计算完第n帧与模板R中M帧之间的距离对M长度空间的数据进行替换,从而进行模板T第n+1帧与模板R中M帧之间的距离,从而节省了(N-1)×M的存储空间,这对车载系统有限存储空间的系统中有着非常重要的意义。
4、结语
相比于传统的按钮式、触摸屏式人机交互系统,语音识别对于车载多媒体系统有着非常重要的意义,将是车载多媒体系统重要的发展方向,本文针对车载多媒体系统对低CPU运算时间和地存储空间的特点,对语音识别中的端点检测、语音特征参数提取以及识别模式的实现和优化进行了研究。
参考文献
[1]方敏,浦剑涛,李成荣.嵌入式语音识别系统的研究和实现[J].中国信息学报,2004,(6):73~78.
[2]万春,黄杰圣,曹煦晖.基于DTW的孤立词语音识别研究和算法改进[J].计算机与现代化,2005,(13):4~6.
市场调研机构Opus Research的高级分析师兼创始人丹?米勒(Dan Miller)表示,提供语音技术的公司已投入巨资,研发“个人数字助理”概念,比如苹果的Siri以及出现在许多谷歌手机上的谷歌语音操作(Google Voice Actions),它们懂自然语言命令。他表示,实际上最近在语音识别技术方面的突破大多出现在移动设备端的基于云计算的自然语言搜索领域。
主要进展就是,语音工具现在离用户更近了――出现在我们日常使用的手机和平板电脑上,许多工具在云端使用,这提供了立即处理功能和不断扩展的语言数据库。不像老式的桌面端软件,这些新工具不需要语音训练,这归功于算法方面取得的进步。
当然,今天的语音识别技术并非尽善尽美。即使在移动设备上,语音识别软件也并不适用于每个人。而有些自然语言句子仍然让智能化程度最高的语音控制系统都犯难,比如“告诉我的老板我开会要迟到”。Nuance、微软和苹果等公司已建立了庞大的语言数据库,供自己的语音识别产品使用。但即使在今天,这类软件有时还很难懂得牛肉制品“汉堡包”(hamburger)与德国城市“汉堡”(Hamburg)之间的区别。
米勒说,我们需要在云端运行更高程度的人工智能。他说:“我们离目标越来越近。各个层面都面临挑战,但正在取得进展――不过可能永远不会尽善尽美。”
可是,虽然越来越好的结果正在促使移动设备采用语音识别技术,但这项技术在工作场所还没有产生太大的影响:步入美国的随便一个企业园区,很难看到有员工在下达语音命令。我们将探讨什么因素在阻碍语音识别技术,并介绍这项技术在办公桌前和办公室都有望造福员工的几个方面。
工作站前的语音
对于视力欠佳的用户或患有重复性劳损(如腕管综合症)的那些人来说,通过语音控制电脑大有意义,可用于浏览及操控界面和应用程序、进行搜索以及口述内容很长的电子邮件和工作文档。其他用户也能从中受益,尤其是打字很慢的人、移动用户以及想记录会议纪要的与会人士。
米勒表示,该技术现在就出现在世人面前。基本的语音控制功能多年前就内置到Mac OS X和Windows中。今年夏天,苹果将为其OS X美洲狮版本添加语音到文本口述功能。去年,谷歌往台式机和笔记本电脑上的Chrome浏览器引入了最初出现在移动设备上的语音发起的搜索这一功能。
至于更高级的口述和个人电脑控制功能,专用的语音识别软件(如Nuance公司的Dragon NaturallySpeaking)这些年来逐步改进。在美国某杂志的测评人员拉蒙特?伍德(Lamont Wood)进行的测试中,最新版的NaturallySpeaking Premium从语音到文本的转换准确率超过99%。
伍德表示,对他来说,通过语音写东西的速度大约2倍于通过打字写东西。其他用户获得的效果有所不同,这取决于他们的打字速度以及使用语音软件的熟练程度。他还指出,使用最新的降噪耳机意味着这种软件不会受到背景声音的困扰,在过去这常常是个问题。
那么,为什么没有更多的人通过语音与电脑进行交互呢?米勒说,人们往往很怕难为情。在办公室环境,不是每个人都习惯于脱口说出自己的想法和言语,要是只有少数人在这么做,更是如此。
不过,他认为移动设备语音搜索有助于让语音技术总体上更受欢迎。他表示,最近的一项调查显示,11%的调查对象称自己习惯于将Siri用于语音搜索。目前这个比例并不高,但是随着越来越多的人采用,而且越来越习惯,在办公室使用语音应用软件对许多人来说似乎更加切实可行。这将遵循总体趋势:人们先在家里或私下使用技术,然后希望在工作场所也能使用。
此外,研发人员在探究语音的新用途,尤其是在游戏和娱乐领域(比如在Xbox上开始播放电影)。语音命令在各个场合似乎都很自然,这只是个时间问题。米勒说:“人们很快会发现,同样可以通过语音控制CAD软件、个人电脑及其他个人设备和办公工具。”
值得关注的是,语音硬件在办公室已经很普遍。任何一台新购的办公笔记本电脑都已经内置了视频会议功能,带网络摄像头和高品质麦克风。当你步入许多公司的会议室,会看到带高级麦克风的免提电话。新机型甚至会对准讲话的那个人,降低背景噪声。
J. Markowitz咨询公司的著名语音技术专家朱迪思?马科维茨(Judith Markowitz)也认为,硬件不是阻碍语音技术在办公室流行起来的因素。他表示,问题在于让自然语言命令得到更广泛的应用。而自然语言命令只是另一种交互方式,就像我们敲打的键盘或点击的图标那样。
她说:“语音无法查明是否存在过热问题,也无法提醒你有约会。那是后端系统或应用软件的任务。Siri的语音识别部分也没有这种功能。自然语言理解能力、人工智能和应用程序的功能共同造就了Siri这款出色的个人助理。语音技术把语音输入转换成Siri的后端及其他iPhone应用软件能使用的一种形式。”
马科维茨表示,如果开发人员决定为企业应用软件添加语音命令和声音提醒,语音在办公室就派得上用场。米勒赞同这个观点,不过他指出,这有点像先有鸡还是先有蛋的情况。开发人员将语音功能添加到应用软件之前,希望知道企业环境的用户习惯使用的语音(而且不会妨碍同事),但是只有这些功能广泛出现,用户才有可能习惯使用它们。
米勒表示,想让语言更被办公室环境的用户所熟悉,一个简单的方法就是为企业应用软件添加语音提醒。比如说,应用软件可能告诉你数据中心存在一个问题,而不是显示文本提醒信息。用户可以根据需要,将提醒由语音方式改为文本方式。
当然,两位专家都一致认为,语言并不是在每种计算环境下都是最合适的输入方法。它给艺术家、摄影师、视频编辑和程序员带来的帮助不像给普通的办公室员工、管理人员和IT人员带来的帮助一样大。Photoshop中精细的像素级编辑可能根本无法得益于语音输入,不过人工智能可能会发展到这个程度:我们说“修复照片的左下角1/4部分”,Photoshop就会进行相应的操作。
办公室周围的语音
Nuance公司总经理彼得?马奥尼(Peter Mahoney)认为,遍地开花的云计算将有助于推动语音技术,从电脑扩大到工作场所的其他地方。比如设想一下:能够使用内嵌式麦克风在会议室口述电子邮件,或者坐在大厅等待时查阅日程表,哪怕你把移动设备落在办公桌上。
他表示,这一幕要成为现实,语音系统就要连接到其他办公室系统。比如说,语音系统可能连接到公司的联系人和日历系统,知道你的会议日程表(及其他与会者的日程表)。它还可能连接到建筑物的安全和网络管理系统,那样它能告诉你是否在办公室、登录到办公电脑上。
互连系统可以在白天收集关于你的数据,而且正如人的大脑保留短期记忆那样,它会确定你的具体背景。这可能意味着,语音系统知道你晨会要迟到,因为你没有登录到电脑上;它可以查阅你的会议日程表,找到相应的一个或多个联系人,告知你会迟到。
马奥尼表示,如今这些信息往往是孤立的。但他预测,在今后一两年,语音技术会逐渐变得有更强的互连性。“它可能会先联系日历程序,知道你要会见约翰,然后日历程序会通过语音联络联系人数据库。”
米勒表示,许多公司已经在现有的系统中拥有关于联系人和角色的信息,比如活动目录列表和人力资源数据;许多公司还有内部建筑图。那么,到底是什么因素在阻碍这一切呢?
马奥尼表示,自然语言命令正在改进,但系统不是足够清楚地明白信息的上下文。他说:“需要构建数据模型,找到人们可能会问的前100个问题,然后找到合适的信息源,以明白那些问题,比如地图应用软件。”毕竟,这与Siri等虚拟助理在移动设备上进行的操作没什么太大的不同:查询不同的信息源(基于云和本地),找到相关信息,发送提醒信息,等等。
马奥尼设想,随着互连系统在将来扩大语音技术的应用范围,它们还有望改进语音软件的准确性和理解能力。借助无处不在的云连接,语音系统可以根据你所在的位置、所做的事情、身边的人以及接下来要做的事,明白你想表达的意思。“即使你没有明说,系统也知道你想表达的意思。”
链接:语音应用软件如何知道你说的是什么?
Opus Research公司的丹?米勒表示,今天的语音识别系统使用统计语言建模,这本质上是一种最佳猜测,结合你整个句子的上下文,猜测想要说的意思。比如说,今天的系统借助前后单词,知道你想说的是“you’re”(你是),而不是“your”(你的)。
要是说话者口音重,或者采用罕见的方言,这些系统还是经常无能为力。为了明白这些人说的话,语言系统必须建立一个发音库、去除任何背景噪音,并不断拿所说的单词与已正确识别的那些单词进行比对。
中图分类号:TN912.34 文献标识码:A
1语音识别技术
1.1语音识别技术简介
语音识别技术主要分为两类,一是语音意义的识别,一种是目标声识别。第一个被称为语音识别,它是根据声音的成词特点对声音进一步分析,主要应用在人工智能,人机对话和快速输入等领域。通过访问声音的特征,从目标语音中进行提取,该项技术可以区分多目标语音的种类,确定目标,主要用于战场目标识别领域,海上侦察系统,预警系统,军事声纳识别,车辆声音识别,火车预警系统,动物个体的语音识别和家庭安全系统等。
科技研究人员通过对语音信号处理技术进行深入的研究,结果发现:人的听觉系统的声音配合具有独特的优势,它能准确地提取目标的声音特征,准确地辨别声音的方向和内容分类,所以基于仿生听觉系统的目标声识别技术备受现代前沿科技的关注。针对目标声音识别系统的研究工作成为了现代语音识别技术研究的一个热门方向,不少科技研究人员正在积极探索先进可行的仿生学理论,特征提取技术和语音识别技术。
1.2语音识别技术的研究现状
语音识别技术主要是通过对监测数据的声音特性分析,得到声音特性的样本文件。语音识别技术是一种非接触技术,用户可以很自然地接受。但语音识别技术和其他行为识别技术具有共同的缺点,即输入样本的变化太大,所以很难完成一些精确的匹配,声音也会伴随着速度,音质的变化而影响到信号的采集和结果的比较。
在语音识别中,语音识别是最早也是比较成熟的领域。随着越来越多的应用需求,识别声音并不局限于语音识别,人们开始深入研究目标识别技术的非语音识别,该项技术已经参照了成熟的语音识别技术的一部分,但由于各自的应用环境和实际的音频特征之间的差异,该技术还存在一些差异。
1.3语音识别技术的实际应用
在民用方面,目标声音识别系统可以应用于门禁系统,网络安全,认证,智能机器人,动物语音识别,电子商务和智能交通等领域。在智能交通领域,利用来自车辆识别模型的运动音频信号,可以实现交通信息的智能化管理。在智能机器人领域,机器人目标声音识别系统可以作为机器人的耳朵,通过环境声音识别并确定声音的方位,然后再反应外界的声音,因此可以将其当作家庭自动化服务系统和安全系统。在动物的语音识别领域,可以根据害虫声特征来区分害虫种类,根据不同的害虫采取不同的措施。在网络应用领域,在关于各种在线服务支持的语音识别技术新项目开发中,可以提高网络的服务质量,给人们的生活带来方便。现在,美国,德国和日本都开了电话银行,语音代替原来的密码和使用印章,简化了工作服务流程,提高工作效率。
在军事上,目标声音识别技术来自于第二次世界大战,在探测敌人的炮火和潜艇时,起着重要的识别和定位作用。但由于计算机技术,信号处理技术,光电检测和雷达检测技术快速的发展,使声探测技术发展得十分缓慢。直到现代的战争,研发了使用于战争中的三维信息,全方位定向,反欺诈、欺骗、干扰和反侦察、监视,在隐身与反隐身的现代战争中为国家的国防事业做出了不可磨灭的杰出贡献。通过电,磁,光学和雷达探测技术和主动检测技术来完成侦察任务已经不能满足现代战争的需求。在武装直升机技术成熟的当代,隐形轰炸机和其他高科技武器都有了反射功率,抗电磁干扰,反辐射的功能,特别是快速发展的数字技术和计算机技术,迫使各国为了实现对目标的定位跟踪和噪声识别而重新开始研究被动声探测技术,关注声检测技术。在未来战争中,武器装备发展的一个重要趋势是智能化、小型化,一个重要的特点是具备目标识别的能力,并根据不同的对象使用不同的攻击方法。
2听觉系统
为了设计一个更精确的目标声音识别系统,越来越多的学者开始深入研究仿生学领域。通过研究发现,人类的听觉系统在声音的物理方面具有独特的优势,声音特征可以准确提取目标识别中声音的方向,种类和含量,而且还可以提高抗噪声能力,所以基于人基于语音识别技术的听觉系统已经成为目前的研究热点。
人类听觉仿生学是模仿人耳的听觉系统和生理功能,并通过建立数学模型,根据数学分析原理得到的听觉系统。它涉及声学,生理学,信号处理,模式识别和人工智能等学科,是一个跨学科研究领域的综合应用。该技术已在军事,交通,银行,医疗治疗的许多方面取得了重要应用,是人类实现智能生命的重要研究课题之一。
人类听觉系统的处理能力大大超过目前的声音信号处理水平。从人类听觉系统的心理和生理特点视角,许多研究人员对接听过程中的语音识别进行深入的研究。目前,许多学者提出了不同的听觉模型,这些模型大多是一些基于语音识别和语音质量评价系统的听觉模型,模拟人耳听觉功能的生理结构,这些应用处理方法大大提高了系统的性能。
1 项目建设目标
1.1 项目背景
目前,固网用户拨打电话,必须先查出被叫的号码,并按键进行拨叫。而随着通信业的发展,要记的电话号码越来越多,而目前大部分的固定电话都没有号码存储的功能,所以很多时候使用固话打电话时,要么从手机上查找被叫的电话,或者是从纸制电话簿去查找,既不方便,又浪费时间。
“语音电话本”完全可以帮助用户解决以上问题,用户只需拨打一个号码接入系统平台,说出联系人的姓名,系统就可以自动将话路转到该人的电话上。整个过程通过自然的语音方式交互,即感到亲切自然方便快捷,又节省时间,提高工作效率。
从服务管理的角度来看,随着信息通信客服业务受理的不断发展,座席客服话务量越来越多,用户对服务的质量要求也越来越高,传统客服系统在传统语音信息处理上的局限性制约了系统服务和管理能力的提升。
服务方面,由于业务的多样性和复杂性带来的海量数据信息不能得到快速、有效的关联处理而产生的问题,影响了客户服务体验。
运营管理方面,雇佣人工座席每天接听大量的信息查询电话,座席业务人员的更替带来的培训,消耗了部分运维成本,影响了服务质量。
1.2 建设目标
本项目通过研究智能语音技术在国网辽宁公司信息通信客服系统中的应用,将语音识别及客服查号业务相结合,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。目前,语音电话本技术实现主要包含:ASR 、TTS 、IVR 三项技术,其中TTS和IVR技术对于语音电话本业务来说已经非常成熟。
ASR语音识别技术近年来发展十分迅速,其应用也逐步得到推广,佳都新太也一直开发、调试、应用这项重要的语音技术,自2001年以来佳都新太先后在广西、天津、广东、河北、湖北、江苏、辽宁等省的多个项目中使用了ASR 自动语音识别系统,佳都新太通过对ASR测试、改进,自动语音识别率达到95%以上。
语音电话本业务可以说是CTI平台上的典型应用,佳都新太把ASR语音自动识别技术、TTS语音合成技术与CTI 的IVR技术三者融合为一体,为语音电话本业务的技术实现提供了可靠的保障。
本项目可以达到目标:
1.2.1 对语音信息的自动化处理
通过建立具备智能语音分析能力的语音识别平台,实现对用户查号业务的语音实时识别及关联处理,同时实现对语音文件的统一分析,提供支撑客服业务受理的有效工具。
1.2.2 文件分析处理
通过语音分析引擎对送入的语音进行文字转写、维度结合后生成索引文件,这些结构化的索引文件中包含了语音中的所有信息。索引文件存储到数据仓库中,通过对有效的海量录音文件、音频文件进行分析处理。
1.2.3 实现自助查号功能
通过实现语音中的知识挖掘和语音文件的快速检索,实现自动语音查号功能。
2 项目技术方案
2.1 项目设计原则
本次项目是对省公司固定电话语音自动查号系统的功能完善,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。
本次项目的关键点和技术难点在于语音识别,因此在方案设计过程中我们着重考虑了这个问题,选用了国内领先的智能语音技术来作为语音识别引擎,结合座席客服系统的需求提供定制化专业服务。
2.2 整体架构设计
如图1,用户通过拨打查号服务电话,系统为用户播放自动语音并引导用户按键选择功能和需要查号的人名,系统根据语音分析出内容,并在数据库中查询对应的号码,系统将查到的号码以自动语音方式播报给用户。
系统部署需新增接入网关1台,用于与电力内部电话程控交换机对接,实现平台电话呼入呼出。采用电信级语音接入网关Dialogic DMG2030,接入规模1E1(即30路通话),PRI信令,通过电路中继上联到辽宁电力内部程控交换机。辽宁电力内部程控交换系统为语音电话本系统分配一个内部接入服务号码和一个外部接入服务号码。同时网关接入虚拟资源池虚机网络。
新增虚拟资源池虚机1台,用于部署媒体处理软件、CTI平台、语音电话本业务应用软件、科大讯飞ASR软件和TTS软件、Oracle数据库。
新增核心网络交换机1台,用于系统组网。
2.3 系统逻辑结构
IVR与TTS、ASR通过语音引擎实现整个语音交互过程的自动识别、自动播放功能。系统采用B/S结构,方便用户对电话本的修改,也便于各营业网点的开户、受理以及对用户的电话本进行维护等。整个系统采用模块化结构,具有很高的可靠性和可扩充性。
逻辑结构见图2。
2.4 系统建设方案
新建“语音电话本”业务平台,其网络拓扑结构如图3所示。
设备组成说明:
系统平台需要以下设备:
(1)IPS数字排队机;
(2)信令网关节点;
(3)数据库服务器: 实现用户数据的存储和系统认证等功能;
(4)TTS服务器: 通过IPS平台的MS模块来实现资源调用;
(5)ASR服务器:通过IPS平台的MS模块来实现资源调用;
(6)WEB服务器:实现用户通过互联网对电话簿的维护管理功能;
(7)业务处理服务器:用于处理个人语音电话本业务流程;
(8)管理维护节点;
(9)路由器和防火墙等网络设备;
2.5 配置计算依据
2.5.1 中继和语音的配置比例
语音电话本业务,用户报出要找的人的姓名后,ASR进行识别,系统根据ASR识别出的名字,找出对应的电话号码并进行外呼,被叫接通后,主被叫进行通话的过程中,语音资源即可释放。整个业务实现和呼叫卡类业务的资源配置非常相似,根据200业务的实际运行经验数据,建议中继和语音的比例为4:1。
2.5.2 中继和ASR的配置比例
在一个呼叫的过程中,用户说出要找人的姓名,ASR资源进行识别,在识别完成系统呼通被叫后,ASR资源释放,主被叫双方进行通话,按平均呼叫时长为150秒,其中ASR识别的时间大概为30秒,而在一次通话中占用一入一出两个通道,按上面的估算数据,中继和ASR的配比大约为 2×150/30=10:1。
2.5.3 中继容量和所能支持的用户数的比例
假设一些呼叫参数如下:
系统中继容量A
用户数 B
每用户每天使用次数C:8次
每次呼叫时长D:150秒
忙时集中系统E:10%
忙时中继Erl数F:0.8
根据公式:A=B*C*D*E/F/3600
则 A:B=8×150×10%/0.8/3600=1:24
因为语音电话本业务每次呼叫要占用一入一出两个端口,所以中继容量和所支持的用户数的比例约为1:10。
2.5.4 数据库处理能力计算
忙时TPMC=(忙时呼叫次数×(平均每次呼叫数据库访问次数+其他应用模块平均每次呼叫事务访问处理次数))/60
按4.3.3假设的数据,当使用语音电话本的用户数为10,000用户时,系统的忙时呼叫次数为 10000×8×10%=8000次/小时
按每次呼叫对数据库的访问操作次数为10次来计算,则10,000用户时,对数据库的TPMC值的要求为:
TPMC=8000×10/60=1333
2.6 业务系统功能
2.6.1 业务流程(如图4)
2.6.2 声控拨号
用户使用绑定电话拨打接入号码“***”进入系统后,系统直接会提示用户报出用户想找的人的姓名,并进行呼叫。
(1)“联系人名字” 选中默认呼叫号码:
(2)用户拨打“语音电话本”服务号码;
(3)说出对方姓名,如:张三;
(4)系统识别语音,查询对应的默认电话号码;
(5)系统通过语音播报查询到的电话号码。
(6)“联系人名字+电话类型” 精确查询:
(7)用户拨打“语音电话本”服务号码;
(8)说出对方姓名+电话类型,如:张三 手机;
(9)系统识别语音,查询对应的电话类型的号码;
系统通过语音播报查询到的电话号码。用户通过绑定电话使用语音电话本业务流程如图5所示。
用户使用非绑定电话使用语音电话本业务时,必须先通过输入帐号和密码,经过系统鉴权后才能使用。
2.6.3 原始通讯录的录入
语音电话业务开展的一个关键问题,就是用户申请该业务后首批通讯录的录入问题,首批通讯录相对来说量比较大,录入的方式建议采用营业厅前台填表录入、通过WEB录入的方式,也可以采用电话、传真、信函的方式进行录入。在首批通讯录录入后,用户在使用过程中做一些号码本的修改和维护,维护量都比较小,可以通过WEB方式、电话、短消息、传真等多种方式进行修改。
批量导入电话本:
通过Excel文件导入企业通讯录,可以参考如表1格式。
可以根据实际需求增加其他列。
2.6.4 电话本维护(Web)
系统提供后台管理界面,管理员登录后台对电话本进行管理,如图6。
个人电话本资料可通过Web、人工坐席、电话、传真、短消息等多种方式进行电话本资料的维护管理,包括修改用户密码等。
业务流程如图7所示。
“增加、删除、修改”用户记录:
系统提供对单个记录的“增加”、“删除”、“修改”功能,方便对电话本进行灵活管理。
2.6.5 多个号码优先呼功能
当用户录入的某个联系人有多个通讯号码时,如有手机、小灵通、固定电话,可以把这些号码都录入在系统中,在呼叫时,用户可以自行设置优先呼叫的号码,在号码不通时再按设置的优先策略逐一呼叫被叫其他的联系方式。
2.6.6 信息查询(Web)
系统提供电话本查询界面给座席和管理员使用。
座席和管理员可根据联系人姓名,查询联系人对应的所有电话信息。
该功能主要在座席提供人工服务时使用。
3 技术创新点
本次项目采用国内领先的智能语音识别技术(ASR)结合客服后台定制化查询需求,在满足用户传统的查询基础上,语音定制化为用户报出相关信息,由用户按键选择即可,大大方便了用户的操作和客服的工作时间。
4 总体性能指标
通过研究智能语音技术在信息通信客服系统中的应用,实现客服查号业务的自能化,实现语音的自动识别及数据分析,减少人工运维成本,提高客服服务质量及服务效率。
5 技术展望
语音识别技术使人与机器的交流成为现实,它开创了口语移动学习的全新教育方式,受到越来越多的关注。借助互联网,移动学习以其学习时间灵活,学习内容丰富、精炼且片段化等特点,开辟了学习的新理念,让口语学习真正摆脱了时间和空间的限制,使任何人在任何时间、任何地点根据需要进行自主学习成为可能。目前,已有的基于PC的智能英语学习软件,能提供基于计算机的辅助技术,让学习者及时得到发音质量评分的智能化功能,但是基于手机端的口语学习应用不多。
本终端是一款基于Android系统开发的,进行英语口语学习的安卓语音软件。产品结合Google语音识别技术,使用GPRS或WiFi进行移动终端与Google云服务端之间的数据交流,并通过对语音识别结果的处理,最终设计成一个可以进行英语口语专线训练和自主训练的应用Oral Storm。
1 研究基础
Android平台自底层向上由四个层次组成:Linux内核层、Android运行时库与其他库层、应用框架层、应用程序层。它采用软件堆层(software stack),又名软件叠层的构架,主要分为3部分:底层以Linux内核工作为基础,由C语言开发,只提供基本功能;中间层包括函数库Library和虚拟机(virtual machine),用C++开发,最上层是各种应用软件。
2 应用架构及功能说明
专项训练模块主要是对英语口语比较重要的四个发音类别进行系统训练,这4个发音类别分别是清辅音、浊辅音、摩擦音和爆破音。在进入训练界面之前,有对各类发音方法和技巧的介绍,利于用户方便快速地学习口语的正确发音。我们将每种发音训练模式中的单词都分成10个小组,这些单词都是由学校专业英语教师挑选的有代表性的词,适合用于英语口语基础训练。用户在进行完每个小组的单词训练后,系统都会对用户的发音作出评价和打分,对经常出现发音错误的单词,用户可以选择保存,用于以后专门的训练。
自主学习模块是用户根据自身实际需求进行训练的板块。用户先输入想要训练的单词或语句,如果不知道如何发音,可以求助于应用中的英文朗读功能。英文朗读功能是将文本转换成语音信号,帮助用户轻松方便地学习每一个英语发音。用户还可以选择性地保存输入的学习内容,方便以后复习使用。
总之,专项训练模块针对学生英语学习中的四大类发音难题设计,通过专题式的学习、测试和智能评分,给用户提供随身的英语单词学习和测试环境;自主训练模块则专注于为用户提供可定制的英语单词学习专题,通过学习内容的自定义给用户最大限度的学习自由度。
3 研究技术
应用功能的实现主要使用了两大技术,获取语音识别技术和语音合成技术。
3.1 获取语音识别技术
单词发音练习需要使用Google语音搜索服务,因此必须判断当前用户手机是否支持该服务,所采用的方法是通过queryIntentActivities()方法,查询Android系统所有具备RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的应用程序,点击后能启动该应用。
在Android语音识别应用研究与开发的同时,Google语音服务需要网络支持,所以也需要判断当前用户的网络连接状况,在类中写一方法check--NetWorkStatus()引用ConnectivityManager cwjManager来判断网络是否连接正常。
3.2 语音合成技术
语音合成技术,是一种将文本转换为语音输出的技术,其主要工作是将文本按字或词分解为音素,然后将音素生成的数字音频用扬声器播放或者保存为声音文件,然后通过多媒体软件播放。
Android手机平台,绑定了英文语音引擎,对英文语音提供内置的支持。要将文本转换为语音,首先要检查TTS数据可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回结果为真,表明TTSEngine可以使用。除此之外,还有语音数据损坏和缺少发音数据等原因导致TTSEngine不能使用,这些因素都要考虑。之后是初始化TTS接口,这部分要设置发音语言引擎setLanguage(Locale.US)、发音音量Len(Volume)等。在这个过程中,还需要检测设置的发音语言类型是否可用。
4 结束语
我们开发的口语学习软件Oral Storm,可为训练单词发音提供专业、智能及终端化的一体化学习和测试环境,专题分类科学、全面,涵盖了爆破音、摩擦音等发音难点,可在专题学习后提供智能评分和语音纠正。用户使用这款应用,可以方便快速地学习英语口语的正确发音。
参考文献
[1] 邢铭生,朱浩,王宏斌.语音识别技术综述[J].科协论坛:下半月,2010(3):62-63.
[2] 詹青龙,张静然,邵银娟.移动学习的理论研究和实践探索[J].中国电化教育,2010(3):1-7.
[3] 周丽娴,梁昌银,沈泽.Android语音识别应用的研究与开发[J].广东通信技术,2013,33(4):15-18.
DOIDOI:10.11907/rjdk.162740
中图分类号:TP319
文献标识码:A文章编号文章编号:16727800(2017)005005703
0引言
随着智能自动化技术的迅速发展[14],智能化研究越来越受到人们关注,在日常生活中的应用需求也日益增多[56]。在书房、办公室等场所中,书籍一般是由人工查找并取出的,在一定程度上影响了人们查阅书籍的时效性。如果能设计一种识别语音查找并推出书籍的书架,将解决人们在书房中对书籍定位难、查找耗时长等问题。
在图书查阅过程中,书籍定位是较为常见的问题之一。针对这类问题,张郁松等[7]以物联网图书馆智能书架的结构化、通用化设计为目标,利用超高频(UHF)射频识别(RFID)技术,设计了一种具有实时检测与定位功能的智能书架,较好地提高了书架工作效率;舒远仲等[8]基于改进的RFID室内定位技术设计了一款应用于图书馆中的智能书架系统,将书架定位到每一层,精确到书架的最小单元格,并且降低了系统的复杂度和成本,较为有效地提高了读者借阅效率和馆员工作效率。
随着射频技术的不断发展,图书馆等场所中对图书的定位方式有很大改善,但是由于条件限制,语音识别定位书架在图书馆等禁止喧哗场所禁止使用。在可喧哗环境下,如家庭、办公室等场所中,语音识别可作为简单易用、无需接触、无需携带外部设备的定位方法,具有较好的应用前景。本系统首先将书籍信息存储到可扩展标记语言(XML)中,然后通过语音识别将语音信息与文本信息进行匹配,最后将定位结果发送至控制中心,通过电机执行动作完成推出书籍功能。
1硬件平台架构
本系统采用UPAtom510平台作为系统的语音识别终端,同时采用STC89C52单片机[9]作为系统的控制中心。由于系统功能需求,开发平台需要扩展外部设备。因此,除选用UPAtom510平台和STC89C52单片机外,还需外接话筒、TB6600步进电机驱动模块与42BYGH47401A步进电机,作为整个系统的硬件平台架构。
系统采用UPAtom510平台作为识别终端,该平台是北京博创科技有限公司针对嵌入式系统和微机原理课程研发的教学与实验平台。目前在UPAtom510上已经成功移植了Ubuntu、WinCE和Windows XP等操作系统。根据系统功能需求,在该平台上搭建了Ubuntu操作系统,并使用QT开发工具完成了人机交互界面的开发。UPAtom510平台底板如图1所示。
电机选用42BYGH47401A步进电机[1011],该电机为两项四线步进电机,电流1.5A,输出力矩0.55Nm。此模块有两种用途:书籍定位以及将书籍从书架中推出,方便用户取书。
本系统采用TB6600步进电机驱动器,它具有如下特性:输入电压为DC9~42V,可以驱动42BYGH47401A步进电机正常转动;含有拨码开关,针对不同电流要求,具有不同选择;模块上集成大面积散热片,具有较好的散热效果,可满足实际应用需求。
智能书架的硬件连接仿真结果如图2所示,智能书架的模拟三视效果如图3所示。
2系统框架设计
本系统的框架设计主要利用话筒采集语音信息,并将语音传递给UPAtom510平台,UPAtom510平台经过语音识别后,将书籍位置信息发送给STC89C52单片机,单片机根据书籍位置信息给电机驱动器发送控制命令,电机驱动器控制电机转动,带动整个智能书架运行。书架在书籍定位后将书籍推出,使得该书架具有智能化、人性化的特点。系统框架如图4所示。
3语音识别方法设计
目前,常见的电子产品中的语音识别均由单片机(MCU)或数字信号处理(DSP)作为硬件平台来实现。这一类语音识别[1217]产品主要采用孤立词识别,一般有如下两种方案:一种是使用隐马尔科夫统计模型(HMM)框架设计的非特定人群识别,另一种是基于动态规划(DP)原理的特定人群识别。这两种方法在应用上各有优缺点。
语音情感识别是人工智能、心理学和生物学等多学科交叉的新兴领域。蕴藏在语音中的情感信息是人们相互交流的重要信息,例如同样一句话,说话人在不同的情感状态时所表达的含义会截然不同。当今人们不断深入对情感信息处理的研究,也越来越重视语音信号中情感信息处理的研究。语音信号具有便携性好和采集方便等优势,因此语音识别技术在智能人机交互、人机交互教学、娱乐业、医学、刑侦与安全领域得到了广泛的应用。
1997年,美国麻省理工大学的Picard教授首先提出了情感识别的概念,随后美国麻省理工大学、美国洛杉矶南加州大学、新加坡南阳理工大学等高校科研机构陆续并展了情感识别领域的研究。在国内,东南大学、中科院自动化研究所、清华大学、东南大学、西北工业大学、江苏大学等高校和科研机构也都开展了情感识别方面的研究。
二、语音情感识别模块构成
语音情感识别技术是根据人在不同情感下的语音信号非平稳性特征等比较明显的特点,通过提取语音的音质特征、韵律特征和频谱特征等声学特征来判断情绪的变化,语音情感识别模块大体包括语音采样、语音预处理、语音特征提取、语音特征处理、特征识别、情绪判断几个部分。
首先可设定采样的频率和时间长短,对语音进行采样并进行去噪、加窗、分帧等预处理,然后根据对不同情绪判断的需要分别提取语音的音质特征、韵律特征和频谱特征等声学特征如基音频率、共振峰、Mel频率倒谱系数、能量、样本熵等,再将提取的多种特征通过各种时频分析方法进行处理,如短时傅里叶变换(FFT)、希尔伯特变换(Hilbert transform)、经验模态分解(EMD)等,之后将特征参数送入相应的函数识别器(常用的一般为支持向量机SVM)识别特征参数的归属范围,最后根据多种语音特征融合后的识别结果来综合判断采样语音的情感种类。
三、语音情感识别技术应用的必要性
随着社会进步和生活水平的改善,客户对呼叫中心热线服务质量的要求也在不断提高,而呼叫中心主要通过电话与客户交流,依赖语音获取信息,与客户的接触渠道比较单一,这就需要我们结合国内外发展的新形势来积极寻求提升服务质量及客户感知的新方法以应对如下问题。
1 海量录音抽样质检的限制性
客服质检人员每天从几万条录音中只抽取几百或几十条录音进行质检,录音抽取范围一般是客户做出满意度参评或客服代表的专席转接的录音,无形中限制了录音质检的范围,而实际的问题是录音可能客户既没有参评、客服代表也未进行专席转接,故此很难发现录音背后隐藏的客户实际问题,录音质检的目的也会因此而大打折扣。
2 投诉处理缺少统一的标准
面对客户各种不同情况的投诉录音,不同的投诉处理人员会有不同的判断标准,继而会执行不同的处理流程,带给客户与客服代表的感知也会因此而有所差异,对客户投诉的判责依赖于个人感知的成分较多,缺少说服力和理论依据。
3 客户情绪感知的滞后性
若客户带着情绪或疑问拨入热线却在音调上故作平静,客服代表将很难在第一时间了解客户的切实想法和真实情感,无法对症下药、做出准确的应答,进而会放大客户的痛苦,激化客户的不满情绪,严重影响客户的感知。
4 客服代表的服务热情降低
客服代表常年工作在一线,每天面对大量不同客户近乎相同的问题,重复给出近乎相似的答案,容易产生一定的职业疲劳,在与客户的互动中会出现语音语调平淡的问题,自己本身却察觉不到,无形中影响了客户的感知和呼叫中心的服务质量。
四、语音情感识别的具体应用
结合目前国内外语音情感研究新兴领域的语音情感识别技术,可构建语音情感分析模块,针对以上提到的几点问题,实现在客服代表与客户人机交互的过程中的四项重要作用。
1 自动将语音筛选分类
语音情感识别模块可以将海量的录音根据客户情感的不同区分成不同的客户情感录音库,质检人员可以根据质检的需要和目的将分类后的情感录音库做为抽检录音的来源,再辅以日常常用的抽检标准进行质检,这样就精简了录音的抽检范围,提高了录音质检的针对性,增强了质检工作的目的性,更易于发现实际存在的问题。
2 投诉校准
语音情感识别模块可以通过采样客户的投诉录音,综合判断客户和客服代表情绪的归属类别,为投诉的判责提供标准和理论依据,进而规范和统一后续的处理流程,这样,即使不同的投诉处理人员也会给客户和客服代表做出相同的处理结果,使投诉处理工作更具有说服力。
3 客户情绪及时识别
语音情感识别模块可以通过实时采样客户的声音,在客户电话接入的前几秒对客户的情绪做出判断,特别是针对客户带着情绪或疑问拨入热线却在音调上故作平静、人耳难以识别的情况下,进而通过情感识别系统的反馈信息及时提醒客服代表客户情绪的异常,客服代表可以灵活转变问题处理的方式从而缩小客户的痛苦,提高客户的满意度。