CN1157442A

CN1157442A - 字符识别翻译系统和语音识别系统

Info

Publication number: CN1157442A
Application number: CN96114571A
Authority: CN
Inventors: 胁坂新路; 佐藤裕子
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-11-15
Filing date: 1996-11-15
Publication date: 1997-08-20
Anticipated expiration: 2016-11-15
Also published as: KR970029143A; EP0774729A3; KR100220960B1; MY114036A; TW347503B; EP1017041A1; US6148105A; MY126144A; EP1017041B1; DE69634740D1; EP0774729B1; DE69623569T2; DE69623569D1; US5917944A; DE69634740T2; EP0774729A2; SG81210A1; SG128406A1; CN1139042C; HK1029859A1

Abstract

一种字符识别和翻译系统，包括一个字符数据库，用来积累字符的字符数据；一个字符形状分析单元，用来提取构成字符的字符构元的特征；一个掩码学习单元，用来根据所述字符形状分析单元的分析结果产生字符构元的样本掩码数据；一个字符对照单元，用来将用作为识别目标的字符数据与字符构元的样本掩码数据相对照，所述的识别目标包含在新摄取的图象中；和翻译单元，用来翻译由所述字符对照单元识别的字符组成的词或句。

Description

字符识别翻译系统和语音识别系统

本发明涉及适用于便携式翻译机等的字符识别翻译系统，更具体地说，涉及一种用来将写在导游牌，楼名牌，布告牌，导游册，饭馆菜单等上的字符取作为摄像数据的字符识译系统。例如一个在海外的旅游者常常需要有这样一种工具用来识别那些字符。字符识译系统并不限于任何具体的字符形状和规格，也不限于任何具体的语言，并适合于用来识译各种语言写成的字符，这些字符被摄取或作为数字图象数据。此外，本发明涉及一种语音识译系统，该系统适合于便携式翻译机器，而更具体地说，该系统适用于用来获取或记录在机场大厅，火车站，飞机上，车辆上，观光处，等等，以及周围的谈话和讲演声音和通告等等的各种类型的语音或其他口头信息，以便识别和翻译如此获取或记录的语音。

近来，便携式液晶数字摄像机已经研制出用来让使用者观测在摄取处的刚摄的静止信息，在记录介质上记录静止图象信息，在大屏幕监视器上显示图象信息，和用打印机打印图象等等。

日本公开专利公报No Hei-3-87976公开一种用于电子静止摄像机的字符识别和翻译机，该机器与诸如上所述的液晶数字摄像机等的电子静止摄像机相连，以识别记录的图象的字符信息并进而将识别的结果予以翻译。该机器设计得可接收包含在来自电子静止摄像机的目标图象中的字符信息，并将包含在字符信息中的字符予以翻译。更具体地说，根据字符识译机器，来自电子静止摄像机的视频信号被转换成适合于字符识译处理的信号，并进行一系列的一般的信息处理步骤，诸如根据边缘提取法的字符区域提取处理，背景删除处理，字符排列倾斜校正处理，基于模式匹配法的字符识别处理，和机器翻译处理等。

然而，根据上述的传统的字符识译装置，要识别并翻译那些写在导游牌上，楼名牌上，饭馆菜单上，观光告示等上的海外旅游者常遇到的字符是殊为困难的事。这是因为，常常会发生这样的情形：向一个在海外以各种书法写成的书写字符施以仅仅靠只采用一个字符基准模式的模式匹配法并不能精确地识别该字符。

另一方面，随着海外旅客的近来的迅速增加，已经推出具有语音识别的固定形式的转换模式的便携式翻译机来克服在不同民族之间的交流的困难(所谓语言壁垒)问题。这些便携式翻译机利用一个可将用于各种类型谈话中的语句预先记录为语音数据并根据固定的情景来选择所需的语句的复现系统。根据该复现系统，一个使用者所与之交谈的客人(以下称之为谈客)可用其母语单方面地听使用者所想作的提问或请求。然而，这种机器不能翻译谈客的谈话。因此，如在日本公开专利申请No.Hei-5-35776中所公开的的装置，可以识别通过一个麦克风输入的话语，并将此话语翻译成为一种预定的语言，然后再将其输出。

根据该装置，通过麦克风输入的语音数据被转换成为一种数字信号，并加以分析，然后将分析结果与存储在一个语音识别字典中的标准语音模式相比较以进行语音识别。此外，根据该装置，被翻译的相应于所识别的语音的字语由存储器卡写入作为所翻译的字的数据，并转换成为一个信号，然后输出到扬声器中。用作字数据的的存储器卡包括一个ROM卡或类似的东西，在其中存储有语音数据。通过与另一种语言存储器卡可以达到多语言的语音翻译。语音识别字典包括一个RAM或类似的东西，并有相应于用户特定发音预录音的标准语音模式。

在上述公开的便携式语音发音机器中，可以识别使用者的语音。然而，其功能限于使用具有如上描述的固定谈话模式功能。也就是说，它让谈客单方面地以其母语听取使用者的提问或请求。然而，它不能识别和翻译一个非确定者的自然的谈话。当该使用者是与一个使用者不会说的言语的人谈话时，翻译谈客的说话比自己说话更为重要。

此外，在海外旅游期间，旅游者的问题在于，他既不能理解在机场大厅，火车站，机场，车辆，观光处的语音公告，也不能理解正常环境的谈话，语音和公告等。特别是在候机室，火车站，机场，车辆，观光点等处，其背景噪声比较突出的地方，语音识别的效率大大降低。

因此，本发明的目的是为了提供一种字符识译系统，它不受字符的形状和规格的限制，也不受不同语言的限制，和能识别和翻译以各种语言书写的并作为摄像数据检测的字符。此外，本发明的另一目的是为了提供一种用来当在机场大厅，火车站，机场，车辆，观光处等背景噪声大的场合时能可靠地识译各种类型的连续语音或通知的语音识译系统。

为了达到上述目的，根据本发明的第一方面，一种用来用摄像机来检测写在导游牌，楼名牌，饭馆菜单，导游布告等上的字符，和识别这些字符并翻译词或包括被识别的字符的语句的字符识译系统，包括：一个用来积累代表包含在一个被检测的图象中的字符数据的字符数据库；一个用来根据在字符数据库中的字符数据分析一个字符的形状以提取构成该字符的字符构元的特征的字符形状分析单元；一个用来根据字符分析单元的分析结果产生字符构元的样本掩码数据的掩码学习单元；一个用来将要被识别的包含在新摄图象中的字符的字符数据与字符构元的样本掩码数据进行对照以便识别该字符的字符对照单元；和一个用来翻译一个词或包括由字符对照单元识别的字符的语句的翻译单元。

在如上所述的字符识译系统中，字符形状分析单元最好设计得由在字符数据库中的字符数据划分m×n点(象素)的二进制数据，给每个象素检测“1”或“0”；以增量n划分象素区域：m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)，这些区域包含该字符的特征；和分析代表字符标识的加权系数和或/分析一个代表每个象素区域的字符的起始，连接和结束的属性。

在如上所述的字符识别翻译机中，掩码学习单元最好在每个包含字符特征的m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)象素区域中加以一个代表字符标识的加权系数和或分析一个代表每个象素区域的字符的起始，连接和结束的属性，以便产生样本掩码数据。

在如上所述的字符识译机中，最好字符对照单元从字符数据中划分出m×n点的二进制数据；当增量n时给每个象素删去“1”或“2”；将该数据分成为m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)的象素区域，该区域包含字符的特征；以及将该象素区域与样本掩码数据相对照。

在如上所述的字符识译机中，最好包括一个用来存储由掩码学习单元获得的样本掩码数据的样本掩码存储器，该样本掩码存储器存储具有对每个不同的字符是不同的n1，n2，...，nj元的样本掩码数据。

在如上所述的字符识译机中，最好还包括一个图象检测单元，该检测单元用来检测一个包含字符的图象，和包括一个阵列指定单元，用来根据由被检测的图象获得的图象数据来指定待识别的词或语句的字符阵列。

在如上所述的字符识译机中，最好字符阵列指定单元指定至少一个在任何位置上的m×n点区域。

此外，最好当获得的字符阵列包含横写字符的字符阵列时，在增量n时字符对照单元在字符的宽度方向获得一个象素区域，此n与在字符的宽度方向上的n点相关，以便将象素区域的数据与样本掩码数据相比较。此外，如果或当所获得的字符阵列包含纵向写的字符时，当增量n时字符对照单元获得一个在字符的高度方向上的象素区域，此n与在字符的高度方向上的n点相关，以便将象素区域与样本掩码数据相比较。

此外，根据本发明，字符识译系统最好包括一个具有内部存储装置的静止安装式信息设备，和一个与静止安装式信息设备可拆连接的便携式信息设备，在静止安装式信息设备的外部存储装置中至少配置有字符数据库而同时在便携式信息设备中配置有其他构件。具体地说，在便携式信息设备中配置了其他构件的同时，在静止式信息设备中配置有字符数据库，字符形状分析单元和掩码学习单元。

根据如此构成的字符识译系统，那些写在导游牌上，楼名牌上，饭馆菜单上，观光告示等上面的海外旅游者常遇字符能够作为图象数据予以检测以便识译其中所包含的字符，而作为图象数据被检测的各种语言的字符可不受字符的形状或大小和不同语言的限制被适当地识别和翻译。

根据本发明的第二方面的用来识别语音并将该语音翻译成词或语句的语音翻译识别系统包括：一个语音存储器，用来存储代表所检测的语音的语音数据；一个噪声检测单元，用来移去或删除相应于噪声的的数据；一个声音数据库，用来存储已经由噪声检测单元除去了噪声的数据；一个第一语音分析单元，用来提取相应于在声音数据库中积累的声音数据的声音特征；一个模式学习单元，用来根据第一语音分析单元的分析结果产生一个声响模式；一个声学存储单元，用来存储声学模式；一个第二语音分析单元，用来根据已通过从相应于最近检测到的语音的语音数据中除去了表示噪声的数据来提取最新检测到的语音的声音特征；一个语音对照单元，用来将由第二语音分析单元获得的语音数据与存储在声学模式存储单元中的声学模式的数据相比较，以便识别该语音；以及一翻译单元，用来翻译构成由语音对照单元识别的语音的词或语句。

在如上所述的语音识别和翻译系统中，最好设计得使存储器存储相应于第一语音的第一语音数据和相应于包含环境噪声的第二语音的第二语音数据，在第一语音中，环境噪声叠加在要被识别和翻译的语音上。

此外，在如上所述的语音识别和翻译系统中，最好噪声检测第一对第一语音数据的第一语音频谱数据与第二语音数据的第二语音频谱数据作一比较以获得相应于噪声被除去的数据的频谱数据。

在如上所述的语音识别和翻译系统中，最好将声音数据库设计得存储第一频谱数据和第二频谱数据并将这些数据互相相联系。

在如上所述的语音识别和翻译系统中，最好在待识译的语音输入前，声学对照单元将在语音处获得的环境噪声的噪声频谱数据与根据第二频谱数据获得噪声声学模式的数据进行对照以便识别噪声的类型，并再将要识译的语音的语音数据与根据噪声的类型确定的第一语音数据的声学模式进行对照以识别该语音。

在如上所述的语音识别和翻译系统中，最好将翻译单元获得的翻译结果由一个显示单元至少作为字符输出，并且最好在显示单元的显示屏上显示包含翻译前的词或语句的原来语言文本和包括翻译后的词或语句的译文文本。具体地说，翻译结果最好包含相应于代表翻译准确度的翻译率的信息或至少包含相应于该语言类型的信息。

在在如上所述的语音识别和翻译系统中，最好语音识别和翻译系统包括一个具有一个外部存储装置的静止安装式信息设备，和一个可拆式连接到该静止安装式信息设备的便携式信息设备，并且给便携式信息设备配置其他部件的同时，至少给静止安装式信息设备配置声音数据库。更具体地说，更好的是在给便携式信息设备配置其他部件的同时给静止安装式信息设备配置声音数据库，第一分析单元和模式学习单元。

根据在如上所述的语音识别和翻译系统，游客在海外的候机室，火车站，机场，车辆，观光处等地听到的各种类型的声音的通告，以及周围的谈话，语音或通告，即使在嘈杂的环境下，仍可被适当地识别。此外，构成被识别的语音的词或语句由字典或语法字典识别。其次，用作为键词词句根据所识别的词句予以识别和翻译。

这样，即使在诸如候机室火车站，机场，车辆，观光处等的嘈杂的环境中，任何为指定的语音仍可以被清楚地识别。

图1是一个显示本发明的第一实施例的字符识别和翻译系统的构成的方框图；

图2是本发明的第一实施例的产生样本掩码数据的示意图；

图3是一个在第一实施例中样本掩码数据产生法的流程图；

图4是一个本发明的第一实施例的样本掩码数据对照法的示意图；

图5是本发明的第一实施例的样本掩码数据对照法的流程图；

图6A和6B示出了应用了本发明的第一实施例的字符识别和翻译系统的便携式翻译机；

图7A和7B示出了本发明的第一实施例的字符指定区域的一个例子；

图8是一个本发明的第二实施例的语音识别和翻译系的方框图；

图9是一个在本发明的第二实施例中的产生声学模式的流程图；

图10是一个本发明的第二实施例中的通告语音的流程图；

图11是一个显示根据在第二实施例中的噪声环境的通告语音识别的示意图；

图12A和12B是应用了本发明的第二实施例的语音识别和翻译系的示意图；以及

图13是一个显示在图12B的便携式翻译机中的显示器的屏幕上的显示情形。

下面参阅附图来描述本发明的最佳实施例。

在图1中，参考数字101表示用来执行字符识别的识别系统，参考数字102代表用来产生字符识别所需的样本掩码数据的一个学习系统，和参考数字103代表一个翻译系统，该系统用来从识别系统接收识别结果以根据键词分析语句并加以翻译。参考数字104代表一个具有CCD的摄像机或类似的器件，用来将写在导游牌上，楼名牌上，饭馆菜单上，观光告示等上面的海外旅游者常遇字符作为图象数字符予以摄入。这里，为了保证字符识别所需的每个字符的可允许的最小分辨率，采用一个高分辨率的摄像机或多个摄像机来执行图象分析。于是，显示在液晶显示装置之类上如后面要描述的在一个字符指定区域中的字符的分辨率显然不同于为进行识别处理而摄入的字符图象数据的分辨率，后者的分辨率高于前者。参考数字129代表一个包括一个发光二极管(LED)的显示器，而参考数字130则表示一个扬声器。翻译系统103的处理结果作为包含语句的图象和语音分别输出到显示器129和扬声器130。

在识别系统101中，参考数字105代表一个A\D转换器，参考数字106代表一个字符数字化(二进制)处理单元，参考数字107代表一个噪声去除单元，参考数字108代表一个字符划分单元，参考数字109代表一个对照单元，参考数字110代表一个判断单元，参考数字111代表一个样本掩码存储单元，参考数字112代表一字典，参考数字113代表一个语法字典，以及参考数字114代表一个连接单元。

此外，在学习系统中，参考数字115代表一个大规模字符数据库，参考数字116代表一个字符形状分析单元，和参考数字117代表一个掩码学习单元。

在翻译学习103中，参考数字119代表一个键词分析单元，参考数字120代表一个字义字典(词典)，参考数字122代表一个中级语言处理器，参考数字123代表一个句子形成单元，参考数字124代表一个字典，参考数字125代表一个例句结构字典(句法字典)，参考数字127代表一个发声字典，和参考数字128代表一个D/A转换器。

在上述结构的学习系统中，由摄像机(CCD摄像机)104摄取并然后被从模拟信号转换为数字信号的包含字符阵列的静止图象数据被积累和存储在大规模字符数据库115中。在存储在大规模字符数据库115中存储的静止图象数据的基础上，字符形状分析单元116执行数字化包含字符的图象数据的二进制数字处理，执行从背景中提取字符区域的提取处理，包括去噪声处理，和执行分析字符形状的提取处理，以便提取构成该字符的字符构元的特征。

接下来，掩码学习单元117从字符形状分析单元116中接收字符的特征提取结果，并在特征提取结果的基础上产生样本掩码数据。由掩码学习单元117产生的样本掩码数据被存储在识别系统101中的样本掩码存储单元11中。

图象字符数据的写入到大规模字符数据库中的操作可随时进行。虽然如此，如果有额外的或足够的时间的话，最好在写入操作前学习系统102的处理已经结束为佳。此外，需要预先获得相应于用于每个告知字符组(每个字符码)的多个不同书写风格的字符的图象字符数据。

如样本掩码存储单元111一样，识别系统101配置有用来识别词或语句的字典112和语法字典113。例如，在由摄像机摄入的字符以法语和书写和这些字符要被翻译成日语的情形时，样本掩码存储单元111，字典112和语法字典113被设计得对应于法语。此外，最好大规模存储介质，诸如一个可互换的集成电路板，CD-ROM等用作为样本掩码存储单元111和语法字典113，这样本发明的系统系统可用于多语言方式。

在字符(文件)识别翻译系统应用于诸如便携式翻译机那样对硬件尺寸有限制的设备的情形时，学习系统102可被安装在个人计算机中，同时如下所述将其他部件装入便携式翻译机中。学习系统102的处理以后要描述。

在识别系统101中，由CCD摄像机104摄取的并由A/D转换器105转换成数字信号的图象数据由字符二进制处理器106进行处理。此时，二进制数据用分辨率变换法予以标称化，并被转换成包含字符阵列的m×n象素的图象数据。随之，对图象数据进行去噪声处理，以便消除背景噪声和其他噪声，仅仅留下字符数据。因此，字符划分单元108从m×n象素(点)的字符阵列中划分出一个字符区域，同时n分(即每个象素(点)n分)。由对照单元109将这些划分出的字符区域作为构成一个字符的字符构元与在样本掩码存储单元中存储的样本掩码数据相比较。

接着，用各自对照过的字符构成元来构成一个字符，随后将所构成的字符予以识别。进而，通通过参阅字典112和语法字典113将如此构成的字符在关联单元114中一一相关联。然后，用判断单元110将被关联单元114关联过的排序字符作一对照以识别出一个词或语句。在图1中，参考数字118代表从识别系统101输出的被编码的数据，该数据代表了一个词或一个语句。下面会描述对照单元109的详细的处理。

在翻译系统103中，从识别系统101输出的代表一个词或语句的编码数据118由键词分析单元119进行分析以判断该词或句是否为一个用来翻译的有效键词，并在该键词的基础上识别该词或句的意思。然后，在中间语言处理器122中产生只代表该语句的意思并与任何国家的特定口语无关的中间语言。

键词分析单元119与一个词义字典(词典)120和语句结构意义字典(句义词典)121相连。例如，当由CCD摄像机104摄入的字符是法文书写的并要求翻译成日本语，则词典120和句义词典121被设计得相应于法文。为了以多语方式使用本系统，最好将一个诸如可互换的IC卡或CD-ROM这样的大规模存储介质用作为词典120和语法词典121。

在中间语言处理器122中生成的中间语言被翻译成以要求的语言写成的语句。语句构成单元123被连接到相应于例如日语的词典124和句法词典125。将所翻译的语句显示在显示器129的屏幕上。在声合成处理器126中将被译语句再转换成数字语音，被译语句通过D/A转换器将数字信号转换成模拟信号，然后，从扬声器中输出声音。

声合成处理器126被连接到相应于例如日语的词典125和发音字典127。为了以多语使用本系统，最好将诸如可互换IC卡，CD-ROM等类似的大容量存储介质用作为词典124句法词典125和发音字典127。

在图1中的用方框图显示的每个处理步骤，可用一个在一个半导体器件102上形成的包括多个LSI(大规模集成)电路和一个存储器，或一个或多个单片系统的系统组成。

下面将描述学习系统102的详细的处理。

图2示出了在学习系统102中的产生样本掩码数据的方法，和图3是显示样本掩码数据产生处理的流程图。

字符形状分析单元116执行包含字符的图象数据的二进制处理，所述字符是以包含已经转换为数字信号的字符阵列的静止图象数据的大规模字符数据库中送来的。该二进制图象数据被分辨率转换方法标称化，并转换成m×n个象素(若干点)的字符阵列(横写)的图象数据201(图2)(ST301)。另外，执行一个从背景中提取字符区域的包括去噪声处理的提取处理来分析每个字符的形状，例如，为了提取构成示于图2中的m×n象素的字符“M”的字符构元的特征。为了执行此处理，给m×n个象素检测“1”(黑)或“0”(白)，而在横向上n(n＝1，2，3)等分象素，将m×n个象素被分成为字符构元m×n1(n1≤n)，m×n2(n2≤n)，m×n3(n3≤n)，m×n4(n4≤n)的图象区域，每个字符构元包含如字符的轮廓之类的特征。同时，对一个代表字符识别的加权系数(即所关心的字符是什么)和代表字符起始，连接和结束的属性加以分析(ST302步)。接着，掩码学习117加权被划分的字符的那些部分的特征。如果字符的类型只根据一部分字符来估测的话，则该部分的加权系数设定为大值(ST303步)。

下面将描述在识别系统101中的对照单元109中的详细的处理。

图4示出了一个将在海外旅游处作为一个图象摄入的字符数据与在便携式翻译机中的样本掩码数据进行对照以识别一个字符“M”的实际情形。图5是一个显示一个图4所示的字符对照过程的流程图。

首先，一个字符指定区域的m×n个象素被指定给一个要被识译的字符，这些象素是作为摄像机的图象数据摄入的。图4的参考数字401代表了一个相应于被作为摄像机摄取的图象数据的m×n个象素。此时，在字符二进制处理器106中，如果摄取的字符数据的分辨率不同于样本掩码数据的分辨率，则在所摄取的字符数据上执行分辨率变换以标称化字符数据，使得在字符是横向书写格式时在字符高度方向上的m点的分辨率在摄入的字符数据与样本掩码数据之间作得相等(ST502步)。相对于在宽度方向上的n个点的分辨率，最好准备多个具有不同的n值的样本掩码。

接着，通过横向增量n(n＝1，2，3，…)划分的每个象素由字符数据401依次产生字符区域，并将由此产生的这些区域的数据与样本掩码数据进行对照从而产生得到一个相关，包括在字符数据和样本掩码数据之间的加样本掩码数据的加权系数。

如果相关最大，则产生下一个象素区域以用如上所述的(ST503步)的方式进行相关。例如，在m×n1(n1≤n)，m×n2(n2≤n)，m×n3(n3≤n)，m×n4(n4≤n)的象素区域(图4中的402至405)与样本掩码数据(图4中407至410)的相关假定为最佳。这里，图4中参考数字411代表了构成另外字符的元素的字符的样本掩码数据。参考数字412，413，414，和415分别代表了包含加权系数0.7，0.3，0.8和0.4的图象数据。

如上所述，样本掩码数据与字符的起始，关联和结束的属性相加，因此可以缩短从存储器搜索样本掩码数据的时间。最后，根据提供最大相关值样本掩码数据从多个字符码420中选择字符码“M”421(ST504步)。在图4中，参考数字418和419代表表示其他每个提供最大相关值之和的样本掩码数据的信号。

图6A示出了采用本发明的图象字符翻译系统的便携式翻译机，而图6B示出了该机器的外观。

在图6A中，该翻译系统识译了一个在铜像下面的一个外语的铭文。一个使用者在其通过便携式翻译机的取景窗观测时指定在一个矩形框内的他想要知道的词句。该知道字符阵列立即被进行字符识别。例如，当用户说日语的，将该字符阵列翻译成日语。

在图6B中，参考数字601表示便携式翻译机的主体，参考数字602代表用来摄取字符图象的CCD摄像机。参考数字603和604代表集成电路卡。在集成电路卡603中存储了用来构成样本掩码存储单元111的数据，字典112，语法字典113，词典120，和句法字典121执行字符识别和翻译。此外，在集成电路卡中，存储了用来构建字典124的数据，而句法字典125和发音字典127执行字符识别和翻译。

参考数字605代表一个用来显示指定一个要求识译的词或句的字符指定区域和显示字符识译结果的液晶显示器。参考数字606代表一个用来输出字符识译结果的扬声器。

图7A和7B是显示表示用来说明需要进行字符识别和翻译的词或句的字符阵列的区域的字符的示意图。

图7A示出了一个当字符阵列横向书写时的字符指定方法。在图7A中，参考数字703代表一个用来显示观测区的观测区域或显示区域。参考数字701和702代表一个用来指示要予以识译的词或句的字符阵列的字符指示区。字符指定区701和702有m×n个象素(点)的尺寸；也就是说，在字符的高度方向有m个象素(点)，在字符的横向有n个象素(点)。每个字符指示区的尺寸可独立可变。此外，字符指示区701，702可独立地位于任何任意的位置上。于是，该字符指示区可位于任何所需的位置上，以便可覆盖在导游牌，楼名牌，饭馆菜单和观光告示等上的任何位置处书写的各种字符。参考数字704代表一个用来显示要求识译的词或句的翻译显示区域。

同样，图7B示出了一个当以横向书写的字符阵列时的字符指示方法。在图7B中，参考数字707代表用来显示观测区的一个观测区或显示器。参考数字705和706代表了一个用来指示要识译的词或句的字符阵列的字符指示区。与图7A的字符指示区一样，字符指示区705和706有一个m×n象素的尺寸，在字符的横向m个象素，在垂直方向有n个象素。每个字符指示区可独立地改变。此外，字符指示区705和706可位于任何任意的位置上。于是，字符指示区可位于任何需要的位置，从而可覆盖在导游牌，楼名牌，饭馆菜单和观光告示等上的任何位置处书写的各种字符。在图7B中，参考数字708代表了用来显示要识译的词或句的字符阵列的翻译结果的翻译显示区。

根据本发明的的实施例，提供了用来精确地识别和翻译作为摄像机的图象数据摄入的各类语言的字符的字符识别和翻译系统，而对字符的形状和尺寸或对何种语言均无限制。于是，书写在导游牌，楼名牌，饭馆菜单和观光告示等上可以作为摄像机的图象数据摄取并被可靠地识译。因此，用户可方便地理解字符(语句)的含义。

下面将描述本发明的第二实施例。

图8是一个显示本发明的第二实施例的语音识别和翻译系统的方框图。

在图8中，参考数字801代表一个用来执行语音识别的识别系统，参考数字823代表了一个用来生成语音识别所需的声学模式的学习系统，而参考数字828代表了一个用来从识别系统接收识别结果和用来根据键词来分析语音以便翻译该语音的翻译系统。

参考数字802代表一个方向性麦克风和参考数字803代表一个多方向性麦克风。这些麦克风被用来检测在机场，在火车站，飞机上，在诸如公共汽车，出租车等车辆通告的语音，以及周围的谈话，讲演等等。

在第二实施例中，配置了方向性麦克风和多方向麦克风803，方向性麦克风802用于可靠地收集一个特定需要的语音(目标语音)，而多方向麦克风803用于收集全部环境声音(各种包含环境声音和噪声的声音)。这样，每个麦克风的特性可各自发挥其效用。然而，也可只用一个或用多个麦克风，也就是说，麦克风的数目并无限制。此外，麦克风的类型既可方向性也可是多方向性的。

参考数字839代表了包含一个LCD(发光二极管)之类的显示器，而参考数字840代表一个诸如扬声器，耳机之类的声输出装置。显示器839和输出装置840分别用于输出作为包含语句的图象和包含语句的语音的翻译系统828的处理结果。

在识别系统801中，参考数字804代表一个用来将来自方向性麦克风802的模拟信号转换成数字信号，而参考数字806代表作为一个目标语音的通告语音和由A/D转换器804转换的数字数据。

根据该实施例，通告语音的数字数据806由16比特组成，并包含各所在处的噪声数据。参考数字805代表一个用来将从多方向性麦克风803来的模拟信号转换成数字信号。参考数字807代表由A/D转换器805转换的和包含在无通告语音时的噪声的全部声音的数字数据。在本实施例中，在各处的全部环境声音的数字数据807由16比特组成。

参考数字808代表用于数字地记录由A/D转换器804转换的通告语音的数字数据806和数字地记录由A/D转换器805转换的无通告语音时的所在地的全部声音的数字数据807并将它们存储在存储器809中的记录器。通告语音的数字数据806与无通告语音时的所在地全部环境的声音被存储到存储器809中，从而可并行从存储器读出和写入存储器。参考数字810代表由语音记录器从存储器809中读出的通告声音的数字数据，和参考数字811代表当无通告语音时由语音记录器808从存储器809中读出的在所在地全部声音。

参考数字812代表一个用来接收通告语音的数字数据810和无通告语音时所在地的全部声音0的数字数据811的去噪声单元。参考数字813代表通过从包含在去噪声单元812中的噪声的通告语音的数字数据810中去除噪声获得的通告语音的数字数据。在本处理过程中，噪声不能被很好地去除但被减少了，因为通告语音相对比较强。

根据本实施例，将系统设计得可对噪声的类型进行识别并其以此作为识别在各种场合的嘈杂环境下的通告语音或周围语音的关键，对此，下面要予以介绍。本发明的系统的这种设计有利于方便进行声学对照的用的声学模式的搜索操作和语音识别。

参考数字814代表既包含通过从包含在去噪声单元812的噪声中的通告语音的数字数据810中去除噪声所获得的通告语音的数字数据813又包含在无通告语音时的在各种场合的全部声音的数字数据的数据，这些数据是直接从去噪声单元812中输出的。

参考数字815代表一个声音分析单元，该分析单元采用短时频率分析，对已经去除了噪声的通告语音的数字数据813进行声音特征提取处理。参考数字816代表一个区段检测器，用来根据语音的输入波形检测语音存在区段。参考数字817代表一效用对照单元，用来通过一个关联单元将输入语音与在声学模式存储单元819中用于目标识别的声学模式，字典820以及语法字典821相比较。声学对照单元817的对照结果作为连续语音中的词或句的识别结果输出到判断单元818。参考数字827代表编码数据，该编码数据代表作为在判断单元818中输出的对连续语音中的词或句的识别结果。

在学习系统823中，通过从包含噪声的通高语音的数字数据810中去除噪声获得的通告语音的数字数据，和当无通告语音时的各处的全部声音的数字数据，都被存储在一个大规模通告声音数据库824中。声音分析单元825读出存储在大规模通告声音数据库824中数据，并根据短时频率分析对读出的数据进行声音特征提取处理。模式学习单元826接收来自声音分析单元825中的声音特征提取结果以生成一个声学模式。这里，声学模式是一个对声音识别为关键的基准模式，而且该声学模式包含诸如辅音，元音等音素的每个音素的模式。例如，采用Hidden Markov模式(HMM)。

如上生成的声学模式借助于一个熟悉所收集的或检测的语言的操作者与代表一个词或句的码相关联，而将一个必要的要素存储在声学模式存储单元。此时，生成的声学模式也与在数据收集处的当无通告语音时的噪声环境码相关联。并存储在声学模式存储单元819在声音分析单元825中，根据在无通告语音时的各处的全体声音的数字数据生成噪声环境码。

在本实施例中，给一个代表词或句的码生成在不同噪声环境下的多声学模式。最好，根据要翻译的语言的方言之类来生成多声学模式。

在翻译系统828中，代表从识别系统801输出的词或句的编码数据827用一个键词分析单元829就是否该数据提供了一个对翻译有效的键词进行分析，并根据该键词识别一个语句的含义。此外，中间语言处理器832产生一个仅代表与任何特定语言无关的语句的含义的中间语言。

键词分析单元829与一个词义字典(词典)和一个语句结构含义字典(句法字典)831相连。例如，当输入的通告语音为德语并要求翻译成日语时，则在识别系统801中的声学模式存储单元819，字典820，和语法字典821和在翻译系统828中的词典830和句法字典831被设计得与德语相对应。此外，为以多语模式使用该系统，一个诸如集成电路卡，CD-ROM之类的可互换大容量存储介质最好用作为声学模式存储单元，字典820，语法字典821，词典830和语法字典831。

在中间语音处理器832中产生的中间语言的语句在语句形成单元833中被翻译成为所需语言的语句。语句形成单元833被连接到相应于例如日语的字典834和语句结构范例字典(语法字典)835。被翻译的语句显示在显示器839上。在声音合成处理器837中被翻译的语句再被转换成数字语音，通过D/A转换器838将数字信号转换为模拟信号，并从声输出装置840中输出语音。

声合成处理器837与相应于例如日语的句法字典835和发音字典836相连。此外，为了以多语模式使用该系统，一个诸如集成电路卡，一个CD-ROM之类的可互换大容量存储介质最好被用作为字典834，句法字典835和发声字典836。

图8的每个处理器方框可由一个包括多个LSIs和存储器的系统或一个或多个在半导体器件上形成的晶片系统组成。

下面将描述当本实施例的语音识别和翻译系统应用于便携式翻译机时的语音识别的操作和实际情形。

图9是在海外旅游期间使用便携式翻译机预先检测在海外机场，火车站等地，在诸如飞机，公共汽车，地铁，出租车，等处，或在观光楼周围语音和通告的流程，并预先生成执行通告语音所需的翻译的声学模式。

首先，在ST901步，利用安装在便携式翻译机上的多方向性麦克风803或方向性麦克风802，记录无通告语音时在任意处的静态噪声“B”。然后，在ST902步，用方向性麦克风802记录当在进行通告时的通告语音“A”。通告语音“A”主要包含如先前记录的噪声“B”一样的背景噪声。然后，去噪声单元812从叠加了噪声的通告一样信号的频谱“A”中减去代表静态噪声的信号的频谱“B”(ST903步)。然后，由相减得到的频谱“C”(频谱“C”＝频谱“A”-频谱“B”)并作为通告语音频谱数据存储到大规模通告声音数据库824中，并根据这些数据，将静态噪声“B”的频谱数据存入大规模通告声音数据库824中(ST904步)。声音分析单元825对所存入的通告语音频谱“C”进行短时频率分析以实现声音特征提取(声音分析)，并也分析噪声环境(ST905)。最后，根据语音分析结果，模式学习单元826生成一个声学模式(模式学习)和将生成的声学模式与一个代表词或句的码相关，并将该声学模式存入声学模式存储单元819(ST906步)。

图10是一个显示海外旅游者用便携式翻译机对在海外机场，火车站等地，在诸如飞机，公共汽车，地铁，出租车，等处，或在观光楼周围的语音和通告语音进行语音识别的一系列处理的流程图。

假设，一个海外旅游者并不理解如在飞机场，火车站等地，在飞机，公共汽车，地铁，出租车，等处，或在观光楼中听到的通告的含义。然而，他可从随队的听众的反应容易地判断所通告的事情与其有关。此时，该旅游者打开便携式翻译机，而无通告语音时的各处的静态(即背景环境)噪声“B”通过安装在便携式翻译机上的多方向麦克风或方向性麦克风被记录(ST1001)。然后，当感兴趣的通告实际开始时，通过方向性麦克风802将包含基本上与先前记录的静态噪声“B”一样的噪声的通告语音记录下来(ST1002步)。

接着，在ST1003步，去噪声单元812从混杂有噪声的通告语音信号的频谱“A”中减去静态噪声信号的频谱“B”。然后，对由减操作获得的频谱“C”进行短时频率分析来实现生特征提取(声分析)(ST1004)。然后，根据连续通告语音的输入波形检测存在所需语音的区段(ST1005)，最后，将输入的语音与通告识别目标的声学模式和词或句模式相比较，以检测有关键词或键句。

图11示出了搜索一个声学模式的示意图，说明可容易地以一个通告语音的数字数据813的声学对照处理来搜索一个声学模式，其中的数字数据813是通过从包含噪声的通告语音中去除噪声获得的。

如上所述，在已经进行了去噪声处理的通告语音的数字数据中并未去全部噪声。然而，在该处理中，噪声已经显示减少，因为通告语音被显示加重了。于是，如果可以识别噪声的类型的话，则就可能在各处的嘈杂环境下进行通告语音的语音识别。

在图11中，参考数字1101代表去除噪声的通告语音的数字数据，参考数字1102代表用来执行声学对照的声学对照单元，参考数字1103代表噪声声学模式，参考数字1104代表一个判断单元，而参考数字1105代表根据每个噪声环境码一个被学习的和被存储的环境声学模式。在图11的构成的元素，噪声声学模式1103和通告语音模式1105被包含在图的声学模式存储单元819中。声学对照单元1102和判断单元1104分别对应于图8的声学对照单元817和判断单元818。

在本实施例中，如上所述，无通告语音时的静态(即背景环境)噪声“B”由安装在便携式翻译机多方向性或方向性麦克风在检测一个要翻译的目标语音(此时为一个通告语音)前预先记录好(参阅图10的ST1001步)。此时，声学对照单元1102中，噪声“B”被与存储在噪声声学模式1103中的各种模式相比较，以便识别噪声“B”产生处的场所(噪声环境)。通过识别一个加有噪声声学模式的噪声环境码来进行上述识别的。然后，记录包含静态噪声“B”的通过语音“A”，接受预定处理，并与相应于被识别的环境地面噪声环境下的通告语音模式相对照。如上所述，只有对相应于被识别的噪声环境码的通告语音模式进行搜索和将通告语音与所搜索的模式进行对照，所以可以容易而迅速地进行搜索操作。例如，当噪声“B”是在地铁中的背景环境噪声时，声学对照单元1104只搜索在“在地铁”的噪声环境下的通告语音模式就足够了。

图12A和12B分别显示了一个使用便携式翻译机的场景及其外观图。更具体地说，图12A示出了一个导游通告混有火车站内的声音。一个旅游使用者可通过显示一个便携式翻译机的声输出装置识别通过的内容。当该使用者希望将该通告翻译成，例如，日语时，因为他是日本人，则会将此通告翻译成日语。

图12B示出了便携式翻译机的外形，其中参考数字1201代表便携式翻译机的主体，而参考数字1202代表用来检测在飞机场，火车站等地，在飞机，公共汽车，地铁，出租车，等处，或在观光楼中听到的通告语音，或在讲演处的语音。参考数字1203代表用来从上述语音中去除噪声和检测无目标语音在该处的全体声音的多方向性麦克风。参考数字1204代表用来输出被翻译的语音的声输出单元，以使使用者可以听到该语音，该声输出单元包括一个扬声器和耳机。参考数字1205代表一个用来显示语音翻译结果的内容的显示器。参考数字1206代表可一个集成电路卡，在该卡中装有用于语音识别和翻译的声学模式存储单元819，字典820，语法字典821，词典830，和语法字典831。参考数字1207代表一个集成电路卡，在该卡中装有用于语音识别和翻译的字典834，语法字典835和发音字典836。

图13是一个显示内容的例子，该内容是由便携式识别和翻译机通过语音识别和翻译获得的。在图13中，参考数字1301代表便携式翻译机的显示区域。将通过识别一个在飞机场，火车站等地，在飞机，公共汽车，地铁，出租车，等处，或在观光楼中听到的通告语音，或在讲演处的语音识别结果，以当地语言的字符形式显示在显示区域1301的局部区域1302中。此外，将一个翻译结果以字符的形式形式在局部区域1303上。例如，在本例中是将阿拉伯语翻译成英语词或句。另外，配置了一个区域1304用来显示一个翻译的信息，例如翻译率概率，翻译成功率等信息。在本例中，将翻译成功率显示在区域1304中。除了在翻译前，可以将翻译成功率，有关原来语言的的类型的信息显示在区域1304上。

根据本发明，可以提供有关适用于识译在飞机场，火车站等地，在飞机，公共汽车，地铁，出租车，等处，或在观光楼中听到的通告语音，或在讲演处的语音的语音识别和翻译系统。

本发明并限于上述实施例，熟悉本技术领域的人们可以在权利要求中所要求保护的主题范围内可以作出各种修改。无需说，这种修改均在本发明的覆盖范围内。例如，在第一个发明中，字符(文件)识别和翻译系统包括识别系统101，学习系统102和翻译系统103。然而，识别系统101和翻译系统103可以安装在有关诸如便携式翻译机这样的有关紧凑的器件上，而学习系统102则可安装在具有诸如个人计算机之类的相对为大容量存储器件。在本例中个人计算机，便携式翻译机被连接到被互连而识别系统和学习系统被用以将学习系统102的样本掩码学习单元117数据送到识别系统101的样本掩码存储单元111。于是，在识别系统的样本掩码存储单元111存储了必要数据，因此，便携式翻译系机可自由使用。于是，个人计算机至少可以配置字符数据库115，同时，给可拆地与个人计算机连接的便携式翻译机还可配置其它构件。

此外，在第二实施例中，语音识别和翻译系包括识别系统801，学习系统823，和翻译系统828。在这些构件中，可将诸如便携式翻译机这样的小型设备配置识别系统801和翻译系统828，而给诸如个人计算机这样的大容量存储设备配置学习系统823。在这种情形下，个人计算机和便携式翻译机被相互连接，并配合识别系统801和学习系统823的工作，以便将来自学习系统823的模式学习单元826的数据送到识别系统101的声学模式存储单元819。于是，将所需的数据存储在识别系统801的声学模式存储单元819，因而便携式翻译机可自由使用。另外，也可以至少给个人计算机配置声数据库824，同时也可将其他的构件配置给可拆地与个人计算机相连的便携式翻译机。

此外，在本说明书中，词“装置”并不一定意味着是一种实体装置，而是也可是获得装置的功能的软件。另外，一个装置或元件的功能可以由两个或多个实体装置或元件获得，或两个或多个装置或元件的若干功能也可由一个装置或元件获得。

Claims

1.一种用来识别包含在所摄取的图象的字符并翻译由所识别的字符组成的词或句的字符识别和翻译系统，包括：

一个字符数据库，用来积累代表包含在摄取的图象中的字符的字符数据；

一个字符形状分析单元，用来根据在字符数据库中的字符数据分析每个字符的形状和用来提取构成字符的字符构元的特征；

一个掩码学习单元，用来根据所述字符形状分析单元的分析结果产生字符构元的样本掩码数据；

一个一个字符对照单元，用来将用作为识别目标的字符的字符数据与字符构元的样本掩码数据相对照，所述的识别目标包含在新摄取的图象中；和

翻译单元，用来翻译由所述字符对照单元识别的字符组成的词或句。

2.如权利要求1所述的字符识别和翻译系统，其中所述的字符识别和翻译系统包括一个具有一个外部存储设备的静止安装式的信息设备和一个可拆地与所述静止安装式的信息设备相连接的便携式信息设备，所述字符形状分析单元和所述掩码学习单元配置给所述静止安装式信息设备，所述外部存储设备包含所述字符数据库，并给所述便携式信息设备配置所有其余的构件。

3.如权利要求1所述的字符识别和翻译系统，其中所述的字符形状分析单元将来自所述字符数据库的字符数据分出m×n象素的二进制数据，并给每个象素检测“1”或“0”，同时将字符数据以增量n划分(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)个包含字符特征的象素区域和分析代表字符识别的加权系数和/或连接及结束的属性。

4.如权利要求3所述的字符识别和翻译系统，其中所述的掩码学习单元附加每个包含字符特征的m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)个象素区域，所述字符特征具有代表用来表示字符识别的加权系数(即代表字符的什么是感兴趣的)的属性和/字符的起始，关联及结束以产生样本掩码数据。

5.如权利要求4所述的字符识别和翻译系统，其中所述的包含对照单元的字符从在所述字符数据库的字符数据中分出m×n象素的二进制，并检测每个象素的“1”或“0”，同时将字符数据以增量n分为m×n1(n1≤n)，m×n2(n2≤n)，...，m×ni(ni≤n)个包含字符特征的象素区域，并将象素区域的数据与样本掩码数据相比较。

6.如权利要求4或5所述的字符识别和翻译系统，还包括一个用来存储样本掩码数据的样本掩码存储器，所述样本掩码数据是由所述掩码学习单元获得的，所述样本掩码存储器给一个任意的字符存储不同的样本掩码数据n1，n2，...，nj。

7.如权利要求1-6中任一权利要求所述的所述的字符识别和翻译系统，还包括一个用来摄取包含字符的图象的图象摄取单元，和一个字符阵列指定单元，用来从由所述图象摄取单元摄取的图象数据中指定一个包含要被识别的词或句的字符阵列。

8.如权利要求7所述的字符识别和翻译系统，其中所述的字符阵列指定单元在由所述的图象摄取单元获得的图象数据的任何位置上指定一个或一个以上的m×n象素区域。

9.如权利要求8所述的字符识别和翻译系统，其中所述的字符阵列指定单元在由所述的图象摄取单元获得的图象数据的任何位置上指定一个或一个以上的m×n象素区域。

10.如权利要求8或9所述的字符识别和翻译系统，其中当由所述字符阵列指定单元获得字符阵列为横向书写时，所述字符对照单元获得象素区域并将其以增量n划分，该n与字符的宽度方向上的n个象素相关，并将该象素区域的数据与样本掩码数据相对照。

11.如权利要求1-10中任一权利要求所述的字符识别和翻译系统，其中所述的字符识别和翻译系统包括一个具有外部存储设备的静止安装式信息设备，和包括一个可拆地与所述静止安装式信息设备相连的便携式信息设备，而其中至少将所述的字符数据库配置该所述静止安装式信息设备的外部存储设备，而给所述的便携式信息设备配置其余的构件。

12.一种字符识别和翻译系统，用来根据代表字符的字符数据分析包含在摄取的图象的字符的形状以获得构成该字符的字符构元的样本掩码数据，在样本掩码数据的基础上，识别一个新摄取的用于字符识别和翻译的字符和翻译由识别的字符组成的词或句，包括：

一个字符对照单元，用来将包含在图象中的字符的字符数据与字符构元的样本掩码数据相比较；和

一个翻译单元，用来翻译由被所述的字符对照单元识别的字符组成的词或句。

13.一种语音识别和翻译系统，用来识别一个检测到的语音和将语音翻译成为词或句，包括：

一个用来存储代表所检测的语音的语音数据的语音存储器；

一个用来去除相应于来自语音数据的噪声的数据的去噪声单元；

一个用来存储被所述去噪声单元除去了噪声的数据的声数据库；

一个第一声分析单元，用来提取相应于存储在所述声数据库中的语音数据的语音的特征；

一个模式学习单元，用来由所述第一声分析单元的分析结果生成声学模式；

一个用来存储声学模式的声学模式存储单元；

一个第二声分析单元，用来提取相应于通过从语音的语音数据中除去代表噪声的数据之后的数据的语音的特征；

一个语音对照单元，用来将由所述的第二声分析单元获得语音数据与存储在所述声学模式存储单元中存储的声学模式的数据相比较以识别该检测到的语音；及

一个翻译单元，利用翻译由所述语音对照单元识别的所检测的语音组成的词或句。

14.根据权利要求13所述的语音识别和翻译系统，其中所述的语音识别和翻译系统包括一个具有一个外部存储设备的静止安装式信息设备，和一个可拆地与所述静止安装式信息设备相连的便携式信息设备，所述第一声分析第一和所述模式学习单元配置给所述静止安装式信息设备，所述外部存储设备包含所述声数据库，而所有其余的构件被配置给所述便携式信息设备。

15.构件权利要求13和14所述的语音识别和翻译系统，其中所述的存储器被用来存储相应于第一语音的第一语音数据，在第一语音中，在要被识别和翻译的目标语音中叠加了环境噪声，和存储相应由环境噪声组成的第二语音的第二语音数据。

16.根据权利要求15所述的语音识别和翻译系统，其中所述的去噪声第一包括将第一语音数据的第一语音频谱数据与第语音数据的第二语音频谱数据相比较，以获得相应于已除去了噪声的数据的频谱数据。

17.根据权利要求16所述的语音识别和翻译系统，其中所述的声数据库存储第一频谱数据和第二频谱数据同时将它们互相相关联。

18.根据权利要求17的语音识别和翻译系统，其中所述的声学对照单元将环境噪声的噪声频谱数据与在第二频谱数据基础上获得噪声声学模式的数据相对照，而这些数据是在要识别和翻译的语音被输入处预先获得的，从而可识别噪声的类型，并且所述声学对照单元将要识别和翻译的语音语音数据与第语音数据的声学模式的数据相对照，所述第一语音数据是根据噪声的类型确定的，从而可识别该语音。

19.根据权利要求13-18的其中任一权利要求的语音识别和翻译系统，其中由所述翻译单元所获得的结果被至少显示设备作为字符输出，将一个由翻译前的词或句组成的原来语言文本和由在翻译之后的词或句组成的语言显示在所述显示设备的屏幕上。

20.根据权利要求19所述的语言识别和翻译系统，其中所述结果包含代表翻译精确度的翻译率或语言类型其中之一。

21.根据权利要求13-20之一所述的语音识别和翻译系统，其中所述的语音识别和翻译系统包括一个具有一个外部存储设备的静止安装式信息设备和包括一个可拆地与所述静止安装式信息设备相连的便携式信息设备，并且给所述静止安装式信息设备的外部存储设备至少配置第二数据库，同时给所述便携式信息设备配置其余的构件。

22.一种语音识别和翻译系统，用来从代表一个输入语音的语音数据中去除相应于噪声的数据，以便提取相应于由此获得语音的特征，以便根据提取结果生成声学模式，根据声学模式设备一个新输入的语音，并翻译构成该设备的语音的词或句，包括：

一个第二声分析单元，用来根据通过从新输入语音的语音数据中去除代表噪声的数据获得数据提取相应于所关心的数据语音的特征；

一个语音对照单元，用来将由所述第二声分析单元获得的语音数据与声学模式相比较以设备该语音；及

一个翻译单元，用来翻译由所述语音对照单元识别的语音构成的词或句。