CN1197525A

CN1197525A - 交互式语言训练设备

Info

Publication number: CN1197525A
Application number: CN97190882A
Authority: CN
Inventors: 泽夫·什皮罗
Original assignee: Digispeech Israel Ltd
Current assignee: Digispeech Israel Ltd
Priority date: 1996-07-11
Filing date: 1997-05-04
Publication date: 1998-10-28
Also published as: KR19990044575A; JPH11513144A; AU2403297A; IL123556A0; EP0852782A4; US5766015A; EP0852782A1; WO1998002862A1; BR9702341A

Abstract

本发明是一种用于交互式语言训练的设备,它包括:一个用来诱导用户给出期望语声应答的触发发生器;一个含有许多基准期望应答的期望语声应答基准库,这许多基准期望应答包含多个具有可接受的发音的第一类基准期望应答,并且对每一个具有可接受发音的第一类基准期望应答都含有多个各自不同的发音错误的第二类基准期望应答;一个语声应答记分器,它指明用户给出的期望语声应答和基准期望应答之间的关系;以及一个用户反馈界面(12、14、16),它向用户指明在用户给出的期望语声应答中的发音错误。本发明还分开了口语识别设备,它包括:至少一个含有至少是第一种和第二种语言的一些口语元素的数据库;一个用来接收待识别口语的接收器;以及一个比较器,用来把上述口语的特征与上述至少第一种和第二种语言的上述口语的特征的组合进行比较。应该指出,在某些情形中,一个口语元素的组合可以是单个口语元素。还公开了一种用于口语识别的方法。

Description

交互式语言训练设备

本发明的领域

本发明涉及在教育系统中特别有用的口语识别系统，尤其是涉及用来教授语言的提供基于音素的口语识别的计算机系统。

本发明的背景

用于教授语言的计算机系统是众知的。美国专利No.5,487,671说明了一种用于教授语言的计算机系统，该系统特别地给出了用户的语言和基准语言之间关系的一种指示，本发明的发明人是该专利发明人之一。

可以从The Learning Company(“学习公司”)购得商品名为“Learn toSpeak English(学习说英语)”的一种产品，该产品基本上具有上述专利的特性。

从以下各公司可购得这方面的其他一些产品：HyperGlot、Berlitz、Syracuse Language Systems Mindscape Global Language和Rosetta StoneLanguage Library。

基于音素的口语识别计算机系统也是众知的，并能购买到。这种系统的例子有：

“IBM Voice Type，Simply Speaking for students，home users a ndsmall businesses(IBM语音型，学生、家庭用户和小公司的简单口语)”，由IBM(国际商用机器公司)推出；

“IBM Voice Type for professional and business use(IBM语音型，专业和商务应用)”，由IBM推出；

“Talk To Me(对我说话)”，由美国麻省Newton市的Dragon Systems推出；

“ASR-1500”，由比利时Leper市的Lernout&Hauspie SpeechProducts N.V.推出。

本发明概述

本发明试图提供一种进一步改进的用于教授语言的计算机系统，它能够向用户指明用户发音错误的类型。

于是，根据本发明的一个优选实施例提供了一种用于交互式语言训练的设备，该设备包括：

一个触发发生器，用于诱导用户作出期望的语声应答；

一个期望语声应答基准库，其中含有许多基准期望应答，这许多基准期望应答包含多个具有可接受的发音的第一类基准期望应答，并且对每一个具有可接受发音的第一类基准期望应答都含有多个各自有不同的发音错误的第二类基准期望应答。

一个语声应答记分器，它指明用户给出的期望语声应答和基准期望应答之间的关系；以及

一个用户反馈界面，它向用户指明用户给出的期望语声应答中的发音错误。

用户反馈界面最好还向用户给出关于如何克服发音错误的教导。

根据本发明的一个优选实施例，用户反馈界面在紧接着每个期望语声应答之后立即向用户指明相应的发音错误。

反馈界面最好声响地和可视地指明发音错误。

根据本发明的一个优选实施例，有一个语声样本发生器，它的工作使得期望发声应答是语声样本的复现。

或者，语声样本发生器的工作使期望语声应答不是语声样本的复现。

另一种选择是，语声样本发生器的工作使期望语声应答是可以从多于一个的可能的期望语声应答中选择的一个语声样本。

触发发生器最好含有一个语声样本发生器，用来向用户再生语声样本。

另一种选择是，触发发生器含有一个可视触发发生器，或者增添一个可视触发发生器，用来向用户提供可视的触发输出。

期望语声应答库最好包括一个期望语声应答基准库。

根据本发明的一个优选实施例，期望语声应答基准库包括许多样板，并且这个库与说话人无关。

根据本发明的一个优选实施例还提供了一种用于交互式语言训练的方法，该方法包括：

诱导用户给出期望语声应答：

提供一个包含许多基准期望应答的期望语声应答基准库，这许多基准期望应答包含具有可接受的发音的多个第一类基准期望应答，并且对每一个具有可接受发音的第一类基准期望应答都有多个各自有不同的发音错误的第二基准期望应答；

指明用户给出的期望语声应答和基准期望应答之间的关系；以及

向用户指明在用户给出的期望语声应答中的发音错误。

还是根据本发明的一个优选实施例，该方法还包括向用户给出如何克服发音错误的教导。

还是根据本发明的一个优选实施例，该方法还包括紧接着每个期望语声应答之后立即向用户指明相应的发音错误。

还是根据本发明的一个优选实施例，该方法包括向上述用户声响地和可视地指明上述发音错误。

还是根据本发明的一个优选实施例，该方法还包括：期望语声应答是上述语声样本的复现。

或者，该方法还包括：期望语声应答不是上述语声样本的复现。

还是根据本发明的一个优选实施例，期望语声应答是可以从多于一个的可能的期望语声应答中选择的一个语声样本。

还是根据本发明的又一个优选实施例，诱导语声应答的步骤包括向用户再生语声样本。

还是根据本发明的一个优选实施例，诱导步骤包括向用户提供可视的触发输出。

根据本发明的一个优选实施例，还提供了一种口语识别设备，该设备包括：至少一个含有至少是第一种语言和第二种语言的一些口语元素的数据库；一个用来接收待识别口语的接收器；以及一个用来把口语的特征与至少是第一种语言和第二种语言的一些口语元素的特征的组合进行比较的比较器。应该指出，在某些情况下口语元素特征的组合可以是单个口语元素的特征。口语元素的特征可以是口语元素信号。

根据本发明的一个优选实施例，还提供了一种语言教学系统，该系统包括：一个用来诱导用户给出期望语声应答的触发发生器；一个口语识别器，它用来接收用户说出的期望语声应答，它含有至少一个含有至少是第一种语言和第二种语言的一些口语元素的数据库；一个用来接收待识别口语的接收器；一个用来把上述口语的特征与上述至少是第一种语言和第二种语言的一些口语元素的特征的组合进行比较的比较器；以及一个用户反馈界面，用来向用户指明在用户给出的期望语声应答中的错误。应该指出，在某些情况中口语元素的特征的组合特征可以是单个口语元素的特征。口语元素的特征可以是口语元素信号。

还是根据本发明的一个优选实施例，口语元素包含音素、双音素和音素间过渡中的至少一种。

还是根据本发明的一个优选实施例，语言教学系统还含有一个样板发生器，它的工作将产生短语样板。

还是根据本发明的一个优选实施例，该语言教学系统还含有一个特征提取器，它的工作将提取接收器所接收到的口语的特征。

根据本发明的一个优选实施例，还提供了一种口语识别方法，该方法包括：提供至少一个含有至少是第一种语言和第二种语言的一些口语元素的数据库；接收待识别的口语；以及把口语的特征与至少是第一种语言和第二种语言的一些口语元素的特征的组合进行比较。应该指出，在某些情况中口语元素的特征的组合可以是单个口语元素的特征。口语元素的特征可以是口语元素信号。

还是根据本发明的一个优选实施例，口语是用户用第一种语言说出的，而该用户的母语是第二种语言，并且其中至少一个数据库同时含有第一种和第二种这两种语言的口语元素。

还是根据本发明的一个优选实施例，至少第一种和第二种语言是不同民族的语言。

仍是根据本发明的一个优选实施例，至少第一种和第二种语言是同一民族的语言中的不同方言。

附图的简单说明

通过下面结合附图所作的详细说明，将可更充分际了解和认识本发明，在附图中：

图1是根据本发明的一个优选例构筑和操作的一种交互式语言教学系统的概要图形说明；

图2是在语言教学过程中图1系统的操作的概要功能性方框图；

图3是在根据本发明的一个实施例进行语声基准库生成的过程中图1系统的操作的功能性方框图；

图4是在根据本发明的另一个实施例进行语声基准库生成的过程中图1系统的操作的概要功能性方框图；

图5A和5B组成了说明在根据图2的概要功能性方框图进行语言教学的过程中系统的操作的概要流程图；

图6A、6B和6C组成了说明在根据图3的概要功能性方框图进行用于语言教学的语声基准库的生成过程中系统的一种操作方法的概要流程图；

图7是说明在根据图4的概要功能性方框图进行用于语言教学的语声基准库的生成过程中系统的操作的概要流程图；

图8是图4中所用类型的语音样板数据库的生成的简化图示说明；

图9是一个标记语言(labeled speech)波形的简化图示说明；

图10是根据本发明的一个优选实施例的多语言语音数据库的生成的图示说明；

图11是利用音素的口语识别的图示说明；以及

图12是利用各种语言的音素的口语识别的图示说明。

优选实施例的详细说明

现在参见图1和图2，前者是根据本发明的一个优选实施例构作和操作的一种交互式语言教学系统的概要图形说明，后者是在语言教学过程中图1系统的操作的概要功能性方框图。

应该指出，图1的系统与美国专利No.5,487,671中说明的ComputerizedSystem for Teaching Speech(用于口语教学的计算机系统)有许多相似之处，该专利所公开的内容在此引作参考。

如下面将要详细说明的，本发明的系统与美国专利No.5,487,671的系统的差别在于，本系统操作中带有一些各自有不同发音错误的基准期望应答，并且本系统含有一个语声应答记分器，它指明了用户给出的期望语声应答和带有发音错误的基准期望应答之间的关系。

图1和2的系统具有根据本发明的一个优选实施例的口语识别功能。

图1和2的系统最好以一台普通的个人计算机10为基础，该计算机例如是一台IBM PC或兼容机，其中采用了33MHz或更高主频的Intel80486CPU(中央处理单元)、至少8MB的存储器、并且用6.0版本或以上的DOS操作系统。个人计算机10最好配备有一个辅助声响模块12。例如，一种合适的声响模块12是由Digispeech，Inc公司制造并由美国加州Mountain View市的DSP SOLUTIONS Inc.公司在美国发行销售的Digispeech Plus声响适配器(DS311)。最好有一个头盔14与声响模块12相连。

通常，对个人计算机10和声响模块12配置有适当的软件，以便提供下述各种功能：

一个用来诱导用户给出期望语声应答的触发发生器，该触发发生器最好包括一个语声样本发生器，以向用户再生语声样本，或者也可增加或更换成一个可视触发发生器，以向用户提供可视的触发输出；

一个含有许多基准期望应答的期望语声应答基准库，这许多基准期望应答包含多个具有可接受的发音的第一类基准期望应答，并且对每一个具有可接受发音的第一类基准期望应答都有多个各自有不同的发音错误的第二类应答。多个第二类基准期望应答可以包含由各种语言的音素所构成的应答，并且一般可以应用于口语识别；

一个用户反馈界面，它向用户指明在用户给出的期望语声应答中可能存在的发音错误。

用户返馈界面最好通过声响模块12和头盔14来提供声响反馈。此外，从图1和2可以看出，最好还提供一个显示器16，以便用可视的方式向用户指明发音错误，如图1中所示。

根据本发明的一个优选实施例，使用了总共6个不同的数据库。为了方便于和易于理解本发明，下面按这6个数据库在本发明中生成和使用的次序，对它们作一简短的说明：

A.中间语声样本数据库--该数据库由记录许多本民族民众的说话来生成，这些民众有不同出生地、不同年令和不同性别的分布。这许多本发族民众可以包括说各种不同语言的人。每个说话人要发出多个预定短语的声音。对于其中每一个预定短语，每个说话人要正确地发音该短语，还要重复几次不正确的发音，每次发音带有多种预定发音错误中的一种预定错误。该数据库最好对每个说话人和每个上述短语发音有多次的记录，以增强统计的基础。

B.期望语声应答基准数据库--这是一个含有一些样板而不是含有口语记录的数据库。

可以提供各种类型的样板。一种在基于单词的口语识别中有用的类型的样板可以用后述方法从数据库A中导出。另一种在基于音素的口语识别中有用的类型的样板包括一些口语元素的特征的各种组合，这些口语元素的总体代表一个短语。

在基于单词的口语识别中有用的样板可以从中间语声样本数据库A导出，其方法是从每个发音短语中提取一些口语参数，并把它们统计地结合起来，以代表上述许多本民族民众的发音。

这样，每一个样板便代表了一群本民族民众发音的统计结合。

有可能只生成单个样板来涵括在中间语声样本数据库A中记录了他们的发音的所有本民族民众，或者，如果单个样板不能精确地代表全部本民族民众，则也可以用多个样板。例如可以用一个样板代表男性，另一个样板代表女性。各个样板也可以增添或代之以含有另一种语言的一些音素。

根据本发明的一个优选实施例，期望语声应答基准数据库B构成了前述的期望语声应答基准库。这是一种与说话人无关的数据库。

可以提供各种类型的样板。一种类型的样板在基于单词的口语识别中有用，可以用上述方法从数据库A导出。另一种类型的样板在基于音素的口语识别中有用，包括一些口语元素的特征的各种组合，这些口语元素的总体代表一个短语。

C.语音数据库--这是一种可购买到的关于某一种给定语言的一些音素的口语参数的数据库。这数据库例如可以从AT&T(美国电话电报公司)、美国科罗拉多州Boulder市的Speech Systems Incorporated公司、以及比利时Leper市的Lernout&Hauspie Speech Products N.V.公司购到。可以配置多个语音数据库，其中每一个分别含有一种不同语言的音素口语参数，这些语音数据库的总体在这里仍叫做语音数据库。

D.用户应答数据库--这是用户应答记录的一个集合。

E.期望语声样本数据库--这是对每一个正确地发出了多个短语中每个短语的声音的单个训练说话人的记录的集合。

F.基准语声样本数据库--这是对每一个几次不正确地发出了多个短语中每个短语的声音的单个训练说话人的记录的集合，其中每次不正确发音各带有多种预定发音错误中的一种不同的错误。

现在参见图2，这是一个在语言教学过程中图1系统的操作的概要功能性方框图。

为了诱导用户给出期望语声应答，通过声响模块14(图1)向用户再生存储在期望语声样本数据库E中的语声样本。通常作为头盔14的一部分的一个话筒20被用来记录用户的语声应答，该应答被存储在用户应答数据库D中。典型地，语声样本是说出的短语。这些短语可以含有一个或多个单词。为了诱导用户给出期望语声应答，也可以增添或者代之以提供一个可视触发发生器，向用户提供可视的触发输出。

从用户的语声应答中提取出所说短语的一些参数，把这些参数与基准短语参数相比较，以测量用户语声应答中的所说短语参数和存储在期望语声应答基准数据库B中的相应的正确或不正确的短语的基准短语参数之间的匹配的相似性。

应该指出，基准短语参数并不必定包括单词和单词的组合。基准短语参数也可以包括口语元素特征的各种组合，在执行基于音素的口语识别时尤其是这样。

相似性测量的结果是选出一个最接近于用户发声应答的一个短语，或者是指明匹配失败。向用户给出一个声响的(或者最好还有可视的)反馈说明，以指明所匹配的短语以及它是否正确。在教学过程中，用户的应答最好是一个单词、几个单词、或其中还有一个或几个短语是匹配的一个或几个语句。最好还用声响--可视形式来给出关于如何克服所指出的错误的附加教学信息。为此目的，最好使用最好是头盔14(图1)的一部分的头戴耳机22和显示器16。

现在参见图3，这是一个在生成根据本发明的一个实施例的期望语声应答基准数据库B的过程中图1系统的操作的概要功能性方框图。这里，用一个话筒30来记录由多个本民族民众说出的短语，这些在众有各种出生地、各种年龄和性别分布。

每个说话人发出多个预定短语的声音。对于其中每个预定短语，每个说话人正确地发音该短语，而且还重复几次不正确的发音，每次发音带有多种预定错误中的一种不同的错误。发音记录被保存在中间发声样本数据库A中。该数据库最好对每个说话人的每个上述短语发音有多个记录，以增强统计的基础。

对于基于单词的口语识别情况，提取出所说短语的一些参数，并把它们与已经存储在期望语声应答基准数据库B内的短语参数融合在一起，以构筑期望语声应答基准数据库B。该数据库包含许多基准期望应答，这些基准期望应答包括具有可接受的发音的第一类基准期望应答，并且对每一个具有可接受发音的第一类基准期望应答都含有多个各自有不同的发音错误的第二类基准期望应答。

可以看出，每个短语都分别由M个说话人正确地发音N次进行记录。另外，还分别由M个说话人以L种各带有不同发音错误的不同形式记录N次。

现在参见图4，这是一个在根据本发明的另一个实施例生成语声基准库的过程中图1系统的操作的概要功能性方框图。这里，期望语声应答基准数据库B是由计算机生成的，其方法是生成用来产生语音语言记录的文本和语音语言文件。语音语言记录与语音数据库C一起用来产生一些短语样板，这些板板的总体构成了期望语声应答基准数据库B。

在图4的实施例中，典型的情况是，这些短语样板不是单词或单词的组合，而是一些像音素、双音素和音素间过渡这样的口语的元素的特征的组合。在基于音素的口语识别中，把待识别口语的特征与这些组合相比较，以找到最佳的匹配。

现在参见图5A和5B，它们一起构成了说明在根据图2的概要功能性方框图进行语言教学的过程中系统的操作的概要流程图。一旦完成了该流程图中指出的一些初始准备之后，最好是在选定了想要从数据库E听到的语声类型之后，便将选出某一篇课程，并向用户说明如何发音某一选定声音。对于每个选定声音，将向用户再生从基准语声样本数据库E取出的一个基准语声样本，以诱导用户给出期望语声应答。

用户的应答被“Student Response Specimen Recorder(学生应答样本记录器)”记录下来，并与含在期望语声应答基准数据库B内的基准期望应答进行比较，上述记录器在美国专利No.5,487,671中已有说明，其公开内容引用于此作为参考。

如果最佳匹配是匹配于正确应答的，则向用户提供肯定反馈，课程进入到下一个语声样本。

如果最佳匹配匹配于带有发音错误的基准期望应答，则向用户给出相应的反馈，这个反馈最好包括对错误的说明以及如何进行纠正，还包括再生该基准期望应答。根据本发明的一个优选实施例，从基准语声样本数据库F向用户再生该错误发音的短语。

可以使用一个用户应答数据库D来再生最新的或较早的用户应答，以指明用户的进步，这个再生可以包含在系统的反馈中，或者用于其他目的。

现在参见图6A、6B和6C，它们一起构成了说明在根据图3的概要功能性方框图生成用于语言教学的语声基准库的过程中系统的操作的概要流程图。

一旦完成了该流程图中指明的初始准备后，训练的说话人说出正确的短语和多个不正确的短语和多个不正确的短语，后者的发音相似于正确的短语但在发音中有一个或几个错误，以提供各个分别带有不同发音错误的基准期望应答。记录每一组这样的正确和不正确短语。根据本发明的一个优选实施例，中间语声样本数据库A含有各种记录。如前面参考图3所说明的，数据库A用来产生期望语声应答基准库B，图6 C用于基于单词的口语识别。

现在参见图7，这是一个说明在根据图4的概要功能性方框图生成用于语言教学的语声基准库的过程中系统的操作的概要流程图。这里用一台计算机进入简明的文本和发音语言，并把文本转换成指明的语音语言。利用前述类型的语音数据库C，产生短语样板。然后把短语样板存储到期望语声应答基准数据库B中。这样的处理对系统所采用的每一个短语样板都执行一次。应该指出，这些短语样板在典型情形中不是单词或单词的组合，而是像音素、双音素和音素间过渡这样的口语元素的特征的组合。在基于音素的口语识别中，把待识别口语的特征与这些组合进行比较，以找到最佳的匹配。

现在参见图8和9，它们说明根据本发明的一个优选实施例生成图4和7中所用类型的语音数据库C的处理。例如在图9中典型地示出的标记口语的数据库50可以从TI MI T Acoustic-phonetic Continuous Speech Corpora获得，这可通过地址为online-service@ldc.upenn.edu的电子邮件从宾夕法尼亚大学的Linguistic Data Consortium购得。一个样板构筑器52在数据库50上操作，给出语音数据库C，该样板构筑器52典型地由一种可购得的软件实现，这种软件例如是可通过地址为sales@entropic.com的电子邮件从Entropic CambridgeResearch Laboratories，Ltd有限公司购得的HTK(Hidden Markov Model Toolkit(隐藏马尔科夫模型工具箱))。图8的技术可应用于各种语音。

对于语音数据库58包括各种语言的一些音素的情况，语音数据库C由结合多个语音数据库54、56来实现，如图10所示。本发明的一个特有特征是，语音数据库54和56包含被学习或口说的一种语言的一些音素，同时也包含用户母语的一些音素，这样它们可以结合起来给出增强的口语识别。

现在参见图11，这是一个说明利用音素进行口语识别的图。在图示的例子中，期望单词是“tomato(西红柿)”。生成了一个关于各种期望发音的网络。这里，说话人可能把第一个“0”发音成“O”、“OW”、或“U”，其中“O”这个发音被认为是正确的。

类似地，用户可能把“a”发音成“A”或“EY”，其中“EY”这个发音被认为是正确的。

图11的特征在于，用来进行口语识别的所有音素都属于同一种语言。

现在参见图12，这是一个说明利用各种语言的音素来进行口语识别的图。该例子是为识别由日本人所说的英语而设计的。这里期望单词是“Los Angeles(洛杉矾)”中的“Los”。从图中可以看出，说话人可能把“L”发音成“L”(圆圈内的“L”)、英语的“R”(圆圈内的“R”)、或者日语的“R”(方块内的“R”)。

图12的特征在于，用来进行口语识别的各音素并不全都属于同一种语言。在图12的例子中，一些音素是英语音素(圆圈内的字母)，而另一些音素则是日语音素(方框内的字母)。

这样便可以看到，当利用图12的口语识别技术来进行语言教学时，系统将能识别出日本人特有的错误发音，从而可向用户给出必要的教学反馈。当图12的口语识别技术用于其他口语识别应用时，能识别出英语发音不完善的日本所说出的英语。

应该指出，对于熟悉本技术领域的人们来说，本发明并不局限于前面具体示出和说明的内容。反之，本发明的范畴应包括前述各种特征和要素的结合和部分结合，同时包括它们各种显然的变化和扩充。

Claims

1、交互式语言训练设备，它包括：

一个触发发生器，用来诱导用户给出期望语音应答；

一个期望语声应答基准库，它含有许多基准期望应答，这些基准期望应答包括多个具有可接受的发音的第一类基准期望应答，并且对上述每一个具有可接受发音的第一类基准期望应答都含有多个各自有不同的发音错误的第二类基准期望应答。

一个用户反馈界面，它向用户指明在用户给出的期望语声应答中的发音错误。

2、根据权利要求1的设备，其中上述用户反馈界面还向用户给出如何克服发音错误的教导。

3、根据权利要求1的设备，其中上述用户反馈界面在紧接着每个期望语声应答之后立即向用户指明每个发音错误。

4、根据权利要求1的设备，其中上述反馈界面给出关于上述发音错误的声响的和可视的指示。

5、根据权利要求1的设备，其中上述语声样本发生器的工作使得期望语声应答是上述语声样本的复现。

6、根据权利要求1的设备，其中上述语声样本发生器的工作使得期望语声应答不是上述语声样本的复现。

7、根据权利要求1的设备，其中上述语声样本发生器的工作使得期望语声应答是可以从多于一个的可能的期望语声应答中选择的一个语声样本。

8、根据权利要求1的设备，其中上述触发发生器包括一个用来向用户再生语声样本的语声样本发生器。

9、根据权利要求1的设备，其中上述触发发生器包括一个用来向用户提供可视触发输出的可视触发发生器。

10、根据权利要求1的设备，其中上述期望语声应答库包括一个期望语声应答基准数据库。

11、根据权利要求10的设备，其中上述期望语声应答基准数据库包括许多样板。

12、根据权利要求10的设备，其中上述期望语声应答基准数据库是与说话人无关的。

13、根据权利要求11的设备，其中上述期望语声应答基准数据库是与说话人无关的。

14、一种用于交互式语言训练的方法，它包括：

诱导用户给出期望语声应答；

提供一个含有许多基准期望应答的期望语声应答基准库，这许多基准期望应答包括多个具有可接受的发音的第一类基准期望应答，并且对每一个上述具有可接受发音的第一类基准期望应答都含有多个各自有不同的发音错误的第二类基准期望应答；

向用户指明在用户给出的期望语声应答中的发音错误。

15、根据权利要求14的方法，它还包括向用户给出关于如何克服发音错误的教导。

16、根据权利要求14的方法，它还包括在紧接着每个期望语声应答之后立即向用户指明每一个发音错误。

17、根据权利要求14的方法，它还包括向上述用户给出关于上述发音错误的声响的和可视的指示。

18、根据权利要求14的方法，其中上述期望语声应答是上述语声样本的复现。

19、根据权利要求14的方法，其中上述期望语声应答不是上述语声样本的复现。

20、根据权利要求14的方法，其中上述期望语声应答是可以从多于一个的可能的期望语声应答中选择的一个语声样本。

21、根据权利要求14的方法，其中上述诱导语声应答的步骤包括向用户再生一些语声样本。

22、根据权利要求14的方法，其中上述诱导步骤包括向用户提供一个可视触发输出。

23、口语识别设备，它包括：

至少一个含有至少是第一种和第二种语言的一些口语元素的数据库；

一个接收器，用来接收待识别口语；以及

一个比较器，用来指上述口语的特征与上述至少是第一种和第二种语言的口语元素的特征的组合进行比较。

24、一种语言教学系统，它包括：

一个触发发生器，用来诱导用户给出期望语声应答；

一个口语识别器，用来接收用户所说的期望语声应答，该口语识别器包括：

一个接收器，用来接收待识别的口语；以及

一个比较器，用来把上述口语的特征与上述至少是第一种和第二种语言的上述口语元素的特征的组合进行比较；以及

一个用户反馈界面，它向用户指明在用户给出的期望语声应答中的错误。

25、根据权利要求23的语言教学系统，其中上述口语元素包括音素、双音素和音素间过渡中的至少一种。

26、根据权利要求23的语言教学系统，它还包括一个用来产生短语样板的样板发生器。

27、根据权利要求23的语言教学系统，它还包括一个用来提取由上述接收器接收到的口语的特征的特征提取器。

28、一种口语识别方法，它包括：

提供至少一个含有至少是第一种和第二种语言的一些口语元素的数据库；

接收待识别的口语；以及

把上述口语的特征与上述至少是第一种和第二种语言的口语元素的特征的组合进行比较。

29、根据权利要求28的口语识别方法，其中上述口语是由一个母语为第二种语言的用户用第一种语言说出的，并且其中至少一个数据库含有第一种和第二种语言这两种语言的一些口语元素。

30、根据权利要求28的方法，其中上述至少第一种和第二种语言包括不同民族的语言。

31、根据权利要求28的方法，其中上述至少第一种和第二种语言包括同一民族语言中的不同方言。