CN1197525A - 交互式语言训练设备 - Google Patents

交互式语言训练设备 Download PDF

Info

Publication number
CN1197525A
CN1197525A CN97190882A CN97190882A CN1197525A CN 1197525 A CN1197525 A CN 1197525A CN 97190882 A CN97190882 A CN 97190882A CN 97190882 A CN97190882 A CN 97190882A CN 1197525 A CN1197525 A CN 1197525A
Authority
CN
China
Prior art keywords
language
expectation
mentioned
user
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN97190882A
Other languages
English (en)
Inventor
泽夫·什皮罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digispeech Israel Ltd
Original Assignee
Digispeech Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digispeech Israel Ltd filed Critical Digispeech Israel Ltd
Publication of CN1197525A publication Critical patent/CN1197525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

本发明是一种用于交互式语言训练的设备,它包括:一个用来诱导用户给出期望语声应答的触发发生器;一个含有许多基准期望应答的期望语声应答基准库,这许多基准期望应答包含多个具有可接受的发音的第一类基准期望应答,并且对每一个具有可接受发音的第一类基准期望应答都含有多个各自不同的发音错误的第二类基准期望应答;一个语声应答记分器,它指明用户给出的期望语声应答和基准期望应答之间的关系;以及一个用户反馈界面(12、14、16),它向用户指明在用户给出的期望语声应答中的发音错误。本发明还分开了口语识别设备,它包括:至少一个含有至少是第一种和第二种语言的一些口语元素的数据库;一个用来接收待识别口语的接收器;以及一个比较器,用来把上述口语的特征与上述至少第一种和第二种语言的上述口语的特征的组合进行比较。应该指出,在某些情形中,一个口语元素的组合可以是单个口语元素。还公开了一种用于口语识别的方法。

Description

交互式语言训练设备
本发明的领域
本发明涉及在教育系统中特别有用的口语识别系统,尤其是涉及用来教授语言的提供基于音素的口语识别的计算机系统。
本发明的背景
用于教授语言的计算机系统是众知的。美国专利No.5,487,671说明了一种用于教授语言的计算机系统,该系统特别地给出了用户的语言和基准语言之间关系的一种指示,本发明的发明人是该专利发明人之一。
可以从The Learning Company(“学习公司”)购得商品名为“Learn toSpeak English(学习说英语)”的一种产品,该产品基本上具有上述专利的特性。
从以下各公司可购得这方面的其他一些产品:HyperGlot、Berlitz、Syracuse Language Systems Mindscape Global Language和Rosetta StoneLanguage Library。
基于音素的口语识别计算机系统也是众知的,并能购买到。这种系统的例子有:
“IBM Voice Type,Simply Speaking for students,home users a ndsmall businesses(IBM语音型,学生、家庭用户和小公司的简单口语)”,由IBM(国际商用机器公司)推出;
“IBM Voice Type for professional and business use(IBM语音型,专业和商务应用)”,由IBM推出;
“Talk To Me(对我说话)”,由美国麻省Newton市的Dragon Systems推出;
“ASR-1500”,由比利时Leper市的Lernout&Hauspie SpeechProducts N.V.推出。
本发明概述
本发明试图提供一种进一步改进的用于教授语言的计算机系统,它能够向用户指明用户发音错误的类型。
于是,根据本发明的一个优选实施例提供了一种用于交互式语言训练的设备,该设备包括:
一个触发发生器,用于诱导用户作出期望的语声应答;
一个期望语声应答基准库,其中含有许多基准期望应答,这许多基准期望应答包含多个具有可接受的发音的第一类基准期望应答,并且对每一个具有可接受发音的第一类基准期望应答都含有多个各自有不同的发音错误的第二类基准期望应答。
一个语声应答记分器,它指明用户给出的期望语声应答和基准期望应答之间的关系;以及
一个用户反馈界面,它向用户指明用户给出的期望语声应答中的发音错误。
用户反馈界面最好还向用户给出关于如何克服发音错误的教导。
根据本发明的一个优选实施例,用户反馈界面在紧接着每个期望语声应答之后立即向用户指明相应的发音错误。
反馈界面最好声响地和可视地指明发音错误。
根据本发明的一个优选实施例,有一个语声样本发生器,它的工作使得期望发声应答是语声样本的复现。
或者,语声样本发生器的工作使期望语声应答不是语声样本的复现。
另一种选择是,语声样本发生器的工作使期望语声应答是可以从多于一个的可能的期望语声应答中选择的一个语声样本。
触发发生器最好含有一个语声样本发生器,用来向用户再生语声样本。
另一种选择是,触发发生器含有一个可视触发发生器,或者增添一个可视触发发生器,用来向用户提供可视的触发输出。
期望语声应答库最好包括一个期望语声应答基准库。
根据本发明的一个优选实施例,期望语声应答基准库包括许多样板,并且这个库与说话人无关。
根据本发明的一个优选实施例还提供了一种用于交互式语言训练的方法,该方法包括:
诱导用户给出期望语声应答:
提供一个包含许多基准期望应答的期望语声应答基准库,这许多基准期望应答包含具有可接受的发音的多个第一类基准期望应答,并且对每一个具有可接受发音的第一类基准期望应答都有多个各自有不同的发音错误的第二基准期望应答;
指明用户给出的期望语声应答和基准期望应答之间的关系;以及
向用户指明在用户给出的期望语声应答中的发音错误。
还是根据本发明的一个优选实施例,该方法还包括向用户给出如何克服发音错误的教导。
还是根据本发明的一个优选实施例,该方法还包括紧接着每个期望语声应答之后立即向用户指明相应的发音错误。
还是根据本发明的一个优选实施例,该方法包括向上述用户声响地和可视地指明上述发音错误。
还是根据本发明的一个优选实施例,该方法还包括:期望语声应答是上述语声样本的复现。
或者,该方法还包括:期望语声应答不是上述语声样本的复现。
还是根据本发明的一个优选实施例,期望语声应答是可以从多于一个的可能的期望语声应答中选择的一个语声样本。
还是根据本发明的又一个优选实施例,诱导语声应答的步骤包括向用户再生语声样本。
还是根据本发明的一个优选实施例,诱导步骤包括向用户提供可视的触发输出。
根据本发明的一个优选实施例,还提供了一种口语识别设备,该设备包括:至少一个含有至少是第一种语言和第二种语言的一些口语元素的数据库;一个用来接收待识别口语的接收器;以及一个用来把口语的特征与至少是第一种语言和第二种语言的一些口语元素的特征的组合进行比较的比较器。应该指出,在某些情况下口语元素特征的组合可以是单个口语元素的特征。口语元素的特征可以是口语元素信号。
根据本发明的一个优选实施例,还提供了一种语言教学系统,该系统包括:一个用来诱导用户给出期望语声应答的触发发生器;一个口语识别器,它用来接收用户说出的期望语声应答,它含有至少一个含有至少是第一种语言和第二种语言的一些口语元素的数据库;一个用来接收待识别口语的接收器;一个用来把上述口语的特征与上述至少是第一种语言和第二种语言的一些口语元素的特征的组合进行比较的比较器;以及一个用户反馈界面,用来向用户指明在用户给出的期望语声应答中的错误。应该指出,在某些情况中口语元素的特征的组合特征可以是单个口语元素的特征。口语元素的特征可以是口语元素信号。
还是根据本发明的一个优选实施例,口语元素包含音素、双音素和音素间过渡中的至少一种。
还是根据本发明的一个优选实施例,语言教学系统还含有一个样板发生器,它的工作将产生短语样板。
还是根据本发明的一个优选实施例,该语言教学系统还含有一个特征提取器,它的工作将提取接收器所接收到的口语的特征。
根据本发明的一个优选实施例,还提供了一种口语识别方法,该方法包括:提供至少一个含有至少是第一种语言和第二种语言的一些口语元素的数据库;接收待识别的口语;以及把口语的特征与至少是第一种语言和第二种语言的一些口语元素的特征的组合进行比较。应该指出,在某些情况中口语元素的特征的组合可以是单个口语元素的特征。口语元素的特征可以是口语元素信号。
还是根据本发明的一个优选实施例,口语是用户用第一种语言说出的,而该用户的母语是第二种语言,并且其中至少一个数据库同时含有第一种和第二种这两种语言的口语元素。
还是根据本发明的一个优选实施例,至少第一种和第二种语言是不同民族的语言。
仍是根据本发明的一个优选实施例,至少第一种和第二种语言是同一民族的语言中的不同方言。
附图的简单说明
通过下面结合附图所作的详细说明,将可更充分际了解和认识本发明,在附图中:
图1是根据本发明的一个优选例构筑和操作的一种交互式语言教学系统的概要图形说明;
图2是在语言教学过程中图1系统的操作的概要功能性方框图;
图3是在根据本发明的一个实施例进行语声基准库生成的过程中图1系统的操作的功能性方框图;
图4是在根据本发明的另一个实施例进行语声基准库生成的过程中图1系统的操作的概要功能性方框图;
图5A和5B组成了说明在根据图2的概要功能性方框图进行语言教学的过程中系统的操作的概要流程图;
图6A、6B和6C组成了说明在根据图3的概要功能性方框图进行用于语言教学的语声基准库的生成过程中系统的一种操作方法的概要流程图;
图7是说明在根据图4的概要功能性方框图进行用于语言教学的语声基准库的生成过程中系统的操作的概要流程图;
图8是图4中所用类型的语音样板数据库的生成的简化图示说明;
图9是一个标记语言(labeled speech)波形的简化图示说明;
图10是根据本发明的一个优选实施例的多语言语音数据库的生成的图示说明;
图11是利用音素的口语识别的图示说明;以及
图12是利用各种语言的音素的口语识别的图示说明。
优选实施例的详细说明
现在参见图1和图2,前者是根据本发明的一个优选实施例构作和操作的一种交互式语言教学系统的概要图形说明,后者是在语言教学过程中图1系统的操作的概要功能性方框图。
应该指出,图1的系统与美国专利No.5,487,671中说明的ComputerizedSystem for Teaching Speech(用于口语教学的计算机系统)有许多相似之处,该专利所公开的内容在此引作参考。
如下面将要详细说明的,本发明的系统与美国专利No.5,487,671的系统的差别在于,本系统操作中带有一些各自有不同发音错误的基准期望应答,并且本系统含有一个语声应答记分器,它指明了用户给出的期望语声应答和带有发音错误的基准期望应答之间的关系。
图1和2的系统具有根据本发明的一个优选实施例的口语识别功能。
图1和2的系统最好以一台普通的个人计算机10为基础,该计算机例如是一台IBM PC或兼容机,其中采用了33MHz或更高主频的Intel80486CPU(中央处理单元)、至少8MB的存储器、并且用6.0版本或以上的DOS操作系统。个人计算机10最好配备有一个辅助声响模块12。例如,一种合适的声响模块12是由Digispeech,Inc公司制造并由美国加州Mountain View市的DSP SOLUTIONS Inc.公司在美国发行销售的Digispeech Plus声响适配器(DS311)。最好有一个头盔14与声响模块12相连。
通常,对个人计算机10和声响模块12配置有适当的软件,以便提供下述各种功能:
一个用来诱导用户给出期望语声应答的触发发生器,该触发发生器最好包括一个语声样本发生器,以向用户再生语声样本,或者也可增加或更换成一个可视触发发生器,以向用户提供可视的触发输出;
一个含有许多基准期望应答的期望语声应答基准库,这许多基准期望应答包含多个具有可接受的发音的第一类基准期望应答,并且对每一个具有可接受发音的第一类基准期望应答都有多个各自有不同的发音错误的第二类应答。多个第二类基准期望应答可以包含由各种语言的音素所构成的应答,并且一般可以应用于口语识别;
一个语声应答记分器,它指明用户给出的期望语声应答和基准期望应答之间的关系;以及
一个用户反馈界面,它向用户指明在用户给出的期望语声应答中可能存在的发音错误。
用户返馈界面最好通过声响模块12和头盔14来提供声响反馈。此外,从图1和2可以看出,最好还提供一个显示器16,以便用可视的方式向用户指明发音错误,如图1中所示。
根据本发明的一个优选实施例,使用了总共6个不同的数据库。为了方便于和易于理解本发明,下面按这6个数据库在本发明中生成和使用的次序,对它们作一简短的说明:
A.中间语声样本数据库--该数据库由记录许多本民族民众的说话来生成,这些民众有不同出生地、不同年令和不同性别的分布。这许多本发族民众可以包括说各种不同语言的人。每个说话人要发出多个预定短语的声音。对于其中每一个预定短语,每个说话人要正确地发音该短语,还要重复几次不正确的发音,每次发音带有多种预定发音错误中的一种预定错误。该数据库最好对每个说话人和每个上述短语发音有多次的记录,以增强统计的基础。
B.期望语声应答基准数据库--这是一个含有一些样板而不是含有口语记录的数据库。
可以提供各种类型的样板。一种在基于单词的口语识别中有用的类型的样板可以用后述方法从数据库A中导出。另一种在基于音素的口语识别中有用的类型的样板包括一些口语元素的特征的各种组合,这些口语元素的总体代表一个短语。
在基于单词的口语识别中有用的样板可以从中间语声样本数据库A导出,其方法是从每个发音短语中提取一些口语参数,并把它们统计地结合起来,以代表上述许多本民族民众的发音。
这样,每一个样板便代表了一群本民族民众发音的统计结合。
有可能只生成单个样板来涵括在中间语声样本数据库A中记录了他们的发音的所有本民族民众,或者,如果单个样板不能精确地代表全部本民族民众,则也可以用多个样板。例如可以用一个样板代表男性,另一个样板代表女性。各个样板也可以增添或代之以含有另一种语言的一些音素。
根据本发明的一个优选实施例,期望语声应答基准数据库B构成了前述的期望语声应答基准库。这是一种与说话人无关的数据库。
可以提供各种类型的样板。一种类型的样板在基于单词的口语识别中有用,可以用上述方法从数据库A导出。另一种类型的样板在基于音素的口语识别中有用,包括一些口语元素的特征的各种组合,这些口语元素的总体代表一个短语。
C.语音数据库--这是一种可购买到的关于某一种给定语言的一些音素的口语参数的数据库。这数据库例如可以从AT&T(美国电话电报公司)、美国科罗拉多州Boulder市的Speech Systems Incorporated公司、以及比利时Leper市的Lernout&Hauspie Speech Products N.V.公司购到。可以配置多个语音数据库,其中每一个分别含有一种不同语言的音素口语参数,这些语音数据库的总体在这里仍叫做语音数据库。
D.用户应答数据库--这是用户应答记录的一个集合。
E.期望语声样本数据库--这是对每一个正确地发出了多个短语中每个短语的声音的单个训练说话人的记录的集合。
F.基准语声样本数据库--这是对每一个几次不正确地发出了多个短语中每个短语的声音的单个训练说话人的记录的集合,其中每次不正确发音各带有多种预定发音错误中的一种不同的错误。
现在参见图2,这是一个在语言教学过程中图1系统的操作的概要功能性方框图。
为了诱导用户给出期望语声应答,通过声响模块14(图1)向用户再生存储在期望语声样本数据库E中的语声样本。通常作为头盔14的一部分的一个话筒20被用来记录用户的语声应答,该应答被存储在用户应答数据库D中。典型地,语声样本是说出的短语。这些短语可以含有一个或多个单词。为了诱导用户给出期望语声应答,也可以增添或者代之以提供一个可视触发发生器,向用户提供可视的触发输出。
从用户的语声应答中提取出所说短语的一些参数,把这些参数与基准短语参数相比较,以测量用户语声应答中的所说短语参数和存储在期望语声应答基准数据库B中的相应的正确或不正确的短语的基准短语参数之间的匹配的相似性。
应该指出,基准短语参数并不必定包括单词和单词的组合。基准短语参数也可以包括口语元素特征的各种组合,在执行基于音素的口语识别时尤其是这样。
相似性测量的结果是选出一个最接近于用户发声应答的一个短语,或者是指明匹配失败。向用户给出一个声响的(或者最好还有可视的)反馈说明,以指明所匹配的短语以及它是否正确。在教学过程中,用户的应答最好是一个单词、几个单词、或其中还有一个或几个短语是匹配的一个或几个语句。最好还用声响--可视形式来给出关于如何克服所指出的错误的附加教学信息。为此目的,最好使用最好是头盔14(图1)的一部分的头戴耳机22和显示器16。
现在参见图3,这是一个在生成根据本发明的一个实施例的期望语声应答基准数据库B的过程中图1系统的操作的概要功能性方框图。这里,用一个话筒30来记录由多个本民族民众说出的短语,这些在众有各种出生地、各种年龄和性别分布。
每个说话人发出多个预定短语的声音。对于其中每个预定短语,每个说话人正确地发音该短语,而且还重复几次不正确的发音,每次发音带有多种预定错误中的一种不同的错误。发音记录被保存在中间发声样本数据库A中。该数据库最好对每个说话人的每个上述短语发音有多个记录,以增强统计的基础。
对于基于单词的口语识别情况,提取出所说短语的一些参数,并把它们与已经存储在期望语声应答基准数据库B内的短语参数融合在一起,以构筑期望语声应答基准数据库B。该数据库包含许多基准期望应答,这些基准期望应答包括具有可接受的发音的第一类基准期望应答,并且对每一个具有可接受发音的第一类基准期望应答都含有多个各自有不同的发音错误的第二类基准期望应答。
可以看出,每个短语都分别由M个说话人正确地发音N次进行记录。另外,还分别由M个说话人以L种各带有不同发音错误的不同形式记录N次。
现在参见图4,这是一个在根据本发明的另一个实施例生成语声基准库的过程中图1系统的操作的概要功能性方框图。这里,期望语声应答基准数据库B是由计算机生成的,其方法是生成用来产生语音语言记录的文本和语音语言文件。语音语言记录与语音数据库C一起用来产生一些短语样板,这些板板的总体构成了期望语声应答基准数据库B。
在图4的实施例中,典型的情况是,这些短语样板不是单词或单词的组合,而是一些像音素、双音素和音素间过渡这样的口语的元素的特征的组合。在基于音素的口语识别中,把待识别口语的特征与这些组合相比较,以找到最佳的匹配。
现在参见图5A和5B,它们一起构成了说明在根据图2的概要功能性方框图进行语言教学的过程中系统的操作的概要流程图。一旦完成了该流程图中指出的一些初始准备之后,最好是在选定了想要从数据库E听到的语声类型之后,便将选出某一篇课程,并向用户说明如何发音某一选定声音。对于每个选定声音,将向用户再生从基准语声样本数据库E取出的一个基准语声样本,以诱导用户给出期望语声应答。
用户的应答被“Student Response Specimen Recorder(学生应答样本记录器)”记录下来,并与含在期望语声应答基准数据库B内的基准期望应答进行比较,上述记录器在美国专利No.5,487,671中已有说明,其公开内容引用于此作为参考。
如果最佳匹配是匹配于正确应答的,则向用户提供肯定反馈,课程进入到下一个语声样本。
如果最佳匹配匹配于带有发音错误的基准期望应答,则向用户给出相应的反馈,这个反馈最好包括对错误的说明以及如何进行纠正,还包括再生该基准期望应答。根据本发明的一个优选实施例,从基准语声样本数据库F向用户再生该错误发音的短语。
可以使用一个用户应答数据库D来再生最新的或较早的用户应答,以指明用户的进步,这个再生可以包含在系统的反馈中,或者用于其他目的。
现在参见图6A、6B和6C,它们一起构成了说明在根据图3的概要功能性方框图生成用于语言教学的语声基准库的过程中系统的操作的概要流程图。
一旦完成了该流程图中指明的初始准备后,训练的说话人说出正确的短语和多个不正确的短语和多个不正确的短语,后者的发音相似于正确的短语但在发音中有一个或几个错误,以提供各个分别带有不同发音错误的基准期望应答。记录每一组这样的正确和不正确短语。根据本发明的一个优选实施例,中间语声样本数据库A含有各种记录。如前面参考图3所说明的,数据库A用来产生期望语声应答基准库B,图6 C用于基于单词的口语识别。
现在参见图7,这是一个说明在根据图4的概要功能性方框图生成用于语言教学的语声基准库的过程中系统的操作的概要流程图。这里用一台计算机进入简明的文本和发音语言,并把文本转换成指明的语音语言。利用前述类型的语音数据库C,产生短语样板。然后把短语样板存储到期望语声应答基准数据库B中。这样的处理对系统所采用的每一个短语样板都执行一次。应该指出,这些短语样板在典型情形中不是单词或单词的组合,而是像音素、双音素和音素间过渡这样的口语元素的特征的组合。在基于音素的口语识别中,把待识别口语的特征与这些组合进行比较,以找到最佳的匹配。
现在参见图8和9,它们说明根据本发明的一个优选实施例生成图4和7中所用类型的语音数据库C的处理。例如在图9中典型地示出的标记口语的数据库50可以从TI MI T Acoustic-phonetic Continuous Speech Corpora获得,这可通过地址为online-service@ldc.upenn.edu的电子邮件从宾夕法尼亚大学的Linguistic Data Consortium购得。一个样板构筑器52在数据库50上操作,给出语音数据库C,该样板构筑器52典型地由一种可购得的软件实现,这种软件例如是可通过地址为sales@entropic.com的电子邮件从Entropic CambridgeResearch Laboratories,Ltd有限公司购得的HTK(Hidden Markov Model Toolkit(隐藏马尔科夫模型工具箱))。图8的技术可应用于各种语音。
对于语音数据库58包括各种语言的一些音素的情况,语音数据库C由结合多个语音数据库54、56来实现,如图10所示。本发明的一个特有特征是,语音数据库54和56包含被学习或口说的一种语言的一些音素,同时也包含用户母语的一些音素,这样它们可以结合起来给出增强的口语识别。
现在参见图11,这是一个说明利用音素进行口语识别的图。在图示的例子中,期望单词是“tomato(西红柿)”。生成了一个关于各种期望发音的网络。这里,说话人可能把第一个“0”发音成“O”、“OW”、或“U”,其中“O”这个发音被认为是正确的。
类似地,用户可能把“a”发音成“A”或“EY”,其中“EY”这个发音被认为是正确的。
图11的特征在于,用来进行口语识别的所有音素都属于同一种语言。
现在参见图12,这是一个说明利用各种语言的音素来进行口语识别的图。该例子是为识别由日本人所说的英语而设计的。这里期望单词是“Los Angeles(洛杉矾)”中的“Los”。从图中可以看出,说话人可能把“L”发音成“L”(圆圈内的“L”)、英语的“R”(圆圈内的“R”)、或者日语的“R”(方块内的“R”)。
图12的特征在于,用来进行口语识别的各音素并不全都属于同一种语言。在图12的例子中,一些音素是英语音素(圆圈内的字母),而另一些音素则是日语音素(方框内的字母)。
这样便可以看到,当利用图12的口语识别技术来进行语言教学时,系统将能识别出日本人特有的错误发音,从而可向用户给出必要的教学反馈。当图12的口语识别技术用于其他口语识别应用时,能识别出英语发音不完善的日本所说出的英语。
应该指出,对于熟悉本技术领域的人们来说,本发明并不局限于前面具体示出和说明的内容。反之,本发明的范畴应包括前述各种特征和要素的结合和部分结合,同时包括它们各种显然的变化和扩充。

Claims (31)

1、交互式语言训练设备,它包括:
一个触发发生器,用来诱导用户给出期望语音应答;
一个期望语声应答基准库,它含有许多基准期望应答,这些基准期望应答包括多个具有可接受的发音的第一类基准期望应答,并且对上述每一个具有可接受发音的第一类基准期望应答都含有多个各自有不同的发音错误的第二类基准期望应答。
一个语声应答记分器,它指明用户给出的期望语声应答和基准期望应答之间的关系;以及
一个用户反馈界面,它向用户指明在用户给出的期望语声应答中的发音错误。
2、根据权利要求1的设备,其中上述用户反馈界面还向用户给出如何克服发音错误的教导。
3、根据权利要求1的设备,其中上述用户反馈界面在紧接着每个期望语声应答之后立即向用户指明每个发音错误。
4、根据权利要求1的设备,其中上述反馈界面给出关于上述发音错误的声响的和可视的指示。
5、根据权利要求1的设备,其中上述语声样本发生器的工作使得期望语声应答是上述语声样本的复现。
6、根据权利要求1的设备,其中上述语声样本发生器的工作使得期望语声应答不是上述语声样本的复现。
7、根据权利要求1的设备,其中上述语声样本发生器的工作使得期望语声应答是可以从多于一个的可能的期望语声应答中选择的一个语声样本。
8、根据权利要求1的设备,其中上述触发发生器包括一个用来向用户再生语声样本的语声样本发生器。
9、根据权利要求1的设备,其中上述触发发生器包括一个用来向用户提供可视触发输出的可视触发发生器。
10、根据权利要求1的设备,其中上述期望语声应答库包括一个期望语声应答基准数据库。
11、根据权利要求10的设备,其中上述期望语声应答基准数据库包括许多样板。
12、根据权利要求10的设备,其中上述期望语声应答基准数据库是与说话人无关的。
13、根据权利要求11的设备,其中上述期望语声应答基准数据库是与说话人无关的。
14、一种用于交互式语言训练的方法,它包括:
诱导用户给出期望语声应答;
提供一个含有许多基准期望应答的期望语声应答基准库,这许多基准期望应答包括多个具有可接受的发音的第一类基准期望应答,并且对每一个上述具有可接受发音的第一类基准期望应答都含有多个各自有不同的发音错误的第二类基准期望应答;
指明用户给出的期望语声应答和基准期望应答之间的关系;以及
向用户指明在用户给出的期望语声应答中的发音错误。
15、根据权利要求14的方法,它还包括向用户给出关于如何克服发音错误的教导。
16、根据权利要求14的方法,它还包括在紧接着每个期望语声应答之后立即向用户指明每一个发音错误。
17、根据权利要求14的方法,它还包括向上述用户给出关于上述发音错误的声响的和可视的指示。
18、根据权利要求14的方法,其中上述期望语声应答是上述语声样本的复现。
19、根据权利要求14的方法,其中上述期望语声应答不是上述语声样本的复现。
20、根据权利要求14的方法,其中上述期望语声应答是可以从多于一个的可能的期望语声应答中选择的一个语声样本。
21、根据权利要求14的方法,其中上述诱导语声应答的步骤包括向用户再生一些语声样本。
22、根据权利要求14的方法,其中上述诱导步骤包括向用户提供一个可视触发输出。
23、口语识别设备,它包括:
至少一个含有至少是第一种和第二种语言的一些口语元素的数据库;
一个接收器,用来接收待识别口语;以及
一个比较器,用来指上述口语的特征与上述至少是第一种和第二种语言的口语元素的特征的组合进行比较。
24、一种语言教学系统,它包括:
一个触发发生器,用来诱导用户给出期望语声应答;
一个口语识别器,用来接收用户所说的期望语声应答,该口语识别器包括:
至少一个含有至少是第一种和第二种语言的一些口语元素的数据库;
一个接收器,用来接收待识别的口语;以及
一个比较器,用来把上述口语的特征与上述至少是第一种和第二种语言的上述口语元素的特征的组合进行比较;以及
一个用户反馈界面,它向用户指明在用户给出的期望语声应答中的错误。
25、根据权利要求23的语言教学系统,其中上述口语元素包括音素、双音素和音素间过渡中的至少一种。
26、根据权利要求23的语言教学系统,它还包括一个用来产生短语样板的样板发生器。
27、根据权利要求23的语言教学系统,它还包括一个用来提取由上述接收器接收到的口语的特征的特征提取器。
28、一种口语识别方法,它包括:
提供至少一个含有至少是第一种和第二种语言的一些口语元素的数据库;
接收待识别的口语;以及
把上述口语的特征与上述至少是第一种和第二种语言的口语元素的特征的组合进行比较。
29、根据权利要求28的口语识别方法,其中上述口语是由一个母语为第二种语言的用户用第一种语言说出的,并且其中至少一个数据库含有第一种和第二种语言这两种语言的一些口语元素。
30、根据权利要求28的方法,其中上述至少第一种和第二种语言包括不同民族的语言。
31、根据权利要求28的方法,其中上述至少第一种和第二种语言包括同一民族语言中的不同方言。
CN97190882A 1996-07-11 1997-05-04 交互式语言训练设备 Pending CN1197525A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/678,229 US5766015A (en) 1996-07-11 1996-07-11 Apparatus for interactive language training
US08/678,229 1996-07-11

Publications (1)

Publication Number Publication Date
CN1197525A true CN1197525A (zh) 1998-10-28

Family

ID=24721939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97190882A Pending CN1197525A (zh) 1996-07-11 1997-05-04 交互式语言训练设备

Country Status (9)

Country Link
US (1) US5766015A (zh)
EP (1) EP0852782A4 (zh)
JP (1) JPH11513144A (zh)
KR (1) KR19990044575A (zh)
CN (1) CN1197525A (zh)
AU (1) AU2403297A (zh)
BR (1) BR9702341A (zh)
IL (1) IL123556A0 (zh)
WO (1) WO1998002862A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510423B (zh) * 2009-03-31 2011-06-15 北京志诚卓盛科技发展有限公司 一种分层次、交互式发音质量评估与诊断系统
CN104880683A (zh) * 2014-02-28 2015-09-02 西门子(深圳)磁共振有限公司 一种磁共振成像系统的匀场片的检测装置、方法和系统
CN105825853A (zh) * 2015-01-07 2016-08-03 中兴通讯股份有限公司 语音识别设备语音切换方法及装置
CN113920803A (zh) * 2020-07-10 2022-01-11 上海流利说信息技术有限公司 一种错误反馈方法、装置、设备及可读存储介质

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6283760B1 (en) 1994-10-21 2001-09-04 Carl Wakamoto Learning and entertainment device, method and system and storage media therefor
US6109923A (en) 1995-05-24 2000-08-29 Syracuase Language Systems Method and apparatus for teaching prosodic features of speech
US6961700B2 (en) 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US6022221A (en) 1997-03-21 2000-02-08 Boon; John F. Method and system for short- to long-term memory bridge
US20040219494A1 (en) * 1997-03-21 2004-11-04 Boon John F. Authoring tool and method of use
US6017219A (en) * 1997-06-18 2000-01-25 International Business Machines Corporation System and method for interactive reading and language instruction
JP4267101B2 (ja) 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6019607A (en) * 1997-12-17 2000-02-01 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI systems
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6134529A (en) * 1998-02-09 2000-10-17 Syracuse Language Systems, Inc. Speech recognition apparatus and method for learning
US7203649B1 (en) * 1998-04-15 2007-04-10 Unisys Corporation Aphasia therapy system
US6077080A (en) * 1998-10-06 2000-06-20 Rai; Shogen Alphabet image reading method
FR2790586B1 (fr) * 1999-03-05 2001-05-18 Auralog Procede et dispositif de reconnaissance vocale
US6468084B1 (en) * 1999-08-13 2002-10-22 Beacon Literacy, Llc System and method for literacy development
WO2001024139A1 (fr) * 1999-09-27 2001-04-05 Kojima Co., Ltd. Systeme d'evaluation de la prononciation
EP1091336A1 (de) * 1999-10-06 2001-04-11 Ascom AG Verfahren zur Erkennung und Korrektur von Fehlern in gesprochener Sprache und Vorrichtung zur Durchführung des Verfahrens
US6302695B1 (en) * 1999-11-09 2001-10-16 Minds And Technologies, Inc. Method and apparatus for language training
JP3520022B2 (ja) 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
KR20010088140A (ko) * 2000-03-10 2001-09-26 백승헌 외국어 학습을 위한 문장의 화면출력장치 및 방법
US6847931B2 (en) 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US6705869B2 (en) 2000-06-02 2004-03-16 Darren Schwartz Method and system for interactive communication skill training
AU2002239627A1 (en) * 2000-12-18 2002-07-01 Digispeech Marketing Ltd. Spoken language teaching system based on language unit segmentation
US7996321B2 (en) * 2000-12-18 2011-08-09 Burlington English Ltd. Method and apparatus for access control to language learning system
US7203840B2 (en) * 2000-12-18 2007-04-10 Burlingtonspeech Limited Access control for interactive learning system
WO2002050803A2 (en) * 2000-12-18 2002-06-27 Digispeech Marketing Ltd. Method of providing language instruction and a language instruction system
US6435876B1 (en) * 2001-01-02 2002-08-20 Intel Corporation Interactive learning of a foreign language
US20020115044A1 (en) * 2001-01-10 2002-08-22 Zeev Shpiro System and method for computer-assisted language instruction
US6882707B2 (en) * 2001-02-21 2005-04-19 Ultratec, Inc. Method and apparatus for training a call assistant for relay re-voicing
US7881441B2 (en) * 2005-06-29 2011-02-01 Ultratec, Inc. Device independent text captioned telephone service
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US6953343B2 (en) * 2002-02-06 2005-10-11 Ordinate Corporation Automatic reading system and methods
TW556152B (en) * 2002-05-29 2003-10-01 Labs Inc L Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
JP2004053652A (ja) * 2002-07-16 2004-02-19 Asahi Kasei Corp 発音判定システム、システム管理用サーバ及びプログラム
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
US20040176960A1 (en) * 2002-12-31 2004-09-09 Zeev Shpiro Comprehensive spoken language learning system
US7407384B2 (en) 2003-05-29 2008-08-05 Robert Bosch Gmbh System, method and device for language education through a voice portal server
US7502731B2 (en) * 2003-08-11 2009-03-10 Sony Corporation System and method for performing speech recognition by utilizing a multi-language dictionary
US7524191B2 (en) * 2003-09-02 2009-04-28 Rosetta Stone Ltd. System and method for language instruction
CA2556933C (en) * 2004-02-18 2013-10-22 Ultratec, Inc. Captioned telephone service
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
WO2005091247A1 (en) * 2004-03-22 2005-09-29 Lava Consulting Pty Ltd A method of teaching
US7365737B2 (en) * 2004-03-23 2008-04-29 Fujitsu Limited Non-uniform gesture precision
US20050212760A1 (en) * 2004-03-23 2005-09-29 Marvit David L Gesture based user interface supporting preexisting symbols
US20050212753A1 (en) * 2004-03-23 2005-09-29 Marvit David L Motion controlled remote controller
US7301529B2 (en) * 2004-03-23 2007-11-27 Fujitsu Limited Context dependent gesture response
US7301528B2 (en) * 2004-03-23 2007-11-27 Fujitsu Limited Distinguishing tilt and translation motion components in handheld devices
US7301526B2 (en) 2004-03-23 2007-11-27 Fujitsu Limited Dynamic adaptation of gestures for motion controlled handheld devices
US7280096B2 (en) * 2004-03-23 2007-10-09 Fujitsu Limited Motion sensor engagement for a handheld device
US7903084B2 (en) * 2004-03-23 2011-03-08 Fujitsu Limited Selective engagement of motion input modes
US7301527B2 (en) * 2004-03-23 2007-11-27 Fujitsu Limited Feedback based user interface for motion controlled handheld devices
US7365735B2 (en) * 2004-03-23 2008-04-29 Fujitsu Limited Translation controlled cursor
US7365736B2 (en) * 2004-03-23 2008-04-29 Fujitsu Limited Customizable gesture mappings for motion controlled handheld devices
US20060008781A1 (en) * 2004-07-06 2006-01-12 Ordinate Corporation System and method for measuring reading skills
NZ534092A (en) * 2004-07-12 2007-03-30 Kings College Trustees Computer generated interactive environment with characters for learning a language
US20100099065A1 (en) * 2004-12-23 2010-04-22 Carl Isamu Wakamoto Interactive cinematic system for bonus features for movies, tv contents, anime and cartoons, music videos, language training, entertainment and social networking
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
CN101223565B (zh) * 2005-07-15 2013-02-27 理查德·A·莫 语音发音培训装置和语音发音培训方法
WO2007016509A1 (en) * 2005-08-01 2007-02-08 Kazuaki Uekawa A system of sound representation and pronunciation techniques for english and other european languages
US7657221B2 (en) * 2005-09-12 2010-02-02 Northwest Educational Software, Inc. Virtual oral recitation examination apparatus, system and method
JP2009128675A (ja) * 2007-11-26 2009-06-11 Toshiba Corp 音声を認識する装置、方法およびプログラム
US8340968B1 (en) * 2008-01-09 2012-12-25 Lockheed Martin Corporation System and method for training diction
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8064817B1 (en) * 2008-06-02 2011-11-22 Jakob Ziv-El Multimode recording and transmitting apparatus and its use in an interactive group response system
TW201019288A (en) * 2008-11-13 2010-05-16 Ind Tech Res Inst System and method for conversation practice in simulated situations
US20110189646A1 (en) * 2010-02-01 2011-08-04 Amos Benninga Pedagogical system method and apparatus
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US8805673B1 (en) * 2011-07-14 2014-08-12 Globalenglish Corporation System and method for sharing region specific pronunciations of phrases
JP6267636B2 (ja) * 2012-06-18 2018-01-24 エイディシーテクノロジー株式会社 音声応答装置
US10026329B2 (en) 2012-11-26 2018-07-17 ISSLA Enterprises, LLC Intralingual supertitling in language acquisition
EP2924676A1 (en) * 2014-03-25 2015-09-30 Oticon A/s Hearing-based adaptive training systems
CN107945621A (zh) * 2017-11-13 2018-04-20 董国玉 一种便于交流的数学公式记忆装置
CN108877808B (zh) * 2018-07-24 2020-12-25 广东小天才科技有限公司 一种防误触的语音唤醒方法及家教设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8817705D0 (en) * 1988-07-25 1988-09-01 British Telecomm Optical communications system
US5393236A (en) * 1992-09-25 1995-02-28 Northeastern University Interactive speech pronunciation apparatus and method
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5487671A (en) * 1993-01-21 1996-01-30 Dsp Solutions (International) Computerized system for teaching speech

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510423B (zh) * 2009-03-31 2011-06-15 北京志诚卓盛科技发展有限公司 一种分层次、交互式发音质量评估与诊断系统
CN104880683A (zh) * 2014-02-28 2015-09-02 西门子(深圳)磁共振有限公司 一种磁共振成像系统的匀场片的检测装置、方法和系统
CN105825853A (zh) * 2015-01-07 2016-08-03 中兴通讯股份有限公司 语音识别设备语音切换方法及装置
CN113920803A (zh) * 2020-07-10 2022-01-11 上海流利说信息技术有限公司 一种错误反馈方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
KR19990044575A (ko) 1999-06-25
JPH11513144A (ja) 1999-11-09
AU2403297A (en) 1998-02-09
IL123556A0 (en) 1998-10-30
EP0852782A4 (en) 1998-12-23
US5766015A (en) 1998-06-16
EP0852782A1 (en) 1998-07-15
WO1998002862A1 (en) 1998-01-22
BR9702341A (pt) 2000-10-24

Similar Documents

Publication Publication Date Title
CN1197525A (zh) 交互式语言训练设备
Chen et al. Automated scoring of nonnative speech using the speechrater sm v. 5.0 engine
CN1259632C (zh) 纠正文本文档的文本输入的方法和系统
US7280964B2 (en) Method of recognizing spoken language with recognition of language color
CN100568223C (zh) 用于表意语言的多模式输入的方法和设备
US7831911B2 (en) Spell checking system including a phonetic speller
CN1140871C (zh) 实现多源文件的音频信号重放的方法和系统
CN101551947A (zh) 辅助口语语言学习的计算机系统
CN1423194A (zh) 语法创建系统
US20040158469A1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
TWI305345B (en) System and method of the user interface for text-to-phone conversion
WO2013003749A1 (en) Statistical machine translation framework for modeling phonological errors in computer assisted pronunciation training system
CN1841496A (zh) 测量语速的方法和装置以及录音设备
CN103810993B (zh) 一种文本注音方法及装置
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
CN1624686A (zh) 用于语义速记的系统和方法
EP1475776B1 (en) Dynamic pronunciation support for speech recognition training
CN111508522A (zh) 一种语句分析处理方法及系统
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
CN111489742A (zh) 声学模型训练方法、语音识别方法、装置及电子设备
Burger et al. Competitive Evaluation of Commercially Available Speech Recognizers in Multiple Languages.
CN102918587A (zh) 能够将听写代号短语转录成标准词组的分层快速注解
CN102542854A (zh) 借助角色扮演学习发音的方法
Jayalakshmi et al. Augmenting Kannada Educational Video with Indian Sign Language Captions Using Synthetic Animation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication