CN1107915C

CN1107915C - 用于编码读音前缀树的方法及系统

Info

Publication number: CN1107915C
Application number: CN97113944A
Authority: CN
Inventors: 非莱诺·A·阿列瓦
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-06-25
Filing date: 1997-06-24
Publication date: 2003-05-07
Anticipated expiration: 2017-06-24
Also published as: DE69726499T2; JP3601751B2; DE69726499D1; EP0817169B1; EP0817169A3; JPH10116092A; CN1180202A; EP0817169A2; US5758024A

Abstract

一种对读音前缀树进行线性编码的计算机系统。其中每个结点表示一个音素，每个叶结点具有与该结点的单词相关联的概率值，系统生成音素标识的树结点字典，根据每个非叶结点的子结点的子孙叶结点的最大概率值对该子结点进行排序，对于每个非叶结点根据其子结点概率设置其概率值，将每个结点系数值置为其概率值除以其双亲结点的概率值。最后，计算机系统为每个叶结点生成一编码读音入口。

Description

用于编码读音前缀树的方法及系统

本发明涉及一种用于计算机语音识别的计算机系统，尤其涉及一种对读音前缀树进行压缩编码的方法和系统。

由计算机系统快速准确的地识别人类的语音是一项计算机系统开发人员长期追求的目标。由于这种计算机语音识别(CSR)系统所带来的好处是很大的。如：人们不再用键盘把文档输入到计算机系统，只需简单地读出文档中的单词，CSR系统就将识别这些单词并将每个单词的字母存贮起来，就好象这些单词已经由键盘输入一样。由于人们通常说话比打字快因而可以提高效率。而且，人们不用再去学习如何打字。另外，计算机还可以应用在现在看起来还不现实的许多应用中，因为人的双手正做着其它事情，而不是打字。

为了处理语音，典型的CSR系统定义了被称为音素(phoneme)的基体语音单元。每个音素都与一个不同的读音相对应。如，单词“cotton”一般读成四个音素：“k”，“aw”，“t”及“en”。CSR系统使用语音字典存贮字典中每个单词的音素。图1A示出了一个具有五个单词词汇的语音字典。语音字典中包括词汇中的每个单词及组成这个单词的音素。例如：单词“cotton”的字典入口(entry)是“cottenkaw ten”当一CSR系统接收到一部分语音时，它将识别所读的是哪些音素。一旦识别出音素、CSR系统就在字典中搜索以确定哪个单词包括这些音素。如果CSR系统能准确地识别每个音素，语音识别将是一项相当简单的事情，但是，正确识别音素被证明是一项困难的工作。

在语音识别方面遇到的困难源于人们几乎无穷多种不同的读音方式。这种不同来源于说话者的重音、说话的语速及音调，说话者当时的健康状况(如，正患感冒)，说话者的年龄和性别等。这样，当CSR系统处理一部分语音时，它为每个音素分配一个表示那部分语音对应于那个音素的可能性的概率。例如，当所读出单词可能是“were”或“wear”时，CSR系统可能认为该语音包括两部分。对于第一部分，CSR系统可能为音素“w”分配一个0.9的概率，为音素“axr”分配一个0.1的概率，为所有其它音素分配0概率。对于第二部分，CSR系统可能为音素“er”分配一0.6的概率为音素“axr”分配一个0.3的概率，为音素“w”分配一0.1的概率，为所有其它音素分配0概率。然后CSR系统识别出与所读单词最可能匹配的具有最高概率的音素序列。在该例中，所读单词为“were”的概率为0.54(即，0.9×0.6)，所读单词为“wear”的概率为0.36(即0.9×0.4)。这样，CSR系统将把该单词识别为“were”。

为进一步帮助处理这些读音方式的变化。CSR系统使用从典型的读音方式累加起来的不同概率来帮助识别所读单词。具体地讲，CSR系统使用一个具体单词在日常读音中将被读出来的概率。图1A的语音字典示出了词汇中的单词的实例概率。这些概率是上下文不相关的，即它们表示的是某个所读单词的概率而不管其前面或后面读出什么单词。例如，在该词汇例中，单词“we”具有0.3的概率，单词“cotton”具有0.1的概率。这些概率表明单词“we”被典型地读出的经常性是“cotton”的3倍。由于上下文独立概率是基于单个单词，因此被称为单字组(unigram)概率。继续上述例子，如果也考虑上下文独立概率，则所读单词为“were”的概率为0.081，所读单词为“wear”的概率为0.09。这样，考虑上下文不相关概率时，CSR系统将把单词识别为“wear”而不是“were”。

为进一步改善识别性能，CSR也可能使用上下文相关概率。上下文相关概率是指每个单词将跟在其它单词的某种序列之后的概率。例如，单词序列“to be or not to”之后跟“be”的概率很大。但是，需要存贮的概率数目随序列的长度变化呈指数规律增长。具体地讲，需要存贮起来的表示由L个单词组成的所有可能序列的概率数目为n1，其中n是字典中单词的数目。由于常规字典收词60,000个，因此要表示上下文相关的概率需要极大的存贮容量。从而，CSR系统一般把其要被存贮的概率序列长度限定为2(即，l＝2)。例如，一个CSR系统将存贮单词“be”跟在“to”之后的概率和单词“or”跟在单词“be”后的概率。而不存贮单词“or”跟在单词序列“to be”之后的概率。图1B示出了示例词汇中序列长度为2的上下文相关概率。例如，单词“wear”后跟单词“cotton”的概率为0.9，单词“wear”后跟单词“we”的概率为0.1。由于这些上下文相关概率是基于两单词序列的，因而称它们为两字组(bigram)概率。继续上述例子，如果下一个读出单词为“we”并考虑上下文相关概率，则第一个所读单词为“were”的概率为0.0405，第一个读出单词为“wear”的概率为0.009。从而，CSR系统将把第一个所读单词识别为“were”。

由于在大型词汇系统中需要极大的计算量来识别语音，所以使用一种基于读音前缀树的数据组织以消除与词汇系统开始的单词序列中找到的重复的音素前缀相匹配所导致的冗余计算。

图2A示出了一种示例语音字典的前缀树数据结构。该前缀树数据结构包括与语音字典中同样的信息，但其采用的格式能够节省空间并进行快速查找。被称为读音前缀树(PPT)的前缀树数据结构通过消除对共享公共前缀的单词的冗余音素的存贮来节省空间。例如，单词“caught”和“cotton”的读音用结点201-206表示。由于两个单词共享前三个音素“k”，“aw”，和“t”，因此PPT为这些音素的每一个仅分配一个结点。CSR系统沿着识别出的从根结点到表示所读单词的叶结点的音素路径能够快速查找PPT。例如，若接收到音素。“Kaw t en”，则CSR系统从根结点200开始直到表示单词“cotton”的叶结点206结束浏览前缀树。每个叶结点表示字典中的一个单词并且包括该单词的单字组概率值。例如，叶结点206包括单词“cotton”的单字组概率值0.1。PPT中每个结点在前缀树中所处的深度，表示从根结点到该结点的分枝数目。例如，结点206的深度为5。由于图2的PPT包括单字组概率，因此被称为单字组PPT。

图2B是表示在字典中跟在单词“were”之后那些单词的两字组概率的两字组PPT。每个叶结点对应于可以跟在单词“were”之后的一个单词并且包括该单词将跟在单词“were”之后的概率值。这样，为表示所有两字组概率，字典中的每个单词都将具有一两字组PPT，该两字组PPT包括将跟在该单词之后的单词的相应概率值。这种两字组PPT的表示方法需要大量的存贮空间。例如，典型的字典具有能表示在两字组PPT中的502万个两字组概率值和总共1820万结点。假设每个结点需要4个字节的存贮空间，则要存贮所有两字组概率需要7280万字节。如此巨大的数据量使得不仅是在常规的存贮设备上存贮这些信息方面还是在快速查找概率值方面都不可行。

本发明提供了一种对两字组读音前缀树进行线性编码的方法和系统，从而在某种程度上显著地减少了需要表示两字组读音前缀树的存贮量，并且在语音识别过程中能快速确定子结点。该计算机系统通过为每个两字组读音前缀树进行的线性编码及一个树结点字典表示两字组读音前缀树。该计算机系统生成一树结点字典，该树结点字典包括组成词汇中每个单词的音素的列表。该计算机系统为每个两字组读音前缀树重复以下步骤。该计算机系统为每一非叶结点的概率设定一个基于其子结点的概率的概率值(即，“污染”smearing)。然后，该计算机系统为每个结点设置一个系数，该系数值等于该结点的概率值除以其双亲结点的概率值(即，“系数化”“factoring”)。最后，计算机系统为两字组读音前缀树的每个叶结点生成一编码读音入口。该编码读音入口指出由该叶结点所表示的单词并且包括与其最邻近的系数值不是一预定值的祖先结点的系数值。

然后，在整个语音识别过程中可以使用该线性编码的两字组读音前缀树来例化(instantiate)一两字组上下文。该两字组上下文是一其每个结点的概率值表示相应的音素被读出的可能性的两字组读音前缀树的例化(instantiation)。当读出每个音素时，计算机系统使用线性编码识别下一个要加入该两字组上下文的子结点，然后，计算机系统使用树结点字典快速识别要加入该两字组上下文的子结点。

除了对两字组读音前缀树进行编码，该计算机系统可以对三字组读音树进行编码，一般说来，可以对任意长度n的字组进行编码。不管n字组的长度有多少，每个读音前缀树包括同样的信息，即对应于单词和概率的叶结点。识别语音时，n字组上下文被置为n字组单词个数减1。例如，三字组上下文被设置为与线性编码三字组读音前缀树相关的两个单词。

图1A示出一个示例5个单词词汇的语音字典。

图1B示出其序列的长度为2的示例词汇上下文相关概率。

图2A示出一示例语音字典的单字组PPT。

图2B是一个在字典中跟在单词“were”之后的单词的两字组PPT。

图3示出本发明的构成的计算机系统的方框图。

图4示出一示例字典的扩充单字组PPT。

图5是用于图4的单字组PPT的树结点字典。

图6表示用于单词“were”的扩充两字组PPT。

图7表示用于单词“wear”的两字组PPT。

图8是编码两字组PPT例程的流程图。

图9是解码LEBPPT例程的流程图。

图10是使用LEBPPT的CSR系统的流程图。

图11-13示出由CSR系统生成的PPT。

图14是初始化字间两字组PPT例程的流程图。

图15是初始化字间单字组PPT例程的流程图。

图16是修改两字组PPT例程的流程图。

图17是为例化结点的兄弟增加结点例程的流程图。

图18是修改单字组PPT例程的流程图。

本发明的最佳实施例提供了一种对两字组读音前缀树进行线性编码及使用该线性编码读音前缀树识别语音的方法和系统。通过如下方式对两字组读音前缀树进行编码：在识别过程中仅根据祖先结点就可以确定“污染”(smeared)概率。污染概率是指存贮在每一个基于其子孙结点的概率的非叶结点中的概率值。通过使用“污染”概率使得在识别过程中在得知某单词之前就可以进行概率计算。

本发明的系统用“污染”概率对两字组读音前缀树进行编码，作为一棵树结点字典与每个两字组读音前缀进行线性编码的组合。该树结点字典包括组成词汇中每个单词的音素的列表。每个两字组读音前缀树的线性编码包括每个叶结点的入口。入口标识叶结点及与其最近的系数值非1.0的祖先结点的系数。在两字组读音前缀树的每个结点都分配有一个系数，该系数值等于该结点的污染概率值除以其双亲结点的概率值。系数值的特征在于，每一个结点没有兄弟结点的系数是1.0。由于一般地讲，两字组读音前缀树中大多数结点都没有兄弟结点，因此编码时可以省略系数值1.0。

然后，在语音识别期间可以使用线性编码两字组读音前缀树对其两字组上下文进行例化。该两字组上下文是对两字组读音前缀树和每个结点中用于表示相应的音素被读出的可能性的概率进行的例化。读出每个音素时，计算机系统利用线性编码识别下一个要加到两字组上下文的子结点。然后，计算机系统使用树结点字典快速识别要加到两字组上下文中的子结点。

图3是表示本发明的组成的计算机系统的方框图。该计算机系统可以是一个具有中央处理器，内存，及各种存贮装置的标准计算机。该计算机系统包括两字组PPT301，一个线性PPT编码器302，线性编码的两字组PPT303，一个音素识别器304，一个计算机语音识别器305及一个单字组PPT306。一般地，实现线性PPT编码器和计算机语音识别器的功能的计算机程序通常存贮在计算机可读介质上如计算机内存或磁盘中。线性PPT302对两字组PPT301进行编码以生成线性编码的两字组PPT303。线性编码的两字组PPT是两字组PPT的压缩编码。语音识别过程中，CSR系统305从音素识别器304接收音素序列并且使用线性编码的两字组PPT303和单字组PPT306将接收到的音素序列识别为单词。

图4示出用于该示例字典的扩充单字组PPT。扩充单字组PPT是被扩充了的单字组PPT，该扩充了的单字组PPT每个结点都包括一个系数，并且通过单字组概率值对其结点进行排序。每个双亲结点的子结点按照该子结点的子孙叶结点的最大概率值从左到右进行排序。例如，由于结点[1]的子孙叶结点的最大概率值为0.3，结点[2]的子孙叶结点的最大概率值为0.2，因而结点[1]在结点[2]的左边。同样的，由于结点[3]、结点[4]、及结点[5]的子孙结点的最大概率值依次为0.3、0.25、0.15，因而结点[3]在最左边，结点[5]在最右边。单字组PPT的每个结点都分配有一个顺序结点标识码。通过广度优先，从左到右遍历单字组PPT访问结点来分配结点标识码。这样处于同一深度的结点各具有唯一的顺序标识码。例如，深度为3的结点具有标识码[3]、[4]、[5]和[6]。

根据公式(1)和(2)得到的概率值可以生成扩充单字组PPT的系数。即，首先，根据叶结点的概率设置每个非叶结点的概率值。每个非叶结点的概率值是通过下述公式计算的：

P’(n)＝max(P(X)) (1)即该单字组PPT的每个非叶结点的概率值等于其子结点中最大的概率值。例如，结点(1)具有概率值0.3，它是其子结点[3]、[4]和[5]各自具有的概率值0.3，0.25，和0.15中最大的概率值。每个结点的系数通过如下公式计算：

即，一个结点的系数等于该结点的概率值除以其双亲结点的概率值。例如，结点[5]的概率值为0.15，其双亲结点[1]的概率值为0.3。因此，结点[5]的系数等于0.15除以0.3，值为0.5。扩充单字组PPT仅存贮每个结点的系数，原因是概率值可由系数生成。某个结点的概率值等于其双亲结点的概率值乘以该结点的系数。例如，结点[1]的概率值为0.3，其子结点[5]的系数为0.5。因此结点[5]的概率值等于0.3乘以0.5即0.15。在这里使用系数而不是概率值是有益的，这是由于一般大部分系数都等于1.0，使得它可以压缩表示。即，任何省略的系数可以假设为1.0。

一旦生成扩充单字组PPT后，线性PPT编码器就生成一树结点字典(TND)。图5是图4扩充单字组PPT的树结点字典。该TND具有为字典中每个单词设置的入口及每个结点的结点标识码，这些结点标识码用于当识别一个单词时在扩充单字组PPT中访问这些结点。例如，若识别单词“cotton”则将遍历结点[0]、[2]、[6]、[10]、[12]及[13]。由于遍历经常从结点[0]开始，因此在TND中可以省略该结点标识码。TND和线性编码的两字组PPT表示一两字组PPT的编码。

线性PPT编码器采用与扩充单字组PPT类似的方式对每个两字组PPT进行扩充。具体地说，为每个非叶结点生成一个系数。图6表示单词两字组上下文“were”的扩充两字组PPT，图7表示单词两字组上下文“wear”的扩充两字组PPT。线性PPT编码器分别为扩充两字组PPT601和701生成线性编码602和702。线性编码的两字组PPT包括每个叶结点的入口。可以根据线性编码的两字组PPT和TND重新生成两字组PPT。这样，线性编码的两字组PPT表示两字组PPT的压缩编码。线性编码的PPT(LEBPPT)的每个入口都标识扩充两字组PPT的一个单词，一个系数，及一个深度值。例如，LEBPPT 602的第二入口标识单词“caught”，系数为0.8及深度为1。该第二入口表明单词“caught”的叶结点所具有的概率值等于0.8乘以LEBPPT中前一入口的概率值。即，结点[11]的概率是0.8再乘以在LEBPPT 602第一个入口的系数值0.5。进一步地，该第二入口还表明系数0.8存贮在扩充两字组PPT中深度为1的一个结点中。

线性PPT编码器通过对扩充两字组PPT执行自左向右，深度优先的遍历生成一个LEBPPT。对于访问到的每一个叶结点，线性PPT编码器为LEBPPT增加一个入口，该入口标识该叶结点中的单词和访问到的最后一个系数值为非1.0的结点的系数与深度。例如，当访问图6中的叶结点[7]时，该访问到的最后一个系数值非1.0的结点为结点[0]。因此LEBPPT的第一个入口是“we 0.50”，标志系数为0.5，深度为0。第二入口对应于结点[11]。在访问结点[11]之前所访问到的最后一个系数值非1.0的结点是结点[2]，其系数值为0.8，深度为10。这样，LEBPPT中第二入口是“caught 0.8 1”。最后，访问结点[13]时，所访问到的最后一个系数值非1.0的结点是结点[12]，其系数为0.25，深度为4。这样，LEBPPT中的第三入口为“cotton 0.25 4”。

通过使用树结点字典(TND)对LEBPPT进行解码可以重新生成两字组PPT。对于LEBPPT中的每一个入口，解码器都将从TND中检索存贮在该LEBPPT入口中的单词。(一个最佳CSR系统实际上并不是在开始识别之前执行该解码操作，而是将解码操作集成到识别过程中)。TND入口标识出属于两字组PPT中的那个单词部分的结点。即该入口标识出两字组PPT中从那个单词的根结点到其叶结点路径上的所有结点。解码器在两字组PPT中为每个已识别出的结点增加一个结点。例如，当解码器处理到LEBPPT601的第一入口时，为两字组PPT增加一个根结点并且为每个标识在TND入口中的单词“we”的结点增加一个结点。然后，除去处于存贮在LEBPPT入口的那一深度的结点之外，解码器将把每个增加的结点的系数都置为1.0。同样的，当解码器处理到第二入口时，它从TND中检索存贮在第二入口中的单词的入口。然后在两字组PPT中为每个已识别出的结点增加一个结点(若还没有增加)。即解码器从TND中检索单词“caught”的结点的标识码并且为每个已标识的结点增加一个结点。然后，将深度为1的结点的系数置为0.8，将其它系数置为1.0。最后，当解码器处理到第三入口时，从TND中检索单词“cotton”的入口并且为每个尚未加入的已识别出的结点增加一个结点，即增加结点[12]和结点[13]。然后，解码器将处于LEBPPT入口深度的结点的系数置为0.25并且将其它系数置为1.0。这时生成的PPT就是扩充两字组PPT。然后，解码器遍历扩充两字组PPT以生成叶结点的概率值。任何一位专业技术人员都将明白要压缩式地表示两字组PPT，不需要具有深度列的线性编码两字组树。但是，从下面的描述将看到，深度的包括将能在语音识别过程中快速生成两字组上下文。

图8是一编码两字组PPT例程的流程图。由线性PPT编码器来执行编码两字组PPT例程。该例程是一递归程序用于对传递给该例程的扩充两字组PPT进行深度优先，自左至右的遍历。首先通过传递扩充两字组PPT的根结点调用该例程。每次例程递归调用自己时，都传递一扩充两字组PPT的子树。在步骤801，若传递的子树的根结点是一叶结点，则例程执行步骤805，否则执行步骤802。在步骤802-804，例程循环执行如下过程选择所传递的子树根结点的每个子结点并且将选择的子结点作为一子树的根结点传递给该例程并递归调用之。在步骤802，例程从第一个子结点开始选择所传递的子树的下一子结点。在步骤803，若所传递的子树的根结点的所有子结点都已选择，则返回例程，否则将传递所选择的结点作为一棵子树的根结点递归调用之并循环至步骤802选择下一子结点。在步骤805，例程为根结点的单词增加一个LEBPPT入口，并且为该入口增加所访问到的最后一个系数值非1.0的结点的深度和系数值然后返回。尽管该例程是被描述为对两字组PPT进行编码，该例程不用修改即可用于对任何PPT进行编码，而不管其对应于所种n字组长度。

图9是解码LEBPPT例程的流程图。用于为解码LEBPPT例程传递一个LEBPPT和一个TND并重新生成扩充两字组PPT。正如上述，一个最佳CSR系统不必重新生成扩充两字组PPT，而是象如下所述那样直接从LEBPPT中检索需要的信息。在步骤901-909，例程循环执行如下过程：选择每个LEBPPT入口并且把该入口所表示的结点加到扩充两字组PPT中。在步骤901，例程从第一入口开始选择LEBPPT入口的下一入口。在步骤902，若所有LEBPPT入口都已被选择，则返回例程，否则执行步骤903。在903中例程选择与选中的LEBPPT入口中的单词相对应的TND入口。在步骤904-909，例程循环执行如下过程：处理在所选的TND入口中的每个所标识结点并且，若其还未加入扩充两字组PPT，则将其增加进去。在步骤904，例程从选中的LEBPPT入口的深度开始选择下一深度。若选中的深度值比被选中的TND入口的最大深度值大，则例程循环至步骤901以选择下一个LEBPPT入口。否则执行步骤906。在步骤906，例程在扩充两字组PPT中增加一个与在所选的TND入口中标识的结点相对应的结点。在步骤907，若所选中的深度值等于所选中的LEBPPT入口中的深度值，则例程执行步骤908，否则执行步骤909。在步骤908，例程将增加的结点的系数值置为所选中的LEBPPT入口中的系数值。在步骤909，例程将增加的结点值置为1.0。然后，例程循环到步骤904以选择下一深度。

图10是应用LEBPPT的一个CSR系统的流程图。该CSR系统检索一序列音素；并且选择与音素序列最佳匹配的序列单词。识别系统重复地为处理每个音素时音素列所表示的单词序列生成新的假设。例如，CSR系统可能建立如下假设：

H1(t)＝“we wear”P(H1(t))＝0.6

H2(t)＝“we were”P(H2(t))＝0.4CSR系统根据单字组和两字组PPT及TND扩展这些假设。

图11-13示出CSR系统生成的PPT。该CSR系统为最优假设(即，具有最高概率值的假设)生成一单字组PPT，并且为每个假设生成一两字组PPT(称为两字组上下文)。该单字组PPT的结点具有的概率值为最优假设的概率值乘以该结点的单字组概率。例如，图11中结点[5]的概率值为0.09，等于图4中结点[5]的单字组的概率值0.15乘以最优假设的概率值0.6。两字组PPT的结点具有的概率值为相应的假设的概率值乘以该结点的概率值。例如，图12中结点[10]的概率值为0.24，它等于图6中的结点[10]的概率值0.4乘以相应假设的概率值0.6。在接收到每个音素的同时CSR系统生成单字组PPT和两字组PPT。为生成两字组PPT，CSR系统使用LEBPPT和TND以识别需要加入什么结点及该结点的概率值。

处理完最后一个音素后，CSR系统选择最优假设作为与音素列最佳匹配的单词序列。若还未处理完最后一个音素，则CSR系统从第一个假设开始将下一个未处理的假设作为下一个假设。

参照图10，步骤1001中，系统检索下一个音素。步骤1002中，若所有的音素都已经处理完，则系统继续步骤1010，否则，处理步骤1003。步骤1003中，系统为检索出的音素建立一新假设。步骤1004中，若已建立任何假设，则系统执行步骤1005，否则跳到步骤1007修改两字组PPT。步骤1005-1009中，系统为最优假设例化一单字组PPT。并为每个假设例化一个两字组PPT。然后，根据假设的概率值和单字组与两字组概率值设置PPT中结点的概率值，系统循环修改PPT以反映假设的状态。在步骤1005中，系统调用初始化字间两字组PPT例程，该例程对两字组PPT进行初始化以实现从一个单词到下一单词的转换。步骤1006中系统调用初始化字间单字组PPT例程，该例程对一单字组PPT进行初始化以实现从一个单词到下一单词的转换。步骤1007-1009中，根据音素例程循环来修改两字组PPT。步骤1007中，系统调用修改两字组PPT例程以根据音素修改两字组PPT。步骤1008中，系统调用修改单字组PPT例程。步骤1009中，若每个新建立的假设的两字组PPT例化工作都完成了，则例程循环至步骤1001，选择下一音素，否则，例程循环至步骤1007，完成PPT的修改。步骤1010中，系统选择最优假设作为检索到的音素列的识别单词并且到此例程执行完毕。

图14是初始化字间两字组PPT例程的流程图。该例程为每个新建立的假设的最后一个单词建立一个两字组上下文(即，一个新的两字组PPT)。并初始化每个两字组上下文的根结点。步骤1401-1409中，例程循环来选择和处理每个假设。步骤1401中，例程从第一个假设开始选择下一假设，步骤1402中，若所有假设都已选择了，则例程返回，否则执行步骤1403。步骤1403中，例程为选中的假设的最后一个单词设置一个两字组上下文。步骤1404-1409，例程循环处理指定的两字组上下文的每一LEBPPT入口。步骤1404中例程从第一个LEBPPT入口开始在LEBPPT中为选中的两字组上下文选择下一入口。步骤1405中，若两字组上下文的所有LEBPPT入口均已选择则例程循环至步骤1401选择下一假设，否则执行步骤1406。步骤1406中，若选中的入口的深度是0或1，则执行步骤1407，否则循环至步骤1404选择下一LEBPPT入口。步骤1407中，例程从TND中识别选中的LEBPPT入口中单词的第一个音素。步骤1408中，例程在此两字组上下文中为选中的LEBPPT入口中的单词的第一个音素例化一个结点。步骤1409中，例程将结点的概率值置为LEBPPT入口的系数乘以选中的假设的概率值，并且循环到步骤1404以选择下一LEBPPT入口。

图15是初始化字间单字组PPT例程的流程图。该例程为具有最高概率值的假设例化一单字组PPT，为单字组PPT的根结点的第一子结点初始化一个结点。步骤1501中，例程选择具有最高概率值的假设。在步骤1502-1505中，例程为单字组PPT的根结点的每一子结点例化一单字组上下文。步骤1502中，例程从第一个结点开始选择单字组PPT的根结点的下一个子结点。步骤1503中若所有子结点均已选择，则返回例程，否则执行步骤1504。步骤1504中，例程为选中的假设选中的子结点例化一结点。步骤1505中，例程将例化的结点的概率值置为子结点的系数乘以选中的假设的概率值得到的值，并且返回步骤1502选择根结点的下一子结点。

图16是修改两字组PPT例程的流程图。步骤1601中，例程从第一个两字组上下文开始选择下一两字组上下文。步骤1602中，若所有两字组上下文均已被选择则例程返回，否则执行步骤1603，步骤1603-1608中，例程循环执行下述过程：为选中的两字母上下文的两字组PPT中的每个叶结点增加一个子结点。步骤1603中，例程从两字组PPT的第一个叶结点开始选择下一叶结点。步骤1604中，若所有叶结点均已被选择，则例程循环至步骤1601选择下一两字组上下文，否则执行步骤1605。步骤1605中，例程在TND中识别选中结点的单词的下一音素。步骤1606中，例程在选中的两字组上下文的两字组PPT中为下一音素例化一结点。步骤1607中，例程将例化结点的概率值置为选中的叶结点概率值。步骤1608中，例程调用另一例程为例化结点的兄弟增加结点并且循环至步骤1603选择下一叶结点。

图17是为例化结点的兄弟增加结点的例程的流程图。步骤1701中，例程在LEBPPT中从例化结点的入口开始选择下一入口。步骤1702中，若LEBPPT中所有入口均已选择，则例程返回，否则执行步骤1703。步骤1703中，若选中的LEBPPT入口的深度值比例化结点的深度值加1大，则例程循环至步骤1701选择下一LEBPPT入口，否则执行1704。步骤1704中，若选中的入口的深度值小于或等于例化结点的深度值，则例程返回，否则执行步骤1705。步骤1705中，例程从TND中识别选中的LEBPPT入口中单词的下一音素。步骤1706中，例程在选中的两字组上下文的两字母PPT中为该下一音素例化一结点。步骤1707中，例程将该结点的概率值置为其双亲结点的概率值乘以选中的LEBPPT入口的系数得到的值并循环至步骤1701选择下一LEBPPT入口。

图18是修改单字组PPT例程的流程图。步骤1801中，例程选择最优假设的下一叶结点。步骤1802中，若最优假设的所有叶结点均已被选择，则例程返回，否则执行步骤1803。步骤1803中，例程为该选中的叶结点的每一个子结点例化结点。步骤1803中例程从扩充单字组PPT中选择该选中的叶结点的下一子结点。步骤1804中，若所有子结点均已选择，则例程循环至步骤1801选择下一叶结点，否则执行步骤1805。步骤1805中，例程为该选中的子结点例化一个结点。步骤1806中，例程将该例化结点的概率值置为其双亲结点的概率值乘以该结点在扩充单字组PPT中的系数并且循环至步骤1803选择下一子结点。

尽管本发明是从一最佳实施例角度进行描述的，但本发明的目的并不限于此实施例。在本发明精神内的修改对于熟练技术人员而言是显而易见的。本发明的范围如权利要求书中所述。特别是，本发明的线性编码技术可以用于对与语音识别不相关的各种应用的树型数据结构进行编码。总之，该编码技术可以作为压缩地表示树型数据结构的一种通用机制。

Claims

1.一种在计算机系统中用于对读音前缀树进行线性编码的方法，包括：

对读音前缀树进行线性编码；

接收需要识别的语音并且识别组成所接收到的语音的音素；

根据在线性编码读音前缀树中所编码的概率识别与所识别出的音素对应的单词，

该读音前缀树具有多个结点，每个非根结点和非叶结点均表示一个音素，每个叶结点表示一个在根结点到该叶结点路径上由非叶结点所表示的音素组成的单词，该方法还包括，

将每个非叶结点的概率置为一个基于其子结点的概率值的值；

将每个结点的系数置为该结点的概率值除以该结点的双亲结点的概率值；及

为读音前缀树的每个叶结点生成一编码读音入口，该编码读音入口标识该叶结点所表示的单词并包括一其最近的具有一个非预定系数的祖先结点的系数值，

其中，该读音前缀树可以根据其编码读音入口及组成每个单词的音素的列表重新生成。

2.根据权利要求1所述的方法，其中，一个结点的子结点按下述方式进行排序：其子孙叶结点具有最高概率值的子结点排在其它子结点的左边并且对读音前缀树的每个叶结点生成一编码读音入口的操作包括对该读音前缀树执行一深度优先，从左至右的遍历。

3.根据权利要求1所述的方法，其中，包括通过以下步骤生成一树结点字典：

生成一单字组读音前缀树；

为生成的单字组读音前缀树的每个结点分配一唯一标识码；及

对于每个单词，从该单字组读音前缀树的根结点到表示该单词的叶结点路径上存贮每个结点的唯一标识码。

4.根据权利要求3所述的方法，其中，分配唯一标识码的操作是在对单字组读音前缀树进行广度优先，从左至右遍历过程中为结点分配顺序识别码。

5.根据权利要求1所述的方法，其中，该读音前缀树中每个结点都有一深度值并且该编码读音入口包括其最近的系数值非1.0的祖先结点的深度值。

6.根据权利要求1所述的方法，其中，进一步包括：

生成一树结点字典，该树结点字典包括组成每个单词的音素的标识；

根据每个非叶结点的子结点的子孙叶结点的最大概率值对读音前缀树每个非叶结点的子结点进行排序；

对于读音前缀树的每个非叶结点，根据其子结点的概率值设置该非叶结点的概率值；

对于读音前缀树的每个结点，该结点的系数值为该结点的概率值除以其双亲结点的概率值；及

为读音前缀树的每个叶结点生成一编码读音入口，该编码读音入口标识该叶结点所表示的单词并且包括距其最近的系数值非1.0的祖先结点的系数。

7.根据权利要求6所述的方法，其中某结点的子结点按下述方式进行排序：其子孙叶结点具有最高概率值的子结点排在最左边，并且对读音前缀树的每个叶结点生成一编码读音入口的操作包括对该读音前缀树执行深度优先，从左至右的遍历。

8.根据权利要求6所述的方法，其中树结点字典的生成包括：

生成一棵单字组读音前缀树；

对于每个单词，存储从根结点到表示该单词的叶结点路径上每个结点的唯一标识码。

9.根据权利要求8所述的方法，其中分配唯一标识码的操作是在对单字组读音前缀树进行广度优先，从左至右遍历过程中为结点分配顺序识别码。

10.一种用于识别语音的计算机系统，其中读音前缀树具有多个结点，每个非根结点和非叶结点均表示一个音素，每个叶结点表示从根结点到该叶结点路径上非叶结点所表示的音素组成的一个单词，包括：

对读音前缀树进行线性编码的线性编码器，其中

将每个非叶结点的概率置为一基于其子结点的概率值的值；

为读音前缀树的每个叶结点生成一个编码读音入口，该编码读音入口标识该叶结点所表示的单词并包括一其最近的祖先结点的系数值，该系数值不是预定的，

音素识别器，用于接收需要识别的语音并且识别组成所接收到语音的音素，以及

识别器，用于根据在线性编码读音前缀树中所编码的概率识别所识别出的音素对应的单词。

11.根据权利要求10所述的计算机系统，其中，一个结点的子结点按下述方式进行排序：其子孙叶结点具有最高概率值的子结点排在其它子结点的左边并且对读音前缀树的每个叶结点生成一编码读音入口的操作包括对该读音前缀树执行深度优先，从左至右的遍历。

12.根据权利要求10所述的计算机系统，其中，该线性编码器通过如下步骤生成树结点字典：

生成一单字组读音前缀树；

对于每个单词，存贮从该单字组读音前缀树的根结点到表示该单词的叶结点路径上每个结点的唯一标识码。

13.根据权利要求12所述的计算机系统，其中分配唯一标识码的操作是在对单字组读音前缀树进行广度优先，从左至右遍历过程中为结点分配顺序识别码。

14.根据权利要求10所述的计算机系统，其中该读音前缀树是一个两字组读音前缀树。

15.根据权利要求10所述的计算机系统，其中该读音前缀树是一个三字组读音前缀树。

16.根据权利要求10所述的计算机系统，其中该树具有多个结点，该树具有一个根结点和若干叶结点，每个叶结点具有一个值，线性编码器包括：

具有从某根结点到某叶结点每个路径上所有结点的标识的路径列表；

用于将每个结点的系数值置为该结点的值除以其双亲结点的值的装置；

用于为该树的每个叶结点生成一编码入口的装置，该编码入口标识该叶结点并且包括一距其最近的系数值非预定值的祖先结点的系数值。

17.根据权利要求16所述的计算机系统，其中，可以根据该编码入口和路径列表重新生成该树。

18.根据权利要求16所述的计算机系统，其中该树中每个结点都有一深度值，并且其中该编码入口包括一距其最近的系数值非1.0的祖先结点的系数值。

19.根据权利要求18所述的计算机系统，包括在生成编码入口后，用于识别处于树中某一深度的结点的装置；对于每个编码入口，在列表中为该编码入口所标识的叶结点选择处于该深度的结点的标识。

20.根据权利要求19所述的计算机系统，其中该深度值可以作为访问该列表的索引。

21.根据权利要求19所述的计算机系统，其中该树为一两字组读音前缀树并且在识别一系列音素的过程中执行处于某深度的结点的识别操作。