CN103065630A

CN103065630A - 用户个性化信息语音识别方法及系统

Info

Publication number: CN103065630A
Application number: CN2012105859347A
Authority: CN
Inventors: 潘青华; 何婷婷; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2013-04-24
Anticipated expiration: 2032-12-28
Also published as: US9564127B2; CN103065630B; EP2940684A4; US20150348542A1; WO2014101717A1; EP2940684A1; EP2940684B1

Abstract

本发明涉及语音识别技术领域，公开了一种用户个性化信息语音识别方法及系统。该方法包括：接收用户输入的语音信号；根据基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在基础静态解码网络中各活跃节点上的解码路径，所述基础静态解码网络是与基础人名语言模型相关的解码网络；如果确定当前帧有解码路径进入所述基础静态解码网络中的人名节点，则根据所述用户的附属静态解码网络对所述人名节点进行网络扩展，所述附属静态解码网络是与特定用户人名语言模型相关的解码网络；在最后一帧解码完成后，返回识别结果。利用本发明，可以提高连续语音识别中用户个性化信息的识别准确率。

Description

用户个性化信息语音识别方法及系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种用户个性化信息语音识别方法及系统。

背景技术

随着手机等智能终端上语音输入功能和应用的普及，用户在手机等智能终端上使用语音输入的需求越来越多，对用户个性化信息，尤其是通讯录中联系人的识别准确率也提出了更高的要求。而传统连续语音识别系统由于语言模型训练方式及识别方法的局限性，对存在多音字现象的汉语语音信号可能无法提供正确的字词结果，特别是在人名信息识别中，其识别准确率更受到了进一步的限制，主要体现在：

1．中文常见人名数量众多，对此连续语音识别的词典中通常将人名字词作为未登录词处理，导致训练语料中覆盖的人名数量极其有限；

2．其次中文人名同音字大量存在，常见人名有几十个甚至更多的汉字组合；

3．对每个用户来说，用户特有的个性化通讯录中联系人人名可能还会有一部分非常用人名，即每个个性化的人名列表在训练语料中无法均匀覆盖。

基于以上原因，现有技术中用于连续语音识别的语言模型不能很好地模拟人名字词特别是用户个性化联系人名字词，人名识别效果也往往明显低于其他内容的识别效果。显然如何在连续语音识别中提高用户个性化信息，特别是人名信息的识别准确率已经成为连续语音识别系统亟待解决的问题。

发明内容

本发明提供一种用户个性化信息语音识别方法及系统，以提高连续语音识别中用户个性化信息的识别准确率。

为此，本发明提供如下技术方案：

一种用户个性化信息语音识别方法，包括：

接收用户输入的语音信号；

根据基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在基础静态解码网络中各活跃节点上的解码路径，所述基础静态解码网络是与基础人名语言模型相关的解码网络；

如果确定当前帧有解码路径进入所述基础静态解码网络中的人名节点，则根据所述用户的附属静态解码网络对所述人名节点进行网络扩展，所述附属静态解码网络是与特定用户人名语言模型相关的解码网络；

在最后一帧解码完成后，返回识别结果。

优选地，所述方法还包括：

在根据基础静态解码网络逐帧对所述语音信号进行解码之前，确定所述用户的附属静态解码网络；或者

在确定当前帧有解码路径进入所述基础静态解码网络中的人名节点之后，确定所述用户的附属静态解码网络。

优选地，所述确定所述用户的附属静态解码网络包括：

根据所述语音信号的特征确定用户身份，然后根据所述用户身份确定所述用户的附属静态解码网络；或者

根据用户的设备码确定用户身份，然后根据所述用户身份确定所述用户的附属静态解码网络。

优选地，所述方法还包括：

构建基础人名语言模型和特定用户人名语言模型；

分别构建与所述基础人名语言模型相关的基础静态解码网络和与所述特定用户人名语言模型相关的附属静态解码网络。

优选地，所述构建基础人名语言模型包括：

分别采集人名数据库和语言模型训练语料；

根据所述人名数据库及所述语言模型训练语料，对常规字词以及常规字词与人名字词间关联关系进行统计；

根据统计结果生成基础人名语言模型。

优选地，所述根据所述人名数据库及所述语言模型训练语料，对常规字词以及常规字词与人名字词间关联关系进行统计包括：

根据所述人名数据库中的人名在所述训练语料中进行人名检测；

对所述训练语料中的所有具体人名用一个统一的虚拟人名替换；

根据替换后的训练语料对常规字词以及常规字词与人名字词间关联关系进行统计。

优选地，所述构建与所述基础人名语言模型相关的基础静态解码网络包括：

为所述虚拟人名设置一个虚拟发音，以使所述虚拟人名作为一个普通单词参与声学模型的静态网络扩展；

根据所述虚拟发音确定扩展后的静态网络中的特殊节点，所述特殊节点包括：进入人名单元的节点和人名单元的终止节点；

对所述特殊节点的入弧或出弧上的虚拟发音单元进行扩展，得到与基础人名语言模型相关的基础静态解码网络。

优选地，所述构建特定用户人名语言模型包括：

从用户上传的人名相关信息中提取人名，并将所述人名作为人名词条记录；

对每个人名词条设置一个词频概率，并根据人名词条的词频概率生成特定用户人名语言模型；

所述构建与所述特定用户人名语言模型相关的附属静态解码网络包括：

分别设定特定用户人名语言模型中的句首词和句尾词的发音为虚拟的特殊发音；

对于句首节点的出弧和句尾节点的入弧上的特殊发音单元进行扩展，得到特定用户人名语言模型相关的附属静态解码网络。

一种用户个性化信息语音识别系统，包括：

接收单元，用于接收用户输入的语音信号；

解码单元，用于根据基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在基础静态解码网络中各活跃节点上的解码路径，所述基础静态解码网络是与基础人名语言模型相关的解码网络；

解码路径检查单元，用于确定当前帧是否有解码路径进入所述基础静态解码网络中的人名节点；

网络扩展单元，用于在所述解码路径检查单元确定当前帧有解码路径进入所述基础静态解码网络中的人名节点后，根据所述用户的附属静态解码网络对所述人名节点进行网络扩展，所述附属静态解码网络是与特定用户人名语言模型相关的解码网络；

结果输出单元，用于在最后一帧解码完成后，返回识别结果。

优选地，所述系统还包括：

确定单元，用于在所述解码单元根据基础静态解码网络逐帧对所述语音信号进行解码之前，确定所述用户的附属静态解码网络；或者在解码路径检查单元确定当前帧有解码路径进入所述基础静态解码网络中的人名节点之后，确定所述用户的附属静态解码网络。

优选地，所述确定单元，具体用于根据所述语音信号的特征确定用户身份，然后根据所述用户身份确定所述用户的附属静态解码网络；或者根据用户的设备码确定用户身份，然后根据所述用户身份确定所述用户的附属静态解码网络。

优选地，所述系统还包括：

基础人名语言模型构建单元，用于构建基础人名语言模型；

特定用户人名语言模型构建单元，用于构建特定用户人名语言模型；

基础静态解码网络构建单元，用于构建与所述基础人名语言模型相关的基础静态解码网络；

附属静态解码网络构建单元，用于构建与所述特定用户人名语言模型相关的附属静态解码网络。

优选地，所述基础人名语言模型构建单元包括：

人名采集单元，用于采集人名数据库；

语料采集单元，用于采集语言模型训练语料；

统计单元，用于根据所述人名数据库及所述语言模型训练语料，对常规字词以及常规字词与人名字词间关联关系进行统计；

基础人名语言模型生成单元，用于根据所述统计单元得到的统计结果生成基础人名语言模型。

优选地，所述统计单元包括：

检测子单元，用于根据所述人名数据库中的人名在所述训练语料中进行人名检测；

替换子单元，用于对所述训练语料中的所有具体人名用一个统一的虚拟人名替换；

统计子单元，用于根据替换后的训练语料对常规字词以及常规字词与人名字词间关联关系进行统计。

优选地，所述基础静态解码网络构建单元包括：

虚拟发音设置单元，用于为所述虚拟人名设置一个虚拟发音，以使所述虚拟人名作为一个普通单词参与声学模型的静态网络扩展；

特殊节点确定单元，用于根据所述虚拟发音确定扩展后的静态网络中的特殊节点，所述特殊节点包括：进入人名单元的节点和人名单元的终止节点；

第一扩展单元，用于对所述特殊节点的入弧或出弧上的虚拟发音单元进行扩展，得到与基础人名语言模型相关的基础静态解码网络。

优选地，所述特定用户人名语言模型构建单元包括：

人名提取单元，用于从用户上传的人名相关信息中提取人名，并将所述人名作为人名词条记录；

特定用户人名语言模型生成单元，用于对每个人名词条设置一个词频概率，并根据人名词条的词频概率生成特定用户人名语言模型；

所述附属静态解码网络构建单元包括：

设定单元，用于分别设定特定用户人名语言模型中的句首词和句尾词的发音为虚拟的特殊发音；

第二扩展单元，用于对于句首节点的出弧和句尾节点的入弧上的特殊发音单元进行扩展，得到特定用户人名语言模型相关的附属静态解码网络。

本发明实施例提供的用户个性化信息语音识别方法及系统，在接收到用户输入的语音信号后，根据与基础人名语言模型相关的基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在所述基础静态解码网络中活跃节点上的解码路径，如果确定当前帧有解码路径进入所述基础静态解码网络中的人名节点，则进一步根据所述用户的与特定用户人名语言模型相关的附属静态解码网络对所述人名节点进行网络扩展，从而不仅提高了连续语音识别中个性化的联系人人名的识别准确率，而且还提高了联系人人名的上下文内容识别准确率。在语音识别的多个层面应用联系人信息，使整体识别效果得到了优化，提高了连续语音识别中用户个性化信息的识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例用户个性化信息语音识别方法的流程图；

图2是本发明实施例用户个性化信息语音识别方法中的一种具体解码流程图；

图3是本发明实施例用户个性化信息语音识别方法中的另一种具体解码流程图；

图4是本发明实施例中构建基础人名语言模型的流程图；

图5是本发明实施例中构建特定用户人名语言模型的流程图；

图6是本发明实施例中构建与基础人名语言模型相关的基础静态解码网络的流程图；

图7是本发明实施例中基础人名语言模型相关解码网络扩展示意图；

图8是本发明实施例中构建与特定用户人名语言模型相关的附属静态解码网络的流程图；

图9是本发明实施例中特定用户人名语言模型相关解码网络扩展示意图；

图10是本发明实施例用户个性化信息语音识别系统的结构示意图；

图11是本发明实施例用户个性化信息语音识别系统的一种具体实现结构示意图；

图12是本发明实施例用户个性化信息语音识别系统的另一种具体实现结构示意图；

图13是本发明实施例用户个性化信息语音识别系统的另一种具体实现结构示意图；

图14是本发明实施例用户个性化信息语音识别系统中基础人名语言模型构建单元的结构示意图；

图15是本发明实施例用户个性化信息语音识别系统中基础静态解码网络构建单元的结构示意图；

图16是本发明实施例用户个性化信息语音识别系统中特定用户人名语言模型构建单元和附属静态解码网络构建单元的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

本发明实施例针对现有的用于连续语音识别的语言模型不能很好地模拟人名字词，特别是用户个性化联系人名字词的问题，提供了一种用户个性化信息语音识别方法及系统，以提高用户个性化信息的识别准确率。

如图1所示，是本发明实施例用户个性化信息语音识别方法的流程图，包括以下步骤：

步骤101，接收用户的语音信号。

步骤102，根据基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在所述基础静态解码网络中所有活跃节点上的解码路径，所述基础静态解码网络是与基础人名语言模型相关的解码网络。

利用所述解码网络对用户输入的语音信号进行解码的过程是一个在该解码网络中搜索最优路径，实现语音到文本的转换的过程。

具体地，可以首先对接收的连续语音信号采样为一系列离散能量值存入数据缓存区。

当然，为了进一步提高系统的鲁棒性，还可以先对接收到的连续语音信号进行降噪处理。首先通过对语音信号的短时能量和短时过零率分析，将连续的语音信号分割成独立的语音片断和非语音片断，然后对分割得到的语音片断进行语音增强处理，在进行语音增强处理时，可以通过维纳滤波等方法，将语音信号中的环境噪声进一步消除，以提高后续系统对该信号的处理能力。

考虑到降噪处理后的语音信号中依然会存在大量语音识别无关的冗余信息，直接对其识别可能会使运算量和识别准确率降低，为此，可以从降噪处理后的语音能量信号中提取识别有效语音特征，并存入特征缓存区内。具体地，可以提取语音的MFCC(Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数)特征，对窗长25ms帧移10ms的每帧语音数据做短时分析得到MFCC参数及其一阶、二阶差分，共计39维。也就是说，将每帧语音信号量化为一39维的特征序列。然后，根据所述基础静态解码网络对其中每帧语音信号进行解码，获取所述语音信号在所述基础静态解码网络中所有活跃节点上的解码路径。

步骤103，如果确定当前帧有解码路径进入所述基础静态解码网络中的人名节点，则根据所述用户的附属静态解码网络对所述人名节点进行网络扩展，所述附属静态解码网络是与特定用户人名语言模型相关的解码网络。

在现有技术中，解码路径的搜索过程如下：按照从左到右的时间顺序，计算每帧语音信号帧到达解码网络中每个活跃节点的累积历史路径概率。具体地，对于需要考察的每帧语音信号帧，可以首先计算当前解码网络中所有活跃节点相对于该语音信号帧的历史路径和累积历史路径概率。然后，获取下一帧语音信号帧，并从满足系统预设条件的历史路径向后扩展解码。

由于本发明实施例中的解码网络是与基础人名语言模型相关的基础静态解码网络，因此，在当前帧有解码路径进入所述基础静态解码网络中的人名节点时，根据所述用户的附属静态解码网络对所述人名节点进行网络扩展。由于所述附属静态解码网络是与特定用户人名语言模型相关的解码网络，因此通过对用户个性化词条的构建及应用，尤其是对用户个性化联系人信息的应用，有效提高了用户个性化信息的识别准确率。

步骤104，在最后一帧解码完成后，返回识别结果。

当对最后一帧语音信号帧解码后，其中具有最大累积历史路径概率的活跃节点即为最优节点，从该最优节点通过解码状态回溯得到的历史路径即为最优路径，该最优路径上的单词序列即为解码结果。

本发明实施例用户个性化信息语音识别方法，在接收到用户输入的语音信号后，根据与基础人名语言模型相关的基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在解码网络中所有活跃节点上的解码路径，如果确定当前帧有解码路径进入所述基础静态解码网络中的人名节点，则进一步根据所述用户的与特定用户人名语言模型相关的附属静态解码网络对所述人名节点进行网络扩展，从而不仅提高了连续语音识别中个性化的联系人人名的识别准确率，而且还提高了联系人人名的上下文内容识别准确率。在语音识别的多个层面应用联系人信息，使整体识别效果得到了优化，提高了连续语音识别中用户个性化信息的识别准确率。

需要说明的是，在实际应用中，上述基础静态解码网络和附属静态解码网络可以由系统在线构建，也可以通过离线方式构建，在系统启动时直接载入，以减少系统运算量及所需内存，进一步提高解码效率。

上述基础静态解码网络是与基础人名语言模型相关的解码网络，附属静态解码网络是与特定用户人名语言模型相关的解码网络，下面进一步详细说明本发明实施例中人名相关语言模型及相关解码网络的构建过程。

传统语音识别系统通常采用统计模型的方法构建语言模型，通过模拟语法和语义知识减少识别范围、提高识别率。一般的，系统首先根据预设词典对海量训练语料进行分词处理，然后分别统计各词联合出现的概率，并采用条件概率的方式构建语言模型。假设某个词w_k出现的概率仅和其前n-1个词相关，记为

p (w_{k} | W_{1}^{k - 1}) = p (w_{k} | W_{k - n + 1}^{k - 1}) .

然而由于中文人名数量众多，传统词典很少将人名作为确定字词处理，因而训练语料分词后的人名数量极其有限，训练得到的语言模型也无法很好地描述具体人名的出现概率，进而影响了人名相关整词的识别准确率。

为此，在本发明实施例中，分别构建用以描述常用字词间以及常用字词与人名间的统计概率的基础人名语言模型、以及特定用户相关的用以描述具体人名统计概率的语言模型。其中，基础人名语言模型用于描述常用字词间以及常用字词与人名间的统计概率。特定用户人名语言模型用于描述该用户相关的具体人名的统计概率。

如图2所示，是本发明实施例中构建基础人名语言模型的流程图，包括以下步骤：

步骤201，采集人名数据库。

具体地，可以采集一个较大规模的人名数据库，以实现对常用人名的有效覆盖。

步骤202，采集语言模型训练语料。

步骤203，根据所述人名数据库及所述语言模型训练语料，对常规字词以及常规字词与人名字词间关联关系进行统计。

具体地，可以根据所述人名数据库中的人名在所述训练语料中进行人名检测，比如，可以采用传统人名检测算法进行人名检测。然后对所述训练语料中的所有具体人名用一个统一的虚拟人名替换，然后在替换后的训练语料上对常规字词以及常规字词与人名字词间关联关系进行统计。

步骤204，根据统计结果生成基础人名语言模型。

需要说明的是，在实际应用中，还可以在上述过程中对语料中的具体人名进行统计，确定各类不同人名词条出现的词频，以便在构建特定用户人名语言模型过程中依据该词频设置人名词条的词频概率。

相比于传统的语言模型，该基础人名语言模型通过对人名字词的归纳提取，更好地描述了人名属性字词和常规字词的统计概率，实现了对人名整词识别的支持。

上述基础人名语言模型虽然描述了人名属性字词的统计概率，但依然无法解决具体人名字词识别的问题。而在中文中，人名同音字大量存在，常见人名有几十个甚至更多的汉字组合，此外对每个用户来说，用户特有的个性化通讯录中联系人人名可能还会有一部分非常用人名，即每个个性化的人名列表在训练语料中无法均匀覆盖。

因此，为了更好地识别各特定用户相关人名字词，在本发明实施例中，还可进一步根据用户需求构建特定用户相关的人名语言模型，即前面所述的特定用户人名语言模型。具体地，可以在接收到用户上传的联系人信息后从所述联系人信息中提取获得该用户特定的人名语言模型。

如图3所示，是本发明实施例中构建特定用户人名语言模型的流程图，包括以下步骤：

步骤301，从用户上传的人名相关信息中提取人名，并将所述人名作为人名词条记录。

所述人名相关信息可以是通讯录等。

步骤302，对每个人名词条设置一个词频概率。

最简单的可以设置每个人名词条的词频概率均等，或者根据海量语料中统计的人名词频相应设置，更进一步的还可以根据用户历史使用记录按高低频度对人名词条进行词频设置，并允许后续对其进行更新。

步骤303，根据人名词条的词频概率生成特定用户人名语言模型。

在本发明实施例中，可以利用词典，声学模型等预置模型结合上述构建的多重语言模型（即基础人名语言模型和特定用户人名语言模型）扩展，获得相应的多重解码搜索静态网络。具体地，可以选择低阶的声学模型，如uniphone模型，对语言模型中的字词进行声学单元的扩展构成解码网络。进一步地，为了提高解码准确率，还可选用更高阶的声学模型，如biphone（双音素）、triphone（三音素）模型等，提高不同发音单元之间的区分性。

如上面所述，对常规字词以及常规字词与人名字词间关联关系进行统计时，可以先对所述训练语料中的所有具体人名用一个统一的虚拟人名替换，然后在替换后的训练语料上对常规字词以及常规字词与人名字词间关联关系进行统计，构建基础人名语言模型。也就是说，基础人名语言模型中包含有虚拟人名单元，其在解码前无法明确具体发音。为此，本发明实施例提供一种基于声学模型的网络扩展方法，以构建与所述基础人名语言模型相关的静态解码网络。

如图4所示，是本发明实施例中构建与基础人名语言模型相关的基础静态解码网络的流程图，包括以下步骤：

步骤401，为所述虚拟人名设置一个虚拟发音，以使所述虚拟人名作为一个普通单词参与声学模型的静态网络扩展。

步骤402，确定扩展后的静态网络中的特殊节点，所述特殊节点包括：进入人名单元的节点和人名单元的终止节点。

将所述虚拟发音记为$C，以triphone声学模型为例，如图5所示，在扩展后的静态网络中将主要包括三类节点：常规节点（节点A）和两类特殊节点（节点S和节点E）。

其中，a,b,x,y,n表示普通的发音单元，$C表示虚拟人名的发音单元，为了描述方便，将其称为虚拟发音单元。

节点A为常规节点，即进入A节点以及离开A节点的弧上的triphone模型是可以预先确定的。

节点S为特殊节点，其出弧为人名单元，即进入人名单元的节点，显然该节点的入弧上由于具体人名的不确定性导致该入弧上的triphone模型的右相关扩展不确定，如图中x-b+$C和y-b+$C。

节点E为特殊节点，其入弧为人名单元，即人名单元的终止节点，相应的，其出弧上的triphone模型左相关也无法确定，如图中$C-a+x和$C-a+y。

步骤403，对所述特殊节点的入弧或出弧上的虚拟发音单元进行扩展，得到与基础人名语言模型相关的基础静态解码网络。

对于节点S的入弧，例如x-b+$C和y-b+$C，对$C进行扩展替换成所有可能的phone单元，相应的，由弧x-b+$C将扩展出多个triphone模型的集合，包括x-b+a,x-b+b…等。扩展方式可以根据x-b的triphone组和规律确定。

对于节点E的出弧，同样采取上述类似操作，如对$C-a+x和$C-a+y，将$C替换成所有可能的phone单元，扩展出相应的准确的triphone模型。

保持从节点S到节点E的弧*-$C+*不变，在后续动态解码进入到节点S时对其进行具体人名静态解码网络的替换。

同样，在构建特定用户人名语言模型相关的静态解码网络时，对特定用户相关的具体语言模型的扩展，在采用高阶声学模型时，也需要采用与上述类似的方法。

如图6所示，是本发明实施例中特定用户人名语言模型相关的附属静态解码网络的流程图，包括以下步骤：

步骤601，分别设定特定用户人名语言模型中的句首词和句尾词的发音为虚拟的特殊发音。

通常语言模型中一般会包含两个特殊的词，即句首词<s>和句尾词</s>，分别表示句子开始和句子结束，句首句尾词发音一般定义为静音sil。

在本发明实施例中，为了保证人名单元在识别过程中和原始静态网络的连接，可以对该特定用户人名语言模型的句首和句尾词的发音进行特殊处理，以便构建triphone模型扩展的静态网络，具体如图7所示。

其中，设定句首词的发音为虚拟的特殊发音$S，句尾词的发音为虚拟的特殊发音$E。从句首节点S出发的弧上的triphone模型左相关不确定，如图中$S-a+b和$S-x+y，而句尾节点E的弧上的triphone模型的右相关是不确定的，如图中a-b+$S和x-y+$S，并保持其他弧上的模型为常规triphone模型。

步骤602，对于句首节点的出弧和句尾节点的入弧上的特殊发音单元进行扩展，得到特定用户人名语言模型相关的附属静态解码网络。

具体地，对于句首节点S的出弧，例如$S-a+b和$S-x+y，将$S替换成所有可能的phone，扩展出相应的准确的triphone模型；对于句尾节点E的入弧也做类似操作，例如a-b+$S和x-y+$S，将$S替换成所有可能的phone，扩展出相应的准确的triphone模型。

前面提到，上述基础静态解码网络及附属静态解码网络可以通过离线方式构建，其中，附属静态解码网络是与特定用户相关的，也就是说，不同用户可以对应不同的附属静态解码网络。因此，在对接收的用户语音信号进行识别过程中，可以载入针对该用户的附属静态解码网络，具体载入时机可以不同，比如，可以是在根据基础静态解码网络逐帧对所述语音信号进行解码之前，也可以是在确定当前帧有解码路径进入所述基础静态解码网络中的人名节点之后等，对此，下面分别举例说明。

如图8所示，是本发明实施例用户个性化信息语音识别方法中的一种具体解码流程图，包括以下步骤：

步骤801，接收用户的语音信号。

步骤802，对所述语音信号进行预处理，并提取声学特征。

步骤803，确定所述用户的附属静态解码网络。

步骤804，在基础静态网络中逐帧对语音信号解码，搜素当前解码路径。

步骤805，判断当前解码路径中是否有路径进入基础静态解码网络中的人名节点；若是，则执行步骤806；否则执行步骤807。

步骤806，根据用户的附属静态解码网络对基础静态网络中的人名节点进行网络扩展。

具体地，可以利用附属静态解码网络对基础静态网络中的该人名节点进行替换；或设置所述进入人名节点的解码路径直接进入所述用户的附属静态解码网络。

需要说明的是，当设置所述进入人名节点的解码路径进入所述用户的附属静态解码网络时，在接收到新的语音帧信号时，所述进入用户的附属静态解码网络的解码路径将在所述用户的附属静态解码网络内搜索后续解码路径，并在所述路径到达附属的静态解码网络的终止节点时返回到基础静态网络的人名节点的终止节点。

步骤807，判断当前帧是否最后一帧，即是否解码结束；若是，则执行步骤808；否则转入步骤804。

步骤808，返回解码结果。

如图9所示，是本发明实施例用户个性化信息语音识别方法中的另一种具体解码流程图，包括以下步骤：

步骤901，接收用户的语音信号。

步骤902，对所述语音信号进行预处理，并提取声学特征。

步骤903，在基础静态网络中逐帧对语音信号解码，搜素当前解码路径。

步骤904，判断当前解码路径中是否有路径进入基础静态解码网络中的人名节点；若是，则执行步骤905；否则执行步骤907。

步骤905，确定所述用户的附属静态解码网络。

步骤906，根据用户的附属静态解码网络对基础静态网络中的人名节点进行网络扩展。

步骤907，判断当前帧是否最后一帧，即是否解码结束；若是，则执行步骤908；否则转入步骤903。

步骤908，返回解码结果。

需要说明的是，上述步骤803和步骤905中，确定所述用户的附属静态解码网络的方式可以有多种，比如：

（1）根据用户的语音信号特征确定用户的身份，即具体的用户，然后根据用户的身份确定其附属静态解码网络。

（2）根据用户的设备码确定用户的身份，然后根据用户的身份确定其附属静态解码网络。

可见，本发明实施例用户个性化信息语音识别方法，在接收到用户输入的语音信号后，根据与基础人名语言模型相关的基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在解码网络中所有活跃节点上的解码路径，如果确定当前帧有解码路径进入所述基础静态解码网络中的人名节点，则进一步根据所述用户的与特定用户人名语言模型相关的附属静态解码网络对所述人名节点进行网络扩展，从而不仅提高了连续语音识别中个性化的联系人人名的识别准确率，而且还提高了联系人人名的上下文内容识别准确率。在语音识别的多个层面应用联系人信息，使整体识别效果得到了优化，提高了连续语音识别中用户个性化信息的识别准确率。

需要说明的是，本发明实施例用户个性化信息语音识别方法不仅适用于用户人名解码，还适用于其他可定义的个性化信息的语音识别，比如地址识别等。

相应地，本发明实施例还提供一种用户个性化信息语音识别系统，如图10所示，是该系统的结构示意图。

在该实施例中，所述系统包括：

接收单元111，用于接收用户输入的语音信号；

解码单元112，用于根据基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在基础静态解码网络中各活跃节点上的解码路径，所述基础静态解码网络是与基础人名语言模型相关的解码网络；

解码路径检查单元113，用于确定当前帧是否有解码路径进入所述基础静态解码网络中的人名节点；

网络扩展单元114，用于在所述解码路径检查单元113确定当前帧有解码路径进入所述基础静态解码网络中的人名节点后，根据所述用户的附属静态解码网络对所述人名节点进行网络扩展，所述附属静态解码网络是与特定用户人名语言模型相关的解码网络；

所述解码单元112，还用于在最后一帧解码完成后，返回识别结果。

解码单元112对用户输入的语音信号进行解码的过程是一个在所述基础静态解码网络中搜索最优路径，实现语音到文本的转换的过程。具体地，可以首先对接收的连续语音信号采样为一系列离散能量值存入数据缓存区。

当然，为了进一步提高系统的鲁棒性，在所述系统中还可以包括预处理单元（未图示），用于在解码单元112对用户输入的语音信号进行解码之前，对接收单元111接收到的连续语音信号进行降噪处理。具体地，可以首先通过对语音信号的短时能量和短时过零率分析，将连续的语音信号分割成独立的语音片断和非语音片断，然后对分割得到的语音片断进行语音增强处理，在进行语音增强处理时，可以通过维纳滤波等方法，将语音信号中的环境噪声进一步消除，以提高后续系统对该信号的处理能力。

考虑到降噪处理后的语音信号中依然会存在大量语音识别无关的冗余信息，直接对其识别可能会使运算量和识别准确率降低，为此，所述预处理单元还可以从降噪处理后的语音能量信号中提取识别有效语音特征，并存入特征缓存区内。具体地，可以提取语音的MFCC(Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数)特征，对窗长25ms帧移10ms的每帧语音数据做短时分析得到MFCC参数及其一阶、二阶差分，共计39维。也就是说，将每帧语音信号量化为一39维的特征序列。然后，再由解码单元112根据所述基础静态解码网络对其中每帧语音信号进行解码，获取所述语音信号在所述基础静态解码网络中所有活跃节点上的解码路径。当对最后一帧语音信号帧解码后，其中具有最大累积历史路径概率的活跃节点即为最优节点，从该最优节点通过解码状态回溯得到的历史路径即为最优路径，该最优路径上的单词序列即为解码结果。

由于所述基础静态解码网络是与基础人名语言模型相关的解码网络，因此，在当前帧有解码路径进入所述基础静态解码网络中的人名节点时，由网络扩展单元114根据所述用户的附属静态解码网络对所述人名节点进行网络扩展。由于所述附属静态解码网络是与特定用户人名语言模型相关的解码网络，因此通过对用户个性化词条的构建及应用，尤其是对用户个性化联系人信息的应用，有效提高了用户个性化信息的识别准确率。

本发明实施例用户个性化信息语音识别系统，在接收到用户输入的语音信号后，根据与基础人名语言模型相关的基础静态解码网络逐帧对所述语音信号进行解码，得到当前帧在解码网络中所有活跃节点上的解码路径，如果确定当前帧有解码路径进入所述基础静态解码网络中的人名节点，则进一步根据所述用户的与特定用户人名语言模型相关的附属静态解码网络对所述人名节点进行网络扩展，从而不仅提高了连续语音识别中个性化的联系人人名的识别准确率，而且还提高了联系人人名的上下文内容识别准确率。在语音识别的多个层面应用联系人信息，使整体识别效果得到了优化，提高了连续语音识别中用户个性化信息的识别准确率。

上述网络扩展单元114需要根据所述用户的附属静态解码网络对所述人名节点进行网络扩展。如果所述系统的用户只有一个，则所述附属静态解码网络是唯一的，可以由系统在线构建，也可以通过离线方式构建，在系统启动时直接载入。如果所述系统的用户有多个，则需要识别当前的用户以及该用户对应的附属静态解码网络。同样，这些不同用户的附属静态解码网络可以由系统在线构建，也可以通过离线方式构建，在系统启动时直接载入。

需要说明的是，在具体应用中，当前用户对应的附属静态解码网络的确定可以在不同时机来完成。

如图11所示，是本发明用户个性化信息语音识别系统的一种具体实现结构示意图。

与图10不同的是，在该实施例中，所述用户个性化信息语音识别系统还包括：确定单元121，用于在所述解码单元112根据基础静态解码网络逐帧对所述语音信号进行解码之前，确定所述用户的附属静态解码网络。

如图12所示，是本发明用户个性化信息语音识别系统的另一种具体实现结构示意图。

与图10不同的是，在该实施例中，所述用户个性化信息语音识别系统还包括：确定单元131，用于在解码路径检查单元113确定当前帧有解码路径进入所述基础静态解码网络中的人名节点之后，确定所述用户的附属静态解码网络。

需要说明的是，无论是上述确定单元121还是确定单元131，都可以根据所述语音信号的特征确定用户身份，然后根据所述用户身份确定所述用户的附属静态解码网络；或者根据用户的设备码确定用户身份，然后根据所述用户身份确定所述用户的附属静态解码网络。

在实际应用中，上述基础静态解码网络和附属静态解码网络可以由系统在线构建，也可以通过离线方式构建，在系统启动时直接载入，以减少系统运算量及所需内存，进一步提高解码效率。

由于中文人名数量众多，传统词典很少将人名作为确定字词处理，因而训练语料分词后的人名数量极其有限，训练得到的语言模型也无法很好地描述具体人名的出现概率，进而影响了人名相关整词的识别准确率。为此，在本发明系统的另一实施例中，如图13所示，还可进一步包括：

基础人名语言模型构建单元131，用于构建基础人名语言模型；

特定用户人名语言模型构建单元132，用于构建特定用户人名语言模型；

基础静态解码网络构建单元133，用于构建与所述基础人名语言模型相关的基础静态解码网络；

附属静态解码网络构建单元134，用于构建与所述特定用户人名语言模型相关的附属静态解码网络。

如图14所示，是本发明实施例用户个性化信息语音识别系统中基础人名语言模型构建单元的结构示意图。

所述基础人名语言模型构建单元包括：

人名采集单元141，用于采集人名数据库；

语料采集单元142，用于采集语言模型训练语料；

统计单元143，用于根据所述人名数据库及所述语言模型训练语料，对常规字词以及常规字词与人名字词间关联关系进行统计；

基础人名语言模型生成单元143，用于根据所述统计单元143得到的统计结果生成基础人名语言模型。

上述统计单元143可以根据所述人名数据库中的人名在所述训练语料中进行人名检测，比如，可以采用传统人名检测算法进行人名检测。然后对所述训练语料中的所有具体人名用一个统一的虚拟人名替换，然后在替换后的训练语料上对常规字词以及常规字词与人名字词间关联关系进行统计。为此，所述统计单元143可以包括：

相比于传统的语言模型，由所述基础人名语言模型构建单元构建的基础人名语言模型通过对人名字词的归纳提取，更好地描述了人名属性字词和常规字词的统计概率，实现了对人名整词识别的支持。

如图15所示，是本发明实施例用户个性化信息语音识别系统中基础静态解码网络构建单元的结构示意图。

所述基础静态解码网络构建单元包括：

虚拟发音设置单元151，用于为虚拟人名设置一个虚拟发音，以使所述虚拟人名作为一个普通单词参与声学模型的静态网络扩展；

特殊节点确定单元152，用于根据所述虚拟发音确定扩展后的静态网络中的特殊节点，所述特殊节点包括：进入人名单元的节点和人名单元的终止节点；

第一扩展单元153，用于对所述特殊节点的入弧或出弧上的虚拟发音单元进行扩展，得到与基础人名语言模型相关的基础静态解码网络。

如图16所示，是本发明实施例用户个性化信息语音识别系统中特定用户人名语言模型构建单元和附属静态解码网络构建单元的结构示意图。

所述特定用户人名语言模型构建单元包括：

人名提取单元161，用于从用户上传的人名相关信息中提取人名，并将所述人名作为人名词条记录；

特定用户人名语言模型生成单元162，用于对每个人名词条设置一个词频概率，并根据人名词条的词频概率生成特定用户人名语言模型；

所述附属静态解码网络构建单元包括：

设定单元171，用于分别设定特定用户人名语言模型中的句首词和句尾词的发音为虚拟的特殊发音；

第二扩展单元172，用于对于句首节点的出弧和句尾节点的入弧上的特殊发音单元进行扩展，得到特定用户人名语言模型相关的附属静态解码网络。

利用本发明实施例用户个性化信息语音识别系统，不仅可以提高连续语音识别中个性化的联系人人名的识别准确率，而且还可以提高联系人人名的上下文内容识别准确率。在语音识别的多个层面应用联系人信息，使整体识别效果得到了优化，提高了连续语音识别中用户个性化信息的识别准确率。

需要说明的是，本发明实施例用户个性化信息语音识别系统不仅适用于用户人名解码，还适用于其他可定义的个性化信息的语音识别，比如地址识别等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用户个性化信息语音识别方法，其特征在于，包括：

接收用户输入的语音信号；

在最后一帧解码完成后，返回识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述用户的附属静态解码网络包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

构建基础人名语言模型和特定用户人名语言模型；

5.根据权利要求4所述的方法，其特征在于，所述构建基础人名语言模型包括：

分别采集人名数据库和语言模型训练语料；

根据统计结果生成基础人名语言模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述人名数据库及所述语言模型训练语料，对常规字词以及常规字词与人名字词间关联关系进行统计包括：

7.根据权利要求6所述的方法，其特征在于，所述构建与所述基础人名语言模型相关的基础静态解码网络包括：

8.根据权利要求4所述的方法，其特征在于，所述构建特定用户人名语言模型包括：

9.一种用户个性化信息语音识别系统，其特征在于，包括：

接收单元，用于接收用户输入的语音信号；

10.根据权利要求9所述的系统，其特征在于，所述系统还包括：

11.根据权利要求10所述的系统，其特征在于，

所述确定单元，具体用于根据所述语音信号的特征确定用户身份，然后根据所述用户身份确定所述用户的附属静态解码网络；或者根据用户的设备码确定用户身份，然后根据所述用户身份确定所述用户的附属静态解码网络。

12.根据权利要求9至11任一项所述的系统，其特征在于，所述系统还包括：

基础人名语言模型构建单元，用于构建基础人名语言模型；

13.根据权利要求12所述的系统，其特征在于，所述基础人名语言模型构建单元包括：

人名采集单元，用于采集人名数据库；

语料采集单元，用于采集语言模型训练语料；

14.根据权利要求13所述的系统，其特征在于，所述统计单元包括：

15.根据权利要求14所述的系统，其特征在于，所述基础静态解码网络构建单元包括：

16.根据权利要求12所述的系统，其特征在于，所述特定用户人名语言模型构建单元包括：

所述附属静态解码网络构建单元包括：