CN1165888C - 基准图形生成装置和方法 - Google Patents

基准图形生成装置和方法 Download PDF

Info

Publication number
CN1165888C
CN1165888C CNB001338323A CN00133832A CN1165888C CN 1165888 C CN1165888 C CN 1165888C CN B001338323 A CNB001338323 A CN B001338323A CN 00133832 A CN00133832 A CN 00133832A CN 1165888 C CN1165888 C CN 1165888C
Authority
CN
China
Prior art keywords
eigenvector
time series
minizone
minizones
initial baseline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB001338323A
Other languages
English (en)
Other versions
CN1301006A (zh
Inventor
花泽利行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN1301006A publication Critical patent/CN1301006A/zh
Application granted granted Critical
Publication of CN1165888C publication Critical patent/CN1165888C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明的基准图形生成装置和方法,能够降低以不希望的局部最小值来收敛基准图形的更新的现象,并能够生成表达效率更高的基准图形。初始基准图形生成器(9)把输入声音的特征矢量的时间序列(4)相互重叠地分割开,把属于这些小区间的特征矢量的时间序列取平均值来生成初始基准图形(10),基准图形生成器(7)按照音形选配使初始基准图形的各状态与特征矢量的时间序列一一对应,对与各状态相对应的特征矢量的时间序列取平均值来更新初始基准图形,由此来生成基准图形(8)。

Description

基准图形生成装置和方法
技术领域
本发明涉及语音识别中的生成表达效率高的基准图形的基准图形生成装置和基准图形生成方法以及记录了实现该方法的基准图形生成程序的计算机可读媒体。
背景技术
用字音识别来进行输入声音与字的基准图形的图形选配并输出该选配的距离最小的字作为识别结果的方法是一般的方法。通常,基准图形是字输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列。这里,T是字长度(帧数)。但是,在像上述那样保持基准图形时,因为帧数T因字而异,所以,基准图形的大小也因字而异,即使决定了字数,也不能决定用来保持基准图形的存储器的容量。帧数T的值越大,用来保持基准图形的存储器的容量就越大。因此,一直在研究沿时间轴压缩输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列,不依字的帧数T来生成一定状态数J(>1)的基准图形的装置和方法。
图17是例如日本公开专利JP-A-64-44997中所揭示的那种原来的基准图形生成装置的一构成例方框图,图中,1是输入声音信号2的输入端,3是进行输入声音信号2的音响分析的分析器,4是作为输入声音信号2的音响分析结果的特征矢量的时间序列,5是由特征矢量的时间序列4生成初始基准图形6的初始基准图形生成器,7是由初始基准图形6生成基准图形8的基准图形生成器。
下面来说明动作。
当由发声者从输入声音信号的输入端1输入基准图形生成用的声音时,分析器3对来自该输入端1的输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间进行音响分析,同时从数字声音信号切出声音区间,计算并输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这里,T是从数字声音信号抽出的声音区间的全部帧数即特征矢量数。因为正确切出声音区间是困难的,所以在首尾数帧内包含有间歇区间。在该例中,取特征矢量X(t)为由例如LPC(线性预测)得到的LPC倒频谱。
初始基准图形生成器5把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下说明的步骤来生成基准图形的初始基准图形6。该初始基准图形6的生成步骤的流程表示在图18上。
在图18所示的步骤ST101中,初始基准图形生成部5把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4沿时间轴方向分割为J(>1)个小区间B(1),B(2),B(3),…,B(J),使任何两个相邻接的小区间都不重迭,而且在可能的情况下使它们均等。此时,用以下的(1)式~(3)式来求出各小区间B(j)的开始帧sz(j)和结束帧ez(j)。
L=[T/J]                                           (1)
在上述(1)式中,[.]表示进行四舍五入取整数的运算。
把帧数即特征矢量X(1),X(2),X(3),…,X(T)的数取为T=15,小区间B(1),B(2),B(3),…,B(J)的数即基准图形的状态数取为J=5的情况下的上述分割的情况表示于图19中,如图所示,特征矢量X(t)的时间序列4的特征矢量X(1)~X(3)被均分为小区间B(1),特征矢量X(4)~X(6)被均分为小区间B(2),…,特征矢量X(13)~X(15)被均分为小区间B(5)。
然后进到步骤ST102,按照下面所示的(4)对每个在上述步骤ST101分割的各小区间B(j)式把属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,生成初始值Rz(j),(j=1,2,3,…,J)。
Rz ( j ) = 1 ez ( j ) - sz ( j ) + 1 Σ k = sz ( j ) ez ( j ) X ( k ) - - - ( 4 )
把状态数取为J=5的情况下的初始值Rz(j),(j=1,2,3,…,J)的生成的情况表示于图19。如图所示,把属于小区间B(1)的特征矢量X(1)~X(3)的时间序列4的部分取平均值,生成初始值Rz(1),把属于小区间B(2)的特征矢量X(4)~X(6)的时间序列4的部分取平均值,生成初始值Rz(2),…,把属于小区间B(5)的特征矢量X(13)~X(15)的时间序列4的部分取平均值,生成初始值Rz(5)。
按照上述的平均值处理,就能求出属于由下面(5)式计算的小区间B(j)的特征矢量X(sz(j))~X(ez(j))与初始基准图形的各状态Rz(j)的欧几里德距离之和D(j)达到最小值的那个初始值Rz(j)。
D ( j ) = Σ k = sz ( j ) ez ( j ) | Rz ( j ) - X ( k ) | 2 - - - ( 5 )
结束由初始基准图形生成部5进行的初始基准图形6的生成处理。
基准图形生成部7以由初始基准图形生成部5生成的多个状态即Rz(1),Rz(2),Rz(3),…,Rz(J)构成的初始基准图形6和来自分析器3的输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下的步骤生成由用Rz(1),Rz(2),Rz(3),…Rz(J)表示各状态的多个状态构成的基准图形。该基准图形的各状态Rz(j)的生成步骤的流程表示在图20中。
基准图形生成部7首先在步骤ST201把学习次数计数器的值c设定为0;然后进到步骤ST202,按照以下的(6)式把初始基准图形的各状态Rz(j),(j=1,2,3,…,J)复制为中间基准图形的各状态R(c)(j),(j=1,2,3,…,J)。
R(c)(j)=Rz(j),(j=1,2,3,…,J)                   (6)
该(6)式中的(c)就是上述学习次数计数器的值。接着在步骤ST203,把基准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一一对应。作为这种对应,使用维特比算法进行对应,使以下所述的图形选配距离D最小。维特比算法是用下面表示的(7)式和(8)式进行初始设定,然后用(9)式和(10)反复进行渐进运算,图形选配距离D由下面的(11)式给出。
G(t,0)=∞,t=0~T                                  (7)
G(1,1)=|X(1)-Rz(1)|2                                (8)
G(t,j)=|X(t)-Rz(j)|2+min{G(t-1,j),G(t-1,j-1)}    (9)
D=G(T,j)                                            (11)
这里,G(t,j)是累积维特比距离,BTK(t,j)是折回信息,D是输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列与中间基准图形的各状态R(c)(1),R(c)(2),R(c)(3),…,R(c)(J)的图形选配距离。(9)式中的min{.,.}是选择最小值的运算符。
按照上述(9)式和(10)式进行的渐进运算之后,从帧T开始沿时间轴逆向跟踪前述折回信息BTK(t,j),就能够得到由上述(11)式给出的使图形选配距离D最小的中间基准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的对应。以下把该对表称之为维特比路径。在该步骤ST203,还根据该维特比路径求出J个新的各小区间B′(j),(j=1,2,3,…,J)的开始帧s′(j)和结束帧e′(j)。
接着进到步骤ST204,用下面的(12)式对上述步骤ST203中分割出来的每个小区间B(j)求属于各小区间B(j)的特征矢量X(t)的时间序列4,由此来求出中间基准图形的更新状态R(c+1)(j),(j=1,2,3,…,J)。
R ( c + 1 ) ( j ) = 1 e ′ ( j ) - s ′ ( j ) + 1 Σ k = s ′ ( j ) e ′ ( j ) X ( k ) - - - ( 12 )
这里,s′(j)是各小区间B′(j)的开始帧,e′(j)是其结束帧。
接着在步骤ST205,把学习次数计数器的值c加1,然后在步骤ST206判断该学习次数计数器的值c是否达到了预先设定的规定次数(阈值CC)。其结果,如果学习次数计数器的值c已经达到了相应的阈值CC,就分路到步骤ST207,把更新的中间基准图形的各状态R(c)(1),R(c)(2),R(c)(3),…,R(c)(J)作为基准图形输出,并结束该基准图形生成步序。另一方面,如果学习次数计数器的值c未达到相应的阈值CC,就返回步骤ST203,重复进行上述基准图形生成步序的处理。通过反复进行该基准图形生成步序的处理就能够把前述图形选配距离D收敛到局部最小值。所谓该图形选配距离D小,是说基准图形是压缩信息量的缺损少的表达效率高的基准图形。
因为原来的基准图形生成装置像以上那样构成,所以,在初始基准图形生成部5中,只决定属于各小区间B(j),(j=1,2,3,…,J)的特征矢量X(t),并求出各初始值Rz(j),使属于各小区间的特征矢量X(t),(t=sz(j)~ez(j))与初始基准图形的各状态Rz(j)的欧几里德距离之和D(j)达到最小。因此,在基准图形生成部7中,即使根据图形选配距离D的最小化基准再次进行一一对应的情况下,大多数的情况也是与被分配到前面的各小区间B(j),(j=1,2,3,…,J)相同的特征矢量的时间序列4的部分属于再次新对应的小区间B′(j),(j=1,2,3,…,J)。即:大多被陷落到初始基准图形,基准图形的更新有可能按不太好的局部最小值收敛。
发明内容
本发明的目的就是为解决上述的问题,提供一种能够降低按不太好的局部最小值收敛基准图形的更新的现象并能够生成表达效率高的基准图形的基准图形生成装置、基准图形生成方法以及记录了该基准图形生成程序的记录媒体。
按照本发明的基准图形生成装置设置有初始基准图形生成器和基准图形生成器;初始基准图形生成器把由声音信号生成的特征矢量的时间序列分割成任何两个邻接的小区间相互重叠的多个小区间,再对属于各小区间的特征矢量的时间序列的部分取平均值来生成初始基准图形;基准图形生成器把由初始基准图形生成器生成的初始基准图形的各状态按照图形选配一一对应,并对对应于各状态的特征矢量的时间序列的部分取平均值来更新初始基准图形,由此来生成基准图形。
按照本发明的基准图形生成装置,初始基准图形生成器把特征矢量的时间序列分割为多个小区间,在可能的情况下全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
按照本发明的基准图形生成装置,初始基准图形生成器一面把声音信号的空缺部分和声音部分区分开,一面把特征矢量的时间序列分割为多个小区间,以便把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
按照本发明的基准图形生成装置,初始基准图形生成器从特征矢量的时间序列中选择对在时间序列的一个之前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
按照本发明的基准图形生成装置,初始基准图形生成器设置有第一初始基准图形生成器、第二初始基准图形生成器和第三初始基准图形生成器;第一初始基准图形生成器把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始基准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;第二初始基准图形生成器把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始基准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;第三初始基准图形生成器从特征矢量的时间序列中选择对在时间序列的一个之前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始基准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;基准图形生成器还设置有基准图形选择器,用来根据第一到第三初始基准图形生成三个基准图形,并进行由基准图形生成器生成的各基准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的基准图形。
按照本发明的基准图形生成方法,包括把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的分割步骤;对属于各小区间的特征矢量的时间序列取平均值,来生成初始基准图形的初始基准图形生成步骤;根据图形选配进行所生成的初始基准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始基准图形的基准图形的基准图形生成步骤。
按照本发明的基准图形生成方法,分割步骤把特征矢量的时间序列分割为多个小区间,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
按照本发明的基准图形生成方法,分割步骤把特征矢量的时间序列分割为多个小区间,把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
按照本发明的基准图形生成方法,分割步骤从特征矢量的时间序列中选择对在时间序列的一个之前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
按照本发明的基准图形生成方法,分割步骤和初始基准图形生成步骤是生成第一初始基准图形的生成步骤、生成第二初始基准图形的生成步骤和生成第三初始基准图形的生成步骤;生成第一初始基准图形的生成步骤把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始基准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;生成第二初始基准图形的生成步骤把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始基准图形;生成第三初始基准图形的生成步骤从特征矢量的时间序列中选择对在时间序列的一个之前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始基准图形;基准图形生成步骤还具有选择图形选配距离最小的基准图形选择步骤,用来根据第一到第三初始基准图形生成三个基准图形,并进行所生成的各基准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的基准图形。
按照本发明的计算机可读媒体,记录了计算机可执行的步骤的基准图形生成程序,这些步骤包括:把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的分割步骤;对属于各小区间的特征矢量的时间序列取平均值,来生成初始基准图形的初始基准图形生成步骤;根据图形选配进行所生成的初始基准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始基准图形的基准图形的基准图形生成步骤。
按照本发明的计算机可读媒体,分割步骤把特征矢量的时间序列分割为多个小区间,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
按照本发明的计算机可读媒体,分割步骤把特征矢量的时间序列分割为多个小区间,把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
按照本发明的计算机可读媒体,分割步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
按照本发明的计算机可读媒体,分割步骤和初始基准图形生成步骤是生成第一初始基准图形的生成步骤、生成第二初始基准图形的生成步骤和生成第三初始基准图形的生成步骤;生成第一初始基准图形的生成步骤把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始基准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;生成第二初始基准图形的生成步骤把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始基准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;生成第三初始基准图形的生成步骤从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始基准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;基准图形生成步骤还具有选择图形选配距离最小的基准图形选择步骤,用来根据第一到第三初始基准图形生成三个基准图形,并进行所生成的各基准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的基准图形。
附图说明
图1是按照本发明的实施例1的基准图形生成装置的方框图。
图2是实施例1中的重叠初始值生成器的动作顺序流程图。
图3是实施例1中的重叠初始值生成器的动作的说明图。
图4是实施例1中的基准图形生成器的动作顺序流程图。
图5是实施例1中的基准图形与特征矢量的时间序列的对应关系的概要说明图。
图6是按照本发明的实施例1的基准图形生成方法的流程图。
图7是按照本发明的实施例2的基准图形生成装置的方框图。
图8是实施例2中的空缺区别重叠初始值生成器的动作顺序流程图。
图9是实施例2中的空缺区别重叠初始值生成器的动作概要说明图。
图10是按照本发明的实施例2的基准图形生成方法的流程图。
图11是按照本发明的实施例3的基准图形生成装置的方框图。
图12是实施例3中的频谱变化重叠初始值生成器的动作顺序流程图。
图13是实施例3中的频谱变化重叠初始值生成器的动作说明图。
图14是按照本发明的实施例3的基准图形生成方法的流程图。
图15是按照本发明的实施例4的基准图形生成装置的方框图。
图16是按照本发明的实施例4的基准图形生成方法的流程图。
图17是原来的基准图形生成装置的方框图。
图18是原来的初始值生成器的动作说明图。
图19是原来的基准图形生成装置中的初始值生成器的动作概要说明图。
图20是原来的基准图形生成装置中的基准图形生成器的动作顺序流程图。
具体实施方式
以下来说明本发明的实施例。
实施例1
图1是表示本发明的基准图形生成装置的构成的一例的方框图。图1中,1是输入声音信号2的输入端,3是进行该输入信号2的音响分析的分析器(分析装置),4是作为分析器3进行的输入信号2的音响分析结果的特征矢量的时间序列。9是初始基准图形生成器(初始基准图形生成装置),用来把特征矢量的时间序列4切分为区间长相等且任意两个邻接的小区间都相互重叠的多个小区间,并对属于这些各个小区间的特征矢量的时间序列4的部分取平均值来生成由多个状态构成的初始基准图形10;7是基准图形生成器(基准图形生成装置),用来根据图形选配把由分析器3输出的特征矢量的时间序列4与初始基准图形生成器9生成的初始基准图形10的各状态一一对应起来,并对与各个状态的每个状态相对应的特征矢量的时间序列4的部分取平均值来更新初始基准图形10,由此来生成基准图形8。
下面来说明动作。
首先,发声者从输入端1输入基准图形生成用的声音信号,一旦从输入端1输入了输入声音信号2,分析器3就对该信号进行A/D变换,并对每个称之为帧的短的时间区间进行音响分析,同时,根据各帧内的音响分析结果切分出声音区间,并计算与该声音区间有关的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。此外,对每帧生成了各特征矢量。上述T是从数字声音信号中提取出来的声音区间的全部帧数。因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。即使在实施例1中,特征矢量X(t)也是用例如LPC(线性预测)分析得到的LPC频谱。
初始基准图形生成器9把由该分析器3对输入声音信号2的音响分析结果即特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下说明的顺序生成初始基准图形10,该初始基准图形10的生成顺序表示于图2的流程图。
在图2所示的流程图的步骤ST301中,初始基准图形生成器9首先把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4沿时间轴分割成为J(J>1)个小区间B(1),B(2),B(3),…,B(J)。这时,在可能的情况下,这些小区间全都均等,否则除B(J)之外全都均等,任意相邻接的两个小区间也都重叠。这时,用以下的(13)式~(15)来求出各小区间B(j)的开始帧s(j)和结束帧e(j)。
L=[T/J]                                       (13)
s(j)=(j-1)*L+1                                (14)
Figure C0013383200141
还有,上述(13)式中的[.]表示四舍五入取整数运算。
在(15)式中,K是预定的常数,是控制各小区间B(j)的重叠帧数的重叠参数。例如:设帧数T即特征矢量X(1),X(2),X(3),…,X(T)的数T=15,小区间B(1),B(2),B(3),…,B(J)的数即基准图形的状态数J=5,重叠参数K=2,这时的分割情况表示于图3。这样,特征矢量X(t)的时间序列的特征矢量X(1)~X(5)被分割到小区间B(1),特征矢量X(4)~X(8)被分割到小区间B(2),…,特征矢量X(13)~X(15)被分割到小区间B(5),它们相互重叠。
然后进到步骤ST302,对上述步骤ST301分割的各小区间B(j)的每个小区间,根据下面所示的(16)式对属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,生成各个初始值R1(j),(j=1,2,3,…,J)。
R 1 ( j ) = 1 e ( j ) - s ( j ) + 1 Σ k = s ( j ) e ( j ) X ( k ) - - - ( 16 )
图3中表示了各个初始值R1(j),(j=1,2,3,…,J)作成的情况。如图所示,属于小区间B(1)的特征矢量X(1)~X(5)取平均值生成初始值R1(1),属于小区间B(2)的特征矢量X(4)~X(8)取平均值生成初始值R1(2),…,属于小区间B(5)的特征矢量X(13)~X(15)取平均值生成初始值R1(5)。
这样,初始标准图形生成器9就结束了包含多个状态即多个初始值的R1(1),R1(2),R1(3),…,R1(J)的初始标准音形型10的生成。
接着,标准音形生成器7把由初始标准图形生成器9生成的多个状态R1(1),R1(2),R1(3),…,R1(J)构成的初始标准音形型和由分析器3送来的输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,并按照以下说明的顺序生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。该标准图形的生成步骤的流程图表示于图4中。
在标准音形生成器7中,首先在图4所示的步骤ST401把学习次数c设定为0。然后进到步骤ST402,按照以下所示的(17)式把由初始标准图形生成器9生成的初始标准图形的各状态R1(j),(j=1,2,3,…,J)复制到中间标准图形的各状态R(c)(j),(j)=1,2,3,…,J)。
R(c)(j)=R1(j),(j=1,2,3,…,J)              (17)
在该(17)式中的(c)内的c就是上述学习次数计数器的值c。
接着在步骤ST403中,作中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的一一对应。作为这种对应,与例如原来的标准图形生成装置的情况一样,用维特比算法进行使下述的音形选配距离D最小化的对应。如用原来的标准图形生成装置所说明的那样,用(7)式和(8)式进行初始设定,用(9)式和(10)式反复进行渐进运算,由此来实现维特比算法。
与原来的标准图形生成装置的情况一样,按照上述(9)式和(10)式进行的渐进运算之后,从帧T开始沿时间轴逆向跟踪前述折回信息BTK(t,j),就能够得到使图形选配距离D最小的中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的对应。图5中表示了中间标准图形的各状态R(c)(j)与输入声音的特征矢量X(t)的时间序列4的对应关系的概况。在图5中,纵轴是中间标准图形的各状态R(c)(j),横轴是输入声音的特征矢量X(t)的时间序列,图中的粗实线是维特比路径。在图5中,所表示的情况是帧数T即特征矢量X(t)的数取为T=15,标准图形的状态数取为J=5。
然后在步骤ST403,由图5所示的维特比路径求出J个新的小区间B′(j),(j=1,2,3,…,J)的开始帧s′(j)和结束帧e′(j)。即:把对应于中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)的特征矢量X(t),(t=1,2,3,…,T)的开始帧和结束帧作为各新小区间B′(j),(j=1,2,3,…,J)的开始帧和结束帧。在图5所示的例子中,因为X(1)~X(3)对应于R(c)(1),所以s′(1)=1,e′(1)=3;因为X(4)~X(7)对应于R(c)(2),所以s′(2)=4,e′(2)=7;…,因为X(13)~X(15)对应于R(c)(5),所以s′(5)=13,e′(5)=15。
然后进到步骤ST404,对上述步骤ST403分割的各新的小区间B′(j)的每个小区间,根据下面所示的(18)式对属于各小区间B′(j)的特征矢量X(t)的时间序列4的部分取平均值,求出更新了的中间标准图形的状态R(c+1)(j),(j=1,2,3,…,J)。
R ( c + 1 ) ( j ) = 1 e ′ ( j ) - s ′ ( j ) + 1 Σ k = s ′ ( j ) e ′ ( j ) X ( k ) - - - ( 18 )
该式(18)中的s′(j)是各小区间B(j)的开始帧,e′(j)是各小区间B(j)的结束帧。
接着在步骤ST405,把学习次数计数器的值c加1,然后在步骤ST406判断该学习次数计数器的值c是否达到了预先设定的阈值CC。其结果,如果学习次数计数器的值c已经达到了相应的阈值CC,就分支到步骤ST407,把由R(c+1)(1),R(c+1)(2),R(c+1)(3),…,R(c+1)(J)构成的更新的中间标准图形作为标准图形输出,并结束该标准图形生成步序。另一方面,如果学习次数计数器的值c未达到相应的阈值CC,就返回步骤ST403,重复进行上述标准图形生成步序的处理。通过反复进行该标准图形生成步序的处理就能够把前述图形选配距离D收敛到局部最小值。所谓该图形选配距离D小,是说标准图形是压缩信息量的缺损少的表达效率高的标准图形。
下面具体说明生成这样的标准图形生成装置使用的标准图形的方法,图6是本发明的实施例1中的标准图形生成方法的步骤流程图。
一旦发声者从输入端1输入标准图形生成用的声音,就开始图6中用步骤701所示的分析步骤。在该分析步骤中,把该输入声音信号2进行A/D变换,并对每帧进行音响分析,同时,根据各帧内的音响分析结果切分出声音区间,并对各帧计算特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这样,就对每帧生成了各特征矢量。上述T是从数字声音信号中提取出来的声音区间的全部帧数。因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在该例中,上述特征矢量X(t)是用例如LPC分析得到的LPC频谱。
接着,进到图6中用ST702表示的初始标准图形生成的步骤。在该初始标准图形生成步骤中,以分析步骤得到的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4为输入来生成初始标准图形10。该初始标准图形生成步骤的详细顺序如图2的流程图所示。
即:沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)(ST301)。这时,在可能的情况下使这些小区间全都均等,否则除小区间B(J)之外都均等,同时任意相邻接的两个小区间都重叠。用(13)式~(15)式来求出各B(j)的开始帧s(j)和结束帧e(j)。图3中,表示取帧数T即特征矢量X(1),X(2),X(3),…,X(T)的数T为T=15、取标准图形的状态数为J=5、重叠参数K=2的情况下的分割状态。
然后对步骤ST301分割的每个小区间B(j)按照图3所示的式(16)把属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值来生成各初始值R1(j),(j=1,2,3,…,J)(ST302)。然后就结束初始标准图形的生成。
接下来,进到图6中用ST703表示的标准图形生成的步骤。以上述初始标准图形生成步骤生成的初始标准图形的多个状态R1(1),R1(2),R1(3),…,R1(J)和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4为输入,按照以下的顺序来生成由用R(j),(j=1,2,3,…,J)表示的多个状态构成的标准图形。该标准图形生成步骤的详细顺序如图4的流程图所示。
首先把学习次数计数器的值c设定为0(ST401);然后按照(17)式把把由初始标准图形生成器9生成的初始标准图形的各状态R1(j),(j=1,2,3,…,J)复制到中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)(ST402)。
然后,用例如维特比算法把中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4进行一一对应,使音形选配距离D最小化。如上所述,用(7)式和(8)式进行初始设定,用(9)式和(10)式反复进行渐进运算,由此来实现维特比算法。按照(9)式和(10)式进行的渐进运算结束之后,从帧T开始沿时间轴逆向跟踪前述折回信息BTK(t,j),就能够得到使图形选配距离D最小的中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的对应关系。图5中表示了这种对应关系的概况。根据该维特比路径来求出J个新的小区间B′(j),(j=1,2,3,…,J)的开始帧s′(j)和结束帧e′(j)(ST403)。即:把对应于中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)的特征矢量X(t),(t=1,2,3,…,T)的开始帧和结束帧作为各新小区间B′(j)的开始帧和结束帧。
按照图5所示的例子,因为X(1)~X(3)对应于R(c)(1),所以s′(1)=1,e′(1)=3;因为X(4)~X(7)对应于R(c)(2),所以s′(2)=4,e′(2)=7;因为X(8)~X(10)对应于R(c)(3),所以s′(3)=8,e′(3)=10;…;因为X(13)~X(15)对应于R(c)(5),所以s′(5)=13,e′(5)=15。
然后,对这样分割的各新的小区间B′(j)的每个小区间,用(18)式对属于各新小区间B′(j)的特征矢量X(t)的时间序列4的部分取平均值,求出更新了的中间标准图形的状态R(c+1)(j),(j=1,2,3,…,J)(ST404)。
接着把学习次数计数器的值c加1(ST405),判断该学习次数计数器的值c是否达到了规定的阈值CC(ST406)。如果学习次数计数器的值c达到了该阈值CC,就把由R(c+1)(1),R(c+1)(2),R(c+1)(3),…,R(c+1)(J)构成的更新的中间标准图形作为标准图形输出(ST407),并结束该标准图形生成步序。另一方面,如果学习次数计数器的值c未达到阈值CC,就返回到步骤ST403,重复进行上述的处理。
在要用软件来实现该实施例1的标准图形生成的情况下,就必须要有可用计算机读取的计算机可读媒体,这种媒体记录有用来在计算机中生成标准图形的程序,这种程序具有对输入信号2进行音响分析并求出特征矢量X(t)的时间序列4的分析步骤、生成初始标准图形的各状态R1(j)的步骤和进行中间标准图形的各状态R(c)  (j)的更新的步骤;生成初始标准图形的各状态R1(j)的步骤是把该特征矢量X(t)的时间序列4分割为任意两个小区间都相互重叠的多个小区间B(1),B(2),B(3),…,B(J),并对属于这些小区间B(j)的特征矢量X(t)的时间序列取平均值,由此来生成初始值即初始标准图形的各状态R1(j);进行中间标准图形的各状态R(c)(j)的更新的步骤是按照图形选配把特征矢量X(t)的时间序列4的部分与初始标准图形的各状态R1(j)(=R(c)(j))一一对应起来,再对与每一个状态相对应的特征矢量X(t)的时间序列4的部分取平均值,由此来更新中间标准图形的各状态R(c)(j)。
如上所述,按照该实施例1,因为用初始标准图形生成器9把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4重叠地进行分割,所以,就不只是决定生成各初始值R1(j)的阶段分割的各小区间B(j)的边界。而且,在标准图形生成器7中,用维特比算法根据图形选配距离D最小化基准来使标准图形的各状态R(c)(j),(j=1,2,3,…,J)与输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的部分对应起来时,因为最初不使其重叠地分割小区间,来只是决定其边界,所以,被陷落到初始标准图形内的少,能够减少按不希望的局部最小值来收敛标准图形的学习。为了生成初始标准图形10,把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为任意相邻接的两个小区间都相互重叠的多个小区间B(1),B(2),B(3),…,B(J)时,因为在可能的情况下使所有的小区间的区间长度都均等,而在不可能的情况下,除最后的小区间B(J)之外都均等地分割小区间的区间长度,所以,能够简单地进行这些小区间的分割。
实施例2
图7是按照本发明的实施例2的标准图形生成装置的构成一例的方框图,在与实施例1中的各功能方块同等的部分标注与图1相同的符号,并省略其说明。图中,11是初始标准图形生成器(初始标准图形生成装置),把由分析器3送来的特征矢量的时间序列4分割为任意相邻接的两个小区间都相互重叠的多个小区间时,一面区分包含在输入数字声音信号中提取出来的声音区间内的两个空缺端部和声音部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分,并把属于这些小区间的特征矢量的时间序列4取平均值来生成初始标准图形12。
这样,按照该实施例2标准图形生成装置与实施例1的标准图形生成装置不同之点在于:初始标准图形生成器11把特征矢量的时间序列4分割为任意相邻接的两个小区间都相互重叠的多个小区间时,一面区分包含在输入数字声音信号中提取出来的声音区间内的两个空缺端部和声音部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分。
下面来说明动作。
一旦发声者把标准图形生成用的声音信号输入输入端1,分析器3就对来自该输入端1的输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间进行音响分析,同时,切分出声音区间,并对各帧计算特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这时,分析器3还对各帧计算声音信号的功率的时间序列即P(1),P(2),P(3),…,P(T),并把它与上述特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一起输出。其中,T是从数字声音信号中提取出来的声音区间的全部帧数。这里,因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在实施例2中,特征矢量X(t)也是用例如LPC分析得到的LPC频谱。
初始标准图形生成器11把该特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下说明的步骤来生成初始标准图形12。该初始标准图形的生成步骤表示于图8的流程图,初始标准图形的生成步骤例表示于图9的说明图。
如图9所示,在图8所示的流程的步骤ST501,初始标准图形生成器11首先把输入到输入端1的声音信号的功率P(t)(t=1,2,3,…,T)从t=1开始沿时间轴按顺方向与预定的阈值Pth相比较,检测出声音信号的功率P(t)超过该阈值的帧,并把该帧作为T1。在图9的例子中,因为t=3时超过阈值Pth,所以,T1=3。
接着在步骤ST502,把上述声音信号的功率P(t)(t=1,2,3,…,T)从t=T开始沿时间轴逆方向与预定的阈值Pth相比较,检测出声音信号的功率P(t)超过该阈值的帧,并把该帧作为T2。在图9的例子中,因为t=13时超过阈值Pth,所以,T2=13。
然后进到步骤ST503,取沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的从开头数第一小区间B(1)的开始帧sp(1)为sp(1)=1。把该小区间B(1)的结束帧ep(1)取为在上述步骤ST501求出的T1。即:取ep(1)=T1。
同样,在下面的步骤ST504,取沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的从开头数第J小区间B(J)的开始帧sp(J)为在上述步骤ST502求出的T2,即sp(J)=T2。把该小区间B(J)的结束帧ep(J)取为ep(J)=T。
接下来进到步骤ST505,用以下的(19)式~(20)式求出取沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(i),(i=1,2,3,…,J)时的从开头数第二小区间到第J-1小区间B(j),(j=1,2,3,…,J-1)的开始帧sp(j)和结束帧ep(j)。
L2=[(T2-T1+3)/(J-2)]                             (19)
sp(j)=1-1+(j-2)*L2                               (20)
上式(19)中的[.]为四舍五入取整数运算。(21)式中K2的是预定的常数,是控制各小区间B(j)的重叠帧的参数。图9表示例如取帧数T即特征矢量X(t)的数T=15、取小区间B(1),B(2),B(3),…,B(J)的数即标准图形的状态数为J=5、重叠参数K2=2的情况下的分割状态。
接着在步骤ST506,对每一个在上述步骤ST503~步骤ST505中分割的小区间B(j),根据式(22)对属于各个小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此生成初始值Rp(j),(j=1,2,3,…,J)。
Rp ( j ) = 1 ep ( j ) - sp ( j ) + 1 Σ k = sp ( j ) ep ( j ) X ( k ) - - - ( 22 )
这样就结束了由初始标准图形生成器11进行的初始标准图形12的生成。
标准音形生成器7把由初始标准图形生成器11生成的多个初始值即多个状态Rp(1),Rp(2),Rp(3),…,Rp(J)构成的初始标准音形型和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。这时,把根据上述式(17)把初始标准图形的各状态Rp(j),(j=1,2,3,…,J)复制到中间标准图形的各状态R(c)(j),(j=1,2,3,…,J)中,代替上述实施例1的R1(j),(j=1,2,3,…,J)。c是学习次数计数器(未示出)的值。此后,按照与实施例1中的标准图形生成器7一样的步序进行处理,来更新中间标准图形的各状态R(c),(j),(j=1,2,3,…,J),如果学习次数计数器的值c到达了规定的阈值CC,就输出更新标准图形的各状态R(c+1)(j),(j=1,2,3,…,J)作为标准图形的各状态R(j),(j=1,2,3,…,J)。
接着,来具体说明使用这样的标准图形生成装置生成标准图形的方法。图10是本发明的实施例2中的标准图形生成方法的步骤流程图。
一旦发声者从输入端1输入标准图形生成用的声音,就开始图10中用步骤801所示的分析步骤。在该分析步骤中,把该输入声音信号2进行A/D变换,并对每帧进行音响分析,同时,根据各帧内的音响分析结果切分出声音区间,并对各帧计算输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在该例中,也与上述实施例1的情况一样,特征矢量X(t)是用例如LPC分析得到的LPC频谱。在该实施例2中的分析步骤,还对每一帧计算声音信号的功率P(t),(t=1,2,3,…,T)的时间序列4,并与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一起输出。
接着进行图10中步骤ST802表示的初始标准图形生成步骤,把上述分析步骤所得到的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成初始标准图形12。该初始标准图形的生成步骤表示于图8的流程图,该初始标准图形生成的概要表示于图9中。
如图9所示,从t=1开始沿时间轴顺方向进行声音信号的功率P(t)(t=1,2,3,…,T)与规定阈值Pth的比较,检测出声音信号的功率P(t)超过阈值Pth的帧,并把该帧作为T1(ST501)。在图9的例子中,因为t=3时超过阈值Pth,所以,T1=3。
同样,从t=T开始沿时间轴逆方向进行上述声音信号的功率P(t)(t=1,2,3,…,T)与阈值Pth的比较,检测出声音信号的功率P(t)超过该阈值Pth的帧,并把该帧作为T2(ST502)。在图9的例子中,因为t=13时超过阈值Pth,所以,T2=13。
然后,为了把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4沿时间轴方向分割为J个小区间B(1),B(2),B(3),…,B(J),把从开头数第一个小区间B(1)的开始帧sp(1)取为sp(1)=1。把该小区间B(1)的结束帧ep(1)取为上述的T1(即:ep(1)=T1)(步骤ST503)。
同样,取沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的从开头数第J个小区间B(J)的开始帧sp(J)为上述的T2(即sp(J)=T2),把该小区间B(J)的结束帧ep(J)取为ep(J)=T(步骤ST504)。
接下来,用以下的(19)式~(21)式求出沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(i),(i=1,2,3,…,J)时的从开头数第二个小区间到第J-1小区间B(j),(j=2,3,…,J-1)的开始帧s(j)和结束帧ep(j)(步骤ST505)。图9表示例如取帧数T即特征矢量X(t)的数T=15、取标准图形的状态数为J=5、重叠参数K2=2的情况下的分割状态。
接着,对每一个上述步骤中分割的小区间B(j),根据式(22)对属于各个小区间的特征矢量X(t)的时间序列4的部分取平均值,由此生成初始值Rp(j),(j=1,2,3,…,J)(步骤ST506)。然后结束初始标准图形的生成。
接着进到图10中由步骤ST803表示的标准图形生成步骤,把由上述初始标准图形生成步骤生成的多个状态Rp(1),Rp(2),Rp(3),…,Rp(J)构成的初始标准音形型和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。与图6中由步骤ST703表示的标准图形生成步骤的不同点在于:在该标准图形生成步骤中,把根据上述式(17)把初始标准图形的各状态Rp(j),(j=1,2,3,…,J)复制为中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),来代替R1(j),(j=1,2,3,…,J)。
在要用软件来实现该实施例2的标准图形生成的情况下,就必须要有可用计算机读取的计算机可读媒体,这种媒体记录有用来在计算机中生成标准图形的程序,这种程序具有对输入信号2进行音响分析并求出特征矢量X(t)的时间序列4和声音信号的功率P(t)的时间序列的步骤、生成初始标准图形的各状态Rp(j)的步骤和进行中间标准图形的各状态R(c)(j)的更新的步骤;生成初始标准图形的各状态Rp(j)的步骤是把特征矢量X(t)的时间序列4分割为任意两个小区间都相互重叠的多个小区间,同时一面用该声音信号的功率P(t)的时间序列把包含在从输入数字声音信号中提取出来的声音区间内的两个空缺端部和声音部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分,再对属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此来生成标准图形的各初始值即初始图形的各状态Rp(j);进行中间标准图形的各状态R(c)(j)的更新的步骤是按照图形选配把特征矢量X(t)的时间序列4与初始标准图形的各状态Rp(j)的多个状态的各个状态一一对应起来,再对与每一个状态相对应的特征矢量X(t)的时间序列4的部分取平均值,由此来更新中间标准图形的各状态R(c)(j)。
如上所述,按照该实施例2,因为用初始标准图形生成器11把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为相互重叠的小区间,同时一面用该声音信号的功率P(t)的时间序列把包含在从输入数字声音信号中提取出来的声音区间内的两个空缺端部和声音部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分,由此来生成标准图形的各初始值即初始图形的各状态Rp(j),(j=1,2,3,…,J),所以,能够防止向声音区间和空缺区间的混合引起的局部最小值的收敛,能够以更好的局部最小值来收敛标准图形的学习。
实施例3
图11是按照本发明的实施例3的标准图形生成装置的构成一例的方框图,在与实施例1中的各功能方块同等的部分标注与图1相同的符号,并省略其说明。图中,13是初始标准图形生成器(初始标准图形生成装置),用来从由分析器3送来的特征矢量的时间序列4中分别提取出对紧接在前的时刻的特征矢量变化更大的规定数的特征矢量,并把特征矢量的时间序列4分割为多个小区间,使之任意相邻接的两个小区间都相互重叠,并且重叠的多个部分分别包含上述规定数的特征矢量,并把属于这些小区间的特征矢量的时间序列4取平均值来生成各个初始标准图形14。
这样,按照该实施例3标准图形生成装置与实施例1或实施例2的标准图形生成装置不同之点在于:初始标准图形生成器13从由分析器3送来的特征矢量的时间序列4中分别提取出对紧接在前的时刻的特征矢量变化更大的规定数的特征矢量,并把特征矢量的时间序列4分割为多个小区间,使之任意相邻接的两个小区间都相互重叠,并且重叠的多个部分分别包含上述规定数的特征矢量。
下面来说明动作。
一旦发声者把标准图形生成用的声音信号输入输入端1,分析器3就对来自该输入端1的输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间的每个区间进行音响分析,同时,切分出声音区间,并对各帧计算且输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。其中,T是从数字声音信号中提取出来的声音区间的全部帧数。这里,因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。特征矢量X(t)也是用例如LPC分析得到的LPC频谱。
初始标准图形生成器13把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照以下说明的步骤来生成初始标准图形14。该初始标准图形14的生成步骤表示于图12的流程图,初始标准图形的生成步骤例表示于图13。
在图12所示的流程的步骤ST601,初始标准图形生成器13首先按照下面的(23)式对帧t=2~T求出特征矢量X(t)与X(t-1)的频谱变化量dx(t)。
dx(t)=|X(t)-X(t-1)|2   (t=2,3,…,T)                  (23)
接着进到步骤ST602,选择按照上述(23)式计算出来的频谱变化量dx(t)的值大的上位(J-1)个帧,并根据时间轴上的顺序号把该上位(J-1)个帧设为F(1),F(2),F(3),…,F(J-1)。这里,J是分割为小区间时的分割数。这种分割的情况表示于图13。在图13中,纵轴是频谱变化量,横轴是特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。图13是J=5的情况的一例,前述频谱变化量dx(t)的值大的上位4个帧是t=3,7,9,13,所以F(1)=3,F(2)=7,F(3)=9,F(4)=13。
然后进到步骤ST603,用以下所示的(24)式和(25)式来求出沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的开始帧ss(j)和结束帧es(j)。
Figure C0013383200252
(24)式中K3的是预定的常数,表示控制各小区间B(j)的重叠帧的参数。图13表示例如取帧数T即特征矢量X(t)的数T=15、取小区间B(1),B(2),B(3),…,B(J)的数即标准图形的状态数为J=5、重叠参数K3=1的情况下的分割状态。
接着在步骤ST604,对每一个在上述步骤ST603中分割的小区间B(j),根据式(26)对属于各个小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此生成初始值Rs(j),(j=1,2,3,…,J)。
Rs ( j ) = 1 es ( j ) - ss ( j ) + 1 Σ k = ss ( j ) es ( j ) X ( k ) - - - ( 26 )
这样就结束了由初始标准图形生成器13进行的初始标准图形14的生成。
标准音形生成器7把由初始标准图形生成器13生成的初始标准图形的多个状态Rs(1),Rs(2),Rs(3),…,Rs(J)和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。这时,把根据上述式(17)把各初始值即初始标准图形的各状态Rs(j),(j=1,2,3,…,J)复制为中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),来代替上述实施例1的R1(j),(j=1,2,3,…,J)或上述实施例2的Rp(j),(j=1,2,3,…,J)。c是学习次数计数器(未示出)的值。此后,按照与实施例1或实施例2中的标准图形生成器7一样的步序进行处理,来更新中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),如果学习次数计数器的值c到达了规定的阈值CC,就输出更新标准图形的各状态R(c+1)(j),(j=1,2,3,…,J)作为标准图形的各状态R(j),(j=1,2,3,…,J)。
接着,来具体说明生成这样的标准图形生成装置使用的标准图形的方法。图14是本发明的实施例3中的标准图形生成方法的步骤流程图。
一旦发声者从输入端1输入标准图形生成用的声音,就开始图14中用步骤901所示的分析步骤。在该分析步骤中,把该输入声音信号2进行A/D变换,并对每帧进行音响分析,同时,根据分析结果切分出声音区间,并对各帧计算输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在该例中,也与上述实施例1和实施例2的情况一样,特征矢量X(t)是用例如LPC分析得到的LPC频谱。
接着进到图14中步骤ST902表示的初始标准图形生成步骤,把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,按照如下说明的步骤生成初始标准图形14。该初始标准图形14的生成步骤的流程表示于图12,该初始标准图形生成步骤的一例表示于图13中。
首先按照(23)式对帧t=2~T求出特征矢量X(t)与X(t-1)的频谱变化量dx(t)(步骤ST602)。接着选择所得到的频谱变化量dx(t)的值大的上位(J-1)个帧,并根据时间轴上的顺序号把该上位(J1)个帧设为F(1),F(2),F(3),…,F(J-1)(步骤ST602)。这里,J是分割为小区间时的分割数。因为图13表示J=5的情况,上述频谱变化量dx(t)的值大的上位4个帧是t=3.7.9.13,所以F(1)=3,F(2)=7,F(3)=9,F(4)=13。
然后,用(24)式和(25)式来求出沿时间轴方向把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为J个小区间B(1),B(2),B(3),…,B(J)时的各小区间B(1),B(2),B(3),…,B(J)的开始帧ss(j)和结束帧es(j)(步骤ST603)。图13中所表示的是例如取帧数T即特征矢量X(t)的数T=15、取标准图形状态数J=5、重叠参数K3=1的情况下的分割状态。
然后对前述步序中分割的各小区间B(j)的每个小区间,按照(26)式对属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此生成初始值Rs(j),(j=1,2,3,…,J)(步骤ST604)。
接着进到图14中用ST903表示的标准图形生成步骤,把由初始标准图形生成步骤生成的多个状态Rs(1),Rs(2),Rs(3),…,Rs(J)构成的初始标准音形型和输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4作为输入,生成由R(j),(j=1,2,3,…,J)表示各状态的多个状态构成的标准图形。与实施例1和实施例2中的标准图形生成步骤(ST703,ST803)的不同点在于:在该标准图形生成步骤中,把根据上述式(17)把初始标准图形的各状态Rs(j),(j=1,2,3,…,J)复制为中间标准图形的各状态R(c)(j),(j=1,2,3,…,J),来代替R1(j),(j=1,2,3,…,J)或Rp(j),(j=1,2,3,…,J)。
在要用软件来实现该实施例3的标准图形生成的情况下,就必须要有可用计算机读取的计算机可读媒体,这种媒体记录有用来在计算机中生成标准图形的程序,这种程序具有对输入信号2进行音响求出并分析特征矢量X(t)的时间序列4的步骤、生成标准图形的初始值即各状态Rs(j)的步骤和进行中间标准图形的各状态R(c)(j)的更新的步骤;生成初始标准图形的各状态Rs(j)的步骤是从特征矢量X(t)的时间序列中选择对紧接在前的特征矢量比变化量更大的规定数的特征矢量,再把特征矢量X(t)的时间序列4分割为任意两个小区间都相互重叠的多个小区间B(1),B(2),B(3),…,B(J),同时使所选择出来的特征矢量分别包含在多个小区间的重叠部分内,然后对属于各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值,由此来生成标准图形的各初始值即初始图形的各状态Rs(j);进行中间标准图形的各状态R(c)(j)的更新的步骤是按照图形选配把特征矢量X(t)的时间序列4与初始标准图形的各状态Rs(j)的多个状态的各个状态一一对应起来,再对与每一个状态相对应的特征矢量X(t)的时间序列4的部分取平均值,由此来更新中间标准图形的各状态R(c)(j)。
如上所述,按照该实施例3,因为用初始标准图形生成器13以频谱变化量更大的帧作为分割界线的基准把特征矢量X(1),X(2),X(3),…,X(T)的时间序列4分割为多个小区间B(j),所以,能够防止向由于频谱差异大的不同特征矢量之间混合引起的局部最小值的收敛,能够以更好的局部最小值来收敛标准图形的学习。
实施例4
图15是按照本发明的实施例4的标准图形生成装置的构成一例的方框图,在与实施例1~实施例3中的各功能方块同等的部分标注与图1、图7或图11相同的符号,并省略其说明。图中,15是用来存储包含输入声音信号功率的时间序列在内的对输入声音信号2进行了音响分析的分析器3输出的特征矢量的时间系列4的特征矢量存储器。16是标准图形生成器(标准图形生成装置),用来根据分别由第一初始标准图形生成器(第一初始标准图形生成装置)9、第二初始标准图形生成器(第二初始标准图形生成装置)11和第三初始标准图形生成器(第三初始标准图形生成装置)13生成的第一初始标准图形10、第二初始标准图形12和第三初始标准图形14生成第一到第三标准图形17a、17b、17c。18是标准图形选择器(标准图形选择装置),用来进行由标准图形生成器16生成的第一到第三标准图形17a、17b、17c与从特征矢量存储器15读出的特征矢量的时间序列4的图形选配,再选择图形选配距离最小的标准图形作为最终标准图形输出。
这样,按照该实施例4标准图形生成装置与实施例1~实施例3的标准图形生成装置不同之点在于:设置有按照上述实施例1~3的第一初始标准图形生成器9、第二初始标准图形生成器11和第三初始标准图形生成器13,并进行由这些初始标准图形生成器生成的第一到第三初始标准图形生成的第一到第三标准图形与特征矢量的时间序列4的图形选配,再选择图形选配距离最小的标准图形作为最终标准图形输出。
下面来说明动作。
一旦发声者从输入端1输入标准图形生成用的声音信号,分析器3就对输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间的每个区间进行音响分析,同时,切分出声音区间,并对各帧计算且输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这时,还对各帧计算声音信号的功率P(1),P(2),P(3),…,P(T)的时间序列,并与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一起输出。即使在这种情况下,因为把声音区间正确地切分出来是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。特征矢量X(t)也是用例如LPC分析得到的LPC频谱。
由该分析器3的音响分析所得到的输入声音的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4和声音信号的功率P(1),P(2),P(3),…,P(T)的时间序列被送到特征矢量存储器15中暂时存储起来。把该特征矢量存储器15的输出端Y连接到初始标准图形生成器9的输入端A1,同时,把标准图形生成器16输入端Z连接到第一初始标准图形生成器9输出端A2。在这种连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。第一初始标准图形生成器9和标准图形生成器16按与实施例1的情况相同的步骤动作,来生成标准图形。标准图形生成器16根据第一初始标准图形10把所生成的该标准图形作为第一标准图形17a输出到标准图形选择器18。
接着,把特征矢量存储器15的输出端Y连接到第二初始标准图形生成器11的输入端B1,同时,把标准图形生成器16输入端Z连接到第二初始标准图形生成器11输出端B2。在这种连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4和声音信号的功率P(t),(t=1,2,3,…,T)的时间序列。第二初始标准图形生成器11和标准图形生成器16按与实施例2的情况相同的步骤动作,来生成标准图形。标准图形生成器16根据第二初始标准图形12把所生成的该标准图形作为第二标准图形17b输出到标准图形选择器18。
接着,把特征矢量存储器15的输出端Y连接到第三初始标准图形生成器13的输入端C1,同时,把标准图形生成器16输入端Z连接到第三初始标准图形生成器13输出端C2。在这种连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。第三初始标准图形生成器13和标准图形生成器16按与实施例3的情况相同的步骤动作,来生成标准图形。标准图形生成器16根据第三初始标准图形14把所生成的该标准图形作为第三标准图形17c输出到标准图形选择器18。
标准图形选择器18把特征矢量存储器15保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4、基于第一初始标准图形10的第一标准图形17a、基于第二初始标准图形12的第二标准图形17b和基于第三初始标准图形14的第三标准图形17c作为输入,用在实施例1中所说明的维特比算法计算第一到第三标准图形17a、17b和17c与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的图形选配距离。并选择该图形选配距离为最小的标准图形作为最终标准图形19输出。
接着,来具体说明使用这样的标准图形生成装置生成标准图形的方法。图16是本发明的实施例4中的标准图形生成方法的步骤流程图。
一旦发声者从输入端1输入标准图形生成用的声音,在图16中用ST1001所示的分析步骤中,把该输入声音信号2进行A/D变换,并对每个称之为帧的短的时间区间进行音响分析,同时,切分出声音区间,并对各帧计算输出特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。这时还对各帧计算声音信号的功率P(1),P(2),P(3),…,P(T)的时间序列,并与上述特征矢量X(1),X(2),X(3),…,X(T)的时间序列4一起输出。这种情况下,因为把声音区间正确地切分出来也是很困难的,所以,在开头和末尾的几帧内包含有空缺区间。在该例中,特征矢量X(t)是用例如LPC分析得到的LPC频谱。
接着进到图16中用ST1002表示的第一初始标准图形生成步骤,在该第一初始标准图形生成步骤中,把该特征矢量存储器15的输出端Y连接到第一初始标准图形生成器9的输入端A1,把标准图形生成器16输入端Z连接到第一初始标准图形生成器9输出端A2,在该连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。在第一初始标准图形生成器9中,按与实施例1的情况相同的步骤生成第一初始标标准图形10。然后在图16用ST1003表示的标准图形生成步骤中,标准图形生成器16按与实施例1的情况相同的步骤生成标准图形,并把它作为基于第一初始标准图形10的第一标准图形17a输出。
接着进到图16中用ST1004表示的第二初始标准图形生成步骤,在该第二初始标准图形生成步骤中,把该特征矢量存储器15的输出端Y连接到第二初始标准图形生成器11的输入端B1,把标准图形生成器16输入端Z连接到第二初始标准图形生成器11输出端B2,在该连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4和声音信号的功率P(t).(t=1,2,3,…,T)。在第二初始标准图形生成器11中,按与实施例2的情况相同的步骤生成第二初始标标准图形12。然后在图16用ST1005表示的标准图形生成步骤中,标准图形生成器16按与实施例2的情况相同的步骤生成标准图形,并把它作为基于第二初始标准图形12的第二标准图形17b输出。
接着进到图16中用ST1006表示的第三初始标准图形生成步骤,在该第三初始标准图形生成步骤中,把该特征矢量存储器15的输出端Y连接到第三初始标准图形生成器13的输入端C1,把标准图形生成器16输入端Z连接到第三初始标准图形生成器13输出端C2,在该连接条件下,特征矢量存储器15输出所保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4。在第三初始标准图形生成器13中,按与实施例3的情况相同的步骤生成第三初始标标准图形14。然后在图16用ST1007表示的标准图形生成步骤中,标准图形生成器16按与实施例3的情况相同的步骤生成标准图形,并把它作为基于第三初始标准图形14的第三标准图形17c输出。
接着,在图16中用ST1008表示的标准图形选择步骤中,把特征矢量存储器15保持着的特征矢量X(1),X(2),X(3),…,X(T)的时间序列4、基于第一初始标准图形10的第一标准图形17a、基于第二初始标准图形12的第二标准图形17b和基于第三初始标准图形14的第三标准图形17c作为输入,用在实施例1中所说明的维特比算法计算第一到第三标准图形17a、17b和17c与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的图形选配距离,并选择该图形选配距离为最小的标准图形作为最终标准图形19输出。
在要用软件来实现该实施例4的标准图形生成的情况下,就必须要有可用计算机读取的计算机可读媒体,这种媒体记录有用来在计算机中生成标准图形的程序,这种程序具有对输入信号2进行音响分析并求出特征矢量X(t)的时间序列4和声音信号的功率P(t)的时间序列的分析步骤、对属于根据均等分割决定的各小区间B(j)的特征矢量X(t)的时间序列的部分取平均值来生成第一初始标准图形10的第一初始标准图形生成步骤、用该第一初始标准图形10生成第一标准图形17a的标准图形生成步骤、对属于分别由空缺区间和声音区间决定的各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值来生成第二初始标准图形12的第二初始标准图形生成步骤、用该第二初始标准图形12生成第二标准图形17b的标准图形生成步骤、选择对紧接在前的特征矢量比变化量更大的规定数的特征矢量同时对属于使这些特征矢量分别包含在多个重叠区间内所决定的各小区间B(j)的特征矢量X(t)的时间序列4的部分取平均值来生成第三初始标准图形14的第三初始标准图形生成步骤、用该第三初始标准图形14生成第三标准图形17c的标准图形生成步骤、以及选择第一到第三标准图形17a、17b和17c与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的图形选配距离为最小的标准图形作为最终标准图形19输出的标准图形选择步骤。
如上所述,按照该实施例4,因为从基于第一初始标准图形10的第一标准图形17a、第二初始标准图形12的第二标准图形17b、第三初始标准图形14的第三标准图形17c中选择与特征矢量X(1),X(2),X(3),…,X(T)的时间序列4的图形选配距离为最小的标准图形作为最终标准图形19,所以能够得到表达效率更高的标准图形。
这样,按照本发明,初始标准图形生成装置把由声音信号生成的特征矢量的时间序列分割为任意两个相邻接的小区间都相互重叠的多个小区间;再对属于各小区间的特征矢量的时间序列的部分取平均值来生成初始标准图形;该初始标准图形生成装置按照图形选配进行该初始标准图形的各状态与特征矢量的时间序列的一一对应,对与各状态的每个状态相对应的特征矢量的时间序列取平均值来进行初始标准图形的更新;所以,可实现被陷落到初始标准图形内的少且能够减少按不希望的局部最小值来收敛标准图形的学习的标准图形生成装置。
按照本发明,初始标准图形生成装置把由特征矢量的时间序列分割为多个小区间,在可能在情况下全部小区间的区间长度均等,在不可能在情况下,除一端部的小区间之外都均等,所以,各小区间的分割单纯化。
按照本发明,初始标准图形生成装置把特征矢量的时间序列分割为多个小区间,以便于一面区分声音信号的空缺部分,一面把一个小区间分配到各空缺部分,把其余的小区间分配到声音部分,所以,能够防止向声音区间与空缺区间的混合引起的局部最小值的收敛,从而能够以更好的最小值来收敛标准图形的学习。
按照本发明,初始标准图形生成装置把特征矢量的时间序列分割为多个小区间,以便于从特征矢量中选择对紧接在前的时刻的特征矢量变化更大的、等于形成在多个小区间内的重叠区间的数的规定数的特征矢量,并使这些特征矢量分别被包含在重叠的区间内。所以,能够防止向因频谱差异大的特征矢量混合引起的局部最小值的收敛,从而能够以更好的局部最小值来收敛标准图形的学习。
按照本发明,初始标准图形生成装置设置有第一初始标准图形生成装置、第二初始标准图形生成装置和第三初始标准图形生成装置;第一初始标准图形生成装置把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;第二初始标准图形生成装置把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;第三初始标准图形生成装置从特征矢量的时间序列中选择对正前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;标准图形生成装置还设置有标准图形选择装置,用来根据第一到第三初始标准图形生成三个标准图形,并进行由标准图形生成装置生成的各标准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的标准图形。所以,能够得到表达效率更高的标准图形。
按照本发明,把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠;对属于各小区间的特征矢量的时间序列取平均值,来生成初始标准图形;根据图形选配进行所生成的初始标准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始标准图形;所以,能够使被陷落到初始标准图形内的少且能够减少按不希望的局部最小值来收敛标准图形的学习。
按照本发明,因为在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等,所以,能够使各小区间的分割单纯化。
按照本发明,把特征矢量的时间序列分割为多个小区间,以便于把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分,所以,能够防止向声音区间与空缺区间的混合引起的局部最小值的收敛,从而能够以更好的最小值来收敛标准图形的学习。
按照本发明,因为从特征矢量的时间序列中选择对紧接在前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。所以,可以实现能够防止向因频谱差异大的特征矢量混合引起的局部最小值的收敛且能够以更好的局部最小值来收敛标准图形的学习的标准图形生成方法。
按照本发明,包含有生成第一初始标准图形的步骤,把特征矢量的时间序列分割成多个小区间,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等,对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始标准图形;生成第二初始标准图形的步骤,把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始标准图形;生成第三初始标准图形的步骤,从特征矢量的时间序列中选择对紧接在前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始标准图形;并进行根据第一到第三初始标准图形生成三个标准图形的步骤,即:进行所生成的各标准图形与特征矢量的时间序列的图形选配的步骤,用来选择图形选配距离最小的标准图形。所以能够得到表达效率更高的标准图形。

Claims (10)

1.一种基准图形生成装置,设置有初始基准图形生成器和基准图形生成器;初始基准图形生成器把由声音信号生成的特征矢量的时间序列分割成任何两个邻接的小区间相互重叠的多个小区间,再对属于各小区间的特征矢量的时间序列的部分取平均值来生成初始基准图形;
基准图形生成器把所述初始基准图形生成器生成的初始基准图形的各状态按照图形选配一一对应,并对对应于各状态的特征矢量的时间序列的部分取平均值来更新初始基准图形,由此来生成基准图形。
2.根据权利要求1的基准图形生成装置,其特征在于所述初始基准图形生成器把特征矢量的时间序列分割为多个小区间,使得在可能的情况下全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
3.根据权利要求1的基准图形生成装置,其特征在于所述初始基准图形生成器把特征矢量的时间序列分割为多个小区间,使得一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
4.根据权利要求1的基准图形生成装置,其特征在于所述初始基准图形生成器从特征矢量的时间序列中选择对在时间序列的一个之前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
5.根据权利要求1的基准图形生成装置,其特征在于所述初始基准图形生成器设置有第一初始值生成器、第二初始值生成器和第三初始值生成器;第一初始值生成器把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始基准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;第二初始值生成器把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始基准图形,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分;第三初始值生成器从特征矢量的时间序列中选择对在时间序列的一个之前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始基准图形,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内;基准图形生成器还设置有基准图形选择器,用来根据第一到第三初始基准图形生成三个基准图形,并进行由基准图形生成器生成的各基准图形与特征矢量的时间序列的图形选配,再选择图形选配距离最小的基准图形。
6.一种基准图形生成方法,包括把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的分割步骤;对属于各小区间的特征矢量的时间序列取平均值,来生成初始基准图形的初始基准图形生成步骤;根据图形选配进行所生成的初始基准图形的各状态与特征矢量的时间序列的一部分的一一对应,再对对应于各状态的特征矢量的时间序列的一部分取平均值来生成更新初始基准图形的基准图形的基准图形生成步骤。
7.根据权利要求6的基准图形生成方法,所述分割步骤把特征矢量的时间序列分割为多个小区间,使得在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等。
8.根据权利要求6的基准图形生成方法,所述分割步骤把特征矢量的时间序列分割为多个小区间,以把声音信号的空缺部分和声音部分区分开的同时,把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分。
9.根据权利要求6的基准图形生成方法,所述分割步骤从特征矢量的时间序列中选择对在时间序列的一个之前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,以便使这些特征矢量分别被包含在重叠区间内。
10.根据权利要求6的基准图形生成方法,所述分割步骤和初始基准图形生成步骤是生成第一初始基准图形的生成步骤、生成第二初始基准图形的生成步骤和生成第三初始基准图形的生成步骤;生成第一初始基准图形的生成步骤把特征矢量的时间序列分割成多个小区间,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第一初始基准图形,使任何两个邻接的小区间相互重叠的同时,在可能的情况下,全部的小区间的区间长均等,在不可能的情况下,除一端的小区间之外的区间长均等;生成第二初始基准图形的生成步骤把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,一面把声音信号的空缺部分和声音部分区分开,一面把一个小区间分配到各空缺部分,把剩余的小区间分配到声音部分,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第二初始基准图形;生成第三初始基准图形的生成步骤从特征矢量的时间序列中选择对在时间序列的一个之前的特征矢量变化更大的、等于多个小区间内形成的重叠区间数的规定数的特征矢量,并把特征矢量的时间序列分割为多个小区间,使任何两个邻接的小区间相互重叠的同时,使这些特征矢量分别被包含在形成在多个小区间内的重叠区间内,并对属于各小区间的特征矢量的时间序列的部分取平均值来生成第三初始基准图形;
所述基准图形生成步骤还具有根据第一到第三初始基准图形生成三个基准图形的步骤,即进行所生成的各基准图形与特征矢量的时间序列的图形选配,来选择图形选配距离最小的基准图形的步骤。
CNB001338323A 1999-09-13 2000-09-12 基准图形生成装置和方法 Expired - Fee Related CN1165888C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP259421/1999 1999-09-13
JP25942199A JP4067716B2 (ja) 1999-09-13 1999-09-13 標準パターン作成装置と方法および記録媒体

Publications (2)

Publication Number Publication Date
CN1301006A CN1301006A (zh) 2001-06-27
CN1165888C true CN1165888C (zh) 2004-09-08

Family

ID=17333876

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001338323A Expired - Fee Related CN1165888C (zh) 1999-09-13 2000-09-12 基准图形生成装置和方法

Country Status (4)

Country Link
US (1) US6708151B1 (zh)
EP (1) EP1085498A3 (zh)
JP (1) JP4067716B2 (zh)
CN (1) CN1165888C (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
JPS6444997A (en) 1987-08-13 1989-02-17 Ricoh Kk Reference pattern registration system
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5455889A (en) * 1993-02-08 1995-10-03 International Business Machines Corporation Labelling speech using context-dependent acoustic prototypes
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
GB9802836D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus

Also Published As

Publication number Publication date
US6708151B1 (en) 2004-03-16
CN1301006A (zh) 2001-06-27
JP4067716B2 (ja) 2008-03-26
EP1085498A2 (en) 2001-03-21
EP1085498A3 (en) 2005-02-09
JP2001083980A (ja) 2001-03-30

Similar Documents

Publication Publication Date Title
CN1238833C (zh) 语音识别装置以及语音识别方法
CN1244902C (zh) 语音识别装置和语音识别方法
CN1106710C (zh) 向量量化装置和方法
CN1143263C (zh) 识别有调语言的系统和方法
CN1166177C (zh) 电视电影视频信号检测装置
CN1097396C (zh) 声音编码装置和方法
CN1479916A (zh) 使用演奏乐器的声音信息的音乐分析方法
CN1222926C (zh) 语音编码方法及其装置
CN1474379A (zh) 语音识别/响应系统、语音/识别响应程序及其记录介质
CN101046812A (zh) 一种数据库表记录构造与检查的方法及其装置
CN1251128C (zh) 文字列匹配装置和文字列匹配方法
CN1845213A (zh) 一种实现sms4密码算法中加解密处理的方法
CN1156779C (zh) 文献检索的方法和装置
CN1282151C (zh) 语音识别设备和语音识别方法
CN1247615A (zh) 模式识别方法和装置
CN1102278C (zh) 字符图形产生装置和方法
CN1252680C (zh) 语音编码装置以及语音编码方法
CN1135528C (zh) 声音编码装置以及声音解码装置
CN1135530C (zh) 声音编码装置和声音译码装置
CN1165888C (zh) 基准图形生成装置和方法
CN1777831A (zh) 光学系统设计方法
CN1269673A (zh) 编码设备
CN1135567C (zh) 半导体存储装置的块选择线选择电路
CN100336054C (zh) 布局数据的保存方法、布局数据变换装置以及图形验证装置
CN1399191A (zh) 汉语语音识别词库的处理方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040908