CN1121679C - 用于语音合成的运行时声频单元选择方法和系统 - Google Patents

用于语音合成的运行时声频单元选择方法和系统 Download PDF

Info

Publication number
CN1121679C
CN1121679C CN97110845A CN97110845A CN1121679C CN 1121679 C CN1121679 C CN 1121679C CN 97110845 A CN97110845 A CN 97110845A CN 97110845 A CN97110845 A CN 97110845A CN 1121679 C CN1121679 C CN 1121679C
Authority
CN
China
Prior art keywords
unit
voice
sequence
sentence
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN97110845A
Other languages
English (en)
Other versions
CN1167307A (zh
Inventor
黄学东
米切尔·D·普鲁珀
阿莱简乔·埃塞罗
詹姆斯·L·阿多克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1167307A publication Critical patent/CN1167307A/zh
Application granted granted Critical
Publication of CN1121679C publication Critical patent/CN1121679C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Abstract

本发明涉及一种连结语音合成系统和产生声音更自然的语音的方法。该系统为可被用来产生代表语言表达的语音波形的各个声频单元提供了多个实例。这多个实例是在合成过程的分析和训练阶段中形成的,并限于概率最高的实例的健壮表示。提供多个实例,使得合成器能够选择非常接近所希望的实例的实例,从而不需要改变所存储的实例以与所希望的实例相匹配。这实际上尽量地减小了相邻实例的边界之间的频谱失真,从而产生出声音更自然的语音。

Description

用于语音合成的运行时声频单元选择方法和系统
本发明一般地涉及一种语音合成系统,且更具体地说,是涉及用于进行语音合成系统中的声频单元选择的方法和系统。
连结语音合成是一种形式的语音合成,它依赖于与语音波形对应的声频单元的连结以从写入的文本产生语音。该领域中未解决的一个问题,是为了实现流利、可辨和自然的语音而适于声频单元进行优化的选择和连结。
在很多传统的语音合成系统中,声频单元是语音的语音单元,诸如双音素、音素或短语。语音波形的暂态或瞬时与各个声频单元相联系,以代表语音音素单元。一系列实例的单纯的连结以合成语音,经常导致不自然或“机器声”的语音,因为在相邻的实例的边界处存在有频谱的不连续。为了获得最好的自然发声语音,连结的实例必须以适合于所要的文本的时序、强度和音调特性(即韵律)产生。
在传统的系统中采用了两种通常的技术,以从声频单元的实例的连结产生自然发声的语音:采用平滑技术和采用较长声频单元的技术。平滑试图通过调节实例以在实例之间的边界处进行匹配,来消除相邻实例之间的频谱不匹配。受调节的实例产生了更为平滑的发声语音,但由于实现平滑而对实例进行的操作,该语音通常是不自然的。
选择较长的声频单元通常要采用双音素,因为它们获得了音素之间的共联结效果。该共联结效果是由于在给定音素之前和之后的音素而对给定的音素所产生的效果。采用每单元有三个或更多个音素的较长单元,有利于减小出现的边界的数目,并得到了较长单元上的共联结效果。较长单元的采用导致了较高的发声语音质量,但需要更大的存储量。另外,在不限制输入文本的情况下采用较长单元可能是有问题的,因为不能保证对模型的覆盖。
本发明的最佳实施例涉及一种语音合成系统和产生自然发声语音的方法。从以前所讲的语音的训练数据,产生出多个声频单元实例,诸如双音素、三音素等等。该实例与语音信号的频谱表示或用于产生有关的声音的波形相对应。从训练数据产生的实例随后剪切下来以形成实例的健壮子集(robust subset)。
该合成系统对出现在输入语言表达中的每一个声频单元中的一个实例进行连结。实例的选择是根据相邻实例的边界之间的频谱失真来进行的。这可以通过多种可能的实例序列来进行,这些实例序列代表输入语言表达,从这种表达选择出一种,它使在序列中的相邻实例的所有边界之间的频谱失真达到最小。最好的实例序列随后被用来产生一种语音波形—它产生出与输入语言表达对应的谈话语音。
从以下结合附图对本发明的最佳实施例所进行的详细描述,本发明的上述特征和优点将变得显而易见;在附图中,相同的标号表示相同的部分。这些附图不一定是成比例的,而是强调对本发明的描述。
图1是用于进行最佳实施例的语音合成方法的语音合成系统。
图2是最佳实施例中采用的分析方法的流程图。
图3A是把语音波形排列成与文本“This is great”相对应的帧的例子。
图3B显示了与图3A的例子的语音波形对应的HMM和句音(senone)串。
图3C是双音素DH_IH的实例的例子。
图3D是一个例子,它进一步显示了双音素DH_IH的实例。
图4是用于构成每一个双音素的实例子集的步骤的流程图。
图5是最佳实施例的合成方法的流程图。
图6A描述了如何根据本发明的最佳实施例的语音合成方法为文本“This is great”合成语音的例子。
图6B是一个例子,它显示了用于文本“This is great”的单元选择方法。
图6C是一个例子,它进一步显示了用于文本“This is great”的实例串的单元选择方法。
图7是本实施例的单元选择方法的流程图。
最佳实施例通过从多个实例的选择中选择合成输入文本所需的每一个声频单元的一个实例并将选定的实例连结起来,而产生自然发声的语音。该语音合成系统在系统的分析或训练阶段产生多个声频单元实例。在此阶段,每一个声频单元的多个实例都从语音谈话形成,而这些谈话反映了在具体的语言中最可能出现的语音模式。在此阶段期间累积的实例随后得到剪切,以形成包含最有代表性的实例的健壮子集(robust subset)。在最佳实施例中,表示各种音素环境的概率最高的实例得到了选择。
在语音合成中,合成器能够在运行中为语言表达中的各个声频单元选择最好的实例,并作为所有可能的实例组合中相邻实例的边界之间出现的频谱和韵律失真的函数。这种方式的单元选择,消除了对平滑单元以使出现在相邻单元之间的边界处的频率频谱相匹配的要求。这产生了更为自然发声的语音,因为采用了原来的波形而不是不自然的修正单元。
图1显示了一个语音合成系统10,它适合于实现本发明的最佳实施例。该语音合成系统10包括用于接收输入的输入装置14。该输入装置14可以是例如一个麦克风、计算机终端等等。借助将在下面得到更详细的描述的单独的处理元件,对话音数据输入和文本数据输入进行处理。当输入装置14接收到话音数据时,输入装置将话音输入路由到训练部件13—它对话音输入进行语音分析。输入装置14从输入话音数据产生相应的模拟信号,而该输入话音数据可以是来自用户的输入语音谈话或存储的谈话模式。该模拟信号被发送到一个模拟—数字转换器16—它将模拟信号转换成数字取样序列。该数字取样随后被发送到一个特征提取器18—它提取数字化的输入语音信号的参数表示。最好,特征提取器18对数字化的输入语音信号进行频谱分析,以产生一个帧序列,其中每一个帧都包含代表输入语音信号的频率分量的系数。用于进行语音分析的方法是信号处理的现有技术中众所周知的,并可包括快速傅里叶变换、线性预测编码(LPC)、以及对数倒频谱系数。特征提取器18可以是进行频谱分析的传统处理器。在最佳实施例中,频谱分析每十毫秒进行一次,以将输入语音信号分成代表谈话的一部分的帧。然而,本发明不仅限于采用频谱分析或十毫秒的取样时间帧。可以采用其他的信号处理技术和其他的取样时间帧。对于整个语音信号重复上述的处理,并产生一系列的帧—它们被发送到分析引擎20。分析引擎20执行若干任务,这些任务将结合图2-4进行详细描述。
分析引擎20对输入语音谈话或训练数据进行分析,以产生句音(senone)(一个句音是在不同音素模型上的一群类似的马尔可夫(Markov)状态)和隐藏马尔可夫模型的参数,它们将被语音合成器36使用。另外,分析引擎20产生出现在训练数据中的各个声频单元的多个实例,并形成了由合成器36所使用的这些实例的一个子集。该分析引擎包括用于进行分割的分割部件21和用于选择声频单元的实例的选择部件23。这些部件的作用,将在下面得到更详细的描述。分析引擎20利用了从文本存储部分30获得的输入语音谈话的音素表示、存储在字典存储部分22中的包含各个词的音素描述的字典、以及存储在HMM存储部分24中的句音表。
分割部件21具有双重的目的:获得存储在HMM存储部分中所需的HMM参数并将输入的谈话分成句音。这种双重的目的,是通过一种迭代算法来实现的,该算法在给定一组HMM参数而分割输入语音与给定该语音分割而重新估算HMM参数之间进行交替。该算法增大了HMM参数在每次迭代时产生输入谈话的概率。当达到收敛时停止该算法,且进一步的迭代并不显著地增大训练概率。
一旦完成了输入谈话的分割,选择部件23从各个声频单元的所有可能的发生中选择出对各个声频单元(即双音素)的出现具有高度代表性的一个小的子集,并将这些子集存储在单元存储部分28中。这种发生的剪切依赖于HMM概率和韵律参数的值,并将在下面进行详细描述。
当输入装置14接收到文本数据时,输入装置14将该文本数据输入路由到进行语音合成的合成部件15。图5-7显示了本发明的最佳实施例所采用的语音合成技术,并将在下面对其进行详细描述。自然语言处理器(NLP)32接收输入的文本并给该文本的每一个词加上一个描述标签。这些标签被传送到一个字母—声音(LTS)部件33和一个韵律引擎35。字母—声音部件33利用来自字典存储部分22的字典输入和来自字母—音素规则存储部分40的字母—音素规则,以把输入文本中的字母转换成音素。字母—声音部件33可以例如确定输入文本的适当发音。字母—声音部件33与一个音素串和重音部件34相连。音素串和重音部件34借助对输入文本的适当重读而产生一个音素串,而后者被传送到韵律引擎35。在替换实施例中,字母—声音部件33和音素重音部件34可以是包含在同一个部件中。韵律引擎35接收音素串并插入停顿符号,并确定表示串中的各个音素的强度、音调和持续时间的韵律参数。韵律引擎35利用存储在韵律数据库存储部分42中的韵律模型。带有停顿符号的音素串和表示音调、持续时间和幅度的韵律参数被发送到语音合成器36。这些韵律模型可以是与讲话者无关的,也可以是与讲话者有关的。
语音合成器36将音素串转换成相应的双音素串或其他的声频单元,选择对于各个单元来说最好的实例,根据韵律参数来调节实例,并产生反映输入文本的语音波形。在以下的描述中,为了说明的目的,假定语音合成器将音素串转换成双音素串。当然,语音合成器可以交替地把音素串转换成交替的声频单元串。在执行这些任务时,合成器利用了存储在单元存储部分28中的各个单元的实例。
所产生的波形可被发送到输出引擎38—它可以包括声频装置以产生语音,也可以把该语音波形传送到其他的处理元件或程序以进行进一步的处理。
语音合成系统10的上述部件可被包含在单个的处理单元中,诸如个人计算机、工作站等等。然而,本发明不仅限于具体的计算机体系结构。其他的结构也可以采用,诸如但不限于并行处理系统、分配处理系统等等。
在讨论分析方法之前,以下的部分将给出用在最佳实施例中采用的句音、HMM和帧结构。每一个帧对应于一定段的输入语音信号,并可以表示该段的频率和能量谱。在最佳实施例中,采用了LPC对数倒频谱分析来构成语音信号的模型,并产生了一个帧序列,每一个帧包含以下39个对数倒频谱和能量系数—这些系数表示了帧中该部分信号的频率和能量谱:(1)12mel-频率对数倒频谱系数;(2)12δmel-频率对数倒频谱系数;(3)12δδmel-频率对数倒频谱系数;以及,(4)能量、δ能量、以及δ-δ能量系数。
隐藏马尔可夫模型(HMM)是用于表示语音的音素单元的概率模型。在最佳实施例中,它被用来表示音素。然而,本发明不仅限于这种音素基础,而可以采用任何语言表达,诸如但不限于双音素、词、音节或句子。
一个HMM由借助变调而连接起来的一系列的状态组成。与各个状态相联系的,是表示该状态与一个帧相匹配的似然性的输出概率。对于各个变调,都有一个相关的变调概率,它表示了按照该变调的似然性。在最佳实施例中,一个音素可以用一个三态HMM表示。然而,本发明不仅限于这种HMM结构,利用更多或较少的状态的其他的结构也可以得到采用。与一个状态相关的输出概率,可以是包含在一个帧中的对数倒频谱系数的高斯概率密度函数(pdf)的混合。高斯概率密度函数是较好的,但本发明不仅限于这种概率密度函数。也可以使用其他的概率密度函数,诸如但不限于拉普拉斯型概率密度函数。
HMM的参数是变调和输出概率。对于这些参数的估算是通过利用训练数据的统计技术而获得的。有几种众所周知的算法可被用来从训练数据估算这些参数。
在本发明中可以采用两种HMM。第一种是与上下文相关的HMM,它对音素连同其左和右边的音素上下文一起进行模型描述。由一组音素以及与它们相联系的左和右边的音素上下文所组成的预定的模式得到选择,以由与上下文相关的HMM进行模型化处理。这些模式得到选择,因为它们代表了最频繁出现的音素和这些音素的最频繁出现的上下文。训练数据将为这些模型提供对这些参数的估算。与上下文无关的HMM,也可以被用来对音素进行与其左和右边的音素上下文无关的模型化处理。类似地,该训练数据将提供对与上下文无关的模型的参数的估算。隐藏马尔可夫模型是众所周知的技术,且对HMM的更为详细的描述,可以在Huang等人在《用于语音识别的隐藏马尔可夫模型》(Edingburgh University Press.1990)中找到。
将HMM的状态的输出概率分布聚集起来以形成句音。这是为了减小对合成器要求大的存储容量和增大的计算时间的状态的数目。对句音和用于构成它们的方法的更多详细的描述,可以在M.Hwang等人“以句音预测未见三音素”(Proc.ICASSP’93Vol.II,pp.311-314,1993)中找到。
图2-4显示了本发明的最佳实施例所进行的分析方法。参见图2,分析方法50可以通过接收语音波形序列形式(或者称为语音信号或谈话)的训练数据开始,这些数据被转换成帧,如在以上结合图1所述的。这些语音波形可以由句子、词或任何类型的语言表达组成,并在此被称为训练数据。
如上所述,该分析方法采用了一种迭代算法。在开始时,假定已经估算了HMM参数的初始集合。图3A显示了对于与语言表达“This isgreat”相对应的输入语音信号进行HMM参数估算的方式。参见图3A和3B,与输入语音信号或波形64相对应的文本62,是从文本存储部分30获得的。文本62可以被转换成一串音素66—它们是对于文本中的各个词而从存储在字典存储部分22中的字典获得的。音素串66可被用来产生一系列的上下文相关HMM68—它们对应于音素串中的音素。例如,在所示的上下文中的音素/DH/具有有关的上下文相关HMM—它被表示为DH(SIL,IH)70,其中左边的音素是/SIL/或无声,且右边的音素是/IH/。这种上下文相关HMM具有三个状态且与每一个状态相联系的是一个句音。在此具体例子中,这些句音是分别与状态1、2和3相对应的20、1和5。用于音素DH(SIL,IH)70的上下文相关HMM随后与代表在该文本的其余部分中的音素的上下文相关HMM连结。
在迭代处理的下一个步骤中,通过利用分割部件21将各帧分割或时间对准到每个状态以及它们各自的句音,将语音波形映象到HMM的状态上(图2中的步骤52)。在该例中,用于DH(SIL,IH)70的HMM模型的状态1和句音20(72)与帧1-4、78对准;同一模型的状态2和句音1(74)与帧5-32、80相对准;且同一模型的状态3和句音5,76与帧33-40、82相对准。这种对准是对于HMM序列68中的每一个状态和句音进行的。一旦进行这种分割,HMM的参数就得到重新估算(步骤54)。可以采用众所周知的Baum-Welch或正反向算法。该Baum-Welch算法是较好的,因为它更适合于处理混合密度函数。对Baum-Welch算法的更详细的描述,可以在上述的Huang的参考文献中找到。随后判定已经达到了收敛(步骤56)。如果还没有收敛,处理通过用新的HMM模型来分割谈话组而得到重复(即以新的HMM模型来重复步骤52)。一旦达到了收敛,HMM参数和分割都处于最后的形式。
在达到收敛之后,与各个双音素单元的实例相对应的帧,作为单元实例或用于相应的双音素或其他单元的实例,而被存储在单元存储部分28中(步骤58)。这在图3A-3D中得到了显示。参照图3A-3C,音素串66被转换成双音素串67。双音素代表了两个相邻的音素的平稳部分以及它们之间的过渡变换。例如,在图3C中,双音素DH IH 84是从音素DH(SIL,IH)86的状态2-3和音素IH(DH,S)88的状态1-2形成的。与这些状态有关的帧,作为与双音素DH IH(0)92对应的实例,而得到存储。帧90对应于语音波形91。
参见图2,对于用在分析方法中的每一个输入语音谈话,都重复步骤54-58。在完成这些步骤时,对于各个双音素从训练数据累积的实例被剪切成子集,该子集包含覆盖较高概率实例的健壮(robust)表示,如步骤60所示。图4描述了剪切实例集的方式。
参见图4,对每一个双音素都重复方法60(步骤100)。计算所有实例的持续时间的平均值和变化(步骤102)。每一个实例都可以由一或多个帧组成,其中各个帧可以代表语音信号在一定时间间隔上的参数表示。各个实例的持续时间是这些时间间隔的累积。在步骤104,与平均值的偏差达到特定量(例如标准偏差)的那些实例被放弃掉。计算音调和幅度的平均值和变化。与平均值之差超过预定量(例如±标准偏差)的实例被放弃。
对于每一个其余的实例都进行步骤108-110,如步骤106所示。对于每一个实例,都能够计算出HMM产生出该实例的相关概率(步骤108)。该概率可以借助众所周知的正反向算法(它在上述Huang的参考文献中得到了描述)而计算出来。该计算利用了与代表具体双音素的HMM的各个状态或句音有关的输出和转变概率。在步骤110,为具体的双音素形成句音的有关的串69(见图3A)。在步骤112,带有相同的开始和结束句音的句音序列的双音素被分组。对于每一个组,选出具有最高概率的句音序列作为子集的部分,114。在步骤100-114完成时,有与具体的双音素对应的实例子集(见图3C)。对于每一个双音素都重复该过程,从而产生了对于每一个双音素都包含多个实例的表。
本发明的一个替换实施例寻求保持与相邻单元匹配良好的实例。这样的实施例寻求通过采用一种动态编程算法来尽量减小失真。
一旦完成该分析方法,最佳实施例的合成方法进行操作。图5-7显示了在最佳实施例的语音合成方法120中进行的步骤。输入文本被处理成一个词串(步骤122),以将输入文本转换成对应的音素串(步骤124)。因此,缩写的词和首字母缩略语被展开,以完成词短语。这种扩展的部分可以包括分析其中采用了缩写词和首字母缩略语的上下文,以确定相应的词。例如,首字母缩略语“WA”可以被转换成“Washington”且缩写“Dr.”可以根据其所在的上下文而被转换成“Doctor”或“Drive”。字符和数字串可以用等价的文本表示来代替。例如,“2/1/95”可以用“February first nineteen hundred and niney five”(一九九五年二月一日)代替。类似地,“$120.15”可以用一百二十美元十五分来代替。可以进行句法分析,以确定句子的句法结构,从而以适当的语调来读该句子。同形异义词中的字母被转换成包含初级和次级重音标志的声音。例如,词“read”可以根据该词的具体时态而以不同的方式发音。为了考虑到这点,该词被转换成表示相应的发音并带有相应的重读标志的声音。
一旦构成了词串(步骤122),该词串被转换成音素串(步骤124)。为了进行这种转换,字母—声音部件33利用字典22和字母—音素规则40来将词串中的词的字母转换成与这些词对应的音素。音素流与来自自然语言处理器的标签一起被发送到韵律引擎35。这些标签是词的种类的标识符。一个词的标签可以影响其韵律,因而被韵律引擎35所使用。
在步骤126,韵律引擎35根据句子确定停顿的设置和各个音素的韵律。停顿的设置对于实现自然的韵律来说是重要的。这可以通过利用包含在句子中的标点符号和利用自然语言处理器32在上述步骤122所进行的句法分析来确定。各个音素的韵律是在句子的基础上确定的。然而,本发明不限于在句子基础上使用韵律。韵律也可以利用其他的语言基础来实现,诸如但不限于词或多个句子。韵律参数可以由各个音素的持续时间、音调或语调以及幅度组成。音素的持续时间受到在讲话时置于词上的重读的影响。音素的音调可以受到句子的语调的影响。例如,陈述句和疑问句产生不同的语调模式。韵律参数可以采用韵律模型来确定—这些模型被存储在韵律数据库42中。在语音合成的现有技术中,有众多的众所周知的用于确定韵律的方法。一种这样的方法,可以在J.Pierrehumbert的“The Phonology and Phonetics of English Intonation”,MITPh.Ddissertation(1980)中找到。带有停顿标志和表示音调的韵律参数、持续时间以及幅度的音素串,被发送到语音合成器36。
在步骤128,语音合成器36将该音素串转换成双音素串。这是通过把各个音素与其右边的相邻音素结对而实现的。图3A显示了音素串66至双音素串67的转换。
对于双音素串中的各个双音素,在步骤130选出对于该双音素来说最好的单元实例。在最佳实施例中,最好的单元的选择,是根据可以被连结以形成表示该语言表达的双音素串的相邻双音素的边界之间的最小频谱失真,而得到确定的。图6A-6C显示了对语言表达“This is great”的单元选择。图6A显示了可以被用来形成代表语言表达“This is great”的语音波形的各种单元实例。例如,对于双音素DH IH有10个实例,134;对于双音素IH S有100个实例,136;等等。单元选择是以与众所周知的Viterbi检索算法类似的方式进行的,该算法可以在Huang的上述参考文献中找到。简要地说,形成了能够被连结以形成表示该语言表达的语音波形的实例的所有可能序列。这在图6B中得到了显示。随后,对于各个序列确定实例的相邻边界上的频谱失真。该失真是作为一个实例的最后一个帧与相邻的右边的实例的第一个帧之间的距离而计算的。应该注意的是,一个附加的分量可以被加到频谱失真的计算中。具体地,在两个实例之间的音调和幅度的欧几里得距离可以作为频谱失真计算的一部分而被计算出来。这种分量补偿了由于音调与幅度的过度调制而产生的声频失真。参见图6C,实例串140的失真,是帧142与144、146与148、150与152、154和156、158和160、162和164、以及166和168之间的差。具有最小失真的序列被用作产生语音的基础。
图7显示了用于确定单元选择的步骤。参见图7,对于各个双音素串重复步骤172-182(步骤170)。在步骤172,形成了实例的所有可能序列(见图6B)。对于各个实例序列都重复步骤176-178(步骤174)。对于各个实例,除了最后一个,以实例的最后一个帧中的系数与随后的实例的第一个帧中的系数之间的欧几里得距离的形式,计算出该实例与紧跟随它的实例(即在序列中位于其右边的实例)之间的失真。该距离用以下的数学定义来表示: d ( x - , y - ) = Σ i = 1 N ( x i - y i ) 2 x=(x1,…,xn):帧 x具有n个系数;y=(y1,…,yn):帧y具有n个系数;N=每帧中的系数的个数。
在步骤180,计算出实例序列中所有实例上的失真之和。在迭代174完成时,在步骤182选出最好的实例序列。该最好的实例序列是具有最小累积失真的序列。
参见图5,一旦已经选定了最好的单元选择,就根据输入文本的韵律参数将这些实例连结起来,且从与连结的实例相对应的帧产生出合成的语音波形(步骤132)。这种连结过程将改变与选定的实例对应的帧,以与所希望的韵律相一致。可以采用几种众所周知的单元连结技术。
上述详细描述的本发明通过提供对诸如双音素的声频单元的多个实例,而改进了合成语音的自然性。多个实例给语音合成系统提供了广泛类型的波形,从这些波形可以产生合成的波形。这种多样性使出现在相邻实例的边界处的频谱失真最小,因为它增大了合成系统把在边界上具有最小频谱失真的实例连结起来的可能性。这使得改变实例以使相邻边界的频谱频率匹配变得不必要了。由未改变的实例构成的语音波形,产生出声音更为自然的语音,因为它包含了它们在自然形式下的波形。
虽然以上已经详细描述了本发明的最佳实施例,但需要强调的是,这种描述只是为了描述本发明并因而使本领域的技术人员能够将本发明实施于各种不同的应用—这些应用需要对上述的设备和方法进行修改—的目的而进行的;因此,在此所公布的具体细节并不构成对本发明的范围的限制。

Claims (19)

1.一种语音合成器,包括:
语音单元存储器,
分析引擎,用于执行如下步骤:
为多个语音单元获取隐马尔可夫估算;
接收训练数据作为多个语音波形;
通过执行如下步骤将语音波形分割:
获取与语音波形相关的文本;及
将文本转换为由多个训练语音单元形成的语音单元串;
根据训练语音单元再估算隐马尔可夫,每个隐马尔可夫具有多个状态,每个状态具有一个对应的句音;及
重复分割及再估算步骤,直到生成多个语音波形的隐马尔可夫参数的概率达到一个阈值;及
将每个波形与隐马尔可夫的一个或多个状态及对应的句音进行匹配,以形成对应于每个训练语音单元的多个实例,并将该多个实例存储在语音单元存储器中,
语音合成器部件,用于通过执行如下步骤合成一个输入语言表达:
将输入语言表达转换为一个输入语音单元序列;
根据语音单元存储器中的多个实例生成对应于输入语音单元序列的多个实例序列;及
根据实例序列中相邻实例间具有最小相异性的一个实例序列生成语音。
2.权利要求1所述的语音合成器,其中语音波形作为多个帧形成,每个帧对应于在一个预定时间间隔上语音波形的一部分的参数化表示,其中匹配步骤包括:
临时地将每个帧与隐马尔可夫中对应的状态对准以获取与该帧相关的句音。
3.权利要求2的语音合成器,其中匹配进一步包括:
将训练语音单元的每一个与一个帧序列及一个相关的句音序列匹配,以获取训练语音单元的一个对应实例;及
重复将训练语音单元的每一个进行匹配的步骤从而为每个训练语音单元获取多个实例。
4.权利要求3的语音合成器,其中分析引擎被配置为还执行如下步骤:
将具有共同的第一和最后句音的句音序列成组化,以形成多个被分组的句音序列;
为每个被分组的句音序列计算一个概率作为标识一个生成对应的训练语句单元实例的句音序列的似然值。
5.权利要求4的语音合成器,其中分析引擎被配置为还执行如下步骤:
根据为每个被分组的句音序列所计算的概率裁剪句音序列。
6.权利要求5的语音合成器,其中裁剪包括:
放弃每个被分组的句音序列中具有小于所希望的阈值的概率的所有句音序列。
7.权利要求6的语音合成器,其中放弃步骤包括:
除了具有最高概率的句音序列,放弃每个被分组的句音序列中的所有其它句音序列。
8.权利要求7的语音合成器,其中分析引擎被配置为还执行步骤:
放弃其持续时间与一个代表性持续时间相差一个不希望的量的那些训练语音单元的实例。
9.权利要求7的语音合成器,其中分析引擎被配置为还执行如下步骤:
放弃音调或幅度与一个代表性的音调或幅度相差一个不希望的量的那些训练语音单元的实例。
10.权利要求1的语音合成器,其中语音合成器被配置为还执行如下步骤:
对于每个实例序列,判断该实例序列中相邻实例之间的相异性。
11.一种语音合成方法,包括:
为多个语音单元获取隐马尔可夫估算;
接收训练数据作为多个语音波形;
通过执行如下步骤将语音波形分割:
获取与语音波形相关的文本;及
将文本转换为由多个训练语音单元形成的语音单元串;
根据训练语音单元再估算隐马尔可夫,每个隐马尔可夫具有多个状态,每个状态具有一个对应的句音;及
重复分割及再估算步骤,直到生成多个语音波形的隐马尔可夫参数的概率达到一个阈值;及
将每个波形与隐马尔可夫的一个或多个状态及对应的句音进行匹配,以形成对应于每个训练语音单元的多个实例,并将该多个实例存储,
接收一个输入语言表达;
将输入语言表达转换为一个输入语音单元序列;
根据语音单元存储器中的多个实例生成对应于输入语音单元序列的多个实例序列;及
根据实例序列中相邻实例间具有最小相异性的一个实例序列生成语音。
12.权利要求11所述的语音合成方法,其中语音波形作为多个帧形成,每个帧对应于在一个预定时间间隔上语音波形的一部分的参数化表示,其中匹配步骤包括:
临时地将每个帧与隐马尔可夫中对应的状态对准以获取与该帧相关的句音。
13.权利要求12的语音合成方法,其中匹配进一步包括:
将训练语音单元的每一个与一个帧序列及一个相关的句音序列匹配,以获取训练语音单元的一个对应实例;及
重复将训练语音单元的每一个进行匹配的步骤从而为每个训练语音单元获取多个实例。
14.权利要求13的语音合成方法,其中还执行如下步骤:
将具有共同的第一和最后句音的句音序列成组化,以形成多个被分组的句音序列;
为每个被分组的句音序列计算一个概率作为标识一个生成对应的训练语句单元实例的句音序列的似然值。
15.权利要求4的语音合成方法,其中还执行如下步骤:
根据为每个被分组的句音序列所计算的概率裁剪句音序列。
16.权利要求15的语音合成方法,其中裁剪包括:
放弃每个被分组的句音序列中具有小于所希望的阈值的概率的所有句音序列。
17.权利要求16的语音合成方法,其中放弃步骤包括:
除了具有最高概率的句音序列,放弃每个被分组的句音序列中的所有其它句音序列。
18.权利要求17的语音合成方法,其中还执行步骤:
放弃其持续时间与一个代表性持续时间相差一个不希望的量的那些训练语音单元的实例。
19.权利要求17的语音合成方法,其中还执行步骤:
放弃音调或幅度与一个代表性的音调或幅度相差一个不希望的量的那些训练语音单元的实例。
CN97110845A 1996-04-30 1997-04-30 用于语音合成的运行时声频单元选择方法和系统 Expired - Lifetime CN1121679C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/648,808 US5913193A (en) 1996-04-30 1996-04-30 Method and system of runtime acoustic unit selection for speech synthesis
US648,808 1996-04-30
US648808 1996-04-30

Publications (2)

Publication Number Publication Date
CN1167307A CN1167307A (zh) 1997-12-10
CN1121679C true CN1121679C (zh) 2003-09-17

Family

ID=24602331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97110845A Expired - Lifetime CN1121679C (zh) 1996-04-30 1997-04-30 用于语音合成的运行时声频单元选择方法和系统

Country Status (5)

Country Link
US (1) US5913193A (zh)
EP (1) EP0805433B1 (zh)
JP (1) JP4176169B2 (zh)
CN (1) CN1121679C (zh)
DE (1) DE69713452T2 (zh)

Families Citing this family (243)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6036687A (en) * 1996-03-05 2000-03-14 Vnus Medical Technologies, Inc. Method and apparatus for treating venous insufficiency
US6490562B1 (en) 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
JP3667950B2 (ja) * 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
FR2769117B1 (fr) * 1997-09-29 2000-11-10 Matra Comm Procede d'apprentissage dans un systeme de reconnaissance de parole
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US7076426B1 (en) * 1998-01-30 2006-07-11 At&T Corp. Advance TTS for facial animation
JP3884856B2 (ja) * 1998-03-09 2007-02-21 キヤノン株式会社 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6502066B2 (en) 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
US6400809B1 (en) * 1999-01-29 2002-06-04 Ameritech Corporation Method and system for text-to-speech conversion of caller information
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
CA2366952A1 (en) * 1999-03-15 2000-09-21 British Telecommunications Public Limited Company Speech synthesis
US7082396B1 (en) 1999-04-30 2006-07-25 At&T Corp Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US6697780B1 (en) 1999-04-30 2004-02-24 At&T Corp. Method and apparatus for rapid acoustic unit selection from a large speech corpus
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
DE19920501A1 (de) * 1999-05-05 2000-11-09 Nokia Mobile Phones Ltd Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
WO2002017069A1 (en) * 2000-08-21 2002-02-28 Yahoo! Inc. Method and system of interpreting and presenting web content using a voice browser
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US20030061049A1 (en) * 2001-08-30 2003-03-27 Clarity, Llc Synthesized speech intelligibility enhancement through environment awareness
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20030101045A1 (en) * 2001-11-29 2003-05-29 Peter Moffatt Method and apparatus for playing recordings of spoken alphanumeric characters
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
DE10230884B4 (de) * 2002-07-09 2006-01-12 Siemens Ag Vereinigung von Prosodiegenerierung und Bausteinauswahl bei der Sprachsynthese
JP4064748B2 (ja) * 2002-07-22 2008-03-19 アルパイン株式会社 音声発生装置、音声発生方法及びナビゲーション装置
CN1259631C (zh) * 2002-07-25 2006-06-14 摩托罗拉公司 使用韵律控制的中文文本至语音拼接合成系统及方法
US7236923B1 (en) 2002-08-07 2007-06-26 Itt Manufacturing Enterprises, Inc. Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US7308407B2 (en) * 2003-03-03 2007-12-11 International Business Machines Corporation Method and system for generating natural sounding concatenative synthetic speech
US8005677B2 (en) * 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US7660400B2 (en) * 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
AU2005207606B2 (en) * 2004-01-16 2010-11-11 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
CN1755796A (zh) * 2004-09-30 2006-04-05 国际商业机器公司 文本到语音转换中基于统计技术的距离定义方法和系统
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7613613B2 (en) * 2004-12-10 2009-11-03 Microsoft Corporation Method and system for converting text to lip-synchronized speech in real time
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
US7418389B2 (en) * 2005-01-11 2008-08-26 Microsoft Corporation Defining atom units between phone and syllable for TTS systems
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
ATE414975T1 (de) * 2006-03-17 2008-12-15 Svox Ag Text-zu-sprache-synthese
JP2007264503A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声合成装置及びその方法
US8027377B2 (en) * 2006-08-14 2011-09-27 Intersil Americas Inc. Differential driver with common-mode voltage tracking and method
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
JP2008225254A (ja) * 2007-03-14 2008-09-25 Canon Inc 音声合成装置及び方法並びにプログラム
US8886537B2 (en) 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8805687B2 (en) * 2009-09-21 2014-08-12 At&T Intellectual Property I, L.P. System and method for generalized preselection for unit selection synthesis
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
GB2508411B (en) * 2012-11-30 2015-10-28 Toshiba Res Europ Ltd Speech synthesis
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
CN112230878A (zh) 2013-03-15 2021-01-15 苹果公司 对中断进行上下文相关处理
CN104217149B (zh) * 2013-05-31 2017-05-24 国际商业机器公司 基于语音的生物认证方法及设备
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US8751236B1 (en) 2013-10-23 2014-06-10 Google Inc. Devices and methods for speech unit reduction in text-to-speech synthesis systems
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9997154B2 (en) * 2014-05-12 2018-06-12 At&T Intellectual Property I, L.P. System and method for prosodically modified unit selection databases
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9520123B2 (en) * 2015-03-19 2016-12-13 Nuance Communications, Inc. System and method for pruning redundant units in a speech synthesis process
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US9959341B2 (en) * 2015-06-11 2018-05-01 Nuance Communications, Inc. Systems and methods for learning semantic patterns from textual data
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
CN105206264B (zh) * 2015-09-22 2017-06-27 百度在线网络技术(北京)有限公司 语音合成方法和装置
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10176819B2 (en) * 2016-07-11 2019-01-08 The Chinese University Of Hong Kong Phonetic posteriorgrams for many-to-one voice conversion
US10140973B1 (en) * 2016-09-15 2018-11-27 Amazon Technologies, Inc. Text-to-speech processing using previously speech processed data
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
KR102072627B1 (ko) * 2017-10-31 2020-02-03 에스케이텔레콤 주식회사 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
CN110473516B (zh) * 2019-09-19 2020-11-27 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4748670A (en) * 1985-05-29 1988-05-31 International Business Machines Corporation Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer

Also Published As

Publication number Publication date
DE69713452D1 (de) 2002-07-25
US5913193A (en) 1999-06-15
DE69713452T2 (de) 2002-10-10
JPH1091183A (ja) 1998-04-10
JP4176169B2 (ja) 2008-11-05
EP0805433A2 (en) 1997-11-05
CN1167307A (zh) 1997-12-10
EP0805433B1 (en) 2002-06-19
EP0805433A3 (en) 1998-09-30

Similar Documents

Publication Publication Date Title
CN1121679C (zh) 用于语音合成的运行时声频单元选择方法和系统
O'shaughnessy Interacting with computers by voice: automatic speech recognition and synthesis
Tokuda et al. An HMM-based speech synthesis system applied to English
Zen et al. An overview of Nitech HMM-based speech synthesis system for Blizzard Challenge 2005
Ghai et al. Literature review on automatic speech recognition
Huang et al. Whistler: A trainable text-to-speech system
JP4328698B2 (ja) 素片セット作成方法および装置
Rudnicky et al. Survey of current speech technology
Huang et al. Recent improvements on Microsoft's trainable text-to-speech system-Whistler
US10692484B1 (en) Text-to-speech (TTS) processing
US20090048841A1 (en) Synthesis by Generation and Concatenation of Multi-Form Segments
US20050182629A1 (en) Corpus-based speech synthesis based on segment recombination
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
WO2007117814A2 (en) Voice signal perturbation for speech recognition
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
Balyan et al. Speech synthesis: a review
Lee MLP-based phone boundary refining for a TTS database
WO2023035261A1 (en) An end-to-end neural system for multi-speaker and multi-lingual speech synthesis
Lee et al. A segmental speech coder based on a concatenative TTS
Mullah A comparative study of different text-to-speech synthesis techniques
Deketelaere et al. Speech Processing for Communications: what's new?
EP1589524B1 (en) Method and device for speech synthesis
Baudoin et al. Advances in very low bit rate speech coding using recognition and synthesis techniques
Zue et al. Spoken language input
Salvi Developing acoustic models for automatic speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150422

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150422

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington, USA

Patentee before: Microsoft Corp.

CX01 Expiry of patent term

Granted publication date: 20030917

CX01 Expiry of patent term