CN1144369A

CN1144369A - 音乐伴奏演奏装置的自动音调调整

Info

Publication number: CN1144369A
Application number: CN96106135A
Authority: CN
Inventors: 华莱士·安德森; 赖崴明; 维什·R·维斯瓦纳塔; 巴萨瓦莱杰·帕瓦特; 拉宾·德卡
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1995-04-18
Filing date: 1996-04-18
Publication date: 1997-03-05
Also published as: JPH0997091A; KR960038955A; TW274609B; US5641927A

Abstract

本发明提供一种能自动调整音调的卡拉OK装置(10)，它在一个预定的时期内测量歌手或用户的平均音调(28)，比较(29)歌手或用户声音的音调与一个参考音调，提供一个表示失配的信号，并改变背景音乐的音调(31)使之与歌手或用户的音调相匹配。

Description

音乐伴奏演奏装置的自动音调调整

本发明涉及音乐伴奏演奏装置，尤其涉及该装置的自动音调调整。

一种所谓的音乐伴奏演奏装置称为“卡拉OK(karaoke)”装置。这种装置在诸如日本、韩国、香港和台湾等亚洲国家和地区尤为流行，并常常作为其家庭音乐娱乐系统的一部分。这些“卡拉OK”机的制造厂商正在开发新的技术以提高其产品的性能并使它们与迅速发展的市场中的其他竞争产品显得与众不同。

图1是根据现有技术的一个方框图，它表示“卡拉OK”机10的构成，该“卡拉OK”机10包括一个录象光盘音乐伴奏演奏装置11。该录像光盘音乐伴奏演奏装置11包括一个录像光盘自动演奏器，其中容纳了许多录像光盘，作为一种音乐伴奏演奏信息存储介质。机器10包括控制器12，它控制录像光盘自动演奏器11允许其选择所需的录像光盘11a。对录像光盘自动演奏器11的请求由用户操作输入终端经由控制器12输入。机器10进一步包括含有混响器13a和放大器13b的信号处理器13，用以输出重放音频信号作为声音的左、右扬声器14，用以显示来自光盘之重放图象信号作为图象的图象显示单元15，以及将用户的歌声作为输入耦合到信号处理器13的话筒16。混响器13a混合来自录像光盘自动转换器11的背景音乐信号(它是来自音乐伴奏演奏器11的音乐信号)与送入话筒16之歌声的音频信号，并经由放大器13b输出到扬声器14。

根据另一种卡拉OK机，演奏器11为一种CD(光盘)自动转换器或盒式音带放音器，其中容纳了许多光盘或盒式音带作为音乐伴奏演奏信息存储介质，并对它们进行重放。控制器12控制CD自动转换器或盒带放音器允许其选择所要的光盘或音带，并通过由用户输入端输入请求来控制该CD转换器或盒带放音器。信号处理器13和扬声器14输出音频信号并把它重放成声音。在某些实施例中，图形解码器15a(用虚线表示)将来自光盘由子码数据重构的的图形数据转换为图象信号在图象显示器15上显示。在各种专利诸如Oakamura等人申请的第5,194,682号美国专利中可以发现对卡拉OK机有更详细的描述，该专利文献在此作为参考资料。

在许多卡拉OK机中，都有手动改变背景音乐之“主音调”或音调的装置，以匹配歌手或用户的主音调。这是利用卡拉OK机前面板上的控制功能来实现的，它包括按下一个按钮和/或把一个滑动控制键移到较正(+)的位置以提高音调，或到较负(-)的位置以降低音调。该特征称为“手动”键控，因为它需要用户明显地按下按钮或控制键来选择音调。在现有技术中，有至少一种自动音调调节器如Kuo等人申请的第5,296,643号美国专利所描述的那一种。在该实施例中，对歌手的语音进行分析，以确定歌手的语音范围。

因此，希望提供一种改进的自动音调调节器(也许要廉价的)，这里就不必确定歌手的语音范围。

根据本发明的一个实施例，可提供一种自动音调调节特性，其中，系统根据所测的实际歌手或用户的主音调，能自动调节背景音乐的主音调。根据一个实施例，确定歌手或用户的平均音调周期。将该平均音调与基准音调相比较，以确定是否有失配，当发生失配时，利用失配量来改变背景音乐的主音调，使之匹配歌手或用户的主音调。

附图中：

图1是一个卡拉OK系统的方框图；

图2是根据本发明一个实施例的卡拉OK系统中的自动音调调整器的方框图；

图2A是另一个实施例确定音调失配的方框图；

图3是幅度-频率的频谱曲线图；

图4是图2所示主音调转换器的流程图；

图5是图2所示音调检测器的方框图；

图6表示该音调检测电路的操作；

图7A和7B表示音调周期的最终估测；

图8表示重合窗宽度的一张表。

参见图2，它表示根据本发明一个实施例的自动音调调节器26。图1的信号处理器13可以包括自动音调调节器26和一个消声器(vocal canceler)21。消声器消去演员正在演唱的声音，例如，在将歌唱家的声音与背景音乐混合在一起的典型CD中，消去该歌唱家的声音。在某些情况下，CD或盒带具有特定的声道仅用以记录背景音乐。在此情况下，就不需要消声器。假定声音信号在两个通道上处于平衡，消声器可以通过用左通道减去右通道来消去声音。根据本申请人之发明的一个实施例，卡拉OK用户的声音音调由估测器23测定，并用平均电路25平均该结果。歌唱家的声音音调同样可以通过音调估测器27和平均电路28测定，或者输入歌曲或背景音乐的主音调，这可以在歌曲的包装封面或所附的文字说明上得到。音乐的主音调还可以存储在CD数据库内，无需进行计算。比较器29将根据对原始歌唱家声音的估测和平均所得的音调，或根据背景音乐的主音调，或来自CD数据库的主音调与来自平均电路25的卡拉OK歌手的声音进行比较，以确定两个音调之间的失配。并根据这种失配将一个信号提供给主音调转换器31。映射变换器29a可以确定主音调所需的改变量，并将其提供给主音调转换器31用来改变背景音乐的主音调。在一个较佳实施例中，映射变换器所确定的改变量信号可以是歌唱家与卡拉OK歌手两者音调值之比值，该比值信号加到主音调转换器31。来自主音调转换器的输出被加到混响器13a以加上用户的声音。

根据另一个实施例，可以按照图2A确定音调的失配，其中，使来自演奏器11的输出通过消声器而得到背景音乐。随后，将该输出与来自卡拉OK歌手之话筒的输出混合得到一个测试信号x，后者包括背景音乐加上卡拉OK歌手的声音。然后，可以比较基准信号r和信号x二者的平均音调，以确定失配。

将一个八音度音阶平分为12个半音，包括了全音阶和半音阶(升半音或降半音)。在音调平均电路25和28我们得到卡拉OK歌手和歌唱家声音的主音调，并通过比较两者之差或比值来确定并相应地改变背景音乐的主音调。可用音调偏移技术来改变背景音乐的主音调。基本的思路就是在手动键控的情况下，根据歌手的选择来提升或降低一定数量的半音，或在自动音调调节的情况下按所计算的音调比值，将音乐信号的整个音调频率提升或降低到正确的比值。一个八音度有12个半音，一个八音度的音调差别为2倍。即，如果C2是比C1高八度，则C2＝2×C1。由于相邻半音的比值是相同的，即，C#/C＝D/C#＝D#/D＝…＝B/A#＝2C/B＝r；则r¹²＝2，r＝2¹/12＝1.059。因此，例如歌唱家选择上移4个半音，则音调转换的比值应为1.059⁴，如果选择下移3个半音，则该比值将为1/1.059³。

所要解决的问题就是改变信号的音调，但不改变信号的持续周期或不增加不想要的失真。有几种方法可以改变信号的音调。改变记录语音音调的最简单的方法就是以比原始记录速度为更高的速度重放记录材料。例如，在模拟式磁带录音机中，通过以更高的速度重放磁带可以提升原始录音的音调，同样，通过以较低的速度重放磁带可以降低其音调。当信号加速时，语音信号内的所有频率成分成正比地按音阶提升。如图3所示。只需少量的速度变化，例如+10％，我们就可容易地感觉到音调的变化。大量的速度变化将产生失真。大部分技术都是采用这一基本原理。

在数字式领域，对原始信号或者抽选或者内插，但为了实现所需的音调偏移都得以原始的取样速率进行重放。

简而言之，不同的变调方法有：

可变重放取样速率(VPSR)，

直接重取样，

直接重取样加上时间标度修改，

剩余重取样，

相位声码器，以及

根据修改的短时傅里叶变换的最小二乘方误差估计。

在可变重放取样速率方法中，对DAC(数—模转换器)的取样速率进行适当的改变，以实现所需的变调。为了提升音调，增高输出取样速率，为了降低音调，降低输出取样速率。尽管这种方法看起来似乎简单，但也有某些缺点。首先，输出信号的宽度被改变了；当提升音调时，通过增高输出取样速率，相对于输入信号的原始宽度而言便减小了输出信号的宽度。除了上述缺点外，还必须使输出滤波器的截止频率跟踪输出取样速率的变化。而高质量的输出滤波器很难设计，制造成本也昂贵。

在直接重取样方法中，DAC的输出取样速率保持恒定，由此使原有方法的缺点减少。然而，要对输入信号或者抽选(提升音调)，或者内插(降低音调)。这种方法的缺点是输出信号的宽度改变了，并且原始信号的谱包络也被修改了，如图3所示。

直接重取样加上时间标度修改方法是以直接重取样方法为基础的，然而，需要使抽选器(内插器)的输出扩充(压缩)，以便使输出信号宽度等于输入信号宽度。变换一个信号之时间标度的通用技术是同步重叠与相加SOLA(Synchronized OverlapαAdd)。参见ICASSP’86会议录第1705-1708页上发表的由John Makhoul和Amro El-Jaroudi等人撰写的“中等码率到低码率语音编码中的时间标度修改”一文。

同步OLA(SOLA)在实现时间标度修改的同时保存了音调。通过在具有最高相似性的区域内链接两个相邻的帧而实现同步。在此情况下，通过在整个规定范围内，两个相邻帧之间取得互相关函数最大值处即可认为是相似区域。

当采用SOLA时，选择N，即帧的大小，这是一个重要因素。一般，N必须至少是声音的音调周期大小的两倍；例如，对于1千赫芝的正弦波，以44.1千赫芝取样，N必须为大致100个取样。如果N小于这个数，信号的低频部分将受到影响。

至于语音，N的最佳值看来为20ms(毫秒)。至于含有低频声音的音乐，我们通过实验发现，N必须提高到40ms。

剩余重取样方法试图通过重取样和对LPC(线性预测编码)模型的剩余量进行时间标度修改来减少前述方法的缺点。LPC模型的极点有助于保持已变换信号中的原始谱包络。

LPC模型的剩余量包含了音调且众所周知在频谱上几乎是平坦的。因此，对该剩余信号进行偏移并进行时间标度修改，利用LPC参数和修改后剩余部分重新合成输出。

该方法已经应用于语音信号，并发现通常利用10阶LPC模型和一个20ms的分析帧可以产生高质量的变调信号。可以设想，用较高的模型阶数，也许28左右，以及较高的取样速率，可以实现其目的。

在首先尝试将重取样和TSM(时间标度修改)应用于音乐信号时，我们遇到了严重的失真。这种失真仅仅在TSM处理之后才发生。我们通过每一次搜寻TSM中的每一帧对相关函数进行详细的研究。我们发现相关的窗未长到足以能容纳信号中的最低频率分量。这将导致对互相关函数的峰值作错误的搜寻，因而信号未加在正确的位置上。对这一问题的解决方法就是增加相关的窗。这样一来，我们可以获得非常满意的结果。

处理音乐信号的一个问题就是庞大的计算量。光盘中对某个左右通道的标准取样频率为44.1千赫芝。其数据量是8千赫芝的语音信号量的10倍以上。为了使TSM能实时运行，建议用粗/细两档搜寻互相关函数的最大值。考虑到互相关函数是连续的，可以首先完成对峰值的粗搜寻，然后围绕粗峰值进行细搜寻。

在1978年1/2月出版的“Journal of the Audio EngineeringSociety”第26卷，第1/2期中，由James A.Moorer撰写的题为“相位声码器在计算机音乐中的应用”一文中认为相位声码器方法是相当好的。已经发现，在8千赫芝时利用128个带宽为30赫兹的滤波器时，输出质量是可接受的。8千赫芝时的计算要求已不利于用单个数字信号处理器(DSP)来实施该算法。用更高的取样速率对音乐是必需的，而计算量的要求难以承受。

在1984年4月出版的IEEE Trans.Acoust.，SpeechProcessing，第ASSP-32卷，第2期，由Griffin和Lim撰写的题为“根据修改的短时傅里叶变换的信号估计”一文中，介绍的根据修改的短时傅里叶变换进行最小二乘方误差估计方法可以产生质量稍为好些的音调变换信号，但是要耗用庞大的计算量。

如图4中的流程图所示，要用LPC(线性预测编码)分析框41，这里，根据以前的数据取样对样本预测。系统跟踪每个取样样本并设法依据以前的少量取样进行预测。所预测的取样值(n)＝a₁s(n-1)+…+a₁₀s(n-10)，其中，a₁，a₂，…，a₁₀是预测系数，s(n)是预测的取样，s(n-1)是以前的取样，等等。在20毫秒周期(一帧)内有160个取样，取样速率为每秒8,000个。系数a₁，a₂，…a₁₀通过在分析帧内使预测误差s(n)-(n)的均方值减至最小而算得。LPC分析将音乐信号分为由LPC系数表示的频谱信息和剩余信号信息。剩余的或误差信号是你不能预测的，或者说原始信号值s(n)减去预测值(n)是剩余的信号值，或误差信号e(n)。如果将两者一起置于LPC合成框43内，原始信号便可恢复。为使主音调偏移，可将LPC系数送到LPC合成框43。对剩余信号在时域内完成音调变换，只要将输入信号经LPC反滤波器输出即可获得剩余信号。应用重取样的原理，通过改变取样数而使取样频率保持恒定来完成音调变换。换句话说，如果我们想要将音调频率改变一个r的比值，那么，我们可以简单地在步骤45按1/r比值重新取样该信号。该比值1/r可用有理数比值U/D表示，其中，U和D为整数。输入信号首先通过在每对输入取样之间插入U-1个零值样本，进行取样率升高U倍的密取样(UP-Sampling)。然后，用FIR(有限脉冲响应)低通滤波器对该信号滤波(步骤45)，该低通滤波器的截止频率为U*f_s/2D或f_s/2，哪个值小就取哪个，其中f_s为取样频率。然后对每D个样本，舍弃D-1个样本并留下一个样本，在步骤45对低通滤波器的输出进行使取样速率降低D倍的疏取样(down-sampled)。其结果是，样本总数改变了U/D倍，因而音调也改变了U/D倍。这意味着所产生的信号音调偏移了正确值，但信号的持续时间(duration)则有误。由此，我们必须通过时间标度修改(TSM)处理来恢复原有的持续时间。在此情况下，可采用TSM的同步重叠相加(SOLA)方法，这时信号的重叠帧平移后在互相关系数最大位置处相加。

至于密取样，设U＝2，D为3，对于每个取样，你可以将一个零值样本置于每个输入取样的下一位置。例如，如果我们有3个原始样本；在用U＝2进行密取样后，我们将具有6个取样。低通滤波器可以平滑该曲线。滤波后，进行疏取样3次。保留第一个取样并舍弃接下来的两个取样，等等。这样就缩短了音调周期。周期缩短为2/3。因此，由于音调周期与频率呈反比关系，故音调频率上升百分之五十。如果你想要将音调频率改变1/2，则对每个非零的样本添加一个零样本，再进行低通滤波并将其加到LPC合成器(在后面的合成器操作中将作更为详细的介绍)。如果你想要将音调提高两倍，首先进行低通滤波，然后每隔一个样本就去除一个样本。在LPC合成框43，将音调修改后的剩余加回到LPC频谱。然后，在时间标度修改步骤47恢复该时间标度。一种实现方法就是用上述讨论的同步重叠相加(SOLA)方法。

TSM的同步重叠相加(SOLA)方法包括对在最高的互相关位置上将重叠信号帧进行平移和平均。将帧进行简单的平移和相加将达到修改时间标度的目的，但是，它将不能保持音调周期、频谱幅度或相位。因此，将会产生质量较差的语音。然而，在互相关最高点处以一种同步形式对帧相加将足以最大程度地将依赖于时间的音调、频谱幅度和相位保留下来。

在此方法中，对音乐信号x(n)进行时间标度修改α倍后，给出信号y(n)。α＞1对应于时间扩展，α＜1对应于时间压缩。x(n)的每S_a个取样作为大小为N的重叠帧，其中，S_a为分析区间。如果S_s为合成帧间区间，则S_s通过S_s＝S_a*α而与S_a有关。这些区间意味着我们每S_a个取样便得x(n)的一个大小为N的帧，并利用它对每S_s个取样构成y(n)。在一帧接一帧的基础上进行合成，这里，每个新分析的帧被加到以前算得的重构信号上。通过在第零帧时设置y(j)＝x(j)，0≤j≤N-1将算法初始化。令x(mS_a+j)，0≤j≤N-1，表示输入信号的第m个帧。然后，用相邻的y(mSs+j)同步和平均x(mS_a+j)。配准的取得，首先要计算x(mS_a+j)与y(mS_s+j)之间归一化的互相关系数如下：

R_{m} (K) = \frac{Σ_{j = 0}^{L - 1} Y (m S_{s} + k + j) * x (m S_{a} + j)}{[Σ_{j = 0}^{L - 1} y^{2} (m S_{s} + k + j) * Σ_{j = 0}^{L - 1} x^{2} (m S_{s} + j)]^{1 / 2}}

其中，R_m(k)为帧m处的归一化互相关系数，L为用以计算每个互相关系数的点数(在y(mS_s+k+j)与x(mS_a+j)之间的重叠点)。我们使用-130≤k≤-20。

令K_m表示R_m(k)为最大时的滞后。然后，沿着其重叠的点用y(mS_s+K_m+j)和x(mS_a+j)进行加权平均：y(mS_s+K_m+j)＝(1-f(j))*y(mS_s+K_m+j)+f(j)*x(mS_a+j)，

0≤j≤L_m-1

y(mS_s+K_m+j)＝x(mS_a+j)，L_m≤j≤N-1.其中，L_m为两个信号重叠的范围，f(j)为加权函数，应使0≤f(j)≤1。

对小的L值，上述的互相关函数会虚假地指示x与y之间的高相关性，这可能导致错误的同步。为了补救这种情况，我们限定L在N/8以上。S_a和S_s的选择将取决于α和N。一般，较小的S_a将产生较高的质量，但以增加计算量为代价。所以，实际上，人们常常喜欢在不严重影响质量的情况下使Sa取得最大。根据经验，当α＜1时，我们设S_a＝N/2，当α＞1时，我们设S_a＝N/2*α。

平均函数f(j)的选择已证明对于重放音乐之质量是关键性的。简单的平均(对所有j，f(j)＝0.5)结果较差；输出语音有较重的混响且比较粗糙。在连续的各帧之间提供较为平滑转换的平均函数将产生更高的质量。例如，升余弦函数(f(j)＝-0.05cos(II*j/L_m+0.5)和线性函数(f(j)＝j/L_m)两者提供了较好的结果。由于升余弦函数较为复杂难以计算且未能提供特别的优点。所以最好采用线性函数。

可以采用上述方法的任一种方法来进行主音调偏移。在其中一个实施例中我们已经采用直接重取样加上TSM方法对背景音乐的主音调进行变调。

参见图5，它表示图2中所示的音调检测器23。系统在例如10秒时间内测量用户声音信号的音调周期，并据此计算平均音调。例如，采用“Journal of the Acoustical Society of America”1969年第46卷第2期(第2部分)第442-448页上，由Gold和Rabiner发表的题为“在时域内对语音音调周期估计的并行处理技术”一文中所描述的一种技术来检测音调。系统包括低通滤波器51，用来提取第一个共振峰区域。经低通滤波的波形由波峰和波谷检测器53处理。提取6组波峰和波谷测量值。有6个相同的“简单”音调周期估计器55，每一个都根据来自检测器53之6组中的一组操作。每一个估计器都是一个峰值检测延伸(ruridown)电路。如图6所示，跟在每个检测脉冲后有一个延伸(blanking)时间间隔，继之以简单的指数衰减。无论何时，当一个脉冲超出延伸电路的电平(在衰减期间)时，即检测出来并使延伸电路复位。每个检测器的延伸时间常数和延伸时间是检测器对音调周期平滑估计量的函数。最终的音调周期计算是基于对每个“简单”音调周期估计器的结果所作的检验，并根据6个判断进行多数表决以确定音调。最终计算在决策器57完成，它可以看作是一台带有存储器，算术逻辑算法和控制硬件的计算机，用来控制输入信号。在任何时间t₀，通过以下几点对音调周期进行估计：

1.形成一个6×6音调周期估计矩阵，如图7B所示。矩阵的列表示单个检测器，行为对周期的估计。头三行是对周期的三个最新估计。第四行是第一和第二行的总和；第五行是第二和第三行的总和；第六行是头三行的总和。形成该矩阵的技术如图7A所示。矩阵有最后三行的原因在于，有时候单个检测器将显示的是第二或第三个谐波而不是基波，它将是最后三行中的记录，这时正确的该是最后三行而不是对音调周期的三个最新估计。

2.将矩阵第一行中的每一个记录与矩阵的其它35个记录进行比较，并计算重合数目。通常是将特定的一项P_i1(i＝1，2，3，4，5，6)(最大的重合数)用作对音调周期的最后估计。

为了确定两个音调周期估计是否“重合”，人们可以观察它们的比值而不是它们的差值。然而，该比值测量可以是非常近似的以避免需要除运算。由于语音由许多部分组成，对各部分所作的连续音调周期的测量值变化非常大，故应用几个阀值来限定重合，然后尝试为每一个音调周期的计算，总体上选定一个阀值以产生最为一致的答案是很有用的。根据这一解释，现在我们对图5所示的方块57定义计算。

图8表示具有16个重合窗宽度的一张表。如图7所示，只有来自所给检测器的最新估计的音调周期才是作为最终选择的“候选者”。对于“正确”音调周期，该候选者是6个可能选择中的一个。为了确定“优胜者”，将每个候选者在数字上与所有余下的35个音调数字进行比较。该比较重复4次，对应于图8所示表中的每一列。从每一列选择合适的窗口作为与候选者有关的估计的函数。

将重合数列成表后，从该数字中减去偏差1。然后对第二列进行重复测量；此时，窗口加宽，增加了重合的概率，但作为补偿，应从汇集的数字中减去偏差2。在以此方法重复对所有4列进行计算后，将最大的偏差值当作重合数，它表示对特定的音调周期估计。现在为剩余的5个候选者重复整个过程，并把最大偏差重合数选为优胜者。

每20毫秒(一秒的第50分之一)完成一次这样的估计，对每20毫秒所作的判别进行平均值计算，例如，在10秒钟内，即要对50×10或500个值进行平均。由此确定声音的音调。图2之映射变换器(mapper)29a的变换功能只是简单地读取用户之声音的主音调与歌唱家或背景音乐之比值。将这种比值变化加到主音调改变器以修改取样，如上述对图4所示有关的对变调装置所作的描述中已作了讨论。信号处理器13可以包括一或多个DSP完成上述功能。

尽管以上对本发明及其优点作了详细的描述，但显然在不脱离所附权利要求书所限定的本发明的精神和范围内还可以对此作出各种变化、替换和修改。

Claims

1.一种改变事先录制的背景音乐的音调，使其与歌手/用户的音调相匹配的方法，其特征在于包括以下步骤：

在一个预定的时期内测量歌手/用户的平均音调周期以提供平均音调；

提供一个与背景音乐音调相匹配的参考音调；

将所述歌手/用户的平均音调与参考音调相比较，提供一个失配信号；以及

利用所述失配信号改变背景音乐的音调使之与歌手/用户的音调相匹配。

2.如权利要求1所述的方法，其特征在于，所述测量步骤包括对歌手/用户的声音信号进行低通滤波，对已过滤的声音信号的峰值生成各种函数，对所述函数作音调周期估计，以及根据每个音调周期估计的结果计算最终音调周期的步骤。

3.如权利要求2所述的方法，其特征在于，所述测量步骤每20毫秒完成一次以确定一个音调，并在一个10秒时期内对各个音调取平均，以提供所述的平均音调。

4.如权利要求1所述的方法，其特征在于，所述改变背景音乐的音调包括如下步骤：

将频谱信号信息与剩余信号信息分离开来，改变剩余信号的数字取样数同时保持取样频率恒定，进行低通滤波，重新组合频谱信号信息与修改的剩余信号信息，以及按时间标度修改所组合的信号。

5.如权利要求2所述的方法，其特征在于，所述改变背景音乐的音调包括如下步骤：将频谱信号信息与剩余信号信息分离开来，改变剩余信号的数字取样数同时保持取样频率恒定，进行低通滤波，重新组合频谱信号信息与修改的剩余信号信息，以及按时间比例修改所组合的信号。

6.如权利要求1所述的方法，其特征在于，所述提供参考音调的手段包括在一个预定的时期内测量原始歌唱家的平均音调。

7.如权利要求1所述的方法，其特征在于包括在改变音调之前删除事先录制之音乐中的语音，以消去原始歌唱家的声音。

8.一种卡拉OK系统，其特征在于包括：

卡拉OK装置，它包括显示卡拉OK唱词的显示器和重放事先录制之音乐的事先录制音乐演奏器，拾取卡拉OK歌手之声音的话筒，将话筒输出与所述演奏器输出混合的混响器，以及供收听所述混响器之输出的扬声器；

音调检测器，耦合至所述话筒，检测卡拉OK歌手之声音的平均音调；

检测事先录制音乐之音调的装置；

比较器，对事先录制音乐的音调与所述卡拉OK歌手的平均音调进行比较，提供一个失配信号；以及

主音调变换器，耦合在所述话筒与所述混响器之间，并对所述失配信号响应以改变背景音乐的主音调，使之与卡拉OK歌手的主音调相匹配。

9.一种改变背景音乐的主音调，使之与歌手的主音调相匹配的系统，其特征在于包括：

重放事先录制之背景音乐的演奏器；

拾取歌手/用户之声音的话筒，混合话筒输出与来自所述演奏器之背景音乐的混响器，由扬声器提供收听；

检测歌手/用户之声音音调的音调检测器；

提供参考音调的装置；

比较器，对所检测的所述歌手/用户的声音音调与所述参考音调响应，提供一个失配信号；以及

主音调变换器，耦合在所述话筒与所述混响器之间，并对所述失配信号改变背景音乐的主音调响应，使之与卡拉OK歌手/用户的主音调相匹配。

10.如权利要求9所述的系统，其特征在于，所述音调检测器包括低通滤波器、峰值和谷值检测器、6个估计器以及多数表决器。

11.如权利要求10所述的系统，其特征在于，所述主音调变换器包括分离频谱信号信息和剩余信号信息，改变剩余信号信息之剩余信号数据的取样同时保持取样频率恒定，对修改的剩余信号信息进行低通滤波，重新组合频谱信号信息与剩余信号信息，以及修改所组合的信号的时间比例。