WO2000034944A1 - Decodeur sonore et procede de decodage sonore - Google Patents

Decodeur sonore et procede de decodage sonore Download PDF

Info

Publication number
WO2000034944A1
WO2000034944A1 PCT/JP1998/005529 JP9805529W WO0034944A1 WO 2000034944 A1 WO2000034944 A1 WO 2000034944A1 JP 9805529 W JP9805529 W JP 9805529W WO 0034944 A1 WO0034944 A1 WO 0034944A1
Authority
WO
WIPO (PCT)
Prior art keywords
background noise
information
parameter
speech
speech decoding
Prior art date
Application number
PCT/JP1998/005529
Other languages
English (en)
French (fr)
Inventor
Bunkei Matsuoka
Hirohisa Tasaki
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to CNB988143488A priority Critical patent/CN1149534C/zh
Priority to AU13529/99A priority patent/AU1352999A/en
Priority to EP98957213A priority patent/EP1143229A1/en
Priority to PCT/JP1998/005529 priority patent/WO2000034944A1/ja
Publication of WO2000034944A1 publication Critical patent/WO2000034944A1/ja
Priority to US09/842,095 priority patent/US6643618B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Definitions

  • the present invention relates to a speech decoding device and a speech decoding method for reproducing background noise when detecting a silent section where there is no speaker's speech.
  • FIG. 1 is a block diagram showing a conventional speech decoding apparatus disclosed in, for example, Japanese Patent Application Laid-Open No. 7-129195, in which 1 is an input terminal for inputting a speech coded sequence, and 2 is an input terminal. Is an excitation signal generation circuit that generates an excitation signal from an audio coded sequence, 3 is an audio spectrum coefficient generation circuit that generates an audio spectrum coefficient from an audio coded sequence, and 4 is an excitation signal generation circuit that is generated by the excitation signal generation circuit 2.
  • a speech encoding device detects a speaker's speech
  • the speech encoding device encodes the speech and transmits a speech encoded sequence to the speech decoding device.
  • the speech encoding device detects the unvoiced section of the speaker by, for example, a built-in VOX device or the like. The transmission of the speech coded sequence to be performed is stopped. However, the speech encoding device transmits a unique word (postamble POST) indicating the beginning of a silent section and an encoding parameter indicating background noise information.
  • a unique word postamble POST
  • the speech coded sequence is transmitted from the speech coder, so the excitation signal generation circuit 2 of the speech decoder generates the excitation signal from the speech coded sequence.
  • the speech spectrum coefficient generation circuit 3 of the speech decoding device generates speech spectrum coefficients from the encoded speech sequence.
  • the voice encoding apparatus transmits a unique word called a preamble PRE.
  • a unique word By detecting a unique word, the beginning of a sound section can be detected.
  • the voice signal is reproduced from the excitation signal and the voice spectrum coefficient. I do.
  • the audio output circuit 7 outputs the audio signal reproduced by the synthesis filter 4 to the output terminal 8.
  • the transmission of the speech coded sequence from the speech coder is stopped. Since the encoding parameter indicating the noise information is transmitted, the audio spectrum coefficient generation circuit 3 of the audio decoding device generates an audio spectrum coefficient from the encoding parameter indicating the background noise information. In addition, the excitation signal generation circuit 2 of the audio decoding device continuously generates an excitation signal from the audio coded sequence received in the last reception cycle of the voiced section.
  • the speech coding apparatus sets the postamble P 0 ST to Since the unique word is transmitted, the speech decoding device can detect the start of the silent section by detecting the unique word (see FIG. 2).
  • the synthetic filter 4 When a silence period is detected, the synthetic filter 4 generates a speech based on the excitation signal generated by the excitation signal generation circuit 2 and the background noise information (speech spectrum coefficient) generated by the speech spectrum coefficient generation circuit 3.
  • the signal will be reproduced, but if the difference between the speech coded sequence received in the last reception cycle of the voiced section and the background noise information is significant, the reproduced speech signal will change suddenly, causing a sense of discomfort. The problem of reproducing background noise with noise occurs.
  • the voice spectrum coefficient interpolation circuit 6 detects the voice spectrum coefficient (FIG. 2) which is background noise information received after the postamble POST as shown in FIG. Linear interpolation.
  • the synthesis filter 4 reproduces the audio signal using the background noise information from the beginning of the silent section, the sound signal changes suddenly when changing from the voiced section to the silent section.
  • the audio coded sequence (audio A constant is gradually added to the speech spectrum coefficient held in the vector coefficient holding buffer 5 to update the speech coded sequence with a fixed interpolation width. Increase or decrease).
  • the synthesis filter 4 reproduces the audio signal using the linearly interpolated background noise information (audio spectrum coefficient), and the audio output circuit 7 outputs the audio signal to the output terminal 8.
  • the conventional speech decoding apparatus is configured as described above, when a silent section is detected, the background noise information is reduced so that the change of the speech signal becomes gentle.
  • linear interpolation since the background noise information frame-to-frame interpolation width is always constant, the listener's sense of fluctuation in background noise becomes extremely monotonous. There was a problem.
  • the present invention has been made to solve the above problems, and has as its object to provide an audio decoding device and an audio decoding method capable of reproducing background noise with less discomfort. Disclosure of the invention
  • the speech decoding apparatus uses a coding parameter, which is background noise information extracted by the extraction means, and a coding parameter, which has been used for synthesizing the previous background noise, for the coding parameter. Is performed to estimate the coding parameters in a silent section.
  • the speech decoding apparatus substitutes a coding parameter, which is background noise information, and a coding parameter used for synthesizing the previous background noise into a predetermined arithmetic expression to encode a silent section.
  • Estimation means for estimating parameters is provided.
  • the speech decoding apparatus includes a synthesizing unit for synthesizing speech from the encoded parameters extracted in the last receiving period of the sound period by the extracting unit in a first receiving period of a silent period. It is provided.
  • the speech decoding apparatus constitutes a part of an encoding parameter. In this case, the smoothing operation of the vector envelope information is performed.
  • a speech decoding apparatus executes a smoothing operation of frame energy information constituting a part of an encoding parameter.
  • a speech decoding device is configured to execute a smoothing operation of spectrum envelope information and frame energy information that constitute a part of an encoding parameter.
  • a speech decoding apparatus comprises: a coding parameter extracted in a last reception cycle of a sound section by an extraction unit; and a coding parameter as background noise information extracted in a reception cycle of a silent section by the extraction unit.
  • Estimation means is provided for determining the smoothing coefficient of the encoding parameter in accordance with the amount of fluctuation from the instant.
  • the smoothing coefficient for the encoding parameter is optimized, so that there is an effect that background noise with less discomfort can be reproduced.
  • the speech decoding device provides a speech decoding device comprising: a variation amount of spectrum envelope information extracted in the last reception cycle of a speech section and spectrum envelope information which is background noise information; Between the frame energy information extracted in the last reception cycle of the frame and the frame energy information as background noise information The smoothing coefficient for the encoding parameter is determined in accordance with.
  • the speech decoding apparatus provides a spectrum envelope according to a variation amount between spectrum envelope information extracted in the last reception cycle of a sound section and spectrum envelope information as background noise information.
  • the information smoothing coefficient is determined, and the smoothing coefficient of the frame energy information is determined according to the amount of fluctuation between the frame energy information extracted in the last reception cycle of the sound section and the frame energy information as background noise information. The decision is made.
  • a speech coded stream is monitored, and when a silent section is detected, a coded parameter, which is background noise information extracted from the speech coded stream, is synthesized with the previous background noise.
  • a smoothing operation of the encoding parameters is performed to estimate the encoding parameters in the silent section.
  • the speech decoding method according to the present invention is characterized in that a coding parameter that is background noise information and a coding parameter that has been used for the synthesis of the previous background noise are substituted into a predetermined arithmetic expression to encode a silent section. It is intended to estimate the parameters.
  • the speech decoding method according to the present invention is characterized in that in the first reception cycle of a silent section, In other words, speech is synthesized from the coded parameters extracted in the last reception cycle of a voiced section.
  • the speech decoding method is characterized in that a variation amount between a coding parameter extracted in the last reception cycle of a sound section and a coding parameter that is background noise information extracted in a reception cycle of a silent section.
  • the smoothing coefficient for the encoding parameter is determined in accordance with.
  • FIG. 1 is a configuration diagram showing a conventional speech decoding device.
  • FIG. 2 is an explanatory diagram for explaining linear interpolation of a speech spectrum coefficient which is background noise information.
  • FIG. 3 is a configuration diagram showing a speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 4 is a flowchart showing a speech decoding method according to Embodiment 1 of the present invention.
  • FIG. 5 is an explanatory diagram for explaining the smoothing operation of the encoding parameter as background noise information.
  • FIG. 6 is a configuration diagram showing a speech decoding apparatus according to Embodiment 2 of the present invention.
  • FIG. 7 is a configuration diagram showing a speech decoding apparatus according to Embodiment 4 of the present invention.
  • FIG. 8 is a block diagram showing a speech decoding apparatus according to Embodiment 5 of the present invention. It is.
  • FIG. 9 is a configuration diagram showing a speech decoding apparatus according to Embodiment 6 of the present invention.
  • FIG. 10 is a configuration diagram showing a speech decoding apparatus according to Embodiment 7 of the present invention.
  • FIG. 3 is a configuration diagram showing a speech decoding apparatus according to Embodiment 1 of the present invention.
  • 11 is an input terminal for inputting a speech coded sequence
  • 12 is a parameter extraction circuit (extraction means) for extracting a coded parameter from the speech coded sequence
  • 13 is a speech coded sequence.
  • a sound / silence determination circuit (detection means) for determining whether or not a section is a silent section
  • 14 is a parameter extraction circuit 1 based on the determination information of the voice / silence determination circuit 13.
  • This is a branch switch (detection means) that switches the output destination of 2.
  • Reference numeral 15 denotes the background noise information extracted by the parameter extraction circuit 12, and the encoding parameter and the encoding parameters used in the synthesis of the previous background noise are used to smooth the encoding parameter.
  • the arithmetic circuit that performs the smoothing operation of the encoding parameter using the encoding parameter that is used for the synthesis of the background noise and the encoding parameter that was used in the previous synthesis of the background noise.
  • a voice synthesis circuit (synthesis means) for synthesizing voice from the meter, 19 is an output terminal.
  • FIG. 4 is a flowchart showing a speech decoding method according to Embodiment 1 of the present invention.
  • a speech encoding device detects a speaker's speech
  • the speech encoding device encodes the speech and transmits a speech encoded sequence to the speech decoding device.
  • the voice coding device detects the unvoiced section of the speaker by, for example, a built-in VOX device, and stops transmitting the voice coded sequence to the voice decoding device.
  • the speech coding apparatus transmits a unique word (postamble POST) indicating the start of a silent section and a coding parameter indicating background noise information.
  • the voice coded sequence is transmitted from the voice coder, so the parameter extraction circuit 12 of the voice coder decodes the parameter from the voice coded sequence.
  • One night is extracted (step ST 1).
  • the voiced / silent determination circuit 13 constantly monitors the voice coded sequence, and when a voiced section is detected, controls the branch switch 14 to perform voice synthesis on the output destination of the parameter overnight extraction circuit 12. Execute processing to switch to circuit 18 (steps ST2 and ST3).
  • the speech coding apparatus transmits a unique word called a preamble PRE. Can detect the beginning of a voiced section by detecting the unique word.
  • the speech synthesis circuit 18 synthesizes the speech from the encoded parameter extracted by the parameter extraction circuit 12 and outputs it to the output terminal 19, so that the speaker's voice is reproduced. (Step ST 4).
  • transmission of the speech coded sequence from the speech coder is stopped, but a unity word (postamble P ⁇ ST) indicating the beginning of the silent section is generated. Since the encoding parameter indicating the background noise information is transmitted, the parameter extraction circuit 12 of the audio decoding device extracts the encoding parameter from the audio coded sequence (step ST 1).
  • the voiced / silence determination circuit 13 constantly monitors the voice coded sequence, and when a voiceless section is detected, controls the branch switch 14 to change the output destination of the parameter overnight extraction circuit 12.
  • the processing for switching to the parameter overnight smoothing circuit 15 is executed (steps ST2 and ST5).
  • the silence determination circuit 13 can detect the start of a silent section by detecting the unique word (see Fig. 5).
  • the parameter overnight smoothing circuit 15 encodes the encoded parameter which is the background noise information extracted by the parameter overnight extraction circuit 12. Using the coding parameters used for the synthesis of the background noise and the previous time, a smoothing operation of the coding parameters is executed to estimate the coding parameters of the silent section (step ST6).
  • the reproduced audio signal is Due to the sudden change, a problem occurs in which a strange background noise is reproduced.
  • the parameter overnight smoothing circuit 15 encodes the encoded parameter overnight, which is background noise information extracted after the postamble POST, and the previous background noise. Encoding used for synthesis Substituting the parameters into the following equation, and perform the encoding parameter smoothing operation.
  • X n +! (1- ⁇ )-X ⁇ + ⁇ -X ref (1)
  • x n + 1 is the estimated result of the encoding parameter
  • X n is the encoding parameter X r used in the previous synthesis of the background noise.
  • f is the coding parameter which is the background noise information
  • is the smoothing coefficient of the coding parameter (0 ⁇ H ⁇ 1)
  • the speech synthesis circuit 18 outputs the encoded parameter.
  • the background noise in the silence section is synthesized from the overnight estimation result, and the background noise is output to the output terminal 19 (step S S7).
  • the initial value of the encoding parameter is X.
  • the encoding parameter in the last reception cycle of the sound interval is used as the parameter.
  • the speech synthesis circuit 18 synthesizes speech from the encoding parameters in the last reception cycle of the voiced section in the first reception cycle of the silent section. For this reason, the same sound is reproduced in the last reception cycle of a sound section and the first reception cycle of a silent section.
  • the coding parameter parameter X ⁇ f which is the background noise information extracted by the parameter parameter extracting circuit 12, was used for synthesizing the previous background noise.
  • the coding parameter overnight is calculated using the coding parameter x n and the coding parameter overnight in the silent section is estimated by performing the smoothing operation of the coding parameter overnight
  • the coding parameter in the silent section is quadratic. It increases or decreases like a curve, and as a result, there is an effect that background noise with less discomfort can be reproduced.
  • FIG. 6 is a configuration diagram showing a speech decoding apparatus according to Embodiment 2 of the present invention.
  • the same reference numerals as those in FIG. 3 indicate the same or corresponding parts, and thus the description thereof will be omitted.
  • 2 1 is an information selection circuit that selects and outputs only the spectral envelope information from the encoded parameters extracted by the parameter extraction circuit 12
  • 22 is an information selection circuit that is extracted by the parameter extraction circuit 12.
  • An information selection circuit that selects and outputs information other than the spectrum envelope information from among the encoded parameters.
  • the case where all the encoded parameters are output to the parameter smoothing circuit 15 in the silent section is described. However, only the spectral envelope information of the encoded parameters is output. The information may be output to the parameter overnight smoothing circuit 15 and information other than the spectrum envelope information may be output to the speech synthesis circuit 18.
  • the smoothing operation is performed only on the spectrum envelope information.
  • the smoothing operation may be performed only on the frame energy information.
  • FIG. 7 is a configuration diagram showing a speech decoding apparatus according to Embodiment 4 of the present invention.
  • the same reference numerals as those in FIG. 6 denote the same or corresponding parts, and a description thereof will not be repeated.
  • 23 is an information selection circuit that selects and outputs only frame energy information from the encoded parameters extracted by the parameter extraction circuit 12, and 24 is an encoding extracted by the parameter extraction circuit 12
  • An information selection circuit that selects and outputs information other than the spectral envelope information and the frame energy information during the parameters, and 25 is an information selection circuit based on the determination information of the voiced / silent determination circuit.
  • 23 a branch switch (detection means) for switching output destinations, 15a and 15b are parameter overnight smoothing circuits (estimating means) similar to the parameter overnight smoothing circuit 15;
  • the parameter overnight smoothing circuit 15a executes the smoothing operation of the spectrum envelope information, and the parameter overnight smoothing circuit 15b executes the smoothing operation of the frame energy information.
  • 16a and 16b are buffers, and 17a and 17b are arithmetic circuits.
  • the smoothing operation is performed on either the spectral envelope information or the frame energy information.
  • the smoothing operation is performed on both the spectral envelope information and the frame energy information. The calculation may be executed.
  • FIG. 8 is a configuration diagram showing a speech decoding apparatus according to Embodiment 5 of the present invention.
  • the same reference numerals as those in FIG. 3 indicate the same or corresponding parts, and thus the description thereof will be omitted.
  • 3 1 is the coding parameters extracted by the parameter extraction circuit 12 in the last reception cycle of the voiced section, and the background noise information extracted by the parameter extraction circuit 12 in the reception cycle of the silent section.
  • This is a coefficient determination circuit that determines a smoothing coefficient ⁇ for a given coding parameter according to the amount of change from a certain coding parameter.
  • the smoothing coefficient ⁇ of the encoding parameter is set to an arbitrary value (0 ⁇ ⁇ 1) has been described.
  • the smoothing coefficient ⁇ is extracted in the last reception cycle of the sound section. Coded paramesh x.
  • the smoothing coefficient ⁇ of the encoding parameter may be determined according to the variation amount of the encoding parameter X ef which is the background noise information extracted in the silent period reception period. Specifically, when the fluctuation amount is large (for example, when the fluctuation rate exceeds 80%), the smoothing coefficient is set to be smaller than the normal value (for example, the smoothing coefficient ⁇ is set to 0.05).
  • the smoothing coefficient ⁇ is set to a value equivalent to the normal value (for example, the smoothing coefficient To 0.1).
  • the smoothing coefficient ⁇ of the encoding parameter is determined according to the background noise information extracted last time and the fluctuation amount of the background noise information extracted this time.
  • the smoothing coefficient ⁇ of the encoding parameter is determined according to the variation amount of the encoding parameter.
  • the spectral envelope information (encoding parameters) extracted in the last reception cycle of the voiced section is used.
  • the smoothing coefficient of the spectral envelope information is calculated according to the amount of fluctuation with the spectral envelope information (encoding parameter overnight), which is the background noise information extracted in the reception cycle between silent sections.
  • the smoothing coefficient ⁇ used by the circuit 17a is determined, and the smoothing coefficient ⁇ of the frame energy information (the smoothing coefficient ⁇ ; used by the arithmetic circuit 17b) is determined as the spectrum envelope information. It may be made to match the smoothing coefficient ⁇ .
  • the smoothing coefficient ⁇ of the frame energy information can be determined without executing the processing of determining the smoothing coefficient H of the frame energy information.
  • the effect is that the background noise with less discomfort can be reproduced.
  • a process of determining the smoothing coefficient ⁇ of the frame energy information may be executed, and then the smoothing coefficient of the spectral envelope information may be made to match the smoothing coefficient ⁇ of the frame energy information.
  • the smoothing coefficient ⁇ of the spectral envelope information and the smoothing coefficient ⁇ of the frame energy information are determined according to the variation amount of the spectrum envelope information or the variation amount of the frame energy information.
  • the coefficient (coefficient The decision circuits 31 a and 3 lb operate in the same manner as the coefficient decision circuit 31), and the smoothing coefficient a of the spectrum envelope information is determined according to the variation of the spectrum envelope information, and the frame energy
  • the information smoothing coefficient ⁇ may be determined according to the amount of change in the frame energy information.
  • Embodiment 8 This makes it possible to more finely determine the smoothing coefficient ⁇ in accordance with the characteristics of the information than in the sixth embodiment, so that it is possible to reproduce background noise with less discomfort.
  • the speech decoding device and the speech decoding method according to the present invention reproduce a speaker's voice in a sound section in which the speaker's voice is present, and a background noise in a silent section in which the speaker's voice is absent. Suitable to play.

Description

明 細 書 音声復号化装置及び音声復号化方法 技術分野
この発明は、 話者の音声がない無音区間を検出すると、 背景雑音を再 生する音声復号化装置及び音声復号化方法に関するものである。 背景技術
第 1図は例えば特開平 7— 1 2 9 1 9 5号公報に示された従来の音声 復号化装置を示す構成図であり、 図において、 1は音声符号化列を入力 する入力端子、 2は音声符号化列から励起信号を生成する励起信号生成 回路、 3は音声符号化列から音声スぺク トル係数を生成する音声スぺク トル係数生成回路、 4は励起信号生成回路 2により生成された励起信号 と音声スぺク トル係数生成回路 3により生成された音声スぺク トル係数 から音声信号を再生する合成フィルタ、 5は音声スペク トル係数生成回 路 3により生成された音声スぺク トル係数を保持する音声スぺク トル係 数保持バッファ、 6は無音区間になると、 音声スペク トル係数を線形補 間する音声スペク トル係数補間回路、 7は合成フィルタ 4により再生さ れた音声信号を出力端子 8に出力する音声出力回路、 8は出力端子であ る。
次に動作について説明する。
まず、 音声符号化装置 (図示せず) は、 話者の音声を検知すると、 そ の音声を符号化して、 音声符号化列を音声復号化装置に送信する。
一方、 音声符号化装置は、 話者の音声が途絶えると、 例えば、 内蔵す る V O X装置等により話者の無声区間が検出され、 音声復号化装置に対 する音声符号化列の送信を停止する。 ただし、 音声符号化装置は、 無音 区間の始まりを示すユニークワー ド (ポス トアンブル P O S T ) と背景 雑音情報を示す符号化パラメ一夕を送信する。
話者の音声が検知された有音区間では、 音声符号化装置から音声符号 化列が送信されるので、 音声復号化装置の励起信号生成回路 2は音声符 号化列から励起信号を生成し、 音声復号化装置の音声スぺク トル係数生 成回路 3は音声符号化列から音声スぺク トル係数を生成する。
ここで、 無音区間から有音区間に移行して、 有音区間が始まる等の場 合には、 音声符号化装置がプリアンブル P R Eと称するユニークワー ド を送信するので、 音声復号化装置は、 そのユニークワー ドを検出するこ とにより、 有音区間の始まり を検知することができる。
合成フィル夕 4は、 励起信号生成回路 2が励起信号を生成し、 音声ス ベク トル係数生成回路 3が音声スペク トル係数を生成すると、 その励起 信号と音声スぺク トル係数から音声信号を再生する。
そして、 音声出力回路 7は、 合成フィル夕 4により再生された音声信 号を出力端子 8に出力する。
一方、 話者の音声が検知されない無音区間では、 音声符号化装置から の音声符号化列の送信は停止されるが、 無音区間の始まりを示すュニ一 クワード (ポス トアンブル P〇 S T ) と背景雑音情報を示す符号化パラ メータは送信されるので、 音声復号化装置の音声スぺク トル係数生成回 路 3は、 その背景雑音情報を示す符号化パラメータから音声スペク トル 係数を生成する。 また、 音声復号化装置の励起信号生成回路 2は、 有音 区間の最後の受信周期で受信された音声符号化列から励起信号を引き続 き生成する。
ここで、 有音区間から無音区間に移行して、 無音区間が始まる等の場 合には、 上述したように、 音声符号化装置がポス トアンブル P 0 S Tと 称するユニークワードを送信するので、 音声復号化装置は、 そのュニー クワードを検出することにより、 無音区間の始まりを検知することがで きる (第 2図を参照) 。
合成フィル夕 4は、 無音区間が検知されると、 励起信号生成回路 2に より生成された励起信号と、 音声スペク トル係数生成回路 3により生成 された背景雑音情報 (音声スペク トル係数) から音声信号を再生するこ とになるが、 有音区間の最後の受信周期で受信された音声符号化列と背 景雑音情報の差が著しい場合、 再生される音声信号が急変するため、 違 和感のある背景雑音を再生する不具合が発生する。
そこで、 音声スペク トル係数補間回路 6は、 無音区間が検知されると 、 第 2図に示すように、 ポス トアンブル P O S Tに続いて受信された背 景雑音情報である音声スペク トル係数 (第 2図の☆印を参照) を線形補 間する。
具体的には、 合成フィルタ 4が無音区間の開始当初から当該背景雑音 情報を用いて音声信号を再生すると、 有音区間から無音区間に変化する 際、 音声信号が急変するので、 無音区間の始まりから背景雑音情報の更 新時 (次の背景雑音情報が送信される時) にかけて音声信号を緩やかに 変化させるベく、 有音区間の最後の受信周期で受信された音声符号化列 (音声スぺク トル係数保持バッファ 5に保持されている音声スぺク トル 係数) に対して定数を段階的に加算して、 一定の補間幅で音声符号化列 を更新する (音声符号化列を直線的に増減させる) 。
そして、 合成フィル夕 4は、 線形補間された背景雑音情報 (音声スぺ ク トル係数) を用いて音声信号を再生し、 音声出力回路 7がその音声信 号を出力端子 8に出力する。
従来の音声復号化装置は以上のように構成されているので、 無音区間 が検知されると、 音声信号の変化が緩やかになるように背景雑音情報が 線形補間されるが、 背景雑音情報のフレーム単位の補間幅が常に一定で あるため、 受聴者の受ける背景雑音の変動感が非常に単調になり、 かえ つて、 違和感のある背景雑音を再生してしまう課題があった。
この発明は上記のような課題を解決するためになされたもので、 違和 感の少ない背景雑音を再生することができる音声復号化装置及び音声復 号化方法を得ることを目的とする。 発明の開示
この発明に係る音声復号化装置は、 抽出手段により抽出された背景雑 音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号 化パラメ一夕を用いて符号化パラメ一夕のスム一ジング演算を実行し、 無音区間の符号化パラメ一夕を推定するようにしたものである。
このことによって、 違和感の少ない背景雑音を再生することができる 効果がある。
この発明に係る音声復号化装置は、 背景雑音情報である符号化パラメ —夕と前回背景雑音の合成に用いられた符号化パラメ一夕を所定の演算 式に代入して、 無音区間の符号化パラメータを推定する推定手段を設け たものである。
このことによって、 複雑な構成を用いることなく、 符号化パラメータ のスム一ジング演算を速やかに実行することができる効果がある。
この発明に係る音声復号化装置は、 無音区間の最初の受信周期におい ては、 抽出手段により有音区間の最後の受信周期で抽出された符号化パ ラメ一夕から音声を合成する合成手段を設けたものである。
このことによって、 無音区間の最初の受信周期において、 背景雑音が 著しく変化する不具合を解消することができる効果がある。
この発明に係る音声復号化装置は、 符号化パラメ一夕の一部を構成す るスぺク トル包絡情報のスムージング演算を実行するようにしたもので ある。
このことによって、 スム一ジング演算に不要な符号化パラメ一夕が存 在する場合に、 演算量を削減することができる効果がある。
この発明に係る音声復号化装置は、 符号化パラメ一夕の一部を構成す るフレームエネルギー情報のスムージング演算を実行するようにしたも のである。
このことによって、 背景雑音のフレームエネルギーが変化しても、 背 景雑音の合成音パワーが断続的に変化する不具合を解消することができ る効果がある。
この発明に係る音声復号化装置は、 符号化パラメ一夕の一部を構成す るスぺク トル包絡情報とフレームエネルギー情報のスムージング演算を 実行するようにしたものである。
このことによって、 更に違和感の少ない背景雑音を再生することがで きる効果がある。
この発明に係る音声復号化装置は、 抽出手段により有音区間の最後の 受信周期で抽出された符号化パラメータと、 抽出手段により無音区間の 受信周期で抽出された背景雑音情報である符号化パラメ一夕との変動量 に応じて、 符号化パラメ一夕の平滑化係数を決定する推定手段を設けた ものである。
このことによって、 符号化パラメ一夕の平滑化係数が適正化されるた め、 更に違和感の少ない背景雑音を再生することができる効果がある。
この発明に係る音声復号化装置は、 有音区間の最後の受信周期で抽出 されたスぺク トル包絡情報と背景雑音情報であるスぺク トル包絡情報と の変動量、 または、 有音区間の最後の受信周期で抽出されたフレームェ ネルギ一情報と背景雑音情報であるフレームエネルギー情報との変動量 に応じて、 符号化パラメ一夕の平滑化係数を決定するようにしたもので ある。
このことによって、 平滑化係数の決定処理に大きな負荷を与えること なく 、 違和感の少ない背景雑音を再生することができる効果がある。
この発明に係る音声復号化装置は、 有音区間の最後の受信周期で抽出 されたスぺク トル包絡情報と背景雑音情報であるスぺク トル包絡情報と の変動量に応じてスペク トル包絡情報の平滑化係数を決定するとともに 、 有音区間の最後の受信周期で抽出されたフレームエネルギー情報と背 景雑音情報であるフレームエネルギー情報との変動量に応じてフレーム エネルギー情報の平滑化係数を決定するようにしたものである。
このことによって、 平滑化係数がきめ細かく決定される分、 更に違和 感の少ない背景雑音を再生することができる効果がある。
この発明に係る音声復号化方法は、 音声符号化列を監視して、 無音区 間を検出すると、 音声符号化列から抽出された背景雑音情報である符号 化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を用 いて符号化パラメ一夕のスムージング演算を実行して、 無音区間の符号 化パラメ一夕を推定するようにしたものである。
このことによって、 違和感の少ない背景雑音を再生することができる 効果がある。
この発明に係る音声復号化方法は、 背景雑音情報である符号化パラメ 一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を所定の演算 式に代入して、 無音区間の符号化パラメ一夕を推定するようにしたもの である。
このことによって、 複雑な構成を用いることなく、 符号化パラメ一夕 のスム一ジング演算を速やかに実行することができる効果がある。
この発明に係る音声復号化方法は、 無音区間の最初の受信周期におい ては、 有音区間の最後の受信周期で抽出された符号化パラメ一夕から音 声を合成するようにしたものである。
このことによって、 無音区間の最初の受信周期において、 背景雑音が 著しく変化する不具合を解消することができる効果がある。
この発明に係る音声復号化方法は、 有音区間の最後の受信周期で抽出 された符号化パラメータと、 無音区間の受信周期で抽出された背景雑音 情報である符号化パラメ一夕との変動量に応じて、 符号化パラメ一夕の 平滑化係数を決定するようにしたものである。
このことによって、 符号化パラメ一夕の平滑化係数が適正化されるた め、 更に違和感の少ない背景雑音を再生することができる効果がある。 図面の簡単な説明
第 1図は従来の音声復号化装置を示す構成図である。
第 2図は背景雑音情報である音声スぺク トル係数の線形補間を説明す る説明図である。
第 3図はこの発明の実施の形態 1 による音声復号化装置を示す構成図 である。
第 4図はこの発明の実施の形態 1 による音声復号化方法を示すフロー チヤ一トである。
第 5図は背景雑音情報である符号化パラメ一夕のスムージング演算を 説明する説明図である。
第 6図はこの発明の実施の形態 2による音声複号化装置を示す構成図 である。
第 7図はこの発明の実施の形態 4による音声復号化装置を示す構成図 である。
第 8図はこの発明の実施の形態 5による音声復号化装置を示す構成図 である。
第 9図はこの発明の実施の形態 6 による音声復号化装置を示す構成図 である。
第 1 0図はこの発明の実施の形態 7 による音声復号化装置を示す構成 図である。 発明を実施するための最良の形態
以下、 この発明をより詳細に説明するために、 この発明を実施するた めの最良の形態について、 添付の図面に従って説明する。
実施の形態 1 .
第 3図はこの発明の実施の形態 1 による音声復号化装置を示す構成図 である。 図において、 1 1 は音声符号化列を入力する入力端子、 1 2は 音声符号化列から符号化パラメ一夕を抽出するパラメ一夕抽出回路 (抽 出手段) 、 1 3は音声符号化列を監視して、 無音区間であるか否かを判 定する有音 · 無音判定回路 (検出手段) 、 1 4は有音 · 無音判定回路 1 3の判定情報に基づいてパラメ一夕抽出回路 1 2の出力先を切り替える 分岐スィ ッチ (検出手段) である。
1 5はパラメ一夕抽出回路 1 2 により抽出された背景雑音情報である 符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメータ を用いて、 符号化パラメ一夕のスム一ジング演算を実行し、 無音区間の 符号化パラメ一夕を推定するパラメータ平滑化回路 (推定手段) 、 1 6 は背景雑音情報である符号化パラメ一夕を保持するバッファ、 1 7は背 景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた 符号化パラメ一夕を用いて符号化パラメータのスム一ジング演算を実行 する演算回路、 1 8はパラメ一夕平滑化回路 1 5 により推定された符号 化パラメ一夕又はパラメ一夕抽出回路 1 2 により抽出された符号化パラ メータから音声を合成する音声合成回路 (合成手段) 、 1 9は出力端子 である。
なお、 第 4図はこの発明の実施の形態 1 による音声復号化方法を示す フローチヤ一トである。
次に動作について説明する。
まず、 音声符号化装置 (図示せず) は、 話者の音声を検知すると、 そ の音声を符号化して、 音声符号化列を音声復号化装置に送信する。
一方、 音声符号化装置は、 話者の音声が途絶えると、 例えば、 内蔵す る V O X装置等により話者の無声区間が検出され、 音声復号化装置に対 する音声符号化列の送信を停止する。 ただし、 音声符号化装置は、 無音 区間の始まりを示すユニークワード (ポス トアンブル P O S T ) と背景 雑音情報を示す符号化パラメータを送信する。
話者の音声が検知された有音区間では、 音声符号化装置から音声符号 化列が送信されるので、 音声復号化装置のパラメ一夕抽出回路 1 2は、 音声符号化列から符号化パラメ一夕を抽出する (ステップ S T 1 ) 。
また、 有音 · 無音判定回路 1 3は、 常時、 音声符号化列を監視し、 有 音区間を検出すると分岐スィッチ 1 4を制御して、 パラメ一夕抽出回路 1 2の出力先を音声合成回路 1 8に切り替える処理を実行する (ステツ プ S T 2, S T 3 ) 。
ここで、 無音区間から有音区間に移行して、 有音区間が始まる等の場 合には、 音声符号化装置がプリアンブル P R Eと称するユニークワード を送信するので、 有音 · 無音判定回路 1 3は、 そのユニークワードを検 出することにより、 有音区間の始まりを検出することができる。
これにより、 音声合成回路 1 8は、 パラメ一夕抽出回路 1 2により抽 出された符号化パラメ一夕から音声を合成して、 出力端子 1 9に出力す るので、 話者の音声が再現されることになる (ステップ S T 4 ) 。 一方、 話者の音声が検知されない無音区間では、 音声符号化装置から の音声符号化列の送信は停止されるが、 無音区間の始まり を示すュニ一 クワー ド (ポス トアンブル P〇 S T ) と背景雑音情報を示す符号化パラ メータは送信されるので、 音声復号化装置のパラメ一夕抽出回路 1 2は 、 音声符号化列から符号化パラメ一夕を抽出する (ステップ S T 1 ) 。
また、 有音 · 無音判定回路 1 3は、 常時、 音声符号化列を監視し、 無 音区間を検出すると分岐スィ ッチ 1 4を制御して、 パラメ一夕抽出回路 1 2の出力先をパラメ一夕平滑化回路 1 5 に切り替える処理を実行する (ステップ S T 2, S T 5 ) 。
ここで、 有音区間から無音区間に移行して、 無音区間が始まる等の場 合には、 上述したように、 音声符号化装置がポス トアンブル P O S Tと 称するユニークワー ドを送信するので、 有音 · 無音判定回路 1 3は、 そ のユニークワードを検出することにより、 無音区間の始まりを検知する ことができる (第 5図を参照) 。
そして、 パラメ一夕平滑化回路 1 5は、 有音 · 無音判定回路 1 3が無 音区間を検知すると、 パラメ一夕抽出回路 1 2 により抽出された背景雑 音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号 化パラメ一夕を用いて、 符号化パラメ一夕のスムージング演算を実行し 、 無音区間の符号化パラメ一夕を推定する (ステップ S T 6 ) 。
即ち、 有音区間の最後の受信周期で抽出された符号化パラメータと、 無音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕 の差が著しい場合、 再生される音声信号が急変するため、 違和感のある 背景雑音を再生する不具合が発生する。
そこで、 パラメ一夕平滑化回路 1 5は、 再生される音声信号の急変を 防止するため、 ポス トアンブル P O S Tに続いて抽出された背景雑音情 報である符号化パラメ一夕と、 前回背景雑音の合成に用いられた符号化 パラメ一夕を下記の演算式に代入し、 符号化パラメ一夕のスムージング 演算を実行する。
X n +! = ( 1 - α ) - X η + α - X r e f · · · ( 1 ) ただし、 x n + 1は符号化パラメ一夕の推定結果
X nは前回背景雑音の合成に用いられた符号化パラメ一夕 X rf は背景雑音情報である符号化パラメータ αは符号化パラメ一夕の平滑化係数 ( 0 < ひ 《 1 ) これにより、 無音区間における符号化パラメ一夕は、 二次曲線を描く ように、 緩やかに増加又は減少することになる (第 5図を参照) 。
このようにして、 パラメ一夕平滑化回路 1 5が符号化パラメ一夕のス ムージング演算を実行して、 無音区間の符号化パラメ一夕を推定すると 、 音声合成回路 1 8が、 符号化パラメ一夕の推定結果から無音区間の背 景雑音を合成して、 その背景雑音を出力端子 1 9 に出力する (ステップ S Τ 7 ) 。
なお、 符号化パラメ一夕の初期値を X。として、 有音区間の最後の受 信周期における符号化パラメ一夕を使用する。 また、 音声合成回路 1 8 は、 無音区間の最初の受信周期においては、 有音区間の最後の受信周期 における符号化パラメ一夕から音声を合成する。 このため、 有音区間の 最後の受信周期と無音区間の最初の受信周期は同じ音声が再生される。 以上で明らかなように、 この実施の形態 1 によれば、 パラメ一夕抽出 回路 1 2により抽出された背景雑音情報である符号化パラメ一夕 X ^ f と前回背景雑音の合成に用いられた符号化パラメ一夕 x nを用いて符号 化パラメ一夕のスムージング演算を実行し、 無音区間の符号化パラメ一 夕を推定するように構成したので、 無音区間の符号化パラメ一夕が二次 曲線を描くように増加又は減少するようになり、 その結果、 違和感の少 ない背景雑音を再生することができる効果がある。 実施の形態 2 .
第 6図はこの発明の実施の形態 2 による音声復号化装置を示す構成図 である。 図において、 第 3図と同一符号は同一または相当部分を示すの で説明を省略する。
2 1 はパラメ一夕抽出回路 1 2 により抽出された符号化パラメ一夕の うち、 スペク トル包絡情報のみを選択して出力する情報選択回路、 2 2 はパラメ一夕抽出回路 1 2 により抽出された符号化パラメ一夕のうち、 スぺク トル包絡情報以外の情報を選択して出力する情報選択回路である 次に動作について説明する。
上記実施の形態 1では、 無音区間になると全符号化パラメ一夕をパラ メ一夕平滑化回路 1 5 に出力するものについて示したが、 符号化パラメ —夕のうち、 スペク トル包絡情報のみをパラメ一夕平滑化回路 1 5 に出 力し、 スぺク トル包絡情報以外の情報を音声合成回路 1 8 に出力するよ うにしてもよい。
これにより、 スぺク トル包絡情報のみをスム一ジング演算すればよい ため、 スムージング演算に不要な符号化パラメ一夕が存在する場合には 、 演算量を削減することができる効果を奏する。 実施の形態 3 .
上記実施の形態 2では、 スぺク トル包絡情報のみをスムージング演算 するものについて示したが、 フレームエネルギー情報のみをスム一ジン グ演算するようにしてもよい。
これにより、 上記実施の形態 2 と同様の効果を奏することができると ともに、 背景雑音のフレームエネルギーが変化しても、 背景雑音の合成 音パワーが断続的に変化する不具合を解消することができる効果を奏す る。 実施の形態 4 .
第 7図はこの発明の実施の形態 4による音声復号化装置を示す構成図 である。 図において、 第 6図と同一符号は同一または相当部分を示すの で説明を省略する。
2 3はパラメ一夕抽出回路 1 2により抽出された符号化パラメ一夕の うち、 フレームエネルギー情報のみを選択して出力する情報選択回路、 2 4はパラメータ抽出回路 1 2 により抽出された符号化パラメ一夕のう ち、 スペク トル包絡情報及びフレームエネルギー情報以外の情報を選択 して出力する情報選択回路、 2 5は有音 · 無音判定回路 1 3の判定情報 に基づいて情報選択回路 2 1 , 2 3の出力先を切り替える分岐スィ ッチ (検出手段) 、 1 5 a, 1 5 bはパラメ一夕平滑化回路 1 5 と同様のパ ラメ一夕平滑化回路 (推定手段) であり、 パラメ一夕平滑化回路 1 5 a はスぺク トル包絡情報のスムージング演算を実行し、 パラメ一夕平滑化 回路 1 5 bはフレームエネルギー情報のスム一ジング演算を実行する。 1 6 a , 1 6 bはバッファ、 1 7 a, 1 7 bは演算回路である。
次に動作について説明する。
上記実施の形態 2, 3では、 スペク トル包絡情報又はフレームェネル ギー情報の何れか一方をスム一ジング演算するものについて示したが、 スペク トル包絡情報とフレームエネルギー情報の双方についてスム一ジ ング演算を実行するようにしてもよい。
これにより、 スぺク トル包絡情報とフレームエネルギー情報の双方が 平滑化されるため、 上記実施の形態 2, 3より も更に、 受聴者の受ける 背景雑音の違和感を軽減することができる効果を奏する。 なお、 パラメ一夕平滑化回路 1 5 aが使用する平滑化係数 α と、 パラ メ一夕平滑化回路 1 5 bが使用する平滑化係数 αは、 使用する情報の特 性に合わせて、 互いに異なる値に設定することができることは言うまで もない。 実施の形態 5 .
第 8図はこの発明の実施の形態 5 による音声復号化装置を示す構成図 である。 図において、 第 3図と同一符号は同一または相当部分を示すの で説明を省略する。
3 1 はパラメ一夕抽出回路 1 2 により有音区間の最後の受信周期で抽 出された符号化パラメータと、 パラメ一夕抽出回路 1 2 により無音区間 の受信周期で抽出された背景雑音情報である符号化パラメ一夕との変動 量に応じて、 符号化パラメ一夕の平滑化係数 αを決定する係数決定回路 である。
次に動作について説明する。
上記実施の形態 1 〜 4では、 符号化パラメ一夕の平滑化係数 αを任意 の値 ( 0 < α《 1 ) に設定するものについて示したが、 有音区間の最後 の受信周期で抽出された符号化パラメ一夕 x。と、 無音区間の受信周期 で抽出された背景雑音情報である符号化パラメ一夕 X e f との変動量に 応じて、 符号化パラメ一夕の平滑化係数 αを決定するようにしてもよい 具体的には、 その変動量が大きい場合には (例えば、 変動率が 8 0 % を越える場合) 、 平滑化係数ひを通常値より小さく設定し (例えば、 平 滑化係数 αを 0 . 0 5 に設定する) 、 その変動量が小さい場合には (例 えば、 変動率が 8 0 %を越えない場合) 、 平滑化係数 αを通常値と同等 の値に設定する (例えば、 平滑化係数ひを 0 . 1 に設定する) 。 なお、 無音区間が連続する場合には、 前回抽出された背景雑音情報と 、 今回抽出された背景雑音情報の変動量に応じて、 符号化パラメ一夕の 平滑化係数 αを決定する。
これにより、 符号化パラメ一夕の平滑化係数ひが適正化されるため、 更に違和感の少ない背景雑音を再生することができる効果を奏する。 実施の形態 6 .
上記実施の形態 5では、 符号化パラメ一夕の変動量に応じて、 符号化 パラメ一夕の平滑化係数 αを決定するものについて示したが、 上記実施 の形態 4のように、 スぺク トル包絡情報とフレームエネルギー情報の双 方を平滑化する場合には、 第 9図に示すように、 有音区間の最後の受信 周期で抽出されたスペク トル包絡情報 (符号化パラメ一夕) と、 無音区 間の受信周期で抽出された背景雑音情報であるスぺク トル包絡情報 (符 号化パラメ一夕) との変動量に応じて、 スペク トル包絡情報の平滑化係 数ひ (演算回路 1 7 aが使用する平滑化係数 α ) を決定し、 さらに、 フ レームエネルギー情報の平滑化係数 α (演算回路 1 7 bが使用する平滑 化係数 α; ) をスぺク トル包絡情報の平滑化係数 αと一致させるようにし てもよい。
これにより、 フレームエネルギー情報の平滑化係数ひ の決定処理を実 行することなく、 フレームエネルギー情報の平滑化係数 αを決定するこ とができるため、 平滑化係数 αの決定処理に大きな負荷を与えることな く、 違和感の少ない背景雑音を再生することができる効果を奏する。 なお、 フレームエネルギー情報の平滑化係数 αを決定する処理を実行 し、 その後、 スペク トル包絡情報の平滑化係数ひをフレームエネルギー 情報の平滑化係数 αと一致させるようにしてもよい。 実施の形態 7 .
上記実施の形態 6では、 スぺク トル包絡情報の変動量又はフレームェ ネルギ一情報の変動量に応じて、 スぺク トル包絡情報の平滑化係数 α と フレームエネルギー情報の平滑化係数 αを決定するものについて示した が、 第 1 0図に示すように、 パラメ一夕平滑化回路 1 5 a , 1 5 bのそ れぞれに係数決定回路 3 1 a , 3 l bを設けることにより (係数決定回 路 3 1 a, 3 l bは係数決定回路 3 1 と同様に動作する) 、 スペク トル 包絡情報の平滑化係数 aは、 スぺク トル包絡情報の変動量に応じて決定 し、 フレームエネルギー情報の平滑化係数 αは、 フレームエネルギー情 報の変動量に応じて決定するようにしてもよい。
これにより、 上記実施の形態 6より も、 情報の特性に応じて平滑化係 数 αをきめ細かく決定することができるため、 更に違和感の少ない背景 雑音を再生することができる効果を奏する。 実施の形態 8 .
上記実施の形態 1〜 7では、 背景雑音情報の更新周期に至るまで、 平 滑化係数 αを固定して使用するものについて示したが、 処理フレーム単 位で平滑化係数ひを連続的に変更して使用するようにしてもよい。 実施の形態 9 .
上記実施の形態 1〜 8では、 式 ( 1 ) の演算式を用いてスムージング 演算 (A R平滑の平滑化アルゴリズム) を実行するものについて示した が、 これに限るものではなく、 他の平滑化アルゴリズムを実行するよう にしてもよい。
これにより、 平滑化対象のパラメ一夕のダイナミ ック レンジや、 統計 的な出現確率等を考慮に入れて、 パラメータ毎により良く適合する平滑 化アルゴリズムを用いることが可能になり、 単一の平滑化アルゴリズム を用いる場合と比較して、 より安定した背景雑音を再生することができ る効果を奏する。 産業上の利用可能性
以上のように、 この発明に係る音声復号化装置及び音声復号化方法は 、 話者の音声がある有音区間では話者の音声を再生し、 話者の音声がな い無音区間では背景雑音を再生するのに適している。

Claims

請 求 の 範 囲
1 . 音声符号化列から符号化パラメ一夕を抽出する抽出手段と、 その音 声符号化列を監視して、 無音区間を検出する検出手段と、 上記検出手段 が無音区間を検出すると、 上記抽出手段により抽出された背景雑音情報 である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラ メータを用いて符号化パラメ一夕のスム一ジング演算を実行し、 無音区 間の符号化パラメータを推定する推定手段と、 上記推定手段により推定 された符号化パラメ一夕から無音区間の背景雑音を合成する合成手段と を備えた音声復号化装置。
2 . 推定手段は、 背景雑音情報である符号化パラメ一夕と前回背景雑音 の合成に用いられた符号化パラメ一夕を下記の演算式に代入して、 無音 区間の符号化パラメ一夕を推定することを特徴とする請求の範囲第 1項 記載の音声復号化装置。
X n +! = ( 1 — α ) · X n + a · x r c f
ただし、 x n + 1は符号化パラメ一夕の推定結果
X nは前回背景雑音の合成に用いられた符号化パラメ一夕 「。 f は背景雑音情報である符号化パラメ一夕
aは符号化パラメ一夕の平滑化係数 ( 0 < α《 1 )
3 . 合成手段は、 無音区間の最初の受信周期においては、 抽出手段によ り有音区間の最後の受信周期で抽出された符号化パラメ一夕から音声を 合成することを特徴とする請求の範囲第 1項記載の音声復号化装置。
4 . 推定手段は、 符号化パラメ一夕の一部を構成するスペク トル包絡情 報のスムージング演算を実行することを特徴とする請求の範囲第 1項記 載の音声復号化装置。
5 . 推定手段は、 符号化パラメ一夕の一部を構成するフレームエネルギ —情報のスムージング演算を実行することを特徴とする請求の範囲第 1 項記載の音声復号化装置。
6 . 推定手段は、 符号化パラメ一夕の一部を構成するスペク トル包絡情 報とフレームエネルギー情報のスムージング演算を実行することを特徴 とする請求の範囲第 1項記載の音声復号化装置。
7 . 推定手段は、 抽出手段により有音区間の最後の受信周期で抽出され た符号化パラメータと、 上記抽出手段により無音区間の受信周期で抽出 された背景雑音情報である符号化パラメ一夕との変動量に応じて、 符号 化パラメ一夕の平滑化係数を決定することを特徴とする請求の範囲第 1 項記載の音声復号化装置。
8 . 推定手段は、 スペク トル包絡情報とフレームエネルギー情報のスム 一ジング演算を実行する場合、 有音区間の最後の受信周期で抽出された スぺク トル包絡情報と背景雑音情報であるスぺク トル包絡情報との変動 量、 または、 有音区間の最後の受信周期で抽出されたフレームエネルギ 一情報と背景雑音情報であるフレームエネルギー情報との変動量に応じ て、 符号化パラメ一夕の平滑化係数を決定することを特徴とする請求の 範囲第 1項記載の音声復号化装置。
9 . 推定手段は、 スペク トル包絡情報とフレームエネルギー情報のスム —ジング演算を実行する場合、 有音区間の最後の受信周期で抽出された スぺク トル包絡情報と背景雑音情報であるスぺク トル包絡情報との変動 量に応じてスぺク トル包絡情報の平滑化係数を決定するとともに、 有音 区間の最後の受信周期で抽出されたフレームエネルギー情報と背景雑音 情報であるフレームエネルギー情報との変動量に応じてフレームェネル ギー情報の平滑化係数を決定することを特徴とする請求の範囲第 1項記 載の音声復号化装置。
1 0 . 音声符号化列を監視して、 無音区間を検出すると、 その音声符号 化列から抽出された背景雑音情報である符号化パラメ一夕と前回背景雑 音の合成に用いられた符号化パラメ一夕を用いて符号化パラメ一夕のス ムージング演算を実行して、 無音区間の符号化パラメ一夕を推定し、 そ の推定結果である符号化パラメ一夕から無音区間の背景雑音を合成する 音声復号化方法。
1 1 . 背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用 いられた符号化パラメータを下記の演算式に代入して、 無音区間の符号 化パラメ一夕を推定することを特徴とする請求の範囲第 1 0項記載の音 声復号化方法。
n +! = ( 1 — α · X η + α · χ r e f
ただし、 x n + 1は符号化パラメ一夕の推定結果
X nは前回背景雑音の合成に用いられた符号化パラメ一夕 X rf は背景雑音情報である符号化パラメ一夕
αは符号化パラメ一夕の平滑化係数 ( 0 < α《 1 )
1 2 . 無音区間の最初の受信周期においては、 有音区間の最後の受信周 期で抽出された符号化パラメ一夕から音声を合成することを特徴とする 請求の範囲第 1 0項記載の音声復号化方法。
1 3 . 有音区間の最後の受信周期で抽出された符号化パラメータと、 無 音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕と の変動量に応じて、 符号化パラメ一夕の平滑化係数を決定することを特 徵とする請求の範囲第 1 0項記載の音声復号化方法。
PCT/JP1998/005529 1998-12-07 1998-12-07 Decodeur sonore et procede de decodage sonore WO2000034944A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CNB988143488A CN1149534C (zh) 1998-12-07 1998-12-07 声音解码装置和声音解码方法
AU13529/99A AU1352999A (en) 1998-12-07 1998-12-07 Sound decoding device and sound decoding method
EP98957213A EP1143229A1 (en) 1998-12-07 1998-12-07 Sound decoding device and sound decoding method
PCT/JP1998/005529 WO2000034944A1 (fr) 1998-12-07 1998-12-07 Decodeur sonore et procede de decodage sonore
US09/842,095 US6643618B2 (en) 1998-12-07 2001-04-26 Speech decoding unit and speech decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1998/005529 WO2000034944A1 (fr) 1998-12-07 1998-12-07 Decodeur sonore et procede de decodage sonore

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/842,095 Continuation US6643618B2 (en) 1998-12-07 2001-04-26 Speech decoding unit and speech decoding method

Publications (1)

Publication Number Publication Date
WO2000034944A1 true WO2000034944A1 (fr) 2000-06-15

Family

ID=14209561

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1998/005529 WO2000034944A1 (fr) 1998-12-07 1998-12-07 Decodeur sonore et procede de decodage sonore

Country Status (5)

Country Link
US (1) US6643618B2 (ja)
EP (1) EP1143229A1 (ja)
CN (1) CN1149534C (ja)
AU (1) AU1352999A (ja)
WO (1) WO2000034944A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008932A1 (ja) * 2004-07-23 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
JP2007179072A (ja) * 2007-02-23 2007-07-12 Mitsubishi Electric Corp 音響処理装置、音響処理方法、音響処理プログラム、照合処理装置、照合処理方法及び照合処理プログラム
US7478042B2 (en) 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
US9443526B2 (en) 2012-09-11 2016-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Generation of comfort noise

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
WO2006029306A1 (en) * 2004-09-09 2006-03-16 Interoperability Technologies Group Llc Method and system for communication system interoperability
US8612236B2 (en) * 2005-04-28 2013-12-17 Siemens Aktiengesellschaft Method and device for noise suppression in a decoded audio signal
CN101320563B (zh) * 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN102760441B (zh) * 2007-06-05 2014-03-12 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN101483495B (zh) 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54139407A (en) * 1978-04-21 1979-10-29 Nippon Telegr & Teleph Corp <Ntt> Sound source producing device for voice compounding unit
JPH05122165A (ja) * 1991-10-28 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声信号伝送方法
JPH07129195A (ja) * 1993-11-05 1995-05-19 Nec Corp 音声復号化装置
JPH08314497A (ja) * 1995-05-23 1996-11-29 Nec Corp 無音圧縮音声符号化復号化装置
JPH08321811A (ja) * 1995-05-26 1996-12-03 N T T Ido Tsushinmo Kk 背景雑音更新システムおよび方法
JPH0918424A (ja) * 1995-06-30 1997-01-17 Nec Corp 音声復号化装置
JPH1039898A (ja) * 1996-07-22 1998-02-13 Nec Corp 音声信号伝送方法及び音声符号復号化システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5587998A (en) * 1995-03-03 1996-12-24 At&T Method and apparatus for reducing residual far-end echo in voice communication networks
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54139407A (en) * 1978-04-21 1979-10-29 Nippon Telegr & Teleph Corp <Ntt> Sound source producing device for voice compounding unit
JPH05122165A (ja) * 1991-10-28 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声信号伝送方法
JPH07129195A (ja) * 1993-11-05 1995-05-19 Nec Corp 音声復号化装置
JPH08314497A (ja) * 1995-05-23 1996-11-29 Nec Corp 無音圧縮音声符号化復号化装置
JPH08321811A (ja) * 1995-05-26 1996-12-03 N T T Ido Tsushinmo Kk 背景雑音更新システムおよび方法
JPH0918424A (ja) * 1995-06-30 1997-01-17 Nec Corp 音声復号化装置
JPH1039898A (ja) * 1996-07-22 1998-02-13 Nec Corp 音声信号伝送方法及び音声符号復号化システム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478042B2 (en) 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
WO2006008932A1 (ja) * 2004-07-23 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
JPWO2006008932A1 (ja) * 2004-07-23 2008-05-01 松下電器産業株式会社 音声符号化装置および音声符号化方法
US8670988B2 (en) 2004-07-23 2014-03-11 Panasonic Corporation Audio encoding/decoding apparatus and method providing multiple coding scheme interoperability
JP2007179072A (ja) * 2007-02-23 2007-07-12 Mitsubishi Electric Corp 音響処理装置、音響処理方法、音響処理プログラム、照合処理装置、照合処理方法及び照合処理プログラム
US9443526B2 (en) 2012-09-11 2016-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Generation of comfort noise
US9779741B2 (en) 2012-09-11 2017-10-03 Telefonaktiebolaget Lm Ericsson (Publ) Generation of comfort noise
US10381014B2 (en) 2012-09-11 2019-08-13 Telefonaktiebolaget Lm Ericsson (Publ) Generation of comfort noise
US10891964B2 (en) 2012-09-11 2021-01-12 Telefonaktiebolaget Lm Ericsson (Publ) Generation of comfort noise
US11621004B2 (en) 2012-09-11 2023-04-04 Telefonaktiebolaget Lm Ericsson (Publ) Generation of comfort noise

Also Published As

Publication number Publication date
CN1327574A (zh) 2001-12-19
AU1352999A (en) 2000-06-26
US20010029451A1 (en) 2001-10-11
EP1143229A1 (en) 2001-10-10
US6643618B2 (en) 2003-11-04
CN1149534C (zh) 2004-05-12

Similar Documents

Publication Publication Date Title
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
EP0911807A2 (en) Sound synthesizing method and apparatus, and sound band expanding method and apparatus
MX2007011102A (es) Tramas que distorsionan el tiempo dentro del vocoder modificando el residuo.
JP2008529072A (ja) 通信システムにおける隠蔽フレームの生成方法
US20120288109A1 (en) Apparatus and method for noise generation
JPH0962299A (ja) コード励振線形予測符号化装置
WO2000034944A1 (fr) Decodeur sonore et procede de decodage sonore
JP2010170142A (ja) ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置
KR20090129450A (ko) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
JP2007525723A (ja) 音声通信のためのコンフォートノイズ生成の方法
JPH07129195A (ja) 音声復号化装置
JPH07334191A (ja) パケット音声復号方法
JP3649854B2 (ja) 音声符号化装置
JP3225256B2 (ja) 擬似背景雑音生成方法
JPH021661A (ja) パケット補間方式
JP2900987B2 (ja) 無音圧縮音声符号化復号化装置
JP3055608B2 (ja) 音声符号化方法および装置
JP3233277B2 (ja) 低消費電力型背景雑音生成方式
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP3508850B2 (ja) 疑似背景雑音生成方法
JP3593183B2 (ja) 音声復号装置
JPH06202698A (ja) 適応ポストフィルタ
JP3580906B2 (ja) 音声復号装置
JP3792716B2 (ja) 受信機において改良されたデコーダを備えたデジタル伝送系
JPH07334197A (ja) 音声符号化装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 98814348.8

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AL AU BA BB BG BR CA CN CU CZ EE GE HR HU ID IL IN IS JP KR LC LK LR LT LV MG MK MN MX NO NZ PL RO SG SI SK SL TR TT UA US UZ VN YU

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
ENP Entry into the national phase

Ref document number: 2000 587325

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 09842095

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1998957213

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1998957213

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1998957213

Country of ref document: EP