WO2006025313A1 - 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法 - Google Patents

音声符号化装置、音声復号化装置、通信装置及び音声符号化方法 Download PDF

Info

Publication number
WO2006025313A1
WO2006025313A1 PCT/JP2005/015643 JP2005015643W WO2006025313A1 WO 2006025313 A1 WO2006025313 A1 WO 2006025313A1 JP 2005015643 W JP2005015643 W JP 2005015643W WO 2006025313 A1 WO2006025313 A1 WO 2006025313A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency component
low
unit
encoding
speech
Prior art date
Application number
PCT/JP2005/015643
Other languages
English (en)
French (fr)
Inventor
Hiroyuki Ehara
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/573,765 priority Critical patent/US7848921B2/en
Priority to JP2006532664A priority patent/JPWO2006025313A1/ja
Priority to EP05780835A priority patent/EP1785984A4/en
Publication of WO2006025313A1 publication Critical patent/WO2006025313A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • Speech coding apparatus speech decoding apparatus, communication apparatus, and speech coding method
  • the present invention relates to a speech encoding device, speech decoding device, communication device, and speech encoding method that use scalable encoding technology.
  • CELP Code Excited Linear Prediction
  • IP Internet Protocol
  • VoIP Voice over IP
  • the C ELP system encodes the current speech signal using an adaptive codebook, which is a notation of the excitation signal quantized in the past, so once a transmission path error occurs, the encoder side (transmission side) ) And the contents of the adaptive codebook on the decoder side (receiver side) do not match, so that not only the frame in which the transmission path error has occurred but also the subsequent normal frame in which the transmission path error has not occurred The influence of For this reason, the CELP method cannot be said to have a high frame loss tolerance.
  • a method for improving the frame loss tolerance for example, a method is known in which even if a packet or a part of a frame is lost, decoding is performed using a part of another packet or frame.
  • a scalable code also referred to as embedded code or hierarchical code
  • Information encoded by the scalable code system includes core layer code information and enhancement layer code information.
  • a decoding device that has received information encoded by the scalable code system can decode a minimum audio signal necessary for audio reproduction from only the core layer encoded information without the enhancement layer code information.
  • the scalable code there is one having scalability in the frequency band of the code target signal (see, for example, Patent Document 1).
  • the input signal after down-sampling is encoded by the first CELP code circuit, and the result of the code is used by the second CELP code circuit. Sign the input signal.
  • the technique described in Patent Document 1 by increasing the number of code layers and increasing the bit rate, it is possible to widen the signal band and improve the reproduction voice quality, and to improve the enhancement layer code information. Even if there is no report, an audio signal in a narrow signal band can be decoded in an error-free state and reproduced as audio.
  • Patent Document 1 Japanese Patent Laid-Open No. 11-30997
  • the encoding of the audio signal does not depend on the memory in the encoder, so that error propagation is eliminated and the audio signal Increases error tolerance.
  • the adaptive codebook is not used in the CELP system, the speech signal is quantized only with the fixed codebook, and the quality of the reproduced speech is generally degraded.
  • the fixed codebook requires a large number of bits, and the encoded voice data requires a high bit rate.
  • an object of the present invention is to provide a speech code generator and the like that can improve frame loss error tolerance without increasing the number of bits of a fixed codebook.
  • the speech coding apparatus encodes a low-frequency component having a band of at least less than a predetermined frequency in a speech signal without using inter-frame prediction, and generates low-frequency component coding information.
  • Band component encoding means, and at least the speech signal A high frequency component encoding unit is provided that encodes a high frequency component having a band exceeding a predetermined frequency using inter-frame prediction to generate high frequency component encoded information.
  • a low-frequency component for example, a low-frequency component of less than 500 Hz
  • V ⁇ method for example, it is encoded by the waveform encoding method or the frequency domain encoding method, and the high frequency component in the audio signal is encoded by the CELP method using the adaptive codebook and the fixed codebook.
  • interpolation interpolation
  • the code key scheme that does not use inter-frame prediction such as waveform code key is applied to the low frequency component of the voice signal, it is generated by the code key of the voice signal. The amount of audio data can be minimized.
  • the adaptive codebook of the high frequency component code key means It is possible to calculate the pitch lag information by using the low frequency component of the sound source signal decoded from the low frequency component code.
  • the high frequency component code key means can The high frequency component of the audio signal can be encoded using a book.
  • the high frequency component encoding means encodes and transmits pitch lag information as the high frequency component encoded information
  • the high frequency component encoding means transmits the low frequency component code key information.
  • the pitch lag information can be efficiently quantized with a small number of bits by using the pitch lag information for which the decoding signal power is also calculated.
  • FIG. 1 is a block diagram showing a configuration of an audio signal transmission system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a speech coding apparatus according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration of a speech decoding apparatus according to an embodiment of the present invention.
  • FIG. 4 is a diagram showing the operation of the speech coding apparatus according to an embodiment of the present invention.
  • FIG. 5 is a diagram showing the operation of the speech decoding apparatus according to one embodiment of the present invention.
  • FIG. 6 is a block diagram showing a configuration of a modified example of the speech encoding device.
  • FIG. 1 shows a radio communication apparatus 110 having a speech encoding apparatus according to an embodiment of the present invention, and a radio communication apparatus 150 having a speech decoding apparatus according to the present embodiment.
  • 1 is a block diagram showing a configuration of an audio signal transmission system including the same. Note that both the wireless communication device 110 and the wireless communication device 150 are wireless communication devices in a mobile communication system such as a mobile phone, and transmit and receive wireless signals via a base station device (not shown).
  • the wireless communication device 110 includes an audio input unit 111, an analog Z digital (AZD) converter 112, an audio encoding unit 113, a transmission signal processing unit 114, a radio frequency (RF) modulation unit 115, a radio A transmitter 116 and an antenna element 117 are provided.
  • ABD analog Z digital
  • RF radio frequency
  • the audio input unit 111 is configured with a microphone or the like, converts audio into an analog audio signal that is an electrical signal, and inputs the generated audio signal to the AZD converter 112.
  • the AZD conversion unit l2 converts an analog audio signal input from the audio input unit 111 into a digital audio signal, and inputs the digital audio signal to the audio code input unit 113.
  • Speech coding unit 113 encodes the digital speech signal input from AZD transformation 112 to generate a speech encoded bit string, and inputs the generated speech encoded bit string to transmission signal processing unit 114. To do. The operation and function of the voice code key unit 113 will be described in detail later.
  • Transmission signal processing section 114 performs channel coding processing, packetization processing, transmission buffer processing, and the like on the speech coded bit string input from speech coding section 113, and then performs speech coding after the processing.
  • a bit string is input to the RF modulation unit 115.
  • the RF modulation unit 115 converts the speech code key sequence received from the transmission signal processing unit 114. Modulation is performed by a predetermined method, and the modulated voice code signal is input to the wireless transmission unit 116.
  • the wireless transmission unit 116 includes a frequency converter, a low noise amplifier, and the like, converts the voice code signal input from the RF modulation unit 115 into a carrier wave of a predetermined frequency, and converts the carrier wave to a predetermined frequency.
  • the output is transmitted wirelessly through the antenna element 117.
  • the wireless communication device 110 various signal processing after AZD conversion is performed on a digital audio signal generated by the AZD converter 112 in units of frames of several tens of ms.
  • the transmission signal processing unit 114 When the network (not shown) that is a component of the audio signal transmission system is a packet network, the transmission signal processing unit 114 generates one packet from the audio code bit sequence of one frame or several frames. .
  • the transmission signal processing unit 114 does not need to perform packetization processing or transmission buffer processing.
  • the wireless communication device 150 includes an antenna element 151, a wireless reception unit 152, and an RF demodulation unit 153.
  • the wireless reception unit 152 includes a band-pass filter, a low-noise amplifier, and the like, and includes an antenna element 15
  • Radio signal strength captured in 1 A reception audio signal that is an analog electric signal is generated, and the generated reception audio signal is input to the RF demodulation unit 153.
  • the RF demodulator 153 converts the received audio signal input from the radio receiver 152 into an RF modulator.
  • a received speech encoded signal is generated by demodulation using a demodulation method corresponding to the modulation method in 115, and the generated received speech encoded signal is input to received signal processing section 154.
  • Reception signal processing section 154 performs jitter absorption buffering processing, packet decomposition processing, channel decoding processing, etc. on the received speech code input signal input from RF demodulation section 153, and performs reception speech code processing. Then, the received voice code key sequence is generated and input to the voice decoding unit 155.
  • Speech decoding unit 155 performs a decoding process on the received speech code signal input sequence received from received signal processing unit 154 to generate a digital decoded speech signal, and the generated digital decoded speech Input the signal to the DZA converter 156.
  • DZA conversion 156 converts the digital decoded speech signal input from speech decoding unit 155 into an analog decoded speech signal, and inputs the converted analog decoded speech signal to speech reproduction unit 157.
  • the sound reproduction unit 157 converts the analog decoded sound signal input from the DZA transformation 156 into air vibrations and outputs the sound waves so as to be heard by the human ear.
  • FIG. 2 is a block diagram showing a configuration of speech coding apparatus 200 according to the present embodiment.
  • Speech coding apparatus 200 includes linear predictive coding (LPC) analysis unit 201, LPC coding unit 202, low-frequency component waveform coding unit 210, high-frequency component coding unit 220, and packetization unit. 231.
  • LPC linear predictive coding
  • the LPC analysis unit 201, the LPC code unit 202, the low-frequency component waveform encoding unit 210, and the high-frequency component encoding unit 220 in the speech coding apparatus 200 are the speech codes in the wireless communication apparatus 110.
  • the hook unit 113 is configured, and the packet key unit 231 is a part of the transmission signal processing unit 114 in the wireless communication apparatus 110.
  • the low-frequency component waveform encoding unit 210 includes a linear prediction inverse filter 211, a 1/8 down-sample (DS) unit 212, a scaling unit 213, a scalar quantization unit 214, and an 8-times upsample (US). Part 215.
  • the high frequency component encoding unit 220 includes adders 221, 227, 228, a weighting error minimizing unit 222, a pitch analysis unit 223, an adaptive codebook (ACB) unit 224, a fixed codebook (FCB) unit 225, A gain quantization unit 226 and a synthesis filter 229 are provided.
  • the LPC analysis unit 201 performs linear prediction analysis on the digital speech signal input from the AZD transformation 112, and uses the LPC parameters (linear prediction coefficients or LPC coefficients) that are the analysis results as LPC code labels. Input to part 202.
  • the LPC code key unit 202 encodes the LPC parameters input from the LPC analysis unit 201 to generate a quantized LPC, and inputs the quantized LPC code key information to the packet key unit 231.
  • the generated quantized LPC is input to the linear prediction inverse filter 211 and the synthesis filter 229, respectively.
  • the LPC encoding unit 202 encodes the LPC parameter by converting the LPC parameter to an LSP parameter, for example, and performing vector quantization on the converted LSP parameter.
  • the low-frequency component waveform encoding unit 210 receives the quantized LP input from the LPC code key unit 202. Based on C, linear prediction of the digital audio signal input from AZD Variant 12 is calculated, and by performing a down-sampling process on the calculation result, the bandwidth power of the audio signal below a predetermined frequency is calculated. The low frequency component is extracted, and the extracted low frequency component is waveform-encoded to generate low frequency component encoded information. Then, the low frequency component waveform encoding unit 210 inputs the low frequency component encoded information to the packetizing unit 231 and also generates a quantized low frequency component waveform encoded signal (sound source) generated by the waveform encoding.
  • Waveform is input to the high-frequency component encoding unit 220.
  • the low-frequency component waveform encoding information generated by the low-frequency component waveform encoding unit 210 constitutes core layer code information in the code information based on the scalable code.
  • the upper frequency limit for this low frequency component is 500Hz.
  • the linear prediction inverse filter 211 is a digital filter that applies the signal processing represented by the equation (1) to the digital audio signal using the quantized LPC input from the LPC code key unit 202.
  • a linear prediction residual signal is calculated by the signal processing expressed by equation (1), and the calculated linear prediction residual signal is input to the 1Z8DS unit 212.
  • X (n) is the input signal sequence of the linear prediction inverse filter
  • Y (n) is the output signal sequence of the linear prediction inverse filter
  • ex (i) is the i-th order quantized LPC.
  • the 1Z8DS unit 212 performs 1/8 downsampling on the linear prediction residual signal input from the linear prediction inverse filter 21 1 and inputs a sampling signal with a sampling frequency of 1 kHz to the scaling unit 213. .
  • a 1Z8DS unit 212 or an 8 ⁇ US unit to be described later is used by using a pre-read signal corresponding to a delay time caused by down-sampling (in which pre-read data is actually input or zero-padded). No delay occurs at 215.
  • an output sound source vector is delayed in an adder 227 described later so that matching in an adder 228 described later is successful.
  • the scaling unit 213 receives a sampling signal (linear) from the 1Z8DS unit 212.
  • the sample having the maximum amplitude in one frame in the prediction residual signal) is scalar quantized with a predetermined number of bits (for example, 8-bit ⁇ -law ⁇ law PCM: Pulse Code Modulation).
  • the old code key information (scaling coefficient code key information) is input to the packet key unit 231.
  • the scaling unit 213 scales (normalizes) the linear prediction residual signal for one frame with the scalar quantized maximum amplitude value, and sends the scaled linear prediction residual signal to the scalar quantization unit 214. input.
  • the scalar quantization unit 214 performs scalar quantization on the linear prediction residual signal input from the scaling unit 213, and encodes information about the scalar quantization (regular sound source signal low-frequency component coding information). ) Is input to the packetizing unit 231 and the linearly quantized linear prediction residual signal is input to the 8-times US unit 215. Note that the scalar quantization unit 214 applies, for example, a PCM or a differential pulse code modulation (DPCM) method in this scalar quantization.
  • DPCM differential pulse code modulation
  • the 8 times US unit 215 upsamples the scalar quantized linear prediction residual signal input from the scalar quantization unit 214 by 8 times to obtain a sampling frequency of 8 kHz, and then the sampling signal ( Linear prediction residual signal) is input to the pitch analysis unit 223 and the adder 228, respectively.
  • the high frequency component encoding unit 220 generates a component other than the low frequency component of the audio signal encoded by the low frequency component waveform encoding unit 210, that is, a high frequency component having a band exceeding the frequency in the audio signal.
  • CELP code is used to generate high frequency component encoded information.
  • the high frequency component encoding unit 220 inputs the generated high frequency component encoding information to the packetizing unit 231.
  • the high frequency component code key information generated by the high frequency component code key unit 220 constitutes enhancement layer code key information in the code key information based on the scalable code key.
  • Adder 221 calculates an error signal by subtracting a synthesized signal input from synthesis filter 229, which will be described later, from the digital audio signal input from AZD transformation 112, and calculates the calculated error signal.
  • the signal is input to the weighting error minimizing unit 222. Note that the error signal calculated by the adder 221 corresponds to sign distortion.
  • the weighting error minimizing unit 222 uses the FCB unit 225 so that the error signal input from the adder 221 is minimized by using an auditory (auditory) weighting filter.
  • the encoding parameters in the obtained quantization unit 226 are determined, and the determined code parameters are instructed to the FCB unit 225 and the gain quantization unit 226, respectively. Further, the weighting error minimizing unit 222 calculates the filter coefficient of the auditory weighting filter based on the LPC parameters analyzed by the LPC analysis unit 201.
  • the pitch analysis unit 223 calculates the pitch lag (pitch period) of the linearly-predicted residual signal (sound source waveform) after the upsampled scalar quantization input from the 8-times US unit 215, and calculates the calculated pitch lag. Is input to ACB section 224. That is, the pitch analysis unit 223 searches for the current pitch lag using the low-frequency component linear prediction residual signal (sound source waveform) that has been scalar quantized in the present and the past.
  • the pitch analysis unit 223 can calculate the pitch lag by a general method using a normal autocorrelation function, for example. By the way, the high V and pitch of the female voice is about 400Hz.
  • ACB unit 224 stores an output sound source vector generated in the past input from adder 227, which will be described later, in a built-in buffer, and is based on the pitch lag input from pitch analysis unit 223. Then, an adaptive code vector is generated, and the generated adaptive code vector is input to the gain quantization unit 226.
  • FCB section 225 inputs the excitation vector corresponding to the code parameter specified from weighting error minimizing section 222 to gain quantization section 226 as a fixed code vector. Further, the FCB unit 225 inputs a code representing this fixed code vector to the packetizer unit 231.
  • Gain quantization section 226 fixes the gain corresponding to the code parameter specified by weighting error minimizing section 222, specifically, the adaptive code vector from ACB section 224 and the FCB section 225 force fixed.
  • a gain for the code vector that is, an adaptive codebook gain and a fixed codebook gain are generated.
  • the gain quantization unit 226 multiplies the generated adaptive codebook gain by the adaptive code vector input from the ACB unit 224, and similarly, the fixed codebook gain input from the FCB unit 225. And the multiplication result is input to the adder 227. Further, gain quantization section 226 inputs the gain parameter (sign key information) instructed from weighting error minimizing section 222 to packet key section 231.
  • the adaptive codebook gain and the fixed codebook gain may be separately scalar quantized, or may be vector quantized as a two-dimensional vector.
  • Adder 227 includes an adaptive code scale multiplied by adaptive codebook gain input from gain quantization section 226 and a fixed code scale multiplied by fixed codebook gain in the same manner. Addition is performed to generate an output excitation vector of high-frequency component code key unit 220, and the generated output excitation vector is input to adder 228. Furthermore, after the optimum output excitation vector is determined, adder 227 notifies ACB unit 224 of the optimum output excitation vector for feedback, and updates the contents of the adaptive codebook.
  • Adder 228 adds the linear prediction residual signal generated by low-frequency component waveform encoding section 210 and the output excitation vector generated by high-frequency component encoding section 220, and adds them.
  • the output sound source vector is input to the synthesis filter 229.
  • the synthesis filter 229 uses the quantized LPC input from the LPC encoding unit 202 to perform synthesis by the LPC synthesis filter using the output excitation vector input from the adder 228 as a driving excitation,
  • the synthesized signal is input to the adder 221.
  • the packet key unit 231 includes quantization LPC code key information input from the LPC code key unit 202, scaling coefficient encoding information input from the low frequency component waveform encoding unit 210, and normalization.
  • the sound source signal low-frequency component coding information is classified into low-frequency component coding information, and the fixed code code information and gain meter code information inputted from the high-frequency component code key unit 220 are also classified.
  • the information is classified into high-frequency component code information, and the low-frequency component code information and the high-frequency component code information are individually packetized and wirelessly transmitted to the transmission path.
  • the knotting unit 231 wirelessly transmits a packet including the low-frequency component code key information to a transmission path subjected to QoS (Quality of Service) control or the like.
  • QoS Quality of Service
  • FIG. 3 is a block diagram showing a configuration of speech decoding apparatus 300 according to the present embodiment.
  • the speech decoding apparatus 300 includes an LPC decoding unit 301, a low-frequency component waveform decoding unit 310, a high-frequency component decoding unit 320, a packet separation unit 331, an adder 341, a synthesis filter 342, and a post-processing unit 343.
  • the packet separation unit 331 in the speech decoding apparatus 300 is a wireless communication unit.
  • the LPC decoding unit 301, the low frequency component waveform decoding unit 310, the high frequency component decoding unit 320, the adder 341, and the synthesis filter 342 are part of the received signal processing unit 154 in the device 150.
  • the post-processing unit 343 constitutes a part of the speech decoding unit 155 and a part of the DZA transformation 156.
  • the low-frequency component waveform decoding unit 310 includes a scalar decoding unit 311, a scaling unit 312, and an 8 ⁇ U unit 313.
  • the high frequency component decoding unit 320 includes a pitch analysis unit 321, an ACB unit 322, an FCB unit 323, a gain decoding unit 324, and an adder 325.
  • the packet separation unit 331 includes a packet including low frequency component code key information (quantized LPC code key information, scaling coefficient code key information, and normal key source signal low frequency component code key information). Packets including high-frequency component code information (fixed code vector code information and gain parameter code information) are respectively input, and the quantized LPC encoded information is input to the LPC decoding unit 301 and the scaling coefficient encoded information. The normalized excitation signal low frequency component coding information is input to the low frequency component waveform decoding unit 310, and the fixed code vector code key information and the gain parameter coding information are input to the high frequency component decoding unit 320, respectively.
  • low frequency component code key information quantized LPC code key information, scaling coefficient code key information, and normal key source signal low frequency component code key information
  • Packets including high-frequency component code information fixed code vector code information and gain parameter code information
  • the normalized excitation signal low frequency component coding information is input to the low frequency component waveform decoding unit 310, and the fixed code vector code key information and the gain parameter
  • packets including low-frequency component coding information are received via a line that is unlikely to cause transmission path errors or loss due to QoS control or the like. Therefore, an input line to the packet separation unit 331 is not provided.
  • the packet separation unit 331 is a component that decodes the code information that should have been included in the lost packet, that is, the LPC decoding unit 301, the low frequency component waveform decoding unit, Notify either 310 or high-frequency component decoding section 320 that packet loss has occurred. Then, the configuration unit that has received the packet loss notification from the packet separation unit 331 performs decoding processing by concealment processing.
  • the LPC decoding unit 301 decodes the quantized LPC code information input from the packet separation unit 331 and inputs the decoded LPC to the synthesis filter 342.
  • the scalar decoding unit 311 decodes the normal ⁇ excitation signal low-frequency component encoding information input from the packet separation unit 331, and inputs the decoded excitation signal low-frequency component to the scaling unit 312.
  • the scaling unit 312 decodes the scaling coefficient from the scaling coefficient code input information input from the packet separation unit 331, and the normalization input from the scalar decoding unit 311.
  • the decoded excitation signal (linear prediction residual signal) is generated by multiplying the low-frequency component of the generalized excitation signal by the post-decoding scaling factor, and the generated decoded excitation signal is input 8 times to the US unit 313. To do.
  • the 8-times US unit 313 upsamples the decoded excitation signal input from the scaling unit 312 by 8 times to obtain a sampling signal having a sampling frequency of 8 kHz, and the sampling signal is added to the pitch analysis unit 321 and an adder. And enter 341 and 341 respectively.
  • Pitch analysis section 321 calculates the pitch lag of the sampling signal input from 8-times US section 313, and inputs the calculated pitch lag to ACB section 322.
  • the pitch analysis unit 321 can calculate the pitch lag by a general method using a normal autocorrelation function, for example.
  • ACB unit 322 is a buffer for the decoded excitation signal, generates an adaptive code vector based on the pitch lag input from pitch analysis unit 321, and generates the generated adaptive code vector to gain decoding unit 324. input.
  • FCB section 323 generates a fixed code vector based on the high frequency component code key information (fixed code vector coding information) input from packet separation section 331, and performs gain decoding on the generated fixed code vector Input to part 324.
  • Gain decoding section 324 decodes the adaptive codebook gain and fixed codebook gain using the high frequency component coding information (gain parameter code key information) input from packet separation section 331, The decoded adaptive codebook gain is multiplied by the adaptive code vector input from the ACB unit 322, and the fixed codebook gain similarly decoded is multiplied by the fixed code vector input from the FCB unit 323. The multiplication result is input to adder 325.
  • Adder 325 adds the two multiplication results input from gain decoding section 324, and inputs the addition result to adder 341 as the output excitation vector of high-frequency component decoding section 320. . Further, Calo arithmetic unit 325 notifies ACB unit 322 of the output sound source vector for feedback, and updates the contents of the adaptive codebook.
  • Adder 341 adds the sampling signal input from low-frequency component waveform decoding section 310 and the output excitation vector input from high-frequency component decoding section 320, and the result of the addition is added. Input to synthesis filter 342.
  • the synthesis filter 342 is a linear prediction filter configured using the LPC input from the LPC decoding unit 301, and drives the linear prediction filter with the addition result input from the adder 341. Speech synthesis is performed, and the synthesized speech signal is input to the post-processing unit 343.
  • the post-processing unit 343 performs processing for improving the subjective quality of the signal generated by the synthesis filter 342, such as post filtering, background noise suppression processing, or background noise subjective quality improvement processing.
  • the sound signal generation means according to the present invention is configured by the adder 341, the synthesis filter 342, and the post-processing unit 343.
  • FIG. 4 shows an aspect in which speech coding apparatus 200 generates low-frequency component encoded information and high-frequency component encoded information from a speech signal.
  • the low-frequency component waveform encoding unit 210 extracts a low-frequency component by down-sampling the audio signal or the like, and encodes the extracted low-frequency component to generate low-frequency component encoded information. The Then, speech coding apparatus 200 wirelessly transmits the generated low-frequency component code key information after bit stream key, packetization, modulation processing, and the like.
  • the low-frequency component waveform coding unit 210 generates and quantizes the linear prediction residual signal (sound source waveform) of the low-frequency component of the speech signal, and increases the quantized linear prediction residual signal. This is input to the band component encoding unit 220.
  • the high-frequency component encoding unit 220 has a high-frequency component encoding unit that minimizes an error between the synthesized signal generated based on the quantized linear prediction residual signal and the input speech signal. ⁇ Generate information. Speech coding apparatus 200 then wirelessly transmits the generated high-frequency component code information after bitstreaming, packetization, modulation processing, and the like.
  • FIG. 5 shows a manner in which speech signal is reproduced from low-frequency component code information and high-frequency component code information received via the transmission path in speech decoding apparatus 300.
  • the low frequency component waveform decoding unit 310 generates low frequency components of the speech signal by decoding the low frequency component coding information, and inputs the generated low frequency components to the high frequency component decoding unit 320.
  • the high frequency component decoding unit 320 generates the high frequency component of the audio signal by decoding the enhancement layer code information, and generates the generated high frequency component.
  • An audio signal for reproduction is generated by adding the low frequency component input from the low frequency component waveform decoding unit 310 with the low frequency component.
  • a low frequency component (for example, a low frequency component of less than 5 OOHz) of an audio signal that is important for hearing is encoded by a waveform encoding method that does not use inter-frame prediction. Since the other high frequency components are encoded and encoded by the CELP method using the interframe prediction, that is, the CELP method using the ACB unit 224 and the FCB unit 225, the low frequency components of the audio signal Therefore, concealment processing by interpolation (interpolation) using normal frames before and after the lost frame becomes possible, and error tolerance for the low-frequency component is increased.
  • the inter-frame prediction is to predict the content of the past frame as well as the content of the current or future frame.
  • the waveform encoding method is applied to the low frequency component of the audio signal, the data amount of the audio data generated by encoding the audio signal is suppressed to the necessary minimum. be able to.
  • the adaptation in high frequency component code key unit 220 is performed. It is possible to calculate the pitch lag information of the codebook using the low-frequency component of the excitation signal decoded from the low-frequency component code information power. Due to this feature, according to the present embodiment, the high-frequency component code key unit 220 is adapted even if the high-frequency component code key unit 220 does not code the pitch lag information as the high-frequency component code key information.
  • the audio signal can be encoded using a codebook.
  • the high frequency component encoding unit 220 has the low frequency component code code
  • the pitch lag information can be efficiently quantized with a small number of bits by using the pitch lag information for which the decoding signal power of the heel information is also calculated.
  • low-frequency component encoded information and high-frequency component encoded information are wirelessly transmitted in separate packets, so that higher-frequency components than packets including low-frequency component code information are transmitted. If priority control is performed to discard packets that contain sign key information first, error tolerance of audio signals Can be further improved.
  • the low-frequency component waveform code unit 210 uses the waveform coding method as a code method that does not use inter-frame prediction
  • the high-frequency component code code unit 220 uses inter-frame prediction.
  • the case where the CELP method using the ACB unit 224 and the FCB unit 225 is used as the code method using the measurement has been described, but the present invention is not limited to this case.
  • the key unit 210 uses the code key method in the frequency domain as a code key method that does not use inter-frame prediction
  • the high frequency component code key unit 220 uses a vocoder as a coding method that uses inter-frame prediction. Or use the method.
  • the case where the upper limit frequency of the low frequency component is about 500 Hz to about LkHz has been described as an example.
  • the present invention is not limited to this case, and the entire frequency band to be encoded is not limited thereto.
  • Set the upper frequency limit of the low frequency component to a value higher than 1kHz according to the width and line speed of the transmission line.
  • the upper frequency limit of the low frequency component in low frequency component waveform encoding section 210 is about 500 Hz to about LkHz
  • down-sampling in 1Z8DS section 212 is set to 1/8.
  • the present invention is not limited to this case.
  • the 1Z8DS unit 212 is configured so that the upper frequency limit of the low frequency component encoded by the low frequency component waveform encoding unit 210 becomes the Nyquist frequency.
  • a downsampling factor in may be set. The same applies to the magnification in the 8-times US section 215.
  • low-frequency component encoded information and high-frequency component encoded information are transmitted and received in separate packets
  • the present invention is limited to this case.
  • the low-frequency component code information and the high-frequency component code information may be transmitted and received in one packet.
  • the effect of QoS control by the scalable code cannot be obtained, the effect of preventing error propagation is achieved for the low-frequency component, and high-quality frame erasure concealment processing is also possible.
  • a band less than a predetermined frequency in an audio signal is a low-frequency component and a band exceeding the frequency is a high-frequency component.
  • the low frequency component of the audio signal is at least It may have a band less than a predetermined frequency, and its high frequency component may have a band exceeding at least the frequency. That is, in the present invention, the frequency band of the low frequency component of the audio signal and the frequency band of the high frequency component may overlap each other.
  • the pitch lag in which the sound source waveform force generated by the low frequency component waveform encoding unit 210 is also used in the high frequency component encoding unit 220 is used as it is.
  • the present invention is not limited to this case.
  • the high-frequency component code key unit 220 has a pitch lag calculated from the sound source waveform curve generated by the low-frequency component waveform code key unit 210.
  • the adaptive codebook is re-searched in the vicinity, error information between the pitch lag obtained by this re-search and the pitch lag calculated by the signal waveform force is generated, and the generated error information is also encoded and wirelessly encoded. Send it to me ⁇ .
  • FIG. 6 is a block diagram showing a configuration of speech coding apparatus 600 according to this modification.
  • the same reference numerals are assigned to components that perform the same functions as the components of the speech encoding apparatus 200 shown in FIG.
  • the weighting error minimizing unit 622 re-searches the ACB unit 624 in the high-frequency component code key unit 620, and then the ACB unit 624 performs the pitch lag and low-frequency component waveform obtained by this re-search.
  • the sound source waveform force generated by the sign key unit 210 generates error information with respect to the calculated pitch lag, and inputs the generated error information to the packetizing unit 631.
  • the packet key unit 631 also packetizes this error information as a part of the high frequency component code key information and wirelessly transmits it.
  • the fixed codebook used in the present embodiment is sometimes called a noise codebook, a probability codebook, or a random codebook.
  • the fixed codebook used in the present embodiment is sometimes called a fixed excitation codebook, and the adaptive codebook is sometimes called an adaptive excitation codebook.
  • LSF Line Spectral Frequency
  • LSF Line Spectral Frequency
  • LSF Line Spectral Frequency
  • ISP Immittance Spectrum Pairs
  • the power described by taking the case where the present invention is configured as nodeware as an example can be realized by software.
  • the algorithm of the speech encoding method according to the present invention is described in a programming language, the program is stored in a memory, and is executed by an information processing means, whereby the speech encoding device according to the present invention is Similar functions can be realized.
  • Each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip to include some or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI super LSI
  • monolithic LSI monolithic LSI
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. You may use an FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI.
  • FPGA Field Programmable Gate Array
  • the speech coding apparatus has the effect of improving error tolerance without increasing the number of bits in a fixed codebook in CELP speech coding, and a mobile radio communication system It is useful as a wireless communication device and the like.

Abstract

 CELP型音声符号化において、固定符号帳のビット数を増大させることなく、フレーム消失誤り耐性を向上させることのできる音声符号化装置を開示する。この装置において、低域成分波形符号化部(210)は、LPC符号化部(202)から入力されてくる量子化LPCに基づいて、A/D変換器(112)から入力されてくるディジタル音声信号の線形予測残差信号を算出し、その算出結果に対してダウンサンプル処理を行なうことにより、音声信号における所定の周波数未満の帯域からなる低域成分を抽出し、抽出した低域成分を波形符号化して低域成分符号化情報を生成する。そして、低域成分波形符号化部(210)は、この低域成分符号化情報をパケット化部(231)に入力するとともに、この波形符号化によって生成した量子化された低域成分波形符号化信号(音源波形)を高域成分符号化部(220)に入力する。

Description

明 細 書
音声符号化装置、音声復号化装置、通信装置及び音声符号化方法 技術分野
[0001] 本発明は、スケーラブル符号化技術を利用する音声符号化装置、音声復号化装 置、通信装置及び音声符号化方法に関する。
背景技術
[0002] 従来、移動体無線通信システム等では、音声通信用の符号化方式として CELP (C ode Excited Linear Prediction)方式力 音声信号を比較的低いビットレート(電話帯 域音声であれば 8kbit/s程度)で高品質に符号ィ匕できることから、広く用いられている 。一方で、近年 IP (Internet Protocol)網を使用した音声通信(VoIP : Voice over IP) が急速に普及してきており、移動体無線通信システムでは、今後 VoIPの技術が広く 用いられるようになると予測されて 、る。
[0003] IP通信に代表されるパケット通信では、伝送路上でパケット破棄が生じることがある ため、音声符号ィ匕方式としてはフレーム消失耐性の高い方式が好ましい。ここで、 C ELP方式は、過去に量子化した音源信号のノ ッファである適応符号帳を用いて現在 の音声信号を符号化するため、伝送路誤りが一旦生じると、符号器側 (送信側)と復 号器側 (受信側)の適応符号帳の内容が一致しなくなることから、その伝送路誤りが 生じたフレームのみならず伝送路誤りが生じな力つた後続の正常フレームにもその誤 りの影響が伝播する。このため、 CELP方式は、フレーム消失耐性が高い方式とは言 えない。
[0004] フレーム消失耐性を高める方法として、例えばパケットやフレームの一部が消失し ても他のパケットやフレームの一部を利用して復号を行う方法が知られている。スケ ーラブル符号ィ匕 (ェンベデッド符号ィ匕又は階層符号ィ匕とも言う)は、そのような方法を 実現する技術の一つである。スケーラブル符号ィ匕方式で符号化された情報は、コア レイヤ符号ィ匕情報と拡張レイヤ符号ィ匕情報とから成る。スケーラブル符号ィ匕方式で 符号化された情報を受信した復号ィ匕装置は、拡張レイヤ符号ィ匕情報がなくてもコア レイヤ符号化情報のみから音声再生に最低限必要な音声信号を復号することができ る。
[0005] スケーラブル符号ィ匕の一例として、符号ィ匕対象信号の周波数帯域にスケーラビリテ ィを持つものがある(例えば特許文献 1参照)。特許文献 1に記載された技術では、ダ ゥンサンプルした後の入力信号を第 1の CELP符号ィ匕回路で符号ィ匕し、その符号ィ匕 結果を用いて第 2の CELP符号ィ匕回路でその入力信号を符号ィ匕する。この特許文献 1に記載された技術によれば、符号ィ匕レイヤ数を増やしてビットレートを増すことにより 、信号帯域を拡げて再生音声品質を向上させることができ、また拡張レイヤ符号ィ匕情 報がなくても狭い信号帯域の音声信号をエラーフリーの状態で復号して音声として 再生することができる。
特許文献 1:特開平 11― 30997号公報
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、特許文献 1に記載された技術では、コアレイヤ符号化情報が適応符 号帳を利用した CELP方式で生成されるため、コアレイヤ符号ィヒ情報の消失に対す る誤り耐性は高 ヽとは言えな 、。
[0007] ここで、 CELP方式にぉ 、て適応符号帳を用いなければ、音声信号の符号化が符 号化器内のメモリ(記憶)に依存しなくなるため、誤り伝播がなくなり、音声信号の誤り 耐性が高まる。ところが、 CELP方式において適応符号帳を用いなければ、固定符 号帳のみで音声信号を量子化することになるため、一般に再生音声の品質が劣化 する。また、固定符号帳のみを用いて再生音声を高品質ィ匕するには、固定符号帳に 多くのビット数が必要となり、さらに符号化された音声データは高いビットレートを必要 とする。
[0008] よって、本発明の目的は、固定符号帳のビット数を増大させることなぐフレーム消 失誤り耐性を向上させることのできる音声符号ィ匕装置等を提供することである。
課題を解決するための手段
[0009] 本発明に係る音声符号化装置は、音声信号における少なくとも所定の周波数未満 の帯域を有する低域成分をフレーム間予測を用いることなく符号化して低域成分符 号化情報を生成する低域成分符号化手段と、前記音声信号における少なくとも前記 所定の周波数を超える帯域を有する高域成分をフレーム間予測を用いて符号ィ匕して 高域成分符号化情報を生成する高域成分符号化手段と、を具備する構成を採る。 発明の効果
[0010] 本発明によれば、聴覚上重要な音声信号の低域成分 (例えば 500Hz未満の低周 波成分)がメモリ (記憶)に依存しない符号ィ匕方式即ちフレーム間の予測を利用しな Vヽ方式例えば波形符号化方式や周波数領域での符号化方式で符号化され、かつ、 音声信号における高域成分が適応符号帳と固定符号帳とを用いる CELP方式で符 号化されるため、音声信号の低域成分について、誤り伝播がなくなり、かつ、消失フ レームの前後の正常フレームを用いた内挿 (補間)による隠蔽処理も可能となることか ら、その低域成分についての誤り耐性が高くなる。その結果、本発明によれば、音声 復号化装置を具備する通信装置によって再生される音声の品質を確実に向上させ ることがでさる。
[0011] また、本発明によれば、波形符号ィ匕等のフレーム間予測を用いない符号ィ匕方式が 音声信号の低域成分に適用されるため、音声信号の符号ィ匕によって生成される音声 データのデータ量を必要最小限に抑制することができる。
[0012] また、本発明によれば、音声の基本周波数 (ピッチ)を必ず含むように音声信号の 低域成分の周波数帯域が設定されるため、高域成分符号ィ匕手段における適応符号 帳のピッチラグ情報を低域成分符号ィ匕情報力ゝら復号される音源信号低域成分を用 いて算出することが可能となる。この特徴により、本発明によれば、高域成分符号ィ匕 手段が高域成分符号ィ匕情報としてピッチラグ情報を符号ィ匕及び伝送しなくても、高 域成分符号ィ匕手段は、適応符号帳を用いて音声信号の高域成分を符号ィ匕すること ができる。また、本発明によれば、高域成分符号化手段が高域成分符号化情報とし てピッチラグ情報を符号化して伝送する場合でも、高域成分符号化手段は、低域成 分符号ィ匕情報の復号信号力も算出されるピッチラグ情報を利用することで、少ないビ ット数で効率的にピッチラグ情報を量子化することができる。
図面の簡単な説明
[0013] [図 1]本発明の一実施の形態における音声信号伝送システムの構成を示すブロック 図 [図 2]本発明の一実施の形態に係る音声符号ィ匕装置の構成を示すブロック図
[図 3]本発明の一実施の形態に係る音声復号ィ匕装置の構成を示すブロック図
[図 4]本発明の一実施の形態に係る音声符号化装置の動作を示す図
[図 5]本発明の一実施の形態に係る音声復号化装置の動作を示す図
[図 6]音声符号ィ匕装置の変形例の構成を示すブロック図
発明を実施するための最良の形態
[0014] 以下、本発明の一実施の形態について、図を適宜参照しながら詳細に説明する。
[0015] 図 1は、本発明の一実施の形態に係る音声符号化装置を具備する無線通信装置 1 10と、本実施の形態に係る音声復号化装置を具備する無線通信装置 150と、を含 む音声信号伝送システムの構成を示すブロック図である。なお、無線通信装置 110と 無線通信装置 150とは共に、携帯電話等の移動体通信システムにおける無線通信 装置であり、図示しない基地局装置を介して無線信号を送受信する。
[0016] 無線通信装置 110は、音声入力部 111、アナログ Zディジタル (AZD)変換器 11 2、音声符号化部 113、送信信号処理部 114、無線周波数 (Radio Frequency: RF) 変調部 115、無線送信部 116及びアンテナ素子 117を具備する。
[0017] 音声入力部 111は、マイクロフォン等で構成され、音声を電気信号であるアナログ 音声信号に変換し、生成した音声信号を AZD変換器 112に入力する。
[0018] AZD変 l l2は、音声入力部 111から入力されてくるアナログ音声信号をディ ジタル音声信号に変換し、そのディジタル音声信号を音声符号ィ匕部 113に入力する
[0019] 音声符号ィ匕部 113は、 AZD変翻112から入力されてくるディジタル音声信号を 符号化して音声符号化ビット列を生成し、生成した音声符号化ビット列を送信信号処 理部 114に入力する。なお、音声符号ィ匕部 113の動作及び機能については、後に 詳述する。
[0020] 送信信号処理部 114は、音声符号化部 113から入力されてくる音声符号化ビット 列にチャネル符号化処理、パケット化処理及び送信バッファ処理等を行った後、その 処理後の音声符号ィ匕ビット列を RF変調部 115に入力する。
[0021] RF変調部 115は、送信信号処理部 114から入力されてくる音声符号ィ匕ビット列を 既定の方式で変調して、その変調後の音声符号ィ匕信号を無線送信部 116に入力す る。
[0022] 無線送信部 116は、周波数変換器や低雑音アンプ等を備え、 RF変調部 115から 入力されてくる音声符号ィ匕信号を所定周波数の搬送波に変換して、その搬送波を所 定の出力でアンテナ素子 117を介して無線送信する。
[0023] なお、無線通信装置 110においては、 AZD変換器 112によって生成されるデイジ タル音声信号に対して、 AZD変換後の各種信号処理が数十 msのフレーム単位で 実行される。また、音声信号伝送システムの構成要素である図示しないネットワーク がパケット網である場合には、送信信号処理部 114は、 1フレーム分又は数フレーム 分の音声符号ィ匕ビット列から 1つのパケットを生成する。なお、前記ネットワークが回 線交換網である場合には、送信信号処理部 114は、パケット化処理や送信バッファ 処理を行う必要はない。
[0024] 一方、無線通信装置 150は、アンテナ素子 151、無線受信部 152、 RF復調部 153
、受信信号処理部 154、音声復号化部 155、ディジタル Zアナログ (DZA)変換器 1
56及び音声再生部 157を具備する。
[0025] 無線受信部 152は、バンドパスフィルタや低雑音アンプ等を備え、アンテナ素子 15
1で捕捉した無線信号力 アナログの電気信号である受信音声信号を生成し、生成 した受信音声信号を RF復調部 153に入力する。
[0026] RF復調部 153は、無線受信部 152から入力されてくる受信音声信号を RF変調部
115における変調方式に対応する復調方式で復調して受信音声符号化信号を生成 し、生成した受信音声符号化信号を受信信号処理部 154に入力する。
[0027] 受信信号処理部 154は、 RF復調部 153から入力されてくる受信音声符号ィ匕信号 に対して、ジッタ吸収バッファリング処理、パケット分解処理及びチャネル復号化処理 等を施して受信音声符号ィ匕ビット列を生成し、生成した受信音声符号ィ匕ビット列を音 声復号ィ匕部 155に入力する。
[0028] 音声復号ィ匕部 155は、受信信号処理部 154から入力されてくる受信音声符号ィ匕ビ ット列の復号化処理を行ってディジタル復号音声信号を生成し、生成したディジタル 復号音声信号を DZA変換器 156に入力する。 [0029] DZA変翻156は、音声復号ィ匕部 155から入力されてくるディジタル復号音声信 号をアナログ復号音声信号に変換し、変換後のアナログ復号音声信号を音声再生 部 157に入力する。
[0030] 音声再生部 157は、 DZA変翻156から入力されてくるアナログ復号音声信号を 空気の振動に変換して音波として人間の耳に聞こえる様に出力する。
[0031] 図 2は、本実施の形態に係る音声符号ィ匕装置 200の構成を示すブロック図である。
音声符号化装置 200は、線形予測符号ィ匕 (Linear Predictive Coding: LPC)分析部 201、 LPC符号化部 202、低域成分波形符号化部 210、高域成分符号化部 220及 びパケットィ匕部 231を具備する。
[0032] なお、音声符号ィ匕装置 200における LPC分析部 201、 LPC符号ィ匕部 202、低域 成分波形符号化部 210及び高域成分符号化部 220は、無線通信装置 110における 音声符号ィ匕部 113を構成し、またパケットィ匕部 231は、無線通信装置 110における 送信信号処理部 114の一部である。
[0033] また、低域成分波形符号化部 210は、線形予測逆フィルタ 211、 1/8ダウンサンプ ル(DS)部 212、スケーリング部 213、スカラ量子化部 214及び 8倍アップサンプル( US)部 215を具備する。さらに、高域成分符号化部 220は、加算器 221、 227、 228 、重み付け誤差最小化部 222、ピッチ分析部 223、適応符号帳 (ACB)部 224、固 定符号帳 (FCB)部 225、利得量子化部 226及び合成フィルタ 229を具備する。
[0034] LPC分析部 201は、 AZD変翻112から入力されてくるディジタル音声信号に対 して線形予測分析を施し、分析結果である LPCパラメータ (線形予測係数又は LPC 係数)を LPC符号ィ匕部 202に入力する。
[0035] LPC符号ィ匕部 202は、 LPC分析部 201から入力されてくる LPCパラメータを符号 化して量子化 LPCを生成し、量子化 LPCの符号ィ匕情報をパケットィ匕部 231に入力 するとともに、生成した量子化 LPCを線形予測逆フィルタ 211と合成フィルタ 229とに それぞれ入力する。なお、 LPC符号ィ匕部 202は、例えば LPCパラメータをー且 LSP ノ メータなどに変換し、その変換後の LSPパラメータをベクトル量子化等することに よって LPCパラメータを符号ィ匕する。
[0036] 低域成分波形符号化部 210は、 LPC符号ィ匕部 202から入力されてくる量子化 LP Cに基づいて、 AZD変 12から入力されてくるディジタル音声信号の線形予測 残差信号を算出し、その算出結果に対してダウンサンプル処理を行なうことにより、 音声信号における所定の周波数未満の帯域力 なる低域成分を抽出し、抽出した低 域成分を波形符号化して低域成分符号化情報を生成する。そして、低域成分波形 符号ィ匕部 210は、この低域成分符号化情報をパケット化部 231に入力するとともに、 この波形符号化によって生成した量子化された低域成分波形符号化信号 (音源波 形)を高域成分符号化部 220に入力する。低域成分波形符号化部 210によって生 成される低域成分波形符号化情報は、スケーラブル符号ィ匕による符号ィ匕情報におけ るコアレイヤ符号ィ匕情報を構成する。なお、この低域成分の上限周波数は、 500Hz
〜lkHz程度が好ましい。
[0037] 線形予測逆フィルタ 211は、 LPC符号ィ匕部 202から入力されてくる量子化 LPCを 用いて(1)式で表される信号処理をディジタル音声信号に施すデジタルフィルタであ り、(1)式で表される信号処理によって線形予測残差信号を算出し、算出した線形予 測残差信号を 1Z8DS部 212に入力する。なお、(1)式において、 X (n)は線形予測 逆フィルタの入力信号列、 Y (n)は線形予測逆フィルタの出力信号列、 ex (i)は i次の 量子化 LPCである。
Figure imgf000009_0001
[0038] 1Z8DS部 212は、線形予測逆フィルタ 21 1から入力されてくる線形予測残差信号 に対して 8分の 1のダウンサンプルを行い、サンプリング周波数 1kHzのサンプリング 信号をスケーリング部 213に入力する。なお、本実施の形態では、ダウンサンプルに よって生じる遅延時間分の先読み信号 (実際に先読みしたデータを入れたり、ゼロ詰 としたりする)を用いる等により、 1Z8DS部 212又は後述する 8倍 US部 215におい て遅延が生じないものとする。ちなみに、 1Z8DS部 212又は 8倍 US部 215におい て遅延が生じる場合には、後述する加算器 228でのマッチングがうまくいくように、後 述する加算器 227において出力音源ベクトルを遅延させる。
[0039] スケーリング部 213は、 1Z8DS部 212から入力されてくるサンプリング信号 (線形 予測残差信号)における 1フレーム中の最大振幅を有するサンプルを所定のビット数 でスカラ量子化し(例えば 8ビット μ則 ΖΑ則 PCM : Pulse Code Modulation:パルス符 号変調)、このスカラ量子化にっ 、ての符号ィ匕情報 (スケーリング係数符号ィ匕情報) をパケットィ匕部 231に入力する。また、スケーリング部 213は、スカラ量子化された最 大振幅値で 1フレーム分の線形予測残差信号をスケーリング (正規化)し、スケーリン グされた線形予測残差信号をスカラ量子化部 214に入力する。
[0040] スカラ量子化部 214は、スケーリング部 213から入力されてくる線形予測残差信号 をスカラ量子化し、このスカラ量子化についての符号ィ匕情報 (正規ィ匕音源信号低域 成分符号化情報)をパケット化部 231に入力するとともに、スカラ量子化された線形 予測残差信号を 8倍 US部 215に入力する。なお、スカラ量子化部 214は、このスカ ラ量子化において、例えば PCMや差動パルス符号変調(DPCM : Differential Pulse -Code Modulation)方式を適用する。
[0041] 8倍 US部 215は、スカラ量子化部 214から入力されてくるスカラ量子化された線形 予測残差信号を 8倍アップサンプルし、サンプリング周波数 8kHzの信号にした後に 、そのサンプリング信号 (線形予測残差信号)をピッチ分析部 223と加算器 228とに それぞれ入力する。
[0042] 高域成分符号化部 220は、低域成分波形符号化部 210によって符号化される音 声信号の低域成分以外の成分即ち音声信号における前記周波数を超える帯域から なる高域成分を CELP符号ィ匕して、高域成分符号化情報を生成する。そして、高域 成分符号化部 220は、生成した高域成分符号化情報を、パケット化部 231に入力す る。高域成分符号ィ匕部 220によって生成される高域成分符号ィ匕情報は、スケーラブ ル符号ィ匕による符号ィ匕情報における拡張レイヤ符号ィ匕情報を構成する。
[0043] 加算器 221は、 AZD変翻112から入力されてくるディジタル音声信号から、後 述する合成フィルタ 229から入力されてくる合成信号を減算することによって誤差信 号を算出し、算出した誤差信号を重み付け誤差最小化部 222に入力する。なお、加 算器 221によって算出される誤差信号は、符号ィ匕歪みに相当する。
[0044] 重み付け誤差最小化部 222は、加算器 221から入力されてくる誤差信号に対して 、聴感 (聴覚)重み付けフィルタを用いてその誤差が最小となるように FCB部 225と利 得量子化部 226とにおける符号化パラメータを決定し、その決定した符号ィ匕パラメ一 タを FCB部 225と利得量子化部 226とにそれぞれ指示する。また、重み付け誤差最 小化部 222は、聴覚重み付けフィルタのフィルタ係数を、 LPC分析部 201で分析さ れた LPCパラメータに基づいて算出する。
[0045] ピッチ分析部 223は、 8倍 US部 215から入力されてくるアップサンプルされたスカラ 量子化後の線形予測残差信号 (音源波形)のピッチラグ (ピッチ周期)を算出し、算出 したピッチラグを ACB部 224に入力する。即ち、ピッチ分析部 223は、現在及び過去 にスカラ量子化された低域成分の線形予測残差信号 (音源波形)を用いて現在のピ ツチラグを探索する。なお、ピッチ分析部 223は、例えば正規ィ匕自己相関関数を用 いた一般的な方法により、ピッチラグの算出を行うことができる。ちなみに、女声の高 V、ピッチは 400Hz程度である。
[0046] ACB部 224は、内蔵するバッファに後述する加算器 227から入力されてくる過去に 生成された出力音源ベクトルを記憶しており、ピッチ分析部 223から入力されてくるピ ツチラグに基づ 、て適応符号ベクトルを生成し、生成した適応符号ベクトルを利得量 子化部 226に入力する。
[0047] FCB部 225は、重み付け誤差最小化部 222から指示された符号ィ匕パラメータに対 応する音源ベクトルを、固定符号ベクトルとして利得量子化部 226に入力する。また 、 FCB部 225は、この固定符号ベクトルを表す符号をパケットィ匕部 231に入力する。
[0048] 利得量子化部 226は、重み付け誤差最小化部 222から指示された符号ィ匕パラメ一 タに対応するゲイン、具体的には ACB部 224からの適応符号ベクトルと FCB部 225 力 の固定符号ベクトルとに対するゲイン即ち適応符号帳ゲインと固定符号帳ゲイン とを生成する。そして、利得量子化部 226は、生成した適応符号帳ゲインを ACB部 2 24から入力されてくる適応符号ベクトルに乗じ、同様に固定符号帳ゲインを FCB部 2 25から入力されてくる固定符号ベクトルに乗じて、それらの乗算結果を加算器 227に 入力する。また、利得量子化部 226は、重み付け誤差最小化部 222から指示された ゲインパラメータ (符号ィ匕情報)をパケットィ匕部 231に入力する。なお、適応符号帳ゲ インと固定符号帳ゲインとは、別々にスカラ量子化されてもよいし、 2次元ベクトルとし てベクトル量子化されてもよい。ちなみに、ディジタル音声信号のフレーム又はサブ フレーム間の予測を用いた符号ィ匕を行うと、その符号ィ匕効率が高まる。
[0049] 加算器 227は、利得量子化部 226から入力されてくる適応符号帳ゲインを乗じた適 応符号べ外ルと、同様に固定符号帳ゲインを乗じた固定符号べ外ルと、を加算して 、高域成分符号ィ匕部 220の出力音源ベクトルを生成し、生成した出力音源ベクトルを 加算器 228に入力する。さらに、加算器 227は、最適な出力音源ベクトルが決定され た後に、その最適な出力音源ベクトルをフィードバックのために ACB部 224に通知し て、適応符号帳の内容を更新する。
[0050] 加算器 228は、低域成分波形符号化部 210で生成される線形予測残差信号と、高 域成分符号化部 220で生成される出力音源ベクトルと、を加算し、その加算された出 力音源ベクトルを合成フィルタ 229に入力する。
[0051] 合成フィルタ 229は、 LPC符号化部 202から入力されてくる量子化 LPCを用いて、 加算器 228から入力されてくる出力音源ベクトルを駆動音源として LPC合成フィルタ による合成を行 、、その合成信号を加算器 221に入力する。
[0052] パケットィ匕部 231は、 LPC符号ィ匕部 202から入力されてくる量子化 LPCの符号ィ匕 情報と低域成分波形符号化部 210から入力されてくるスケーリング係数符号化情報 及び正規化音源信号低域成分符号化情報とを低域成分符号化情報に分類し、また 高域成分符号ィ匕部 220から入力されてくる固定符号べ外ル符号ィ匕情報及びゲイン ノ メータ符号ィ匕情報を高域成分符号ィ匕情報に分類して、この低域成分符号化情 報と高域成分符号ィ匕情報とを個別にパケットィ匕して伝送路に無線送信する。ノケット 化部 231は、特に低域成分符号ィ匕情報を含むパケットについては、 QoS (Quality of Service)制御等のなされた伝送路へ無線送信する。なお、パケットィ匕部 231は、低域 成分符号化情報を QoS制御等のなされた伝送路へ無線送信する代わりに、強 ヽ誤 り保護をかけるようなチャネル符号ィ匕を適用して伝送路へ無線送信するようにしても よい。
[0053] 図 3は、本実施の形態に係る音声復号ィ匕装置 300の構成を示すブロック図である。
音声復号化装置 300は、 LPC復号部 301、低域成分波形復号化部 310、高域成分 復号化部 320、パケット分離部 331、加算器 341、合成フィルタ 342及び後処理部 3 43を具備する。なお、音声復号ィ匕装置 300におけるパケット分離部 331は無線通信 装置 150における受信信号処理部 154の一部であり、また LPC復号部 301、低域成 分波形復号化部 310、高域成分復号化部 320、加算器 341及び合成フィルタ 342 は音声復号ィ匕部 155の一部を構成し、また後処理部 343は音声復号ィ匕部 155の一 部と DZA変翻 156の一部とを構成する。
[0054] 低域成分波形復号化部 310は、スカラ復号部 311、スケーリング部 312及び 8倍 U S部 313を具備する。また、高域成分復号化部 320は、ピッチ分析部 321、 ACB部 3 22、 FCB部 323、利得復号部 324及び加算器 325を具備する。
[0055] パケット分離部 331は、低域成分符号ィ匕情報 (量子化 LPC符号ィ匕情報、スケーリン グ係数符号ィ匕情報及び正規ィ匕音源信号低域成分符号ィ匕情報)を含むパケットと高 域成分符号ィ匕情報(固定符号ベクトル符号ィ匕情報及びゲインパラメータ符号ィ匕情報 )を含むパケットとをそれぞれ入力され、量子化 LPC符号化情報を LPC復号部 301 に、スケーリング係数符号化情報及び正規化音源信号低域成分符号化情報を低域 成分波形復号化部 310に、固定符号ベクトル符号ィ匕情報及びゲインパラメータ符号 化情報を高域成分復号化部 320にそれぞれ入力する。なお、本実施の形態では、 低域成分符号化情報を含むパケットは QoS制御等によって伝送路誤りや消失が起こ り難い回線を経由して受信されるため、パケット分離部 331への入力線が 2本となつ ている。なお、パケット分離部 331は、パケット消失が検出された場合には、その消失 パケットに含まれていたはずの符号ィ匕情報を復号する構成部即ち LPC復号部 301、 低域成分波形復号化部 310又は高域成分復号化部 320のいずれかに対して、パケ ット消失があったことを通知する。そして、パケット分離部 331からこのパケット消失の 通知を受けた構成部は、隠蔽処理による復号処理を行う。
[0056] LPC復号部 301は、パケット分離部 331から入力されてくる量子化 LPCの符号ィ匕 情報を復号し、復号後の LPCを合成フィルタ 342に入力する。
[0057] スカラ復号部 311は、パケット分離部 331から入力されてくる正規ィ匕音源信号低域 成分符号化情報を復号し、復号後の音源信号低域成分をスケーリング部 312に入 力する。
[0058] スケーリング部 312は、パケット分離部 331から入力されてくるスケーリング係数符 号ィ匕情報からスケーリング係数を復号し、スカラ復号部 311から入力されてくる正規 化音源信号低域成分に復号後のスケーリング係数を乗じて、音声信号の低域成分 の復号音源信号 (線形予測残差信号)を生成し、生成した復号音源信号を 8倍 US部 313に入力する。
[0059] 8倍 US部 313は、スケーリング部 312から入力されてくる復号音源信号を 8倍アツ プサンプルし、サンプリング周波数 8kHzのサンプリング信号にして、そのサンプリン グ信号をピッチ分析部 321と加算器 341とにそれぞれ入力する。
[0060] ピッチ分析部 321は、 8倍 US部 313から入力されてくるサンプリング信号のピッチラ グを算出し、算出したピッチラグを ACB部 322に入力する。ピッチ分析部 321は、例 えば正規ィ匕自己相関関数を用いた一般的な方法により、ピッチラグの算出を行うこと ができる。
[0061] ACB部 322は、復号音源信号のバッファであり、ピッチ分析部 321から入力されて くるピッチラグに基づ ヽて適応符号ベクトルを生成し、生成した適応符号ベクトルを利 得復号部 324に入力する。
[0062] FCB部 323は、パケット分離部 331から入力されてくる高域成分符号ィ匕情報(固定 符号ベクトル符号化情報)に基づいて固定符号ベクトルを生成し、生成した固定符号 ベタトルを利得復号部 324に入力する。
[0063] 利得復号部 324は、パケット分離部 331から入力されてくる高域成分符号化情報( ゲインパラメータ符号ィ匕情報)を用いて適応符号帳ゲインと固定符号帳ゲインとを復 号し、復号した適応符号帳ゲインを ACB部 322から入力されてくる適応符号ベクトル に、同様に復号した固定符号帳ゲインを FCB部 323から入力されてくる固定符号べ タトルに、それぞれ乗じて、この 2つの乗算結果を加算器 325に入力する。
[0064] 加算器 325は、利得復号部 324から入力されてくる 2つの乗算結果を加算して、そ の加算結果を高域成分復号ィ匕部 320の出力音源ベクトルとして加算器 341に入力 する。さらに、カロ算器 325は、この出力音源ベクトルをフィードバックのために ACB部 322に通知して、適応符号帳の内容を更新する。
[0065] 加算器 341は、低域成分波形復号化部 310から入力されてくるサンプリング信号と 高域成分復号ィ匕部 320とから入力されてくる出力音源ベクトルとを加算し、その加算 結果を合成フィルタ 342に入力する。 [0066] 合成フィルタ 342は、 LPC復号部 301から入力される LPCを用いて構成される線 形予測フィルタであり、加算器 341から入力されてくる加算結果で前記線形予測フィ ルタを駆動して音声合成を行い、合成された音声信号を後処理部 343に入力する。
[0067] 後処理部 343は、合成フィルタ 342によって生成された信号に対して、その主観品 質を改善するための処理、例えばポストフィルタリング、背景雑音抑圧処理又は背景 雑音の主観品質改善処理等を施して最終的な音声信号を生成する。従って、本発 明に係る音声信号生成手段は、加算器 341、合成フィルタ 342及び後処理部 343で 構成されること〖こなる。
[0068] 次いで、本実施の形態に係る音声符号化装置 200及び音声復号化装置 300の動 作を図 4及び図 5を用いて説明する。
[0069] 図 4に、音声符号化装置 200において、音声信号から低域成分符号化情報と高域 成分符号化情報とが生成される態様を示す。
[0070] 低域成分波形符号ィ匕部 210は、音声信号をダウンサンプルするなどしてその低域 成分を抽出し、抽出した低域成分を波形符号化して低域成分符号化情報を生成す る。そして、音声符号化装置 200は、生成した低域成分符号ィ匕情報をビットストリーム ィ匕、パケット化及び変調処理等した後に無線送信する。また、低域成分波形符号ィ匕 部 210は、音声信号の低域成分について、その線形予測残差信号 (音源波形)を生 成して量子化し、量子化後の線形予測残差信号を高域成分符号化部 220に入力す る。
[0071] 高域成分符号ィ匕部 220は、量子化された線形予測残差信号に基づ ヽて生成した 合成信号と入力されてくる音声信号との誤差が最小となる高域成分符号ィ匕情報を生 成する。そして、音声符号化装置 200は、生成した高域成分符号ィ匕情報をビットストリ ーム化、パケット化及び変調処理等して無線送信する。
[0072] 図 5に、音声復号化装置 300において、伝送路を経由して受信された低域成分符 号ィ匕情報と高域成分符号ィ匕情報とから音声信号が再生される態様を示す。低域成 分波形復号化部 310は、低域成分符号化情報を復号して音声信号の低域成分を生 成し、生成した低域成分を高域成分復号化部 320に入力する。高域成分復号化部 3 20は、拡張レイヤ符号ィ匕情報を復号して音声信号の高域成分を生成し、生成した高 域成分と低域成分波形復号化部 310から入力されてくる低域成分と足し合わせるこ とにより、再生用の音声信号を生成する。
[0073] このように、本実施の形態によれば、聴覚上重要な音声信号の低域成分 (例えば 5 OOHz未満の低周波数成分)がフレーム間予測を利用しな ヽ波形符号化方式で符 号化され、かつ、その他の高域成分がフレーム間予測を利用する符号ィ匕方式即ち A CB部 224と FCB部 225とを用いる CELP方式で符号ィ匕されるため、音声信号の低 域成分について、誤り伝播がなくなり、かつ、消失フレームの前後の正常フレームを 用いた内挿 (補間)による隠蔽処理も可能となることから、その低域成分についての 誤り耐性が高くなる。その結果、本実施の形態によれば、音声復号化装置 300を具 備する無線通信装置 150によって再生される音声の品質を確実に向上させることが できる。なお、ここでフレーム間予測とは、過去のフレームの内容力も現在又は将来 のフレームの内容を予測することである。
[0074] また、本実施の形態によれば、波形符号化方式が音声信号の低域成分に適用さ れるため、音声信号の符号化によって生成される音声データのデータ量を必要最小 限に抑えることができる。
[0075] また、本実施の形態によれば、音声の基本周波数 (ピッチ)を必ず含むように音声 信号の低域成分の周波数帯域が設定されるため、高域成分符号ィ匕部 220における 適応符号帳のピッチラグ情報を低域成分符号ィ匕情報力ゝら復号される音源信号低域 成分を用いて算出することが可能となる。この特徴により、本実施の形態によれば、 高域成分符号ィ匕部 220が高域成分符号ィ匕情報としてピッチラグ情報を符号ィ匕しなく ても、高域成分符号ィ匕部 220は適応符号帳を用いて音声信号を符号ィ匕することがで きる。また、本実施の形態によれば、高域成分符号ィ匕部 220が高域成分符号ィ匕情報 としてピッチラグ情報を符号化する場合でも、高域成分符号化部 220は、低域成分 符号ィ匕情報の復号信号力も算出されるピッチラグ情報を利用することで、少ないビッ ト数で効率的にピッチラグ情報を量子化することができる。
[0076] さらに、本実施の形態では、低域成分符号化情報と高域成分符号化情報とを別々 のパケットで無線送信するため、低域成分符号ィ匕情報を含むパケットよりも高域成分 符号ィ匕情報を含むパケットを先に破棄する優先制御を行えば、音声信号の誤り耐性 を一層改善することができる。
[0077] なお、本実施の形態について、以下のように応用したり変形したりしてもよい。本実 施の形態では、低域成分波形符号ィ匕部 210がフレーム間予測を利用しない符号ィ匕 方式として波形符号化方式を使用し、かつ、高域成分符号ィ匕部 220がフレーム間予 測を利用する符号ィ匕方式として ACB部 224と FCB部 225とを用いる CELP方式を使 用する場合について説明したが、本発明はこの場合に限定されるものではなぐ例え ば低域成分波形符号ィ匕部 210がフレーム間予測を利用しない符号ィ匕方式として周 波数領域での符号ィ匕方式を使用したり、高域成分符号ィ匕部 220がフレーム間予測を 利用する符号化方式としてボコーダ方式を使用したりしてもょ 、。
[0078] 本実施の形態では、低域成分の上限周波数が 500Hz〜: LkHz程度の場合を例に 説明したが、本発明はこの場合に限定されるものではなぐ符号化される全周波数帯 域幅や伝送路の回線速度等に応じて低域成分の上限周波数を 1kHzより高い値に 設定してちょい。
[0079] また、本実施の形態では、低域成分波形符号化部 210における低域成分の上限 周波数を 500Hz〜: LkHz程度と仮定して、 1Z8DS部 212におけるダウンサンプル を 8分の 1とする場合について説明した力 本発明はこの場合に限定されるものでは なぐ例えば低域成分波形符号ィ匕部 210において符号化される低域成分の上限周 波数がナイキスト周波数になるように、 1Z8DS部 212におけるダウンサンプルの倍 率が設定されてもよい。また、 8倍 US部 215における倍率についても同様である。
[0080] また、本実施の形態では、低域成分符号化情報と高域成分符号化情報とが別々の パケットで送受信される場合について説明したが、本発明はこの場合に限定されるも のではなぐ例えば低域成分符号ィ匕情報と高域成分符号ィ匕情報とが 1つのパケット で送受信されるようにしてもよい。このようにすると、スケーラブル符号ィ匕による QoS制 御の効果は得られなくなるものの、低域成分については誤り伝播を防ぐ効果が奏さ れ、かつ、高品質なフレーム消失隠蔽処理も可能である。
[0081] また、本実施の形態では、音声信号における所定の周波数未満の帯域を低域成 分とし、また前記周波数を超える帯域を高域成分とする場合について説明したが、本 発明はこの場合に限定されるものではなぐ例えば音声信号の低域成分は少なくとも 所定の周波数未満の帯域を有し、またその高域成分は少なくとも前記周波数を超え る帯域を有するようにしてもよい。即ち、本発明では、音声信号の低域成分の有する 周波数帯域とその高域成分の有する周波数帯域とがー部オーバーラップしてもよい
[0082] また、本実施の形態では、高域成分符号ィ匕部 220にお ヽて、低域成分波形符号化 部 210で生成された音源波形力も算出されたピッチラグがそのまま用いられる場合に ついて説明したが、本発明はこの場合に限定されるものではなぐ例えば高域成分 符号ィ匕部 220が、低域成分波形符号ィ匕部 210で生成された音源波形カゝら算出され たピッチラグの近傍で適応符号帳の再探索を行 、、この再探索によって得られたピッ チラグと前記信号波形力 算出されたピッチラグとの誤差情報を生成し、生成した誤 差情報も合わせて符号化して無線送信するようにしてもょ ヽ。
[0083] 図 6は、この変形例に係る音声符号ィ匕装置 600の構成を示すブロック図である。図 6において、図 2に示す音声符号化装置 200の構成部と同様の機能を発揮する構成 部には、同一の参照符号を付している。図 6では、高域成分符号ィ匕部 620において 重み付け誤差最小化部 622が ACB部 624の再探索を行 、、次 、で ACB部 624が この再探索によって得られたピッチラグと低域成分波形符号ィ匕部 210で生成された 音源波形力 算出されたピッチラグとの誤差情報を生成し、生成した誤差情報をパケ ット化部 631に入力する。そして、パケットィ匕部 631は、この誤差情報についても高域 成分符号ィ匕情報の一部としてパケット化して無線送信する。
[0084] また、本実施の形態で用いた固定符号帳は、雑音符号帳、確率符号帳又は乱数 符号帳と呼ばれることちある。
[0085] また、本実施の形態で用いた固定符号帳は、固定音源符号帳と呼ばれることもあり 、適応符号帳は、適応音源符号帳と呼ばれることもある。
[0086] また、本実施の形態で用いた LSPの余弦をとつたもの、すなわち、 LSPを L (i)とし た場合の cos (L (i) )を特に LSF (Line Spectral Frequency)と呼び、 LSPと区別する こともあるが、本明細書では、 LSFは LSPの一形態であり LSP〖こ LSFは含まれるもの とする。すなわち、 LSPを LSFと読み替えても良い。また同様に、 LSPを ISP (Immitta nce Spectrum Pairs)と み て 良い。 [0087] また、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明した力 本 発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号ィ匕 方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記 憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号ィ匕 装置と同様の機能を実現することができる。
[0088] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路で ある LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部又は全てを 含むように 1チップィ匕されてもょ 、。
[0089] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0090] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギユラブル'プロセッサーを利用してもよい。
[0091] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って もよい。バイオ技術の適応等が可能性としてありえる。
[0092] 本明細書は、 2004年 8月 31日出願の特願 2004— 252037に基づく。この内容は すべてここに含めておく。
産業上の利用可能性
[0093] 本発明に係る音声符号化装置は、 CELP型音声符号化において、固定符号帳の ビット数を増大させることなぐ誤り耐性を向上させることができるという効果を有し、移 動体無線通信システムにおける無線通信装置等として有用である。

Claims

請求の範囲
[1] 音声信号における少なくとも所定の周波数未満の帯域を有する低域成分をフレー ム間予測を用いることなく符号化して低域成分符号ィ匕情報を生成する低域成分符号 化手段と、
前記音声信号における少なくとも前記所定の周波数を超える帯域を有する高域成 分をフレーム間予測を用いて符号化して高域成分符号ィ匕情報を生成する高域成分 符号化手段と、
を具備する音声符号化装置。
[2] 前記低域成分符号化手段は、
前記低域成分を波形符号化して前記低域成分符号化情報を生成し、 前記高域成分符号化手段は、
前記高域成分を適応符号帳及び固定符号帳を用いて符号化して前記高域成分符 号化情報を生成する、
請求項 1記載の音声符号化装置。
[3] 前記高域成分符号化手段は、
前記低域成分符号化手段における波形符号化によって生成される音源波形に基 づいて前記適応符号帳におけるピッチラグ情報を量子化する、
請求項 2記載の音声符号化装置。
[4] 音声信号における少なくとも所定の周波数未満の帯域を有する低域成分をフレー ム間予測を用いることなく符号ィ匕して生成された低域成分符号ィ匕情報を復号する低 域成分復号化手段と、
前記音声信号における少なくとも前記所定の周波数を超える帯域を有する高域成 分をフレーム間予測を用いて符号化して生成された高域成分符号ィ匕情報を復号す る高域成分復号化手段と、
復号された低域成分符号化情報から音声信号を生成する音声信号生成手段と、 を具備する音声復号化装置。
[5] 請求項 1記載の音声符号化装置を具備する通信装置。
[6] 請求項 4記載の音声復号化装置を具備する通信装置。 音声信号における少なくとも所定の周波数未満の帯域を有する低域成分をフレー ム間予測を用いることなく符号ィ匕して低域成分符号ィ匕情報を生成するステップと、 前記音声信号における少なくとも前記所定の周波数を超える帯域を有する高域成 分をフレーム間予測を用いて符号ィ匕して高域成分符号ィ匕情報を生成するステップと を具備する音声符号化方法,
PCT/JP2005/015643 2004-08-31 2005-08-29 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法 WO2006025313A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/573,765 US7848921B2 (en) 2004-08-31 2005-08-29 Low-frequency-band component and high-frequency-band audio encoding/decoding apparatus, and communication apparatus thereof
JP2006532664A JPWO2006025313A1 (ja) 2004-08-31 2005-08-29 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法
EP05780835A EP1785984A4 (en) 2004-08-31 2005-08-29 AUDIOCODING DEVICE, AUDIO DECODING DEVICE, COMMUNICATION DEVICE AND AUDIOCODING METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-252037 2004-08-31
JP2004252037 2004-08-31

Publications (1)

Publication Number Publication Date
WO2006025313A1 true WO2006025313A1 (ja) 2006-03-09

Family

ID=35999967

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/015643 WO2006025313A1 (ja) 2004-08-31 2005-08-29 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法

Country Status (5)

Country Link
US (1) US7848921B2 (ja)
EP (1) EP1785984A4 (ja)
JP (1) JPWO2006025313A1 (ja)
CN (1) CN101006495A (ja)
WO (1) WO2006025313A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219407A (ja) * 2007-03-02 2008-09-18 Sony Corp 送信装置、送信方法及び送信プログラム
JP2009267832A (ja) * 2008-04-25 2009-11-12 Sanyo Electric Co Ltd 音声信号処理装置
JP2009541790A (ja) * 2006-06-21 2009-11-26 サムスン エレクトロニクス カンパニー リミテッド 適応的高周波数領域の符号化及び復号化方法及び装置
JP2010526346A (ja) * 2007-05-08 2010-07-29 サムスン エレクトロニクス カンパニー リミテッド オーディオ信号の符号化及び復号化方法並びにその装置
US8340962B2 (en) 2006-06-21 2012-12-25 Samsumg Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
US8370138B2 (en) 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
JP2016541004A (ja) * 2013-09-30 2016-12-28 オランジュ 低遅延符号化/復号のための音声信号のリサンプリング

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4445328B2 (ja) 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
US7848925B2 (en) * 2004-09-17 2010-12-07 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus
RU2387024C2 (ru) * 2004-11-05 2010-04-20 Панасоник Корпорэйшн Кодер, декодер, способ кодирования и способ декодирования
CN101273404B (zh) 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
WO2007043642A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
WO2007066771A1 (ja) * 2005-12-09 2007-06-14 Matsushita Electric Industrial Co., Ltd. 固定符号帳探索装置および固定符号帳探索方法
US8160874B2 (en) * 2005-12-27 2012-04-17 Panasonic Corporation Speech frame loss compensation using non-cyclic-pulse-suppressed version of previous frame excitation as synthesis filter source
WO2007116809A1 (ja) * 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP5190359B2 (ja) * 2006-05-10 2013-04-24 パナソニック株式会社 符号化装置及び符号化方法
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
WO2008007700A1 (fr) 2006-07-12 2008-01-17 Panasonic Corporation Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue
JP4999846B2 (ja) * 2006-08-04 2012-08-15 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
EP2063418A4 (en) * 2006-09-15 2010-12-15 Panasonic Corp AUDIO CODING DEVICE AND AUDIO CODING METHOD
KR20090076964A (ko) 2006-11-10 2009-07-13 파나소닉 주식회사 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
EP2096631A4 (en) * 2006-12-13 2012-07-25 Panasonic Corp TONE DECODING DEVICE AND POWER ADJUSTMENT METHOD
CN101617362B (zh) * 2007-03-02 2012-07-18 松下电器产业株式会社 语音解码装置和语音解码方法
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
EP2112653A4 (en) * 2007-05-24 2013-09-11 Panasonic Corp AUDIO DEODICATION DEVICE, AUDIO CODING METHOD, PROGRAM AND INTEGRATED CIRCUIT
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
WO2009084221A1 (ja) * 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JP5448850B2 (ja) * 2008-01-25 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
EP2251861B1 (en) * 2008-03-14 2017-11-22 Panasonic Intellectual Property Corporation of America Encoding device and method thereof
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
US8515747B2 (en) * 2008-09-06 2013-08-20 Huawei Technologies Co., Ltd. Spectrum harmonic/noise sharpness control
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
EP2490217A4 (en) * 2009-10-14 2016-08-24 Panasonic Ip Corp America ENCODING DEVICE, ENCODING METHOD AND CORRESPONDING METHODS
RU2464651C2 (ru) * 2009-12-22 2012-10-20 Общество с ограниченной ответственностью "Спирит Корп" Способ и устройство многоуровневого масштабируемого устойчивого к информационным потерям кодирования речи для сетей с коммутацией пакетов
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
CN109979471B (zh) * 2013-07-18 2022-12-02 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
US20150170655A1 (en) 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
CN111312278B (zh) * 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
WO2023198447A1 (en) * 2022-04-14 2023-10-19 Interdigital Ce Patent Holdings, Sas Coding of signal in frequency bands
WO2023202898A1 (en) * 2022-04-22 2023-10-26 Interdigital Ce Patent Holdings, Sas Haptics effect comprising a washout

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337700A (ja) * 2000-05-22 2001-12-07 Texas Instr Inc <Ti> 広帯域音声符号化システムおよびその方法
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US235682A (en) * 1880-12-21 Manufacture of paper boxes
US77812A (en) * 1868-05-12 Lewis griscom
JPS62234435A (ja) 1986-04-04 1987-10-14 Kokusai Denshin Denwa Co Ltd <Kdd> 符号化音声の復号化方式
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
EP1071078B1 (en) 1996-11-07 2002-02-13 Matsushita Electric Industrial Co., Ltd. Vector quantization codebook generation method and apparatus
JP3134817B2 (ja) 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
EP1431962B1 (en) 2000-05-22 2006-04-05 Texas Instruments Incorporated Wideband speech coding system and method
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337700A (ja) * 2000-05-22 2001-12-07 Texas Instr Inc <Ti> 広帯域音声符号化システムおよびその方法
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1785984A4 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370138B2 (en) 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
JP5173795B2 (ja) * 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
JP2009541790A (ja) * 2006-06-21 2009-11-26 サムスン エレクトロニクス カンパニー リミテッド 適応的高周波数領域の符号化及び復号化方法及び装置
US8340962B2 (en) 2006-06-21 2012-12-25 Samsumg Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
US9847095B2 (en) 2006-06-21 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
JP2008219407A (ja) * 2007-03-02 2008-09-18 Sony Corp 送信装置、送信方法及び送信プログラム
JP2010526346A (ja) * 2007-05-08 2010-07-29 サムスン エレクトロニクス カンパニー リミテッド オーディオ信号の符号化及び復号化方法並びにその装置
JP2009267832A (ja) * 2008-04-25 2009-11-12 Sanyo Electric Co Ltd 音声信号処理装置
JP2016541004A (ja) * 2013-09-30 2016-12-28 オランジュ 低遅延符号化/復号のための音声信号のリサンプリング
JP2018025783A (ja) * 2013-09-30 2018-02-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 低遅延符号化/復号のための音声信号のリサンプリング

Also Published As

Publication number Publication date
US7848921B2 (en) 2010-12-07
JPWO2006025313A1 (ja) 2008-05-08
US20070299669A1 (en) 2007-12-27
CN101006495A (zh) 2007-07-25
EP1785984A4 (en) 2008-08-06
EP1785984A1 (en) 2007-05-16

Similar Documents

Publication Publication Date Title
WO2006025313A1 (ja) 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法
WO2005106848A1 (ja) スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
US7978771B2 (en) Encoder, decoder, and their methods
WO2005112005A1 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
KR20070028373A (ko) 음성음악 복호화 장치 및 음성음악 복호화 방법
JP2009541797A (ja) 種々の音声フレーム・レートの混合励振線形予測(melp)ボコーダ間でトランスコーディングするボコーダ及び関連した方法
JP2001500344A (ja) タンデム型ボコーダの音質を改良する方法および装置
JP2009069856A (ja) 音声コーデックにおける擬似高帯域信号の推定方法
JPWO2009057327A1 (ja) 符号化装置および復号装置
KR20070029754A (ko) 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법
JPH11122120A (ja) 符号化方法及び装置、並びに復号化方法及び装置
JP4937746B2 (ja) 音声符号化装置および音声符号化方法
US9129590B2 (en) Audio encoding device using concealment processing and audio decoding device using concealment processing
WO2000077774A1 (fr) Codeur de signaux de bruit et codeur de signaux vocaux
JP4365653B2 (ja) 音声信号送信装置、音声信号伝送システム及び音声信号送信方法
JP4414705B2 (ja) 音源信号符号化装置、及び音源信号符号化方法
WO2007043643A1 (ja) 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
WO2004097798A1 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP6713424B2 (ja) 音声復号装置、音声復号方法、プログラム、および記録媒体
JP3496618B2 (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法
JP2004078235A (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置
SHOKEEN IMPLEMENTITION OF SPEECH CODING USING VOICE EXCITED LILNEAR PREDICTIVE VOCODER

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006532664

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580027479.7

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2005780835

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11573765

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005780835

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11573765

Country of ref document: US