WO2002013181A1 - Procede de traitement de signaux numeriques, procede d'apprentissage, appareils associes, et support de stockage de programmes - Google Patents

Procede de traitement de signaux numeriques, procede d'apprentissage, appareils associes, et support de stockage de programmes Download PDF

Info

Publication number
WO2002013181A1
WO2002013181A1 PCT/JP2001/006594 JP0106594W WO0213181A1 WO 2002013181 A1 WO2002013181 A1 WO 2002013181A1 JP 0106594 W JP0106594 W JP 0106594W WO 0213181 A1 WO0213181 A1 WO 0213181A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum data
power spectrum
audio signal
digital audio
data
Prior art date
Application number
PCT/JP2001/006594
Other languages
English (en)
French (fr)
Inventor
Tetsujiro Kondo
Masaaki Hattori
Tsutomu Watanabe
Hiroto Kimura
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US10/089,463 priority Critical patent/US6907413B2/en
Publication of WO2002013181A1 publication Critical patent/WO2002013181A1/ja
Priority to US11/074,420 priority patent/US6990475B2/en
Priority to US11/074,432 priority patent/US20050177257A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Definitions

  • the present invention relates to a digital signal processing method, a learning method, a device therefor, and a program storage medium, and performs data interpolation processing on a digital signal in a rate converter, a pulse code modulation (PCM) decoding device, or the like.
  • the present invention is suitable for a digital signal processing method, a learning method, a device thereof, and a program storage medium.
  • a digital filter of a linear primary (linear) interpolation method is usually used.
  • Such digital filters generate linear interpolation data by calculating the average value of a plurality of existing data when the sampling rate changes or data is lost.
  • the digital audio signal after oversampling has a data volume several times denser in the time axis direction due to linear primary sampling, but the frequency band of the digital audio signal after oversampling has been reduced. Is not much different from before conversion, and the sound quality itself has not improved. Furthermore, the interpolated data is not necessarily generated based on the waveform of the analog audio signal before A / D conversion. Therefore, the waveform reproducibility has hardly improved.
  • the present invention has been made in view of the above points, and aims to propose a digital signal processing method, a learning method, a device thereof, and a program storage medium capable of further improving the waveform reproducibility of a digital audio signal. Things.
  • power spectrum data is calculated from a digital audio signal, a part of the power spectrum data is extracted from the calculated power spectrum data, and a part of the extracted power spectrum data is extracted.
  • FIG. 1 is a functional block diagram showing an audio signal processing device according to the present invention.
  • FIG. 2 is a block diagram showing an audio signal processing device according to the present invention.
  • FIG. 3 is a flowchart showing the audio data conversion processing procedure.
  • FIG. 4 is a flowchart showing the logarithmic data calculation processing procedure.
  • FIG. 5 is a schematic diagram illustrating an example of calculating power spectrum data.
  • FIG. 6 is a block diagram showing a configuration of the learning circuit.
  • FIG. 7 is a schematic diagram showing an example of power spectrum data selection.
  • FIG. 8 is a schematic diagram illustrating an example of power spectrum data selection.
  • FIG. 9 is a schematic diagram illustrating an example of selecting power spectrum data. BEST MODE FOR CARRYING OUT THE INVENTION
  • the audio signal processor 10 applies a class classification to audio data that is close to the true value when increasing the sampling rate of a digital audio signal (hereinafter referred to as audio data) or interpolating audio data. It is generated by processing.
  • the audio data in the present embodiment is musical sound data representing the sound of a human voice or a musical instrument, and data representing various other sounds.
  • the spectrum processing section 1 1 If the input audio O data D 1 0 supplied from the input terminal T i N regions (this embodiment for each predetermined time, for example 6 After constructing a class tap, which is the time-axis waveform data cut out for each sample), the control data D supplied from the input means 18 for the constructed class tap is calculated by the logarithmic data calculation method described later. Calculate logarithmic data according to 18.
  • the spectrum processing unit 11 calculates log data D l 1, which is a calculation result of the log data calculation method and is to be classified into classes, with respect to the class tap constructed at this time of the input audio data D 10, and This is supplied to the classification unit 14.
  • the classifying unit 13 compresses the log data D 11 supplied from the spectrum processing unit 11 and generates a compressed data pattern by compressing the log data D 11. (Range Coding) 'circuit section and a class code generation circuit section for generating a class code to which logarithmic data D11 belongs.
  • the ADRC circuit forms pattern compressed data by performing an operation on the logarithmic data D 11 to compress the data from, for example, 8 bits to 2 bits.
  • This AD The RC circuit performs adaptive quantization.Here, since the local pattern of the signal level can be efficiently represented with a short word length, it is used to generate a code for classifying the signal pattern. Used for
  • the ADRC circuit section calculates the dynamic range in the cut-out area as DR, the bit allocation as m, the data level of each logarithmic data as L, and the quantization code as Q.
  • the class code generation circuit unit provided in the class classification unit 14 is based on the compressed log data q ⁇ , class ⁇ (two)
  • a class code class indicating the class to which the block (c ⁇ q ⁇ belongs) is calculated, and the class code data D 14 representing the calculated class code c 1 ass is calculated as a prediction coefficient.
  • the class code c 1 ass indicates the read address when the prediction coefficient is read from the prediction coefficient memory 15.
  • the class classification unit 14 generates the class code data D 14 of the log data D 11 calculated from the input audio data D 10, and supplies this to the prediction coefficient memory 15. '
  • a set of prediction coefficients corresponding to each class code is stored in an address corresponding to the class code, and based on the class code data D 14 supplied from the classification unit 14. , A set of prediction coefficients stored at the address corresponding to the class code Is read and supplied to the prediction operation unit 16.
  • the prediction calculation unit 16 includes audio waveform data (prediction taps) D 1 3 (Xi Xj, which are to be subjected to a prediction calculation cut out in the time domain from the input audio data D 10 in the prediction calculation unit extraction unit 13).
  • the prediction result y ' is obtained by performing a product-sum operation on the prediction coefficients W ⁇ to W_ as shown in the following equation y'W, X + WX (3).
  • the audio data D 16 is output from the prediction operation unit 16.
  • the audio signal processing device 10 includes a CPU 21 via a bus BUS, a ROM (Read Only Memory) 22, and a RAM (Rand om Access Memory) 15 and each circuit unit are connected to each other, and the CPU 11 executes various programs stored in the ROM 22 to execute the various programs described above with reference to FIG. It is designed to operate as each function block (a spectrum processing unit 11, a prediction calculation unit extraction unit 13, a class classification unit 14, and a prediction calculation unit 16).
  • the audio signal processing device 10 has a communication interface 24 for communicating with a network, and a removable drive 28 for reading information from an external storage medium such as a floppy disk or a magneto-optical disk.
  • Each program for performing the class classification application processing described above with reference to FIG. 1 can be read from the external storage medium into the hard disk of the hard disk device 25, and the class classification adaptation processing can be performed according to the read program.
  • the user inputs various commands through input means 18 such as a keyboard and a mouse to cause the CPU 21 to execute the class classification processing described above with reference to FIG.
  • the audio signal processing device 10 inputs the audio data (input audio data) D10 for improving the sound quality via the data input / output unit 27, and inputs the audio data D10 to the input audio data D10.
  • the audio data D 16 with improved sound quality can be output to the outside via the data input / output unit 27.
  • FIG. 3 shows a processing procedure of the class classification adaptive processing in the audio signal processing apparatus 10.
  • the audio signal processing apparatus 10 enters the processing procedure from step SP 101, and receives an input in a subsequent step SP 102.
  • the logarithmic data D 11 of the audio data D 10 is calculated by the spectrum processing unit 11.
  • the calculated logarithmic data D 11 represents the characteristics of the input audio data D 10
  • the audio signal processing device 10 proceeds to step SP 103, and the logarithmic data D 11 is output by the class classification unit 14.
  • 1 Classify classes based on 1.
  • the audio signal processing device 10 reads a prediction coefficient from the prediction coefficient memory 15 using the class code obtained as a result of the class classification.
  • the prediction coefficients are stored in advance for each class by learning, and the audio signal processor 10 reads out the prediction coefficients corresponding to the class codes, thereby matching the characteristics of the log data Dl1 at this time.
  • the matched prediction coefficients can be used.
  • the prediction coefficient read from the prediction coefficient memory 15 is used in the prediction operation of the prediction operation unit 16 in step SP104.
  • the input audio data D10 is converted into desired audio data D16 by a prediction operation adapted to the characteristics of the log data D11.
  • the input audio data D10 is converted into the audio data D16 with improved sound quality, and the audio signal processing device 10 moves to step SP105 and ends the processing procedure.
  • FIG. 4 shows the logarithmic data calculation processing procedure of the logarithmic data calculation method in the spectrum processing unit 11.
  • the spectrum processing unit 11 enters the processing procedure from step SP 1, the following steps are performed.
  • a class tap which is time-axis waveform data obtained by cutting out the input audio data D10 into regions at predetermined time intervals, is constructed, and the process proceeds to step SP3.
  • the spectrum processing unit 11 sets the window function to “W (K)” for the class tap.
  • step SP4 the spectrum processing unit 11 performs a Fast Fourier Transform (FFT) on the multiplied data to convert the power spectrum data as shown in FIG. Calculate and proceed to step SP5.
  • FFT Fast Fourier Transform
  • the power spectrum data group AR2 on the right side from NZ2 (Fig. 5) is the power spectrum data on the left side from zero to N / 2. It has almost the same components as group AR 1 (Fig. 5) (ie, it is symmetric). This indicates that the power spectrum data components at two frequency points equidistant from both ends in the frequency band of the N multiplied data are conjugate to each other. Therefore, the spectrum processing unit 11 extracts only the left power spectrum data group AR 1 (FIG. 5) from the zero value to N / 2.
  • the spectrum processing unit 11 selects, from the power spectrum data group AR1 to be extracted at this time, other than the user's selection and setting via the input means 18 (FIGS. 1 and 2) in advance.
  • the data is extracted excluding the m power spectrum data.
  • the control data D 18 corresponding to the selection operation is input to the input means 18.
  • the control data D 18 according to the selection operation is input to the input means.
  • the spectrum processing unit 11 outputs the power spectrum data group AR 1 (FIG. 5) extracted at this time from 2 OHz which is significant in music. Extract only the power spectrum data around 20 kHz (that is, the power spectrum data other than around 20 kHz to 20 kHz is the m power spectrum data to be excluded).
  • control data D 18 output from the input means 18 determines the frequency component to be extracted as significant power spectrum data. This reflects the user's intention to make a manual selection operation via 1 and Fig. 2).
  • the spectrum processing unit 11 that extracts the power spectrum data according to the control data D 18 converts the frequency component of the specific audio component that the user desires to output with high sound quality into a significant power spectrum. It will be extracted as torque data.
  • the spectrum processing unit 11 represents the pitch of the original waveform in the power spectrum data group AR1 to be extracted, so that the power spectrum data of the DC component having no significant feature is represented. Is also extracted.
  • step SP5 the spectrum processing unit 11 removes m power spectrum data from the power spectrum data group AR1 (FIG. 5) according to the control data D18, and also removes the DC component. Then, only the minimum necessary power spectrum data excluding the power spectrum data of the above, that is, only significant power spectrum data is extracted, and the process proceeds to step SP6.
  • step SP6 the spectrum processing unit 11 applies the following equation to the extracted power spectrum data.
  • the power spectrum data (ps [k]) extracted at this time is normalized (divided) by the maximum value (ps_max), and obtained at this time.
  • the logarithm decibel value
  • ps 1 [k] 10.0 * log (psn [k]) (7)
  • log is a common logarithm.
  • step SP6 the spectrum processing unit 11 performs the normalization at the maximum amplitude and the logarithmic conversion of the amplitude, thereby finding a characteristic portion (a significant small waveform portion).
  • logarithmic data D 11 that allows a person who is to hear the sound to be able to hear comfortably is calculated, and the process proceeds to step SP 7 to end the logarithmic data calculation processing procedure.
  • the spectrum processing unit 11 uses the logarithmic data calculation processing procedure of the logarithmic data calculation method to convert the logarithmic data D11, which further finds out the characteristics of the signal waveform represented by the input audio data D10. Can be calculated.
  • the learning circuit 30 outputs the high-quality teacher audio data D 30 to the student. Received by signal generation filter 37.
  • the student signal generation filter 37 thins out the teacher audio data D30 at a predetermined time interval by a predetermined sample at the thinning rate set by the thinning rate setting signal D39.
  • the generated prediction coefficient differs depending on the thinning rate in the student signal generation filter 37, and the audio data reproduced by the above-described audio signal processing device 10 also changes accordingly.
  • the student signal generation filter 37 performs a thinning process to reduce the sampling frequency.
  • the audio signal processing apparatus 10 aims to improve the sound quality by compensating for the missing data sample of the input audio data D10, the student signal generation filter In 37, a thinning-out process for deleting data samples is performed.
  • the student signal generation filter 37 generates the student audio data D37 from the teacher audio data 30 by a predetermined thinning process, and sends this to the spectrum processing unit 31 and the prediction calculation unit extraction unit 33. Supply each. ,
  • the spectrum processing unit 31 divides the student audio data D37 supplied from the student signal generation filter 37 into regions at predetermined time intervals (in this embodiment, for example, every six samples). Then, for each of the divided time domain waveforms, log data D31, which is a result of the logarithmic data calculation method described above with reference to FIG. To supply.
  • the class classification unit 34 includes, for the log data D 31 supplied from the spectrum processing unit 31, an ADRC circuit unit that compresses the log data D 31 to generate a compressed data pattern, and a log data D 3 And a class code generation circuit for generating a class code to which 1 belongs.
  • the ADRC circuit forms pattern compressed data by performing an operation on the logarithmic data D31, for example, to compress the data from 8 bits to 2 bits.
  • This ADRC circuit section performs adaptive quantization. Here, the signal level localization is performed. Short pattern! It can be efficiently expressed by the / and word length, so it is used for generating codes for classifying signal patterns.
  • the ADRC circuit section calculates the dynamic range in the cut-out region as: DR, m is the bit allocation, L is the data level of each logarithmic data, and Q is the quantization code.
  • DR the dynamic range in the cut-out region
  • m the bit allocation
  • L the data level of each logarithmic data
  • Q the quantization code.
  • the class code generation circuit unit provided in the class classification unit 34, based on the compressed log data 11 .
  • a class code class indicating the class to which the block (qi to q 6 ) belongs is calculated, and a class code representing the calculated class code Kc 1 ass' is calculated.
  • the data D34 is supplied to the prediction coefficient calculation unit 36.
  • the class classification section 34 generates the class code data D 34 of the log data D 31 supplied from the spectrum processing section 31, and supplies this to the prediction coefficient calculation section 36.
  • the prediction coefficient calculation unit 36 has the class code data D 34 Audio waveform data D 33 of the response to the time axis domain (x 1S x 2, ⁇ , xj is supplied cut in prediction calculation section extracting section 33.
  • the prediction coefficient calculation unit 36 receives the class code c 1 ass supplied from the class classification unit 34, the audio waveform data D 33 cut out for each class code c 1 ass, and the input terminal T IN A normal equation is established using the high-quality teacher audio data D30.
  • the learning circuit 30 performs learning on a plurality of audio data for each class code.
  • the number of data samples is M
  • the following equation is set according to the above equation (8): yw x x kl + w 2 x k2 + '(9).
  • k l, 2, ... M.
  • the prediction coefficient memory 1 5 the quantized data q have ...., for each pattern defined by q 6, the prediction coefficients for estimating audio data y of high sound quality, Stored for each class code.
  • the prediction coefficient memory 15 is used in the audio signal processing device 10 described above with reference to FIG. With this processing, the learning of the prediction coefficients for creating high-quality audio data from normal audio data in accordance with the linear estimation formula ends.
  • the learning circuit 30 performs the thinning process of the high-quality teacher audio data by the student signal generation filter 37 in consideration of the degree of performing the interpolation process in the audio signal processing device 10, A prediction coefficient for the interpolation processing in the audio signal processing device 10 can be generated.
  • the audio signal processing device 10 calculates a power spectrum on the frequency axis by performing a fast Fourier transform on the input audio data D10.
  • the frequency analysis can find subtle differences that cannot be known from the time axis waveform data, so the audio signal processor 10 cannot find any features in the time axis domain. You will be able to find subtle features. '
  • a state where subtle features can be found that is, a state where the power spectrum is calculated
  • the audio signal processor 10 extracts only significant power spectrum data according to the selection range setting means (selection setting manually performed by the user from the input means 18) (that is, ⁇ / 2—m).
  • the audio signal processing device 10 can further reduce the processing load and increase the processing speed.
  • the audio signal processing device 10 calculates the power spectrum data by which the subtle characteristics can be found by performing the frequency analysis, and determines that the power spectrum data is significant from the further calculated power spectrum data. Only the power spectrum data is extracted. Therefore, the audio signal processing apparatus 10 has extracted only the minimum necessary significant power spectrum data, and specifies the class based on the extracted power spectrum data.
  • the audio signal processing device 10 performs a prediction operation on the input audio data D 10 using a prediction coefficient based on the class specified based on the extracted significant power spectrum data, thereby obtaining the input audio data D 10 Can be converted to audio data D16 with higher quality.
  • a prediction coefficient corresponding to each of a large number of teacher audio data having different phases is obtained, so that the input audio data in the audio signal processing apparatus 10 can be obtained. Even if a phase variation occurs during the D10 class classification adaptive process, it is possible to perform a process corresponding to the phase variation. According to the above configuration, by performing frequency analysis, only significant power spectrum data is extracted from the power spectrum data in which delicate features can be found, and the result of classifying the power spectrum data is obtained.
  • the input audio data D10 can be converted into higher-quality audio data D16 by performing a prediction operation on the input audio data D10 using a prediction coefficient based on the input audio data D10.
  • the present invention is not limited thereto. Multiplication by various window functions, or multiplication by using various window functions (Huming window, Hayung window, Prackman window, etc.) in advance in the spectrum processing section, and the input digital audio signal
  • the spectrum processing unit may perform the multiplication using a desired window function according to the frequency characteristics of the signal.
  • the spectrum processing unit when the spectrum processing unit performs the multiplication using the Hanning window, the spectrum processing unit applies the following equation to the class tap supplied from the clipping unit.
  • the spectrum processing unit When the spectrum processing unit performs the multiplication using the Blackman window, the spectrum processing unit applies the following equation to the class tap supplied from the cutout unit.
  • DFT discrete Fourier transform
  • Various other frequency analysis means such as DCT (Discrete Cosine Transform), the maximum entropy method, and a method based on linear prediction analysis can be applied.
  • the spectrum processing unit 11 extracts only the left-side power spectrum data group AR 1 (FIG. 5) from the zero value to NZ 2. Is not limited thereto, and only the power spectrum data group AR2 on the right side (FIG. 5) may be extracted.
  • the processing load on the audio signal processing device 10 can be further reduced, and the processing speed can be further improved.
  • ADRC is performed as a pattern generation means for generating a compressed data pattern.
  • the present invention is not limited to this.
  • lossless coding DP CM: Differential Pulse C
  • VQ Vector Quantize
  • any compression means that can represent a signal waveform pattern with a small number of classes may be used.
  • a human voice and a human voice are selected as selection range setting means that can be manually selected and operated by a user (that is, 500 Hz to 4 kHz or 20 Hz to 20 Hz as a frequency component to be extracted).
  • a user that is, 500 Hz to 4 kHz or 20 Hz to 20 Hz as a frequency component to be extracted.
  • the present invention is not limited to this.
  • any one of the high-frequency (UPP), mid-frequency (MID), and low-frequency (LOW) frequency components can be applied, such as selecting, or sparsely selecting frequency components as shown in FIG. 8, and further non-uniform frequency components as shown in FIG. .
  • the audio signal processing device includes a newly provided selection range setting means.
  • a program corresponding to the above is created and stored in a predetermined storage means such as a hard disk drive or a ROM.
  • a predetermined storage means such as a hard disk drive or a ROM.
  • the audio signal processing device 10 executes the class code generation processing procedure by a program.
  • Various digital signal processing devices for example, rate converters, oversampling processing devices, Broadcasting Satellite (BS) broadcasts, etc.
  • BS Broadcasting Satellite
  • These programs can be stored in a program storage medium (floppy disk, optical disk, etc.) provided in the PCM error correction device that performs digital voice error correction, or a program that realizes each function.
  • Each functional unit may be implemented by loading the signal into the signal processing device.
  • power spectrum data is calculated from a digital audio signal, some power spectrum data is extracted from the calculated power spectrum data, and some of the extracted power spectrum data is extracted.
  • classifying the class based on the vector data and converting the digital audio signal by a prediction method corresponding to the classified class it is possible to perform a conversion more adapted to the characteristics of the digital audio signal.
  • the digital audio signal can be converted to a high-quality digital audio signal with further improved waveform reproducibility.
  • the present invention can be used for a rate comparator, a data converter, a PCM decoding device, and an audio signal processing device that perform data interpolation processing on digital signals.

Description

明 細 書 ディジタル信号処理方法、 学習方法及ぴそれらの装置並びにプログラム格納媒体 技術分野
本発明はディジタル信号処理方法、 学習方法及ぴそれらの装置並びにプログラ ム格納媒体に関し、 レートコンバータ又は P CM (P u l s e C o d e Mo d u l a t i o n) 復号装置等においてディジタル信号に対してデータの補 間処理を行うディジタル信号処理方法、 学習方法及ぴそれらの装置並びにプログ ラム格納媒体に適用して好適なものである。 - 背景技術
従来、 ディジタルオーディォ信号をディジタル/アナログコンバータに入力す る前に、 サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理 を行っている。 これにより、 ディジタル /アナログコンバータから出力されたデ ィジタルオーディォ信号はアナログ 'アンチ ·エイリアス 'フィルタの位相特性 が可聴周波数高域で一定に保たれ、 また、 サンプリングに伴うディジタル系のィ メ一ジ雑音の影響が排除されるようになされている。
かかるオーバサンプリング処理では、 通常、 線形一次 (直線) 補間方式のディ ジタルフィルタが用いられている。 このようなディジタルフィルタは、 サンプリ ングレートが変わったりデータが欠落した場合等に、 複数の既存データの平均値 を求めて直線的な補間データを生成するものである。
ところが、 オーバサンプリング処理後のディジタルオーディオ信号は、 線形一 次捕間によって時間軸方向に対してデータ量が数倍に緻密になって 、るものの、 オーバサンプリング処理後のディジタルオーディォ信号の周波数帯域は変換前と あまり変わらず、 音質そのものは向上していない。 さらに、 補間されたデータは 必ずしも A / D変換前のアナログオーディオ信号の波形に基づいて生成されたの ではないため、 波形再現性もほとんど向上していない。
また、 サンプリング周波数の異なるディジタルオーディオ信号をダビングする 場合において、 サンプリング ' レート ·コンバータを用いて周波数を変換してい ¾が、 かかる場合でも線形一次デイジタルフィルタによって直線的なデータの捕 間しか行うことができず、 音質や波形再現性を向上することが困難であった。 さ らに、 ディジタルオーディォ信号のデータサンプルが欠落した場合において同様 である。 発明の開示
本発明は以上の点を考慮してなされたもので、 ディジタルオーディォ信号の波 形再現性を一段と向上し得るディジタル信号処理方法、 学習方法及びそれらの装 置並びにプログラム格納媒体を提案しようとするものである。
かかる課題を解決するため本発明においては、 ディジタルオーディオ信号から パワースぺク トルデータを算出し、 算出されたパワースぺク トルデータから一部 のパワースぺクトルデータを抽出し、 抽出された一部のパワースぺクトルデータ に基づいてそのクラスを分類し、 分類されたクラスに対応した予測方式でディジ タルオーディォ信号を変換するようにしたことにより、 一段とディジタルオーデ ィォ信号の特徴に適応した変換を行うことができる。 図面の簡単な説明
図 1は、 本発明によるオーディオ信号処理装置を示す機能プロック図である。 図 2は、 本発明によるオーディオ信号処理装置を示すプロック図である。 図 3は、 オーディォデータの変換処理手順を示すフローチャートである。 図 4は、 対数データ算出処理手順を示すフローチャートである。
図 5は、 パワースぺク トルデータ算出例を示す略線図である。
図 6は、 学習回路の構成を示すブロック図である。
図 7は、 パワースぺク トルデータ選択例を示す略線図である。 図 8は、 パワースぺクトルデータ選択例を示す略線図である。
図 9は、 パワースぺク トルデータ選択例を示す略線図である。 発明を実施するための最良の形態
以下図面について、 本発明の一実施の形態を詳述する。
図 1においてオーディオ信号処理装置 1 0は、 ディジタルオーディオ信号 (以 下これをオーディオデータと呼ぶ) のサンプリングレートを上げたり、 オーディ ォデータを補間する際に、 真値に近いオーディォデータをクラス分類適用処理に よって生成するようになされている。
因みに、 この実施の形態におけるオーディオデータとは、 人間の声や楽器の音 等を表す楽音データ、 さらにはその他種々の音を表すデータである。
すなわち、 オーディオ信号処理装置 1 0において、 スペク トル処理部 1 1は入 力端子 T i Nから供給された入力オーディォデータ D 1 0を所定時間毎の領域 ( この実施の形態の場合、 例えば 6サンプル毎とする) に切り出した時間軸波形デ ータであるクラスタップを構築した後、 当該構築したクラスタップについて、 後 述する対数データ算出方法により、 入力手段 1 8から供給される制御データ D 1 8に応じて対数データを算出する。
スペクトル処理部 1 1は入力オーディオデータ D 1 0のこのとき構築されたク ラスタップについて、 対数データ算出方法による算出結果であってクラス分類し ようとする対数データ D l 1を算出し、 これをクラス分類部 14に供給する。 クラス分類部 1 3は、 スぺクトル処理部 1 1から供給された対数データ D 1 1 について、 当該対数データ D l 1を圧縮して圧縮データパターンを生成する AD RC (Ad a p t i v e Dy n am i c Ra n g e C o d i n g) '回路部 と、 対数データ D l 1の属するクラスコードを発生するクラスコード発生回路部 とを有する。
ADRC回路部は対数データ D 1 1に対して、 例えば 8ビットから 2ビットに 圧縮するような演算を行うことによりパターン圧縮データを形成する。 この AD RC回路部は、 適応的量子化を行うものであり、 ここでは、 信号レベルの局所的 なパターンを短い語長で効率的に表現することができるので、 信号パターンのク ラス分類のコード発生用に用いられる。
具体的には、 6つの 8ビットのデータ (対数データ) をクラス分類しようとす る場合、 248という膨大な数のクラスに分類しなければならず、 回路上の負担 が多くなる。 そこで、 この実施の形態のクラス分類部 14ではその内部に設けら れた A D R C回路部で生成されるパターン圧縮データに基づいてクラス分類を行 う。 例えば 6つの対数データに対して 1ビットの量子化を実行すると、 6つの対 数データを 6ビットで表すことができ、 26= 64クラスに分類することができ る。
ここで、 ADRC回路部は、 切り出された領域内のダイナミックレンジを DR 、 ビット割り当てを m、 各対数データのデータレベルを L、 量子化コードを Qと すると、 次式、
DR=MAX-M I N+ 1
Q= {(L-M I N+ 0. 5) X 2m/DR} (1) に従って、 領域内の最大値 M A Xと最小値 M I Nとの間を指定されたビット長で 均等に分割して量子化を行う。 なお、 (1) 式において { } は小数点以下の切 り捨て処理を意味する。 かくしてスぺクトル処理部 1 1において算出された 6つ の対数データが、 それぞれ例えば 8ビット (m= 8) で構成されているとすると 、 これらは ADRC回路部においてそれぞれが 2ビットに圧縮される。
このようにして圧縮された対数データをそれぞれ qn (n= l〜6) とすると 、 クラス分類部 14に設けられたクラスコード発生回路部は、 圧縮された対数デ ータ q―に基づいて、 次式、 c l a s s ∑ (2つ'
;=1
(2) に示す演算を実行することにより、 そのブロック (c^ q^ が属するクラス を示すクラスコード c l a s sを算出し、 当該算出されたクラスコード c 1 a s sを表すクラスコードデータ D 14を予測係数メモリ 1 5に供給する。 このクラ スコード c 1 a s sは、 予測係数メモリ 1 5から予測係数を読み出す際の読み出 しアドレスを示す。 因みに (2) 式において、 nは圧縮された対数データ q の 数を表し、 この実施の形態の場合 n = 6であり、 また ίΡはビット割り当てを表し 、 この実施の形態の場合 P= 2である。 .
このようにして、 クラス分類部 1 4は入力オーディオデータ D 1 0から算出き れた対数データ D l 1のクラスコードデータ D 1 4を生成し、 これを予測係数メ モリ 1 5に供給する。 '
予測係数メモリ 1 5には、 各クラスコードに対応する予測係数のセットがクラ スコードに対応するァドレスにそれぞれ記憶されており、 クラス分類部 1 4から 供給されるクラスコードデータ D 1 4に基づいて、 当該クラスコードに対応する アドレスに記憶されている予測係数のセット
Figure imgf000007_0001
が読み出され、 予測演算 部 1 6に供給される。
予測演算部 1 6は、 予測演算部抽出部 1 3において入力オーディォデータ D 1 0から時間軸領域で切り出された予測演算しょうとするオーディォ波形データ ( 予測タップ) D 1 3 (Xi Xj と、 予測係数 W^〜W_に対して、 次式 y ' W , X + W X (3) に示す積和演算を行うことにより、 予測結果 y' を得る。 この予測値 y' 力 音 質が改善されたオーディオデータ D 1 6として予測演算部 1 6から出力される。 なお、 オーディオ信号処理装置 1 0の構成として図 1について上述した機能プ ロック.を示したが、 この機能プロックを構成する具体的構成として、 この実施の 形態においては図 2に示すコンピュータ構成の装置を用いる。 すなわち、 図 2に おいて、 オーディオ信号処理装置 1 0は、 バス BUSを介して C PU 2 1、 RO M (R e a d On l y Memo r y) 22、 予測係数メモリ 1 5を構成する RAM (Ra n d om Ac c e s s Memo r y) 1 5、 及び各回路部がそ れぞれ接続された構成を有し、 CPU 1 1は ROM22に格納されている種々の プログラムを実行することにより、 図 1について上述した各機能プロック (スぺ クトル処理部 1 1、 予測演算部抽出部 1 3、 クラス分類部 14及び予測演算部 1 6) として動作するようになされている。 - また、 オーディオ信号処理装置 1 0にはネットワークとの間で通信を行う通信 ィンターフェース 24、 フロッピィディスクや光磁気ディスク等の外部記憶媒体 から情報を読み出すリムーバブルドライブ 28を有し、 ネットワーク経由又は外 部記憶媒体から図 1について上述したクラス分類適用処理を行うための各プログ ラムをハードディスク装置 25のハードディスクに読み込み、 当該読み込まれた プログラムに従ってクラス分類適応処理を行うこともできる。
ユーザは、 キーボードやマウス等の入力手段 1 8を介して種々のコマンドを入 力することにより、 CPU 2 1に対して図 1について上述したクラス分類処理を 実行させる。 この場合、 オーディオ信号処理装置 1 0はデータ入出力部 27を介 して音質を向上させようとするオーディオデータ (入力オーディオデータ) D 1 0を入力し、 当該入力オーディオデータ D 1 0に対してクラス分類適用処理を施 した後、 音質が向上したオーディォデータ D 1 6をデータ入出力部 27を介して 外部に出力し得るようになされている。
因みに、 図 3はオーディオ信号処理装置 1 0におけるクラス分類適応処理の処 理手順を示し、 オーディオ信号処理装置 10はステップ S P 1 0 1から当該処理 手順に入ると、 続くステップ S P 1 0 2において入力オーディオデータ D 1 0の 対数データ D 1 1をスぺクトル処理部 1 1において算出する。 この算出された対数データ D 1 1は入力オーディオデータ D 1 0の特徴を表す ものであり、 オーディオ信号処理装置 1 0は、 ステップ S P 1 0 3に移ってクラ ス分類部 1 4により対数データ D 1 1に基づいてクラスを分類する。 そしてォー ディォ信号処理装置 1 0はクラス分類の結果得られたクラスコードを用いて予測 係数メモリ 1 5から予測係数を読み出す。 この予測係数は予め学習によりクラス 毎に対応して格納されており、 オーディオ信号処理装置 1 0はクラスコードに対 応した予測係数を読み出すことにより、 このときの対数データ D l 1の特徴に合 致した予測係数を用いることができる。
予測係数メモリ 1 5から読み出された予測係数は、 ステップ S P 1 0 4におい て予測演算部 1 6の予測演算に用いられる。 これにより、 入力オーディオデータ D 1 0はその対数データ D l 1の特徴に適応した予測演算により、 所望とするォ 一ディォデータ D 1 6に変換される。 かくして入力オーディオデータ D 1 0はそ の音質が改善されたオーディオデータ D 1 6に変換され、 オーディオ信号処理装 置 1 0はステップ S P 1 0 5に移って当該処理手順を終了する。
次に、 オーディオ信号処理装置 1 0のスぺクトル処理部 1 1における入カオ一 ディォデータ D 1 0の対数データ D l 1の算出方法について説明する。
すなわち、 図 4はスぺク トル処理部 1 1における対数データ算出方法の対数デ ータ算出処理手順を示し、 スぺクトル処理部 1 1はステップ S P 1から当該処理 手順に入ると、 続くステップ S P 2において入力オーディオデータ D 1 0を所定 時間毎の領域に切り出した時間軸波形データであるクラスタップを構築し、 ステ ップ S P 3に移る。 ' ステップ S P 3において、 スペク トル処理部 1 1はクラスタップに対して、 窓 関数を 「W ( K)」 とすると、 次式、
W 〔k〕 = 0 . 4 5 + 0 . 4 6 * c o s ( π * k /N)
く k = 0, ……, N _ l〉 …… (4 ) に示すハミング窓に従って、 乗算データを算出し、 ステップ S P 4に移る。 因み に、 この窓関数の乗算処理においては、 続くステップ S P 4において行われる周 波数分析の精度を向上させるために、 このとき構築されたそれぞれのクラスタッ プの最初の値と最後の値を等しくするようになされている。 また、 (1) 式にお いて、 「N」 はハミング窓のサンプル数を表しており、 「k」 は何番目のサンプル データであるかを表している。
ステップ S P 4において、 スぺク トル処理部 1 1は乗算データに対して、 高速 フーリェ変換 (F F T: F a s t F o u r i e r T r a n s f o r m) を行 うことにより、 図 5に示すようなパワースペク トルデータを算出し、 ステップ S P 5に移る。 - ステップ S P 5において、 スぺク トル処理部 1 1はパワースぺクトルデータか ら有意であるパワースぺク トルデータのみを抽出するようになされている。
この抽出処理において、 N個の乗算データから算出したパワースぺクトルデー タのうち、 NZ2から右側のパワースペクトルデータ群 AR 2 (図 5) は、 ゼロ 値から N/2までの左側のパワースペク トルデータ群 AR 1 (図 5) とほぼ同じ 成分になる (すなわち、 左右対称となる)。 このことは、 N個の乗算データの周 波数帯域内で、 両端から等距離にある 2個の周波数点におけるパワースぺクトル データの成分が互いに共役であることを示している。 従って、 スペク トル処理部 1 1は、 ゼロ値から N/2までの左側のパワースペク トルデータ群 AR 1 (図 5 ) のみを抽出対象とする。
そしてスぺク トル処理部 1 1は、 このとき抽出対象としたパワースぺク トルデ ータ群 AR1のうち、 予めユーザが入力手段 1 8 (図 1及ぴ図 2) を介して選択 設定した以外の m個のパワースぺク トルデータを除いて抽出する。
具体的には、 ユーザが入力手段 1 8を介して例えば人間の声を一段と高音質に するように選択設定を行った場合、 当該選択操作に応じた制御データ D 1 8が入 力手段 1 8からスペク トル処理部 1 1に出力され (図 1及び図 2)、 これにより スペク トル処理部 1 1は、 このとき抽出したパワースペク トルデータ群 AR 1 ( 図 5) から、 人間の声において有意となる 500 H zから 4 kH z付近のパワー スぺクトルデータのみを抽出する (すなわち 50 OHzから 4 kHz付近以外の パワースぺクトノレデータが、 除くべき m個のパワースぺクトルデータである)。 また、 ユーザが入力手段 1 8 (図 1及び図 2) を介して例えば音楽を一段と高 音質にするように選択を行った場合には、 当該選択操作に応じた制御データ D 1 8が入力手段 1 8からスぺクトル処理部 1 1に出力され、 これによりスぺクトル 処理部 1 1は、 このとき抽出したパワースペク トルデータ群 AR 1 (図 5) から 、 音楽において有意となる 2 OHzから 20 kH z付近のパワースぺクトルデー タのみを抽出する (すなわち 2 OH zから 20 k H z付近以外のパワースぺク ト ルデータが、 除くべき m個のパワースペクトルデータである)。
このように入力手段 1 8 (図 1及び図 2) から出力される制御データ D 1 8は 、 有意なパワースぺクトルデータとして抽出する周波数成分を決定づけるように なされており、 入力手段 1 8 (図 1及び図 2) を介して手動で選択操作するユー ザの意図を反映している。
従って、 制御データ D 1 8に応じてパワースぺクトルデータを抽出するスぺク トル処理部 1 1は、 ユーザが高音質での出力を希望する特定のオーディオ成分の 周波数成分を有意なパワースぺク トルデータとして抽出することとなる。
因みに、 スぺク トル処理部 1 1は、 抽出対象としたパワースぺク トルデータ群 AR1のうち、 もとの波形の音程を表すため、 有意な特徴をもたない直流成分の パワースぺクトルデータをも除いて抽出するようになされている。
このように、 ステップ S P 5において、 スペク トル処理部 1 1は制御データ D 1 8に応じて、 パワースぺクト データ群 AR 1 (図 5) から m個のパワースぺ クトルデータを除くと共に、 直流成分のパワースぺクトルデータも除いてなる必 要最小限のパワースぺク トルデータ、 すなわち有意なパワースぺグトルデータの みを抽出し、 続くステップ S P 6に移る。
ステップ S P 6において、 スぺクトル処理部 1 1は抽出されたパワースぺク ト ルデータに対して、 次式、 p s ma x=ma x ( s [k]) (5) に従って、 このとき抽出されたパワースペク トルデータ (p s [k]) の最大値 (p s— ma x) を算出し、 次式、 p s n 〔JK〕 =p s Lkj / p s ma ( 6 ) に従って、 このとき抽出されたパワースペク トルデータ (p s [k]) の最大値 (p s_ma x) での正規化 (除算) し、 このとき得られた基準値 (p S n [k ]) に対して、 次式、 p s 1 〔k〕 = 1 0. 0 * l o g (p s n [k]) ······ (7) に従って、 対数 (デシベル値) 変換を行うようになされている。 因みに (7) 式 において、 l o gは常用対数である。
このように、 ステップ S P 6において、 スぺク トル処理部 1 1は最大振幅で正 規化及ぴ振幅の対数変換を行うことにより、 特徴部分 (有意である小さな波形部 分) をも見い出すと共に、 結果として、 音声を聞く対象である人間が心地よく聞 き得るようにする対数データ D 1 1を算出し、 続くステップ S P 7に移って対数 データ算出処理手順を終了する。
このようにして、 スぺクトル処理部 1 1は対数データ算出方法の対数データ算 出処理手順によって、 入力オーディオデータ D 1 0で表される信号波形の特徴を 一段と見い出した対数データ D 1 1を算出することができる。
次に、 図 1について上述した予測係数メモリ 1 5に記憶するクラス毎の予測係 数のセットを予め学習によって得るための学習回路について説明する。
図 6にお!/、て、 学習回路 30は、 高音質の教師オーディオデータ D 30を生徒 信号生成フィルタ 3 7に受ける。 生徒信号生成フィルタ 3 7は、 間引き率設定信 号 D 3 9により設定された間引き率で教師オーディオデータ D 3 0を所定時間ご とに所定サンプル間引くようになされている。
この場合、 生徒信号生成フィルタ 3 7における間引き率によって、 生成される 予測係数が異なり、 これに応じて上述のオーディオ信号処理装置 1 0で再現され るオーディオデータも異なる。 例えば、 上述のオーディオ信号処理装置 1 0にお いてサンプリング周波数を高くすることでオーディオデータの音質を向上しよう とする場合、 生徒信号生成フィルタ 3 7ではサンプリング周波数を減らす間引き 処理を行う。 また、 これに対して上述のオーディオ信号処理装置 1 0において入 力オーディオデータ D 1 0の欠落したデータサンプルを補うことで音質の向土を 図る場合には、 これに応じて、 生徒信号生成フィルタ 3 7ではデ一タサンプルを 欠落させる間引き処理を行うようになされている。
かくして、 生徒信号生成フィルタ 3 7は教師オーディオデータ 3 0から所定の 間引き処理により生徒オーディオデータ D 3 7を生成し、 これをスぺク トル処理 部 3 1及ぴ予測演算部抽出部 3 3にそれぞれ供給する。 ,
スぺク トル処理部 3 1は生徒信号生成フィルタ 3 7から供給された生徒オーデ ィォデータ D 3 7を所定時間毎の領域 (この実施の形態の場合、 例えば 6サンプ ル毎とする) に分割した後、 当該分割された各時間領域の波形について、 図 4に ついて上述した対数データ算出方法による算出結果であってクラス分類しようと する対数データ D 3 1を算出し、 これをクラス分類部 3 4に供給する。
クラス分類部 3 4は、 スぺクトル処理部 3 1から供給された対数データ D 3 1 について、 当該対数データ D 3 1を圧縮して圧縮データパターンを生成する A D R C回路部と、 対数データ D 3 1の属するクラスコードを発生するクラスコ一ド 発生回路部とを有する。
A D R C回路部は対数データ D 3 1に対して、 例えば 8ビットから 2ビットに 圧縮するような演算を行うことによりパターン圧縮データを形成する。 この A D R C回路部は、 適応的量子化を行うものであり、 ここでは、 信号レベルの局所的 なパターンを短!/、語長で効率的に表現することができるので、 信号パターンのク ラス分類のコード発生用に用いられる。
具体的には、 6つの 8ビットのデータ (対数データ) をクラス分類しようとす る場合、 248という膨大な数のクラスに分類しなければならず、 回路上の負担 が多くなる。 そこで、 この実施の形態のクラス分類部 34ではその内部に設けら れた A D R C回路部で生成されるパターン圧縮データに基づいてクラス分類を行 う。 例えば 6つの対数データに対して 1ビットの量子化を実行すると、 6つの対 数データを 6ビットで表すことができ、 26 = 64クラスに分類することができ る。
ここで、 ADRC回路部は、'切り出された領域内のダイナミックレンジを: DR 、 ビット割り当てを m、 各対数データのデータレベルを L、 量子化コードを Qと して、 上述の (1) 式と同様の演算により、 領域内の最大値 MAXと最小値 M I Nとの間を指定されたビット長で均等に分割して量子化を行う。 かくしてスぺク トル処理部 3 1において算出された 6つの対数データが、 それぞれ例えば 8ビッ ト (m= 8) で構成されているとすると、 これらは ADRC回路部においてそれ ぞれが 2ビットに圧縮される。
このようにして圧縮された対数データをそれぞれ qn (η= 1〜6) とすると 、 クラス分類部 34に設けられたクラスコード発生回路部は、 圧縮された対数デ 一タ 11に基づいて、 上述の (2) 式と同様の演算を実行することにより、 その プロック (q i〜q 6) が属するクラスを示すクラスコード c l a s sを算出し 、 当該算出されたクラスコー Kc 1 a s s'を表すクラスコードデータ D 34を予 測係数算出部 3 6に供給する。 因みに (2) 式において、 nは圧縮された対数デ ータ q flの数を表し、 この実施の形態の場合 n= 6であり、 また Pはビット割り 当てを表し、 この実施の形態の場合 P= 2である。
このようにして、 クラス分類部 34はスぺクトル処理部 3 1から供給された対 数データ D 3 1のクラスコードデータ D 34を生成し、 これを予測係数算出部 3 6に供給する。 また、 予測係数算出部 3 6には、 クラスコードデータ D 34に対 応した時間軸領域のオーディオ波形データ D 33 (x 1S x2、 ······、 xj が予 測演算部抽出部 33において切り出されて供給される。
予測係数算出部 3 6は、 クラス分類部 34から供給されたクラスコード c 1 a s sと、 各クラスコード c 1 a s s毎に切り出されたオーディオ波形データ D 3 3と、 入力端 TI Nから供給された高音質の教師オーディオデータ D 30とを用 いて、 正規方程式を立てる。
すなわち、 生徒オーディォデータ D 3 7の nサンプルのレベルをそれぞれ X ± 、 x 2、 ……、 xaとして、 それぞれに pビッ トの ADRCを行った結果の量子 化データを ¾ ι、 ……、 qnとする。 このとき、 この領域のクラスコード c 1 a s sを上述の (2) 式のように定義する。 そして、 上述のように生徒オーディォ データ D 3 7のレベルをそれぞれ、 x l x2、 ……、 xnとし、 高音質の教師ォ 一ディォデータ D 30のレベルを yとしたとき、 クラスコード毎に、 予測係数 w w , …- ·'、 こよる nタップの線形推定式を設定する。 これを次式、 y=w1 x .+w2 x ^ + - ■ + w X (8) とする。 学習前は、 Wnが未定係数である。
学習回路 30では、 クラスコード毎に、 複数のオーディオデータに対して学習 を行う。 データサンプル数が Mの場合、 上述の (8) 式に従って、 次式、 y wx xk l + w2xk2 + ' (9) が設定される。 但し k = l、 2、 …… Mである。
M>nの場合、 予測係数 Wl、 …… wnは一意的に決まらないので、 誤差べク トル eの要素を次式、
e k_ {w i X k i +w2 x k 2 +…… wn x k n} (10) によって定義し (但し、 k = l、 2、 ·、 M)、 次式、
M
=∑
k=
(1 1) を最小にする予測係数を求める。 いわゆる、 最小自乗法による解法である, ここで、 (1 1) 式による w„の偏微分係数を求める。 この場合、 次式、
M M
=∑2 ∑2X
WJ \Wl k=0
M
= 2 ぉ * ( =1,2. n)
k=0
(1 2) を 「0」 にするように、 各 Wn (n = 1— 6) を求めれば良い c
そして、 次式、
M
X,. ∑ X
P = 0
(1 3)
M =0
(14) のように、 Xi Yiを定義すると、 (1 2) 式は行列を用いて次式、
Figure imgf000017_0001
( 1 5 ) として表される。
この方程式は、 一般に正規方程式と呼ばれている。 なお、 ここでは n = 6であ る。 '
全ての学習用データ (教師オーディオデータ D 3 0、 クラスコード c 1 a s s 、 オーディオ波形データ D 3 3 ) の入力が完了した後、 予測係数算出部 3 6は各 クラスコード c 1 a s sに上述の ( 1 5 ) 式に示した正規方程式を立てて、 この 正規方程式を掃き出し法等の一般的な行列解法を用いて、 各 Wnについて解き、 各クラスコード毎に、 予測係数を算出する。 予測係数算出部 3 6は、 算出された 各予測係数 (D 3 6 ) を予測係数メモリ 1 5に書き込む。
このような学習を行った結果、 予測係数メモリ 1 5には、 量子化データ qい ……、 q 6で規定されるパターン毎に、 高音質のオーディオデータ yを推定する ための予測係数が、 各クラスコード毎に格納される。 この予測係数メモリ 1 5は 、 図 1について上述したオーディオ信号処理装置 1 0において用いられる。 かか る処理により、 線形推定式に従って通常のオーディオデータから高音質のオーデ ィォデータを作成するための予測係数の学習が終了する。
このように、 学習回路 3 0は、 オーディオ信号処理装置 1 0において補間処理 を行う程度を考慮して、 生徒信号生成フィルタ 3 7で高音質の教師オーディオデ ータの間引き処理を行うことにより、 ォ一ディォ信号処理装置 1 0における補間 処理のための予測係数を生成することができる。 以上の構成において、 オーディオ信号処理装置 1 0は、 入力オーディオデータ D 1 0に対して高速フーリエ変換を行うことにより、 周波数軸上にパワースぺク トルを算出する。 周波数分析 (高速フーリエ変換) は、 時間軸波形データからで は知りえない微妙な違いを発見することが可能であることにより、 オーディォ信 号処理装置 1 0は、 時間軸領域に特徴を見い出せない微妙な特徴を見い出し得る ようになる。 '
微妙な特徴を見い出し得る状態 (すなわち、 パワースペクトルを算出した状態
) において、 オーディオ信号処理装置 1 0は、 選択範囲設定手段 (ユーザが入力 手段 1 8から手動で行う選択設定) に応じて、 有意とされるパワースペク トルデ ータのみを抽出 (すなわち、 Ν/ 2—m個) する。
これによりオーディォ信号処理装置 1 0は、 処理負担を一段と軽減することが でき、 かつ処理速度を向上させることができる。
このように、 オーディオ信号処理装置 1 0は、 周波数分析を行うことにより、 微妙な特徴を見い出し得るようになされたパワースぺクトルデータを算出し、 さ らに算出したパワースぺクトルデータから有意とされるパワースぺクトルデータ のみを抽出する。 従ってオーディオ信号処理装置 1 0は、 必要最低限の有意なパ ワースぺクトルデータのみを抽出したことになり、 当該抽出したパワースぺク ト ルデータに基づいて、 そのクラスを特定する。
そしてオーディオ信号処理装置 1 0は、 抽出した有意なパワースぺクトルデー タに基づいて特定したクラスに基づく予測係数を用いて入力オーディオデータ D 1 0を予測演算することにより、 当該入力オーディオデータ D 1 0を一段と高音 質のオーディオデータ D 1 6に変換することができる。
また、 クラス毎の予測係数を生成する学習時において、 位相の異なる多数の教 師オーディォデータについてそれぞれに対応した予測係数を求めておくことによ り、 オーディオ信号処理装置 1 0における入力オーディオデータ D 1 0のクラス 分類適応処理時に位相変動が生じても、 位相変動に対応した処理を行うことがで さる。 以上の構成によれば、 周波数分析を行うことにより、 微妙な特徴を見い出し得 るようになされたパワースぺクトルデータから有意とされるパワースぺクトルデ ータのみを抽出し、 これをクラス分類した結果に基づく予測係数を用いて入カオ 一ディォデータ D 1 0を予測演算するようにしたことにより、 入力オーディオデ ータ D 1 0を一段と高音質のオーディオデータ D 1 6に変換することができる。 なお上述の実施の形態においては、 窓関数としてハミング窓を用いて乗算する 場合について述べたが、 本発明はこれに限らず、 ハミング窓に代えて、 例えばハ ユング窓やプラックマン窓等、 他の種々の窓関数によって乗算する、 又はスぺク トル処理部において予め各種窓関数 (ハミング窓、 ハユング窓及びプラックマン 窓等) を用いて乗算し得るようにしておき、 入力されるディジタルオーディオ信 号の周波数特性に応じて、 スぺク トル処理部が所望の窓関数を用いて乗算するよ うにしても良い。
因みに、 スぺク ル処理部がハニング窓を用いて乗算する場合、 スぺクトル処 理部は、 切り出し部から供給されたクラスタップに対して、 次式、
W 〔k〕 =0. 50 + 0. 50* c o s (π * k/N)
く k = 0, ……, N- 1 ) …… (1 6) からなるハユング窓を乗算して乗算データを算出する。
また、 スぺクトル処理部がブラックマン窓を使用して乗算する場合、 スぺク ト ル処理部は、 切り出し部から供給されたクラスタップに対して、 次式、
W 〔k〕 =0. 42 + 0. 50* c o s (π * k/N)
+ 0. 0 8 * c o s (2 π* k/N)
<k = 0, ……, N— 1〉
…… (1 7) からなるブラックマン窓を乗算して乗算データを算出する。
また上述の実施の形態においては、 高速フーリエ変換を用いる場合について述 ベたが、 本発明はこれに限らず、 例えば離散フーリエ変換 (DFT : D i s - c r e t e F o u r i e r T r a n s f o r me r) や離散コサイン変換 ( DCT : D i s c r e t e C o s i n e T r a n s f o r m) 又は最大ェン トロピー法、 さらには線形予測分析による方法等、 他の種々の周波数分析手段を 適用することができる。
さらに上述の実施の形態においては、 スぺクトル処理部 1 1がゼロ値から NZ 2までの左側のパワースペクトルデータ群 AR 1 (図 5) のみを抽出対象とする 場合について述べたが、 本発明はこれに限らず、 右側のパワースぺクトルデータ 群 AR2 (図 5) のみを抽出対象とするようにしても良い。
この場合、 オーディオ信号処理装置 1 0の処理負担を一段と軽減することがで き、 処理速度を一段と向上させることができる。
さらに上述の実施の形態においては、 圧縮データパターンを生成するパターン 生成手段として、 ADRCを行う場合について述べたが、 本発明はこれに限らず 、 例えば可逆符号化 (D P CM: D i f f e r e n t i a l P u l s e C o d e Mo d u l a t i o n) やべクトグレ量子ィ匕 (VQ : V e c t o r Qu a n t i z e) 等の圧縮手段を用いるようにしても良い。 要は、 信号波形め パターンを少ないクラスで表現し得るような圧縮手段であれば良い。
さらに上述の実施の形態においては、 ユーザが手動で選択操作し得る選択範囲 設定手段として、 人間の声及ぴ音声を選択 (すなわち、 抽出する周波数成分とし て 500Hz〜 4 kH z又は 20H z〜 20 kH z) する場合について述べたが 、 本発明はこれに限らず、 例えば図 7に示すように、 高域 (UP P)、 中域 (M I D) 及び低域 (LOW) のいづれかの周波数成分を選択する、 又は図 8に示す ように、 まばらに周波数成分を選択する、 さらには図 9に示すように、 不均一に 帯域を周波数成分する等、 他の種々の選択範囲設定手段を適用し得る。
この場合、 オーディオ信号処理装置には、 新たに設けられた選択範囲設定手段 に対応するプログラムを作成してハードディスクドライブや ROM等、 所定の記 憶手段に格納させる。 これにより、 ユーザが手動で入力手段 1 8を介して新たに 設けられた選択範囲設定手段を選択操作した場合においても、 このとき選択され た選択範囲設定手段に応じた制御データが入力手段からスぺク トル処理部に出力 され、 これによりスペク トル処理部は、 新たに設けられた選択範囲設定手段に対 応するプログラムによって、 所望の周波数成分からパワースぺク トルデータの抽 出を行う。
このようにすれば、 他の種々の選択範囲設定手段を適用することができ、 ユー ザの意図に応じた有意なパワースペク トルデータを抽出することができる。 さらに上述の実施の形態においては、 オーディオ信号処理装置 1 0 (図 2) が プログラムによってクラスコード生成処理手順を実行する場合について述べたが 、 本発明はこれに限らず、 ハードウェア構成によってこれらの機能を実現して種 々のディジタル信号処理装置 (例えば、 レートコンバータ、 オーバーサンプリン グ処理装置、 B S (B r o a d c a s t i n g S a t e l l i t e) 放送等に 用いられている P CM (P u 1 s e C o d e M o d u 1 a t i o n ) デイジ タル音声エラー訂正を行う P CMエラー修正装置等) 内に設けたり、 又は各機能 を実現するプログラムを格納したプログラム格納媒体 (フロッピーディスク、 光 ディスク等) からこれらのプログラムを種々のディジタル信号処理装置にロード して各機能部を実現するようにしても良い。
上述のように本発明によれば、 ディジタルオーディオ信号からパワースぺク ト ルデータを算出し、 算出されたパワースぺクトルデータから一部のパワースぺク トルデータを抽出し、 抽出された一部のパワースぺク トルデータに基づいてその クラスを分類し、 分類されたクラスに対応した予測方式でディジタルオーディォ 信号を変換するようにしたことにより、 一段とディジタルオーディオ信号の特徴 に適応した変換を行うことができ、 かくして、 ディジタルオーディオ信号の波形 再現性を一段と向上した高音質のディジタルオーディォ信号への変換を行うこと ができる。 産業上の利用の可能性
本発明は、 ディジタル信号に対してデータの補間処理を行うレートコンパ、 タ、 P CM復号装置やオーディォ信号処理装置に利用し得る。

Claims

請 求 の 範 囲
1 . ディジタルオーディォ信号を変換するディジタル信号処理方法において、 上記ディジタルオーディオ信号からパワースぺクトルデータを算出する周波数 分析ステップと、
上記パワースぺク トルデータから一部のパワースぺクトルデータを抽出するス ぺクトルデータ抽出ステップと、
上記一部のパワースペクトルデータに基づいてそのクラスを分類するクラス分 上記分類されたクラスに対応した予測方式で上記ディジタルオーディォ信号を 変換してなる新たなディジタルオーディォ信号を生成する予測演算ステツプと を具えることを特徴とするディジタル信号処理方法。
2 . 上記周波数分析ステップでは、 窓関数の各種演算処理方法が具えられ、 上記ディジタルオーディオ信号の周波数特性に応じて、 所望の上記演算処理方 法が用いられる
ことを特徴とする請求の範囲第 1項に記載のディジタル信号処理方法。
3 . 上記スペクトルデータ抽出ステップでは、
上記一部のパワースぺクトルデータを抽出する際、 直流成分のパワースぺク ト ルデータが除かれる
ことを特徴とする請求の範囲第 1項に記載のディジタル信号処理方法。
4 . 上記予測演算ステップでは、
予め所望とするディジタルオーディオ信号に基づいて学習により生成されてい る予測係数が用いられる
ことを特徴とする請求の範囲第 1項に記載のディジタル信号処理方法。
5 . 上記パワースペク トルデータは、 ほぼ左右対称の成分からなり、 上記スぺク トルデータ抽出ステップでは、
上記パワースぺクトルデータのうち、 左右いづれかの成分が抽出対象とされる ことを特徴とする請求の範囲第 1項に記載のディジタル信号処理方法。
6 . ディジタルオーディオ信号を変換するディジタル信号処理装置において、 上記デイジタルオーディォ信号からパワースぺタトルデータを算出する周波数 分析手段と、
上記パワースぺク トルデータから一部のパワースぺク トルデータを抽出するス ぺクトルデータ抽出手段と、
上記一部のパワースぺク トルデータに基づいてそのクラスを分類するクラス分 類手段と、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を 変換してなる新たなディジタルオーディォ信号を生成する予測演算手段と を具えることを特徴とするディジタル信号処理装置。
7 . 上記周波数分析手段は、 窓関数の各種演算処理手段を具え、
上記ディジタルオーディオ信号の周波数特性に応じて、 所望の上記演算処理手 段を用いる
ことを特徴とする請求の範囲第 6項に記載のディジタル信号処理装置。
8 . 上記スペク トルデータ抽出手段は、
上記一部のパワースぺクトルデータを抽出する際、 直流成分のパワースぺク ト ルデータを除く
ことを特徴とする請求の範囲第 6項に記載のディジタル信号処理装置。
9 . 上記予測演算手段は、
予め所望とするディジタルオーディオ信号に基づいて学習により生成されてい る予測係数を用いる
ことを特徴とする請求の範囲第 6項に記載のディジタル信号処理装置。
1 0 . 上記パワースペク トルデータは、 ほぼ左右対称の成分からなり、 上記スぺク トルデータ抽出手段は、
上記パワースぺク トルデータのうち、 左右いづれかの成分を抽出対象とする ことを特徴とする請求の範囲第 6項に記載のディジタル信号処理装置。
1 1 . ディジタルオーディオ信号からパワースぺク トルデータを算出する周波 数分析ステップと、
上記パワースぺク トルデータから一部のパワースぺク トルデータを抽出するス ぺク トノレデータ抽出ステップと、
上記一部のパワースぺクトルデータに基づいてそのクラスを分類するクラス分 類ステップと、
上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を 変換してなる新たなディジタルオーディォ信号を生成する予測ステップと を含むプログラムをディジタル信号処理装置に実行させるプログラム格納媒体
1 2 . 上記周波数分析ステップでは、 窓関数の各種演算処理方法が具えられ、 上記ディジタルオーディオ信号の周波数特性に応じて、 所望の上記演算処理方 法が用いられる
ことを特徴とする請求の範囲第 1 1項に記載のプログラム格納媒体。
1 3 . 上記スペク トルデータ抽出ステップでは、 上記一部のパワースぺク トルデータを抽出する際、 直流成分のパワースぺク ト ルデータが除かれる
ことを特徴とする請求の範囲第 1 1項に記載のプログラム格納媒体。
1 4 . 上記パワースペク トルデ一タは、 ほぼ左右対称の成分からなり、 上記スぺクトルデータ抽出ステップでは、
上記パワースぺク トルデータのうち、 左右いづれかの成分が抽出対象とされる ことを特徴とする請求の範囲第 1 1項に記載のプログラム格納媒体。
1 5 . ディジタルオーディォ信号を変換するディジタル信号処理装置の上記変 換処理の予測に用いられる予測係数を生成する学習方法において、
所望とするディジタルオーディォ信号から当該ディジタルオーディォ信号を劣 化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信 号生成ステップと、
上記生徒デイジタルオーディオ信号からパワースぺク トルデータを算出する周 波数分析ステップと、
上記パワースぺク トノレデータから一部のパワースぺク トルデータを抽出するス ぺク トルデータ抽出ステップと、
上記一部のパワースぺクトルデータに基づいてそのクラスを分類するクラス分 類ステップと、
上記ディジタルオーディォ信号と上記生徒ディジタルオーディォ信号とに基づ いて上記クラスに対 ifeする予測係数を算出する予測係数算出ステップと
を具えることを特徴とする学習方法。
1 6 . 上記周波数分析ステップでは、 窓関数の各種演算処理方法が具えられ、 上記ディジタルオーディオ信号の周波数特性に応じて、 所望の上記演算処理方 法が用いられる ことを特徴とする請求の範囲第 1 5項に記載の学習方法。
1 7 . 上記スぺク トルデータ抽出ステップでは、
上記一部のパワースぺクトルデ一タを抽出する際、 直流成分のパワースぺク ト ルデータが除かれる
ことを特徴とする請求の範囲第 1 5項に記載の学習方法。
1 8 . 上記パワースペク トルデータは、 ほぼ左右対称の成分からなり、 上記スぺクトルデータ抽出ステップでは、
上記パワースぺク トルデータのうち、 左右いづれかの成分が抽出対象とされる ことを特徴とする請求の範囲第 1 5項に記載の学習方法。
1 9 . ディジタルオーディオ信号を変換するディジタル信号処理装置の上記変 換処理の予測演算に用いられる予測係数を生成する学習装置において、
所望とするディジタルオーディォ信号から当該デイジタルオーディォ信号を劣 化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信 号生成手段と、
上記生徒デイジタルオーディォ信号からパワースぺク トルデータを算出する周 波数分析手段と、
上記パワースぺク トルデータから一部のパワースぺクトルデータを抽出するス ぺクトルデータ抽出手段と、
上記一部のパワースぺクトルデータに基づレ、てそのクラスを分類するクラス分 類手段と、
上記ディジタルオーディォ信号と上記生徒ディジタルオーディォ信号とに基づ いて上記グラスに対応する予測係数を算出する予測係数算出手段と
を具えることを特徴とする学習装置。
2 0 . 上記周波数分析手段は、 窓関数の各種演算処理手段を具え、
上記ディジタルオーディオ信号の周波数特性に応じて、 所望の上記演算処理手 段を用いる
ことを特徴とする請求の範囲第 1 9項に記載の学習装置。
2 1 . 上記スぺク トルデータ抽出手段は、
上記一部のパワースぺクトルデータを抽出する際、 直流成分のパワースぺク ト ルデータを除く
ことを特徴とする請求の範囲第 1 9項に記載の学習装置。
2 2 . 上記パワースぺク トルデータは、 ほぼ左右対称の成分からなり、 上記スぺク トルデータ抽出手段は、
上記パワースぺク トルデータのうち、 左右いづれかの成分を抽出対象とする ことを特徴とする請求の範囲第 1 9項に記載の学習装置。
2 3 . 所望とするディジタルオーディォ信号から当該デイジタルオーディォ信 号を劣化させた生徒ディジタルオーディォ信号を生成する生徒ディジタルオーデ ィォ信号生成ステップと、
上記生徒デイジタルオーディォ信号からパワースぺクトルデータを算出する周 波数分析ステップと、
上記パワースぺクトルデータから一部のパワースぺクトルデータを抽出するス ぺクトルデータ抽出ズテツプと、
上記一部のパワースぺクトルデータに基づいてそのクラスを分類するクラス分 類ステップと、
上記ディジタルオーディォ信号と上記生徒ディジタルオーディォ信号とに基づ いて上記クラスに対応する予測係数を算出する予測係数算出ステップと
を含むプログラムをディジタル信号処理装置に実行させるプログラム格納媒体
2 4 . 上記周波数分析ステップでは、 窓関数の各種演算処理方法が具えられ、 上記ディジタルオーディオ信号の周波数特性に応じて、 所望の上記演算処理方 法が用いられる
ことを特徴とする請求の範囲第 2 3項に記載のプログラム格納媒体。
2 5 . 上記スペクトルデータ抽出ステップでは、
上記一部のパワースぺクトルデータを抽出する際、 直流成分のパワースぺクト ルデータが除かれる
ことを特徴とする請求の範囲第 2 3項に記載のプログラム格納媒体。
2 6 . 上記パワースペク トルデータは、 ほぼ左右対称の成分からなり、 上記スぺクトルデータ抽出ステップでは、
上記パワースぺクトルデータのうち、 左右いづれかの成分が抽出対象とされる ことを特徴とする請求の範囲第 2 3項に記載のプログラム格納媒体。
PCT/JP2001/006594 2000-08-02 2001-07-31 Procede de traitement de signaux numeriques, procede d'apprentissage, appareils associes, et support de stockage de programmes WO2002013181A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US10/089,463 US6907413B2 (en) 2000-08-02 2001-07-31 Digital signal processing method, learning method, apparatuses for them, and program storage medium
US11/074,420 US6990475B2 (en) 2000-08-02 2005-03-08 Digital signal processing method, learning method, apparatus thereof and program storage medium
US11/074,432 US20050177257A1 (en) 2000-08-02 2005-03-08 Digital signal processing method, learning method, apparatuses thereof and program storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000238897A JP4538705B2 (ja) 2000-08-02 2000-08-02 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2000-238897 2000-08-02

Related Child Applications (3)

Application Number Title Priority Date Filing Date
US10089463 A-371-Of-International 2001-07-31
US11/074,432 Continuation US20050177257A1 (en) 2000-08-02 2005-03-08 Digital signal processing method, learning method, apparatuses thereof and program storage medium
US11/074,420 Continuation US6990475B2 (en) 2000-08-02 2005-03-08 Digital signal processing method, learning method, apparatus thereof and program storage medium

Publications (1)

Publication Number Publication Date
WO2002013181A1 true WO2002013181A1 (fr) 2002-02-14

Family

ID=18730528

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/006594 WO2002013181A1 (fr) 2000-08-02 2001-07-31 Procede de traitement de signaux numeriques, procede d'apprentissage, appareils associes, et support de stockage de programmes

Country Status (3)

Country Link
US (3) US6907413B2 (ja)
JP (1) JP4538705B2 (ja)
WO (1) WO2002013181A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4596196B2 (ja) * 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4857467B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP3879922B2 (ja) * 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
WO2009072571A1 (ja) * 2007-12-04 2009-06-11 Nippon Telegraph And Telephone Corporation 符号化方法、この方法を用いた装置、プログラム、記録媒体

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57144600A (en) * 1981-03-03 1982-09-07 Nippon Electric Co Voice synthesizer
JPS60195600A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 パラメ−タ内插方法
JPH04115628A (ja) * 1990-08-31 1992-04-16 Sony Corp 可変長符号化のビット長推定回路
JPH05297898A (ja) * 1992-03-18 1993-11-12 Sony Corp データ数変換方法
JPH05323999A (ja) * 1992-05-20 1993-12-07 Kokusai Electric Co Ltd 音声復号装置
JPH0651800A (ja) * 1992-07-30 1994-02-25 Sony Corp データ数変換方法
JPH10313251A (ja) * 1997-05-12 1998-11-24 Sony Corp オーディオ信号変換装置及び方法、予測係数生成装置及び方法、予測係数格納媒体
JPH1127564A (ja) * 1997-05-06 1999-01-29 Sony Corp 画像変換装置および方法、並びに提供媒体
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
JP2000032402A (ja) * 1998-07-10 2000-01-28 Sony Corp 画像変換装置および方法、並びに提供媒体
JP2000078534A (ja) * 1998-06-19 2000-03-14 Sony Corp 画像変換装置および方法、並びに提供媒体

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
JP3511645B2 (ja) 1993-08-30 2004-03-29 ソニー株式会社 画像処理装置及び画像処理方法
JP3400055B2 (ja) 1993-12-25 2003-04-28 ソニー株式会社 画像情報変換装置及び画像情報変換方法並びに画像処理装置及び画像処理方法
US5555465A (en) 1994-05-28 1996-09-10 Sony Corporation Digital signal processing apparatus and method for processing impulse and flat components separately
JP3693187B2 (ja) 1995-03-31 2005-09-07 ソニー株式会社 信号変換装置及び信号変換方法
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JPH0993135A (ja) * 1995-09-26 1997-04-04 Victor Co Of Japan Ltd 発声音データの符号化装置及び復号化装置
JP3707125B2 (ja) * 1996-02-26 2005-10-19 ソニー株式会社 動きベクトル検出装置および検出方法
JPH10124092A (ja) * 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
IL127910A (en) 1997-05-06 2003-01-12 Sony Corp Image converter and image converting method
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
JPH11215006A (ja) * 1998-01-29 1999-08-06 Olympus Optical Co Ltd ディジタル音声信号の送信装置及び受信装置
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6519559B1 (en) * 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
JP4645866B2 (ja) 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4538704B2 (ja) 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
JP4596196B2 (ja) 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645867B2 (ja) 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645868B2 (ja) 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4596197B2 (ja) 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57144600A (en) * 1981-03-03 1982-09-07 Nippon Electric Co Voice synthesizer
JPS60195600A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 パラメ−タ内插方法
JPH04115628A (ja) * 1990-08-31 1992-04-16 Sony Corp 可変長符号化のビット長推定回路
JPH05297898A (ja) * 1992-03-18 1993-11-12 Sony Corp データ数変換方法
JPH05323999A (ja) * 1992-05-20 1993-12-07 Kokusai Electric Co Ltd 音声復号装置
JPH0651800A (ja) * 1992-07-30 1994-02-25 Sony Corp データ数変換方法
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
JPH1127564A (ja) * 1997-05-06 1999-01-29 Sony Corp 画像変換装置および方法、並びに提供媒体
JPH10313251A (ja) * 1997-05-12 1998-11-24 Sony Corp オーディオ信号変換装置及び方法、予測係数生成装置及び方法、予測係数格納媒体
JP2000078534A (ja) * 1998-06-19 2000-03-14 Sony Corp 画像変換装置および方法、並びに提供媒体
JP2000032402A (ja) * 1998-07-10 2000-01-28 Sony Corp 画像変換装置および方法、並びに提供媒体

Also Published As

Publication number Publication date
US20050177257A1 (en) 2005-08-11
JP2002049398A (ja) 2002-02-15
US6907413B2 (en) 2005-06-14
US20020184175A1 (en) 2002-12-05
US6990475B2 (en) 2006-01-24
JP4538705B2 (ja) 2010-09-08
US20050154480A1 (en) 2005-07-14

Similar Documents

Publication Publication Date Title
EP2992689B1 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation
RU2487426C2 (ru) Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
US9037454B2 (en) Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT)
KR102091677B1 (ko) 고조파 전위에 기초하여 개선된 서브밴드 블록
JPS6035799A (ja) 人間の音声エンコード装置及び方法
EP2030199A1 (en) Linear predictive coding of an audio signal
JP2004004530A (ja) 符号化装置、復号化装置およびその方法
JP2001343997A (ja) デジタル音響信号符号化装置、方法及び記録媒体
JP2003108197A (ja) オーディオ信号復号化装置およびオーディオ信号符号化装置
JPH09106299A (ja) 音響信号変換符号化方法および復号化方法
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4645869B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4596197B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US6990475B2 (en) Digital signal processing method, learning method, apparatus thereof and program storage medium
WO2002013180A1 (fr) Traitement de signaux numeriques, systeme d&#39;apprentissage appareil a cet effet et support de stockage de programmes
JP3297751B2 (ja) データ数変換方法、符号化装置及び復号化装置
JP3237178B2 (ja) 符号化方法及び復号化方法
JP3353266B2 (ja) 音響信号変換符号化方法
RU2409874C2 (ru) Сжатие звуковых сигналов
JP4274614B2 (ja) オーディオ信号復号方法
JP4645866B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4618823B2 (ja) 信号符号化装置及び方法
JP4645867B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4645868B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP3384523B2 (ja) 音響信号処理方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA US

WWE Wipo information: entry into national phase

Ref document number: 10089463

Country of ref document: US