WO2002013181A1

WO2002013181A1 - Procede de traitement de signaux numeriques, procede d'apprentissage, appareils associes, et support de stockage de programmes

Info

Publication number: WO2002013181A1
Application number: PCT/JP2001/006594
Authority: WO
Inventors: Tetsujiro Kondo; Masaaki Hattori; Tsutomu Watanabe; Hiroto Kimura
Original assignee: Sony Corporation
Priority date: 2000-08-02
Filing date: 2001-07-31
Publication date: 2002-02-14
Also published as: US20050177257A1; JP2002049398A; US6907413B2; US20020184175A1; US6990475B2; JP4538705B2; US20050154480A1

Description

明細書ディジタル信号処理方法、学習方法及ぴそれらの装置並びにプログラム格納媒体技術分野

本発明はディジタル信号処理方法、学習方法及ぴそれらの装置並びにプログラム格納媒体に関し、レートコンバータ又は P CM (P u l s e C o d e Mo d u l a t i o n) 復号装置等においてディジタル信号に対してデータの補間処理を行うディジタル信号処理方法、学習方法及ぴそれらの装置並びにプログラム格納媒体に適用して好適なものである。 - 背景技術

従来、ディジタルオーディォ信号をディジタル/アナログコンバータに入力する前に、サンプリング周波数を元の値の数倍に変換するオーバサンプリング処理を行っている。これにより、ディジタル /アナログコンバータから出力されたディジタルオーディォ信号はアナログ 'アンチ ·エイリアス 'フィルタの位相特性が可聴周波数高域で一定に保たれ、また、サンプリングに伴うディジタル系のィメ一ジ雑音の影響が排除されるようになされている。

かかるオーバサンプリング処理では、通常、線形一次（直線）補間方式のディジタルフィルタが用いられている。このようなディジタルフィルタは、サンプリングレートが変わったりデータが欠落した場合等に、複数の既存データの平均値を求めて直線的な補間データを生成するものである。

ところが、オーバサンプリング処理後のディジタルオーディオ信号は、線形一次捕間によって時間軸方向に対してデータ量が数倍に緻密になって、るものの、オーバサンプリング処理後のディジタルオーディォ信号の周波数帯域は変換前とあまり変わらず、音質そのものは向上していない。さらに、補間されたデータは必ずしも A / D変換前のアナログオーディオ信号の波形に基づいて生成されたのではないため、波形再現性もほとんど向上していない。

また、サンプリング周波数の異なるディジタルオーディオ信号をダビングする場合において、サンプリング ' レート ·コンバータを用いて周波数を変換してい ¾が、かかる場合でも線形一次デイジタルフィルタによって直線的なデータの捕間しか行うことができず、音質や波形再現性を向上することが困難であった。さらに、ディジタルオーディォ信号のデータサンプルが欠落した場合において同様である。発明の開示

本発明は以上の点を考慮してなされたもので、ディジタルオーディォ信号の波形再現性を一段と向上し得るディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体を提案しようとするものである。

かかる課題を解決するため本発明においては、ディジタルオーディオ信号からパワースぺクトルデータを算出し、算出されたパワースぺクトルデータから一部のパワースぺクトルデータを抽出し、抽出された一部のパワースぺクトルデータに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディォ信号を変換するようにしたことにより、一段とディジタルオーディォ信号の特徴に適応した変換を行うことができる。図面の簡単な説明

図 1は、本発明によるオーディオ信号処理装置を示す機能プロック図である。図 2は、本発明によるオーディオ信号処理装置を示すプロック図である。図 3は、オーディォデータの変換処理手順を示すフローチャートである。図 4は、対数データ算出処理手順を示すフローチャートである。

図 5は、パワースぺクトルデータ算出例を示す略線図である。

図 6は、学習回路の構成を示すブロック図である。

図 7は、パワースぺクトルデータ選択例を示す略線図である。図 8は、パワースぺクトルデータ選択例を示す略線図である。

図 9は、パワースぺクトルデータ選択例を示す略線図である。発明を実施するための最良の形態

以下図面について、本発明の一実施の形態を詳述する。

図 1においてオーディオ信号処理装置 1 0は、ディジタルオーディオ信号（以下これをオーディオデータと呼ぶ) のサンプリングレートを上げたり、オーディォデータを補間する際に、真値に近いオーディォデータをクラス分類適用処理によって生成するようになされている。

因みに、この実施の形態におけるオーディオデータとは、人間の声や楽器の音等を表す楽音データ、さらにはその他種々の音を表すデータである。

すなわち、オーディオ信号処理装置 1 0において、スペクトル処理部 1 1は入力端子 T i _Nから供給された入力オーディォデータ D 1 0を所定時間毎の領域 ( この実施の形態の場合、例えば 6サンプル毎とする）に切り出した時間軸波形データであるクラスタップを構築した後、当該構築したクラスタップについて、後述する対数データ算出方法により、入力手段 1 8から供給される制御データ D 1 8に応じて対数データを算出する。

スペクトル処理部 1 1は入力オーディオデータ D 1 0のこのとき構築されたクラスタップについて、対数データ算出方法による算出結果であってクラス分類しようとする対数データ D l 1を算出し、これをクラス分類部 14に供給する。クラス分類部 1 3は、スぺクトル処理部 1 1から供給された対数データ D 1 1 について、当該対数データ D l 1を圧縮して圧縮データパターンを生成する AD RC (Ad a p t i v e Dy n am i c Ra n g e C o d i n g) '回路部と、対数データ D l 1の属するクラスコードを発生するクラスコード発生回路部とを有する。

ADRC回路部は対数データ D 1 1に対して、例えば 8ビットから 2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。この AD RC回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短い語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。

具体的には、 6つの 8ビットのデータ（対数データ）をクラス分類しようとする場合、 2⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部 14ではその内部に設けられた A D R C回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば 6つの対数データに対して 1ビットの量子化を実行すると、 6つの対数データを 6ビットで表すことができ、 2⁶= 64クラスに分類することができる。

ここで、 ADRC回路部は、切り出された領域内のダイナミックレンジを DR 、ビット割り当てを m、各対数データのデータレベルを L、量子化コードを Qとすると、次式、

DR=MAX-M I N+ 1

Q= {(L-M I N+ 0. 5) X 2^m/DR} (1) に従って、領域内の最大値 M A Xと最小値 M I Nとの間を指定されたビット長で均等に分割して量子化を行う。なお、（1) 式において { } は小数点以下の切り捨て処理を意味する。かくしてスぺクトル処理部 1 1において算出された 6つの対数データが、それぞれ例えば 8ビット（m= 8) で構成されているとすると、これらは ADRC回路部においてそれぞれが 2ビットに圧縮される。

このようにして圧縮された対数データをそれぞれ q_n (n= l〜6) とすると、クラス分類部 14に設けられたクラスコード発生回路部は、圧縮された対数データ q―に基づいて、次式、 c l a s s ∑ (2つ'

;=1

(2) に示す演算を実行することにより、そのブロック（c^ q^ が属するクラスを示すクラスコード c l a s sを算出し、当該算出されたクラスコード c 1 a s sを表すクラスコードデータ D 14を予測係数メモリ 1 5に供給する。このクラスコード c 1 a s sは、予測係数メモリ 1 5から予測係数を読み出す際の読み出しアドレスを示す。因みに（2) 式において、 nは圧縮された対数データ q の数を表し、この実施の形態の場合 n = 6であり、また ίΡはビット割り当てを表し、この実施の形態の場合 P= 2である。 .

このようにして、クラス分類部 1 4は入力オーディオデータ D 1 0から算出きれた対数データ D l 1のクラスコードデータ D 1 4を生成し、これを予測係数メモリ 1 5に供給する。 '

予測係数メモリ 1 5には、各クラスコードに対応する予測係数のセットがクラスコードに対応するァドレスにそれぞれ記憶されており、クラス分類部 1 4から供給されるクラスコードデータ D 1 4に基づいて、当該クラスコードに対応するアドレスに記憶されている予測係数のセット

が読み出され、予測演算部 1 6に供給される。

予測演算部 1 6は、予測演算部抽出部 1 3において入力オーディォデータ D 1 0から時間軸領域で切り出された予測演算しょうとするオーディォ波形データ（予測タップ） D 1 3 (Xi Xj と、予測係数 W^〜W_に対して、次式 y ' W , X + W X (3) に示す積和演算を行うことにより、予測結果 y' を得る。この予測値 y' 力音質が改善されたオーディオデータ D 1 6として予測演算部 1 6から出力される。なお、オーディオ信号処理装置 1 0の構成として図 1について上述した機能プロック.を示したが、この機能プロックを構成する具体的構成として、この実施の形態においては図 2に示すコンピュータ構成の装置を用いる。すなわち、図 2において、オーディオ信号処理装置 1 0は、バス BUSを介して C PU 2 1、 RO M (R e a d On l y Memo r y) 22、予測係数メモリ 1 5を構成する RAM (Ra n d om Ac c e s s Memo r y) 1 5、及び各回路部がそれぞれ接続された構成を有し、 CPU 1 1は ROM22に格納されている種々のプログラムを実行することにより、図 1について上述した各機能プロック（スぺクトル処理部 1 1、予測演算部抽出部 1 3、クラス分類部 14及び予測演算部 1 6) として動作するようになされている。 - また、オーディオ信号処理装置 1 0にはネットワークとの間で通信を行う通信ィンターフェース 24、フロッピィディスクや光磁気ディスク等の外部記憶媒体から情報を読み出すリムーバブルドライブ 28を有し、ネットワーク経由又は外部記憶媒体から図 1について上述したクラス分類適用処理を行うための各プログラムをハードディスク装置 25のハードディスクに読み込み、当該読み込まれたプログラムに従ってクラス分類適応処理を行うこともできる。

ユーザは、キーボードやマウス等の入力手段 1 8を介して種々のコマンドを入力することにより、 CPU 2 1に対して図 1について上述したクラス分類処理を実行させる。この場合、オーディオ信号処理装置 1 0はデータ入出力部 27を介して音質を向上させようとするオーディオデータ（入力オーディオデータ） D 1 0を入力し、当該入力オーディオデータ D 1 0に対してクラス分類適用処理を施した後、音質が向上したオーディォデータ D 1 6をデータ入出力部 27を介して外部に出力し得るようになされている。

因みに、図 3はオーディオ信号処理装置 1 0におけるクラス分類適応処理の処理手順を示し、オーディオ信号処理装置 10はステップ S P 1 0 1から当該処理手順に入ると、続くステップ S P 1 0 2において入力オーディオデータ D 1 0の対数データ D 1 1をスぺクトル処理部 1 1において算出する。この算出された対数データ D 1 1は入力オーディオデータ D 1 0の特徴を表すものであり、オーディオ信号処理装置 1 0は、ステップ S P 1 0 3に移ってクラス分類部 1 4により対数データ D 1 1に基づいてクラスを分類する。そしてォーディォ信号処理装置 1 0はクラス分類の結果得られたクラスコードを用いて予測係数メモリ 1 5から予測係数を読み出す。この予測係数は予め学習によりクラス毎に対応して格納されており、オーディオ信号処理装置 1 0はクラスコードに対応した予測係数を読み出すことにより、このときの対数データ D l 1の特徴に合致した予測係数を用いることができる。

予測係数メモリ 1 5から読み出された予測係数は、ステップ S P 1 0 4において予測演算部 1 6の予測演算に用いられる。これにより、入力オーディオデータ D 1 0はその対数データ D l 1の特徴に適応した予測演算により、所望とするォ一ディォデータ D 1 6に変換される。かくして入力オーディオデータ D 1 0はその音質が改善されたオーディオデータ D 1 6に変換され、オーディオ信号処理装置 1 0はステップ S P 1 0 5に移って当該処理手順を終了する。

次に、オーディオ信号処理装置 1 0のスぺクトル処理部 1 1における入カオ一ディォデータ D 1 0の対数データ D l 1の算出方法について説明する。

すなわち、図 4はスぺクトル処理部 1 1における対数データ算出方法の対数データ算出処理手順を示し、スぺクトル処理部 1 1はステップ S P 1から当該処理手順に入ると、続くステップ S P 2において入力オーディオデータ D 1 0を所定時間毎の領域に切り出した時間軸波形データであるクラスタップを構築し、ステップ S P 3に移る。 ' ステップ S P 3において、スペクトル処理部 1 1はクラスタップに対して、窓関数を「W ( K)」とすると、次式、

W 〔k〕 = 0 . 4 5 + 0 . 4 6 * c o s ( π * k /N)

く k = 0， ……， N _ l〉 …… （4 ) に示すハミング窓に従って、乗算データを算出し、ステップ S P 4に移る。因みに、この窓関数の乗算処理においては、続くステップ S P 4において行われる周波数分析の精度を向上させるために、このとき構築されたそれぞれのクラスタップの最初の値と最後の値を等しくするようになされている。また、（1) 式において、「N」はハミング窓のサンプル数を表しており、「k」は何番目のサンプルデータであるかを表している。

ステップ S P 4において、スぺクトル処理部 1 1は乗算データに対して、高速フーリェ変換 (F F T： F a s t F o u r i e r T r a n s f o r m) を行うことにより、図 5に示すようなパワースペクトルデータを算出し、ステップ S P 5に移る。 - ステップ S P 5において、スぺクトル処理部 1 1はパワースぺクトルデータから有意であるパワースぺクトルデータのみを抽出するようになされている。

この抽出処理において、 N個の乗算データから算出したパワースぺクトルデータのうち、 NZ2から右側のパワースペクトルデータ群 AR 2 (図 5) は、ゼロ値から N/2までの左側のパワースペクトルデータ群 AR 1 (図 5) とほぼ同じ成分になる（すなわち、左右対称となる）。このことは、 N個の乗算データの周波数帯域内で、両端から等距離にある 2個の周波数点におけるパワースぺクトルデータの成分が互いに共役であることを示している。従って、スペクトル処理部 1 1は、ゼロ値から N/2までの左側のパワースペクトルデータ群 AR 1 (図 5 ) のみを抽出対象とする。

そしてスぺクトル処理部 1 1は、このとき抽出対象としたパワースぺクトルデータ群 AR1のうち、予めユーザが入力手段 1 8 (図 1及ぴ図 2) を介して選択設定した以外の m個のパワースぺクトルデータを除いて抽出する。

具体的には、ユーザが入力手段 1 8を介して例えば人間の声を一段と高音質にするように選択設定を行った場合、当該選択操作に応じた制御データ D 1 8が入力手段 1 8からスペクトル処理部 1 1に出力され（図 1及び図 2)、これによりスペクトル処理部 1 1は、このとき抽出したパワースペクトルデータ群 AR 1 ( 図 5) から、人間の声において有意となる 500 H zから 4 kH z付近のパワースぺクトルデータのみを抽出する（すなわち 50 OHzから 4 kHz付近以外のパワースぺクトノレデータが、除くべき m個のパワースぺクトルデータである）。また、ユーザが入力手段 1 8 (図 1及び図 2) を介して例えば音楽を一段と高音質にするように選択を行った場合には、当該選択操作に応じた制御データ D 1 8が入力手段 1 8からスぺクトル処理部 1 1に出力され、これによりスぺクトル処理部 1 1は、このとき抽出したパワースペクトルデータ群 AR 1 (図 5) から、音楽において有意となる 2 OHzから 20 kH z付近のパワースぺクトルデータのみを抽出する（すなわち 2 OH zから 20 k H z付近以外のパワースぺクトルデータが、除くべき m個のパワースペクトルデータである）。

このように入力手段 1 8 (図 1及び図 2) から出力される制御データ D 1 8は、有意なパワースぺクトルデータとして抽出する周波数成分を決定づけるようになされており、入力手段 1 8 (図 1及び図 2) を介して手動で選択操作するユーザの意図を反映している。

従って、制御データ D 1 8に応じてパワースぺクトルデータを抽出するスぺクトル処理部 1 1は、ユーザが高音質での出力を希望する特定のオーディオ成分の周波数成分を有意なパワースぺクトルデータとして抽出することとなる。

因みに、スぺクトル処理部 1 1は、抽出対象としたパワースぺクトルデータ群 AR1のうち、もとの波形の音程を表すため、有意な特徴をもたない直流成分のパワースぺクトルデータをも除いて抽出するようになされている。

このように、ステップ S P 5において、スペクトル処理部 1 1は制御データ D 1 8に応じて、パワースぺクトデータ群 AR 1 (図 5) から m個のパワースぺクトルデータを除くと共に、直流成分のパワースぺクトルデータも除いてなる必要最小限のパワースぺクトルデータ、すなわち有意なパワースぺグトルデータのみを抽出し、続くステップ S P 6に移る。

ステップ S P 6において、スぺクトル処理部 1 1は抽出されたパワースぺクトルデータに対して、次式、 p s ma x=ma x ( s [k]) (5) に従って、このとき抽出されたパワースペクトルデータ（p s [k]) の最大値 (p s— ma x) を算出し、次式、 p s n 〔JK〕 =p s Lkj / p s ma ( 6 ) に従って、このとき抽出されたパワースペクトルデータ（p s [k]) の最大値 (p s_ma x) での正規化（除算）し、このとき得られた基準値（p _S n [k ]) に対して、次式、 p s 1 〔k〕 = 1 0. 0 * l o g (p s n [k]) ······ (7) に従って、対数（デシベル値）変換を行うようになされている。因みに（7) 式において、 l o gは常用対数である。

このように、ステップ S P 6において、スぺクトル処理部 1 1は最大振幅で正規化及ぴ振幅の対数変換を行うことにより、特徴部分（有意である小さな波形部分）をも見い出すと共に、結果として、音声を聞く対象である人間が心地よく聞き得るようにする対数データ D 1 1を算出し、続くステップ S P 7に移って対数データ算出処理手順を終了する。

このようにして、スぺクトル処理部 1 1は対数データ算出方法の対数データ算出処理手順によって、入力オーディオデータ D 1 0で表される信号波形の特徴を一段と見い出した対数データ D 1 1を算出することができる。

次に、図 1について上述した予測係数メモリ 1 5に記憶するクラス毎の予測係数のセットを予め学習によって得るための学習回路について説明する。

図 6にお!/、て、学習回路 30は、高音質の教師オーディオデータ D 30を生徒信号生成フィルタ 3 7に受ける。生徒信号生成フィルタ 3 7は、間引き率設定信号 D 3 9により設定された間引き率で教師オーディオデータ D 3 0を所定時間ごとに所定サンプル間引くようになされている。

この場合、生徒信号生成フィルタ 3 7における間引き率によって、生成される予測係数が異なり、これに応じて上述のオーディオ信号処理装置 1 0で再現されるオーディオデータも異なる。例えば、上述のオーディオ信号処理装置 1 0においてサンプリング周波数を高くすることでオーディオデータの音質を向上しようとする場合、生徒信号生成フィルタ 3 7ではサンプリング周波数を減らす間引き処理を行う。また、これに対して上述のオーディオ信号処理装置 1 0において入力オーディオデータ D 1 0の欠落したデータサンプルを補うことで音質の向土を図る場合には、これに応じて、生徒信号生成フィルタ 3 7ではデ一タサンプルを欠落させる間引き処理を行うようになされている。

かくして、生徒信号生成フィルタ 3 7は教師オーディオデータ 3 0から所定の間引き処理により生徒オーディオデータ D 3 7を生成し、これをスぺクトル処理部 3 1及ぴ予測演算部抽出部 3 3にそれぞれ供給する。，

スぺクトル処理部 3 1は生徒信号生成フィルタ 3 7から供給された生徒オーディォデータ D 3 7を所定時間毎の領域（この実施の形態の場合、例えば 6サンプル毎とする）に分割した後、当該分割された各時間領域の波形について、図 4について上述した対数データ算出方法による算出結果であってクラス分類しようとする対数データ D 3 1を算出し、これをクラス分類部 3 4に供給する。

クラス分類部 3 4は、スぺクトル処理部 3 1から供給された対数データ D 3 1 について、当該対数データ D 3 1を圧縮して圧縮データパターンを生成する A D R C回路部と、対数データ D 3 1の属するクラスコードを発生するクラスコ一ド発生回路部とを有する。

A D R C回路部は対数データ D 3 1に対して、例えば 8ビットから 2ビットに圧縮するような演算を行うことによりパターン圧縮データを形成する。この A D R C回路部は、適応的量子化を行うものであり、ここでは、信号レベルの局所的なパターンを短！/、語長で効率的に表現することができるので、信号パターンのクラス分類のコード発生用に用いられる。

具体的には、 6つの 8ビットのデータ（対数データ）をクラス分類しようとする場合、 2⁴⁸という膨大な数のクラスに分類しなければならず、回路上の負担が多くなる。そこで、この実施の形態のクラス分類部 34ではその内部に設けられた A D R C回路部で生成されるパターン圧縮データに基づいてクラス分類を行う。例えば 6つの対数データに対して 1ビットの量子化を実行すると、 6つの対数データを 6ビットで表すことができ、 2⁶ = 64クラスに分類することができる。

ここで、 ADRC回路部は、'切り出された領域内のダイナミックレンジを: DR 、ビット割り当てを m、各対数データのデータレベルを L、量子化コードを Qとして、上述の（1) 式と同様の演算により、領域内の最大値 MAXと最小値 M I Nとの間を指定されたビット長で均等に分割して量子化を行う。かくしてスぺクトル処理部 3 1において算出された 6つの対数データが、それぞれ例えば 8ビット（m= 8) で構成されているとすると、これらは ADRC回路部においてそれぞれが 2ビットに圧縮される。

このようにして圧縮された対数データをそれぞれ q_n (η= 1〜6) とすると、クラス分類部 34に設けられたクラスコード発生回路部は、圧縮された対数デ一タ ₁₁に基づいて、上述の（2) 式と同様の演算を実行することにより、そのプロック（q i〜q ₆) が属するクラスを示すクラスコード c l a s sを算出し、当該算出されたクラスコー Kc 1 a s s'を表すクラスコードデータ D 34を予測係数算出部 3 6に供給する。因みに（2) 式において、 nは圧縮された対数データ q _flの数を表し、この実施の形態の場合 n= 6であり、また Pはビット割り当てを表し、この実施の形態の場合 P= 2である。

このようにして、クラス分類部 34はスぺクトル処理部 3 1から供給された対数データ D 3 1のクラスコードデータ D 34を生成し、これを予測係数算出部 3 6に供給する。また、予測係数算出部 3 6には、クラスコードデータ D 34に対応した時間軸領域のオーディオ波形データ D 33 (x _1S x₂、 ······、 xj が予測演算部抽出部 33において切り出されて供給される。

予測係数算出部 3 6は、クラス分類部 34から供給されたクラスコード c 1 a s sと、各クラスコード c 1 a s s毎に切り出されたオーディオ波形データ D 3 3と、入力端 T_{I N}から供給された高音質の教師オーディオデータ D 30とを用いて、正規方程式を立てる。

すなわち、生徒オーディォデータ D 3 7の nサンプルのレベルをそれぞれ X _± 、 x ₂、 ……、 x_aとして、それぞれに pビットの ADRCを行った結果の量子化データを _{¾ ι}、 ……、 q_nとする。このとき、この領域のクラスコード c 1 a s sを上述の (2) 式のように定義する。そして、上述のように生徒オーディォデータ D 3 7のレベルをそれぞれ、 x _l x₂、 ……、 x_nとし、高音質の教師ォ一ディォデータ D 30のレベルを yとしたとき、クラスコード毎に、予測係数 w w , …- ·'、こよる nタップの線形推定式を設定する。これを次式、 y=w₁ x .+w₂ x ^ + - ■ + w X (8) とする。学習前は、 W_nが未定係数である。

学習回路 30では、クラスコード毎に、複数のオーディオデータに対して学習を行う。データサンプル数が Mの場合、上述の (8) 式に従って、次式、 y w_x x_{k l} + w₂x_k2 + ' (9) が設定される。但し k = l、 2、 …… Mである。

M>nの場合、予測係数 _Wl、 …… w_nは一意的に決まらないので、誤差べクトル _eの要素を次式、

^e k^_ {^w i X _k i +^w2 ^x k 2 +…… w_n x _{k n}} (10) によって定義し（但し、 k = l、 2、 ·、 M)、次式、

M

=∑

k=

(1 1) を最小にする予測係数を求める。いわゆる、最小自乗法による解法である, ここで、（1 1) 式による w„の偏微分係数を求める。この場合、次式、

M M

=∑2 ∑2X

WJ \Wl k=0

M

= 2 ぉ * ( =1,2. n)

k=0

(1 2) を「0」にするように、各 W_n (n = 1— 6) を求めれば良い c

そして、次式、

M

X,. ∑ X

P = 0

(1 3)

M =0

(14) のように、 Xi Yiを定義すると、（1 2) 式は行列を用いて次式、

( 1 5 ) として表される。

この方程式は、一般に正規方程式と呼ばれている。なお、ここでは n = 6である。 '

全ての学習用データ（教師オーディオデータ D 3 0、クラスコード c 1 a s s 、オーディオ波形データ D 3 3 ) の入力が完了した後、予測係数算出部 3 6は各クラスコード c 1 _a s sに上述の ( 1 5 ) 式に示した正規方程式を立てて、この正規方程式を掃き出し法等の一般的な行列解法を用いて、各 W_nについて解き、各クラスコード毎に、予測係数を算出する。予測係数算出部 3 6は、算出された各予測係数（D 3 6 ) を予測係数メモリ 1 5に書き込む。

このような学習を行った結果、予測係数メモリ 1 5には、量子化データ qい ……、 q ₆で規定されるパターン毎に、高音質のオーディオデータ yを推定するための予測係数が、各クラスコード毎に格納される。この予測係数メモリ 1 5は、図 1について上述したオーディオ信号処理装置 1 0において用いられる。かかる処理により、線形推定式に従って通常のオーディオデータから高音質のオーディォデータを作成するための予測係数の学習が終了する。

このように、学習回路 3 0は、オーディオ信号処理装置 1 0において補間処理を行う程度を考慮して、生徒信号生成フィルタ 3 7で高音質の教師オーディオデータの間引き処理を行うことにより、ォ一ディォ信号処理装置 1 0における補間処理のための予測係数を生成することができる。以上の構成において、オーディオ信号処理装置 1 0は、入力オーディオデータ D 1 0に対して高速フーリエ変換を行うことにより、周波数軸上にパワースぺクトルを算出する。周波数分析（高速フーリエ変換）は、時間軸波形データからでは知りえない微妙な違いを発見することが可能であることにより、オーディォ信号処理装置 1 0は、時間軸領域に特徴を見い出せない微妙な特徴を見い出し得るようになる。 '

微妙な特徴を見い出し得る状態（すなわち、パワースペクトルを算出した状態

) において、オーディオ信号処理装置 1 0は、選択範囲設定手段（ユーザが入力手段 1 8から手動で行う選択設定）に応じて、有意とされるパワースペクトルデータのみを抽出（すなわち、 Ν/ 2—m個）する。

これによりオーディォ信号処理装置 1 0は、処理負担を一段と軽減することができ、かつ処理速度を向上させることができる。

このように、オーディオ信号処理装置 1 0は、周波数分析を行うことにより、微妙な特徴を見い出し得るようになされたパワースぺクトルデータを算出し、さらに算出したパワースぺクトルデータから有意とされるパワースぺクトルデータのみを抽出する。従ってオーディオ信号処理装置 1 0は、必要最低限の有意なパワースぺクトルデータのみを抽出したことになり、当該抽出したパワースぺクトルデータに基づいて、そのクラスを特定する。

そしてオーディオ信号処理装置 1 0は、抽出した有意なパワースぺクトルデータに基づいて特定したクラスに基づく予測係数を用いて入力オーディオデータ D 1 0を予測演算することにより、当該入力オーディオデータ D 1 0を一段と高音質のオーディオデータ D 1 6に変換することができる。

また、クラス毎の予測係数を生成する学習時において、位相の異なる多数の教師オーディォデータについてそれぞれに対応した予測係数を求めておくことにより、オーディオ信号処理装置 1 0における入力オーディオデータ D 1 0のクラス分類適応処理時に位相変動が生じても、位相変動に対応した処理を行うことがでさる。以上の構成によれば、周波数分析を行うことにより、微妙な特徴を見い出し得るようになされたパワースぺクトルデータから有意とされるパワースぺクトルデータのみを抽出し、これをクラス分類した結果に基づく予測係数を用いて入カオ一ディォデータ D 1 0を予測演算するようにしたことにより、入力オーディオデータ D 1 0を一段と高音質のオーディオデータ D 1 6に変換することができる。なお上述の実施の形態においては、窓関数としてハミング窓を用いて乗算する場合について述べたが、本発明はこれに限らず、ハミング窓に代えて、例えばハユング窓やプラックマン窓等、他の種々の窓関数によって乗算する、又はスぺクトル処理部において予め各種窓関数（ハミング窓、ハユング窓及びプラックマン窓等）を用いて乗算し得るようにしておき、入力されるディジタルオーディオ信号の周波数特性に応じて、スぺクトル処理部が所望の窓関数を用いて乗算するようにしても良い。

因みに、スぺクル処理部がハニング窓を用いて乗算する場合、スぺクトル処理部は、切り出し部から供給されたクラスタップに対して、次式、

W 〔k〕 =0. 50 + 0. 50* c o s (π * k/N)

く k = 0， ……， N- 1 ) …… （1 6) からなるハユング窓を乗算して乗算データを算出する。

また、スぺクトル処理部がブラックマン窓を使用して乗算する場合、スぺクトル処理部は、切り出し部から供給されたクラスタップに対して、次式、

W 〔k〕 =0. 42 + 0. 50* c o s (π * k/N)

+ 0. 0 8 * c o s (2 π* k/N)

<k = 0, ……， N— 1〉

…… （1 7) からなるブラックマン窓を乗算して乗算データを算出する。

また上述の実施の形態においては、高速フーリエ変換を用いる場合について述ベたが、本発明はこれに限らず、例えば離散フーリエ変換（DFT ： D i s - c r e t e F o u r i e r T r a n s f o r me r) や離散コサイン変換 ( DCT : D i s c r e t e C o s i n e T r a n s f o r m) 又は最大ェントロピー法、さらには線形予測分析による方法等、他の種々の周波数分析手段を適用することができる。

さらに上述の実施の形態においては、スぺクトル処理部 1 1がゼロ値から NZ 2までの左側のパワースペクトルデータ群 AR 1 (図 5) のみを抽出対象とする場合について述べたが、本発明はこれに限らず、右側のパワースぺクトルデータ群 AR2 (図 5) のみを抽出対象とするようにしても良い。

この場合、オーディオ信号処理装置 1 0の処理負担を一段と軽減することができ、処理速度を一段と向上させることができる。

さらに上述の実施の形態においては、圧縮データパターンを生成するパターン生成手段として、 ADRCを行う場合について述べたが、本発明はこれに限らず、例えば可逆符号化（D P CM： D i f f e r e n t i a l P u l s e C o d e Mo d u l a t i o n) やべクトグレ量子ィ匕 (VQ : V e c t o r Qu a n t i z e) 等の圧縮手段を用いるようにしても良い。要は、信号波形めパターンを少ないクラスで表現し得るような圧縮手段であれば良い。

さらに上述の実施の形態においては、ユーザが手動で選択操作し得る選択範囲設定手段として、人間の声及ぴ音声を選択（すなわち、抽出する周波数成分として 500Hz〜 4 kH z又は 20H z〜 20 kH z) する場合について述べたが、本発明はこれに限らず、例えば図 7に示すように、高域（UP P)、中域（M I D) 及び低域（LOW) のいづれかの周波数成分を選択する、又は図 8に示すように、まばらに周波数成分を選択する、さらには図 9に示すように、不均一に帯域を周波数成分する等、他の種々の選択範囲設定手段を適用し得る。

この場合、オーディオ信号処理装置には、新たに設けられた選択範囲設定手段に対応するプログラムを作成してハードディスクドライブや ROM等、所定の記憶手段に格納させる。これにより、ユーザが手動で入力手段 1 8を介して新たに設けられた選択範囲設定手段を選択操作した場合においても、このとき選択された選択範囲設定手段に応じた制御データが入力手段からスぺクトル処理部に出力され、これによりスペクトル処理部は、新たに設けられた選択範囲設定手段に対応するプログラムによって、所望の周波数成分からパワースぺクトルデータの抽出を行う。

このようにすれば、他の種々の選択範囲設定手段を適用することができ、ユーザの意図に応じた有意なパワースペクトルデータを抽出することができる。さらに上述の実施の形態においては、オーディオ信号処理装置 1 0 (図 2) がプログラムによってクラスコード生成処理手順を実行する場合について述べたが、本発明はこれに限らず、ハードウェア構成によってこれらの機能を実現して種々のディジタル信号処理装置（例えば、レートコンバータ、オーバーサンプリング処理装置、 B S (B r o a d c a s t i n g S a t e l l i t e) 放送等に用いられている P CM (P u 1 s e C o d e M o d u 1 a t i o n ) デイジタル音声エラー訂正を行う P CMエラー修正装置等）内に設けたり、又は各機能を実現するプログラムを格納したプログラム格納媒体（フロッピーディスク、光ディスク等）からこれらのプログラムを種々のディジタル信号処理装置にロードして各機能部を実現するようにしても良い。

上述のように本発明によれば、ディジタルオーディオ信号からパワースぺクトルデータを算出し、算出されたパワースぺクトルデータから一部のパワースぺクトルデータを抽出し、抽出された一部のパワースぺクトルデータに基づいてそのクラスを分類し、分類されたクラスに対応した予測方式でディジタルオーディォ信号を変換するようにしたことにより、一段とディジタルオーディオ信号の特徴に適応した変換を行うことができ、かくして、ディジタルオーディオ信号の波形再現性を一段と向上した高音質のディジタルオーディォ信号への変換を行うことができる。産業上の利用の可能性

本発明は、ディジタル信号に対してデータの補間処理を行うレートコンパ、タ、 P CM復号装置やオーディォ信号処理装置に利用し得る。

Claims

請求の範囲

1 . ディジタルオーディォ信号を変換するディジタル信号処理方法において、上記ディジタルオーディオ信号からパワースぺクトルデータを算出する周波数分析ステップと、

上記パワースぺクトルデータから一部のパワースぺクトルデータを抽出するスぺクトルデータ抽出ステップと、

上記一部のパワースペクトルデータに基づいてそのクラスを分類するクラス分上記分類されたクラスに対応した予測方式で上記ディジタルオーディォ信号を変換してなる新たなディジタルオーディォ信号を生成する予測演算ステツプとを具えることを特徴とするディジタル信号処理方法。

2 . 上記周波数分析ステップでは、窓関数の各種演算処理方法が具えられ、上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理方法が用いられる

ことを特徴とする請求の範囲第 1項に記載のディジタル信号処理方法。

3 . 上記スペクトルデータ抽出ステップでは、

上記一部のパワースぺクトルデータを抽出する際、直流成分のパワースぺクトルデータが除かれる

4 . 上記予測演算ステップでは、

予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数が用いられる

5 . 上記パワースペクトルデータは、ほぼ左右対称の成分からなり、上記スぺクトルデータ抽出ステップでは、

上記パワースぺクトルデータのうち、左右いづれかの成分が抽出対象とされることを特徴とする請求の範囲第 1項に記載のディジタル信号処理方法。

6 . ディジタルオーディオ信号を変換するディジタル信号処理装置において、上記デイジタルオーディォ信号からパワースぺタトルデータを算出する周波数分析手段と、

上記パワースぺクトルデータから一部のパワースぺクトルデータを抽出するスぺクトルデータ抽出手段と、

上記一部のパワースぺクトルデータに基づいてそのクラスを分類するクラス分類手段と、

上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディォ信号を生成する予測演算手段とを具えることを特徴とするディジタル信号処理装置。

7 . 上記周波数分析手段は、窓関数の各種演算処理手段を具え、

上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理手段を用いる

ことを特徴とする請求の範囲第 6項に記載のディジタル信号処理装置。

8 . 上記スペクトルデータ抽出手段は、

上記一部のパワースぺクトルデータを抽出する際、直流成分のパワースぺクトルデータを除く

9 . 上記予測演算手段は、

予め所望とするディジタルオーディオ信号に基づいて学習により生成されている予測係数を用いる

1 0 . 上記パワースペクトルデータは、ほぼ左右対称の成分からなり、上記スぺクトルデータ抽出手段は、

上記パワースぺクトルデータのうち、左右いづれかの成分を抽出対象とすることを特徴とする請求の範囲第 6項に記載のディジタル信号処理装置。

1 1 . ディジタルオーディオ信号からパワースぺクトルデータを算出する周波数分析ステップと、

上記パワースぺクトルデータから一部のパワースぺクトルデータを抽出するスぺクトノレデータ抽出ステップと、

上記一部のパワースぺクトルデータに基づいてそのクラスを分類するクラス分類ステップと、

上記分類されたクラスに対応した予測方式で上記ディジタルオーディオ信号を変換してなる新たなディジタルオーディォ信号を生成する予測ステップとを含むプログラムをディジタル信号処理装置に実行させるプログラム格納媒体

1 2 . 上記周波数分析ステップでは、窓関数の各種演算処理方法が具えられ、上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理方法が用いられる

ことを特徴とする請求の範囲第 1 1項に記載のプログラム格納媒体。

1 3 . 上記スペクトルデータ抽出ステップでは、上記一部のパワースぺクトルデータを抽出する際、直流成分のパワースぺクトルデータが除かれる

1 4 . 上記パワースペクトルデ一タは、ほぼ左右対称の成分からなり、上記スぺクトルデータ抽出ステップでは、

上記パワースぺクトルデータのうち、左右いづれかの成分が抽出対象とされることを特徴とする請求の範囲第 1 1項に記載のプログラム格納媒体。

1 5 . ディジタルオーディォ信号を変換するディジタル信号処理装置の上記変換処理の予測に用いられる予測係数を生成する学習方法において、

所望とするディジタルオーディォ信号から当該ディジタルオーディォ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成ステップと、

上記生徒デイジタルオーディオ信号からパワースぺクトルデータを算出する周波数分析ステップと、

上記パワースぺクトノレデータから一部のパワースぺクトルデータを抽出するスぺクトルデータ抽出ステップと、

上記ディジタルオーディォ信号と上記生徒ディジタルオーディォ信号とに基づいて上記クラスに対 ifeする予測係数を算出する予測係数算出ステップと

を具えることを特徴とする学習方法。

1 6 . 上記周波数分析ステップでは、窓関数の各種演算処理方法が具えられ、上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理方法が用いられることを特徴とする請求の範囲第 1 5項に記載の学習方法。

1 7 . 上記スぺクトルデータ抽出ステップでは、

上記一部のパワースぺクトルデ一タを抽出する際、直流成分のパワースぺクトルデータが除かれる

ことを特徴とする請求の範囲第 1 5項に記載の学習方法。

1 8 . 上記パワースペクトルデータは、ほぼ左右対称の成分からなり、上記スぺクトルデータ抽出ステップでは、

上記パワースぺクトルデータのうち、左右いづれかの成分が抽出対象とされることを特徴とする請求の範囲第 1 5項に記載の学習方法。

1 9 . ディジタルオーディオ信号を変換するディジタル信号処理装置の上記変換処理の予測演算に用いられる予測係数を生成する学習装置において、

所望とするディジタルオーディォ信号から当該デイジタルオーディォ信号を劣化させた生徒ディジタルオーディオ信号を生成する生徒ディジタルオーディオ信号生成手段と、

上記生徒デイジタルオーディォ信号からパワースぺクトルデータを算出する周波数分析手段と、

上記一部のパワースぺクトルデータに基づレ、てそのクラスを分類するクラス分類手段と、

上記ディジタルオーディォ信号と上記生徒ディジタルオーディォ信号とに基づいて上記グラスに対応する予測係数を算出する予測係数算出手段と

を具えることを特徴とする学習装置。

2 0 . 上記周波数分析手段は、窓関数の各種演算処理手段を具え、

ことを特徴とする請求の範囲第 1 9項に記載の学習装置。

2 1 . 上記スぺクトルデータ抽出手段は、

ことを特徴とする請求の範囲第 1 9項に記載の学習装置。

2 2 . 上記パワースぺクトルデータは、ほぼ左右対称の成分からなり、上記スぺクトルデータ抽出手段は、

上記パワースぺクトルデータのうち、左右いづれかの成分を抽出対象とすることを特徴とする請求の範囲第 1 9項に記載の学習装置。

2 3 . 所望とするディジタルオーディォ信号から当該デイジタルオーディォ信号を劣化させた生徒ディジタルオーディォ信号を生成する生徒ディジタルオーディォ信号生成ステップと、

上記生徒デイジタルオーディォ信号からパワースぺクトルデータを算出する周波数分析ステップと、

上記パワースぺクトルデータから一部のパワースぺクトルデータを抽出するスぺクトルデータ抽出ズテツプと、

上記ディジタルオーディォ信号と上記生徒ディジタルオーディォ信号とに基づいて上記クラスに対応する予測係数を算出する予測係数算出ステップと

を含むプログラムをディジタル信号処理装置に実行させるプログラム格納媒体

2 4 . 上記周波数分析ステップでは、窓関数の各種演算処理方法が具えられ、上記ディジタルオーディオ信号の周波数特性に応じて、所望の上記演算処理方法が用いられる

ことを特徴とする請求の範囲第 2 3項に記載のプログラム格納媒体。

2 5 . 上記スペクトルデータ抽出ステップでは、

2 6 . 上記パワースペクトルデータは、ほぼ左右対称の成分からなり、上記スぺクトルデータ抽出ステップでは、

上記パワースぺクトルデータのうち、左右いづれかの成分が抽出対象とされることを特徴とする請求の範囲第 2 3項に記載のプログラム格納媒体。