WO2000034944A1

WO2000034944A1 - Decodeur sonore et procede de decodage sonore

Info

Publication number: WO2000034944A1
Application number: PCT/JP1998/005529
Authority: WO
Inventors: Bunkei Matsuoka; Hirohisa Tasaki
Original assignee: Mitsubishi Denki Kabushiki Kaisha
Priority date: 1998-12-07
Filing date: 1998-12-07
Publication date: 2000-06-15
Also published as: CN1327574A; AU1352999A; US20010029451A1; EP1143229A1; US6643618B2; CN1149534C

Description

明細書音声復号化装置及び音声復号化方法技術分野

この発明は、話者の音声がない無音区間を検出すると、背景雑音を再生する音声復号化装置及び音声復号化方法に関するものである。背景技術

第 1図は例えば特開平 7— 1 2 9 1 9 5号公報に示された従来の音声復号化装置を示す構成図であり、図において、 1は音声符号化列を入力する入力端子、 2は音声符号化列から励起信号を生成する励起信号生成回路、 3は音声符号化列から音声スぺクトル係数を生成する音声スぺクトル係数生成回路、 4は励起信号生成回路 2により生成された励起信号と音声スぺクトル係数生成回路 3により生成された音声スぺクトル係数から音声信号を再生する合成フィルタ、 5は音声スペクトル係数生成回路 3により生成された音声スぺクトル係数を保持する音声スぺクトル係数保持バッファ、 6は無音区間になると、音声スペクトル係数を線形補間する音声スペクトル係数補間回路、 7は合成フィルタ 4により再生された音声信号を出力端子 8に出力する音声出力回路、 8は出力端子である。

次に動作について説明する。

まず、音声符号化装置（図示せず）は、話者の音声を検知すると、その音声を符号化して、音声符号化列を音声復号化装置に送信する。

一方、音声符号化装置は、話者の音声が途絶えると、例えば、内蔵する V O X装置等により話者の無声区間が検出され、音声復号化装置に対する音声符号化列の送信を停止する。ただし、音声符号化装置は、無音区間の始まりを示すユニークワード（ポストアンブル P O S T ) と背景雑音情報を示す符号化パラメ一夕を送信する。

話者の音声が検知された有音区間では、音声符号化装置から音声符号化列が送信されるので、音声復号化装置の励起信号生成回路 2は音声符号化列から励起信号を生成し、音声復号化装置の音声スぺクトル係数生成回路 3は音声符号化列から音声スぺクトル係数を生成する。

ここで、無音区間から有音区間に移行して、有音区間が始まる等の場合には、音声符号化装置がプリアンブル P R Eと称するユニークワードを送信するので、音声復号化装置は、そのユニークワードを検出することにより、有音区間の始まりを検知することができる。

合成フィル夕 4は、励起信号生成回路 2が励起信号を生成し、音声スベクトル係数生成回路 3が音声スペクトル係数を生成すると、その励起信号と音声スぺクトル係数から音声信号を再生する。

そして、音声出力回路 7は、合成フィル夕 4により再生された音声信号を出力端子 8に出力する。

一方、話者の音声が検知されない無音区間では、音声符号化装置からの音声符号化列の送信は停止されるが、無音区間の始まりを示すュニ一クワード（ポストアンブル P〇 S T ) と背景雑音情報を示す符号化パラメータは送信されるので、音声復号化装置の音声スぺクトル係数生成回路 3は、その背景雑音情報を示す符号化パラメータから音声スペクトル係数を生成する。また、音声復号化装置の励起信号生成回路 2は、有音区間の最後の受信周期で受信された音声符号化列から励起信号を引き続き生成する。

ここで、有音区間から無音区間に移行して、無音区間が始まる等の場合には、上述したように、音声符号化装置がポストアンブル P 0 S Tと称するユニークワードを送信するので、音声復号化装置は、そのュニークワードを検出することにより、無音区間の始まりを検知することができる（第 2図を参照）。

合成フィル夕 4は、無音区間が検知されると、励起信号生成回路 2により生成された励起信号と、音声スペクトル係数生成回路 3により生成された背景雑音情報（音声スペクトル係数）から音声信号を再生することになるが、有音区間の最後の受信周期で受信された音声符号化列と背景雑音情報の差が著しい場合、再生される音声信号が急変するため、違和感のある背景雑音を再生する不具合が発生する。

そこで、音声スペクトル係数補間回路 6は、無音区間が検知されると、第 2図に示すように、ポストアンブル P O S Tに続いて受信された背景雑音情報である音声スペクトル係数（第 2図の☆印を参照）を線形補間する。

具体的には、合成フィルタ 4が無音区間の開始当初から当該背景雑音情報を用いて音声信号を再生すると、有音区間から無音区間に変化する際、音声信号が急変するので、無音区間の始まりから背景雑音情報の更新時（次の背景雑音情報が送信される時）にかけて音声信号を緩やかに変化させるベく、有音区間の最後の受信周期で受信された音声符号化列 (音声スぺクトル係数保持バッファ 5に保持されている音声スぺクトル係数）に対して定数を段階的に加算して、一定の補間幅で音声符号化列を更新する（音声符号化列を直線的に増減させる）。

そして、合成フィル夕 4は、線形補間された背景雑音情報（音声スぺクトル係数）を用いて音声信号を再生し、音声出力回路 7がその音声信号を出力端子 8に出力する。

従来の音声復号化装置は以上のように構成されているので、無音区間が検知されると、音声信号の変化が緩やかになるように背景雑音情報が線形補間されるが、背景雑音情報のフレーム単位の補間幅が常に一定であるため、受聴者の受ける背景雑音の変動感が非常に単調になり、かえつて、違和感のある背景雑音を再生してしまう課題があった。

この発明は上記のような課題を解決するためになされたもので、違和感の少ない背景雑音を再生することができる音声復号化装置及び音声復号化方法を得ることを目的とする。発明の開示

この発明に係る音声復号化装置は、抽出手段により抽出された背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を用いて符号化パラメ一夕のスム一ジング演算を実行し、無音区間の符号化パラメ一夕を推定するようにしたものである。

このことによって、違和感の少ない背景雑音を再生することができる効果がある。

この発明に係る音声復号化装置は、背景雑音情報である符号化パラメ —夕と前回背景雑音の合成に用いられた符号化パラメ一夕を所定の演算式に代入して、無音区間の符号化パラメータを推定する推定手段を設けたものである。

このことによって、複雑な構成を用いることなく、符号化パラメータのスム一ジング演算を速やかに実行することができる効果がある。

この発明に係る音声復号化装置は、無音区間の最初の受信周期においては、抽出手段により有音区間の最後の受信周期で抽出された符号化パラメ一夕から音声を合成する合成手段を設けたものである。

このことによって、無音区間の最初の受信周期において、背景雑音が著しく変化する不具合を解消することができる効果がある。

この発明に係る音声復号化装置は、符号化パラメ一夕の一部を構成するスぺクトル包絡情報のスムージング演算を実行するようにしたものである。

このことによって、スム一ジング演算に不要な符号化パラメ一夕が存在する場合に、演算量を削減することができる効果がある。

この発明に係る音声復号化装置は、符号化パラメ一夕の一部を構成するフレームエネルギー情報のスムージング演算を実行するようにしたものである。

このことによって、背景雑音のフレームエネルギーが変化しても、背景雑音の合成音パワーが断続的に変化する不具合を解消することができる効果がある。

この発明に係る音声復号化装置は、符号化パラメ一夕の一部を構成するスぺクトル包絡情報とフレームエネルギー情報のスムージング演算を実行するようにしたものである。

このことによって、更に違和感の少ない背景雑音を再生することができる効果がある。

この発明に係る音声復号化装置は、抽出手段により有音区間の最後の受信周期で抽出された符号化パラメータと、抽出手段により無音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕との変動量に応じて、符号化パラメ一夕の平滑化係数を決定する推定手段を設けたものである。

このことによって、符号化パラメ一夕の平滑化係数が適正化されるため、更に違和感の少ない背景雑音を再生することができる効果がある。

この発明に係る音声復号化装置は、有音区間の最後の受信周期で抽出されたスぺクトル包絡情報と背景雑音情報であるスぺクトル包絡情報との変動量、または、有音区間の最後の受信周期で抽出されたフレームェネルギ一情報と背景雑音情報であるフレームエネルギー情報との変動量に応じて、符号化パラメ一夕の平滑化係数を決定するようにしたものである。

このことによって、平滑化係数の決定処理に大きな負荷を与えることなく、違和感の少ない背景雑音を再生することができる効果がある。

この発明に係る音声復号化装置は、有音区間の最後の受信周期で抽出されたスぺクトル包絡情報と背景雑音情報であるスぺクトル包絡情報との変動量に応じてスペクトル包絡情報の平滑化係数を決定するとともに、有音区間の最後の受信周期で抽出されたフレームエネルギー情報と背景雑音情報であるフレームエネルギー情報との変動量に応じてフレームエネルギー情報の平滑化係数を決定するようにしたものである。

このことによって、平滑化係数がきめ細かく決定される分、更に違和感の少ない背景雑音を再生することができる効果がある。

この発明に係る音声復号化方法は、音声符号化列を監視して、無音区間を検出すると、音声符号化列から抽出された背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を用いて符号化パラメ一夕のスムージング演算を実行して、無音区間の符号化パラメ一夕を推定するようにしたものである。

この発明に係る音声復号化方法は、背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を所定の演算式に代入して、無音区間の符号化パラメ一夕を推定するようにしたものである。

このことによって、複雑な構成を用いることなく、符号化パラメ一夕のスム一ジング演算を速やかに実行することができる効果がある。

この発明に係る音声復号化方法は、無音区間の最初の受信周期においては、有音区間の最後の受信周期で抽出された符号化パラメ一夕から音声を合成するようにしたものである。

この発明に係る音声復号化方法は、有音区間の最後の受信周期で抽出された符号化パラメータと、無音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕との変動量に応じて、符号化パラメ一夕の平滑化係数を決定するようにしたものである。

このことによって、符号化パラメ一夕の平滑化係数が適正化されるため、更に違和感の少ない背景雑音を再生することができる効果がある。図面の簡単な説明

第 1図は従来の音声復号化装置を示す構成図である。

第 2図は背景雑音情報である音声スぺクトル係数の線形補間を説明する説明図である。

第 3図はこの発明の実施の形態 1 による音声復号化装置を示す構成図である。

第 4図はこの発明の実施の形態 1 による音声復号化方法を示すフローチヤ一トである。

第 5図は背景雑音情報である符号化パラメ一夕のスムージング演算を説明する説明図である。

第 6図はこの発明の実施の形態 2による音声複号化装置を示す構成図である。

第 7図はこの発明の実施の形態 4による音声復号化装置を示す構成図である。

第 8図はこの発明の実施の形態 5による音声復号化装置を示す構成図である。

第 9図はこの発明の実施の形態 6 による音声復号化装置を示す構成図である。

第 1 0図はこの発明の実施の形態 7 による音声復号化装置を示す構成図である。発明を実施するための最良の形態

以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。

実施の形態 1 .

第 3図はこの発明の実施の形態 1 による音声復号化装置を示す構成図である。図において、 1 1 は音声符号化列を入力する入力端子、 1 2は音声符号化列から符号化パラメ一夕を抽出するパラメ一夕抽出回路（抽出手段）、 1 3は音声符号化列を監視して、無音区間であるか否かを判定する有音 · 無音判定回路（検出手段）、 1 4は有音 · 無音判定回路 1 3の判定情報に基づいてパラメ一夕抽出回路 1 2の出力先を切り替える分岐スィッチ（検出手段）である。

1 5はパラメ一夕抽出回路 1 2 により抽出された背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメータを用いて、符号化パラメ一夕のスム一ジング演算を実行し、無音区間の符号化パラメ一夕を推定するパラメータ平滑化回路（推定手段）、 1 6 は背景雑音情報である符号化パラメ一夕を保持するバッファ、 1 7は背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を用いて符号化パラメータのスム一ジング演算を実行する演算回路、 1 8はパラメ一夕平滑化回路 1 5 により推定された符号化パラメ一夕又はパラメ一夕抽出回路 1 2 により抽出された符号化パラメータから音声を合成する音声合成回路（合成手段）、 1 9は出力端子である。

なお、第 4図はこの発明の実施の形態 1 による音声復号化方法を示すフローチヤ一トである。

次に動作について説明する。

一方、音声符号化装置は、話者の音声が途絶えると、例えば、内蔵する V O X装置等により話者の無声区間が検出され、音声復号化装置に対する音声符号化列の送信を停止する。ただし、音声符号化装置は、無音区間の始まりを示すユニークワード（ポストアンブル P O S T ) と背景雑音情報を示す符号化パラメータを送信する。

話者の音声が検知された有音区間では、音声符号化装置から音声符号化列が送信されるので、音声復号化装置のパラメ一夕抽出回路 1 2は、音声符号化列から符号化パラメ一夕を抽出する（ステップ S T 1 ) 。

また、有音 · 無音判定回路 1 3は、常時、音声符号化列を監視し、有音区間を検出すると分岐スィッチ 1 4を制御して、パラメ一夕抽出回路 1 2の出力先を音声合成回路 1 8に切り替える処理を実行する（ステツプ S T 2， S T 3 ) 。

ここで、無音区間から有音区間に移行して、有音区間が始まる等の場合には、音声符号化装置がプリアンブル P R Eと称するユニークワードを送信するので、有音 · 無音判定回路 1 3は、そのユニークワードを検出することにより、有音区間の始まりを検出することができる。

これにより、音声合成回路 1 8は、パラメ一夕抽出回路 1 2により抽出された符号化パラメ一夕から音声を合成して、出力端子 1 9に出力するので、話者の音声が再現されることになる（ステップ S T 4 ) 。一方、話者の音声が検知されない無音区間では、音声符号化装置からの音声符号化列の送信は停止されるが、無音区間の始まりを示すュニ一クワード（ポストアンブル P〇 S T ) と背景雑音情報を示す符号化パラメータは送信されるので、音声復号化装置のパラメ一夕抽出回路 1 2は、音声符号化列から符号化パラメ一夕を抽出する（ステップ S T 1 ) 。

また、有音 · 無音判定回路 1 3は、常時、音声符号化列を監視し、無音区間を検出すると分岐スィッチ 1 4を制御して、パラメ一夕抽出回路 1 2の出力先をパラメ一夕平滑化回路 1 5 に切り替える処理を実行する (ステップ S T 2， S T 5 ) 。

ここで、有音区間から無音区間に移行して、無音区間が始まる等の場合には、上述したように、音声符号化装置がポストアンブル P O S Tと称するユニークワードを送信するので、有音 · 無音判定回路 1 3は、そのユニークワードを検出することにより、無音区間の始まりを検知することができる（第 5図を参照）。

そして、パラメ一夕平滑化回路 1 5は、有音 · 無音判定回路 1 3が無音区間を検知すると、パラメ一夕抽出回路 1 2 により抽出された背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を用いて、符号化パラメ一夕のスムージング演算を実行し、無音区間の符号化パラメ一夕を推定する（ステップ S T 6 ) 。

即ち、有音区間の最後の受信周期で抽出された符号化パラメータと、無音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕の差が著しい場合、再生される音声信号が急変するため、違和感のある背景雑音を再生する不具合が発生する。

そこで、パラメ一夕平滑化回路 1 5は、再生される音声信号の急変を防止するため、ポストアンブル P O S Tに続いて抽出された背景雑音情報である符号化パラメ一夕と、前回背景雑音の合成に用いられた符号化パラメ一夕を下記の演算式に代入し、符号化パラメ一夕のスムージング演算を実行する。

X _n +！ = ( 1 - α ) - X _η + α - X _{r e f} · · · ( 1 ) ただし、 x _{n + 1}は符号化パラメ一夕の推定結果

X _nは前回背景雑音の合成に用いられた符号化パラメ一夕 X _r。 _f は背景雑音情報である符号化パラメータ αは符号化パラメ一夕の平滑化係数（ 0 < ひ《 1 ) これにより、無音区間における符号化パラメ一夕は、二次曲線を描くように、緩やかに増加又は減少することになる（第 5図を参照）。

このようにして、パラメ一夕平滑化回路 1 5が符号化パラメ一夕のスムージング演算を実行して、無音区間の符号化パラメ一夕を推定すると、音声合成回路 1 8が、符号化パラメ一夕の推定結果から無音区間の背景雑音を合成して、その背景雑音を出力端子 1 9 に出力する（ステップ S Τ 7 ) 。

なお、符号化パラメ一夕の初期値を X。として、有音区間の最後の受信周期における符号化パラメ一夕を使用する。また、音声合成回路 1 8 は、無音区間の最初の受信周期においては、有音区間の最後の受信周期における符号化パラメ一夕から音声を合成する。このため、有音区間の最後の受信周期と無音区間の最初の受信周期は同じ音声が再生される。以上で明らかなように、この実施の形態 1 によれば、パラメ一夕抽出回路 1 2により抽出された背景雑音情報である符号化パラメ一夕 X ^ _f と前回背景雑音の合成に用いられた符号化パラメ一夕 x _nを用いて符号化パラメ一夕のスムージング演算を実行し、無音区間の符号化パラメ一夕を推定するように構成したので、無音区間の符号化パラメ一夕が二次曲線を描くように増加又は減少するようになり、その結果、違和感の少ない背景雑音を再生することができる効果がある。実施の形態 2 .

第 6図はこの発明の実施の形態 2 による音声復号化装置を示す構成図である。図において、第 3図と同一符号は同一または相当部分を示すので説明を省略する。

2 1 はパラメ一夕抽出回路 1 2 により抽出された符号化パラメ一夕のうち、スペクトル包絡情報のみを選択して出力する情報選択回路、 2 2 はパラメ一夕抽出回路 1 2 により抽出された符号化パラメ一夕のうち、スぺクトル包絡情報以外の情報を選択して出力する情報選択回路である次に動作について説明する。

上記実施の形態 1では、無音区間になると全符号化パラメ一夕をパラメ一夕平滑化回路 1 5 に出力するものについて示したが、符号化パラメ —夕のうち、スペクトル包絡情報のみをパラメ一夕平滑化回路 1 5 に出力し、スぺクトル包絡情報以外の情報を音声合成回路 1 8 に出力するようにしてもよい。

これにより、スぺクトル包絡情報のみをスム一ジング演算すればよいため、スムージング演算に不要な符号化パラメ一夕が存在する場合には、演算量を削減することができる効果を奏する。実施の形態 3 .

上記実施の形態 2では、スぺクトル包絡情報のみをスムージング演算するものについて示したが、フレームエネルギー情報のみをスム一ジング演算するようにしてもよい。

これにより、上記実施の形態 2 と同様の効果を奏することができるとともに、背景雑音のフレームエネルギーが変化しても、背景雑音の合成音パワーが断続的に変化する不具合を解消することができる効果を奏する。実施の形態 4 .

第 7図はこの発明の実施の形態 4による音声復号化装置を示す構成図である。図において、第 6図と同一符号は同一または相当部分を示すので説明を省略する。

2 3はパラメ一夕抽出回路 1 2により抽出された符号化パラメ一夕のうち、フレームエネルギー情報のみを選択して出力する情報選択回路、 2 4はパラメータ抽出回路 1 2 により抽出された符号化パラメ一夕のうち、スペクトル包絡情報及びフレームエネルギー情報以外の情報を選択して出力する情報選択回路、 2 5は有音 · 無音判定回路 1 3の判定情報に基づいて情報選択回路 2 1 , 2 3の出力先を切り替える分岐スィッチ (検出手段）、 1 5 a， 1 5 bはパラメ一夕平滑化回路 1 5 と同様のパラメ一夕平滑化回路（推定手段）であり、パラメ一夕平滑化回路 1 5 a はスぺクトル包絡情報のスムージング演算を実行し、パラメ一夕平滑化回路 1 5 bはフレームエネルギー情報のスム一ジング演算を実行する。 1 6 a , 1 6 bはバッファ、 1 7 a， 1 7 bは演算回路である。

次に動作について説明する。

上記実施の形態 2， 3では、スペクトル包絡情報又はフレームェネルギー情報の何れか一方をスム一ジング演算するものについて示したが、スペクトル包絡情報とフレームエネルギー情報の双方についてスム一ジング演算を実行するようにしてもよい。

これにより、スぺクトル包絡情報とフレームエネルギー情報の双方が平滑化されるため、上記実施の形態 2， 3よりも更に、受聴者の受ける背景雑音の違和感を軽減することができる効果を奏する。なお、パラメ一夕平滑化回路 1 5 aが使用する平滑化係数 α と、パラメ一夕平滑化回路 1 5 bが使用する平滑化係数 αは、使用する情報の特性に合わせて、互いに異なる値に設定することができることは言うまでもない。実施の形態 5 .

第 8図はこの発明の実施の形態 5 による音声復号化装置を示す構成図である。図において、第 3図と同一符号は同一または相当部分を示すので説明を省略する。

3 1 はパラメ一夕抽出回路 1 2 により有音区間の最後の受信周期で抽出された符号化パラメータと、パラメ一夕抽出回路 1 2 により無音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕との変動量に応じて、符号化パラメ一夕の平滑化係数 αを決定する係数決定回路である。

次に動作について説明する。

上記実施の形態 1 〜 4では、符号化パラメ一夕の平滑化係数 αを任意の値（ 0 < α《 1 ) に設定するものについて示したが、有音区間の最後の受信周期で抽出された符号化パラメ一夕 x。と、無音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕 X _{e f} との変動量に応じて、符号化パラメ一夕の平滑化係数 αを決定するようにしてもよい具体的には、その変動量が大きい場合には（例えば、変動率が 8 0 % を越える場合）、平滑化係数ひを通常値より小さく設定し（例えば、平滑化係数 αを 0 . 0 5 に設定する）、その変動量が小さい場合には（例えば、変動率が 8 0 %を越えない場合）、平滑化係数 αを通常値と同等の値に設定する（例えば、平滑化係数ひを 0 . 1 に設定する）。なお、無音区間が連続する場合には、前回抽出された背景雑音情報と、今回抽出された背景雑音情報の変動量に応じて、符号化パラメ一夕の平滑化係数 αを決定する。

これにより、符号化パラメ一夕の平滑化係数ひが適正化されるため、更に違和感の少ない背景雑音を再生することができる効果を奏する。実施の形態 6 .

上記実施の形態 5では、符号化パラメ一夕の変動量に応じて、符号化パラメ一夕の平滑化係数 _αを決定するものについて示したが、上記実施の形態 4のように、スぺクトル包絡情報とフレームエネルギー情報の双方を平滑化する場合には、第 9図に示すように、有音区間の最後の受信周期で抽出されたスペクトル包絡情報（符号化パラメ一夕）と、無音区間の受信周期で抽出された背景雑音情報であるスぺクトル包絡情報（符号化パラメ一夕）との変動量に応じて、スペクトル包絡情報の平滑化係数ひ（演算回路 1 7 aが使用する平滑化係数 α ) を決定し、さらに、フレームエネルギー情報の平滑化係数 α (演算回路 1 7 bが使用する平滑化係数 α; ) をスぺクトル包絡情報の平滑化係数 αと一致させるようにしてもよい。

これにより、フレームエネルギー情報の平滑化係数ひの決定処理を実行することなく、フレームエネルギー情報の平滑化係数 αを決定することができるため、平滑化係数 αの決定処理に大きな負荷を与えることなく、違和感の少ない背景雑音を再生することができる効果を奏する。なお、フレームエネルギー情報の平滑化係数 αを決定する処理を実行し、その後、スペクトル包絡情報の平滑化係数ひをフレームエネルギー情報の平滑化係数 αと一致させるようにしてもよい。実施の形態 7 .

上記実施の形態 6では、スぺクトル包絡情報の変動量又はフレームェネルギ一情報の変動量に応じて、スぺクトル包絡情報の平滑化係数 α とフレームエネルギー情報の平滑化係数 αを決定するものについて示したが、第 1 0図に示すように、パラメ一夕平滑化回路 1 5 a , 1 5 bのそれぞれに係数決定回路 3 1 a , 3 l bを設けることにより（係数決定回路 3 1 a， 3 l bは係数決定回路 3 1 と同様に動作する）、スペクトル包絡情報の平滑化係数 aは、スぺクトル包絡情報の変動量に応じて決定し、フレームエネルギー情報の平滑化係数 αは、フレームエネルギー情報の変動量に応じて決定するようにしてもよい。

これにより、上記実施の形態 6よりも、情報の特性に応じて平滑化係数 αをきめ細かく決定することができるため、更に違和感の少ない背景雑音を再生することができる効果を奏する。実施の形態 8 .

上記実施の形態 1〜 7では、背景雑音情報の更新周期に至るまで、平滑化係数 αを固定して使用するものについて示したが、処理フレーム単位で平滑化係数ひを連続的に変更して使用するようにしてもよい。実施の形態 9 .

上記実施の形態 1〜 8では、式（ 1 ) の演算式を用いてスムージング演算（A R平滑の平滑化アルゴリズム）を実行するものについて示したが、これに限るものではなく、他の平滑化アルゴリズムを実行するようにしてもよい。

これにより、平滑化対象のパラメ一夕のダイナミックレンジや、統計的な出現確率等を考慮に入れて、パラメータ毎により良く適合する平滑化アルゴリズムを用いることが可能になり、単一の平滑化アルゴリズムを用いる場合と比較して、より安定した背景雑音を再生することができる効果を奏する。産業上の利用可能性

以上のように、この発明に係る音声復号化装置及び音声復号化方法は、話者の音声がある有音区間では話者の音声を再生し、話者の音声がない無音区間では背景雑音を再生するのに適している。

Claims

請求の範囲

1 . 音声符号化列から符号化パラメ一夕を抽出する抽出手段と、その音声符号化列を監視して、無音区間を検出する検出手段と、上記検出手段が無音区間を検出すると、上記抽出手段により抽出された背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメータを用いて符号化パラメ一夕のスム一ジング演算を実行し、無音区間の符号化パラメータを推定する推定手段と、上記推定手段により推定された符号化パラメ一夕から無音区間の背景雑音を合成する合成手段とを備えた音声復号化装置。

2 . 推定手段は、背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を下記の演算式に代入して、無音区間の符号化パラメ一夕を推定することを特徴とする請求の範囲第 1項記載の音声復号化装置。

X _{n +}！ = ( 1 — α ) · X _n + a · x _{r c f}

ただし、 x _{n + 1}は符号化パラメ一夕の推定結果

X _nは前回背景雑音の合成に用いられた符号化パラメ一夕「。 _f は背景雑音情報である符号化パラメ一夕

aは符号化パラメ一夕の平滑化係数（ 0 < α《 1 )

3 . 合成手段は、無音区間の最初の受信周期においては、抽出手段により有音区間の最後の受信周期で抽出された符号化パラメ一夕から音声を合成することを特徴とする請求の範囲第 1項記載の音声復号化装置。

4 . 推定手段は、符号化パラメ一夕の一部を構成するスペクトル包絡情報のスムージング演算を実行することを特徴とする請求の範囲第 1項記載の音声復号化装置。

5 . 推定手段は、符号化パラメ一夕の一部を構成するフレームエネルギ —情報のスムージング演算を実行することを特徴とする請求の範囲第 1 項記載の音声復号化装置。

6 . 推定手段は、符号化パラメ一夕の一部を構成するスペクトル包絡情報とフレームエネルギー情報のスムージング演算を実行することを特徴とする請求の範囲第 1項記載の音声復号化装置。

7 . 推定手段は、抽出手段により有音区間の最後の受信周期で抽出された符号化パラメータと、上記抽出手段により無音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕との変動量に応じて、符号化パラメ一夕の平滑化係数を決定することを特徴とする請求の範囲第 1 項記載の音声復号化装置。

8 . 推定手段は、スペクトル包絡情報とフレームエネルギー情報のスム一ジング演算を実行する場合、有音区間の最後の受信周期で抽出されたスぺクトル包絡情報と背景雑音情報であるスぺクトル包絡情報との変動量、または、有音区間の最後の受信周期で抽出されたフレームエネルギ一情報と背景雑音情報であるフレームエネルギー情報との変動量に応じて、符号化パラメ一夕の平滑化係数を決定することを特徴とする請求の範囲第 1項記載の音声復号化装置。

9 . 推定手段は、スペクトル包絡情報とフレームエネルギー情報のスム —ジング演算を実行する場合、有音区間の最後の受信周期で抽出されたスぺクトル包絡情報と背景雑音情報であるスぺクトル包絡情報との変動量に応じてスぺクトル包絡情報の平滑化係数を決定するとともに、有音区間の最後の受信周期で抽出されたフレームエネルギー情報と背景雑音情報であるフレームエネルギー情報との変動量に応じてフレームェネルギー情報の平滑化係数を決定することを特徴とする請求の範囲第 1項記載の音声復号化装置。

1 0 . 音声符号化列を監視して、無音区間を検出すると、その音声符号化列から抽出された背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメ一夕を用いて符号化パラメ一夕のスムージング演算を実行して、無音区間の符号化パラメ一夕を推定し、その推定結果である符号化パラメ一夕から無音区間の背景雑音を合成する音声復号化方法。

1 1 . 背景雑音情報である符号化パラメ一夕と前回背景雑音の合成に用いられた符号化パラメータを下記の演算式に代入して、無音区間の符号化パラメ一夕を推定することを特徴とする請求の範囲第 1 0項記載の音声復号化方法。

n +！ = ( 1 — α · X _η + α · χ _{r e f}

ただし、 x _{n + 1}は符号化パラメ一夕の推定結果

X _nは前回背景雑音の合成に用いられた符号化パラメ一夕 X _r。 _f は背景雑音情報である符号化パラメ一夕

αは符号化パラメ一夕の平滑化係数（ 0 < α《 1 )

1 2 . 無音区間の最初の受信周期においては、有音区間の最後の受信周期で抽出された符号化パラメ一夕から音声を合成することを特徴とする請求の範囲第 1 0項記載の音声復号化方法。

1 3 . 有音区間の最後の受信周期で抽出された符号化パラメータと、無音区間の受信周期で抽出された背景雑音情報である符号化パラメ一夕との変動量に応じて、符号化パラメ一夕の平滑化係数を決定することを特徵とする請求の範囲第 1 0項記載の音声復号化方法。