WO2005117366A1

WO2005117366A1 - 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体

Info

Publication number: WO2005117366A1
Application number: PCT/JP2005/009569
Authority: WO
Inventors: Hitoshi Ohmuro; Takeshi Mori; Yusuke Hiwasaki; Akitoshi Kataoka
Original assignee: Nippon Telegraph And Telephone Corporation
Priority date: 2004-05-26
Filing date: 2005-05-25
Publication date: 2005-12-08
Also published as: EP1750397A1; CN1926824A; US20070177620A1; JPWO2005117366A1; JP4146489B2; US7710982B2; CN1926824B; EP1750397A4

Abstract

　受信パケットを受信バッファに蓄積すると共に状態検出部によりそのパケットの到着時の最大遅延ゆらぎと受信バッファのバッファ量とを検出し、制御部により最大遅延ゆらぎに対応する最適バッファ量を予め決めた表から求め、検出バッファ量と最適バッファ量からバッファ量の調整の緊急度を判定し、受信バッファから読み出したパケットから復号された現フレームの復号音声データ列に対し、消費量調整部において上記緊急度と、検出したバッファ量と、上記最適バッファ量とに基づいて上記復号音声データ列に対し波形の伸張、短縮を行って再生フレームの消費量を調整することにより、受信バッファが空になることを阻止する。

Description

音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体

技術分野

[0001] この発明は、デジタル化された音声、音楽などの音響信号 (以下総称して音声信号

)をインターネットをはじめとするパケット通信網を介して送信する際に、受信側にお

V、て安定した品質で音声信号を再生するために用いる音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム及びこのプログラムを記録した記録媒体に関する。

背景技術

[0002] 音声信号を Voice over IP技術 (以下単に音声パケット通信と称す)を利用して送信し受信するサービスが普及しつつある。図 1はその概要を示す。入力音声信号は音声信号送信装置 5で音声パケットに変換され、パケット通信網 6に送出される。音声信号受信装置 7は自己宛に送られて来る音声パケットを識別して受信し、音声バケツトを復号して音声を出力する。

図 2に送信すべき音声データ列と音声パケットの関係を示す。図 2Aは送信すべき音声データ列を示す。送信すべき音声データ列は一般に PCMデジタルサンプル列で構成される。このディジタル音声データ列をフレームと呼ばれる一定の時間単位 ( 一般的には 10ミリ秒〜 20ミリ秒程度）に区切って音声符号ィ匕し、音声符号に送信時刻を表わすタイムスタンプ等を付加して音声パケットとして送信される。音声パケットは図 2Bに示すように時間軸方向に圧縮された間欠信号とされ、間欠信号の空き時間は他のパケット通信に利用される。音声信号送信装置 5から送り出される音声パケットの送り出しの時間の間隔は音声データ列のフレーム長に該当し、フレーム長に相当する時間間隔でパケット通信網 6に送り出される。

[0003] 音声信号受信装置 7はフレーム長に相当する時間間隔で到来する音声パケットを受信し、音声パケットを復号することにより図 2Cに示すように 1音声パケットが 1フレーム長の音声データ列に復号され、 1フレーム長に相当する時間間隔で音声パケットを受信することにより、音声信号受信装置 7は連続した音声を再生することができる。ところで、通信網の状態によってはパケットの到来時間に大きなゆらぎが生じ、その結果、制限時間内（フレーム長に相当する時間内）にパケットが届力な、現象が発生し、再生する音声が途切れるという問題がある。この問題に対して、ゆらぎ吸収バッファとも呼ばれる受信バッファを設けて、常に一定量のパケットを受信バッファに溜めておく方法が知られている。このとき、受信バッファに溜めておくパケットの量を多くすると、パケットの到着遅延の大きなゆらぎには強いが、パケットを受信して力も音声が再生されるまでの遅延、即ち通話の遅延も大きくなり、双方向で話しづらいという問題がある。逆に、受信バッファに溜めておくパケットの量を少なくすると、通話の遅延は少ないが、パケットの到着遅延のゆらぎが発生したときに、音声が途切れやすいという問題がある。つまり、通話の遅延と音声の途切れやすさはトレードオフの関係にある。

[0004] この問題に対して、受信バッファに溜めるパケット量をダイナミックにコントロールする方法が知られている。これは、通話開始時は受信バッファに溜めるパケット量を少なくして、通話遅延を小さくするが、通話中にバッファに溜めたパケットが枯渴すると、通話途中でー且音声再生処理を中止して受信バッファに溜めるパケット量を一定量増加させ、以降にお!、て通話音声が途切れに《するものである。

人間が発声する音声を 10ミリ秒〜 20ミリ秒の時間単位に区切って見ると、通常の発声では発生時間の数十パーセント程度は非音声区間 (背景雑音区間及び無音区間 )であると言われている。そこで、受信バッファ中の受信パケット数が第 1の閾値を超えた場合、復号音声中の非音声区間を削除することによりフレーム長を短縮して受信バッファ中の音声再生のための次のパケットへのアクセス時点を早め、受信バッファ中の受信パケット数が第 1の閾値より小さい第 2の閾値より小さくなつた場合は、復号音声信号中の非音声区間を伸張し、それによつて受信バッファ中の音声再生のための次のパケットへのアクセス時点を遅延させることにより遅延ゆらぎに対処することができる。この方法は、非音声区間の発生頻度が著しく小さくなつたり、長時間にわたって非音声区間が無力つたりすると、受信バッファによる調整ができなくなってしま

[0005] 一方、音声区間 (有声音区間及び無声音区間）において、ピッチ波形を単位として挿入、削除すれば、聴覚的な品質劣化をほとんど生じさせることなぐ時間長の伸縮が可能であることが非特許文献 1に記載されて、る。この方法を用いて前記非音声区間だけでは十分な受信バッファの調整ができない問題を解決するため、受信バッファ内の蓄積パケット量が下限値より下がると音声区間においてピッチ長の補間音声波形を追加し、上限値を超えると音声区間においてピッチ長の音声波形を間引くことが特許文献 1に示されている。し力しながら、ピッチ長の波形を挿入あるいは間引くことにより音質劣化を低減しているものの、このピッチ長の波形の挿入又は間引きは、ノッファ内の蓄積パケット量が上限閾値と下限閾値の間になるまで一連のフレームに対し実施されるため、再生音声に望ましくない程度の音質劣化を与える可能性がある。また、下限値及び上限値は固定されているため、遅延ゆらぎの急激な変化に対応できず、パケットロスが生じてしまう場合もある。

特許文献 1：日本国特許出願公開 2003-050598号公報

非特許文献 1 :森田、板倉、 "ポインター移動量制御による重複加算法 (PICOLA)を用いた音声の時間軸での伸張圧縮とその評価"、日本音響学会講演論文集、 1-4-1 4. 1986年 10月

発明の開示

発明が解決しょうとする課題

[0006] 本発明の目的は、ピッチ波形を単位とした挿入、削除処理を応用して、より高性能な音声パケット再生方法、及び装置を提案しょうとするものである。

課題を解決するための手段

[0007] この発明によれば、音声データ列のフレーム毎の符号ィ匕により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生方法は、以下のステップを含む：

(a)受信パケットを受信バッファに蓄積し、

(b)上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数とを検出し、

(c)上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、を求め、

(d)上記検出したバッファ蓄積パケット数と上記最適蓄積パケット数の相違の程度を複数の段階で判定し、

(e)上記受信バッファ力も現フレームに対応するパケットを取り出し、そのパケット中の音声符号を復号して現フレームの復号音声データ列を得て、

(£)上記相違の程度の段階ごとに定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように、上記復号音声データ列に対しその波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する。

この発明によれば、音声データ列のフレーム毎の符号ィ匕により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生装置は、

入力音声データ列のフレーム毎の符号ィヒにより生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生装置であり、音声パケットをパケット通信網力も受信するパケット受信部と、

受信したパケットを一時的に蓄積し、要求に応じてパケットを読み出す受信バッファと、

上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるノッファ蓄積パケット数を検出する状態検出部と、

上記最大遅延ゆらぎから、予め決めた最大遅延揺らぎと最適蓄積パケット数の関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、を求め、上記検出したバッファ蓄積パケット数と上記最適パケット数の相違の程度を複数の段階で判定し、上記相違の程度の段階ごとに予め定めた規則に基づ、て、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように波形の伸張、短縮、又は現状維持を指示する制御信号を生成する制御部と、

上記受信バッファ力取り出された現フレームに対応するパケット中の音声符号を復号して現フレームの復号音声データ列を得る音声パケット復号部と、上記制御信号に従って、上記現フレームの復号音声データ列に対し、その波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する消費量調整部、

とを含むように構成される。

発明の効果

[0009] パケット到着時間の遅延ゆらぎの大きいパケット通信網によってリアルタイムに音声信号を通信する場合に、本発明を適用することによって、音声の有無を問わずに定常的に音声データ列の消費量を制御し、受信バッファ内のパケット量を調整するから通信網の状態（ゆらぎ時間）の変化に追随して、受信バッファの最適コントロールが可能となる。この結果、音声の途切れがなぐかつ通話遅延を必要最小限に抑えた音声通話が実現される。また、パケット通信網はコストを抑えるために、ある程度のゆらぎを許容するように設計するのが一般的であり、本発明の利用によって、回線自体のゆらぎが少な!/、高品質ネットワークを利用しなくても音声の途切れが発生しな、ため、ネットワークの利用に関するコスト削減にも効果がある。

図面の簡単な説明

[0010] [図 1]パケット通信の概要を説明するためのブロック図。

[図 2]パケット通信の概要を説明するためのタイミングチャート。

[図 3]本発明の音声パケット再生装置の一実施例を説明するためのブロック図。

[図 4]最大遅延ゆらぎに対する最適バッファ量を示す表。

[図 5]図 5Aは受信パケットの処理手順を示し、図 5Bはパケットの読み出し、復号、波形処理の手順を示す。

[図 6]図 3における音声分析部 15の構成例を示すブロック図。

[図 7]図 3におけるフレーム波形伸張部 21の機能構成例を示すブロック図。

[図 8]図 7に示したフレーム波形伸張部 21による波形伸張処理を模式的に説明するための波形図。

[図 9]図 7に示したフレーム波形伸張部 21による波形伸張処理の他の例を説明するための波形図。 [図 10]図 3におけるフレーム波形伸張部 21の他の構成を説明するためのブロック図。

[図 11]図 3に示したフレーム波形短縮部 22の内部を構成を説明するためのブロック図。

[図 12]図 11に示したフレーム波形短縮部 22の動作を説明するための波形図。

[図 13]図 3に示した消費量調整部 20の動作を説明するためのタイミングチャート。

[図 14]バッファ調整の緊急度を判定する手順を示すフローチャート。

[図 15]緊急度に対する消費量調整部 20の制御例を示す表 1。

[図 16]緊急度に対する消費量調整部 20の制御例を示す表 2。

[図 17]緊急度に対する消費量調整部 20の制御例を示す表 3。

[図 18]緊急度に対する消費量調整部 20の制御例を示す表 4。

[図 19]図 3における音声分析部 15の第 2の実施例を示すブロック図。

[図 20]図 3における音声分析部 15の第 3の実施例を示すブロック図。

[図 21]図 20における音声フレームの区間の判定手順を示すフローチャート。

[図 22]図 21による判定結果の音声フレームに対する消費量調整部 20の制御例を示す表 5。

発明を実施するための最良の形態

本発明は、コンピュータ本体とコンピュータプログラムによって実行することが可能であるし、デジタルシグナルプロセッサや専用 LSIに実装して実現することも可能である。特に切替スィッチはプログラムの条件分岐として実装することができる。

1実窗列

図 3は、本発明における音声信号受信部の構成例であり、パケット受信部 11と、受信バッファ 12と、音声パケット復号部 13と、状態検出部 14と、音声分析部 15と、制御部 16と、消費量調整部 20と、サウンドデバイス 18とから構成されている。パケット受信部 11は、通信網力も音声パケットを受信し、その受信バッファ 12に蓄積すると共に、そのパケットの到着時刻とそのパケットのタイムスタンプを状態検出部 14に与える。音声パケットには、フレームと呼ばれる一定の時間単位 (一般的には 10ミリ秒〜 20ミリ秒程度）に区切った音声信号を音声符号化の手法によって変換した音声符号と、送信側におけるパケット作成の時間順序を示すタイムスタンプ (フレーム番号に対応 )が含まれている。代表的な音声符号化手段としては、 ITU-T (国際電気通信連合）の標準である G.711方式がある力その他任意の方式でもよい。

[0012] 受信バッファ 12は、受信音声パケットを蓄積し、音声パケット復号部 13から転送要求がある毎に、音声パケットを音声パケット復号部 13にタイムスタンプ順に送る。受信ノッファ 12から音声パケットが音声パケット復号部 13に転送されるごとに、受信バッファ 12内のその音声パケットは破棄される。

音声パケット復号部 13は、音声パケットに含まれる音声符号を復号して、音声データ列を出力し、消費量調整部 20と音声分析部 15に与える。ここでいう音声データ列とはデジタル音声サンプル列であり、一般的には PCMフォーマットで扱われることが多い。以下、特に音声信号がアナログかデジタルかの表記はしないが、最終的に人間の耳で聞く音がアナログ信号である以外の処理途中の信号はデジタル信号である

[0013] また、送信側では PCM信号をフレームごとに符号ィ匕して力パケットに収容して送信する場合と、 PCM信号をそのままフレームごとにパケットに収容して送信する場合がある。前者の場合、受信側において受信パケットから取り出した音声符号を復号する手段を必要とするが、後者の場合は必要としない。し力しながら、 PCM信号も一種の符号であると考えれば、受信側にぉ、てパケットから取り出した PCM信号をデイジタルオーディオ信号に変換する復号ィ匕手段を必要とする。図 3に示したこの発明の音声パケット再生装置における音声パケット復号部 13はいずれの場合であってもよい。

[0014] 状態検出部 14はパケット受信部 11で受信されたパケットの到着時刻とタイムスタンプが与えられ、遅延ゆらぎを検出すると共に、受信バッファ 12に蓄積されているパケット数を検出して制御部 16に与える。ここで簡単のため現パケットのタイムスタンプをフレーム番号 F (n=0, 1, 2,…；)と同じとし、到着時刻を Tとし、直前のパケットのタイムスタンプを F とし、その到着時刻を T とする。信号伝送路の遅延量の変動が小さ n— m n-m

ければ通常は m=lであるが、遅延量が大きく変動すると到着パケットの順番の逆転が生じる可能性があるので一般には m=lとは限らない。フレーム長を Lfとし、遅延ゆらぎ j を例えば j =(T -T )-m X Lf又はその絶対値で表すことにする。遅延ゆらぎ jの定義はゆらぎの程度を数値で表すことができれば他の定義式を用いてもよい。

[0015] 状態検出部 14は前回のパケットの到着時刻 T とタイムスタンプ F を内部の情報 n-m n— m

記憶部 14Mに保持すると共に、一定期間 (例えば 2秒間)過去に遡って受信された各パケットについて計算した遅延ゆらぎ j , j ,…を保持している。現パケット (タイムス η η-1

タンプ F )の受信時点における過去一定期間（2秒）内の遅延ゆらぎの最大値又は統計値 (以下最大遅延ゆらぎと呼ぶ)を Jと表すことにする。あるいは一定期間の代わりに、一定数 (例えば 100)の受信されたパケットに対する最大遅延ゆらぎを Jとしてもよい。状態検出部 14は、パケット受信部 11からパケットの到着時刻 Tとタイムスタンプ F が与えられる毎に最大遅延ゆらぎ Jを求め、現時点の受信バッファ 12の蓄積パケット数 (バッファ量) Sと共に制御部 16に与える。

[0016] 音声分析部 15は、まず音声パケット復号部 13から出力された復号音声データ列を分析して、当該フレームが音声区間であるか非音声区間であるかを判定する。なお、ここで言う音声区間とは、人間の発声した音声信号が含まれる区間、非音声区間とは音声信号が含まれない区間と定義する。音声区間は有声音区間又は無声音区間のいずれかであり、非音声区間は音声区間以外の区間、即ち、背景雑音区間又は無音区間のいずれかである。その判定方法としては、例えば、フレーム内の音声信号のパワーを計算し、パワーが閾値以上であれば音声フレーム (音声区間）、閾値未満であれば非音声フレーム (非音声区間）と決めることにする。

[0017] 当該フレームが音声区間と判定された場合には、ピッチ長の分析が行なわれる。ピツチ長は、例えば、音声波形又は音声波形にスペクトル包絡の逆特性を持つフィルタをかけた信号の自己相関係数を計算することによって得られる。当該フレームが非音声区間と判定された場合には、ピッチ長の分析は行なわず、ピッチ長 Lpとして一定値、例えばフレーム長 Lfの 1/2を設定する。後述するように、ピッチ長 Lpはフレーム長 Lfの 1/2以下が以後の処理に都合がよいためである。フレーム長 Lfの 1/4、 1/6といつた 1/2以下の任意の値でもよ、。

[0018] 当該フレームが音声区間と判定された場合であっても、その音声が有声音の場合と無声音の場合がある。無声音の場合にはピッチと!/、う音声の物理的特徴量は存在しない。その場合でも、ピッチ分析の手法を用いて得られた値をピッチ長として以後の処理に利用して差し支えないし、非音声区間と同様にピッチ長として一定値に設定してしまっても本発明の効果に大差はない。

背景雑音がある場合の背景雑音区間 (音声区間以外)では、音声区間と同様にピツチ分析の手法を用いてピッチ長を算出する。このとき得られるピッチ長は、音声の物理的特徴量としてのピッチとは異なるが、信号に含まれる主要な基本周波数に対応する周期として利用する。なお、音声の符号化方法によっては音声符号中にピッチに関する情報が含まれている場合があり、その場合には音声符号中のピッチ情報を用いてピッチ長を求めればよ!、。

[0019] 制御部 16は予め実験により最大遅延ゆらぎとそれに対する受信バッファ 12の最適蓄積バケツト数を決めた例えば図 4に示す表 16Tを有して、る。図 4に示す表 16Tは、フレーム長 Ll¾¾0msecの場合であり、従って、隣接パケットとの理想的な受信間隔も 20msecである。制御部 16は、状態検出部 14から与えられた最大遅延ゆらぎ Jから表 16Tを参照して求めた最適パケット数 Bと現在の受信バッファ 12の蓄積パケット数 Sとの差 S— Bに基づいて、受信バッファ 12に必要とされるバッファ量の調整の緊急度を判定する。なお、表 16Tを用いる代わりに、例えば最大遅延ゆらぎ Jと最適蓄積パケット数 Bの関係を近似的に表す式を予め決め、それを使用してもよい。即ち、最大遅延ゆらぎ Jと最適蓄積パケット数 Bの予め決めた関係を使用するのであればどのような方法でもよい。

[0020] 制御部 16は判定した緊急度と、音声分析部 15から与えられた音声 Z非音声判定結果に基づいて、音声パケット復号部 13からの現フレームの復号音声波形データに対し、伸張するか、短縮するか、あるいは変更しないかを決め、その決定による制御を消費量調整部 20に与える。

消費量調整部 20は制御部 16の制御に従って、音声パケット復号部 13からの復号音声波形データをそのまま出力するか、伸張して出力するか、短縮して出力する。復号音声波形を伸張すれば音声パケット復号部 13の受信バッファ 12に対し次のパケットの転送要求が遅れることになり、単位時間当たりのパケット消費量が少なくなる。逆に、復号音声波形を短縮すれば、単位時間当たりのパケット消費量が多くなる。即ち音声信号として出力するための単位時間当たりの処理フレーム数を制御することにより受信バッファ 12からのパケットの読み出し量を制御する。

[0021] サウンドデバイス 18は図示してない DZA変翻を有しており、音声データ列をァナログ信号に変換し実際にスピーカで再生する。消費量調整部 20からデジタルの音声信号がサウンドデバイス 18に送られると、アナログ音響信号である出力音声が再生される。サウンドデバイス 18は受け取った時間長（1フレームに相当する時間）の信号の再生が終わると、次のパケットの復号音声データ列を受け取る。サウンドデバイス 18の中にもサウンドデバイス用のバッファを持つのが一般的で、ダブルバッファと呼ばれる方法がよく知られている。ダブルバッファとは、 2つのバッファを持ち、一方が再生中は他方は次の再生のための信号を受け取って準備する方法である。バッファが満杯のときは、一方の再生が終了するまでは次の信号は受け取らない。バッファ内に次の信号を格納できる空き領域が発生すると、直ちに次の信号の読み込みが実行される。

[0022] 図 5A及び図 5Bは図 3に示したこの発明による音声パケット再生装置におけるパケット受信部 11と受信バッファ 12と、状態検出部 14による上述した受信パケットの処理手順と、それ以外の構成部による音声データ列の再生処理手順を示す。

図 5Aの処理では、ステップ S 1Aでパケット受信部 11により音声パケットが受信されると、ステップ S2Aで受信パケットのタイムスタンプと到着時刻とを状態検出部 14に保存する。

ステップ S3Aで、状態検出部 14により受信パケットの到着時刻とタイムスタンプから直前の受信パケットに対する遅延ゆらぎを求め、到着時刻、タイムスタンプと共に保存し、過去一定時間内の最大遅延ゆらぎ Jを求め、受信バッファ 12の現時点の蓄積パケット数 (バッファ量) Sを検出し、制御部 16に最大遅延ゆらぎ Jとバッファ量 Sを与える。

[0023] ステップ S4Aで、受信パケットを受信バッファ 12に蓄積し、ステップ S1Aに戻って次のパケットを待つ。

図 5Bの処理では、ステップ S1Bで音声パケット復号部 13からの要求により受信バッファ 12から再生処理における現フレームに対応するパケットを読み出し、ステップ S 2Bで音声パケット復号部 13によりパケット中の音声符号を復号ィ匕して音声データ列を得る。

ステップ S3Bで、音声分析部 15により復号音声データ列が音声区間であるか非音声声区間であるか判別し、ステップ S4Bで制御部 16により最大遅延ゆらぎ Jに対する最適バッファ量 Bを図 4の表力決定する。

[0024] ステップ S5Bで、制御部 16によりさらに最適バッファ量 Bと検出ノッファ量 Sに基づ V、てバッファ量の調整の緊急度を判定する。

ステップ S6Bで、判定された緊急度に応じて消費量調整部 20により現フレームの復号音声データ列に対し波形伸張 Z短縮処理を行う。

ステップ S7Bで、波形伸張 Z短縮処理された音声データ列を出力し、ステップ S1B に戻って次のパケットの再生処理に移る。

以下、図 3に示したこの発明による音声パケット再生装置の要部を詳細に説明する

[0025] 図 6は音声分析部 15の機能構成例を示す。ここでは、音声分析部 15は、高域通過フィルタ 151と、分析用バッファ 152と、フレーム内パワー計算部 153と、区間判定部 154と、ピッチ抽出部 15Aとから構成されている。音声パケット復号部 13からのフレームごとの復号音声データは高域通過フィルタ 151により直流分や、本来音声に含まれて、な、極端に低!、周波数 (例えば 50Hz以下)の成分が除去された後、以降の処理のために分析用バッファ 152に一時保持され、フレーム内パワー計算部 153 によりフレーム内のパワー P1¾計算される。区間判定部 154は予め決めたパワー閾値 Pthよりもフレーム内パワー Pi¾大きければ音声区間、 Pth以下であれば非音声区間と判定し、判定結果を出力する。

[0026] ピッチ抽出部 15Aは区間判定部 154の判定結果が音声区間と判定した場合に復号音声データ列力ピッチ抽出処理を実行する。ピッチ抽出部 15Aは線形予測分析部 155と、逆フィルタ係数算出部 156と、逆フィルタ 157と、ピッチ相関計算部 158と力構成されて、る。線形予測分析部 155は分析用バッファ 152に保持されて、る 1 フレーム分の復号音声データ列を線形予測分析し、線形予測係数を得て逆フィルタ係数算出部 156に与える。逆フィルタ係数算出部 156は線形予測係数から、復号音声信号のスペクトル包絡を平坦ィ匕するような逆フィルタ係数を算出し、線形フィルタで構成された逆フィルタ 157の係数として設定する。従って、逆フィルタ 157は与えられた復号音声データ列を逆フィルタ処理し、それによつてスペクトル包絡が平坦ィ匕された音声データ列がピッチ相関計算部 158に与えられる。ピッチ相関計算部 158は与えられた音声データの自己相関値をサンプル点を順次ずらしてそれぞれ計算し、得られた一連の相関値のピークの間隔をピッチ長 Lpとして検出し、消費量調整部 20に与える。

[0027] 尚、ピッチ長の分析には、当該フレームの信号だけでなぐ過去のフレームの信号も利用することが多い。その場合には分析用バッファ 152のサイズを 2フレーム以上とし、現フレームと過去のフレームの復号音声データ列を保持し、過去から現在に渡る複数フレームの音声データ列に対するピッチ長分析を行えばよい。音声 Z非音声の判定結果は制御部 16に、ピッチ長 Lpは音声データ列の消費量を調整する消費量調整部 20に送られる。

図 3に戻って、消費量調整部 20は、フレーム波形伸張部 21と、フレーム波形短縮部 22と、波形伸張用バッファ 23と、スルーノス 24と、スィッチ SW1、 SW2とによって構成される。スィッチ SW1は 3つの切替端子 Al、 Bl、 CIを持ち、スィッチ SW2は 3 つの切替端子 A2, B2, B3を持ち、これら切替端子の組 Al, A2 ;B1, B2 ;C1, C2 間にそれぞれフレーム波形伸張部 21、スルーパス 24、フレーム波形短縮部 22が接続されており、制御部 16の制御に従ってこれらのいずれかを選択するように連動して切り替えられる。スィッチ SW2により選択された音声波形データ列はサウンドデバイス 18に与えられると共に、波形伸張用バッファ 23に書き込まれる。波形伸張用バッファ 23から読み出された音声信号はフレーム波形伸張部 21に与えられる。

[0028] フレーム波形伸張部 21の機能構成例を図 7に、フレーム波形伸張部 21による波形伸張処理の例を図 8に示す。

フレーム波形伸張部 21は、波形処理用バッファ 21-0と、波形挿入処理部 21-1と、第 1波形切出し部 21-2と、ピッチ波形生成部 21-3と、第 2波形切出し部 21-4とから構成されて!/、る。第 2波形切出し部 21-4は音声分析部 15からのピッチ長 Lpを使って、波形伸張用バッファ 23に蓄積されている 1フレーム過去の出力音声信号波形 WF1から、図 8,行 Aに示すピッチ長 Lpの区間の波形 Xを切り出す。即ち、バッファ 23内の最後のサンプル点から、過去の時間方向に向力つて 1ピッチ長 Lpの波形 Xを切り出す。

[0029] 第 1波形切出し部 21-2は、波形処理用バッファ 21-0内の現フレームの音声信号波形 WF0から、図 8の行 Aにおけるピッチ長 Lpの区間の波形 Yを切り出す。即ち、入力された現フレームの音声信号波形 WF0の先頭サンプル点力正の時間方向に向かつて 1ピッチ長 Lpの波形を切り出す。

ピッチ波形生成部 21-3は、前記切り出した波形 Xと波形 Yにそれぞれ三角窓の重み付けを行なった後、互いに加算して、図 8の行 Bに示す波形 Zを作成する。ここで利用する重み付け三角窓は、非特許文献 1に記載されている三角窓と同様のものを利用することができる。即ち、波形区間の始点カも終点に向力つて、重みが波形 Xでは 0から 1に、波形 Yでは 1から 0に直線的に変化する形状を利用できる。

[0030] 波形挿入処理部 21-1は、図 8の行 Cに示すように現フレームの音声波形の先頭に付加した 1ピッチ長 Lpの区間に、行 Dに示すように前記波形 Zを挿入する。

図 8、行 Aでは、波形 Xは波形伸張用バッファ 23内の 1フレーム前の信号力切り出し、波形 Yは波形処理用バッファ 21-0内の現フレームの信号力切り出しているが、ピッチ長 Lpがフレーム長 Lfの 1/2以下の場合には、現フレームの音声波形のみを使つて挿入波形を作成してもよい。例えば、図 9、行 A中に示すように、図 8、行 Aの波形 X、波形 Yに対応する波形 X'、 Y'を現フレームの先頭力も連続して 2ピッチ長の区間から切り出し、切り出した波形 X Ύ' に三角窓をかけて互いに加算して波形 Ζ ' (図 9、行 Β)を作成し、現フレームの波形:^ tY' の間（図 9、行 C)に波形を挿入して長さ Lf+Lpの波形とすれば（図 9、行 D)、図 8の手法と同様の効果が得られる。

[0031] 図 9の手法では、図 8の手法で使用した波形伸張用バッファ 23は不要になるメリットがある反面、ピッチ長 Lpがフレーム長 Lfの 1/2以下である制限がある。しかしながら、波形処理用バッファ 21-0のサイズを例えば 2フレーム分として現フレームとその直前のフレームの波形を保持するようにし、伸張処理を 2フレーム分の音声信号に対して行うことにより、ピッチ長 Lpが Lf/2を超えても波形伸張処理を行うことができる。

フレーム波形伸張部 21の処理によって、長さ Lfの現フレームの音声信号波形は、図 8、行 D及び図 9、行 Dに示すように長さが Lf+Lpに伸張された信号波形となって出力される。

[0032] 図 3におけるフレーム波形短縮部 22の機能構成例を図 11に、フレーム波形短縮部 22による波形短縮処理の例を図 12に示す。フレーム波形短縮部 22は、波形処理用バッファ 22-0と、波形置換処理部 22-1と、第 3波形切出し部 22-2と、ピッチ波形生成部 22- 3と、第 4波形切出し部 22- 4とから構成されている。

第 3波形切出し部 22-2は、図 12の行 Aに示すように、波形処理用バッファ 22-0に保持されている現フレームの音声信号波形の先頭サンプルから 1ピッチ長 Lpの区間の波形 Dを切り出す。第 4波形切出し部 22-4は現フレームの音声信号波形の波形 Dに続く 1ピッチ長 Lpの区間の波形 Eを切出す。

[0033] ピッチ波形生成部 22-3は、前記切り出した波形 Dと波形 Eにそれぞれ三角窓の重み付けを行った後加算して、図 12の行 Bに示す波形 Fを作成する。ここで利用する重み付け三角窓としては、やはり非特許文献 1に記載されている力波形区間の始点から終点に向かって、波形 Dでは 1から 0に、波形 Eでは 0から 1に直線的に変化する形状を使用できる。

波形置換処理部 22-1は、行 Aに示す現フレームの連続する計 2ピッチ長の波形 D、 Eの区間を行 Cに示すように 1ピッチ長の区間に短縮して、 1ピッチ長の前記波形 Fで置換する (行 D)。

[0034] フレーム波形短縮部 22の処理によって、フレーム長 Lfの入力音声信号は、 Lf-Lpに短縮された信号となって出力される。

フレーム波形短縮部 22において、ピッチ長 Lpがフレーム長 Lfの 1/2を超えることがある場合は、前記短縮処理を行なうことができない。つまり波形 Eがフレーム内から切り出せないためである。例えば、フレーム長 Ll¾20ミリ秒とすると、ピッチ長 Lpは 10ミリ秒以下でなくてはならず、これはピッチ周波数が 100Hz以上でなくてはならないことを意味する。男性音声では、ピッチ周波数が 100Hz未満である場合もある。このようにピッチ長 Lpがフレーム長 Lfの 1/2を超える場合は、フレーム波形短縮部 22の波形処理用バッファ 22-0のサイズを 2フレーム分とし、現フレームとその直前のフレームの連続する 2フレーム長の音声信号に対し、上述の短縮処理を行えばよい。

[0035] ピッチ長 Lpがフレーム長 Lはりも長い場合には、前記 2フレーム分の入力音声信号に対する短縮処理も、前記フレーム波形伸張部 21の処理も、ともに行なうことができないが、ピッチ長が 20ミリ秒より大きい、即ちピッチ周波数が 50Hzよりも低いことは滅多にありえないことから、仮に入力されたピッチ長 Lpがフレーム長 Lはりも長い場合には、フレーム波形伸張処理、フレーム波形短縮処理とも無処理のまま入力信号をそのまま出力すればよい。

再び図 3に戻って、制御部 16は状態検出部 14からの最大遅延ゆらぎ Jと受信バッファ 12の蓄積パケット数 (バッファ量) Sとに基づいて、受信バッファ 12に蓄積するパケットの量を増やすべき力、減らすべきか、そのまま維持するのかの判断を行う。

[0036] 蓄積するパケットの量を増加すべきと判断する状況の例としては次の場合が考えられる。

(a)受信バッファに蓄積されている音声パケットの量が減少傾向にある場合。

(b)受信バッファに蓄積されている音声パケットの数が所定値より少なくなつた場合

(c)受信パケットの到着時間の間隔が増加傾向にある場合。

蓄積するパケットの量を減少すべきと判断する状況の例としては次の場合が考えられる。

[0037] (a)受信バッファに蓄積されて、る音声パケットの量が増加傾向にある場合。

(b)受信バッファに蓄積されている音声パケットの数が所定値以上に達した場合。

(c)受信パケットの到着時間の間隔が短縮傾向にある場合。

それ以外で、パケット到着時点の最大遅延ゆらぎに対して、その時点で蓄積しているパケット量が適切であると判断されるときは、そのまま維持という判断をする。尚、実際の遅延ゆらぎが何ミリ秒の時にパケット蓄積量はいくらが適切であるかについては図 4に例を示したが、一定期間（例えば 2秒間）内のパケット受信部 11へのパケット到着間隔の最大値よりも、蓄積されたパケットの数 Sで算出されるフレームの長さの合計時間 S X L1¾少し長、程度がょ、と考えられる。

[0038] 制御部 16は、蓄積するパケットの量を増やすべきであると判断した場合、スィッチ S Wl、 SW2をそれぞれ端子 Al、 A2に切り替える。蓄積するパケットの量を減らすベきであると判断した場合には、スィッチ SW1、 SW2をそれぞれ端子 Cl、 C2に切り替える。蓄積するパケットの量をそのまま維持すべきであると判断した場合には、スイツチ SW1、 SW2をそれぞれ端子 Bl、 B2に切り替え、各切り替え位置により消費量調整部 20の消費量が設定される。

波形伸張用バッファ 23は、スィッチ SW2の出力側の音声データ列を蓄積し、蓄積された音声データ列は、前述のように、フレーム波形伸張部 21で利用される。

[0039] 音声データ列がサウンドデバイス 18に送られると、所定速度のクロックに同期して出力音声が再生される。サウンドデバイス 18は受け取った時間長の音声データ列の再生が終わると、次のパケットから復号した音声データ列を受け取る。

前述のように、サウンドデバイス 18の中にもサウンドデバイス用のバッファを持つのが一般的で、ダブルバッファと呼ばれる方法がよく用いられる。ダブルバッファの両方のバッファが満杯のときは、一方のバッファの再生が終了し、そのバッファが空になるまでは次の音声データ列は受け取らない。

[0040] スィッチ SW1、 SW2がそれぞれ端子 Cl、 C2側、即ちフレーム波形短縮部 22側にセットされると、もとの 1フレーム長に満たない長さの信号がスィッチ SW2より出力される。 1フレーム長に満たない長さの信号をそのままサウンドデバイス 18に送ると、サゥンドデバイスのオーバーヘッドが大きくなつて、時に音声の途切れが発生することがある。サウンドデバイス 18の仕様としてフレーム長の許容最低値がある場合には、スイッチ SW2とサウンドデバイス 18の間に中間のバッファを設けるのがよい。

スィッチ SW1、 SW2を端子 Al、 A2側に切り替えると、音声パケット復号部 13から出力された復号音声データ列は、フレーム波形伸張部 21を通ってサウンドデバイス 18に送られる。長さ Lfの復号音声データ列がフレーム波形伸張部 21を通ることによつて、長さ Lf+Lpのデータ列に伸張されるので、サウンドデバイス 18での再生時間も Lf+Lpになる。即ち、通常、サウンドデバイス 18が音声データ列を受け取る時間間隔が LfCあつたのが、 Lf+Lpの信号の再生時には音声データ列を受け取る時間間隔は Lf+Lpになる。

[0041] 音声パケット復号部 13は、サウンドデバイス 18が音声データ列を受け取らないと受信バッファ 12に対して次の送信要求を出さないので、パケット受信部 11が一定の間隔でパケットを受信していれば、受信バッファ 12に蓄積されるパケット量は平均として増えることになる。平均として増えるとは、 Lpく LfCあるので、 1回のフレーム波形伸張処理では、受信バッファに蓄積されるパケット量の増分は 1フレーム分には満たない。復号音声信号に対し複数フレーム (Nとする）にわたつてフレーム波形伸張部 21 の伸張処理を行うと、 Nよりも小さヽ Mフレーム分だけ受信バッファ 12に蓄積されるパケット量が増加する。

[0042] 図 13を用いてその様子を説明する。図 13の行 Aは受信バッファ 12に順次蓄積されるパケット P , P , P ,…を、また図 13の行 Bは定常の音声フレーム F , F , F ,…の

1 2 3 1 2 3 消費状態を示す。つまり、スィッチ SW1と SW2が端子 Bl、 B2にセットされている場合は受信バッファ 12に格納されているパケットを 1個ずつ取り出して音声パケット復号部 13で 1フレーム長 Lf毎の音声データ列に復号し、圧縮、伸張の処理を受けずにスルーパス 24を通ってサウンドデバイス 18に与えられる。サウンドデバイス 18では 1 フレーム長 Lf毎の音声データ列を音声に再生する。従って、この状態では 1パケットを消費する毎に 1フレーム長の音声が再生され、 1パケット分の音声が再生されると、次のパケットが受信バッファ 12から取り出され、音声パケット復号部 13で音声データ列の復号が行われる。

[0043] これに対し、図 13の行 Cに示す消費量小の状態では、スィッチ SW1と SW2は端子 A1と A2に接続され、復号音声データ列は伸張処理を受けるので、サウンドデバイス 18に与えられる音声データ列の時間長は Lf+Lpとなる。従って、行 Cに示すように伸張されたフレーム F' , F' , F' ,…がサウンドデバイス 18に与えられることになる。サ

1 2 3

ゥンドデバイス 18は 1パケットから復号した各フレーム長 Lfの音声データ列を Lf+Lp の時間を掛けて音声を再生することになるからサウンドデバイス 18側力も音声バケツト復号部 13に復号音声データ列を出力することを要求するタイミングは Lf+ Lpの周期となる。図 13、行 Bに示した定常消費状態の例では時間 TM内に 6個のパケットを消費したが、図 13、行 Cに示す受信バッファ 12からパケットを取り出す周期が Lf+Lp の消費状態例ではパケットを 4個消費することになる。これによりパケットの消費量を定常の消費状態より少なくすることができる。

[0044] スィッチ SW1、 SW2を端子 Cl、 C2側に切り替えると、音声パケット復号部 13から出力された復号音声データ列は、フレーム波形短縮部 22を通ってサウンドデバイス 18に送られる。長さ Lfの復号音声データ列がフレーム波形短縮部 22を通ることによつて、長さ Lf Lpの音声データ列に短縮されるので、図 13、行 Dに示すように短縮されたフレーム F" , F" , F" ,…がサウンドデバイス 18に与えられることになる。そのた

1 2 3

め、サウンドデバイス 18での各短縮フレームの再生時間も Lf—Lpになる。即ち、通常、サウンドデバイス 18が音声データ列を受け取る時間間隔力であったの力 Lf Lp の信号の再生時には間隔が Lf Lpになる。この結果、音声パケット復号部 13も、通常 1フレーム長 Lfの時間間隔よりも短!、間隔で受信バッファ 12に対して次の送信要求を出すので、パケット受信部 11が一定の間隔でパケットを受信していれば、受信ノッファに蓄積されるパケット量は平均として減ることになる。平均として減るとは、 Lp < LfCあるので、 1回のフレーム波形短縮処理では、受信バッファに蓄積されるパケット量の減少分は 1フレーム分には満たない。複数フレーム (Nとする）にわたつてフレーム波形短縮部 22を通ると、 Nよりも小さい Mフレーム分受信バッファに蓄積されるパケット量が減少する。

[0045] 図 13の行 Dに示す例では、フレーム短縮部 22を通すことにより、同じ時間 TMの間にパケットを 10個消費することを表わして、る。このようにパケットの消費量を大きくすることにより、受信バッファ 12に蓄えられるパケットの数を少なくすることができる。制御部 16により、より高度なバッファ量制御が可能である。例えば、状態検出部 14 力ものバッファ量 Sと最大遅延ゆらぎ Jに基づいて、受信バッファに蓄積するパケットの量を増やすべき、減らすべきと判断する際に、緊急に増やすべき Zゆるやかに増やすべき、緊急に減らすべき Zゆるやかに減らすべき、という増減速度を判断に加えることができる。具体的には、通信網の状態が突然悪ィ匕したときに、受信バッファに蓄積するパケットの量をゆるやかに増やして、たのでは、音声の途切れが発生してしまうかもしれない。通信網の状態変化が急激であれば、ノッファに蓄積するパケット量の制御も緊急に行うべきである。逆に、一般にドリフトと言われる、送信側と受信側のクロックずれやタイミングのわずかなずれの蓄積により、ノッファに蓄積するパケット量が徐々に所望の量より増えてきてしまった、あるいは減ってきてしまったという場合には、ゆるやかに増減すればよい。

[0046] 緊急に増減が必要な場合は、音声区間、非音声区間にかかわらず、消費量調整部 20のスィッチ SW1、 SW2をそれぞれ端子 Al、 A2側、あるいは端子 Cl、 C2側にセットして、迅速な波形伸縮を行うことによって、パケット蓄積量の増減も迅速に制御することができる。逆に、ゆるやかな増減でよい場合は、音声分析部 15における音声 Z非音声判定の結果、非音声フレームにおいてのみスィッチ SW1、 SW2をそれぞれ端子 Al、 A2側、あるいは端子 Cl、 C2側にセットするという方法でもよい。さらに、非音声フレームの場合には、ピッチ長を実際にピッチ分析した値ではなぐフレーム長 Lfの 1/2以下の任意の値に設定してよいので、よりゆるやかな増減の場合には、任意に設定するピッチ長を短、値にするとよ、。

図 14は図 3の構成において図 6に示した音声分析部 15による音声 Z非音声判定結果と、状態検出部 14により検出した現受信パケットに対し過去 T秒間 (例えば 2秒間）における最大遅延ゆらぎ Jと、受信バッファ 12内の蓄積パケット数 Sとに基づいて、バッファ量の調整が緊急を要するかその緊急度を判定する手順の例を示す。ステップ S1 :状態検出部 14における最大遅延ゆらぎ Jを受信バッファ 12内の各パケットの受信時刻から求める。

ステップ S2 :制御部 16により最大遅延ゆらぎ Jに対応する最適バッファ量 Bを図 4の表 16Tを参照して決める。

ステップ S3 :状態検出部 14により現時点における受信バッファ 12のバッファ量 (蓄積されて、るパケット数) Bを求める。

ステップ S4 :制御部 16により決定した最適バッファ量 Bと状態検出部 14により検出した実際のバッファ量 Sとの差の絶対値 I S-B Iが予め決めた正の値 Eより小であるか判定し、小であればバッファ量の調整は必要ないものと判断し、現状を維持する（これを緊急度 0と定義する）。

ステップ S5 :差の絶対値 I S -B I力 ¾より小でない場合は、バッファ量の調整が必要であることを意味し、差 S— Bがー E以下であるが判定する。—E以下であることはノッファ量を増大する必要があることを意味し、以下のステップ S6, S7を実行してバッファ量を増大する緊急度を判定する。 S— Bがー E以下でな、場合は S— Bが E以上であり、ノッファ量を減少する必要があることを意味し、以下のステップ S8, S9を実行してバッファ量を減少する緊急度を判定する。ステップ S6：現時点のバッファ量 Sが 0以上でかつ最適バッファ量 Bの 20%以下であるか判定し、もしそうであればバッファ量の調整 (ここでは増大）の緊急度が大であると判定する。なお、 Bが 1以上で Sが 0のとき、即ちバッファが枯渴して音切れの危険がある状態もこのステップで緊急度が大であると判定される。

ステップ S7 :現時点のバッファ量 Sが最適バッファ量 Bの 20%より大で、かつ 50%以下であるか判定する。そうであればバッファ量調整の緊急度は中と判定し、そうでなければ緊急度は小と判定する。

ステップ S8 : S— B<— Eの場合はバッファ量を増加する必要があり、現時点のバッファ量 Sが最適バッファ量 Bの 200%以上であるか判定する。もしそうであれば、緊急度大と判定する。

ステップ S9 : Sが Bの 200%以上でない場合は、 S力 Bの 200%より小で、かつ 150% 以上であるか判定し、もしそうであれば、緊急度は中であると判定し、そうでなければ緊急度は小であると判定する。

垂

図 15に示す表 1は、図 14の手順により判定した緊急度 (大、中、小、 0)と、音声 Z 非音声判定結果に基づいて制御部 16が実行する消費量調整部 20の第 1の制御例を示す。

判定結果が緊急度大の場合、音声信号の音声 Z非音声判定結果にかかわらず、スィッチ SW1, SW2を、バッファ量を増すべきときは端子 Al, A2側に、バッファ量を減らすべきときは端子 C 1 , C2側に制御して現フレームの復号音声データ列に対し、伸張 Z短縮処理を必ず行う。判定結果が緊急度中の場合も緊急度大の場合と同じ制御を行う。

判定結果が緊急度小の場合は、現フレームの復号音声データ列が音声区間であればスィッチ SW1, SW2を端子 Bl, B2に固定して伸張 Z短縮を行わず、非音声区間であれば、スィッチ SW1, SW2を、ノッファ量を増すべきときは端子 Al, A2側に、ノッファ量を減らすべきときは CI, C2側にセットする。

垂^ 2

図 16に示す表 2は、図 14の手順により判定した緊急度 (大、中、小、 0)と、音声 Z 非音声判定結果に基づいて制御部 16が実行する消費量調整部 20の第 2の制御例を示す。この制御例は第 1の制御例に比べて、緊急度が小のときの音声区間で N1フレームに 1回の割合で Al, A2側又は CI, C2側にスィッチ SW1, SW2をセットし、それ以外のフレームでは Bl, B2側にセットしている。これは音声の状態 (通話環境）によっては、非音声区間がまったく検出されない場合が想定されるため、非音声区間が検出されない場合でも、ノッファ量を変更できるようにしたものである。 N1の値は 1 以上の整数であるが、例えば Nl=5とする。その他は第 1の制御例と同様である。垂^ 3

図 17に示す表 3は、制御部 16が実行する消費量調整部 20の第 3の制御例を示す。この例は、図 16に示した第 2の制御例における緊急度が中の制御を緊急度が大の制御と異ならしており、音声区間では N2フレームに 1回の割合で Al, A2側又は C1, C2側にスィッチ SW1, SW2をセットし、それ以外のフレームでは Bl, B2側にセットする。 N2の値は 1以上の整数であるが、 N1より小さい（即ち Al, A2側又は CI, C2側にセットする頻度が制御例 2の対応する制御より小さい）例えば N2=2とするのが好ましい。その他は第 2の制御例と同様である。

垂 14

図 18に示す表 4は、制御部 16が実行する消費量調整部 20の第 4の制御例を示す。この制御例では、緊急度と音声 Z非音声区のすべての組に対応してそれぞれ予め決めたフレーム数ごとに 1回の割合でスィッチ SW1, SW2を Al, A2側又は CI, C2 側にセットし、それ以外では Bl, B2側にセットする汎用的な手法を定義している。即ち、緊急度が小と大の場合の音声区間での制御は図 17の第 3制御例と同様である力さらに緊急度が大の場合には音声区間 Z非音声区間にかかわらず N3フレームごとに 1回の割合でスィッチ SW1, SW2を Al, A2側又は CI, C2側にセットする。また、緊急度が中の場合は、非音声区間において N4フレームごとに 1回の割合でスィツチ SW1, SW2を Al, A2側又は CI, C2側にセットし、それ以外のフレームでは B 1, B2側にセットし、緊急度が小の場合は、非音声区間において N5フレームごとに 1 回の割合でスィッチ SW1, SW2を Al, A2側又は CI, C2側にセットし、それ以外のフレームでは Bl, B2側にセットする。 [0049] N3の値は 1以上の整数であり、例えば N3=lとする。 N4の値は 1以上の整数であり、例えば N4=lとする。 N5の値は 1以上の整数であり、例えば N5=2とする。これらの値 N1 〜N5を適切に選ぶことにより、音質の低下 (違和感の増カロ）とバッファ量の変更速度のバランスを調整することができる。

2実飾 I

図 6に示した音声分析部 15では、固定の閾値 Pthとフレームパワー Pf^比較することにより現フレームの復号音声信号が音声区間であるか非音声区間であるかの判定を行っている。この構成は簡便でよいが、復号音声信号にレベルの高い背景雑音（空調騒音やオフィスのざわつき、街頭騒音など）が含まれている場合に、音声区間 Z 非音声区間を正確に判定できない場合がある。音声 Z非音声判定に背景雑音を考慮することによりこの点を改善した構成を図 19に示す。

[0050] 図 19に示す音声分析部 15の構成は、図 6の構成に対しさらに動的パワー閾値計算部 150が設けられ、ピッチ相関計算部 158においてはピッチ分析を行ってピッチ長 Lpを求めると共にピッチ相関値湘関ピーク値)!:を求める。動的パワー閾値計算部 150は所定時間（例えば数秒乃至数十秒)過去に遡った範囲内のそれぞれのフレームのパワー Pfの系列とそれぞれのフレームについて求めたピッチ相関値 rを用いてパヮー閾値 Pdを動的に決定する。例えば、ピッチ相関 rが高いフレーム、例えば r≥0.7 のフレームはほぼ確実に音声区間であるとみなしてそれらのフレームのパワーの長時間平均 Pavlを計算することにより音声信号レベルが推定される。

[0051] 一方、ピッチ相関 rが低いフレーム、例えば r≤0.4のフレームは、音声区間でない（即ち、背景雑音)か、音声区間の無声音区間 (有声音区間でない)と推定される。背景雑音か無声音かの正確な区別は難しいが、無声音区間は相対的に少ないとみなせば、当該背景雑音か無声音区間とみなされるフレームのパワーの長時間平均 Pav2 を計算することによって、非音声区間の信号レベルが推定される。もちろん、背景雑音と無声音を区別して、背景雑音のフレームのみでパワーの長時間平均を計算できるほうが好ましいので、ピッチ相関値 rが低いフレームでも、フレームパワーの時系列の定常性を観測して、定常性の低い区間は無声音区間とみなし、上記パワーの長時間平均の計算力除外してもよ、。 [0052] 動的パワー閾値計算部 150では、推定された音声信号レベル Pavlと、非音声区間 (即ち、背景雑音区間）の信号レベル Pav2に基づいて、動的パワー閾値 Pdを動的に決定、更新する。例えば、動的パワー閾値 Pdはレベル Pavlと Pav2の間の値に選ぶが、好ましくは非音声区間のレベル値 Pav2よりわずかに大きい値に決めるのがよい。区間判定部 154は、フレームのパワー P1¾動的パワー閾値 Pdよりも大きければそのフレームを音声区間と判定し、そうでなければ非音声区間と判定する。

上述の第 2実施例による判定結果は、前述の図 15〜18に示した第 1乃至第 4制御例の、ずれに適用してもよ!、。

3実飾 I

前述の第 1及び第 2実施例では各フレームが音声区間か非音声区間かの 2通りに判定していたが、この実施例では音声区間が有声音区間であるか無声音区間であるか区別し、非音声区間が背景雑音区間であるか無音区間であるか区別する。従って、各フレームを、有声音、無声音、背景雑音、無音の 4通りに判定し、その判定に基づいて消費量調整部 20を制御する。そのための音声分析部 15の構成を図 20に示す。

[0053] 図 20に示す音声分析部 15の構成は、図 19に示した構成において区間判定部 15 4にもピッチ相関値 rを与え、区間判定部 154においてパワー閾値として動的パワー閾値 Pdと固定パワー閾値 Pthの両方を使用し、フレームパワー Pfとピッチ相関値 rからフレームが上記 4通りのいずれの区間かを判定する。

図 21は区間判定の処理手順を示す。

ステップ S1：フレームのパワー P1 ^固定閾値 p_th以下か判定し、そうであれば無音区間と判定する。

ステップ S2： Pi¾Sp_th以下でな、場合は、フレームパワー P1 ^動的パワー閾値 Pd以下か判定し、そうであれば背景雑音区間と判定する。

ステップ S3： Pi¾ Pd以下でな!、場合は、ピッチ相関値 rが予め決めた正の値 Rc以下か判定し、そうであれば音声区間の無声音区間と判定し、そうでなければ音声区間の有声音区間と判定する。

[0054] 図 22に示す表 5は、図 14の手順により判定した緊急度（大、中、小、 0)と、図 21の処理による区間判定結果に基づいて制御部 16が実行する消費量調整部 20の制御例を示す。この制御例では、緊急度が大と判定された場合は、区間判定結果に関係なく無条件で消費量調整部 20のスィッチ SWl, SW2を端子 Al, A2側又は CI, C 2側にセットする。

緊急度が中と判定された場合は、判定結果が有声音、無声音、背景雑音、無音、に対しそれぞれ予め決めた整数値 N6, N7, N8, N9のフレーム数ごとに 1フレームの割合でスィッチ SWl, SW2を端子 Al, A2側又は CI, C2側にセットする。予め決めた整数値としては例えば N6=2, N7=2, N8=l, N9=lを使用することができる力これらに限定されるものでない。

[0055] 緊急度が小と判定された場合も同様に、判定結果が有声音、無声音、背景雑音、無音、に対しそれぞれ決めた整数値 N10, Nil, N12, N13のフレーム数ごとに 1フレームの割合でスィッチ SWl, SW2を端子 Al, A2側又は CI, C2側〖こセットする。予め決めた整数値としては例えば N10=5, Nll=4, N12=4, N13=2を使用することができる 1S これらに限定されるものでない。

整数値 N6〜N13を適切に選択することにより、音質の低下 (違和感の増カロ）とバッファ量の変化速度のノ《ランスを調整することができる。

[0056] 尚、上述の各実施例ではサウンドデバイス 18を終段に接続した実施例を説明した力受信した音声データ列を蓄積するだけの場合もあり、必ずしも音声を再生しない場合もある。

以上説明した本発明の音声パケット再生方法はコンピュータに本発明による音声パケット再生プログラムを実行させることにより実現することができ、またコンピュータに本発明による音声パケット再生プログラムをインストールし、 CPUに解読させて実行させることにより、コンピュータによって本発明の音声パケット再生装置を構築することができる。本発明による音声パケット再生プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク或は CD— ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインスト一ノレするか、或は通信回線を通じてコンピュータにインスト一ノレされ、コンビュータに備えられた CPUに解読されて音声パケット再生動作を実行する。産業上の利用可能性

IP通信網上で音声通信を行う利用形態が普及してきており、本発明を適用することによって、安価で信頼性の高い音声通信が実現できる。

Claims

請求の範囲 [1] 入力音声データ列のフレーム毎の符号ィヒにより生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生方法であり、以下のステップを含む： (a)受信パケットを受信バッファに蓄積し、 (b)上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数とを検出し、 (c)上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、を求め、 (d)上記検出したバッファ蓄積パケット数と上記最適蓄積パケット数の相違の程度を複数の段階で判定し、 (e)上記受信バッファ力も現フレームに対応するパケットを取り出し、そのパケット中の音声符号を復号して現フレームの復号音声データ列を得て、 (£)上記相違の程度の段階ごとに定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように、上記復号音声データ列に対しその波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する。 [2] 請求項 1記載の音声パケット再生方法において、上記ステップ (£)は、

(f-1)上記復号音声データ列につ!、てのピッチ長を求めるステップと、

(f-2)上記音声データ列を分析して音声区間であるか非音声区間であるかを判定する音声非音声判定ステップと、

(f-3)上記音声非音声判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記復号音声データ列に対し上記ピッチ長に対応する波形を挿入又は削除するか又は上記復号音声データ列を変更しないことにより伸張、短縮又は現状維持の処理を行うステップ、

とを含む。 [3] 請求項 2記載の音声パケット再生方法にお、て、

上記ステップ (d)は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記ステップ (f-3)は、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記復号音声データ列が非音声区間の場合にのみ上記復号音声データ列の波形の伸張又は短縮を実行するステップを含む。

[4] 請求項 2記載の音声パケット再生方法にお、て、

上記ステップ (d)は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記ステップ (f-3)は、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記復号音声データ列が音声区間の場合には予め決めたフレーム数 N1毎に 1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行し、上記復号音声データ列が非音声区間の場合には予め決めたフレーム数 N2ごとに 1回の割合で上記音声復号データ列の波形の伸張又は短縮を実行するステップを含み、上記 N1及び N2は 1以上の整数であり、かつ N2は N1より小である。

[5] 請求項 1記載の音声パケット再生方法において、上記ステップ (£)は、

(f-2)上記復号音声データ列を分析して有声音区間、無声音区間、背景雑音区間、無音区間の!/、ずれであるか区間判定するステップと、

(f-3)上記区間判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記復号音声データ列に対し上記ピッチ長に対応する波形を挿入又は削除するか又は上記復号音声データ列を変更しないことにより伸張、短縮又は現状維持の処理を行うステップ、

とを含む。

[6] 請求項 5記載の音声パケット再生方法にお、て、

上記ステップ (d)は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記ステップ (f-3)は、上記段階が緊急度大の場合は、上記区間判定結果にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記有声音区間、上記無声音区間、上記背景雑音区間、上記無音区間に対しそれぞれ予め決めたフレーム数 Nl, N2, N3, N4毎に 1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行するステップを含み、上記 Nl, N2, N3, N4は正の整数であり、それらのうち少なくとも 1つは 2以上でかつ他の 3つとは異なる値である。

[7] 入力音声データ列のフレーム毎の符号ィ匕により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生装置であり、音声パケットをパケット通信網力も受信するパケット受信部と、

上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、を求め、上記検出したバッファ蓄積パケット数と上記最適パケット数の相違の程度を複数の段階で判定し、上記相違の程度の段階ごとに予め定めた規則に基づ、て、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように波形の伸張、短縮、又は現状維持を指示する制御信号を生成する制御部と、

上記受信バッファ力取り出された現フレームに対応するパケット中の音声符号を復号して現フレームの復号音声データ列を得る音声パケット復号部と、

上記制御信号に従って、上記現フレームの復号音声データ列に対し、その波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する消費量調整部、

とを含む。

[8] 請求項 7記載の音声パケット再生装置において、

上記音声分析部は上記復号音声データ列を分析して音声区間であるか非音声区間であるか判定してその判定結果を上記制御部に与えると共に、上記復号音声データ列についてのピッチ長を求めて上記消費量調整部に与えるようにされており、上記制御部は上記判定結果と、上記相違の程度の段階の判定結果とに基づ、て上記消費量調整部に対し、現フレームの上記復号音声データ列の伸張、短縮又は現状維持の制御を与えるようにされており、

上記消費量調整部は上記制御に従って上記ピッチ長に対応する波形を上記復号音声データ列に対し挿入又は削除するか又は上記復号音声データ列を変更しないようにされている。

[9] 請求項 8記載の音声パケット再生装置において、

上記制御部は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記消費量調整部に対し、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記復号音声データ列が非音声区間の場合にのみ上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与えるようにされている。

[10] 請求項 8記載の音声パケット再生装置において、

上記制御部は上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大である力、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記消費量調整部に対し上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記消費量調整部に対し、上記復号音声データ列が音声区間の場合には予め決めたフレーム数 N1毎に 1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行させ、上記復号音声データ列が非音声区間の場合には予め決めたフレーム数 N2ごとに 1回の割合で上記音声復号データ列の波形の伸張又は短縮を実行させる制御を与えるようにされており、上記 N1及び N2は 1以上の整数であり、かつ N2は N1より小である。

[11] 請求項 7記載の音声パケット再生装置において、上記音声分析部は上記復号音声データ列を分析して有声音区間、無声音区間、背景雑音区間、無音区間のいずれであるか区間判定してその判定結果を制御部に与えると共に、上記復号音声データ列についてのピッチ長を求めて上記消費量調整部に与えるようにされており、上記制御部は、上記区間判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記消費量調整部に対し、現フレームの上記復号音声データ列の伸張、短縮又は現状維持の処理を実行させる制御を与えるようにされており、

上記消費量調整部は、上記制御に従って上記ピッチ長に対応する波形を上記復号音声データ列に対し挿入又は削除するか又は上記復号音声データ列を変更しないようにされている。

[12] 請求項 11記載の音声パケット再生装置において、上記制御部は上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記消費量調整部に対し、上記段階が緊急度大の場合は上記区間判定結果にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記有声音区間、上記無声音区間、上記背景雑音区間、上記無音区間に対しそれぞれ予め決めたフレーム数 Nl, N2, N3, N4毎に 1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与えるようにされており、上記 Nl, N2, N3, N4のうち、少なくとも 1つは 2以上の整数であり、かつ他の 3つとは異なる値である。

[13] コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項

1記載の音声パケット再生方法を実施させる音声パケット再生プログラム。 [14] コンピュータが読取り可能な記録媒体によって構成され、この記録媒体に請求項 1 3記載の音声パケット再生プログラムを記録した記録媒体。