WO1998041978A1

WO1998041978A1 - Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video

Info

Publication number: WO1998041978A1
Application number: PCT/JP1997/000905
Authority: WO
Inventors: Takehiro Fujita; Takafumi Miyatake; Akio Nagasaka
Original assignee: Hitachi, Ltd.
Priority date: 1997-03-19
Filing date: 1997-03-19
Publication date: 1998-09-24
Also published as: EP0977172A1; EP0977172A4; US6600874B1; JP3753384B2

Description

明細書映像中の有音区間の始終点検出方法及び装置

技術分野

本発明はビデオテープやディスクに格納されたビデオ等の映像中に含まれる音声データの有音区間を検出する方法及び装置に係り、映像中の音声の頭出しを簡単にする方法及び装置に関わる。背景技術

近年、計算機の高速化と記憶装置の大容量化を背景にして、映像中の動画像、音声情報をディジタル化して扱うことができるようになつてきた。特に映像編集や映像管理の分野においては、テレビ放送制作、ビデオ制作のための撮影装置や編集装置、管理装置でディジタル化された映像を扱えるようになってきた。このような装置の一つに、数千種類のコマーシャル (以下 CM)映像を管理して、任意の CM映像を放送順に準備する CM管理装置（通称 CMバンク）がある。従来は複数の CM素材を放送前にビデオテープに一本化していたが、最近ではビデオテープを用し、ずに CM素材のフアイルを直接に放送する CM管理装置も利用されている。 CM管理装置には、広告代理店等の素材制作元から供給された CM素材が登録される。従来、 CM素材は CM毎に個別にビデオテープで供給され、素材の映像には CM以外にも制作元の名称や制作日時を記した画像等が撮影されている。また、 CMの前後には送出のタイミングを合わせるための遊びの映像が数秒間入っている。そのため、 CM素材を管理装置に登録する際には、製作もと〜供給されたマザ一素材を別のテープやディスク等の記録媒体にコピーして格納するのに加えて、放送すべき CMの始まりと終わりを登録する必要がある。

CM映像の始まりと終わりをチェックする作業は、現状、すべて人手で行われ、作業者にとって大きな負担であった。遊びの映像は CM映像本体の始まりと終わりに連続して撮影されているため、画像を見ただけではどこからどこまでが放送すべき CM映像なのかわからない場合が多い。し力、し、音と映像の組み合わせで構成される CM映像等において、遊びの部分には音声は録音されないため、作業者は映像中の遊びの区間における音を聞いて始まりと終わりを判断している。このような判断を行う際、従来技術では、作業者が映像の再生、停止、逆再生等の操作を繰り返しながら、聴覚で音の有無を判断するしか方法がなかった。これらの操作は映像再生装置のジョグ、シャトル等のダイヤルあるいは計算機画面のスクロールバーを利用することで改善されているが、依然として手間のかかる作業であった。

本発明は、 CM素材を管理装置に登録する際、 CMの始まりと終わりを音の有無によって聴覚で判断する作業を自動化し、登録操作を自動化して簡単にする方法および装置を提供することを目的としている。

本発明の他の目的は、 CM映像本体の始終点を実時間で検出し、その位置を登録する方法および装置を提供することにある。発明の開示

本発明は、映像管理装置への対話的登録処理において、時系列に入力した音声信号波形の包絡線を算出する包絡線算出手段と、該包絡線の値に対して音響レベルの閾値を予め設定する音響レベルの閾値設定手段と、該閾値のレベルと該包絡線が交差する時点を有音区間の開始点もしくは終了点として検出する始終点検出手段とを設け、従来聴覚によつて判断して、た音の有無を定量的かつ自動的に判断することができるようにする。ここで、該始終点検出手段には、無音状態の経過時間長の下限を予め設定する無音時間長の下限設定手段と、音声信号波形の包絡線の値が音響レベルの閾値を下回つた経過時間を算出する無音時間長算出手段と、該無音時間長が該下限を超えたことを判定する無音時間長判定手段とを設け、発話中の句の継ぎ目のような微少時間の音の途切れを検出しないようにする。同じく該始終点検出手段には、有音状態の経過時間長の下限を予め設定する有音時間長の下限設定手段と、音声信号波形の包絡線の値が音響レベルの閾値を上回った経過時間を算出する有音時間長算出手段と、該有音時間長が該下限を超えたことを判定する有音時間長判定手段とを設け、ノイズや単発的な音を検出しないようにする。また、該包絡線算出手段には、時系列に入力した音声信号に対して一定の時間幅を有するフィルタリング処理を施すフィルタリング手段を設ける。該フィルタリング手段には、時系列に入力した音声信号に対して一定の時間幅の最大値を順次求める最大値フィルタと最小値を順次求める最小値フィルタを用しヽ。

また本発明は、素材映像を再生する映像再生手段と、再生映像の音声トラックに記録された音声信号をディジタル信号として時系列に入力する音声入力手段と、入力した音声信号から有音区間の始終点を検出する音声処理手段と、検出結果を表示するディスプレイ手段を設け、素材映像中の有音区間の始終点の位置を作業者に提示できるようにする。該音声処理手段には、上記包絡線算出手段、音響レベルの閾値設定手段、始終点検出手段に加えて、有音区間の始終点を検出した時点の映像のフレーム位置を決めるフレーム位置決定手段を設ける。該フレーム位置決定手段には、検出処理開始からの時間経過を計数するタイマ一手段と、映像のフレーム位置を読み出す手段と、該始終点を検出した時点の経過時間とフレーム位置を読み出した時点の経過時間を記憶する経過時間記憶手段と、両者の経過時間の差分から読み出したフレーム位置を補正するフレーム位置補正手段とを設け、始終点検出からフレ —ム位置読み出しの時間遅れを補正して検出時点でのフレーム位置を決定できるようにする。さらに該音声処理手段には、検出した始終点で映像の再生を停止させる手段を設け、該始終点のフレーム位置で映像の再生を一時停止できるようにする。ここで、映像再生手段には計算機によって映像再生を制御できる映像再生装置を用いる。例えば、 VISCA (Video System Control Architecture：ビス力）端子付ビデオデッキや一般にプロ用の編集でよく使われるビデオデッキ等を用いる。これによつて、検出した有音区間へ効率的に頭だしできるようにする。

さらに本発明は、上記音声処理手段に有音区間の開始点および終了点のフレーム位置を個別に記憶するフレーム位置記憶手段と、該開始点および終了点のフレーム位置を個別に表示するディスプレイ手段とを設け、素材映像中の有音区間の開始点と終了点の位置を個別に作業者に提示できるようにする。また、一定時間長単位で時系列に入力した音声信号を蓄積するバッファメモリ手段と、入力した音声信号を再生する再生手段とを設け、検出した有音区間を視覚的にも聴覚的にも作業者が確認できるようにする。さらに処理対象の映像を CM素材として、 CM本体は一本あたり 1 5秒または 3 0秒の長さを持つという一般的なルールを利用して、これら一定時間の有音区間の時間長の上限と 1または 2秒の許容範囲を予め設定する時間長設定手段と、検出した有音区間の開始点から終了点までの検出時間長と該設定時間長を比較する時間長比較手段とを設け、 CM映像の一定の時間長の有音区間だけを検出できるようにする。また、検出した有音区間前後にマージンを設定するマ一ジン設定手段を設け、 CM素材から一定時間長の放送用の CM映像を CM管理装置に登録できるようにする。図面の簡単な説明

第 1図は、本発明の実施例を実現するためのシステム構成図であり、第 2 図は、本発明の有音区間検出方法の概念図であり、第 3図は、本発明の有音区間検出方法のフローチャートであり、第 4図は、本発明の有音区間の始終点判定条件を示した図であり、第 5図は、本発明を実現するための操作画面例を示した図であり、第 6図は、全体の処理の流れを示したフローチャートであり、第 7図は、本発明の有音区間検出の制御方式を示した図であり、第 8図は、本発明のフィルタリング処理の入出力データの位置関係を示した図であり、第 9図は、 CMの時間長ルールを用いた有音区間検出処理の流れを示したフローチャートであり、第 1 0図は、本発明の有音区間検出を実現するためのデータ構造例を示した図である。発明を実施するための最良の形態

以下、本発明の実施例を図面をもちいて説明する。

第 1図は、本発明を実現するためのシステム構成図の一例である。 1 0 1 は C R T等のディスプレイ装置であり、音声処理装置 1 0 4の出力画面を表示する。音声処理装置 1 0 4に対する命令および閾値等の設定は、マウス等のポインティング ·デバイスおよびテンキー等の数値入力デバイスからなる入力装置 1 0 5を使って行う。映像再生装置 1 1 0は、ビデオテープや光デイスク等に記録された映像を再生する装置である。映像再生装置 1 1 0から再生出力される映像信号中の音声信号は、逐次、音声入力装置 1 0 3によつてディジタル信号に変換され、音声処理装置 1 0 4に入力される。ディジタル信号に変換する際のサンプリング周波数、サンプリング · ビッ卜数、およびモノラル又はステレオを示すチャンネル数（モノラルは 1、ステレオは 2 ) といった情報も音声入力装置 1 0 3から音声処理装置 1 0 4に受け渡される。もちろん、これらの情報は 1 0 4で設定した数値を 1 0 3に与えるようにしてもよい。音声処理装置 1 0 4は受け取った信号を処理して映像再生装置 1 1 0を制御する。音声処理装置 1 0 4と映像再生装置 1 1 0は通信線 1 0 2 を通じて制御命令や応答の送受信をする。映像再生装置 1 1 0の扱う映像の各フレームに映像の先頭から順にフレーム番号（タイムコード）が割り付けられている場合には、該フレーム番号及び検索命令を音声処理装置 1 0 4から映像再生装置 1 1 0に送信することで、当該フレーム番号の画像を検索できる。同様に音声処理装置 1 0 4は映像再生装置 1 1 0にフレーム番号を要求して映像の現在のフレーム番号を受け取ることもできる。音声処理装置 1 0 4内部では、音声のディジタル信号はインタフヱ一ス 1 0 8を介して一旦メモリ 1 0 9に入力され、メモリ 1 0 9に格納された処理プログラムに従つて、 C P U 1 0 7によって処理される。処理プログラムは補助記憶装置 1 0 6に格納されており、 C P U 1 0 7の命令に応じてメモリ 1 0 9に適宜転送される。メモリ 1 0 9には、以下に説明する処理によって作成される各種のデータが蓄積され、必要に応じて参照される。また音声のディジタル信号や処理結果等の各種情報は 1 0 6に格納することもできる。スピーカ 1 1 1は音声信号入力装置 1 0 3から音声処理装置 1 0 4に入力された音声信号を入力に合わせて再生したり、メモリ 1 0 9に蓄積された音声信号をユーザの要求に応じて再生したりする。

以下では、まず最初に、ユーザが映像を確認しながら映像中の音声の有音区間を簡便に検出できる映像中の有音区間検出方法について説明する。次いで、この方法を用いて構成する有音区間検出装置について説明し、 CM素材映像から一定時間長の放送用 CM映像を見つけ出す方法について説明する。

第 2図は本発明の映像中の有音区間の検出方法の概要を示す模式図である。動画像 2 0 1と音声波形 2 0 2は、映像中に含まれる画像および音声の信号を示している。ここでは簡単のため音声波形 2 0 2はモノラルで示しているが、ステレオであっても構わない。対象とする映像が CM素材の場合、素材の映像には CM本体の前後に遊びの映像が数秒間入っている。遊びの映像は CM 本体の前後に同じ映像が連続して撮影されているため、動画像 2 0 1を見ただけではどこからどこまでが放送すベき CM映像なのかわからなし、場合が多し、。但し、遊びの部分には音声は録音されない。そのため従来は、作業者が映像の再生、停止、逆再生等の操作を繰り返しながら映像中の音の有無を判断して CM映像の先頭や末尾を決めている。本発明では有音区間を検出することによってこのような聴覚による判断を自動化する。

音声波形 2 0 2の振幅値は正負の値が交互に頻繁に現れ、瞬間的に大きさが零となっていることも非常に多い。そのため、単にある瞬間の振幅の大きさを調べたのではその近傍での音の有無は必ずしもわからない。ここでは音の大きさを音声波形 2 0 2の包絡線の値で判定する。包絡線の値には近傍の音の有無が反映される。包絡線の値が予め定めた音響レベルの閾値を上回つた点を有音区間 2 0 3の開始点（IN) 、下回った点を終了点（OUT) として検出する。該開始点から該終了点までの音声データをメモリ 1 0 9や補助記憶装置 1 0 6に蓄え該データを再生することで、有音区間 2 0 3の音声内容を確認することも容易である。これらの検出点の映像中での位置はフレーム番号として求める。有音区間 2 0 3の該開始点、該終了点といった変化点を検出したとき、映像再生装置 1 1 0は既に該変化点以降の映像を再生している。そのため映像再生装置 1 1 0から検出時点でのフレーム番号を読み取り、読み取った時刻と該変化点の時刻の差分を用いて該フレーム番号を換算し、該変化点のフレーム番号を算出する。該換算方法については後ほど第 7図で説明する。包絡線を利用して有音区間を検出し、フレーム番号を利用して元の映像と有音区間を対応づけることによって、音が連続してある一定の音響レベルを上回っている映像区間を抽出できる。また、該開始点のフレーム番号と検索要求を映像再生装置 1 1 0に送信することによって、音の立ち上がりフレームの頭だしが容易に実現できる。さらに、該開始点から該終了点までの時間長がわかるため、放送用 CM映像に仕上げるのに必要なマ一ジンを抽出した映像区間の前後に設定することも容易である。これによつて、時間長にばらつきのない品質の良い CM映像を CM管理装置に登録できる。

本発明によれば、ユーザは第 1図に示したシステムを使って、素材の入つたビデオテープ等を映像再生装置 1 1 0にセッ卜し、ディスプレイ 1 0 1に表示される音声処理装置 1 0 4のコンソールのボタンを操作するだけでよい。コンソールの画面例は後ほど第 5図で説明する。ユーザはジョグ、シャトル等を使った手作業で映像中の有音区間の先頭や末尾を見つけ出さなくともよくなる。それゆえ、操作の簡単化の効果がある。

次に第 3図、第 4図を用いて、有音区間の検出方法の詳細について説明す 0 第 3図は本発明の映像中の有音区間の始終点検出方法のフローチャートである。

3 0 1から 3 0 6はそれぞれプログラムステップを、 3 1 1から 3 1 6は各ステップの出力データを示している。これらプログラムやデータはすべてメモリ 1 0 9に置かれ、 C P U 1 0 7によって処理する。ここでは説明を簡単にするために音声波形をモノラル（チャンネノレ数 1 ) で示しているカ、ステレオ（チャンネル数 2 ) の場合も同様に扱うことができる。ステレオの場合は左右各チャンネルの音声波形に対して以下に示すモノラルの処理を実行し、両チャンネルの結果の AND (論理積）を取って重なりを判定したり OR (論理和）を取って全体を判定すればよい。

まずステップ 3 0 1では映像中の音声データを音声入力装置 1 0 3から受け取る。 3 1 1は受け取った音声データの波形である。ステップ 3 0 2では、 3 1 1の各データの絶対値を求め、音声波形の折り返し処理を行う。ここでは、音声の意味内容に関わらず、音響レベルだけを扱うためである。 3 1 2 は 3 1 1を正に折り返した音声波形である。次にステップ 3 0 3、 3 0 4では最大最小型フィルタリングによって波形 3 1 2の包絡線を求める。各フィルタリングではフィルタサイズ 3 2 1および 3 2 2のフィルタを準備し、入力データを順次フィルタに読み込んで、フィルタ内の最大値、最小値を求めて出力する。ステップ 3 0 3では波形 3 1 2に対してフィルタ中の最大値を各データ毎に出力する。ステップ 3 0 4では最大値波形 3 1 3に対してフィルタ中の最小値を各データ毎に出力する。 3 1 4は結果として得られた包絡線である。ステップ 3 0 5では、包絡線 3 1 4の各データを予め定めた音響レベルの閾値 3 2 3と比較する閾値処理を行う。包絡線 3 1 4が閾値 3 2 3 を上回るときには有音として 1を、下回るときには無音として 0を出力する。 3 1 5はステップ 3 0 5で出力した有音、無音の 2値データである。最後にステップ 3 0 6では該 2値データ 3 1 5の有音、無音の連続性を調べて有音区間 3 2 4を検出し、有音区間の始終点 3 1 6を出力する。すなわち該有音区間の立ち上がり点を音の開始点 3 2 5 ( IN) として、また該有音区間の立ち下がり点を音の終了点 3 2 6 (OUT) として出力する。このステップ 3 0 6 については第 4図でタイミングチヤ一トを用いながら説明する。

最大最小型フィルタリングによって包絡線を算出する方法は、音声波形のパワースぺクトルを計算して 0次のパワーを包絡線とする方法よりも計算量を格段に少なくすることができる。それゆえ C P Uの能力があまり高くなくても実現できる。

ステップ 3 0 3、 3 0 4に記した 1次元の最大最小型フィルタリングについては、例えば「最大最小型画像フィルタリングの高速演算手法」（電子情報通信学会論文誌 D I I, Vol. J78-D-I I, No. 11, pp. 1598-鼠 1995年 11月）に記載されたフィルタリング手法を用いればよい。フィルタサイズ nに対して、 n+1個のデータが格納できるリングパ 'ッファを利用したデータ順次処理方式である。この手法では、データ性質やフィルタサイズに関わらず、一つのデ —夕あたり平均演算回数 3回程度で最大値や最小値を求めることができる。それゆえ、今回のように大量のデータを高速に処理したい場合に適している。第 4図は有音区間の始終点判定方法を示した図である。

有音区間の始終点の判定にあたっては、始終点判定条件を、

開始点：無音状態が Tn以上続いた後、有音状態が Ts以上続いたときの状態変化点

終了点：有音状態が Ts以上続、た後、無音状態が Tn以上続! ^、たときの状態変化点

と定める。ここで TsCmsec]は有音状態の経過時間長の下限であり、 Tn[msec] は無音状態の経過時間長の下限である。 Tsや Tnの値は、音声中の一音節の時間長や発話文の間の休止の時間長を基準にして予め設定しておく。これによつて、 Ts未満の有音状態や Tn未満の無音状態を検出しないようにできるので、単発的なノイズや発話中の句の継ぎ目のような微少時間の音の途切れに影響されない、安定した有音区間の検出方法を実現できる。 4 0 1は、ステップ 3 0 6にて入力データ 3 1 5から有音区間の始終点 3 1 6が得られるまでを示したタイミングチヤ一トである。状態を判定するフラグとして無音フラグ、有音フラグ、開始フラグ、終了フラグの 4つのフラグを設ける。

ステップ 3 0 6では、有音、無音の 2値状態を示す入力データ 3 1 5を順次調べ、各状態の経過時間として 0 (無音）と 1 (有音）のデータ個数を計数する。音声信号のディジタル化の際のサンプリング周波数は音声入力装置 1 0 3から音声処理装置 1 0 4に渡されているので、時間条件 Tsおよび Tnをデータ個数の条件に置き換えることは容易である。なお、有音状態のデータ個数は無音フラグか ΌΝになつた時点でクリァし、無音状態のデータ個数は有音フラグが ONになった時点でクリアする。最初、フラグはすべて OFFに設定し、各状態のデータ個数を 0に設定する。まず無音状態が Tnだけ続いた時点で無音フラグを ONにする（4 0 2 ) 。無音フラグが ONであるとき、無音から有音に変化した点はすべて開始点の候補とし、そのデータ位置をメモリ 1 0 9に格納する。まず有音状態 4 0 3の立ち上がりを開始点の候補とする力有音状態 4 0 3は経過時間が Tsに満たないため 4 0 3のデータ個数は無音状態のデータ個数（経過時間）に組み込み、単発的なノイズとしてキャンセルする。次に有音状態 4 0 4の立ち上がりを開始点の候補とし、有音状態が Tsだけ続いた時点で有音フラグを ONにする（4 0 5 ) 。これによつて無音フラグ、有音フラグとも ONとなって開始点の条件を満たすので、開始フラグを ONにして開始点 3 2 5 ( IN) に決定する。 ONになった開始フラグはセンスした時点で OFFに戻す。以上時間軸上 4 2 0までが開始点検出である。

開始点を検出すると引き続いて終了点の検出を開始する。まず無音フラグは OFFにする（4 0 6 )。有音フラグが 0Nであるとき、有音から無音に変化した点はすべて終了点の候補とし、そのデータ位置をメモリ 1 0 9に格納する。無音状態 4 0 7は経過時間が Tnに満たないため 4 0 7のデータ個数は有音状態のデータ個数に組み込み、微少時間の途切れとしてキャンセルする。次に無音状態 4 0 8が Tnだけ続いた時点で無音フラグを ONにする（4 0 9 ) 。これによつて有音フラグ、無音フラグとも ONとなつて終了点の条件を満たすので、終了フラグを ONにして終了点 3 2 6 (OUT) に決定する。 ONになった終了フラグはセンスした時点で OFFに戻す。また、有音フラグも次の開始点検出に備えて OFFにする（4 1 0 )。以上時間軸上 4 2 1までが終了点検出である。以上、第 4図のようにフラグを操作することによつて継続的に有音区間の始終点を検出することができるので、一本の映像に複数の有音区間が含まれている場合でも各々を検出できる。それゆえ、本発明の有音区間検出方法は CM素材やビデオ映像に限らず TV放送映像やアーカイブ映像等の一般的な映像に対しても適用可能である。また処理映像が CM素材の場合には「CMは一本あたり 1 5秒もしくは 3 0秒の時間長で構成される」という一般的な CMの時間長ルールを利用できるので、複数の有音区間を検出してもルールによって区間をひとまとめにすることで、適切な CM本体の始終点を決定できる。 CMのルールを用いた始終点の検出方法については後ほど第 9図で説明する。

次いで、以上の有音区間検出方法を用いて構成する有音区間検出装置について説明する。

第 5図は本発明を実現する有音区間検出装置の操作画面の一例である。操作ウインドウ 5 0 1は音声処理装置 1 0 4のコンソールとしてディスプレイ装置 1 0 1に表示され、ユーザに操作環境を提供する。 5 0 1には QUITボタン 5 0 2、 DETECTボタン 5 0 3、検出結果表示パネル 5 0 4、音声波形モニ夕 5 0 5、有音区間表示パネル 5 0 6、 PLAYボタン 5 0 9、映像再生装置操作パネル 5 1 0、パラメータ設定パネル 5 1 3を配置する。ユーザは 5 0 1 上に配置された命令ボタンを入力装置 1 0 5のマウスでクリックして自分の要求を音声処理装置 1 0 4に伝える。 QUITボタン 5 0 2は操作処理を終了し操作ウインドウ 5 0 1を閉じるための命令ボタンである。

DETECTボタン 5 0 3は有音区間検出処理を実行するための命令ボタンである。ユーザが 5 0 3をクリックすると、音声処理装置 1 0 4は検出結果表示パネル 5 0 4をクリアして、プログラム 3 0 0に従って有音区間の検出を開始し、処理途中の結果を音声波形モニタ 5 0 5に表示する。モニタ 5 0 5には算出した包絡線 3 1 4や音響レベルの閾値 3 2 3を表示する。有音区間の始終点が検出されると、検出したフレーム番号をタイムコ一ド形式でパネル 5 0 4に表示する。タイムコ一 ihh:mm: ss :ff (hh：時間、 mra：分、 ss：秒、 ff : フレーム）という構成で位置や長さを直観的に把握しやすいため、ユーザにとって都合がよい。

有音区間表示パネル 5 0 6には有音区間検出の始終点を検出するまでに入力した音声データの波形 5 0 7および有音区間 5 0 8を表示する。有音区間 5 0 8は検出結果表示パネル 5 0 4の INフレームから OUTフレームまでに対応している。一般に CM映像は一本あたり最長 3 0秒なので、ここでは 4 0秒分の音声波形を表示するようにしている。 PLAYボタン 5 0 9は有音区間 5 0 8の音声データを再生するためのボタンである。ユーザは音声デ一夕波形 5 0 7によって、映像中の音声信号を視覚的に確認できる。また 5 0 9をクリックして音声を再生することで聴覚によっても確認することができる。これによって、ユーザは有音区間検出後すぐに検出状況を確認することができ、確認作業を省力化することができる。

ユーザが有音区間にマージンを設ける場合、有音区間 5 0 8の端をドラッグして区間を広げることによって設定すればよい。検出結果表示パネル 5 0 に表示しているように有音区間の始終点は既にわかつているので区間長は計算できる。ユーザは該区間長の前後にマ一ジンを設定して全体の時間長が所望の長さになるようにする。システムは設定されたマ一ジンの長さに応じてパネル 5 0 4のフレーム番号を変更し、変更後のフレーム番号を CM管理装置に登録する CM映像の始終点にする。これによつて、ユーザは簡単に CM管理装置への登録作業を進めることができる。また、該映像の始終点に挟まれた映像を切り出すことで、ユーザは所望の長さの放送用の CM映像を作成できる。映像再生装置操作パネル 5 1 0には映像再生装置操作ボタン群 5 1 1を配置する。操作ボタン群 5 1 1は映像の早送り、巻き戻し、再生、コマ送りや一時停止を実行するための命令ボタンである。ユーザが操作ボタン群 5 1 1 から必要な命令ボタンをクリックすると、音声処理装置 1 0 4は該当する操作命令を映像再生装置 1 1 0に送信する。映像のフレーム位置はタイムコ一ドとして映像位置表示ボックス 5 1 2に表示する。

パラメータ設定パネル 5 1 3には有音区間検出のためのパラメータを設定するパラメータ設定ボックス 5 1 4を配置する。パネル 5 1 3には変更可能なパラメータとして、音響レベルの閾値（Threshhold Value) 、フィルタの時間長（Filterlength) 、有音状態の経過時間長の下限（Noise Limt) 、無音状態の経過時間長の下限（Silence)の 4つを配置している。ユーザがパラメータを変更したい場合、 5 1 4 ,をクリックして入力装置 1 0 5から数値を入力する。このとき、音響レベルの閾値（図中の Threshold Value) の設定にあたっては、入力装置 1 0 5から数値を入力する他に、別方式として次のように設定するようにしてもよい。まず該音響レベルの閾値のノ、。ラメ一タ設定ボックスがクリックされると、映像再生装置 1 1 0は停止もしくは一時停止状態にしておき、その状態で音声入力装置 1 0 3から音声処理装置 1 0 4に音声データを数秒間入力する。次いで、数秒間入力した該音声データの音響レベルの最大値を音響レベルの閾値とする。このとき、数秒間入力することによって、映像再生装置 1 1 0や音声入力装置 1 0 3で生じる音声信号のランダムノイズが音声処理装置 1 0 4に入力できる。また最大値を音響レベルの閾値とすることによって、 1 1 0や 1 0 3で生じるノイズが再生映像中の音声信号に影響するのを押さえることができるようになる。

第 6図は処理の全体の流れを示したフローチヤ一卜である。ユーザからプログラムの起動要求があると C P U 1 0 7は補助記憶装置 1 0 6からプログラム 6 0 0を読み出し、メモリ 1 0 9に格納して実行する。このときメモリ 1 0 9には音声データや処理データも各種格納されるが、これらデータの構造については後ほど第 1 0図で説明する。ステップ 6 0 1は処理開始にあたっての初期化処理である。まず、 C P U 1 0 7はメモリ 1 0 9上に処理に必要なメモリ領域を確保してクリアし、音響レベルの閾値等のパラメータのデフォルト値をセッ卜する。次いで、ディスプレイ装置 1 0 1に音声処理装置 1 0 4の操作ゥインドウ 5 0 1を表示する。また、映像再生装置 1 1 0との通信の設定を初期化し、通信ポ一卜を開く。次に映像再生装置 1 1 0に制御命令を送信して、映像再生装置 1 1 0の再生を一時停止状態（STAND BY ON) にする。映像再生装置 1 1 0を停止状態ではなく一時停止状態にしておくことで、別の制御命令が送られたときに映像再生装置 1 1 0を即座に動作させることができ、音声信号やフレーム番号を素早く読み出すことができるようになる。

ステップ 6 0 2ではユーザの終了要求の有無を判定し、要求がない間、ステツプ 6 0 3の画面制御を繰り返して実行する。

ステップ 6 0 3ではユーザに指定された命令ボタンに対応して処理を分岐させる。例えば、ユーザが操作ゥインドウ 5 0 1の DETECTボタン 5 0 3をクリックした場合にはステップ 6 0 8と 6 0 9を実行してユーザの入力を待つ。操作ウインドウ 5 0 1に配置される命令ボタンの個数、種類の増減に応じて分岐数、分岐判断を増減し、常に最適な処理が選択できるようにすればよい。ステップ 6 0 4から 6 0 9は各命令ボタンに応じた処理である。

ステップ 6 0 4は映像再生装置操作ボタン群 5 1 1が指定されたときの処理である。この制御処理は、操作ボタン群 5 1 1がクリックされた時ばかりでなく、映像再生装置 1 1 0を制御する処理として利用可能である。まず映像再生装置 1 1 0に制御命令を送信し、映像再生装置 1 1 0の応答ステ一夕スを受信する。次に応答ステータスを判定し、エラ一が発生した場合にはェラ一メッセージをディスプレイ装置 1 0 1に表示して処理を中断する。正常に制御できた場合はフレーム番号を読み出して表示ボックス 5 1 2に表示してステップ 6 0 3に戻る。

ステップ 6 0 5はパラメータ設定ボックス 5 1 4が指定されたときのパラメータ設定処理である。ユーザが入力装置 1 0 5から数値を入力して設定パラメ一タを変更するとメモリ 1 0 9に格納された該当パラメータを書き換える。また時間長に関するパラメータが変更されると、音声データのサンプリング周波数に従って変更後の時間長をデータ個数に換算する。

ステップ 6 0 6は検出した有音区間 5 0 8の入力音声データをスピーカ 1 1 1で再生する音声再生処理である。検出結果表示パネル 5 0 4に有音区間の始終点がセッ卜されていれば、 5 0 4の INフレームから OUTフレームまでの音声データを再生する。すなわち音声蓄積データバッファ 1 0 5 0の音声デ —夕をデータ位置 1 0 5 2からデータ位置 1 0 5 3までで再生する。これによって、ユーザは検出結果を聴覚で確認できる。

ステップ 6 0 7は検出した有音区間にマージンを設けるマ一ジン設定処理である。ユーザは有音区間 5 0 8の端をドラッグして区間を広げることによつて設定する。まず、検出結果表示パネル 5 0 4の INフレームから OUTフレームまでの有音区間の時間長を計算する。一本あたりの CM映像の時間長を一定長に定めておくと、該有音区間の時間長からマ一ジンの上限は一意に決まる。該上限を越えないようにユーザの操作を監視しながらマ一ジンを決定し、始終点のフレーム番号をネ甫正する。これによつて、時間長にばらつきのない品質の良い CM映像を管理装置に登録できるようになる。別の方式としては、該上限を満たす適切なマージンを区間の前後に自動的に付加してもよい。時間長を限定しないのであれば、ユーザの要求通りにマージンを付加する。また逆に有音区間長を短くすることも可能である。

ステップ 6 0 8は有音区間の始終点検出処理である。 DETECTボタン 5 0 3 が指定されると、映像再生装置 1 1 0の映像を再生し、音声入力装置 1 0 3 から音声データを入力し、有音区間の始終点を検出して検出結果表示パネル 5 0 4に表示する。詳細については後ほどプログラム 9 0 0 (第 9図）で説明する。プログラム 9 0 0はプログラム 3 0 0で示した有音区間の始終点検出方法を有音区間検出装置に適用した例である。このとき、別の方式として、有音区間の始終点を検出した後に、映像再生装置 1 1 0の映像を有音区間の開始点に頭出しするようにしてもよい。該頭出しは音声処理装置 1 0 4から映像再生装置 1 1 0に有音区間の開始点のフレーム番号と検索命令を送信することによって実現できる。

ステップ 6 0 9では波形 5 0 7と有音区間 5 0 8をハ。ネル 5 0 6に表示する。有音区間検出の始終点を検出するまでに入力した音声データを波形 5 0 7として表示し、検出結果表示パネル 5 0 4の INフレームから OUTフレームまでを有音区間 5 0 8として表示する。すなわち、音声蓄積リングバッファ 1 0 5 0の音声データをオフセット 1 0 5 4からリングバッファを一巡して波形表示する。また 1 0 5 2と 1 0 5 3に挟まれるデータ区間を 5 0 8として表示する。これによつて、ユーザは検出結果を視覚的に確認できる。

ステップ 6 1 0は終了処理である。まず映像再生装置 1 1 0に制御命令を送信して映像再生装置 1 1 0を停止状態（STAND BY OFF)にした後に通信ポ一トを閉じる。次いでディスプレイ装置 1 0 1上の操作ウインドウ 5 0 1を閉じる。最後に確保していたメモリ領域を開放し、処理を終了する。

ここで、プログラム 3 0 0に示した有音区間の始終点検出方法を有音区間検出装置に適用する際の制御方式とフィルタリング処理方式を開示する。プログラム 3 0 0では、映像全体の音声データを入力してから始終点を検出することもできるが、長時間の音声データを一度に入力すると検出までのタイムラグが長くなり、検出のリアルタイム性が損なわれる。検出のリアルタィム性を保持するためには、音声デ一タを短し、時間毎に分割して入力処理および検出処理を行った方がよい。

まずリアルタイム検出を実現するための制御方式を示す。第 7図は本発明の有音区間検出装置の制御方式を示した図であり、有音区間の開始点を検出するまでを示している。図中の各矩形は制御対象の処理を示し、該矩形の幅は処理時間長を示す。

7 0 2は音声入力装置 1 0 3での音声データ入力処理である。入力音声は一定時間長の音声バッファが一杯になるまで音声入力装置 1 0 3に蓄積し、一杯になった時点で音声処理装置 1 0 4に該音声バッファが一杯になったことを示す割り込み信号を送る。 7 0 2の時間長は音声バッファの大きさを示している。 1 0 4では該割り込み信号を受け取ると該音声バッファのデータをメモリ 1 0 9に転送する。 7 0 3は音声処理装置 1 0 4での音響解析処理であり、プログラム 3 0 0を実行する。 1 0 4は該割り込み信号が届いた時点から 7 0 3を開始し、次の該割り込み信号が届くまでに実行する。例えば該音声バッファの時間長を 1秒に設定すると、 7 0 3の処理には最大 1秒まで時間をかけることができるので処理時間として十分である。また、 Tsを 200msec, Triを 500msecに設定すると、音の開始点や終了点は最大 2回分の音声データを処理することで検出できる。このとき、 1 0 3への入力開始から 1 0 4での検出までのタイムラグは最大 3秒程度に抑えることができ、ほぼリアルタィムに検出できる。ここで Tsや Tnは第 4図で説明した有音 Ζ無音状態の経過時間長の下限であり、これらの数値は音声中の一音節の時間長や、発話文の間の休止の時間長を基準に設定する。メモリ 1 0 9に転送されるデ —夕量は、サンプリング周波数を 1 l kHz、サンプリングビッ卜数を 8ビット、チャンネル数を 1 (モノラル）に設定すれば 1秒のバッファでは 1 l kバイ卜であるため、転送時間は問題にならない。

開始点検出までの処理の流れを示す。 DETECTボタン 5 0 3がクリックされると、まず全体制御処理によって映像再生装置 1 1 0で映像を再生し、音声入力処理 7 0 2を起動し、有音区間検出処理を準備し、処理の経過時間を夕イマによって数え始める（7 0 1 ) 。 7 0 2の音声入力処理によって音声デ —夕を入力すると、 Ί 0 3の音響解析処理ではデータ到着時刻 T1をメモリ 1 0 9に記録する（7 0 4 ) 。また音響解析処理によって音の開始点を検出するとメモリ 1 0 9上の検出フラグを ONに設定する（7 0 5 )。 7 0 3の音響解析処理が済むと、全体制御処理では検出フラグをセンスする。検出フラグ力0FFの場合、途中結果を音声波形モニタ 5 0 5に表示する（7 0 6 )。一方、 ONの場合、映像再生装置 1 1 0から現在のフレーム番号を読み出し、タイマからフレーム番号読み取り時刻 T2を取得し、該フレーム番号および該読み取り時間をメモリ 1 0 9に格納する。また Π、 Τ2を利用して該フレーム番号を音の開始点の時点のフレーム番号に換算してメモリ 1 0 9に格納する（7 0 7 ) 。音の終了点を引き続き検出する場合は、 7 0 2から 7 0 7の処理を終了点検出まで繰り返し実行する。 Ί 0 2から 7 0 7の処理は何度でも繰り返し実行できるので、一本の映像に複数の有音区間が含まれている場合でも各々を検出できる。

次に処理 7 0 7での該開始点のフレーム番号の換算方法について説明する。 7 0 8の音声入力処理で得られた音声データ中の位置 Xに音の開始点が含まれていたとする。このとき、データ到着時刻 Tl、フレーム番号取得時刻 Τ2、フレーム番号 TC2から音の開始点の時刻 TOを推定し、 TC2を開始点のフレーム番号 TC0に換算する。この換算方法は次式で表せる。

TO = Tl - dT(L-X) I L [msec]

(数 1 )

TCO = TC2 1000CT2 - TO) / 30 [フレーム]

(数 2 )

ここで、 Lは音声バッファサイズ（データ個数）であり、 dTは音声バッファの時間長である。音声データが 8ビット、モノラルの場合、 Lは音声パ'ッファのバイト数そのものとなる。数 2で分母に 3 0とあるのは、 NTSCの映像信号が 1秒間に 3 0フレームで構成されるためである。音の終了点についても同様に計算できる。

以上の制御方式によって、ほぼリアルタィ厶に有音区間の始終点を検出でさる。

次に分割入力した音声データを連続的にフィルタリング処理する方式について説明する。第 8図はステップ 3 0 3もしくは 3 0 4のフィルタリング処理における入出力データの位置関係を示した図である。図中の矩形はそれぞれデータ配列を示す。 8 0 1は入力データ配列（データ個数 L [個] )、 8 0 2 はフィルタバッファ（データ個数 Lf [個] ) である。 8 0 2はステップ 3 0 3 では 3 2 1のフィルタに該当し、ステップ 3 0 4では 3 2 2のフィルタに該当する。

ステップ 3 0 3と 3 0 4の各フィルタリング処理では、フィルタバッファ 8 0 2に 8 0 1のデータを順次読み込み、 8 0 2の全データから最大値または最小値を求め、フィルタサイズの中央の位置のデータとして出力する。このとき、 8 0 1全体の入力データから 8 0 3の部分の出力データが得られる。 L個の入力データのうち、フィルタサイズ分の Lf個は 8 0 2の初期化に使うため、出力データ配列の最初 8 0 4と最後 8 0 5の部分については出力データが得られない。第 7図の制御方式で音声入力装置 1 0 3からデータを受け取る度に 8 0 2を初期化したのでは、フィルタリング結果の包絡線が途切れ途切れになってしまう。

ここではフィルタバッファ 8 0 2は 7 0 1で一回だけ初期化し、その後は途中でクリアしないで、次に入力データを読み込む位置やデータ内容を絶えず保持しておく。これによつて、（n + 1 ) 回目の音響解析処理に、 n回目から継承した 8 0 2のデータ Lf個と（n + 1 )回目の入力データ 8 0 6の L個を利用できるようになり、 8 0 5の部分と 8 0 7の部分の合計 L個の出力デ一夕が得られるようになる。すなわち L個の入力データに対して L個の出力デー夕が得られるようになるので、分割入力した音声データを連続的にフィルタリング処理できるようになる。

伹しこのとき、 n回目の 8 0 5の部分の出力データが得られるのは、（n + 1 ) 回目の 8 0 6が入力されてからになる。第 7図の制御方式では音の始終点のフレーム番号を算出するとき、数 1に示したように始終点のデータ位置 Xとタイマから読み取った入力データ到着時刻 T1を使う。そのため、 n回目と（n + 1 )回目の 2回分のデータ到着時刻をメモリ 1 0 9に記録しておく。音の始終点が 8 0 5で見つかった場合には n回目の到着時刻を、 8 0 7で見つかった場合には（n + 1 ) 回目の到着時刻を使うようにする。

なお、フィルタサイズ Lfは L- Lfが正になるような値を設定しておけばよし、。人間の音声の基本周波数は一般に 100Hz以上であるから、その逆数の 10msec以上の時間長（例えば 1フレーム時間 33mec)に含まれるデータ個数を設定しておけば包絡線を算出するのに問題はない。該データ個数は時間長にサンプリング周波数を乗ずることで算出できる。

以上によって、処理する音声データに途切れを生ずることなく検出処理を実行できる。

以上の制御方式、フィルタリング方式を反映した有音区間の始終点検出処理のフローチャートを第 9図に示し、メモリ 1 0 9に格納する音声データや制御データのデータ構造を第 1図 0に示す。

第 9図は CMの時間長ルールを用いた有音区間検出処理の流れを示したフロ —チヤ一卜である。プログラム 9 0 0は有音区間の始終点を一組検出する処理プログラムであり、ステップ 6 0 8で実行する。 9 0 0は大きく分けて次の 4つの処理から構成される。（1)有音区間の開始点検出処理、（2)有音区間の終了点検出処理、（3)CMの時間長ルールを用いた判定処理、（4)規定時間を経過すると検出を打ち切る検出時間制限処理、である。（1)の処理はステップ 9 0 2から 9 0 4であり、（2)の処理はステップ 9 0 6、 9 0 7と 9 1 0である。これらによって、第 7図に示した処理 7 0 3から 7 0 7の制御を実行する。（3)の処理はステップ 9 0 5と 9 1 1から 9 1 5である。これらによって、予め定めた一定時間の有音区間のみをふるし、分ける。（4)の処理はステップ 9 0 8と 9 0 9である。これらによって、検出処理の実行時間に上限を設け終了点が見つからない場合のエラー処理を実行する。但し、ここで有音区間の検出に最低限必要なのは（1)の処理と（2)の処理であり、（3)と（4)の処理は省略可能である。

以下、各ステップを順に説明する。

ステップ 9 0 1は初期化処理である。メモリ 1 0 9に格納する音声データや制御データを初期化し、第 7図の制御処理 7 0 1を実行する。すなわち音声バッファ 1 0 3 0や音声蓄積バッファ 1 0 5 0、制御パラメータ 1 0 1 0 を初期化し、フィルタバッファ 1 0 4 0の空フラグ 1 0 4 2を TRUEにする。ステップ 9 0 2では有音区間の開始点の検出状況を判定する。制御ハ°ラメ —タ 1 0 1 0の開始点フラグ f lagIN 1 0 1 7が TRUEになるまでステップ 9 0 3を実行する。

ステップ 9 0 3では有音区間の開始点を検出する。プログラム 3 0 0を実行し、途中結果を音声波形モニタ 5 0 5に表示する。開始点を検出すると f lagIN 1 0 1 7を TRUEにし、映像再生装置 1 1 0から現在のフレーム番号を読み取り、フレーム番号取得時刻 T2をタイマから読み取る。

ステップ 9 0 4では検出した開始点のフレーム番号を算出する。数 1で開始点の時刻 TOを算出し、数 2で開始点のフレーム番号 TC0を算出する。開始点の TC0は検出結果表示パネル 5 0 4に表示し、また flagINを FALSEに戻す。ステップ 9 0 5では有音区間の検出状況を判定する。一定時間長の有音区間を検出するまで以下のステップを実行する。

ステップ 9 0 6では有音区間の終了点の検出状況を判定する。制御パラメ一夕 1 0 1 0の終了点フラグ flagOUT l 0 1 8カ^ RUEになるまでステップ 9 0 7から 9 0 9を実行する。

ステップ 9 0 7では有音区間の終了点を検出する。プログラム 3 0 0を実行し、途中結果を音声波形モニタ 5 0 5に表示する。終了点を検出すると flagOUT 1 0 1 8を TRUEにし、映像再生装置 1 1 0から現在のフレーム番号を読み取り、フレーム番号取得時刻 T2をタイマから読み取る。この時の終了点のフレーム番号はステップ 9 1 0で算出する。

ステップ 9 0 8では検出処理の経過時間を判定する。ステップ 9 0 3で開始点を検出してからの経過時間が規定の検出時間よりも長くなると、処理中の映像には適切な時間長の映像が含まれていないと判定してステップ 9 0 9 を実行する。該規定の検出時間としては、例えば CMの時間長 3 0秒の 2倍として 6 0秒にすればよい。現在の入力データ到着時刻 Tl 1 0 2 2がステップ 9 0 3で取得した T2に対して Tl > T2 + 60[sec]となれば、適切な時間長の映像はないと判定する。

ステップ 9 0 9では検出結果を棄却して、検出処理を中断する。先に検出した開始点をキャンセルする。また音声入力装置 1 0 3からデータ入力するのを止め、映像再生装置 1 1 0での映像再生を一時停止し、音声バッファ 1 0 3 0やフィルタバッファ 1 0 4 0をクリアする。

ステップ 9 1 0では検出した終了点のフレーム番号を算出する。数 1で終了点の時刻 TOを算出し、数 2で終了点のフレーム番号 TC0を算出する。終了点の TC0は検出結果表示パネル 5 0 4に表示し、また flagOUTを FALSEに戻す。ステップ 9 1 1では有音区間の時間長 Tを算出する。ステップ 9 0 4で求めた開始点の時刻とステップ 9 1 0で検出した終了点の時刻の差分として Tを求める。

ステップ 9 1 2は CMの時間長ルールを用いた判定処理である。検出した有音区間の時間長が予め定めた一定時間長を満足すれば、ステップ 9 1 3、 9 1 4を実行し、該一定時間長を超過するとステップ 9 1 5を実行する。該ー定時間長に満たない場合は、次の有音区間の終了点検出に戻る。これによつて、一定時間長の有音区間を含む映像のみ検出できるようになる。ここでは「CMは一本あたり 1 5秒もしくは 3 0秒の時間長で構成される」という一般的なルールを用いて一定時間長を 1 5秒と 3 0秒とし、許容範囲を 1 5秒に対しては 1秒、 3 0秒に対しては 2秒に設定しているが、これらの値は用途に応じて適当に変更しても構わない。

ステップ 9 1 3、 9 1 4では検出した始終点を有音区間の始終点として採用する。また音声入力装置 1 0 3からデータ入力するのを止め、映像再生装置 1 1 0での映像再生を一時停止し、音声バッファ 1 0 3 0やフィルタバッファ 1 0 4 0をクリアする。

ステップ 9 1 5では検出結果を棄却して、検出処理を中断する。検出した始終点をキャンセルし、パネル 5 0 4の表示をクリアする。また音声入力装置 1 0 3からデータ入力するのを止め、映像再生装置 1 1 0での映像再生を一時停止し、音声バッファ 1 0 3 0やフィルタバッファ 1 0 4 0をクリアする。

以上の方法によって、一定時間長の有音区間のみを検出できる。

最後に、メモリ 1 0 9に格納する音声データや制御データのデータ構造を説明する。第 1図 0は本発明の有音区間検出を実現するためのデータ構造例を示した図である。処理データはメモリ 1 0 9に格納し、必要に応じて C P U 1 0 7に読み出す。

1 0 0 0は音声信号情報である。音声入力装置 1 0 3で音声信号をディジタル化する際に使用しているサンプリング周波数 1 0 0 1、サンプリング- ビット数 1 0 0 2、およびチャンネル数 1 0 0 3 (モノラルは 1、ステレオは 2 ) を格納する。

1 0 1 0は制御用パラメータである。有音区間検出処理で用いる各種パラメータやフラグを格納する。 1 0 1 1から 1 0 1 4はパラメータ設定パネル 5 1 3で変更可能な可変パラメータである。 1 0 1 5から 1 0 1 8は第 4図で説明した有音区間始終点判定時の状態を示す 4つのフラグであり、 1 0 1 9と 1 0 2 0は有音/無音状態を計数するためのカウンタである。開始点フラグ 1 0 1 7と終了点フラグ 1 0 1 8は始終点が未検出なら FALSE、検出済みなら TRUEにする。 1 0 2 1は第 7図で示した入力音声データ中の始終点のデ —夕位置 Xである。 1 0 2 2と 1 0 2 3は第 8図で説明したデータ到着時間 T1 と前回のデータ到着時刻である。フラグ 1 0 1 7、 1 0 1 8が ONになったことを検出した時点のフレーム番号を読み出して数 1、数 2に従って始終点のフレーム番号は算出できる。該始終点のフレーム番号もメモリ 1 0 9に格納する。別方式としては、該算出したフレーム番号を補助記憶装置 1 0 6に順次書き込むようにしてもよい。 1 0 6の容量が許す限り有音区間を検出するようにできる。音声バッファ 1 0 3 0は、プログラム 3 0 0の各ステップ間で受け渡される処理データ 3 1 1から 3 1 5を格納するバッファのデータ構造である。メモリ 1 0 9には入力用、作業用、出力用に 3つ用意する。各々のバッファサィズ 1 0 3 1にはすべて同じ値を設定する。データ個数 1 0 3 2は該バッファ 1 0 3 0に格納されるデータの個数である。第 8図で説明したように最初の入力バッファデータだけでは 8 0 4、 8 0 5部分の出力データが得られないので出力バッファのデータ個数が減少する。そのため 1 0 3 1とは別に 1 0 3 2を設ける。 1 0 3 3は処理データである。

フィルタノくッファ 1 0 4 0は、ステップ 3 0 3と 3 0 4の最大最小型フィルタリングに用いるリングバッファのデータ構造である。メモリ 1 0 9には MAXフィルタリング用と MINフィルタリング用に 2つ用意する。バッファサイズ 1 0 4 1は 1 0 1 2の TLfから算出する。空フラグ 1 0 4 2はフィルタバッファの初期化状況を示し、バッファが空である初期状態で TRUEにし、いったんデータで満たされると FALSEにする。入力音声バッファ 1 0 3 0を処理するとき、 1 0 4 2が TRUEならば入力データをサイズ 1 0 4 1分だけ複写することで初期化する。 FALSEならば初期化しない。これによつて途切れなく包絡線を算出することができる。 1 0 4 3は次の入力データを読み込む位置を指し示すオフセットである。 1 0 4 4は読み込んだ入力データであり、フィルタリング処理の対象データである。

1 0 5 0は音声入力装置 1 0 3から入力される音声データを複写して絶えず過去何秒分か保持する音声蓄積リングバッファである。 1 0 5 0の蓄積デ —タは、音声デ一夕波形 5 0 7を表示したり、 PLAYボタン 5 0 9で音声を再生したりするのに利用する。 1 0 5 1はバッファサイズである。パ、ッフアサィズ 1 0 5 1は 1 0 3 1の整数倍にすると複写が容易になる。 1 0 5 2は第 7図の有音区間の開始点のデータ位置 Xに対応するリングパ'ッファ上のデー夕位置である。 1 0 5 3は同様に終了点に対応するリングバッファ上のデ一タ位置である。 1 0 5 2と 1 0 5 3には最初、負の値を設定し、始終点の検出に応じてデータ位置の値と置き換える。 1 0 5 4は次の入力データ複写位置の先頭を指し示すオフセットである。 1 0 5 5は音声データである。

ここで、有音区間検出処理に用いるデータのメモリ量を見積もる。例えば音声信号情報 1 0 0 0が 1 l kHz、 8ビット、モノラルの音声データを扱う場合、入力バッファに記録できる時間長を 1秒にすると音声バッファ 1 0 3 0 の必要容量は 1 l kバイト程度になり、 3つのバッファの合計は 3 3 kバイト程度になる。音声を蓄積する時間長を 4 0秒とすると音声蓄積リングバッファ 1 0 5 0の必要容量は 4 4 O kバイト程度である。フィルタ時間長を 3 0 msecとするとフィルタバッファ 1 0 4 0の必要容量は 0 . 3 kバイト程度になり、 2つでも l kバイ卜に満たない。その他のパラメ一夕と合わせてもデータに関して必要なメモリ量は全部で 5 0 O kバイ卜程度である。それゆえ、メモリ量が比較的少なし、安価な計算機でも本発明の方法は十分に実装可能である。本発明の構成は、従来聴覚によつて判断していた音の有無を定量的かつ自動的に検出できるので、有音区間の検出作業の省力化効果がある。作業者は CM素材を映像再生機にセットして、音声処理装置画面のボタンを操作するだけでよい。この操作には、映像の再生、停止、逆再生を頻繁に繰り返すといつた煩雑な操作は一切不要であるので、操作の簡単化の効果がある。また音声信号を短時間毎に分割入力するようにしているためリアルタイムに有音区間を検出でき、作業性能向上の効果がある。確認作業の観点からは、検出した有音区間の音声を波形表示したり再生したりするようにしているので、検出結果を視覚および聴覚ですぐに確認することができ、確認作業の省力化の効果がある。 CM映像の時間長ルールを利用して有音区間を検出しているので、長すぎたり短すぎたりする不適当な素材は却下でき、 CM映像の時間長を別途検査する必要がなくなる。さらに検出した有音区間にマ一ジンを設定できるようにしているので、時間長にばらつきのない品質の良い CM映像を管理装置に登録でき、登録映像の品質向上の効果がある。

また本発明の包絡線の算出に用いたフィルタリング処理はパワースぺクトルの計算よりも計算量が少ないので、パソコン等の小型の計算機で実現でき、音声信号入力のサンプリング · レー卜が高くても計算が速く行える効果がある。

このような映像中の有音区間の検出方法を実現する装置は、パソコンのような小型の計算機で実現でき、安価な検出装置が達成できる。

産業上の利用可能性

以上のように本発明に係る有音区間の検出方法及び装置は、映像と音声とで構成される CM画像の開始点と終了点を検出して CM画像を登録する CM登録装置に利用するのに適している。

また、映画や T V番組に挿入された CM映像の区間を検出する CM検出装置に利用することができる。

Claims

請求の範囲

1 . 映像に記録された音声信号を時系列に入力し、該音声信号の波形の包絡線を算出し、該予め設定された音響レベルの閾値と該包絡線が交差する時点を有音区間の開始点もしくは終了点として検出することを特徴とする映像中の有音区間の始終点の検出方法。

2 . 請求の範囲第 1項において、無音状態の経過時間長の下限を予め設定し、上記音声信号の波形の包絡線の値が上記音響レベルの閾値を下回つた経過時間が該下限よりも長ければ、該音響レベルの閾値と該包絡線が交差する時点を有音区間の開始点もしくは終了点として検出することを特徴とする映像中の有音区間の始終点の検出方法。

3 . 請求の範囲第 1項において、有音状態の経過時間長の下限を予め設定し、上記音声信号の波形の包絡線の値が上記音響レベルの閾値を上回つた経過時間が該下限よりも長ければ、該音響レベルの閾値と該包絡線が交差する時点を有音区間の開始点もしくは終了点として検出することを特徴とする映像中の有音区間の始終点の検出方法。

4 . 請求の範囲第 1項において、上記時系列に入力した音声信号に対して一定の時間幅を有するフィルタリング処理を施して上記包絡線を算出することを特徴とする映像中の有音区間の始終点の検出方法。

5 . 請求の範囲第 4項において上記フィルタリング処理では、時系列に入力した音声信号に対して一定の時間幅の最大値を順次求める最大値フィルタと最小値を順次求める最小値フィルタとが用いられることを特徴とする映像中の有音区間の始終点の検出方法。

6 . 請求の範囲第 1項において、上記音響レベルの閾値は、映像を再生しないで無音の音声信号を数秒間入力し、その際に生じるノイズの音響レベルの最大値に設定されることを特徴とする映像中の有音区間の始終点の検出方法。

7 . ユーザが指定した所望の位置で映像を停止させる映像再生装置と、映像の音声トラックに記録された音声信号をディジタル信号として時系列に入力する音声入力装置と、入力した音声信号から有音区間の始終点を検出する音声処理装置とから成り、該音声処理装置には該音声信号の波形の包絡線を算出する包絡線算出手段と、該包絡線の値に対して音響レベルの閾値を予め設定する閾値設定手段と、該音響レベルの閾値と該包絡線が交差する時点を有音区間の開始点もしくは終了点として検出する始終点検出手段と、該有音区間の開始点もしくは終了点を検出した時点の映像のフレーム位置を決めるフレーム位置決定手段と、該フレーム位置を表示するディスプレイ手段とを設け、該有音区間の開始点もしくは終了点のフレーム位置を表示させるようにしたことを特徴とする映像中の有音区間の始終点の検出装置。

8 . 請求の範囲第 7項において、上記フレーム位置決定手段は、検出処理開始からの時間経過を計数するタイマー手段と、映像のフレーム位置を読み出す手段と、始終点を検出した時点の経過時間とフレーム位置を読み出した時点の経過時間を記憶する経過時間記憶手段と、両者の経過時間の差分を用いて読み出したフレーム位置を補正するフレー厶位置補正手段とを有することを特徴とする映像中の有音区間の始終点の検出装置。

9 . 請求の範囲第 7項において、上記音声処理装置は、更に、該有音区間の始終点のフレーム位置で映像の再生を停止させる手段を有することを特徴とする映像中の有音区間の始終点の検出装置。

1 0 . ユーザが指定した所望の位置で映像を停止させる映像再生装置と、映像の音声卜ラックに記録された音声信号をディジタル信号として時系列に入力する音声入力装置と、入力した音声信号から有音区間の始終点を検出する音声処理装置とから成り、該音声処理装置には該音声信号の波形の包絡線を算出する包絡線算出手段と、該包絡線の値に対して閾値のレベルを予め設定する閾値設定手段と、該包絡線が該閾値のレベルを初めて上回る時点を有音区間の開始点として検出する開始点検出手段と、該包絡線が該閾値のレベルを初めて下回る時点を有音区間の終了点として検出する終了点検出手段と、該開始点および終了点を検出した時点の映像のフレーム位置を決めるフレーム位置決定手段と、該開始点および終了点のフレーム位置を個別に記憶するフレーム位置記憶手段と、該開始点および終了点のフレーム位置を個別に表示するディスプレイ手段とを設け、該開始点および終了点のフレーム位置を表示させるようにしたことを特徴とする映像中の有音区間の始終点の検出装置。

1 1 . 請求の範囲第 1 0項において、上記音声処理装置は、時系列に入力した音声信号を蓄積するバッファメモリ手段を有し、有音区間の開始点および終了点を検出したときに該区間の音声波形が表示されることを特徴とする映像中の有音区間の始終点の検出装置。

1 2 . 請求の範囲第 1 0項において、上記音声処理装置には、入力した音声信号及び有音区間の開始点および終了点を検出したときの該区間の音声信号を再生する再生手段を有することを特徴とする映像中の有音区間の始終点の検出装置。

1 3 . 請求の範囲第 1 0項において、上記音声処理装置は、予め定めた有音区間の時間長の上限と許容範囲を設定する時間長設定手段と、検出した有音区間の開始点から終了点までの検出時間長と該設定時間長を比較する時間長比較手段とを有し、該検出時間長が該設定時間長に比べて短い場合は有音区間の開始点を保持したまま次の有音区間の終了点を検出させ、該設定時間長に比べて長い場合は検出を終了して検出結果を却下させ、該設定時間長の許容範囲である場合は検出を終了して検出結果を保持させ、該設定時間長の 2 倍の時間を超えても終了点が検出されない場合は検出を終了させることを特徴とする映像中の有音区間の始終点の検出装置。

1 4 . 請求の範囲第 1 3項において、上記有音区間の時間長の上限を 1 5秒または 3 0秒とし、該許容範囲は 1または 2秒とし、検出処理対象の映像をコマーシャル映像としたことを特徴とする映像中の有音区間の始終点の検出

1 5 . 請求の範囲第 1 3項において、上記音声処理装置は、有音区間の開始点の前方および終了点の後方に対してマ一ジンを設定するマ一ジン設定手段を有し、有音区間の検出時間長が該設定時間長の該許容範囲内である場合に、検出した開始点および終了点を前方および後方に時間をずらせた結果を有音区間の開始点および終了点とさせるようにしたことを特徴とする映像中の有音区間の始終点の検出装置。

1 6 . 音声信号と映像信号と〜なる動画像信号を準備し、上記動画像信号を再生して上記音声信号と映像信号とを別々に入力し、上記音声信号の音声波形において無音区間の連続性に基づき有音区間の始点を検出し、上記有音区間のたち下がり点を終了点として検出し、上記有音区間の始点と終了点とにより示される区間に対応する上記映像信号の映像フレーム区間を抽出する有音区間の映像の始終点検出方法。

1 7 . 請求の範囲第 1 6項において、上記映像信号から動画像を構成するフレームを所定時間間隔で時系列に表示し、上記フレームの時系列の表示に合わせて上記音声信号が示す音声波形と上記映像フレーム区間を表す表示バーとを視覚的に表示し、上記映像フレーム区間バ一を表示上の時間軸上変形することにより、上記映像フレーム区間の始点又は終了点のフレーム番号を再設定することを特徴とする有音区間の映像の始終点検出方法。

1 8 . 請求の範囲第 1 7項において、上記音声は刑の包絡線を算出し、予め設定された音響レへの閾値と該包絡線が交差する時点を上記有音区間の始点又は終了点とすることを特徴とする有音区間の映像の始終点検出方法。