WO2014192133A1

WO2014192133A1 - 情報処理装置、情報処理方法、及び情報処理プログラム

Info

Publication number: WO2014192133A1
Application number: PCT/JP2013/065186
Authority: WO
Inventors: 久範山原
Original assignee: 楽天株式会社
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2014-12-04
Also published as: US20150256794A1; JP5422085B1; US9277174B2; JPWO2014192133A1

Abstract

　撮像手段と映像表示装置を用いて行われる映像通信において、通信端末は、撮像手段により撮像された映像を取得し、取得された映像の少なくとも一部を記憶手段に記憶させ、記憶された映像から現在行われている映像通信が開始された以降の所定区間の映像を差替映像として決定する。そして、通信端末は、前記撮像手段により撮像された映像の出力中に所定の開始条件を満たすことをトリガとして、当該映像に代えて前記差替映像を出力する。

Description

情報処理装置、情報処理方法、及び情報処理プログラム

　本発明は、カメラにより撮像されたユーザの映像を当該ユーザの通信相手の端末へ送信するシステム等の技術分野に関する。

　従来から、カメラで撮像された映像を音声と共に通信相手に送信して通話を行うテレビ電話システムが知られている。このようなテレビ電話システムでは、送信側の映像が絶えず受信側に送信される。このとき、送信側のユーザが、受信側のユーザと通話をするのに適切でない状況におかれてしまう場合がある。例えば、送信側のユーザが急に席を外すことになったり、当該ユーザの携帯電話機で着信音が鳴ったりするといった状況が想定される。このような場合、送信側のユーザの映像を見ている受信側のユーザに不信感や不快感等を生じさせてしまうという問題がある。

　一方、特許文献１には、予め、記憶部にカメラ画像送信オン、オフの設定を行えるように構成し、オンに設定した場合には、カメラ部からの映像を、オフに設定した場合には、予め記憶部に記憶した画像又は映像（イラスト、自画像、その他、任意の映像）を、それぞれ自動的に切り換えて送信可能なシステムが開示されている。

特開2003-009104号公報

　しかしながら、特許文献１に開示されたように、単に、現在行われているテレビ電話の開始前に予め記憶部に記憶した画像又は映像をカメラ部からの映像に切り替えて送信するだけでは、送信側のユーザの様子が受信側のユーザに伝わらないため、受信側のユーザに不安感等を生じさせてしまうことを回避することが困難である。

　本発明は、以上の点を課題の一つの例として着目してなされたものであり、受信側のユーザに不安感等を生じさせてしまうことを回避することが可能な情報処理装置、情報処理方法、及び情報処理プログラムを提供することを課題とする。

　上記課題を解決するために、請求項１に記載の発明は、撮像手段と映像表示装置を用いて行われる映像通信において当該撮像手段により撮像された映像を出力する情報処理装置であって、前記撮像手段により撮像された映像を取得する取得手段と、前記取得手段により取得された映像の少なくとも一部を記憶手段に記憶させる記憶制御手段と、前記記憶手段に記憶された映像から現在行われている映像通信が開始された以降の所定区間の映像を差替映像として決定する決定手段と、前記撮像手段により撮像された映像の出力中に所定の開始条件を満たすことをトリガとして、当該映像に代えて前記差替映像を出力する出力手段と、を備えることを特徴とする。

　この発明によれば、撮像手段により撮像された映像に代えて現在行われている映像通信が開始された以降の所定区間の映像を差替映像として出力することで、映像受信側のユーザに不安感等を生じさせてしまうことを回避することができる。

　請求項２に記載の発明は、請求項１に記載の情報処理装置において、前記情報処理装置は、前記差替映像の出力中に、前記取得手段により取得された映像に表れる撮像対象者の変化を当該映像から検知する第１検知手段を更に備え、前記記憶制御手段は、少なくとも前記第１検知手段により検知された変化の過程を示す区間の映像を記憶手段に記憶させ、前記出力手段は、前記差替映像に続けて前記変化の過程を示す区間の映像を出力することを特徴とする。

　この発明によれば、撮像対象者の変化の前後の映像を自然な形で繋げることができるので、映像受信側のユーザに不安感等を生じさせてしまうことを回避することができる。

　請求項３に記載の発明は、請求項１または２に記載の情報処理装置において、前記情報処理装置は、前記映像表示装置により表示された前記映像を見ている者の動作を示す情報を取得する情報取得手段を更に備え、前記出力手段は、前記撮像手段により撮像された映像に代えて、前記情報取得手段により取得された情報が示す動作に合った、前記撮像対象者の動作が表れる前記差替映像を出力することを特徴とする。

　この発明によれば、映像送信側のユーザが映像受信側のユーザに合った動作をしていることを当該映像受信側のユーザに認識させることができるので、映像受信側のユーザに不安感等を生じさせてしまうことを回避することができる。

　請求項４に記載の発明は、請求項１乃至３の何れか一項に記載の情報処理装置において、前記情報処理装置は、前記取得手段により取得された映像に表れる撮像対象者の所定の動作を当該映像から検知する第２検知手段を更に備え、前記出力手段は、前記撮像手段により撮像された映像の出力中に、前記第２検知手段により前記所定の動作が検知されることをトリガとして、前記撮像手段により撮像された映像に代えて前記差替映像を出力する。

　この発明によれば、映像送信側のユーザが所定の動作をするだけで、撮像手段により撮像された映像に代えて差替映像を出力することできる。

　請求項５に記載の発明は、請求項１乃至３の何れか一項に記載の情報処理装置において、前記情報処理装置は、前記取得手段により取得された映像に表れる撮像対象者が存在する場所で発せられる音が、所定の音の種類に属するか否かを判定する第１判定手段を更に備え、前記出力手段は、前記撮像手段により撮像された映像の出力中に、前記第１判定手段により前記所定の音の種類に属すると判定されることをトリガとして、前記撮像手段により撮像された映像に代えて前記差替映像を出力することを特徴とする。

　この発明によれば、映像送信側のユーザが特別な動作を行わなくても、撮像手段により撮像された映像に代えて差替映像を出力することできるので、映像送信側のユーザの手間を省くことができる。

　請求項６に記載の発明は、請求項１乃至５の何れか一項に記載の情報処理装置において、前記情報処理装置は、前記取得手段により取得された映像に表れる撮像対象者が発言する状況にあるか否かを判定する第２判定手段を更に備え、前記出力手段は、前記撮像手段により撮像された映像の出力中に、前記第２判定手段により前記撮像対象者が発言する状況にあると判定された場合、通信障害を示す前記差替映像を出力することを特徴とする。

　この発明によれば、映像送信側のユーザが発言するのに適切な状況にない場合であっても、映像送信側のユーザが発言するまでの時間を確保することができる。

　請求項７に記載の発明は、請求項１乃至６の何れか一項に記載の情報処理装置において、前記出力手段は、前記差替映像の出力中に、前記決定手段により決定された全ての前記差替映像の出力が完了した場合、既に出力した当該差替映像を繰り返して出力することを特徴とする。

　この発明によれば、差替映像の出力時間が長くなり、差替映像が足りなくなった場合であっても差替映像の送信を継続することができる。

　請求項８に記載の発明は、請求項１乃至７の何れか一項に記載の情報処理装置において、前記出力手段は、前記撮像手段により撮像された映像の一部分の領域を、前記差替映像に表れる当該撮像対象者を含む一部分の領域に代えた映像を出力することを特徴とする。

　この発明によれば、撮像手段により撮像された映像の一部分の領域以外の領域に、映像受信側のユーザに見せたい対象があるときに、この対象を映像受信側のユーザに見せることができる。

　請求項９に記載の発明は、撮像手段と映像表示装置を用いて行われる映像通信において当該撮像手段により撮像された映像を出力するコンピュータにより実行される情報処理方法であって、前記撮像手段により撮像された映像を取得するステップと、取得された映像の少なくとも一部を記憶手段に記憶させるステップと、前記記憶手段に記憶された映像から現在行われている映像通信が開始された以降の所定区間の映像を差替映像として決定するステップと、前記撮像手段により撮像された映像の出力中に所定の開始条件を満たすことをトリガとして、当該映像に代えて前記差替映像を出力するステップと、を含むことを特徴とする。

　請求項１０に記載の発明は、撮像手段と映像表示装置を用いて行われる映像通信において当該撮像手段により撮像された映像を出力するコンピュータに、前記撮像手段により撮像された映像を取得するステップと、取得された映像の少なくとも一部を記憶手段に記憶させるステップと、前記記憶手段に記憶された映像から現在行われている映像通信が開始された以降の所定区間の映像を差替映像として決定するステップと、前記撮像手段により撮像された映像の出力中に所定の開始条件を満たすことをトリガとして、当該映像に代えて前記差替映像を出力するステップと、を実行させる情報処理プログラムである。この情報処理プログラムは、コンピュータにより読み取り可能な記録媒体に記録される。

　本発明によれば、撮像手段により撮像された映像に代えて現在行われている映像通信が開始された以降の所定区間の映像を差替映像として出力することで、映像受信側のユーザに不安感等を生じさせてしまうことを回避することができる。

本実施形態に係るテレビ電話システムＳの概要構成例を示す図である。（Ａ）は、通信端末Ｔｎの概要構成例を示す図であり、（Ｂ）は、制御部９における機能ブロックの一例を示す図である。通信端末Ｔ１の制御部９における通信処理を示すフローチャートである。

　以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、撮像手段と映像表示装置を用いて映像通信を行うテレビ電話システムに対して本発明を適用した場合の実施形態である。
［１．テレビ電話システムＳの構成及び機能］

　先ず、本発明の一実施形態に係るテレビ電話システムＳの構成及び機能について、図１等を用いて説明する。図１は、本実施形態に係るテレビ電話システムＳの概要構成例を示す図である。図１に示すように、テレビ電話システムＳは、通信端末Ｔｎ（ｎ＝１，２，３・・・ｋ）を含んで構成されている。通信端末Ｔｎは、本発明の情報処理装置の一例である。通信端末Ｔｎは、それぞれ、ネットワークＮＷに接続可能になっている。ネットワークＮＷは、例えば、インターネット、移動体通信網（基地局等を含む）、及びゲートウェイ等により構築されている。通信端末Ｔｎは他の通信端末Ｔｎとの間で、ネットワークＮＷを介して例えばＩＰ（Internet Protocol）プロトコルを用いた通信を行うことが可能になっている。なお、通信端末Ｔｎには、例えば、パーソナルコンピュータ、携帯電話機、及びスマートフォン等の携帯端末を適用可能である。

　図２（Ａ）は、通信端末Ｔｎの概要構成例を示す図である。図２（Ａ）に示すように、通信端末Ｔｎは、カメラ１（撮像手段の一例）、マイクロフォン２、表示部３、音声出力部４、記憶部５、操作部６、通信部７、入出力インターフェース部８、及び制御部９等を備える。カメラ１、マイクロフォン２、表示部３、音声出力部４、記憶部５、操作部６、及び通信部７は、入出力インターフェース部８に接続されている。また、入出力インターフェース部８と制御部９とは、システムバス１０を介して接続されている。

　カメラ１は、通信端末Ｔｎのユーザ間で例えばテレビ電話による会議においてネットワークＮＷを介して映像通信が行われるときに、通信端末Ｔｎのユーザを撮像対象者として撮像する。なお、カメラ１は、通信端末Ｔｎに搭載されなくともよく、通信端末Ｔｎに接続される外付のカメラであってもよい。マイクロフォン２は、カメラ１による撮像と同期してユーザの音声等を集音する。

　表示部３は、ディスプレイを備え、制御部９から出力された映像信号に従って映像をディスプレイに表示する。この映像信号は、例えば、通信相手の通信端末Ｔｎのユーザの映像を表す映像信号である。音声出力部４は、スピーカを備え、制御部９から出力された音声信号に従って音声をスピーカから外部へ出力する。この音声信号は、例えば、通信相手の通信端末Ｔｎのユーザの音声を含む。

　記憶部５は、例えばフラッシュメモリまたはハードディスクドライブ等により構成されており、オペレーティングシステム、及びテレビ電話プログラム（本発明の情報処理プログラムを含む）等の各種プログラムを記憶する。本発明の情報処理プログラムは、制御部９に本発明における各ステップを実行させるプログラムである。本発明の情報処理プログラムは、テレビ電話プログラムと分離して提供されるアプリケーションプログラムであってもよい。なお、テレビ電話プログラムは、例えば、所定のサーバ等からネットワークＮＷを介してダウンロードされるようにしても良いし、所定の記録媒体に記録されて読み込まれるようにしてもよい。

　操作部６は、ユーザによる指示を受け付けるための複数の操作ボタンを備え、ユーザにより押下された操作ボタンに応じた指示信号を制御部９へ出力する。通信部７は、ネットワークＮＷに接続して通常状態の制御を行う。

　制御部９は、ＣＰＵ（Central Processing Unit）９１、ＲＯＭ（Read Only Memory）９２、及びＲＡＭ（Random Access Memory）９３等により構成される。図２（Ｂ）は、制御部９における機能ブロックの一例を示す図である。コンピュータとしての制御部９は、記憶部５に記憶されたテレビ電話プログラムに従って後述する処理を実行する。このような処理において、制御部９は、図２（Ｂ）に示すように、映像取得部９ａ、映像記憶制御部９ｂ、映像決定部９ｃ、情報取得部９ｄ、音声取得部９ｅ、出力制御部９ｆ、入力制御部９ｇ、動作検知部９ｈ、音種類判定部９ｉ、変化検知部９ｊ、及び発言判定部９ｋ等として機能する。また、ＲＡＭ９３または記憶部５は、本発明における記憶手段を構成する。例えばＲＡＭ９３または記憶部５には、カメラ１により撮像された映像を一時的に記憶するための映像記憶領域が割り当てられる。

　なお、映像取得部９ａは、本発明における取得手段の一例である。映像記憶制御部９ｂは、本発明における記憶制御手段の一例である。映像決定部９ｃは、本発明における決定手段の一例である。情報取得部９ｄは、本発明における情報取得手段の一例である。出力制御部９ｆは、本発明における出力手段の一例である。動作検知部９ｈは、本発明における第２検知手段の一例である。音種類判定部９ｉは、本発明における第１判定手段の一例である。変化検知部９ｊは、本発明における第１検知手段の一例である。発言判定部９ｋは、本発明における第２判定手段の一例である。

　映像取得部９ａは、カメラ１により撮像された映像を映像信号として取得する。映像記憶制御部９ｂは、映像取得部９ａにより取得された映像（以下、「リアルタイム映像」という）の少なくとも一部を映像記憶領域（以下、「リアルタイム映像記憶領域」）に記憶する。つまり、リアルタイム映像記憶領域には、映像取得部９ａにより取得されたリアルタイム映像全てを記憶しなくともよい。なお、映像記憶制御部９ｂは、撮像対象者が表れる映像だけをリアルタイム映像記憶領域に記憶するように構成してもよい。そして、映像決定部９ｃは、リアルタイム映像記憶領域に記憶された映像から現在行われている映像通信が開始された以降の所定区間の映像を差替映像（以下、「ダミー映像」という）として決定する。例えば、リアルタイム映像記憶領域に記憶された映像から、撮像対象者が表れる所定区間の映像がダミー映像として決定される。ただし、撮像対象者が表れる所定区間には、撮像対象者が、例えば靴紐を結ぶために、撮像範囲から数秒間外れた区間が含まれていてもよい。

　ダミー映像を決定する一例として、映像決定部９ｃは、リアルタイム映像記憶領域に記憶されたリアルタイム映像を構成する複数の画像フレームから人物領域を検出し、当該検出した人物領域を複数の画像フレームにおいて追跡する。そして、映像決定部９ｃは、追跡した人物領域を含む複数の画像フレームの中から、追跡した人物領域の変化が、予め設定された閾値以下である区間の複数の画像フレームを、ダミー映像として決定する。ここで、「閾値」は、撮像対象者の動作が大きく変化しない区間の映像が決定されるように設定される。これは、例えば撮像対象者が席を外す動作をしたり、撮像対象者が携帯電話機をとる動作をしたりする区間の映像をダミー映像から除外する趣旨である。人物領域の変化が閾値以下とすることで、ダミー映像には撮像対象者が静止している区間の映像が含まれるが、撮像対象者が適度に動いている区間の映像が自然な場合もある。そのため、撮像対象者が適度に動いている区間の映像をダミー映像として決定するために、追跡した人物領域の変化が、予め設定された第１閾値以上で、且つ第２閾値（第１閾値より大きい）以下である区間の複数の画像フレームを、ダミー映像として決定するように構成してもよい。

　以上のように、決定されたダミー映像は、リアルタイム映像記憶領域とは区別されたダミー映像記憶領域に一時的に記憶される。なお、人物領域の検出には、人物の顔検出手法やオプティカルフローによる人物追跡手法の公知の様々な手法を用いることができるので詳しい説明を省略する。

　情報取得部９ｄは、通信相手の通信端末Ｔｎにより表示されたリアルタイム映像を見ている者（映像受信側のユーザ）の所定の動作（以下、「通信相手側動作」という）を示す情報を取得する。通信相手側動作を示す情報は、例えば通信部７により受信され、入力制御部９ｇにより入力された映像信号から取得される。ここで、通信相手側動作として、例えば、笑う動作や拍手する動作等が挙げられる。なお、笑っている状態は、公知の顔認識手法により検知することができる。

　音声取得部９ｅは、マイクロフォン２により集音された音声を音声信号として取得する。集音される音声には、撮像対象者の音声以外にも、当該撮像対象者が存在する場所で発せられる音（以下、「外部音」という）も含まれる。この外部音には、例えば、チャイム、携帯電話機の着信音等が含まれる。

　出力制御部９ｆは、映像取得部９ａにより取得されたリアルタイム映像を通信部７へ出力する。なお、本発明の情報処理プログラムがテレビ電話プログラムと分離して構成される場合、出力制御部９ｆは、映像取得部９ａにより取得されたリアルタイム映像をテレビ電話プログラムへ出力する。出力制御部９ｆから出力されたリアルタイム映像は、通信部７及びネットワークＮＷを介して、通信相手の１つまたは複数の通信端末Ｔｎ（映像表示装置の一例）へ送信される。そして、出力制御部９ｆは、当該リアルタイム映像の出力中に、後述する所定の開始条件（以下、「ダミー映像送信開始条件」という）を満たすことをトリガとして、当該リアルタイム映像に代えて映像決定部９ｃにより決定されたダミー映像を通信部７またはテレビ電話プログラムへ出力する。これにより、出力制御部９ｆから出力されたダミー映像は、通信部７及びネットワークＮＷを介して、通信相手の１つまたは複数の通信端末Ｔｎへ送信される。また、出力制御部９ｆは、リアルタイム映像の一部分の領域を、ダミー映像に表れる撮像対象者を含む一部分の領域に代えた当該リアルタイム映像を出力するように構成してもよい。この場合、決定されたダミー映像を構成する画像フレームから撮像対象者を含む一部分の領域が切り出され、切り出された領域が、リアルタイム映像の一部分の領域（切り出された領域と同一の座標位置の領域）に嵌め合わされることになる。これにより、リアルタイム映像の一部分の領域（ダミー映像における領域に置き換えられる領域）以外の領域に、映像受信側のユーザに見せたい対象があるときに、この対象を映像受信側のユーザに見せることができる。

　また、出力制御部９ｆは、上記リアルタイム映像に代えて、情報取得部９ｄにより取得された情報が示す通信相手側動作に合ったダミー映像を出力するように構成してもよい。これにより、映像送信側のユーザが映像受信側のユーザに合った動作をしていることを当該映像受信側のユーザに認識させることができる。例えば、通信相手側動作が笑う動作であれば、笑う動作を含むダミー映像が送信される。または、通信相手側動作が拍手する動作であれば、拍手する動作を含むダミー映像が出力される。この場合、映像決定部９ｃが、リアルタイム映像から各動作に対応するダミー映像を抽出し、抽出したダミー映像を例えば動作毎にジャンル分け（笑い、拍手など）してダミー映像記憶領域に記憶するように構成される。

　なお、リアルタイム映像またはダミー映像はエンコードされ、当該エンコードされた映像信号は、音声取得部９ｅにより取得されてエンコードされた音声信号と多重化され、ストリームデータとして送信されることになる。また、ダミー映像の送信は、後述するダミー映像送信終了条件を満たすことにより終了する。

　入力制御部９ｇは、通信相手の通信端末ＴｎからネットワークＮＷを介して送信され、通信部７により受信されたストリームデータを入力する。そして、入力制御部９ｇは、入力したストリームデータから映像信号と音声信号とを分離かつデコードし、当該映像信号を表示部３へ出力し、当該音声信号を音声出力部４へ出力する。

　動作検知部９ｈは、映像取得部９ａにより取得されたリアルタイム映像に表れる撮像対象者の所定の動作を当該リアルタイム映像から検知する。「撮像対象者の所定の動作が検知されること」は、上述したダミー映像送信開始条件の一例である。例えば、「所定の動作」として、「人物の頭部が前後または左右に揺れる居眠り動作」、「人物が居眠りで目が数十秒以上閉じている動作」、「人物が立ち上がる動作」、または「人物の左または右を向く動作」を表す映像を予め登録しておく。そして、動作検知部９ｈは、例えば、登録された動作とリアルタイム映像から検出された人物領域と比較してその類似度が予め設定された閾値以上であれば当該動作を検知する。なお、居眠りで目が閉じている状態は、公知の顔認識手法により検知することができる。

　音種類判定部９ｉは、音声取得部９ｅにより取得された音声に含まれる外部音が、所定の音の種類に属するか否かを判定する。「外部音が所定の音の種類に属すること」は、上述したダミー映像送信開始条件の一例である。例えば、「所定の音の種類」として、「チャイム」、または「携帯電話機の着信音」を表す周波数分布を予め登録しておく。そして、音種類判定部９ｉは、例えば、登録された周波数分布と音声取得部９ｅにより取得された音声に含まれる外部音の周波数分布と比較してその類似度が予め設定された閾値以上であれば当該外部音が、所定の音の種類に属すると判定する。

　出力制御部９ｆは、映像取得部９ａにより取得されたリアルタイム映像の出力中に、動作検知部９ｈにより撮像対象者の所定の動作が検知されることをトリガとして、当該リアルタイム映像に代えてダミー映像を出力する。これにより、映像送信側のユーザが所定の動作をするだけで、リアルタイム映像に代えてダミー映像を送信することできる。または、出力制御部９ｆは、映像取得部９ａにより取得されたリアルタイム映像の出力中に、音種類判定部９ｉにより外部音が所定の音の種類に属すると判定されることをトリガとして、当該リアルタイム映像に代えてダミー映像を出力する。これにより、映像送信側のユーザが特別な動作を行わなくても、リアルタイム映像に代えてダミー映像を送信することできる。そのため、映像送信側のユーザの手間を省くことができる。

　なお、出力制御部９ｆは、映像取得部９ａにより取得されたリアルタイム映像の出力中に、撮像対象者により所定の操作ボタン（例えば、ダミー映像送信開始ボタン）が押下されることをトリガとして、リアルタイム映像に代えてダミー映像を出力するように構成してもよい。この場合、トリガとなる操作ボタンは、複数の操作ボタンの中からユーザにより任意に設定されるように構成してもよい。

　変化検知部９ｊは、上記ダミー映像の出力中に、映像取得部９ａにより取得されたリアルタイム映像に表れる撮像対象者の変化を当該リアルタイム映像から検知する。撮像対象者の変化には、撮像対象者の人数の変化（例えば、カメラ１により撮像される撮像対象者が１人から２人へ変化）、及び撮像対象者の動作の変化（例えば、撮像対象者が席を外すことによる変化）が該当する。例えば、変化検知部９ｊは、映像決定部９ｃと同様、リアルタイム映像から人物領域を追跡し、追跡した人物領域を含む複数の画像フレームの中から、追跡した人物領域の変化を監視し、当該変化が予め設定された閾値以上になった場合、撮像対象者の変化を検知する。そして、映像記憶制御部９ｂは、変化検知部９ｊにより検知された変化の過程（例えば、カメラ１により撮像される撮像対象者が１人から２人へ変化している過程）を示す区間の映像（以下、「変化過程映像」という）を、リアルタイム映像記憶領域及びダミー映像記憶領域と区別された変化仮定映像記憶領域に記憶させる。この場合、出力制御部９ｆは、ダミー映像に続けて変化過程映像を出力する。そして、出力制御部９ｆは、変化仮定映像記憶領域に記憶された変化過程映像が全て出力された場合、リアルタイム映像に切り替えて出力する。つまり、ダミー映像出力中に、映像送信側のユーザのリアルタイム映像に大きな変化があった場合（例えば、カメラ１により撮像される撮像対象者が１人から２人に増加）、その大きな変化が起こっている最中の変化過程映像がダミー映像に続けて送信される。そして、変化過程映像の送信が完了したら、その大きな変化が起こった後のリアルタイム映像（ダミー映像でもよい）が送信される。これにより、撮像対象者の変化の前後の映像を自然な形で繋げることができるので、映像受信側のユーザに不安感等を生じさせてしまうことを回避することができる。また、通信相手の通信端末Ｔｎ側で、撮像対象者が例えば増加した映像が突如再生表示されることを防ぐことができる。

　発言判定部９ｋは、映像取得部９ａにより取得されたリアルタイム映像に表れる撮像対象者が発言する状況にあるか否かを判定する。例えば、撮像対象者の名前が呼ばれたことが検知された場合、撮像対象者が発言する状況にあると判定される。撮像対象者の名前が呼ばれることは、音声取得部９ｅにより取得された音声信号から判定することができる。また、例えば、管理者の端末と通信端末Ｔｎとが通信可能に構成されている場合、発言判定部９ｋは、管理者の端末からの発言要求を受信することで、撮像対象者が発言する状況にあると判定されるように構成してもよい。なお、発言要求は、例えば、管理者の端末において撮像対象者の発言がボタンで指定されることにより当該端末から送信される。そして、上記ダミー映像の出力中に、発言判定部９ｋにより撮像対象者が発言する状況にあると判定された場合、出力制御部９ｆは、通信障害を示すダミー映像を所定時間出力する。ここで、通信障害を示すダミー映像として、例えば、静止したダミー映像や、送信ビットレートを低下させたダミー映像等が挙げられる。これにより、ダミー映像出力中に、映像受信側のユーザからいきなり話を振られた場合（例えば、質問された場合）でも、映像受信側の通信端末Ｔｎでは、ダミー映像が静止して表示されたり、ゆっくり表示されたりするので、映像受信側のユーザに通信障害と認識させることができる。そのため、映像送信側のユーザが発言するのに適切な状況にない場合であっても、映像送信側のユーザが発言するまでの時間（リアルタイム映像に切り替えるまでの時間）を確保することができる。
［２．テレビ電話システムＳの動作］

　次に、本実施形態に係るテレビ電話システムＳの動作について、図３を用いて説明する。図３は、通信端末Ｔ１の制御部９における通信処理を示すフローチャートである。図３に示す処理は、例えば通信端末Ｔ１が他の通信端末Ｔ２等との間で通信を開始したときに開始される。

　図３に示す処理が開始されると、通信端末Ｔ１の制御部９は、映像及び音声の取得処理を開始する（ステップＳ１）。映像及び音声の取得処理では、映像取得部９ａによりリアルタイム映像が取得され、音声取得部９ｅにより音声が取得される。なお、映像及び音声の取得処理は、例えば、図３に示す処理が終了するまで継続される。

　次いで、通信端末Ｔ１の制御部９は、リアルタイム映像記憶処理を開始する（ステップＳ２）。映像記憶処理では、映像記憶制御部９ｂによりリアルタイム映像が、リアルタイム映像記憶領域に記憶される。なお、リアルタイム映像記憶処理は、例えば、図３に示す処理が終了するまで継続される。また、例えば、リアルタイム映像記憶領域に記憶されたリアルタイム映像のデータ量がリアルタイム映像記憶領域の容量を超えた場合、リアルタイム映像記憶領域に記憶されている最も古いリアルタイム映像が新しく取得されるリアルタイム映像により上書きされることになる。

　次いで、通信端末Ｔ１の制御部９は、ダミー映像決定処理を開始する（ステップＳ３）。ダミー映像決定処理では、映像決定部９ｃによりリアルタイム映像から現在行われている映像通信が開始された以降の所定区間のダミー映像が決定される。決定されたダミー映像は、ダミー映像記憶領域に記憶される。なお、ダミー映像決定処理は、例えば、ダミー映像記憶領域に記憶されたダミー映像のデータ量がダミー映像記憶領域の容量と等しくなった場合、終了する。また、リアルタイム映像に代えてダミー映像が出力されていた区間だけを除いて新たなダミー映像が決定されるように構成してもよい。また、ダミー映像は、通信端末Ｔ１が他の通信端末Ｔｎ等との間の通信開始から終了までの現在のセッション内で取得されたリアルタイム映像から決定されることが好ましい。過去のセンションにおいて取得されたリアルタイム映像からダミー映像を決定しても、ユーザの服装や髪型が異なっていることがあるために、ダミー映像としての役割を果たせない場合があると考えられるからである。

　次いで、通信端末Ｔ１の制御部９は、リアルタイム映像送信処理を開始する（ステップＳ４）。リアルタイム映像送信処理では、リアルタイム映像及び音声を含むストリームデータが通信端末Ｔ２等へ送信される。なお、映像及び音声の取得処理、リアルタイム映像記憶処理、ダミー映像決定処理、及びリアルタイム映像送信処理は、例えばマルチタスク機能により並行して行われる。

　次いで、通信端末Ｔ１の制御部９は、リアルタイム映像送信処理によるリアルタイム映像の送信中（出力制御部９ｆにより出力中）に、ダミー映像送信開始条件を満たすか否かを判定する（ステップＳ５）。例えば、複数の通信端末Ｔｎを通じてテレビ会議が行われている最中、通信端末Ｔ１のユーザが体調不良のため席を外したり、緊急の着信に対応したりということが必要となる事態が生じた場合、当該ユーザが「ダミー映像送信開始ボタン」を押下すると、ダミー映像送信開始条件を満たすと判定される。また、ダミー映像送信開始ボタンが押下されなくても、例えば、玄関のチャイムや、携帯電話機の着信音などが鳴ることで、音種類判定部９ｉにより外部音が所定の音の種類に属すると判定された場合、ダミー映像送信開始条件を満たすと判定される。また、通信端末Ｔ１のユーザが大きな動作（例えば、立ち上がる動作、または左または右を向く動作）を行うことで、動作検知部９ｈにより撮像対象者の当該動作が検知された場合、ダミー映像送信開始条件を満たすと判定される。これは、当該ユーザがまもなく通話から一時的に離脱することが予想されるからである。

　そして、通信端末Ｔ１の制御部９は、ダミー映像送信開始条件を満たさないと判定した場合（ステップＳ５：ＮＯ）、ステップＳ６へ進む。一方、通信端末Ｔ１の制御部９は、ダミー映像送信開始条件を満たすと判定した場合（ステップＳ５：ＹＥＳ）、ステップＳ７へ進む。ステップＳ６では、通信終了指示があったか否かが判定される。例えば、通信端末Ｔ１のユーザから操作部６を介して通信終了指示があったと判定された場合（ステップＳ６：ＹＥＳ）、図３に示す処理が終了する。一方、通信終了指示がないと判定された場合（ステップＳ６：ＮＯ）、ステップＳ５に戻る。

　ステップＳ７では、通信端末Ｔ１の制御部９は、ダミー映像送信処理を開始する。つまり、ダミー映像送信開始条件を満たすことをトリガとして、ダミー映像送信処理が開始される。ダミー映像送信処理では、リアルタイム映像に代えて上記ダミー映像を含むストリームデータが通信端末Ｔ２等へ送信される。このとき、音声取得部９ｅにより取得された音声（リアルタイムの音声）は切断する（送信されない）ようにすることが望ましい。これは、ダミー映像と関連のない音声が送信されることにより、通信相手の通信端末Ｔ２等のユーザに不安感等を与えることを防ぐためである。また、ダミー映像送信処理では、上述したように、リアルタイム映像の一部分の領域をダミー映像に表れる撮像対象者を含む一部分の領域に代えた当該リアルタイム映像が送信されるように構成してもよい。

　なお、通信端末Ｔ１の制御部９は、ダミー映像送信処理の開始後、情報取得部９ｄにより取得された情報が示す通信相手側動作に合ったダミー映像を通信相手の通信端末Ｔ２等へ送信するように構成してもよい。例えば、通信相手側動作が笑う動作であれば、笑う動作を含むダミー映像が送信される。または、通信相手側動作が拍手する動作であれば、拍手する動作を含むダミー映像が送信される。

　次いで、通信端末Ｔ１の制御部９は、ダミー映像の送信中に、映像取得部９ａにより取得されたリアルタイム映像に表れる撮像対象者の変化が変化検知部９ｊにより検知されたか否かを判定する（ステップＳ８）。そして、リアルタイム映像に表れる撮像対象者の変化（例えば、カメラ１により撮像される撮像対象者が１人から２人へ変化）が検知された場合（ステップＳ８：ＹＥＳ）、ステップＳ９に進む。一方、リアルタイム映像に表れる撮像対象者の変化が検知されない場合（ステップＳ８：ＮＯ）、ステップＳ１０へ進む。

　ステップＳ９では、通信端末Ｔ１の制御部９は、検知された変化の過程を示す区間の変化過程映像を変化仮定映像記憶領域に記憶し、ステップＳ１０に進む。ステップＳ１０では、通信端末Ｔ１の制御部９は、ダミー映像の送信中に、映像取得部９ａにより取得されたリアルタイム映像に表れる撮像対象者が発言する状況にあるか否かを発言判定部９ｋにより判定する。そして、リアルタイム映像に表れる撮像対象者が発言する状況にあると判定された場合（例えば、撮像対象者の名前が呼ばれたことが検知された場合）（ステップＳ１０：ＹＥＳ）、ステップＳ１１へ進む。一方、リアルタイム映像に表れる撮像対象者が発言する状況にないと判定された場合（ステップＳ１０：ＮＯ）、ステップＳ１２へ進む。ステップＳ１１では、通信端末Ｔ１の制御部９は、通信障害を示すダミー映像を所定時間、通信相手の通信端末Ｔｎへ送信し、ステップＳ１２へ進む。

　なお、通信端末Ｔ１の制御部９は、ダミー映像の送信中に、映像決定部９ｃにより決定されダミー映像記憶領域に記憶された全てのダミー映像の送信が完了した場合、既に送信した当該ダミー映像を繰り返して通信端末Ｔ２等へ送信する。つまり、ダミー映像記憶領域に記憶されたダミー映像が足りなくなったら、繋ぎ目がなめらかになるようにして、繰り返して送信される。これにより、ダミー映像の送信時間が長くなり、ダミー映像が足りなくなった場合であってもダミー映像の送信を継続することができる。

　ステップＳ１２では、通信端末Ｔ１の制御部９は、ダミー映像の送信中に、ダミー映像送信終了条件を満たすか否かを判定する。例えば、通信端末Ｔ１のユーザにより所定の操作ボタン（例えば、ダミー映像送信終了ボタン）が押下された場合に、ダミー映像送信終了条件を満たすと判定される。なお、例えば、テレビ会議の議題が決まっており、通信端末Ｔ１のユーザが発言しなくてはならない時刻が予めわかっているのであれば、ユーザは、操作部６を操作してタイマをセットしてもよい。この場合、ユーザによりセットされた時刻が到来した時に、通信端末Ｔ１の制御部９は、ダミー映像送信終了条件を満たすと判定する。そして、ダミー映像送信終了条件を満たさないと判定された場合（ステップＳ１２：ＮＯ）、ステップＳ１３へ進む。一方、ダミー映像送信終了条件を満たすと判定された場合（ステップＳ１２：ＹＥＳ）、ステップＳ１４へ進む。ステップＳ１３では、通信終了指示があったか否かが判定される。そして、通信終了指示があったと判定された場合（ステップＳ１３：ＹＥＳ）、図３に示す処理が終了する。一方、通信終了指示がないと判定された場合（ステップＳ１３：ＮＯ）、ステップＳ８に戻る。

　ステップＳ１４では、通信端末Ｔ１の制御部９は、ステップＳ９で変化過程映像が変化仮定映像記憶領域に記憶されているか否かを判定する。そして、変化過程映像が変化仮定映像記憶領域に記憶されていると判定された場合（ステップＳ１４：ＹＥＳ）、ダミー映像送信処理を終了し、ステップＳ１５へ進む。一方、変化過程映像が変化仮定映像記憶領域に記憶されていないと判定された場合（ステップＳ１４：ＮＯ）、ダミー映像送信処理を終了し、ステップＳ１６へ進む。ステップＳ１５では、通信端末Ｔ１の制御部９は、変化仮定映像記憶領域に記憶された変化過程映像を通信相手の通信端末Ｔｎへ送信し、送信完了後ステップＳ１６へ進む。ステップＳ１６では、通信端末Ｔ１の制御部９は、リアルタイム映像送信処理を再開し、ステップＳ５に戻る。

　以上説明したように、上記実施形態によれば、通信端末Ｔｎは、カメラ１から取得されたリアルタイム映像の出力中に所定の開始条件を満たすことをトリガとして、リアルタイム映像に代えて現在行われている映像通信が開始された以降の所定区間のダミー映像を出力するように構成したので、映像送信側のユーザが例えば会議等に参加している様子の映像（ダミー映像）を送信することでき、映像受信側のユーザに不安感等をを生じさせてしまうことを回避することができる。

　なお、上記実施形態では、本発明における取得手段、記憶制御手段、決定手段、及び出力手段等は通信端末Ｔｎに備えられる場合を例にとって説明したが、映像送信側の通信端末と映像受信側の通信端末との間に介在する仲介装置（例えば、ネットワークＮＷに接続されたサーバ、またはセットトップボックス）に備えられるように構成してもよい。この場合、例えば、仲介装置は、カメラ１により撮像されたリアルタイム映像を通信端末Ｔ１から取得し、取得したリアルタイム映像を映像記憶領域に記憶し、かつリアルタイム映像を通信端末Ｔ２等へ送信する。そして、仲介装置は、映像記憶領域に記憶された映像から、撮像対象者が表れる所定区間のダミー映像を抽出し、上記リアルタイム映像の出力中に、上述したダミー映像送信開始条件を満たすことをトリガとして、当該リアルタイム映像に代えて、上記抽出したダミー映像を通信端末Ｔ２へ送信する。なお、この場合、ダミー映像送信開始条件を満たすか否かを判定するための情報は、通信端末Ｔ１から取得することになる。また、本発明における取得手段、記憶制御手段、決定手段、及び出力手段等は、例えば通信端末ＴｎにＵＳＢ等のインターフェースを介して接続可能な外付けデバイスに備えられてもよい。

　また、上記実施形態では、本発明をテレビ電話システムに適用し、複数のユーザが双方向のテレビ電話を行う場面を想定しているが、これ以外にも、例えばeラーニング等の片方向の通信システムに対しても本発明は適用可能である。

１　カメラ
２　マイクロフォン
３　表示部
４　音声出力部
５　記憶部
６　操作部
７　通信部
８　入出力インターフェース部
９　制御部
Ｔｎ　通信端末
Ｓ　テレビ電話システム

Claims

　撮像手段と映像表示装置を用いて行われる映像通信において当該撮像手段により撮像された映像を出力する情報処理装置であって、
　前記撮像手段により撮像された映像を取得する取得手段と、
　前記取得手段により取得された映像の少なくとも一部を記憶手段に記憶させる記憶制御手段と、
　前記記憶手段に記憶された映像から現在行われている映像通信が開始された以降の所定区間の映像を差替映像として決定する決定手段と、
　前記撮像手段により撮像された映像の出力中に所定の開始条件を満たすことをトリガとして、当該映像に代えて前記差替映像を出力する出力手段と、
　を備えることを特徴とする情報処理装置。
　前記情報処理装置は、前記差替映像の出力中に、前記取得手段により取得された映像に表れる撮像対象者の変化を当該映像から検知する第１検知手段を更に備え、
　前記記憶制御手段は、少なくとも前記第１検知手段により検知された変化の過程を示す区間の映像を記憶手段に記憶させ、
　前記出力手段は、前記差替映像に続けて前記変化の過程を示す区間の映像を出力することを特徴とする請求項１に記載の情報処理装置。
　前記情報処理装置は、前記映像表示装置により表示された前記映像を見ている者の動作を示す情報を取得する情報取得手段を更に備え、
　前記出力手段は、前記撮像手段により撮像された映像に代えて、前記情報取得手段により取得された情報が示す動作に合った、前記撮像対象者の動作が表れる前記差替映像を出力することを特徴とする請求項１または２に記載の情報処理装置。
　前記情報処理装置は、前記取得手段により取得された映像に表れる撮像対象者の所定の動作を当該映像から検知する第２検知手段を更に備え、
　前記出力手段は、前記撮像手段により撮像された映像の出力中に、前記第２検知手段により前記所定の動作が検知されることをトリガとして、前記撮像手段により撮像された映像に代えて前記差替映像を出力することを特徴とする請求項１乃至３の何れか一項に記載の情報処理装置。
　前記情報処理装置は、前記取得手段により取得された映像に表れる撮像対象者が存在する場所で発せられる音が、所定の音の種類に属するか否かを判定する第１判定手段を更に備え、
　前記出力手段は、前記撮像手段により撮像された映像の出力中に、前記第１判定手段により前記所定の音の種類に属すると判定されることをトリガとして、前記撮像手段により撮像された映像に代えて前記差替映像を出力することを特徴とする請求項１乃至３の何れか一項に記載の情報処理装置。
　前記情報処理装置は、前記取得手段により取得された映像に表れる撮像対象者が発言する状況にあるか否かを判定する第２判定手段を更に備え、
　前記出力手段は、前記撮像手段により撮像された映像の出力中に、前記第２判定手段により前記撮像対象者が発言する状況にあると判定された場合、通信障害を示す前記差替映像を出力することを特徴とする請求項１乃至５の何れか一項に記載の情報処理装置。
　前記出力手段は、前記差替映像の出力中に、前記決定手段により決定された全ての前記差替映像の出力が完了した場合、既に出力した当該差替映像を繰り返して出力することを特徴とする請求項１乃至６の何れか一項に記載の情報処理装置。
　前記出力手段は、前記撮像手段により撮像された映像の一部分の領域を、前記差替映像に表れる当該撮像対象者を含む一部分の領域に代えた映像を出力することを特徴とする請求項１乃至７の何れか一項に記載の情報処理装置。
　撮像手段と映像表示装置を用いて行われる映像通信において当該撮像手段により撮像された映像を出力するコンピュータにより実行される情報処理方法であって、
　前記撮像手段により撮像された映像を取得するステップと、
　取得された映像の少なくとも一部を記憶手段に記憶させるステップと、
　前記記憶手段に記憶された映像から現在行われている映像通信が開始された以降の所定区間の映像を差替映像として決定するステップと、
　前記撮像手段により撮像された映像の出力中に所定の開始条件を満たすことをトリガとして、当該映像に代えて前記差替映像を出力するステップと、
　を含むことを特徴とする情報処理方法。
　撮像手段と映像表示装置を用いて行われる映像通信において当該撮像手段により撮像された映像を出力するコンピュータに、
　前記撮像手段により撮像された映像を取得するステップと、
　取得された映像の少なくとも一部を記憶手段に記憶させるステップと、
　前記記憶手段に記憶された映像から現在行われている映像通信が開始された以降の所定区間の映像を差替映像として決定するステップと、
　前記撮像手段により撮像された映像の出力中に所定の開始条件を満たすことをトリガとして、当該映像に代えて前記差替映像を出力するステップと、
　を実行させることを特徴とする情報処理プログラム。