WO2011122522A1

WO2011122522A1 - 感性表現語選択システム、感性表現語選択方法及びプログラム

Info

Publication number: WO2011122522A1
Application number: PCT/JP2011/057543
Authority: WO
Inventors: 野村　俊之; 裕三仙田; 恭太比嘉; 隆行荒川; 康行三井
Original assignee: 日本電気株式会社
Priority date: 2010-03-30
Filing date: 2011-03-28
Publication date: 2011-10-06
Also published as: US9286913B2; JPWO2011122522A1; US20130024192A1

Abstract

本発明は、所定の場から得られるオーディオ信号を分析し、前記所定の場で発生している音に関する感性音情報を生成する信号分析部と、前記感性音情報に基づいて、前記所定の場で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部とを有する感性表現語選択システムである。

Description

感性表現語選択システム、感性表現語選択方法及びプログラム

　本発明は、感性表現語選択システム、感性表現語選択方法及びプログラムに関する。

　離れた場所の雰囲気を相手に伝えたいことがある。このような場合、その場に設置されているマイク等で周囲の音を集音して、相手に聞かせることで周囲の雰囲気を伝えることができる。しかしながら、マイクや受話器では、モノラル音しか集音できないため、通話者の周囲の雰囲気を完全に伝えることができないという問題がある。

　そこで、高音質で臨場感のある電話通信を実現できるステレオ電話装置が提案されている（例えば、特許文献１）。

　特許文献１に記載されているステレオ電話装置は、ステレオ電話機同士でステレオの音声相互通信を行うことができるので、モノラル音よりも立体感のある音声で会話をすることができる。

　しかしながら、特許文献１に記載のステレオ装置では、通話用のマイクを使って周囲の環境音も伝えるため、ステレオ電話機同士で通話中に、その場の環境音を相手にうまく伝えることができなかった。

　そこで、その場の環境音を相手にうまく伝えることを目的とした技術として、特許文献２の技術が提案されている。特許文献２の技術は、通話する際に発信者が受信者に周囲の雰囲気などを伝えたい場合、受信者の電話番号とともにコンテンツサーバの電話番号を入力する。コンテンツサーバには、発信者の周囲の環境音を集音して立体音響データとしてリアルタイムに配信するものや音楽を配信するものなどがある。受信側電話装置では、電話機が発呼する際に送信側で指定されたコンテンツサーバの情報が通知されるので、このＩＰアドレス情報に基づいてコンテンツサーバに接続して立体音響データを取得して、電話装置に接続されたサラウンドシステムで立体音響を再生する。これにより、受信者は、発信者と通話しながら、発信者とほぼ同じ雰囲気を体感できる。

特開平６－２６８７２２号公報特開２００７－３０６５９７号公報

　ところで、人間は、音声を含む様々な音の中で生活しており、音声の意味内容以外にも音自体に対しても感性を感じている。例えば、多数の人間が存在する場を考えたとき、たとえ全ての人間が発声していなくても、人が動き回る音や、資料を開いたりする音などが発生している。このような場合、人間はその場が、例えば、「ガヤガヤ」していると感じる。一方で、多数の人間が存在していても、全く音がないような場合や、殆ど無音に近い場合もある。このような場合、人間はその場が「シーン」としていると感じる。このように、人間は、その場で感じる音（無音の場合も含む）により色々な感性を感じ取る。

　しかし、特許文献１や特許文献２の技術は、その場で発生している音をなるべく忠実に再現して臨場感のある音場を再生することを目的としており、音以外に人間が感じる色々な感性を伝えることはできなかった。

　そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、その場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる感性表現語選択システム、感性表現語選択方法及びプログラムを提供することにある。

　上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部とを有する感性表現語選択システムである。

　上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択方法である。

　上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理とを情報処理装置に実行させるプログラムである。

　本発明は、場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる。

図１は本実施の形態における感性表現語選択システムのブロック図である。図２は第１の実施の形態の感性表現語選択システムのブロック図である。図３は感性表現語データベース２１の一例を示した図である。図４は第２の実施の形態の感性表現語選択システムのブロック図である。図５はオーディオ信号の周波数情報の例を説明するための図である。図６は感性音情報が音圧レベルと周波数重心（正規化値）とである場合、音圧レベル（正規化値）と周波数重心（正規化値）との２次元に感性表現語がマッピングされた感性表現語データベース２１の一例を示した図である。図７は周波数情報がスペクトル包絡の傾きの例を説明する為の図である。図８は周波数情報が倍音数の例を説明する為の図である。図９は周波数情報が周波数帯域及び周波数重心の例を説明する為の図である。図１０は第３の実施の形態の感性表現語選択システムのブロック図である。図１１は第４の実施の形態の感性表現語選択システムのブロック図である。図１２は第５の実施の形態の感性表現語選択システムのブロック図である。図１３は第６の実施の形態の感性表現語選択システムのブロック図である。

　本発明の実施の形態を説明する。

　まず、本発明の概要を説明する。

　図１は本実施の形態における感性表現語選択システムのブロック図である。

　図１に示す如く、本実施の形態の感性表現語選択システムは、入力信号分析部１と、感性表現語選択部２とを有する。

　入力信号分析部１は、ある所定の場で取得されたオーディオ信号を入力し、オーディオ信号を分析して、その所定の場で発生している音（以下、感性音と記載する）に関する感性音情報を生成する。感性音とは、オーディオ信号を取得した場で発生している様々な音、例えば、音声や、音声以外の環境音を含む概念である。人間は、音声を含む様々な音の中で生活しており、音声の意味内容以外にも音自体に対しても感性を感じている。例えば、多数の人間が存在する場を考えたとき、たとえ全ての人間が発声していなくても、人が動き回る音や、資料を開いたりする音などが発生している。このような場合、人間はその場が、例えば、「ガヤガヤ」していると感じる。一方で、多数の人間が存在していても、全く音がない場合や、発生している音が小さい（オーディオ信号音圧レベルが低い）場合もある。このような場合、人間はその場が「シーン」としていると感じる。このように、人間は、その場で感じる音（無音の場合も含む）により色々な感性を感じ取る。

　そこで、入力信号分析部１は、所定の場で発生している感性音のオーディオ信号を分析し、その場ではどのような感性音が発生しているかを分析し、感性音に関する感性音情報を生成する。ここで、感性音情報とは、オーディオ信号の音圧の大きさや、オーディオ信号の周波数、オーディオ信号の種類（例えば、音声や、雨の音や自動車の音等といった音声を除く環境音の種別）等である。

　感性表現語選択部２は、入力信号分析部１で生成された感性音情報に基づいて、オーディオ信号を取得した場で発生している感性音に対応した感性表現語を選択する。ここで、感性表現語とは、オーディオ信号を取得した場で発生している音で人が感じる内容、例えば、気持ちや感性、感覚を表現する語である。感性表現語の代表的なものに擬音語や擬態語がある。

　例えば、感性音情報がオーディオ信号の音圧レベルである場合、音圧レベルが大きいほど大きな音が発生していると考えられ、オーディオ信号を取得した場では大きな音が発生しており、その場が騒がしいことが判る。そこで、感性表現語選択部２は、「ザワザワ」や、「ガヤガヤ」と言ったその場の雰囲気を感じ取れる擬音語や擬態語の感性表現語を選択する。また、音圧レベルが殆ど０に近く、無音に近いと考えられる場合は、「シーン」と言ったその場の雰囲気を感じ取れる擬音語や擬態語の感性表現語を選択する。

　また、感性音情報がオーディオ信号の周波数である場合、音の発生源に応じてオーディオ信号の周波数は変化すると考えられる。そこで、感性表現語選択部２は、オーディオ信号の周波数が低い場合には工事の騒音をイメージさせる「ドッドッ」や車の排気音をイメージさせる「ブーン」、逆に高い場合には「カンカン」のような金属的なイメージを表す感性表現語、あるいは、「コンコン」のような木を打ちたたく感性表現語を選択する。

　さらに、オーディオ信号の種別を感性音情報として用いる場合は、その場で生じている音の種別に応じてより正確な感性表現語を感性表現語選択部２で選択する。例えば、工事のドリルなのか車の排気音を区別して、「ドッドッ」あるいは「ブーン」を選択することが出来る。

　このように選択された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。

　これにより、今まで、臨場感、すなわち、その場の雰囲気や互いの状況を得るために、忠実な音場を再現することに注視されていた従来のものと比べて、その場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により明確に表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる。

　以下、具体的な実施の形態を説明する。

　＜第１の実施の形態＞
　第１の実施の形態を説明する。

　第１の実施の形態では、ある所定の場で発生している感性音から取得されたオーディオ信号の音の大きさに着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語（擬音語、擬態語等）を選択する例を説明する。

　図２は、第１の実施の形態の感性表現語選択システムのブロック図である。

　第１の実施の形態の感性表現語選択システムは、入力信号分析部１と、感性表現語選択部２とを有する。

　入力信号分析部１は、音圧レベル算出部１０を有する。音圧レベル算出部１０は、入力された感性音のオーディオ信号の音圧を算出し、音圧レベルを正規化した値（０～１．０）を感性音情報として感性表現語選択部２に出力する。

　感性表現語選択部２は、感性表現語データベース２１と、感性表現語検索部２２とを有する。

　感性表現語データベース２１は、感性音情報の値（０～１．０）に対応する感性表現語が格納されたデータベースである。図３に感性表現語データベース２１の一例を示す。

　図３に示される感性表現語データベース２１では、感性音情報の値（音圧レベル：０～１．０）とそれに対応する感性表現語（例えば、擬音語や、擬態語）を示したものであり、例えば、感性音情報の値が「０．０」の場合の感性表現語は「シーン」であり、感性音情報の値が「０．１」の場合の感性表現語は「コソコソ」である。また、感性音情報の値が「０．９以上、０．９５未満」の値である場合には感性表現語は「ワイワイ」であり、感性音情報の値が「０．９５以上、１以下」の値である場合には感性表現語は「ガヤガヤ」である。このように、感性音情報の値に対応する感性表現語が格納されている。

　感性表現語検索部２２は、入力信号分析部１から感性音情報を入力し、この感性音情報に対応した感性表現語を、感性表現語データベース２１から検索する。例えば、入力信号分析部１から得られた感性音情報の値が「０．６４」の場合、感性表現語データベース２１から「０．６４」に対応する感性表現語を選択する。図３に示される感性表現語データベース２１の例では、「０．６４」に対応する感性表現語は、０．６～０．７の間にある「ペチャペチャ」である。従って、感性音情報の値「０．６４」に対応する感性表現語として「ペチャペチャ」を検索する。検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。

　以上の如く、第１の実施の形態では、その場の音の大きさに応じた感性表現語（擬音語や擬態語）が選択されるので、その場の音の大きさに応じた雰囲気や互いの状況を人間の感性に訴えた感性表現語（擬音語や擬態語）を得ることができる。

　＜第２の実施の形態＞
　第２の実施の形態を説明する。

　第２の実施の形態では、第１の実施の形態の構成に加え、ある所定の場で発生している感性音から取得されたオーディオ信号を周波数分析し、音の大きさと周波数スペクトルとに着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。

　図４は、第２の実施の形態の感性表現語選択システムのブロック図である。

　入力信号分析部１は、第１の実施の形態に加え、周波数解析部１１を有する。

　周波数解析部１１は、入力信号の基本周波数や、周波数重心、周波数帯域や、スペクトル包絡の傾き、倍音数などの音の周波数上での特徴を現す周波数情報を算出する。

　各項目の概念図を図５に示す。

　ここで、基本周波数とは、周期的な音の音高を表す周波数であり、音の振動周期で決まり音の振動周期が短いと音の高さは高くなり、振動周期が長いと音の高さは低くなる。また、周波数重心とは、エネルギを重みとした重み付け平均周波数であり、雑音の場合の音の高さを表す。また、周波数帯域とは、入力されたオーディオ信号が取りうる周波数の帯域である。また、スペクトル包絡とは、スペクトルの大まかな傾向を表し、その傾きは音色に影響する。

　周波数解析部１１は、上述のような周波数情報を感性音情報として出力する。

　感性表現語検索部２２は、音圧レベルと周波数情報とを感性音情報として入力し、感性音情報に対応する感性表現語を感性表現語データベース２１から選択する。このため、感性表現語データベース２１には音圧レベルのみならず、周波数情報も考慮されて学習された感性音情報に対応する感性表現語が格納されている。また、感性表現語検索部２２は、音圧レベルと周波数情報とを感性音情報として入力し、感性表現語データベース２１から音圧レベルと周波数情報とにあった感性表現語を選択する。

　感性表現語検索部２２の感性表現語の検索の一例を説明する。

　図６は感性音情報が音圧レベルと周波数重心（正規化値）とである場合、音圧レベル（正規化値）と周波数重心（正規化値）との２次元に感性表現語がマッピングされた感性表現語データベース２１の一例を示したものである。

　感性表現語検索部２２は、例えば、音圧レベルの値が大きく、周波数重心の値が小さい感性音情報を受信すると、オーディオ信号を取得した場では迫力ある音がしていると判断して、感性表現語「ドンドン」を選択する。一方、音圧レベルの値が小さく、周波数重心の値が大きい感性音情報を受信すると、オーディオ信号を取得した場ではもの足りない音がしていると判断して、感性表現語「トントン」を選択する。また、音圧レベルの値が大きく、周波数重心の値も大きい感性音情報を受信すると、オーディオ信号を取得した場では鋭い音がしていると判断して、感性表現語「キンキン」を選択する。一方、音圧レベルの値が小さく、周波数重心の値も小さい感性音情報を受信すると、オーディオ信号を取得した場では鈍い音がしていると判断して、感性表現語「ゴンゴン」を選択する。尚、周波数重心に代えて基本周波数であっても同様である。

　上述では音圧レベルと周波数重心又は基本周波数との例を示したが、これに限られない。例えば、図７に示すように、周波数情報がスペクトル包絡の傾きであり、その傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語から音圧レベルに対応した感性表現語を選択し、傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語から音圧レベルに対応した感性表現語を選択するようにしても良い。

　また、例えば、図８に示すように、周波数情報が倍音数であり、その数が多い場合には汚い印象（雑音になる）となる濁音のある感性表現語から音圧レベルに対応した感性表現語を選択し、その数が少ない場合にはきれいな印象（純音に近い）になる濁音が無い感性表現語から音圧レベルに対応した感性表現語を選択するようにしても良い。

　更に、例えば、図９に示すように、周波数情報が周波数帯域及び周波数重心であり、その帯域が狭く周波数重心が低い場合には鈍い印象（高域の音を含まない）の非金属的な印象を与え、かつ、低い音を表現するような感性表現語から音圧レベルに対応した感性表現語、例えば、「ドンドン」を選択する。一方、その帯域が広く周波数重心が高い場合には鋭い印象（高域の音を含む）の金属的な印象を与え、かつ、高い音を表現するような感性表現語から音圧レベルに対応した感性表現語、例えば、「キンキン」を選択するようにしても良い。

　なお、上記で説明した複数の周波数情報を用いても良い。

　また、上記の例では、音圧レベルと周波数情報とを組み合わせた例を説明したが、周波数情報のみを用いて感性表現語を選択することもできる。

　以上の如く、第２の実施の形態では、感性音情報に音圧レベルに加えて周波数情報を加えることにより、よりその場の雰囲気を表す感性表現語を選択することができる。

　＜第３の実施の形態＞
　第３の実施の形態を説明する。

　第３の実施の形態では、第２の実施の形態の構成に加え、ある所定の場で発生している感性音から取得されたオーディオ信号を音声と音声以外の環境音とに識別し、音の大きさ、周波数分析、音声と環境音との識別に着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。

　図１０は、第３の実施の形態の感性表現語選択システムのブロック図である。

　入力信号分析部１は、第２の実施の形態に加え、音声・環境音判定部１２を有する。

　音声・環境音判定部１２は、入力されたオーディオ信号に対し、人が発声した音声か、その他の環境音かを判定する。判定方法としては、以下の方法が考えられる。

　（１）オーディオ信号のスペクトル形状の時間変化が少なすぎる（定常雑音）、もしくは急激すぎる（突発雑音）のとき、音声を除く環境音と判定する。

　（２）オーディオ信号のスペクトル形状が、フラット、もしくは１／ｆに近いとき、音声を除く環境音と判定する。

　（３）オーディオ信号に対して数ms（8 kHzサンプリングの場合、10次）程度の線形予測を行い、その線形予測ゲインが大きい場合は音声とし、小さい場合は環境音と判定する。また、オーディオ信号に対して十数ms（8 kHzサンプリングの場合、40～160次）程度の長期予測を行い、その長期予測ゲインが大きい場合は音声とし、小さい場合は環境音と判定する。

　（４）オーディオ信号の入力音をケプストラムに変換し、変換した信号と音声の標準モデルとの距離を測定し、その入力音が一定以上離れていた場合には音声を除く環境音と判定する。

　（５）オーディオ信号の入力音をケプストラムに変換し、変換した信号と音声の標準モデルとの距離と、変換した信号とガーベッジモデルもしくはユニバーサルモデルとの距離とを測定し、ガーベッジモデルもしくはユニバーサルモデルにより近い場合には、その入力音を音声以外の環境音と判定する。

　上述した方法の音声の標準モデルとしては、Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ（ＧＭＭ）やＨｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ（ＨＭＭ）などを用いることができる。ＧＭＭやＨＭＭは予め人が発声した音声から統計的もしくは機械学習のアルゴリズムを用いて作成する。尚、ガーベッジモデルとは、人の発声以外の音から作成したモデルであり、ユニバーサルモデルとは、人の発声した音声とそれ以外の音声を全て合わせて作成したモデルである。

　入力信号分析部１は、音圧レベル算出部１０が算出した音圧レベルと、周波数解析部１１が算出した周波数情報と、音声・環境音判定部１２が算出した音の種別（音声、又は、音声以外の環境音）を感性音情報として出力する。

　感性表現語検索部２２は、基本的な構成は第２の実施の形態と同様であるが、音圧レベル、周波数情報及び音の種別（音声、又は、音声以外の環境音）を感性音情報として入力し、感性表現語を検索する。このため、感性表現語データベース２１には音圧レベル、周波数情報のみならず、音声又は音声以外の環境音の種別も考慮されて学習された感性音情報に対応する感性表現語が格納されている。

　感性表現語検索部２２は、例えば、オーディオ信号を取得した場で発生している音が音声であり、基本周波数が高く、音圧レベルが低くい場合には、音声に対応した感性表現語「ヒソヒソ」を検索する。一方、オーディオ信号を取得した場で発生している音が音声であり、基本周波数が低く、音圧レベルが高い場合には音声に対応した感性表現語「ガヤガヤ」を検索する。また、感性表現語検索部２２は、オーディオ信号を取得した場で発生している音が音声以外の環境音であり、周波数重心が低く、音圧レベルが低くい場合には感性表現語「ゴンゴン」等の音声以外の環境音に対応した感性表現語を検索する。一方、オーディオ信号を取得した場で発生している音が音声以外の環境音であり、周波数重心が高く、音圧レベルが高い場合には感性表現語「キンキン」等の音声以外の環境音に対応した感性表現語を検索する。そして、検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式にあわせて出力される。

　尚、音声・環境音判定部１２により音声と判断された場合、感性表現語検索部２２は、音圧レベル、周波数情報に基づいて話者数を分析して、その人数に適した感性表現語を選択するようにしても良い。例えば、一人が小さな声で話している場合は「ブツブツ」、大きな声の場合は「ワー」、複数の人が小さな声で話している場合は「ヒソヒソ」、複数の人が大きな声の場合は「ワイワイ」を検索する。

　尚、上記の例では、音圧レベルと、周波数情報と、音声と環境音との識別とを組み合わせた例を説明したが、音声と環境音との識別のみ、音圧レベルと音声と環境音との識別との組み合わせを用いて感性表現語を選択することもできる。

　第３の実施の形態では、音声と音声以外の環境音とを識別しているので、オーディオ信号を取得した場で発生している音の種別に対応した感性表現語を選択することができる。

　＜第４の実施の形態＞
　第４の実施の形態を説明する。

　第４の実施の形態では、第３の実施の形態の構成に加え、更に、音声以外の環境音の種別を識別し、音の大きさ、周波数分析、感性音の識別（音声や、車の音等の環境音の種別）に着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。

　図１１は、第４の実施の形態の感性表現語選択システムのブロック図である。

　入力信号分析部１は、第２の実施の形態に加え、音声・環境音種別判定部１３を有する。

　音声・環境音種別判定部１３は、入力されたオーディオ信号に対し、人が発声した音声、音声以外の環境音の種別を判定する。判定方法としては、ＧＭＭを使う方法やＨＭＭを使う方法が考えられる。例えば、音声以外の環境音の種類ごとに予め作成されたＧＭＭやＨＭＭが格納されており、入力音に一番距離が近い環境音の種別が選択される。これらの環境音の種別を識別する方法は、文献“音声言語情報処理２９－１４「ＨＭＭを用いた環境音識別の検討」”に記載された技術を参考にすることができる。

　入力信号分析部１は、音圧レベル算出部１０が算出した音圧レベルと、周波数解析部１１が算出した周波数情報と、音声・環境音種別判定部１３が算出した環境音の種別（音声、車の音、雨の音と言った環境音の種別）とを感性音情報として出力する。

　感性表現語検索部２２は、音圧レベル、周波数情報及び環境音の種別（音声、車の音、雨の音と言った環境音の種別）を感性音情報として入力し、感性表現語を選択する。そのため、感性表現語データベース２１には音圧レベル、周波数情報のみならず、音声又は音声以外の環境音の種別も考慮されて学習された感性音情報に対応する感性表現語が格納されている。

　例えば、感性表現語検索部２２は、例えば、オーディオ信号を取得した場で発生している音の種別が「金属を叩く音」であり、周波数重心が高く、音圧レベルが低くい場合には、「金属を叩く音」に対応した感性表現語「カンカン」を検索する。一方、オーディオ信号を取得した場で発生している音の種別が「金属を叩く音」であり、周波数重心が低く、音圧レベルが低くい場合には、「金属を叩く音」に対応した感性表現語「ガンガン」を検索する。そして、検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。

　尚、上記の例では、音圧レベルと、周波数情報と、感性音の識別とを組み合わせた例を説明したが、感性音の識別のみ、音圧レベルと感性音の識別との組み合わせを用いて感性表現語を選択することもできる。

　第４の実施の形態では、上述した実施の形態に加え、環境音の種別を識別しているので、オーディオ信号を取得した場で発生している音の種別に対応した感性表現語を選択することができる。

　＜第５の実施の形態＞
　第５の実施の形態を説明する。

　第５の実施の形態では、オーディオ信号がある一定のレベルにある場合のみ、感性表現語を選択する動作を行う例を説明する。

　図１２は、第５の実施の形態の感性表現語選択システムのブロック図である。

　入力信号分析部１は、第４の実施の形態に加え、アクティブ判定部３０を有する。

　アクティブ判定部３０は、オーディオ信号がある一定のレベルにある場合のみ、音圧レベル算出部１０、周波数解析部１１と、音声・環境音種別判定部１３とにオーディオ信号を出力する。

　第５の実施の形態では、オーディオ信号がある一定のレベルにある場合のみ、感性表現語を選択する動作を行うので、無駄な感性表現語選択の処理などを防止することができる。

　＜第６の実施の形態＞
　第６の実施の形態を説明する。

　第６の実施の形態は、上述した実施の形態をプログラムで動作するコンピュータで行う例を説明する。

　図１３は、第６の実施の形態の感性表現語選択システムのブロック図である。

　第６の実施の形態の感性表現語選択システムは、コンピュータ５０と、感性表現語データベース２１とを有する。

　コンピュータ５０は、プログラムが格納されるプログラムメモリ５２と、プログラムで動作されるＣＰＵ５１とを有する。

　ＣＰＵ５１は、音声レベル算出部１０の動作と同様な処理を音声レベル算出処理１００で行い、周波数算出部１１の動作と同様な処理を周波数算出処理１０１で行い、音声・環境判定部１２の動作と同様な処理を音声・環境判定処理１０２で行い、感性表現語検索部２２の動作と同様な処理を感性表現語検索処理２００で行う。

　尚、感性表現語データベース２１は、コンピュータ５０の内部に格納されていても良い。

　また、本実施の形態では、第３の実施の形態に相当するものを例にしたが、これに限られず、第１、第２、第４及び第５の実施の形態に相当するものをコンピュータで実現することもできる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）　オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、
　前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部と
を有する感性表現語選択システム。

　（付記２）　前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
付記１に記載の感性表現語選択システム。

　（付記３）　前記信号分析部は、オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
付記１又は付記２に記載の感性表現語選択システム。

　（付記４）　前記感性音情報が音圧レベルを含む場合、
　前記感性表現語選択部は、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
付記３に記載の感性表現語選択システム。

　（付記５）　前記感性音情報が基本周波数又は周波数重心を含む場合、
　前記感性表現語選択部は、
　　前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
　　前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
付記３又は付記４に記載の感性表現語選択システム。

　（付記６）　前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
　前記感性表現語選択部は、
　　前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
　　前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
付記３から付記５のいずれかに記載の感性表現語選択システム。

　（付記７）　前記感性音情報がスペクトル包絡の傾きを含む場合、
　前記感性表現語選択部は、
　　前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
　　前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
付記３から付記６のいずれかに記載の感性表現語選択システム。

　（付記８）　感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
　前記感性表現語選択部は、
　　前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
　　前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
　　前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
　　前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
付記３から付記７のいずれかに記載の感性表現語選択システム。

　（付記９）　前記感性音情報が音の種別を含む場合、前記感性表現語選択部は、音の種別に合った感性表現語を選択する
付記３から付記８のいずれかに記載の感性表現語選択システム。

　（付記１０）　オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、
　前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する
感性表現語選択方法。

　（付記１１）　前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
付記１０に記載の感性表現語選択方法。

　（付記１２）　オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
付記１０又は付記１１に記載の感性表現語選択方法。

　（付記１３）　前記感性音情報が音圧レベルを含む場合、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
付記１２に記載の感性表現語選択方法。

　（付記１４）　前記感性音情報が基本周波数又は周波数重心を含む場合、
　前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
　前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
付記１２又は付記１３に記載の感性表現語選択方法。

　（付記１５）　前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
　前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
　前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
付記１２から付記１４のいずれかに記載の感性表現語選択方法。

　（付記１６）　前記感性音情報がスペクトル包絡の傾きを含む場合、
　前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
　前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
付記１２から付記１５のいずれかに記載の感性表現語選択方法。

　（付記１７）　感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
　前記前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
　前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
　前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
　前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
付記１２から付記１６のいずれかに記載の感性表現語選択方法。

　（付記１８）　前記感性音情報が音の種別を含む場合、前記音の種別に合った感性表現語を選択する
付記１２から付記１７のいずれかに記載の感性表現語選択方法。

　（付記１９）　オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、
　前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理と
を情報処理装置に実行させるプログラム。

　以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

　本出願は、２０１０年３月３０日に出願された日本出願特願２０１０－０７８１２３号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１　　　　入力信号分析部
２　　　　感性表現語選択部
１０　　　音圧レベル算出部
１１　　　周波数解析部
１２　　　音声・環境音判定部
１３　　　音声・環境音種別判定部
２１　　　感性表現データベース
２２　　　感性表現語検索部
３０　　　アクティブ判定部
５０　　　コンピュータ
５１　　　ＣＰＵ
５２　　　プログラムメモリ

Claims

　オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、
　前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部と
を有する感性表現語選択システム。
　前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
請求項１に記載の感性表現語選択システム。
　前記信号分析部は、オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
請求項１又は請求項２に記載の感性表現語選択システム。
　前記感性音情報が音圧レベルを含む場合、
　前記感性表現語選択部は、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
請求項３に記載の感性表現語選択システム。
　前記感性音情報が基本周波数又は周波数重心を含む場合、
　前記感性表現語選択部は、
　　前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
　　前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
請求項３又は請求項４に記載の感性表現語選択システム。
　前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
　前記感性表現語選択部は、
　　前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
　　前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
請求項３から請求項５のいずれかに記載の感性表現語選択システム。
　前記感性音情報がスペクトル包絡の傾きを含む場合、
　前記感性表現語選択部は、
　　前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
　　前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
請求項３から請求項６のいずれかに記載の感性表現語選択システム。
　感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
　前記感性表現語選択部は、
　　前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
　　前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
　　前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
　　前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
請求項３から請求項７のいずれかに記載の感性表現語選択システム。
　前記感性音情報が音の種別を含む場合、前記感性表現語選択部は、音の種別に合った感性表現語を選択する
請求項３から請求項８のいずれかに記載の感性表現語選択システム。
　オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、
　前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する
感性表現語選択方法。
　前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
請求項１０に記載の感性表現語選択方法。
　オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
請求項１０又は請求項１１に記載の感性表現語選択方法。
　前記感性音情報が音圧レベルを含む場合、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
請求項１２に記載の感性表現語選択方法。
　前記感性音情報が基本周波数又は周波数重心を含む場合、
　前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
　前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
請求項１２又は請求項１３に記載の感性表現語選択方法。
　前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
　前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
　前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
請求項１２から請求項１４のいずれかに記載の感性表現語選択方法。
　前記感性音情報がスペクトル包絡の傾きを含む場合、
　前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
　前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
請求項１２から請求項１５のいずれかに記載の感性表現語選択方法。
　感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
　前記前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
　前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
　前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
　前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
請求項１２から請求項１６のいずれかに記載の感性表現語選択方法。
　前記感性音情報が音の種別を含む場合、前記音の種別に合った感性表現語を選択する
請求項１２から請求項１７のいずれかに記載の感性表現語選択方法。
　オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、
　前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理と
を情報処理装置に実行させるプログラム。