WO2011122522A1 - 感性表現語選択システム、感性表現語選択方法及びプログラム - Google Patents

感性表現語選択システム、感性表現語選択方法及びプログラム Download PDF

Info

Publication number
WO2011122522A1
WO2011122522A1 PCT/JP2011/057543 JP2011057543W WO2011122522A1 WO 2011122522 A1 WO2011122522 A1 WO 2011122522A1 JP 2011057543 W JP2011057543 W JP 2011057543W WO 2011122522 A1 WO2011122522 A1 WO 2011122522A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
expression word
frequency
sensitivity
sensitivity expression
Prior art date
Application number
PCT/JP2011/057543
Other languages
English (en)
French (fr)
Inventor
野村 俊之
裕三 仙田
恭太 比嘉
隆行 荒川
康行 三井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2012508289A priority Critical patent/JPWO2011122522A1/ja
Priority to US13/638,856 priority patent/US9286913B2/en
Publication of WO2011122522A1 publication Critical patent/WO2011122522A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Definitions

  • the present invention relates to a sensitivity expression word selection system, a sensitivity expression word selection method, and a program.
  • Patent Document 1 a stereo telephone device capable of realizing high-quality sound and realistic telephone communication has been proposed (for example, Patent Document 1).
  • the stereo telephone device described in Patent Document 1 can perform stereo voice communication between stereo telephones, it can have a conversation with a voice with a stereoscopic effect rather than a monaural sound.
  • Patent Document 2 has been proposed as a technique aiming to convey the environmental sound of the place to the other party.
  • the telephone number of the content server is input together with the telephone number of the receiver.
  • Content servers include those that collect environmental sounds around the caller and distribute them as stereophonic sound data in real time, and those that distribute music.
  • the receiving side telephone device since the information of the content server designated on the transmitting side is notified when the telephone makes a call, it is connected to the content server based on this IP address information to obtain the stereophonic data, 3D sound is played by a surround system connected to the telephone device. Thereby, the receiver can experience almost the same atmosphere as the caller while talking to the caller.
  • human beings live in various sounds including voices and feel sensibility not only to the meaning content of the voice but also to the sound itself. For example, when considering a place where there are a large number of humans, even if not all humans are uttering, there are sounds of people moving around and opening materials. In such a case, the human feels that the place is “gray”, for example. On the other hand, even if there are a large number of people, there may be no sound at all or there may be almost no sound. In such a case, humans feel that the scene is a “scene”. In this way, human beings feel various sensibilities with sounds (including silence) that are felt on the spot.
  • Patent Document 1 and Patent Document 2 are intended to reproduce the sound field that is generated on the spot as faithfully as possible to reproduce a realistic sound field. It was not possible to convey the sensibility.
  • the present invention has been invented in view of the above-mentioned problems, and its purpose is to share the sensibility with each other by expressing the atmosphere and each other's situation with a sensitivity expression word appealing to human sensitivity. It is an object to provide a sensitivity expression word selection system, a sensitivity expression word selection method, and a program that are easy to perform and provide a sense of reality.
  • the present invention that solves the above-described problems is a signal analysis unit that analyzes an audio signal and generates sensible sound information related to a sound generated at the acquisition location of the audio signal, and the acquisition location based on the sensitivity sound information.
  • This is a sensitivity expression word selection system including a sensitivity expression word selection unit that selects a sensitivity expression word that expresses a content that a person feels from sounds generated in the system.
  • the present invention that solves the above problems analyzes an audio signal, generates Kansei sound information related to a sound generated at the acquisition location of the audio signal, and generates the Kansei sound information at the acquisition location based on the Kansei sound information.
  • This is a sensitivity expression word selection method for selecting a sensitivity expression word that expresses a content that a person feels from a sound that is present.
  • the present invention that solves the above-described problem is a signal analysis process that analyzes an audio signal and generates sensuous sound information related to a sound that is generated at the audio signal acquisition location, and the acquisition location based on the sensitivity sound information.
  • This is a program that causes an information processing apparatus to execute a sensitivity expression word selection process for selecting a sensitivity expression word that expresses a content that a person feels from sounds generated in the system.
  • FIG. 1 is a block diagram of a sensitivity expression word selection system according to the present embodiment.
  • FIG. 2 is a block diagram of the Kansei expression word selection system according to the first embodiment.
  • FIG. 3 is a diagram showing an example of the emotional expression word database 21.
  • FIG. 4 is a block diagram of a Kansei expression word selection system according to the second embodiment.
  • FIG. 5 is a diagram for explaining an example of frequency information of an audio signal.
  • the sensitivity sound information is the sound pressure level and the frequency centroid (normalized value)
  • the sensitivity expression words are mapped in two dimensions of the sound pressure level (normalized value) and the frequency centroid (normalized value). It is the figure which showed an example of the sentiment expression word database 21.
  • FIG. 6 when the sensitivity sound information is the sound pressure level and the frequency centroid (normalized value), the sensitivity expression words are mapped in two dimensions of the sound pressure level (normalized value) and the frequency centroid (normalized value). It is the figure which showed an example of
  • FIG. 7 is a diagram for explaining an example in which the frequency information is the slope of the spectrum envelope.
  • FIG. 8 is a diagram for explaining an example in which the frequency information is the number of harmonics.
  • FIG. 9 is a diagram for explaining an example in which frequency information is a frequency band and a frequency centroid.
  • FIG. 10 is a block diagram of a Kansei expression word selection system according to the third embodiment.
  • FIG. 11 is a block diagram of a Kansei expression word selection system according to the fourth embodiment.
  • FIG. 12 is a block diagram of a Kansei expression word selection system according to the fifth embodiment.
  • FIG. 13 is a block diagram of a Kansei expression word selection system according to the sixth embodiment.
  • FIG. 1 is a block diagram of a Kansei expression word selection system according to the present embodiment.
  • the emotional expression word selection system of the present embodiment includes an input signal analysis unit 1 and a sensitivity expression word selection unit 2.
  • the input signal analysis unit 1 inputs an audio signal acquired in a certain predetermined field, analyzes the audio signal, and sensed sound related to the sound generated in the predetermined field (hereinafter referred to as “sensitive sound”). Generate information.
  • Kansei sound is a concept that includes various sounds generated when an audio signal is acquired, for example, voice and environmental sounds other than voice. Humans live in various sounds including voices, and feel sensibility not only to the meaning content of the voice but also to the sound itself. For example, when considering a place where there are a large number of humans, even if not all humans are uttering, there are sounds of people moving around and opening materials. In such a case, the human feels that the place is “gray”, for example.
  • the input signal analysis unit 1 analyzes the audio signal of the sensibility sound generated in a predetermined field, analyzes what kind of sensation sound is generated on the spot, and obtains kansei sound information regarding the sensibility sound. Generate.
  • the sensitivity sound information is the level of the sound pressure of the audio signal, the frequency of the audio signal, and the type of the audio signal (for example, the type of environmental sound excluding sound such as sound, rain sound, car sound, etc.). Etc.
  • the emotional expression word selection unit 2 selects an emotional expression word corresponding to the emotional sound generated when the audio signal is acquired based on the emotional sound information generated by the input signal analysis unit 1.
  • a sensitivity expression word is a word that expresses a content that a person feels, for example, feelings, sensitivity, and sensation, in a sound generated when an audio signal is acquired.
  • the sensitivity expression word selection unit 2 selects an onomatopoeia word or a mimetic word sensitivity expression word such as “Zawazawa” or “Gayagaya”. Also, if the sound pressure level is almost close to 0 and it is considered that the sound pressure level is close to silence, an onomatopoeia or a mimetic word sensitivity expression word such as “scene” is selected.
  • the sensibility expression word selection unit 2 selects “dod” that makes the image of construction noise when the frequency of the audio signal is low, “boon” that makes the image of the exhaust sound of the car, and conversely when it is high. Select an emotional expression that expresses a metallic image like this, or an emotional expression that strikes a tree such as “Concon”.
  • the sensitivity expression word selection unit 2 selects a more accurate sensitivity expression word according to the type of sound generated on the spot. For example, “Dodok” or “Boone” can be selected by distinguishing the exhaust sound of a car as a construction drill.
  • the emotional expression word selected in this way is output in accordance with text data, metadata such as Exif, the format used for video search tags, and the output of the emotional expression word by sound.
  • the affective sound information is generated by paying attention to the volume of the audio signal acquired from the affective sound generated in a certain predetermined place.
  • a sensitivity expression word onomatopoeia, mimicry word, etc.
  • FIG. 2 is a block diagram of the Kansei expression word selection system according to the first embodiment.
  • the sensitivity expression word selection system includes an input signal analysis unit 1 and a sensitivity expression word selection unit 2.
  • the input signal analysis unit 1 has a sound pressure level calculation unit 10.
  • the sound pressure level calculation unit 10 calculates the sound pressure of the audio signal of the input sensitivity sound and normalizes the sound pressure level (0 to 1.0) to the sensitivity expression word selection unit 2 as sensitivity sound information. Output.
  • the emotional expression word selection unit 2 includes a sensitivity expression word database 21 and a sensitivity expression word search unit 22.
  • the sensitivity expression word database 21 is a database in which sensitivity expression words corresponding to values (0 to 1.0) of sensitivity sound information are stored.
  • FIG. 3 shows an example of the emotional expression word database 21.
  • the sensitivity expression word database 21 shown in FIG. 3 shows sensitivity sound information values (sound pressure level: 0 to 1.0) and corresponding sensitivity expression words (for example, onomatopoeia and mimicry words). For example, when the value of the sensitivity sound information is “0.0”, the sensitivity expression word is “scene”, and when the value of the sensitivity sound information is “0.1”, the sensitivity expression word is “Kokosoko”. . When the value of the sensitivity sound information is “0.9 or more and less than 0.95”, the sensitivity expression word is “Wai Wai” and the value of the sensitivity sound information is “0.95 or more and 1 or less. If the value is “”, the sensitivity expression word is “Gayagaya”. In this way, a sensitivity expression word corresponding to the value of the sensitivity sound information is stored.
  • the emotional expression word search unit 22 inputs the emotional sound information from the input signal analysis unit 1 and searches the emotional expression word database 21 for the emotional expression words corresponding to the emotional sound information. For example, when the value of the emotional sound information obtained from the input signal analysis unit 1 is “0.64”, the emotional expression word corresponding to “0.64” is selected from the emotional expression word database 21. In the example of the emotional expression word database 21 shown in FIG. 3, the emotional expression words corresponding to “0.64” are “pecha-pecha” between 0.6 and 0.7. Therefore, “pecha pecha” is searched as a sensitivity expression word corresponding to the value “0.64” of the sensitivity sound information. The retrieved emotional expression word is output in accordance with text data, metadata such as Exif, a format used for a tag for moving image search, output of an emotional expression word by sound, and the like.
  • a sensitivity expression word (onomatopoeia or mimetic word) corresponding to the sound level of the place is selected.
  • Kansei expression words (onomatopoeia and mimicry words) that appeal to the human sensibility of the situation.
  • frequency analysis is performed on an audio signal acquired from a sensory sound generated in a certain predetermined field, and attention is paid to the sound volume and the frequency spectrum. Then, Kansei sound information is generated.
  • a sensitivity expression word suitable for the place where the audio signal is acquired is selected based on the sensitivity sound information will be described.
  • FIG. 4 is a block diagram of the Kansei expression word selection system according to the second embodiment.
  • the input signal analysis unit 1 includes a frequency analysis unit 11 in addition to the first embodiment.
  • the frequency analysis unit 11 calculates frequency information representing characteristics on the frequency of the sound, such as the fundamental frequency of the input signal, the frequency center of gravity, the frequency band, the slope of the spectrum envelope, and the number of harmonics.
  • Figure 5 shows a conceptual diagram of each item.
  • the fundamental frequency is a frequency that represents the pitch of a periodic sound, and is determined by the vibration cycle of the sound.
  • the frequency centroid is a weighted average frequency with energy as a weight, and represents the pitch of sound in the case of noise.
  • the frequency band is a frequency band that can be taken by the input audio signal.
  • the spectral envelope represents a general tendency of the spectrum, and its inclination affects the timbre.
  • the frequency analysis unit 11 outputs the frequency information as described above as sensitivity sound information.
  • the sensitivity expression word search unit 22 inputs the sound pressure level and frequency information as sensitivity sound information, and selects a sensitivity expression word corresponding to the sensitivity sound information from the sensitivity expression word database 21. For this reason, the sensitivity expression word database 21 stores sensitivity expression words corresponding to the sensitivity sound information learned by considering not only the sound pressure level but also the frequency information. The sensitivity expression word search unit 22 inputs the sound pressure level and frequency information as sensitivity sound information, and selects a sensitivity expression word suitable for the sound pressure level and frequency information from the sensitivity expression word database 21.
  • the sensitivity sound information is the sound pressure level and the frequency centroid (normalized value)
  • the sensitivity expression words are mapped in two dimensions of the sound pressure level (normalized value) and the frequency centroid (normalized value).
  • An example of the sentiment expression word database 21 is shown.
  • the emotional expression word search unit 22 determines that a powerful sound is produced when the audio signal is acquired, Select the sensibility expression word “dondon”.
  • the sensory sound information having a small sound pressure level value and a large frequency centroid value it is determined that there is an unsatisfactory sound when the audio signal is acquired, and the sensitivity expression word “tonton” is used. select.
  • the sensory sound information having a large sound pressure level value and a large frequency centroid value it is determined that a sharp sound is heard when the audio signal is acquired, and the sensitivity expression word “kinkin” is selected. .
  • the example of the sound pressure level and the frequency center of gravity or the fundamental frequency is shown, but the present invention is not limited to this.
  • the frequency information is the slope of the spectrum envelope and the slope is negative
  • the sensitivity expression corresponding to the sound pressure level from the sensitivity expression word having muddy sound as the sensitivity expression word of dull impression
  • a sensitivity expression word corresponding to the sound pressure level may be selected from a sensitivity expression word having no muddy sound as a sensitivity expression word having a sharp impression.
  • the frequency information is the number of overtones, and when the number is large, the sensitivity expression corresponding to the sound pressure level from the sensitivity expression word with muddy sound that becomes a dirty impression (becomes noise). If a word is selected and the number is small, a sensitivity expression word corresponding to the sound pressure level may be selected from a sensitivity expression word having no muddy sound that becomes a clean impression (close to pure tone).
  • a sensitivity expression word corresponding to the sound pressure level for example, “Don Dong” is selected from the sensitivity expression words expressing low sound.
  • a metallic impression of sharp impression including high-frequency sounds
  • a sensitivity expression word for example, “kinkin” may be selected.
  • the emotional expression word selected in this way is output in accordance with text data, metadata such as Exif, the format used for video search tags, and the output of the emotional expression word by sound.
  • an audio signal acquired from a sensory sound generated in a certain predetermined place is identified as a sound and an environmental sound other than the sound
  • Sensitive sound information is generated by paying attention to the size, frequency analysis, and discrimination between sound and environmental sound.
  • FIG. 10 is a block diagram of a sensitivity expression word selection system according to the third embodiment.
  • the input signal analysis unit 1 includes a voice / environmental sound determination unit 12 in addition to the second embodiment.
  • the voice / environmental sound determination unit 12 determines whether the input audio signal is voice uttered by a person or other environmental sound. As a determination method, the following method can be considered.
  • a linear prediction of about several ms (10th order in the case of 8 kHz sampling) is performed on the audio signal, and if the linear prediction gain is large, it is determined as speech, and if it is small, it is determined as an environmental sound.
  • long-term prediction of about ten or more ms is performed on the audio signal.
  • the input sound of the audio signal is converted into a cepstrum, the distance between the converted signal and the standard model of sound is measured, and if the input sound is more than a certain distance, it is determined as the environmental sound excluding the sound.
  • GMM Gaussian Mixture Model
  • HMM Hidden Markov Model
  • a GMM or HMM is created from a voice previously uttered by a person using a statistical or machine learning algorithm.
  • the garbage model is a model created from sounds other than human voices, and the universal model is a model created by combining all voices voiced by humans and other voices.
  • the input signal analysis unit 1 includes the sound pressure level calculated by the sound pressure level calculation unit 10, the frequency information calculated by the frequency analysis unit 11, and the type of sound calculated by the sound / environmental sound determination unit 12 (voice or Environmental sound other than sound) is output as Kansei sound information.
  • the emotional expression word search unit 22 has the same basic configuration as that of the second embodiment, but sets the sound pressure level, frequency information, and sound type (sound or environmental sound other than sound) as sensitivity sound information. To search for Kansei expressions. For this reason, the sensitivity expression word database 21 stores not only the sound pressure level and frequency information but also the sensitivity expression words corresponding to the sensitivity sound information learned in consideration of the type of environmental sound other than speech or speech. .
  • the emotional expression word search unit 22 uses the sensitivity expression word “ Search for "hisohiso".
  • the sensitivity expression word search unit 22 is a sensory expression word “Gongon” when the sound generated when the audio signal is acquired is an environmental sound other than voice, the frequency center of gravity is low, and the sound pressure level is low. Search for emotional expression words corresponding to environmental sounds other than voice such as “”.
  • the sound that is generated when the audio signal is acquired is an environmental sound other than speech
  • the frequency center of gravity is high and the sound pressure level is high
  • the sound is expressed as an environmental sound other than speech, such as the sensitivity expression word “kinkin”.
  • the retrieved emotional expression words are output according to the format used for text data, metadata such as Exif, and tags for moving image search.
  • the emotional expression word search unit 22 analyzes the number of speakers based on the sound pressure level and frequency information, and the emotional expression word suitable for the number of people. May be selected. For example, if one person is speaking in a low voice, “Buzzy”, if the voice is loud, “Wah”, if multiple people are speaking in a low voice, “Hisou”, if multiple people are loud, Search for “Wai Wai”.
  • the emotional expression word selected in this way is output in accordance with text data, metadata such as Exif, the format used for video search tags, and the output of the emotional expression word by sound.
  • the sound pressure level, the frequency information, and the discrimination between the sound and the environmental sound are described.
  • the sound pressure level, the sound and the environmental sound are only distinguished from each other. It is also possible to select a Kansei expression word using a combination with the identification.
  • the voice and the environmental sound other than the voice are identified, it is possible to select a sensitivity expression word corresponding to the type of the sound generated when the audio signal is acquired.
  • the type of environmental sound other than sound is identified, and the loudness, frequency analysis, and sensitivity sound identification (sound, car Sensitive sound information is generated focusing on the type of environmental sound such as sound.
  • a sensitivity expression word suitable for the place where the audio signal is acquired is selected based on the sensitivity sound information will be described.
  • FIG. 11 is a block diagram of the Kansei expression word selection system according to the fourth embodiment.
  • the input signal analysis unit 1 includes a voice / environmental sound type determination unit 13 in addition to the second embodiment.
  • the voice / environmental sound type determination unit 13 determines the type of environmental sound other than voice and voice uttered by a person with respect to the input audio signal.
  • a determination method a method using GMM or a method using HMM can be considered.
  • GMM and HMM created in advance for each type of environmental sound other than voice are stored, and the type of environmental sound closest to the input sound is selected.
  • the method described in the document “Speech Language Information Processing 29-14“ Examination of Environmental Sound Identification Using HMM ”” can be referred to for a method for identifying these types of environmental sounds.
  • the input signal analysis unit 1 includes the sound pressure level calculated by the sound pressure level calculation unit 10, the frequency information calculated by the frequency analysis unit 11, and the environmental sound type (voice, The type of environmental sound (car sound, rain sound, etc.) is output as sensitivity sound information.
  • the sensitivity expression word search unit 22 inputs the sound pressure level, frequency information, and environmental sound type (type of environmental sound such as voice, car sound, rain sound) as sensitivity sound information, and selects a sensitivity expression word. To do. Therefore, the sensitivity expression word database 21 stores sensitivity expression words corresponding to the sensitivity sound information learned by considering not only the sound pressure level and frequency information but also the type of sound or environmental sound other than sound.
  • the sensitivity expression word search unit 22 has a high frequency center of gravity and a low sound pressure level.
  • the Kansei expression word “kankan” corresponding to “sounding metal” is searched.
  • the type of sound generated when the audio signal is acquired is “sounding metal”
  • the frequency center of gravity is low, and the sound pressure level is low, it corresponds to “sounding metal” Search for the emotional expression word "gangan”.
  • the retrieved emotional expression word is output in accordance with text data, metadata such as Exif, a format used for a tag for moving image search, output of an emotional expression word by sound, and the like.
  • the type of environmental sound is identified, so that a sensitivity expression word corresponding to the type of sound generated when the audio signal is acquired is selected. be able to.
  • FIG. 12 is a block diagram of a sensitivity expression word selection system according to the fifth embodiment.
  • the input signal analysis unit 1 includes an active determination unit 30 in addition to the fourth embodiment.
  • the active determination unit 30 outputs an audio signal to the sound pressure level calculation unit 10, the frequency analysis unit 11, and the sound / environmental sound type determination unit 13 only when the audio signal is at a certain level.
  • the operation of selecting the emotional expression word is performed, so that it is possible to prevent unnecessary processing of the emotional expression word selection.
  • FIG. 13 is a block diagram of a Kansei expression word selection system according to the sixth embodiment.
  • the sensitivity expression word selection system includes a computer 50 and a sensitivity expression word database 21.
  • the computer 50 has a program memory 52 in which a program is stored, and a CPU 51 that is operated by the program.
  • the CPU 51 performs processing similar to the operation of the sound level calculation unit 10 in the sound level calculation processing 100, performs processing similar to the operation of the frequency calculation unit 11 in the frequency calculation processing 101, and operates as the operation of the sound / environment determination unit 12.
  • a similar process is performed in the voice / environment determination process 102, and a process similar to the operation of the affective expression word search unit 22 is performed in the affective expression word search process 200.
  • the sentiment expression word database 21 may be stored inside the computer 50.
  • the example corresponding to the third embodiment is taken as an example.
  • the present invention is not limited to this, and the computer corresponding to the first, second, fourth, and fifth embodiments is used. Can also be realized.
  • a sensitivity expression word selection system comprising: a sensitivity expression word selection unit that selects a sensitivity expression word that expresses a content felt by a person from sounds generated at the acquisition location based on the sensitivity sound information.
  • the said signal analysis part analyzes at least any one of the sound pressure level of an audio signal, the frequency information showing the characteristic of the frequency of an audio signal, and the kind of sound of an audio signal, and the additional remarks which generate
  • the sensitivity expression word selection system according to 1 or 2
  • the sensitivity expression word selection unit When the fundamental frequency or the frequency centroid is low, select a sensitivity expression word that expresses a low sound, The sentiment expression word selection system according to appendix 3 or appendix 4, wherein the affective expression word that expresses a high sound is selected when the fundamental frequency or the frequency centroid is high.
  • the sensitivity expression word selection unit When the frequency band is narrow and the fundamental frequency or the frequency centroid is low, a non-metallic impression that does not include a high-frequency sound is given, and a sensitivity expression word that expresses a low sound is selected, When the frequency band is wide and the fundamental frequency or the frequency center of gravity is high, a metallic impression including a high frequency sound is given, and a sensitivity expression word that expresses a high sound is selected.
  • the Kansei expression word selection system according to any one of the above.
  • the sensitivity expression word selection unit When the slope of the spectrum envelope is negative, select a sensitivity expression word with muddy sound as a sensitivity expression word of a dull impression, The sensitivity expression word selection system according to any one of supplementary notes 3 to 6, wherein a sensitivity expression word having no muddy sound is selected as a sensitivity expression word having a sharp impression when the slope of the spectrum envelope is positive.
  • the sensitivity expression word selection unit As the sound pressure level increases and as the frequency centroid or the fundamental frequency decreases, select a sensitivity expression that expresses a powerful sound, As the sound pressure level decreases and as the frequency centroid or the fundamental frequency increases, select a sensitivity expression that expresses an unsatisfactory sound, As the sound pressure level decreases and as the frequency centroid or the fundamental frequency decreases, select a sensitivity expression that expresses a dull sound, The sensitivity expression word selection system according to any one of appendix 3 to appendix 7, wherein a sensitivity expression word that expresses a sharp sound is selected as the sound pressure level increases and the frequency centroid or the fundamental frequency increases. .
  • the Kansei expression word selection unit selects a Kansei expression word that matches the sound type. Selection system.
  • a sensitivity expression word selection method for selecting a sensitivity expression word that expresses a content that a person feels from sounds generated at the acquisition location based on the sensitivity sound information Analyzing an audio signal and generating sensory sound information related to the sound generated at the acquisition location of the audio signal.
  • the said sensitive expression word is the Kansei expression word selection method of Additional remark 10 which is at least any one of an onomatopoeia and a mimetic word.
  • Additional remark 13 The sensitivity expression word selection method of Additional remark 12 which selects the emotional expression word which expresses a noise as the said sound pressure level becomes large, when the said sensitivity sound information contains a sound pressure level.
  • the sensitivity sound information includes a frequency band and a fundamental frequency or a frequency centroid
  • the frequency band is narrow and the fundamental frequency or the frequency centroid is low, a non-metallic impression that does not include a high-frequency sound is given, and a sensitivity expression word that expresses a low sound is selected
  • the frequency band is wide and the fundamental frequency or the frequency center of gravity is high, a metallic impression including a high frequency sound is given and a sensitivity expression word expressing a high sound is selected.
  • the method for selecting a sensibility expression word according to any one of the above.
  • the sensitivity sound information includes the sound pressure level and the frequency centroid or the fundamental frequency
  • select a sensitivity expression expressing a powerful sound As the sound pressure level increases, and as the frequency centroid or the fundamental frequency decreases, select a sensitivity expression that expresses an unsatisfactory sound, As the sound pressure level decreases and as the frequency centroid or the fundamental frequency decreases, select a sensitivity expression that expresses a dull sound.
  • the sensitivity expression word selection method according to any one of appendix 12 to appendix 16, wherein a sensitivity expression word that expresses a sharp sound is selected as the sound pressure level increases and the frequency center of gravity or the fundamental frequency increases.
  • Signal analysis processing for analyzing audio signals and generating sensory sound information related to the sound generated at the acquisition location of the audio signals;
  • a program for causing an information processing apparatus to execute a sensitivity expression word selection process for selecting a sensitivity expression word that expresses a content felt by a person from sounds generated at the acquisition location based on the sensitivity sound information.

Abstract

本発明は、所定の場から得られるオーディオ信号を分析し、前記所定の場で発生している音に関する感性音情報を生成する信号分析部と、前記感性音情報に基づいて、前記所定の場で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部とを有する感性表現語選択システムである。

Description

感性表現語選択システム、感性表現語選択方法及びプログラム
 本発明は、感性表現語選択システム、感性表現語選択方法及びプログラムに関する。
 離れた場所の雰囲気を相手に伝えたいことがある。このような場合、その場に設置されているマイク等で周囲の音を集音して、相手に聞かせることで周囲の雰囲気を伝えることができる。しかしながら、マイクや受話器では、モノラル音しか集音できないため、通話者の周囲の雰囲気を完全に伝えることができないという問題がある。
 そこで、高音質で臨場感のある電話通信を実現できるステレオ電話装置が提案されている(例えば、特許文献1)。
 特許文献1に記載されているステレオ電話装置は、ステレオ電話機同士でステレオの音声相互通信を行うことができるので、モノラル音よりも立体感のある音声で会話をすることができる。
 しかしながら、特許文献1に記載のステレオ装置では、通話用のマイクを使って周囲の環境音も伝えるため、ステレオ電話機同士で通話中に、その場の環境音を相手にうまく伝えることができなかった。
 そこで、その場の環境音を相手にうまく伝えることを目的とした技術として、特許文献2の技術が提案されている。特許文献2の技術は、通話する際に発信者が受信者に周囲の雰囲気などを伝えたい場合、受信者の電話番号とともにコンテンツサーバの電話番号を入力する。コンテンツサーバには、発信者の周囲の環境音を集音して立体音響データとしてリアルタイムに配信するものや音楽を配信するものなどがある。受信側電話装置では、電話機が発呼する際に送信側で指定されたコンテンツサーバの情報が通知されるので、このIPアドレス情報に基づいてコンテンツサーバに接続して立体音響データを取得して、電話装置に接続されたサラウンドシステムで立体音響を再生する。これにより、受信者は、発信者と通話しながら、発信者とほぼ同じ雰囲気を体感できる。
特開平6-268722号公報 特開2007-306597号公報
 ところで、人間は、音声を含む様々な音の中で生活しており、音声の意味内容以外にも音自体に対しても感性を感じている。例えば、多数の人間が存在する場を考えたとき、たとえ全ての人間が発声していなくても、人が動き回る音や、資料を開いたりする音などが発生している。このような場合、人間はその場が、例えば、「ガヤガヤ」していると感じる。一方で、多数の人間が存在していても、全く音がないような場合や、殆ど無音に近い場合もある。このような場合、人間はその場が「シーン」としていると感じる。このように、人間は、その場で感じる音(無音の場合も含む)により色々な感性を感じ取る。
 しかし、特許文献1や特許文献2の技術は、その場で発生している音をなるべく忠実に再現して臨場感のある音場を再生することを目的としており、音以外に人間が感じる色々な感性を伝えることはできなかった。
 そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、その場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる感性表現語選択システム、感性表現語選択方法及びプログラムを提供することにある。
 上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部とを有する感性表現語選択システムである。
 上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択方法である。
 上記課題を解決する本発明は、オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理とを情報処理装置に実行させるプログラムである。
 本発明は、場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる。
図1は本実施の形態における感性表現語選択システムのブロック図である。 図2は第1の実施の形態の感性表現語選択システムのブロック図である。 図3は感性表現語データベース21の一例を示した図である。 図4は第2の実施の形態の感性表現語選択システムのブロック図である。 図5はオーディオ信号の周波数情報の例を説明するための図である。 図6は感性音情報が音圧レベルと周波数重心(正規化値)とである場合、音圧レベル(正規化値)と周波数重心(正規化値)との2次元に感性表現語がマッピングされた感性表現語データベース21の一例を示した図である。 図7は周波数情報がスペクトル包絡の傾きの例を説明する為の図である。 図8は周波数情報が倍音数の例を説明する為の図である。 図9は周波数情報が周波数帯域及び周波数重心の例を説明する為の図である。 図10は第3の実施の形態の感性表現語選択システムのブロック図である。 図11は第4の実施の形態の感性表現語選択システムのブロック図である。 図12は第5の実施の形態の感性表現語選択システムのブロック図である。 図13は第6の実施の形態の感性表現語選択システムのブロック図である。
 本発明の実施の形態を説明する。
 まず、本発明の概要を説明する。
 図1は本実施の形態における感性表現語選択システムのブロック図である。
 図1に示す如く、本実施の形態の感性表現語選択システムは、入力信号分析部1と、感性表現語選択部2とを有する。
 入力信号分析部1は、ある所定の場で取得されたオーディオ信号を入力し、オーディオ信号を分析して、その所定の場で発生している音(以下、感性音と記載する)に関する感性音情報を生成する。感性音とは、オーディオ信号を取得した場で発生している様々な音、例えば、音声や、音声以外の環境音を含む概念である。人間は、音声を含む様々な音の中で生活しており、音声の意味内容以外にも音自体に対しても感性を感じている。例えば、多数の人間が存在する場を考えたとき、たとえ全ての人間が発声していなくても、人が動き回る音や、資料を開いたりする音などが発生している。このような場合、人間はその場が、例えば、「ガヤガヤ」していると感じる。一方で、多数の人間が存在していても、全く音がない場合や、発生している音が小さい(オーディオ信号音圧レベルが低い)場合もある。このような場合、人間はその場が「シーン」としていると感じる。このように、人間は、その場で感じる音(無音の場合も含む)により色々な感性を感じ取る。
 そこで、入力信号分析部1は、所定の場で発生している感性音のオーディオ信号を分析し、その場ではどのような感性音が発生しているかを分析し、感性音に関する感性音情報を生成する。ここで、感性音情報とは、オーディオ信号の音圧の大きさや、オーディオ信号の周波数、オーディオ信号の種類(例えば、音声や、雨の音や自動車の音等といった音声を除く環境音の種別)等である。
 感性表現語選択部2は、入力信号分析部1で生成された感性音情報に基づいて、オーディオ信号を取得した場で発生している感性音に対応した感性表現語を選択する。ここで、感性表現語とは、オーディオ信号を取得した場で発生している音で人が感じる内容、例えば、気持ちや感性、感覚を表現する語である。感性表現語の代表的なものに擬音語や擬態語がある。
 例えば、感性音情報がオーディオ信号の音圧レベルである場合、音圧レベルが大きいほど大きな音が発生していると考えられ、オーディオ信号を取得した場では大きな音が発生しており、その場が騒がしいことが判る。そこで、感性表現語選択部2は、「ザワザワ」や、「ガヤガヤ」と言ったその場の雰囲気を感じ取れる擬音語や擬態語の感性表現語を選択する。また、音圧レベルが殆ど0に近く、無音に近いと考えられる場合は、「シーン」と言ったその場の雰囲気を感じ取れる擬音語や擬態語の感性表現語を選択する。
 また、感性音情報がオーディオ信号の周波数である場合、音の発生源に応じてオーディオ信号の周波数は変化すると考えられる。そこで、感性表現語選択部2は、オーディオ信号の周波数が低い場合には工事の騒音をイメージさせる「ドッドッ」や車の排気音をイメージさせる「ブーン」、逆に高い場合には「カンカン」のような金属的なイメージを表す感性表現語、あるいは、「コンコン」のような木を打ちたたく感性表現語を選択する。
 さらに、オーディオ信号の種別を感性音情報として用いる場合は、その場で生じている音の種別に応じてより正確な感性表現語を感性表現語選択部2で選択する。例えば、工事のドリルなのか車の排気音を区別して、「ドッドッ」あるいは「ブーン」を選択することが出来る。
 このように選択された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
 これにより、今まで、臨場感、すなわち、その場の雰囲気や互いの状況を得るために、忠実な音場を再現することに注視されていた従来のものと比べて、その場の雰囲気や互いの状況を人間の感性に訴えた感性表現語により明確に表すことによって、互いに感性をより共有しやすくなり、臨場感を得ることができる。
 以下、具体的な実施の形態を説明する。
 <第1の実施の形態>
 第1の実施の形態を説明する。
 第1の実施の形態では、ある所定の場で発生している感性音から取得されたオーディオ信号の音の大きさに着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語(擬音語、擬態語等)を選択する例を説明する。
 図2は、第1の実施の形態の感性表現語選択システムのブロック図である。
 第1の実施の形態の感性表現語選択システムは、入力信号分析部1と、感性表現語選択部2とを有する。
 入力信号分析部1は、音圧レベル算出部10を有する。音圧レベル算出部10は、入力された感性音のオーディオ信号の音圧を算出し、音圧レベルを正規化した値(0~1.0)を感性音情報として感性表現語選択部2に出力する。
 感性表現語選択部2は、感性表現語データベース21と、感性表現語検索部22とを有する。
 感性表現語データベース21は、感性音情報の値(0~1.0)に対応する感性表現語が格納されたデータベースである。図3に感性表現語データベース21の一例を示す。
 図3に示される感性表現語データベース21では、感性音情報の値(音圧レベル:0~1.0)とそれに対応する感性表現語(例えば、擬音語や、擬態語)を示したものであり、例えば、感性音情報の値が「0.0」の場合の感性表現語は「シーン」であり、感性音情報の値が「0.1」の場合の感性表現語は「コソコソ」である。また、感性音情報の値が「0.9以上、0.95未満」の値である場合には感性表現語は「ワイワイ」であり、感性音情報の値が「0.95以上、1以下」の値である場合には感性表現語は「ガヤガヤ」である。このように、感性音情報の値に対応する感性表現語が格納されている。
 感性表現語検索部22は、入力信号分析部1から感性音情報を入力し、この感性音情報に対応した感性表現語を、感性表現語データベース21から検索する。例えば、入力信号分析部1から得られた感性音情報の値が「0.64」の場合、感性表現語データベース21から「0.64」に対応する感性表現語を選択する。図3に示される感性表現語データベース21の例では、「0.64」に対応する感性表現語は、0.6~0.7の間にある「ペチャペチャ」である。従って、感性音情報の値「0.64」に対応する感性表現語として「ペチャペチャ」を検索する。検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
 以上の如く、第1の実施の形態では、その場の音の大きさに応じた感性表現語(擬音語や擬態語)が選択されるので、その場の音の大きさに応じた雰囲気や互いの状況を人間の感性に訴えた感性表現語(擬音語や擬態語)を得ることができる。
 <第2の実施の形態>
 第2の実施の形態を説明する。
 第2の実施の形態では、第1の実施の形態の構成に加え、ある所定の場で発生している感性音から取得されたオーディオ信号を周波数分析し、音の大きさと周波数スペクトルとに着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。
 図4は、第2の実施の形態の感性表現語選択システムのブロック図である。
 入力信号分析部1は、第1の実施の形態に加え、周波数解析部11を有する。
 周波数解析部11は、入力信号の基本周波数や、周波数重心、周波数帯域や、スペクトル包絡の傾き、倍音数などの音の周波数上での特徴を現す周波数情報を算出する。
 各項目の概念図を図5に示す。
 ここで、基本周波数とは、周期的な音の音高を表す周波数であり、音の振動周期で決まり音の振動周期が短いと音の高さは高くなり、振動周期が長いと音の高さは低くなる。また、周波数重心とは、エネルギを重みとした重み付け平均周波数であり、雑音の場合の音の高さを表す。また、周波数帯域とは、入力されたオーディオ信号が取りうる周波数の帯域である。また、スペクトル包絡とは、スペクトルの大まかな傾向を表し、その傾きは音色に影響する。
 周波数解析部11は、上述のような周波数情報を感性音情報として出力する。
 感性表現語検索部22は、音圧レベルと周波数情報とを感性音情報として入力し、感性音情報に対応する感性表現語を感性表現語データベース21から選択する。このため、感性表現語データベース21には音圧レベルのみならず、周波数情報も考慮されて学習された感性音情報に対応する感性表現語が格納されている。また、感性表現語検索部22は、音圧レベルと周波数情報とを感性音情報として入力し、感性表現語データベース21から音圧レベルと周波数情報とにあった感性表現語を選択する。
 感性表現語検索部22の感性表現語の検索の一例を説明する。
 図6は感性音情報が音圧レベルと周波数重心(正規化値)とである場合、音圧レベル(正規化値)と周波数重心(正規化値)との2次元に感性表現語がマッピングされた感性表現語データベース21の一例を示したものである。
 感性表現語検索部22は、例えば、音圧レベルの値が大きく、周波数重心の値が小さい感性音情報を受信すると、オーディオ信号を取得した場では迫力ある音がしていると判断して、感性表現語「ドンドン」を選択する。一方、音圧レベルの値が小さく、周波数重心の値が大きい感性音情報を受信すると、オーディオ信号を取得した場ではもの足りない音がしていると判断して、感性表現語「トントン」を選択する。また、音圧レベルの値が大きく、周波数重心の値も大きい感性音情報を受信すると、オーディオ信号を取得した場では鋭い音がしていると判断して、感性表現語「キンキン」を選択する。一方、音圧レベルの値が小さく、周波数重心の値も小さい感性音情報を受信すると、オーディオ信号を取得した場では鈍い音がしていると判断して、感性表現語「ゴンゴン」を選択する。尚、周波数重心に代えて基本周波数であっても同様である。
 上述では音圧レベルと周波数重心又は基本周波数との例を示したが、これに限られない。例えば、図7に示すように、周波数情報がスペクトル包絡の傾きであり、その傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語から音圧レベルに対応した感性表現語を選択し、傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語から音圧レベルに対応した感性表現語を選択するようにしても良い。
 また、例えば、図8に示すように、周波数情報が倍音数であり、その数が多い場合には汚い印象(雑音になる)となる濁音のある感性表現語から音圧レベルに対応した感性表現語を選択し、その数が少ない場合にはきれいな印象(純音に近い)になる濁音が無い感性表現語から音圧レベルに対応した感性表現語を選択するようにしても良い。
 更に、例えば、図9に示すように、周波数情報が周波数帯域及び周波数重心であり、その帯域が狭く周波数重心が低い場合には鈍い印象(高域の音を含まない)の非金属的な印象を与え、かつ、低い音を表現するような感性表現語から音圧レベルに対応した感性表現語、例えば、「ドンドン」を選択する。一方、その帯域が広く周波数重心が高い場合には鋭い印象(高域の音を含む)の金属的な印象を与え、かつ、高い音を表現するような感性表現語から音圧レベルに対応した感性表現語、例えば、「キンキン」を選択するようにしても良い。
 このように選択された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
 なお、上記で説明した複数の周波数情報を用いても良い。
 また、上記の例では、音圧レベルと周波数情報とを組み合わせた例を説明したが、周波数情報のみを用いて感性表現語を選択することもできる。
 以上の如く、第2の実施の形態では、感性音情報に音圧レベルに加えて周波数情報を加えることにより、よりその場の雰囲気を表す感性表現語を選択することができる。
 <第3の実施の形態>
 第3の実施の形態を説明する。
 第3の実施の形態では、第2の実施の形態の構成に加え、ある所定の場で発生している感性音から取得されたオーディオ信号を音声と音声以外の環境音とに識別し、音の大きさ、周波数分析、音声と環境音との識別に着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。
 図10は、第3の実施の形態の感性表現語選択システムのブロック図である。
 入力信号分析部1は、第2の実施の形態に加え、音声・環境音判定部12を有する。
 音声・環境音判定部12は、入力されたオーディオ信号に対し、人が発声した音声か、その他の環境音かを判定する。判定方法としては、以下の方法が考えられる。
 (1)オーディオ信号のスペクトル形状の時間変化が少なすぎる(定常雑音)、もしくは急激すぎる(突発雑音)のとき、音声を除く環境音と判定する。
 (2)オーディオ信号のスペクトル形状が、フラット、もしくは1/fに近いとき、音声を除く環境音と判定する。
 (3)オーディオ信号に対して数ms(8 kHzサンプリングの場合、10次)程度の線形予測を行い、その線形予測ゲインが大きい場合は音声とし、小さい場合は環境音と判定する。また、オーディオ信号に対して十数ms(8 kHzサンプリングの場合、40~160次)程度の長期予測を行い、その長期予測ゲインが大きい場合は音声とし、小さい場合は環境音と判定する。
 (4)オーディオ信号の入力音をケプストラムに変換し、変換した信号と音声の標準モデルとの距離を測定し、その入力音が一定以上離れていた場合には音声を除く環境音と判定する。
 (5)オーディオ信号の入力音をケプストラムに変換し、変換した信号と音声の標準モデルとの距離と、変換した信号とガーベッジモデルもしくはユニバーサルモデルとの距離とを測定し、ガーベッジモデルもしくはユニバーサルモデルにより近い場合には、その入力音を音声以外の環境音と判定する。
 上述した方法の音声の標準モデルとしては、Gaussian Mixture Model(GMM)やHidden Markov Model(HMM)などを用いることができる。GMMやHMMは予め人が発声した音声から統計的もしくは機械学習のアルゴリズムを用いて作成する。尚、ガーベッジモデルとは、人の発声以外の音から作成したモデルであり、ユニバーサルモデルとは、人の発声した音声とそれ以外の音声を全て合わせて作成したモデルである。
 入力信号分析部1は、音圧レベル算出部10が算出した音圧レベルと、周波数解析部11が算出した周波数情報と、音声・環境音判定部12が算出した音の種別(音声、又は、音声以外の環境音)を感性音情報として出力する。
 感性表現語検索部22は、基本的な構成は第2の実施の形態と同様であるが、音圧レベル、周波数情報及び音の種別(音声、又は、音声以外の環境音)を感性音情報として入力し、感性表現語を検索する。このため、感性表現語データベース21には音圧レベル、周波数情報のみならず、音声又は音声以外の環境音の種別も考慮されて学習された感性音情報に対応する感性表現語が格納されている。
 感性表現語検索部22は、例えば、オーディオ信号を取得した場で発生している音が音声であり、基本周波数が高く、音圧レベルが低くい場合には、音声に対応した感性表現語「ヒソヒソ」を検索する。一方、オーディオ信号を取得した場で発生している音が音声であり、基本周波数が低く、音圧レベルが高い場合には音声に対応した感性表現語「ガヤガヤ」を検索する。また、感性表現語検索部22は、オーディオ信号を取得した場で発生している音が音声以外の環境音であり、周波数重心が低く、音圧レベルが低くい場合には感性表現語「ゴンゴン」等の音声以外の環境音に対応した感性表現語を検索する。一方、オーディオ信号を取得した場で発生している音が音声以外の環境音であり、周波数重心が高く、音圧レベルが高い場合には感性表現語「キンキン」等の音声以外の環境音に対応した感性表現語を検索する。そして、検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式にあわせて出力される。
 尚、音声・環境音判定部12により音声と判断された場合、感性表現語検索部22は、音圧レベル、周波数情報に基づいて話者数を分析して、その人数に適した感性表現語を選択するようにしても良い。例えば、一人が小さな声で話している場合は「ブツブツ」、大きな声の場合は「ワー」、複数の人が小さな声で話している場合は「ヒソヒソ」、複数の人が大きな声の場合は「ワイワイ」を検索する。
 このように選択された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
 尚、上記の例では、音圧レベルと、周波数情報と、音声と環境音との識別とを組み合わせた例を説明したが、音声と環境音との識別のみ、音圧レベルと音声と環境音との識別との組み合わせを用いて感性表現語を選択することもできる。
 第3の実施の形態では、音声と音声以外の環境音とを識別しているので、オーディオ信号を取得した場で発生している音の種別に対応した感性表現語を選択することができる。
 <第4の実施の形態>
 第4の実施の形態を説明する。
 第4の実施の形態では、第3の実施の形態の構成に加え、更に、音声以外の環境音の種別を識別し、音の大きさ、周波数分析、感性音の識別(音声や、車の音等の環境音の種別)に着目して感性音情報を生成する。そして、感性音情報に基づいて、オーディオ信号を取得した場に適した感性表現語を選択する例を説明する。
 図11は、第4の実施の形態の感性表現語選択システムのブロック図である。
 入力信号分析部1は、第2の実施の形態に加え、音声・環境音種別判定部13を有する。
 音声・環境音種別判定部13は、入力されたオーディオ信号に対し、人が発声した音声、音声以外の環境音の種別を判定する。判定方法としては、GMMを使う方法やHMMを使う方法が考えられる。例えば、音声以外の環境音の種類ごとに予め作成されたGMMやHMMが格納されており、入力音に一番距離が近い環境音の種別が選択される。これらの環境音の種別を識別する方法は、文献“音声言語情報処理29-14「HMMを用いた環境音識別の検討」”に記載された技術を参考にすることができる。
 入力信号分析部1は、音圧レベル算出部10が算出した音圧レベルと、周波数解析部11が算出した周波数情報と、音声・環境音種別判定部13が算出した環境音の種別(音声、車の音、雨の音と言った環境音の種別)とを感性音情報として出力する。
 感性表現語検索部22は、音圧レベル、周波数情報及び環境音の種別(音声、車の音、雨の音と言った環境音の種別)を感性音情報として入力し、感性表現語を選択する。そのため、感性表現語データベース21には音圧レベル、周波数情報のみならず、音声又は音声以外の環境音の種別も考慮されて学習された感性音情報に対応する感性表現語が格納されている。
 例えば、感性表現語検索部22は、例えば、オーディオ信号を取得した場で発生している音の種別が「金属を叩く音」であり、周波数重心が高く、音圧レベルが低くい場合には、「金属を叩く音」に対応した感性表現語「カンカン」を検索する。一方、オーディオ信号を取得した場で発生している音の種別が「金属を叩く音」であり、周波数重心が低く、音圧レベルが低くい場合には、「金属を叩く音」に対応した感性表現語「ガンガン」を検索する。そして、検索された感性表現語は、テキストデータや、Exif等のメタデータや動画検索用のタグに使用する形式、音による感性表現語の出力等にあわせて出力される。
 尚、上記の例では、音圧レベルと、周波数情報と、感性音の識別とを組み合わせた例を説明したが、感性音の識別のみ、音圧レベルと感性音の識別との組み合わせを用いて感性表現語を選択することもできる。
 第4の実施の形態では、上述した実施の形態に加え、環境音の種別を識別しているので、オーディオ信号を取得した場で発生している音の種別に対応した感性表現語を選択することができる。
 <第5の実施の形態>
 第5の実施の形態を説明する。
 第5の実施の形態では、オーディオ信号がある一定のレベルにある場合のみ、感性表現語を選択する動作を行う例を説明する。
 図12は、第5の実施の形態の感性表現語選択システムのブロック図である。
 入力信号分析部1は、第4の実施の形態に加え、アクティブ判定部30を有する。
 アクティブ判定部30は、オーディオ信号がある一定のレベルにある場合のみ、音圧レベル算出部10、周波数解析部11と、音声・環境音種別判定部13とにオーディオ信号を出力する。
 第5の実施の形態では、オーディオ信号がある一定のレベルにある場合のみ、感性表現語を選択する動作を行うので、無駄な感性表現語選択の処理などを防止することができる。
 <第6の実施の形態>
 第6の実施の形態を説明する。
 第6の実施の形態は、上述した実施の形態をプログラムで動作するコンピュータで行う例を説明する。
 図13は、第6の実施の形態の感性表現語選択システムのブロック図である。
 第6の実施の形態の感性表現語選択システムは、コンピュータ50と、感性表現語データベース21とを有する。
 コンピュータ50は、プログラムが格納されるプログラムメモリ52と、プログラムで動作されるCPU51とを有する。
 CPU51は、音声レベル算出部10の動作と同様な処理を音声レベル算出処理100で行い、周波数算出部11の動作と同様な処理を周波数算出処理101で行い、音声・環境判定部12の動作と同様な処理を音声・環境判定処理102で行い、感性表現語検索部22の動作と同様な処理を感性表現語検索処理200で行う。
 尚、感性表現語データベース21は、コンピュータ50の内部に格納されていても良い。
 また、本実施の形態では、第3の実施の形態に相当するものを例にしたが、これに限られず、第1、第2、第4及び第5の実施の形態に相当するものをコンピュータで実現することもできる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1) オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、
 前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部と
を有する感性表現語選択システム。
 (付記2) 前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
付記1に記載の感性表現語選択システム。
 (付記3) 前記信号分析部は、オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
付記1又は付記2に記載の感性表現語選択システム。
 (付記4) 前記感性音情報が音圧レベルを含む場合、
 前記感性表現語選択部は、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
付記3に記載の感性表現語選択システム。
 (付記5) 前記感性音情報が基本周波数又は周波数重心を含む場合、
 前記感性表現語選択部は、
  前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
  前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
付記3又は付記4に記載の感性表現語選択システム。
 (付記6) 前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
 前記感性表現語選択部は、
  前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
  前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
付記3から付記5のいずれかに記載の感性表現語選択システム。
 (付記7) 前記感性音情報がスペクトル包絡の傾きを含む場合、
 前記感性表現語選択部は、
  前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
  前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
付記3から付記6のいずれかに記載の感性表現語選択システム。
 (付記8) 感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
 前記感性表現語選択部は、
  前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
  前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
  前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
  前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
付記3から付記7のいずれかに記載の感性表現語選択システム。
 (付記9) 前記感性音情報が音の種別を含む場合、前記感性表現語選択部は、音の種別に合った感性表現語を選択する
付記3から付記8のいずれかに記載の感性表現語選択システム。
 (付記10) オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、
 前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する
感性表現語選択方法。
 (付記11) 前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
付記10に記載の感性表現語選択方法。
 (付記12) オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
付記10又は付記11に記載の感性表現語選択方法。
 (付記13) 前記感性音情報が音圧レベルを含む場合、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
付記12に記載の感性表現語選択方法。
 (付記14) 前記感性音情報が基本周波数又は周波数重心を含む場合、
 前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
 前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
付記12又は付記13に記載の感性表現語選択方法。
 (付記15) 前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
 前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
 前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
付記12から付記14のいずれかに記載の感性表現語選択方法。
 (付記16) 前記感性音情報がスペクトル包絡の傾きを含む場合、
 前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
 前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
付記12から付記15のいずれかに記載の感性表現語選択方法。
 (付記17) 感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
 前記前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
 前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
 前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
 前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
付記12から付記16のいずれかに記載の感性表現語選択方法。
 (付記18) 前記感性音情報が音の種別を含む場合、前記音の種別に合った感性表現語を選択する
付記12から付記17のいずれかに記載の感性表現語選択方法。
 (付記19) オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、
 前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理と
を情報処理装置に実行させるプログラム。
 以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
 本出願は、2010年3月30日に出願された日本出願特願2010-078123号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1    入力信号分析部
2    感性表現語選択部
10   音圧レベル算出部
11   周波数解析部
12   音声・環境音判定部
13   音声・環境音種別判定部
21   感性表現データベース
22   感性表現語検索部
30   アクティブ判定部
50   コンピュータ
51   CPU
52   プログラムメモリ

Claims (19)

  1.  オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析部と、
     前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択部と
    を有する感性表現語選択システム。
  2.  前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
    請求項1に記載の感性表現語選択システム。
  3.  前記信号分析部は、オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
    請求項1又は請求項2に記載の感性表現語選択システム。
  4.  前記感性音情報が音圧レベルを含む場合、
     前記感性表現語選択部は、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
    請求項3に記載の感性表現語選択システム。
  5.  前記感性音情報が基本周波数又は周波数重心を含む場合、
     前記感性表現語選択部は、
      前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
      前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
    請求項3又は請求項4に記載の感性表現語選択システム。
  6.  前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
     前記感性表現語選択部は、
      前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
      前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
    請求項3から請求項5のいずれかに記載の感性表現語選択システム。
  7.  前記感性音情報がスペクトル包絡の傾きを含む場合、
     前記感性表現語選択部は、
      前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
      前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
    請求項3から請求項6のいずれかに記載の感性表現語選択システム。
  8.  感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
     前記感性表現語選択部は、
      前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
      前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
      前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
      前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
    請求項3から請求項7のいずれかに記載の感性表現語選択システム。
  9.  前記感性音情報が音の種別を含む場合、前記感性表現語選択部は、音の種別に合った感性表現語を選択する
    請求項3から請求項8のいずれかに記載の感性表現語選択システム。
  10.  オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成し、
     前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する
    感性表現語選択方法。
  11.  前記感性表現語は、擬音語、及び擬態語の少なくともいずれかである
    請求項10に記載の感性表現語選択方法。
  12.  オーディオ信号の音圧レベル、オーディオ信号の周波数の特徴を現す周波数情報、及びオーディオ信号の音の種別の少なくともいずれかを分析し、感性音情報を生成する
    請求項10又は請求項11に記載の感性表現語選択方法。
  13.  前記感性音情報が音圧レベルを含む場合、前記音圧レベルが大きくなるにつれて、騒がしさを表現する感性表現語を選択する
    請求項12に記載の感性表現語選択方法。
  14.  前記感性音情報が基本周波数又は周波数重心を含む場合、
     前記基本周波数又は前記周波数重心が低い場合には、低い音を表現する感性表現語を選択し、
     前記基本周波数又は前記周波数重心が高い場合には、高い音を表現する感性表現語を選択する
    請求項12又は請求項13に記載の感性表現語選択方法。
  15.  前記感性音情報が周波数帯域、及び基本周波数又は周波数重心を含む場合、
     前記周波数帯域が狭く、前記基本周波数又は前記周波数重心が低い場合には、高域の音を含まない非金属的な印象を与え、かつ、低い音を表現する感性表現語を選択し、
     前記周波数帯域が広く、前記基本周波数又は前記周波数重心が高い場合には、高域の音を含む金属的な印象を与え、かつ、高い音を表現する感性表現語を選択する
    請求項12から請求項14のいずれかに記載の感性表現語選択方法。
  16.  前記感性音情報がスペクトル包絡の傾きを含む場合、
     前記スペクトル包絡の傾きが負の場合には、鈍い印象の感性表現語として濁音がある感性表現語を選択し、
     前記スペクトル包絡の傾きが正の場合には鋭い印象の感性表現語として濁音がない感性表現語を選択する
    請求項12から請求項15のいずれかに記載の感性表現語選択方法。
  17.  感性音情報が音圧レベル、及び周波数重心又は基本周波数を含む場合、
     前記前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、迫力のある音を表現する感性表現語を選択し、
     前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、物足りない音を表現する感性表現語を選択し、
     前記音圧レベルが小さくなるにつれ、かつ、前記周波数重心又は前記基本周波数が低くなるにつれて、鈍い音を表現する感性表現語を選択し、
     前記音圧レベルが大きくなるにつれ、かつ、前記周波数重心又は前記基本周波数が高くなるにつれて、鋭い音を表現する感性表現語を選択する
    請求項12から請求項16のいずれかに記載の感性表現語選択方法。
  18.  前記感性音情報が音の種別を含む場合、前記音の種別に合った感性表現語を選択する
    請求項12から請求項17のいずれかに記載の感性表現語選択方法。
  19.  オーディオ信号を分析し、前記オーディオ信号の取得場所で発生している音に関する感性音情報を生成する信号分析処理と、
     前記感性音情報に基づいて、前記取得場所で発生している音から人が感じる内容を表現する感性表現語を選択する感性表現語選択処理と
    を情報処理装置に実行させるプログラム。
PCT/JP2011/057543 2010-03-30 2011-03-28 感性表現語選択システム、感性表現語選択方法及びプログラム WO2011122522A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012508289A JPWO2011122522A1 (ja) 2010-03-30 2011-03-28 感性表現語選択システム、感性表現語選択方法及びプログラム
US13/638,856 US9286913B2 (en) 2010-03-30 2011-03-28 Atmosphere expression word selection system, atmosphere expression word selection method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010078123 2010-03-30
JP2010-078123 2010-03-30

Publications (1)

Publication Number Publication Date
WO2011122522A1 true WO2011122522A1 (ja) 2011-10-06

Family

ID=44712219

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/057543 WO2011122522A1 (ja) 2010-03-30 2011-03-28 感性表現語選択システム、感性表現語選択方法及びプログラム

Country Status (3)

Country Link
US (1) US9286913B2 (ja)
JP (1) JPWO2011122522A1 (ja)
WO (1) WO2011122522A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2014142627A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2015528969A (ja) * 2012-08-02 2015-10-01 マイクロソフト コーポレーション 人間対話証明として読み上げる能力を使用すること
JP2017187676A (ja) * 2016-04-07 2017-10-12 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
JP2017211995A (ja) * 2017-06-22 2017-11-30 オリンパス株式会社 再生装置、再生方法、再生プログラム、音声要約装置、音声要約方法および音声要約プログラム
US11562819B2 (en) * 2018-03-05 2023-01-24 Kaha Pte. Ltd. Method and system for determining and improving behavioral index

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002057736A (ja) * 2000-08-08 2002-02-22 Nippon Telegr & Teleph Corp <Ntt> データ伝送方法、データ伝送装置及びデータ伝送プログラムを記録した媒体
WO2008032787A1 (fr) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
JP2008204193A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
WO2008134625A1 (en) * 2007-04-26 2008-11-06 Ford Global Technologies, Llc Emotive advisory system and method
WO2009090600A1 (en) * 2008-01-16 2009-07-23 Koninklijke Philips Electronics N.V. System and method for automatically creating an atmosphere suited to social setting and mood in an environment
JP2010258687A (ja) * 2009-04-23 2010-11-11 Fujitsu Ltd 無線通信装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06268722A (ja) 1993-03-11 1994-09-22 Hitachi Telecom Technol Ltd ステレオ電話装置
JP2000081892A (ja) * 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US6506148B2 (en) * 2001-06-01 2003-01-14 Hendricus G. Loos Nervous system manipulation by electromagnetic fields from monitors
JP2006033562A (ja) * 2004-07-20 2006-02-02 Victor Co Of Japan Ltd 擬声語受信装置
CN101069213B (zh) * 2004-11-30 2010-07-14 松下电器产业株式会社 场景修饰表现生成装置以及场景修饰表现生成方法
JP2007306597A (ja) 2007-06-25 2007-11-22 Yamaha Corp 音声通信装置、音声通信システム、及び音声通信装置用プログラム
US8463719B2 (en) * 2009-03-11 2013-06-11 Google Inc. Audio classification for information retrieval using sparse features
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
WO2012070430A1 (ja) * 2010-11-24 2012-05-31 日本電気株式会社 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
JPWO2012070429A1 (ja) * 2010-11-24 2014-05-19 日本電気株式会社 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
WO2012070428A1 (ja) * 2010-11-24 2012-05-31 日本電気株式会社 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002057736A (ja) * 2000-08-08 2002-02-22 Nippon Telegr & Teleph Corp <Ntt> データ伝送方法、データ伝送装置及びデータ伝送プログラムを記録した媒体
WO2008032787A1 (fr) * 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
JP2008204193A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
WO2008134625A1 (en) * 2007-04-26 2008-11-06 Ford Global Technologies, Llc Emotive advisory system and method
WO2009090600A1 (en) * 2008-01-16 2009-07-23 Koninklijke Philips Electronics N.V. System and method for automatically creating an atmosphere suited to social setting and mood in an environment
JP2010258687A (ja) * 2009-04-23 2010-11-11 Fujitsu Ltd 無線通信装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAZUSHI ISHIHARA: "Automatic Transformation of Environmental Sounds into Onomatopoeia Based on Japanese Syllable Structure", IEICE TECHNICAL REPORT, vol. 103, no. 154, pages 19 - 24 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015528969A (ja) * 2012-08-02 2015-10-01 マイクロソフト コーポレーション 人間対話証明として読み上げる能力を使用すること
US10158633B2 (en) 2012-08-02 2018-12-18 Microsoft Technology Licensing, Llc Using the ability to speak as a human interactive proof
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2014142627A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
JP2017187676A (ja) * 2016-04-07 2017-10-12 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
JP2017211995A (ja) * 2017-06-22 2017-11-30 オリンパス株式会社 再生装置、再生方法、再生プログラム、音声要約装置、音声要約方法および音声要約プログラム
US11562819B2 (en) * 2018-03-05 2023-01-24 Kaha Pte. Ltd. Method and system for determining and improving behavioral index

Also Published As

Publication number Publication date
US9286913B2 (en) 2016-03-15
JPWO2011122522A1 (ja) 2013-07-08
US20130024192A1 (en) 2013-01-24

Similar Documents

Publication Publication Date Title
CN108305603B (zh) 音效处理方法及其设备、存储介质、服务器、音响终端
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
JP4327241B2 (ja) 音声強調装置および音声強調方法
US7536303B2 (en) Audio restoration apparatus and audio restoration method
WO2011122522A1 (ja) 感性表現語選択システム、感性表現語選択方法及びプログラム
US20070038455A1 (en) Accent detection and correction system
CN110149805A (zh) 双向语音翻译系统、双向语音翻译方法和程序
RU2003129075A (ru) Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезтруемой им речи
WO2011122521A1 (ja) 情報表示システム、情報表示方法及びプログラム
CN112289300B (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
JP4185866B2 (ja) 音響信号処理装置および音響信号処理方法
US20160034247A1 (en) Extending Content Sources
US11727949B2 (en) Methods and apparatus for reducing stuttering
CN110910895B (zh) 一种声音处理的方法、装置、设备和介质
CN114067782A (zh) 音频识别方法及其装置、介质和芯片系统
JP2023527473A (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
JP2005070430A (ja) 音声出力装置および方法
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
JP2008040431A (ja) 音声加工装置
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
CN112581935A (zh) 环境感知语音辅助设备以及相关系统和方法
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
CN111696566A (zh) 语音处理方法、装置和介质
US20240135944A1 (en) Controlling local rendering of remote environmental audio
JP4297433B2 (ja) 音声合成方法及びその装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11762746

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012508289

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13638856

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 11762746

Country of ref document: EP

Kind code of ref document: A1