WO1998041978A1 - Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video - Google Patents

Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video Download PDF

Info

Publication number
WO1998041978A1
WO1998041978A1 PCT/JP1997/000905 JP9700905W WO9841978A1 WO 1998041978 A1 WO1998041978 A1 WO 1998041978A1 JP 9700905 W JP9700905 W JP 9700905W WO 9841978 A1 WO9841978 A1 WO 9841978A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
sound
point
section
audio
Prior art date
Application number
PCT/JP1997/000905
Other languages
English (en)
French (fr)
Inventor
Takehiro Fujita
Takafumi Miyatake
Akio Nagasaka
Original Assignee
Hitachi, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd. filed Critical Hitachi, Ltd.
Priority to JP54032098A priority Critical patent/JP3753384B2/ja
Priority to US09/341,471 priority patent/US6600874B1/en
Priority to PCT/JP1997/000905 priority patent/WO1998041978A1/ja
Priority to EP97907389A priority patent/EP0977172A4/en
Publication of WO1998041978A1 publication Critical patent/WO1998041978A1/ja

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/107Programmed access in sequence to addressed parts of tracks of operating record carriers of operating tapes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/22Means responsive to presence or absence of recorded information signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/60Solid state media
    • G11B2220/65Solid state media wherein solid state memory is used for storing indexing information or metadata
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/90Tape-like record carriers

Definitions

  • the present invention relates to a method and an apparatus for detecting a sound section of audio data contained in a video such as a video stored on a video tape or a disk, and to a method and an apparatus for simplifying cueing of audio in a video. Get involved. Background art
  • CM management device commonly called CM bank
  • CM commercial
  • CM management device that manages thousands of types of commercial (CM) videos and prepares arbitrary CM videos in broadcast order.
  • CM commercial
  • CM management device that directly broadcasts a file of CM materials without using a videotape has been used.
  • CM materials supplied from material producers such as advertising agencies are registered.
  • CM materials are supplied individually on video tapes for each CM, and in addition to the CM, images such as the name of the creator and the date and time of production are recorded in addition to the CM. Also, before and after the CM, there are several seconds of play video to adjust the transmission timing. For this reason, when registering CM materials in the management device, in addition to copying and storing the mother material supplied from the manufacturer to another recording medium such as a tape or disk, The beginning and end need to be registered.
  • the present invention provides a method and an apparatus for automating the task of judging the start and end of a CM based on the presence or absence of sound when the CM material is registered in the management apparatus and automating the registration operation. It is intended to be.
  • Another object of the present invention is to provide a method and apparatus for detecting the start and end points of a CM video body in real time and registering the positions. Disclosure of the invention
  • the present invention provides an envelope calculating means for calculating an envelope of an audio signal waveform input in time series in an interactive registration process to a video management device, and presets a threshold of an audio level for the value of the envelope.
  • Threshold value setting means for detecting a sound level to be detected
  • start and end point detection means for detecting a time point at which the level of the threshold value and the envelope intersect as a start point or an end point of a sound section. Then, the presence or absence of the sound can be quantitatively and automatically determined.
  • the start-and-stop inspection output means includes: a lower limit setting unit for setting a lower limit of an elapsed time length of a silent state in advance; and a process in which the value of the envelope of the audio signal waveform falls below the threshold of the sound level.
  • the start / end point detection means includes: a lower limit setting means for setting a lower limit of an elapsed time length of a sound state in advance; and an elapsed time when a value of an envelope of an audio signal waveform exceeds a threshold value of an audio level.
  • the envelope calculating means is provided with a filtering means for performing a filtering process having a certain time width on the audio signal input in time series.
  • a filtering means for performing a filtering process having a certain time width on the audio signal input in time series.
  • a maximum value filter for sequentially obtaining a maximum value of a fixed time width and a minimum value filter for sequentially obtaining a minimum value are used for an audio signal input in time series.
  • the present invention provides a video reproducing means for reproducing a material video, an audio input means for inputting an audio signal recorded in an audio track of the reproduced video as a digital signal in a time series, and a sound source based on the input audio signal.
  • Speech processing means for detecting the start and end points of the section and display means for displaying the detection result are provided so that the position of the start and end points of the sound section in the material video can be presented to the operator.
  • the audio processing means includes, in addition to the envelope calculating means, the sound level threshold setting means, and the start and end point detecting means, a frame position determining means for determining a frame position of the video at the time when the start and end points of the sound section are detected.
  • the frame position determining means includes a timer means for counting the elapsed time from the start of the detection processing, a means for reading the frame position of the video, and an elapsed time when the start and end points are detected and a time when the frame position is read.
  • Elapsed time storage means for storing the elapsed time and frame position correction means for correcting the frame position read from the difference between the two elapsed times are provided, and a time delay from the start and end point detection to the reading of the frame position is corrected.
  • the audio processing means is provided with means for stopping the reproduction of the video at the detected start and end points, so that the reproduction of the video can be temporarily stopped at the frame position of the start and end points.
  • a video playback device capable of controlling video playback by a computer is used as the video playback means.
  • VISCA Video System Control Architecture: VCRs with terminals and VCRs commonly used for professional editing are used. In this way, it is possible to efficiently start to the detected sound section.
  • the present invention provides a frame position storage means for individually storing the start and end frame positions of the sound section in the voice processing means, and a display means for individually displaying the start and end frame positions. Is provided so that the positions of the start point and end point of the sound section in the material video can be individually presented to the worker.
  • buffer memory means for accumulating audio signals input in time series in fixed time length units and reproduction means for reproducing the input audio signals are provided, and the detected sound intervals are visually and audibly detected. So that workers can check it.
  • the length of the sound section of a certain period of time is Time length setting means for presetting an upper limit and an allowable range of 1 or 2 seconds, and time length comparing means for comparing the detected time length from the start point to the end point of the detected sound section with the set time length. It is to be able to detect only the sound section of CM video with a certain length of time. Also, a margin setting means for setting a margin before and after the detected sound section is provided so that a CM video for a fixed length of time can be registered in the CM management device from the CM material.
  • FIG. 1 is a system configuration diagram for realizing an embodiment of the present invention
  • FIG. 2 is a conceptual diagram of a sound section detection method of the present invention
  • FIG. 3 is a sound section of the present invention.
  • FIG. 4 is a flowchart of a section detection method
  • FIG. 4 is a diagram showing a start / end point determination condition of a sound section of the present invention
  • FIG. 5 is a diagram showing an example of an operation screen for realizing the present invention
  • FIG. 6 is a flowchart showing the flow of the entire process
  • FIG. 7 is a diagram showing a control method for detecting a sound interval according to the present invention
  • FIG. 9 is a flowchart showing a flow of a sound section detection process using the CM time length rule
  • FIG. 10 is a data structure for realizing the sound section detection of the present invention. It is a figure showing an example. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is an example of a system configuration diagram for realizing the present invention.
  • Reference numeral 101 denotes a display device such as a CRT, which displays an output screen of the audio processing device 104.
  • the setting of the command and the threshold value for the voice processing device 104 is performed using the input device 105 including a pointing device such as a mouse and a numerical input device such as a numeric keypad.
  • the video reproducing device 110 is a device that reproduces a video recorded on a video tape, an optical disc, or the like.
  • the audio signal in the video signal reproduced and output from the video reproducing device 110 is sequentially converted into a digital signal by the audio input device 103 and input to the audio processing device 104.
  • Information such as the sampling frequency, the number of sampling bits, and the number of channels indicating monaural or stereo (one for monaural and two for stereo) when converting to a digital signal is also transmitted from the audio input device 103 to the audio processing device 1. Passed to 04. Of course, such information may be such that the value set in 104 is given to 103.
  • the audio processing device 104 processes the received signal to control the video reproduction device 110.
  • the audio processing device 104 and the video reproducing device 110 transmit and receive control commands and responses via the communication line 102.
  • a frame number time code
  • the audio processing device 104 can request the video reproducing device 110 for a frame number and receive the current frame number of the video.
  • the digital audio signal is once sent through the interface 108.
  • the data is input to the memory 109 and processed by the CPU 107 according to the processing program stored in the memory 109.
  • the processing program is stored in the auxiliary storage device 106, and is appropriately transferred to the memory 109 in accordance with an instruction from the CPU 107.
  • Various data created by the processing described below are stored in the memory 109, and are referred to as needed.
  • Various information such as a digital signal of voice and a processing result can also be stored in 106.
  • the speaker 111 reproduces the audio signal input from the audio signal input device 103 to the audio processing device 104 in accordance with the input, or requests the audio signal stored in the memory 109 to be used by the user. Or play according to
  • FIG. 2 is a schematic diagram showing an outline of a method for detecting a sound section in a video according to the present invention.
  • the moving image 201 and the audio waveform 202 indicate the image and audio signals contained in the video.
  • the audio waveform 202 is shown in monaural for simplicity, but it may be stereo.
  • the target video is a CM material
  • the video of the material contains a video of play for several seconds before and after the main body of the CM. Because the same video is taken continuously before and after the main body of the CM, it is often not clear from where the video should be broadcast just by watching the moving image 201, and in many cases, . However, no sound is recorded in the play area.
  • the amplitude value of the audio waveform 202 As for the amplitude value of the audio waveform 202, positive and negative values frequently appear alternately, and the magnitude is very often instantaneously zero. Therefore, simply examining the magnitude of the amplitude at a certain moment does not necessarily indicate the presence or absence of sound in the vicinity.
  • the sound Is determined by the value of the envelope of the audio waveform 202.
  • the value of the envelope reflects the presence or absence of nearby sounds. A point at which the envelope value exceeds a predetermined sound level threshold is detected as a start point (IN) of the sound section 203 and a point at which the value falls below the threshold is detected as an end point (OUT).
  • the audio reproduction device 110 has already reproduced the video after the change point. Therefore, the frame number at the time of detection is read from the video playback device 110, the frame number is converted using the difference between the read time and the time of the change point, and the frame number of the change point is calculated. The conversion method will be described later with reference to FIG.
  • the video section in which the sound continuously exceeds a certain sound level is detected. Can be extracted.
  • the start of the rising frame of the sound can be easily realized.
  • the length of time from the start point to the end point is known, it is easy to set before and after the video section where the magazine necessary for finishing the broadcast CM video is extracted. As a result, it is possible to register a CM video of good quality with no variation in time length in the CM management device.
  • a user uses the system shown in FIG. 1, a user sets a video tape or the like containing a material in a video reproducing apparatus 110 and an audio processing apparatus displayed on a display 101. All you have to do is operate the 104 console buttons. An example of the console screen will be described later with reference to FIG. The user does not need to find the beginning or end of the sound section in the video manually using a jog or shuttle. Therefore, there is an effect of simplifying the operation.
  • FIG. 3 is a flowchart of the method for detecting the start and end points of a sound section in a video according to the present invention.
  • Reference numerals 310 to 306 denote program steps, and reference numerals 331 to 316 denote output data of the respective steps. All of these programs and data are stored in memory 109 and processed by CPU 107.
  • the case where the audio waveform is monaural (channel number 1) and stereo (channel 2) can be handled in the same way.
  • the following monaural processing is performed on the audio waveforms of the left and right channels, and the result of both channels is AND (logical product) to determine overlap and OR (logical sum) to obtain the overall result. May be determined.
  • step 301 audio data in a video is received from the audio input device 103.
  • 3 1 1 is the waveform of the received audio data.
  • step 302 the absolute value of each of the data of 311 is obtained, and the audio waveform is turned back. This is because only the sound level is handled regardless of the meaning of the speech.
  • 3 1 2 is an audio waveform obtained by folding 3 1 positively.
  • steps 303 and 304 the envelope of the waveform 312 is obtained by maximum-minimum filtering. In each filtering, filters with filter sizes of 32 1 and 32 2 are prepared, input data is sequentially read into the filter, and the maximum and minimum values in the filter are calculated and output. In step 303, the maximum value in the filter for the waveform 312 is output for each data.
  • step 304 the minimum value in the filter for the maximum value waveform 3 13 is output for each data.
  • 3 1 4 is the resulting envelope.
  • step 305 threshold processing is performed to compare each data of the envelope 314 with a predetermined sound level threshold 323. When the envelope 3 14 exceeds the threshold 3 2 3, 1 is output as a sound, and when the envelope is lower than 0, 0 is output as silence.
  • Reference numeral 315 denotes the voiced / silent binary data output in step 30.5.
  • step 300 the continuity of sound and silence of the binary data 315 is checked to detect a sound section 324, and the start and end points 316 of the sound section are output.
  • the rising point of the section is output as the start point 3 25 (IN) of the sound, and the falling point of the sound section is output as the end point 3 26 (OUT) of the sound.
  • This step 310 will be described with reference to FIG. 4 using a timing chart.
  • the method of calculating the envelope by maximum-minimum filtering can significantly reduce the amount of calculation compared to the method of calculating the power spectrum of the audio waveform and using the zero-order power as the envelope. Therefore, it can be realized even if the capacity of CPU is not so high.
  • the one-dimensional maximum-minimum filtering described in steps 303 and 304 is described in, for example, “High-speed calculation method for maximum-minimum image filtering” (Transactions of the Institute of Electronics, Information and Communication Engineers DII, Vol. J78-DI I, No. 11, pp. 1598-mouse, November 1995) may be used.
  • This is a data sequential processing method using a ring buffer that can store n + 1 data for a filter size n.
  • the maximum and minimum values can be obtained with about three average operations per day, regardless of the data properties and filter size. Therefore, it is suitable for processing a large amount of data at a high speed as in this case.
  • FIG. 4 is a diagram showing a method for determining the start and end points of a sound section.
  • TsCmsec] is the lower limit of the elapsed time length of the sound state
  • Tn [msec] is the lower limit of the elapsed time length of the silent state.
  • the values of Ts and Tn are set in advance based on the length of one syllable in the voice and the length of the pause between utterances. This makes it possible to prevent the detection of a voiced state below Ts or a silent state below Tn, so that it is not affected by sporadic noises or short-time sound breaks such as seams of phrases in speech.
  • a method for detecting a sounded section can be realized.
  • Reference numeral 401 denotes a timing chart showing from the input data 315 to the start and end points 316 of the sound section in the step 306. Four flags are provided to determine the status: a silence flag, a sound flag, a start flag and an end flag.
  • step 306 input data 315 indicating binary states of sound and no sound are sequentially examined, and the number of data of 0 (silence) and 1 (sound) is counted as the elapsed time of each state. Since the sampling frequency for digitizing the audio signal is passed from the audio input device 103 to the audio processing device 104, it is easy to replace the time conditions Ts and Tn with the data number condition. The number of data in the voiced state is cleared when the silence flag becomes ⁇ , and the data in the voiceless state is cleared when the voice flag is turned ON. Initially, all flags are set to OFF, and the number of data in each state is set to zero. First, the silent flag is turned on when the silent state continues for Tn (402).
  • the silence flag When the silence flag is ON, all points that change from silence to speech are considered as starting point candidates, and their data positions are stored in memory 109.
  • the force that sets the rising edge of the voiced state 4003 as the candidate for the starting point. Cancel as a one-off noise.
  • the rise of the voiced state 404 is set as a candidate for a start point, and the voiced flag is turned ON when the voiced state continues for Ts (405).
  • both the silence flag and the sound flag are turned on and the start point condition is satisfied.
  • the start flag that has been turned on returns to off when it is sensed.
  • the start point is detected up to 420 on the time axis.
  • the silence flag is turned off (406).
  • the sound flag is 0N
  • all points that have changed from sound to silence are considered as end point candidates, and their data positions are stored in the memory 109. Since the elapsed time is less than Tn in the silent state 407, the number of data in 407 is incorporated into the number of data in the voiced state, and is canceled as a short time break.
  • the silence flag is turned ON (409). As a result, both the sound flag and the silence flag are turned ON, and the condition of the end point is satisfied. Therefore, the end flag is turned ON and the end point 326 (OUT) is determined.
  • the end flag that has been turned on returns to off when it is sensed. Also, the sound flag is turned OFF in preparation for the next start point detection (410).
  • the end point is detected up to 4 2 1 on the time axis.
  • the start and end points of a sound section can be continuously detected by manipulating the flag as shown in Fig. 4, so that even if a single video contains multiple sound sections, Each can be detected. Therefore, the sound segment detection method of the present invention is applicable not only to CM materials and video images but also to general images such as TV broadcast images and archive images. If the processed video is commercial material, a general CM time length rule of "one CM is composed of 15 seconds or 30 seconds in length" can be used. Even if a section is detected, the start and end points of the appropriate CM body can be determined by grouping the sections according to rules. The method of detecting the start and end points using the CM rules will be described later with reference to FIG.
  • FIG. 5 is an example of an operation screen of the sound section detection device which realizes the present invention.
  • the operation window 501 is displayed on the display device 101 as a console of the audio processing device 104, and provides an operation environment to the user.
  • 501 has a QUIT button 502, a DETECT button 503, a detection result display panel 504, an audio waveform monitor 505, a sounded section display panel 506, a PLAY button 509, and an image.
  • the QUIT button 502 is a command button for ending the operation processing and closing the operation window 501.
  • the DETECT button 503 is a command button for executing a sound section detection process.
  • the audio processing unit 104 displays the detection results.
  • the panel 504 is cleared, the detection of a sound section is started according to the program 300, and the result of the processing is displayed on the audio waveform monitor 505.
  • the monitor 505 displays the calculated envelope 314 and the threshold value 323 of the sound level.
  • the detected frame number is displayed on the panel 504 in the form of a time code. It is convenient for the user because it is easy to intuitively grasp the position and length with the structure of ihh: mm: ss: ff (hh: hour, mra: minute, ss: second, ff: frame).
  • the voiced section display panel 506 displays a waveform 507 and a voiced section 508 of the voice data input until the start and end points of the voiced section detection are detected.
  • the voiced section 508 corresponds to the detection result display panel 504 from the IN frame to the OUT frame.
  • the maximum length of a CM video is 30 seconds, so a 40-second audio waveform is displayed here.
  • the PLAY button 509 is a button for reproducing the audio data of the sound section 508. The user can visually confirm the audio signal in the video by using the audio waveform 507. By clicking 509 and playing the sound, it can be confirmed by hearing. As a result, the user can confirm the detection status immediately after detecting the sound section, and the confirmation work can be saved.
  • the end may be set by dragging the end of the sound section 508 to widen the section.
  • the section length can be calculated.
  • the user sets a magazine before and after the section length so that the entire time length becomes a desired length.
  • the system changes the frame number of panel 504 according to the set magazine length, and sets the changed frame number as the start and end point of the CM video to be registered in the CM management device. This allows the user to easily proceed with the registration work to the CM management device. Also, by cutting out the video sandwiched between the start and end points of the video, the user can create a commercial video of a desired length for broadcasting.
  • the video playback device operation buttons 5 11 are arranged on the video playback device operation panel 5 10. Place.
  • the operation buttons 5 1 1 are command buttons for fast-forwarding, rewinding, playing back, frame-by-frame, and pausing video.
  • the audio processing device 104 transmits the corresponding operation command to the video reproduction device 110.
  • the video frame position is displayed as a time code in the video position display box 5 12.
  • a parameter setting box 5 14 for setting parameters for detecting a sound section is arranged on the parameter setting panel 5 13.
  • Panel 5 13 includes the following parameters that can be changed: sound level threshold (Threshhold Value), filter time length (Filterlength), lower limit of sound-elapsed time (Noise Limt), and sound-elapsed time.
  • Sound level threshold Theshhold Value
  • Filterlength filter time length
  • Low limit of sound-elapsed time Noise Limt
  • Sound-elapsed time Four of the lower limit (Silence) are arranged.
  • If the user wants to change the parameters click 514, and enter a value from the input device 105.
  • the threshold of the sound level In order to set the threshold of the sound level (Threshold Value in the figure), in addition to inputting a numerical value from the input device 105, another method may be used as follows. First, the threshold of the sound level.
  • the video playback device 110 When the radiator setting box is clicked, the video playback device 110 is stopped or paused, and in that state, audio data is input from the audio input device 103 to the audio processing device 104 for several seconds. I do. Next, the maximum value of the sound level of the audio data input for several seconds is set as the sound level threshold. At this time, by inputting for a few seconds, random noise of the audio signal generated by the video reproduction device 110 and the audio input device 103 can be input to the audio processing device 104. In addition, by setting the maximum value as the threshold value of the sound level, it is possible to suppress the noise generated in 110 and 103 from affecting the audio signal in the reproduced video.
  • FIG. 6 is a flowchart showing the overall flow of the processing.
  • the CPU 107 reads out the program 600 from the auxiliary storage device 106, stores it in the memory 109, and executes it.
  • various types of audio data and processing data are also stored in the memory 109, and the structure of these data will be described later with reference to FIG.
  • Step 601 is an initialization process for starting the process.
  • the CPU 107 secures and clears a memory area required for processing in the memory 109, and sets default values of parameters such as thresholds of the sound level.
  • an operation window 501 of the audio processing device 104 is displayed on the display device 101.
  • a control command is transmitted to the video playback device 110 to set the playback of the video playback device 110 to a pause state (STAND BY ON).
  • STAND BY ON a pause state
  • the video playback device 110 can be operated immediately when another control command is sent, and audio signals and frames can be output. The number can be read out quickly.
  • step 602 it is determined whether or not there is a user end request, and the screen control in step 603 is repeatedly executed while there is no request.
  • step 63 the process branches in accordance with the instruction button specified by the user. For example, when the user clicks the DETECT button 503 of the operation window 501, steps 608 and 609 are executed to wait for user input.
  • the number of branches and the number of types of branching may be increased or decreased according to the number and types of instruction buttons arranged in the operation window 501 so that the optimum processing can always be selected.
  • Steps 604 to 609 are processing corresponding to each command button.
  • Step 604 is processing when the video playback device operation button group 511 is designated.
  • This control process can be used not only when the operation button group 5111 is clicked but also as a process for controlling the video playback device 110.
  • a control command is transmitted to the video playback device 110, and a response stage of the video playback device 110 is received.
  • the response status is determined, and if an error occurs, an error message is displayed on the display device 101 and the processing is interrupted. If the control is successful, the frame number is read out, displayed on the display box 512, and the process returns to step 603.
  • Step 6 05 is the parameter when parameter setting box 5 1 4 is specified. This is a meter setting process.
  • the user changes a setting parameter by inputting a numerical value from the input device 105, the corresponding parameter stored in the memory 109 is rewritten.
  • the parameter related to the time length is changed, the changed time length is converted into the number of data according to the sampling frequency of the audio data.
  • Step 606 is a sound reproduction process for reproducing the detected input sound data of the sound section 508 with the speaker 111. If the start and end points of the sound section are set in the detection result display panel 504, the audio data from the IN frame to the OUT frame of 504 is reproduced. That is, the audio data in the audio storage data buffer 105 is reproduced from the data position 1052 to the data position 105. This allows the user to check the detection result by hearing.
  • Step 607 is a magazine setting process for providing a margin in the detected sound section.
  • the user sets by expanding the section by dragging the end of the sound section 508.
  • the time length of the sound section from the IN frame to the OUT frame of the detection result display panel 504 is calculated. If the time length of a single CM video is fixed, the upper limit of the magazine is uniquely determined from the time length of the sound section. While monitoring the user's operation so as not to exceed the upper limit, the magazine is determined, and the frame numbers at the start and end points are corrected. As a result, it is possible to register a high-quality CM video with no variation in time length in the management device. As another method, an appropriate margin satisfying the upper limit may be automatically added before and after the section. If the time length is not limited, add a margin as requested by the user. Conversely, it is also possible to shorten the length of a sound section.
  • Step 608 is a process of detecting the start and end points of a sound section.
  • the video of the video playback device 110 is played, audio data is input from the audio input device 103, the start and end points of the sound section are detected, and the detection result display panel is displayed. Displayed at 504. Details will be described later in Program 900 (Fig. 9).
  • the program 900 is an example in which the start and end inspection method of the sound section shown in the program 300 is applied to the sound section detection device.
  • the video of the video playback device 110 may be located at the start point of the sound section.
  • the cueing can be realized by transmitting the frame number of the start point of the sound section and the search command from the audio processing device 104 to the video reproducing device 110.
  • step 609 the waveform 507 and the sound section 508 are c. Displayed on channel 506.
  • the voice data input until the start and end points of the voiced section detection are detected is displayed as a waveform 507, and the detection result display panel 504 from the IN frame to the OUT frame is displayed as a voiced section 508.
  • the audio data in the audio storage ring buffer 1550 is displayed in a waveform from the offset 1 054 through the ring buffer.
  • the data section between 1052 and 1053 is displayed as 508. This allows the user to visually check the detection result.
  • Step 610 is the end processing.
  • a communication command is transmitted to the video playback device 110 to put the video playback device 110 in a stop state (STAND BY OFF), and then the communication port is closed.
  • the operation window 501 on the display device 101 is closed. Finally, release the secured memory area and end the processing.
  • a control method and a filtering method when the method for detecting the start and end points of a sound section shown in the program 300 are applied to a sound section detection device will be disclosed.
  • program 300 the start and end points can be detected after inputting the audio data of the entire video, but if long-time audio data is input at once, the time lag until detection becomes longer, and the real-time detection is improved. Be impaired. In order to maintain the real-time property of detection, it is better to shorten the audio data and divide it for each time to perform input processing and detection processing.
  • FIG. 7 is a diagram showing a control method of the sound section detection device of the present invention, and shows a process until a start point of the sound section is detected.
  • Each rectangle in the figure indicates a process to be controlled, and the width of the rectangle indicates the processing time length.
  • Reference numeral 720 denotes audio data input processing in the audio input device 103.
  • the input audio is Until the audio buffer of a certain length of time becomes full, it is accumulated in the audio input device 103, and when it is full, an interrupt signal indicating that the audio buffer is full is sent to the audio processing device 104.
  • the time length of 702 indicates the size of the audio buffer.
  • Reference numeral 703 denotes an acoustic analysis process in the speech processing device 104, which executes the program 300. Step 104 starts from the point when the interrupt signal arrives, and executes it until the next interrupt signal arrives.
  • the processing of 703 can take up to 1 second at maximum, which is sufficient as the processing time.
  • Ts is set to 200 msec and Tri is set to 500 msec, the start and end points of the sound can be detected by processing up to two times of voice data. At this time, the time lag from the start of input to 103 to the detection at 104 can be suppressed to a maximum of about 3 seconds, and detection can be performed almost in real time.
  • Ts and Tn are the lower limit of the elapsed time of the voiced / silent state described in Fig. 4.These values are the length of one syllable in the voice and the length of the pause between utterances.
  • the sampling frequency is set to 1 lkHz
  • the number of sampling bits is set to 8 bits
  • the number of channels is set to 1 (monaural)
  • the amount of data transferred to memory 109 is 1 lk byte in a 1 second buffer. Transfer time is not an issue.
  • FIG. 4 shows a flow of a process until a start point is detected.
  • the DETECT button 503 When the DETECT button 503 is clicked, first the video is played back by the video playback device 110 by the overall control process, the audio input process 702 is started, and the sound section detection process is prepared, and the process progresses. The time begins counting by evening (70 1).
  • voice data is input by the voice input processing of 702
  • the data arrival time T1 is recorded in the memory 109 in the acoustic analysis processing of ⁇ 03 (704).
  • the detection flag on the memory 109 is set to ON (705).
  • the sound analysis processing of 703 When the sound analysis processing of 703 is completed, the detection flag is sensed in the overall control processing.
  • the intermediate result is displayed on the audio waveform monitor 505 (706).
  • the frame number reading time T2 is obtained from the timer, and the frame number and the reading time are stored in the memory 109.
  • the frame number is converted into the frame number at the start point of the sound and stored in the memory 109 (770). If the end point of the sound is to be detected continuously, the processing from 702 to 707 is repeated until the end point is detected. ⁇ Since the processes from 02 to 707 can be repeated as many times as necessary, even if one video contains a plurality of sound sections, each can be detected.
  • TCO TC2 1000CT2-TO) / 30 [frame]
  • L is the audio buffer size (the number of data), and dT is the time length of the audio buffer. If the audio data is 8-bit monaural, L is the number of bytes in the audio buffer.
  • the reason why the denominator is 30 in Equation 2 is that the NTSC video signal is composed of 30 frames per second. The end point of the sound can be calculated in the same way.
  • the start and end points of a sound section can be detected almost in real time.
  • FIG. 8 is a diagram showing the positional relationship between input and output data in the filtering processing in step 303 or 304. Each rectangle in the figure is This shows the data array. 8 0 1 is an input data array (number of data L [number]), and 8 0 2 is a filter buffer (number of data Lf [number]). 802 corresponds to the filter of 3221 in step 303 and corresponds to the filter of 322 in step 304.
  • the data of 801 is sequentially read into the filter buffer 802, and the maximum value or the minimum value is obtained from all the data of 802. Output as position data.
  • the output data of 803 is obtained from the input data of 801 as a whole.
  • Lf data for the filter size is used for initializing 802, so no output data can be obtained for the first 804 and the last 805 of the output data array. If 802 is initialized each time data is received from the voice input device 103 in the control method of FIG. 7, the envelope of the filtering result will be interrupted.
  • the filter buffer 802 is initialized only once at 701, and thereafter, without clearing halfway, the position where the next input data is read and the data contents are constantly stored.
  • the (n + 1) th acoustic analysis process can use the 800 data Lf inherited from the nth time and the (n + 1) th input data 8006 L data.
  • a total of L output data of the 805 part and the 807 part can be obtained.
  • L output data can be obtained for L input data, it becomes possible to continuously filter audio data that has been divided and input.
  • the output data of the n-th 805 part is obtained after the (n + 1) -th 806 is input.
  • the data position X of the start and end points and the input data arrival time T1 read from the timer are used as shown in Equation 1. For this reason, the data arrival times for the n-th and (n + 1) th two times are recorded in the memory 109. If the start and end points of the sound are found at 805, the n-th arrival time is looked up at 807. If so, use the (n + 1) th arrival time.
  • the filter size Lf should be set so that L-Lf is positive. Since the fundamental frequency of human voice is generally 100 Hz or more, if the number of data included in the reciprocal time length of 10 ms or more (for example, one frame time 33 mec) is set, there is no problem in calculating the envelope. Absent. The number of data can be calculated by multiplying the time length by the sampling frequency.
  • the detection processing can be executed without any interruption in the audio data to be processed.
  • FIG. 9 shows a flowchart of the process for detecting the start and end points of a sound section reflecting the above-described control method and filtering method
  • FIG. 1 shows the data structure of audio data and control data stored in the memory 109.
  • FIG. 9 is a flowchart showing a flow of a sound section detection process using the CM time length rule.
  • the program 900 is a processing program for detecting a set of start and end points of a sound section, and is executed in step 608. 900 is roughly divided into the following four processes. (1) Processing to detect the start point of a sound section, (2) Processing to detect the end point of a sound section, (3) Judgment processing using the CM time length rule, (4) Detection that the detection is terminated when the specified time has elapsed Time limit processing.
  • the processing of (1) includes steps 902 to 904, and the processing of (2) includes steps 906, 907, and 910. With these, the control of the processes 703 to 707 shown in FIG. 7 is executed.
  • the processing of (3) is steps 905 and 911 to 915. Based on these, only the sound section for a predetermined period of time is sifted and divided.
  • the processing of (4) is steps 908 and 909. With these, an upper limit is set for the execution time of the detection processing, and an error processing is performed when the end point is not found.
  • the minimum necessary processes for detecting a sound section are the processes (1) and (2), and the processes (3) and (4) can be omitted.
  • Step 901 is an initialization process. Audio data stored in memory 1 09 And control data are initialized, and the control processing 701 of FIG. 7 is executed. That is, the voice buffer 1 0 3 0, the voice accumulation buffer 1 0 5 0, and the control parameter 1 0 1 0 are initialized, and the empty flag 1 0 4 2 of the filter buffer 1 0 4 is set to TRUE. In step 902, the detection state of the start point of the sound section is determined. Step 9 03 is executed until the start point flag f lagIN 1 0 17 of the control parameter 110 1 0 becomes TRUE.
  • step 903 the start point of the sound section is detected. Execute the program 300 and display the result on the audio waveform monitor 505.
  • flagIN1017 is set to TRUE
  • the current frame number is read from the video playback device 110
  • the frame number acquisition time T2 is read from the timer.
  • step 904 the frame number of the detected start point is calculated.
  • the time TO of the start point is calculated by Equation 1, and the frame number TC0 of the start point is calculated by Equation 2.
  • the starting point TC0 is displayed on the detection result display panel 504, and flagIN is returned to FALSE.
  • step 905 the detection state of the sound section is determined. The following steps are performed until a sound interval with a certain time length is detected.
  • step 906 the detection status of the end point of the sound section is determined.
  • Steps 9 07 to 9 09 are executed until the value reaches RUE.
  • step 907 the end point of the sound section is detected. Execute the program 300 and display the result on the audio waveform monitor 505. When the end point is detected, flagOUT1018 is set to TRUE, the current frame number is read from the video playback device 110, and the frame number acquisition time T2 is read from the timer. The frame number of the end point at this time is calculated in step 910.
  • step 908 the elapsed time of the detection processing is determined. If the elapsed time from the detection of the start point in step 903 is longer than the specified detection time, it is determined that the video being processed does not include a video of an appropriate time length and step 909 Execute The specified detection time is, for example, twice the CM time length of 30 seconds. And set it to 60 seconds. If the current input data arrival time Tl1022 is Tl> T2 + 60 [sec] with respect to T2 obtained in step 903, it is determined that there is no video with an appropriate time length.
  • step 909 the detection result is rejected and the detection process is interrupted. Cancels the previously detected start point.
  • data input from the audio input device 103 is stopped, video reproduction on the video reproduction device 110 is temporarily stopped, and the audio buffer 103 and the filter buffer 104 are cleared.
  • step 910 the frame number of the detected end point is calculated.
  • the end point time TO is calculated by Equation 1 and the end point frame number TC0 is calculated by Equation 2.
  • the end point TC0 is displayed on the detection result display panel 504, and flagOUT is returned to FALSE.
  • step 911 the time length T of the sound section is calculated. T is calculated as the difference between the time of the start point obtained in step 904 and the time of the end point detected in step 910.
  • Step 912 is a judgment process using the CM time length rule. If the time length of the detected voiced section satisfies a predetermined fixed time length, steps 913 and 914 are executed, and if it exceeds the fixed time length, step 915 is executed. If the fixed time length is not reached, the process returns to detecting the end point of the next sound section. As a result, it becomes possible to detect only a video including a sound section having a certain length of time.
  • a CM is composed of 15 seconds or 30 seconds in length, and set the fixed time length to 15 seconds and 30 seconds, and the allowable range is 15 seconds. 1 second for 30 seconds and 2 seconds for 30 seconds, but these values may be changed appropriately according to the application.
  • the detected start and end points are adopted as the start and end points of the sound section.
  • data input from the audio input device 103 is stopped, video reproduction in the video reproduction device 110 is temporarily stopped, and the audio buffer 103 and the filter buffer 104 are cleared.
  • step 9 15 the detection result is rejected and the detection processing is interrupted. Detected Cancel the start and end points and clear the display on panel 504. In addition, data input from the audio input device 103 is stopped, video reproduction in the video reproduction device 110 is temporarily stopped, and the audio buffer 103 and the filter buffer 104 are cleared.
  • FIG. 1 is a diagram showing an example of a data structure for realizing a sound section detection according to the present invention.
  • the processing data is stored in memory 109 and read out to CPU 107 as necessary.
  • sampling frequency 1001 is audio signal information.
  • sampling-bit number 1002 is stored.
  • number of channels 1003 used for digitizing the audio signal with the audio input device 103 (1 for monaural, 1 for stereo 2) is stored.
  • 1 0 10 is a control parameter. Stores various parameters and flags used in the sound interval detection processing.
  • 1 0 1 1 to 1 0 1 4 are variable parameters that can be changed on the parameter setting panel 5 13.
  • 1 0 15 to 1 0 18 are four flags indicating the state at the time of the start and end point determination of the voiced section described in Fig. 4, and 1 0 19 and 1 0 2 0 count the voiced / silent state It is a counter to perform.
  • the start point flag 1 0 1 7 and the end point flag 1 0 1 8 are set to FALSE if the start and end points are not detected, and set to TRUE if the start and end points are detected.
  • the audio buffer 1030 has a data structure of a buffer for storing processing data 311 to 315 transferred between each step of the program 300.
  • the number of data 1 032 is the number of data stored in the buffer 1030. As described with reference to FIG. 8, since the output data of the 804 and 805 parts cannot be obtained only by the first input buffer data, the number of data in the output buffer is reduced. Therefore, 103 is provided separately from 103. 1 0 3 3 is processing data.
  • the filter buffer 104 is a data structure of a ring buffer used for the maximum and minimum type filtering in steps 303 and 304. Two memories are prepared in memory 109 for MAX filtering and MIN filtering.
  • the buffer size 1041 is calculated from the TLf of 1012.
  • the empty flag 1 0 4 2 indicates the initialization status of the filter buffer. It is set to TRUE when the buffer is empty, and to FALSE once the buffer is full.
  • the input data is initialized by copying the input data by the size 1 0 4 1 minute. If FALSE, do not initialize. As a result, the envelope can be calculated without interruption.
  • 104 is an offset indicating the position where the next input data is read. 1 0 4 4 is the read input data, which is the target data of the filtering process.
  • Reference numeral 1500 denotes an audio storage ring buffer for copying audio data input from the audio input device 103 and continuously holding the data for several seconds in the past.
  • the stored data of 050 is used to display the audio data overnight waveform 507 and to reproduce the sound with the PLAY button 509.
  • 1 0 5 1 is the buffer size. If the size of the buffer 105 is set to an integral multiple of 103, copying becomes easier.
  • Numeral 1052 is the data position on the ring buffer corresponding to the data position X of the start point of the sound interval in FIG.
  • Reference numeral 105 denotes a data position on the ring buffer corresponding to the end point. First, set a negative value to 1052 and 1053 to detect the start and end points. Replace with the value of the data position when output. 1054 is an offset indicating the beginning of the next input data copy position.
  • 1 0 5 5 is audio data.
  • the memory size of the data used for the sound section detection processing is estimated. For example, if the audio signal information 10000 handles 1 lkHz, 8-bit, monaural audio data, if the time length that can be recorded in the input buffer is 1 second, the required capacity of the audio buffer 1300 is 1 lk byte. And the total of the three buffers is about 33 kbytes. Assuming that the time length for storing audio is 40 seconds, the required capacity of the audio storage ring buffer 150 is about 44 Ok bytes. If the filter time length is 30 msec, the required capacity of the filter buffer 104 is about 0.3 kbytes, and even two filters are less than 1 kbytes. Even with other parameters, the total memory required for data is about 50 Ok bytes.
  • the configuration of the present invention is capable of quantitatively and automatically detecting the presence or absence of a sound which has been conventionally judged by hearing, and thus has an effect of saving labor for detecting a sound section.
  • the operator only needs to set the CM material on the video player and operate the buttons on the audio processing unit screen. This operation does not require any complicated operations such as frequent repetition of video playback, stop, and reverse playback, and thus has the effect of simplifying the operation.
  • voice signals are divided and input at short intervals, voiced segments can be detected in real time, which has the effect of improving work performance.
  • the sound of the detected sound section is displayed and reproduced in a waveform, so that the detection result can be immediately confirmed visually and audibly, saving labor for confirmation work.
  • a margin can be set in the detected sound section, a high-quality CM video with no variation in time length can be registered in the management device, which has the effect of improving the quality of the registered video.
  • the filtering process used for calculating the envelope according to the present invention is a power spectrum. Since the calculation amount is smaller than that of the calculation of the audio signal, it can be realized by a small computer such as a personal computer, and the calculation can be performed quickly even when the sampling rate of the audio signal input is high.
  • a device that realizes such a method for detecting a sound section in a video can be realized by a small computer such as a personal computer, and an inexpensive detection device can be achieved.
  • the method and apparatus for detecting a sound section according to the present invention are used in a CM registration apparatus that detects a start point and an end point of a CM image composed of video and audio and registers the CM image. Suitable to do.
  • the present invention can be used for a CM detection device that detects a section of a CM video inserted in a movie or a TV program.

Description

明 細 書 映像中の有音区間の始終点検出方法及び装置
技術分野
本発明はビデオテープやディスクに格納されたビデオ等の映像中に含まれ る音声データの有音区間を検出する方法及び装置に係り、 映像中の音声の頭 出しを簡単にする方法及び装置に関わる。 背景技術
近年、 計算機の高速化と記憶装置の大容量化を背景にして、 映像中の動画 像、 音声情報をディジタル化して扱うことができるようになつてきた。 特に 映像編集や映像管理の分野においては、 テレビ放送制作、 ビデオ制作のため の撮影装置や編集装置、 管理装置でディジタル化された映像を扱えるように なってきた。 このような装置の一つに、 数千種類のコマーシャル (以下 CM)映 像を管理して、任意の CM映像を放送順に準備する CM管理装置(通称 CMバンク) がある。 従来は複数の CM素材を放送前にビデオテープに一本化していたが、 最近ではビデオテープを用し、ずに CM素材のフアイルを直接に放送する CM管理 装置も利用されている。 CM管理装置には、 広告代理店等の素材制作元から供 給された CM素材が登録される。 従来、 CM素材は CM毎に個別にビデオテープで 供給され、 素材の映像には CM以外にも制作元の名称や制作日時を記した画像 等が撮影されている。 また、 CMの前後には送出のタイミングを合わせるため の遊びの映像が数秒間入っている。 そのため、 CM素材を管理装置に登録する 際には、 製作もと〜供給されたマザ一素材を別のテープやディスク等の記録 媒体にコピーして格納するのに加えて、 放送すべき CMの始まりと終わりを登 録する必要がある。
CM映像の始まりと終わりをチェックする作業は、 現状、 すべて人手で行わ れ、 作業者にとって大きな負担であった。 遊びの映像は CM映像本体の始まり と終わりに連続して撮影されているため、 画像を見ただけではどこからどこ までが放送すべき CM映像なのかわからない場合が多い。 し力、し、 音と映像の 組み合わせで構成される CM映像等において、 遊びの部分には音声は録音され ないため、 作業者は映像中の遊びの区間における音を聞いて始まりと終わり を判断している。 このような判断を行う際、 従来技術では、 作業者が映像の 再生、 停止、 逆再生等の操作を繰り返しながら、 聴覚で音の有無を判断する しか方法がなかった。 これらの操作は映像再生装置のジョグ、 シャトル等の ダイヤルあるいは計算機画面のスクロールバーを利用することで改善されて いるが、 依然として手間のかかる作業であった。
本発明は、 CM素材を管理装置に登録する際、 CMの始まりと終わりを音の有 無によって聴覚で判断する作業を自動化し、 登録操作を自動化して簡単にす る方法および装置を提供することを目的としている。
本発明の他の目的は、 CM映像本体の始終点を実時間で検出し、その位 置を登録する方法および装置を提供することにある。 発明の開示
本発明は、 映像管理装置への対話的登録処理において、 時系列に入力した 音声信号波形の包絡線を算出する包絡線算出手段と、 該包絡線の値に対して 音響レベルの閾値を予め設定する音響レベルの閾値設定手段と、 該閾値のレ ベルと該包絡線が交差する時点を有音区間の開始点もしくは終了点として検 出する始終点検出手段とを設け、 従来聴覚によつて判断して 、た音の有無を 定量的かつ自動的に判断することができるようにする。 ここで、 該始終点検 出手段には、 無音状態の経過時間長の下限を予め設定する無音時間長の下限 設定手段と、 音声信号波形の包絡線の値が音響レベルの閾値を下回つた経過 時間を算出する無音時間長算出手段と、 該無音時間長が該下限を超えたこと を判定する無音時間長判定手段とを設け、 発話中の句の継ぎ目のような微少 時間の音の途切れを検出しないようにする。 同じく該始終点検出手段には、 有音状態の経過時間長の下限を予め設定する有音時間長の下限設定手段と、 音声信号波形の包絡線の値が音響レベルの閾値を上回った経過時間を算出す る有音時間長算出手段と、 該有音時間長が該下限を超えたことを判定する有 音時間長判定手段とを設け、 ノイズや単発的な音を検出しないようにする。 また、 該包絡線算出手段には、 時系列に入力した音声信号に対して一定の時 間幅を有するフィルタリング処理を施すフィルタリング手段を設ける。 該フ ィルタリング手段には、 時系列に入力した音声信号に対して一定の時間幅の 最大値を順次求める最大値フィルタと最小値を順次求める最小値フィルタを 用しヽ 。
また本発明は、 素材映像を再生する映像再生手段と、 再生映像の音声トラ ックに記録された音声信号をディジタル信号として時系列に入力する音声入 力手段と、 入力した音声信号から有音区間の始終点を検出する音声処理手段 と、 検出結果を表示するディスプレイ手段を設け、 素材映像中の有音区間の 始終点の位置を作業者に提示できるようにする。 該音声処理手段には、 上記 包絡線算出手段、 音響レベルの閾値設定手段、 始終点検出手段に加えて、 有 音区間の始終点を検出した時点の映像のフレーム位置を決めるフレーム位置 決定手段を設ける。 該フレーム位置決定手段には、 検出処理開始からの時間 経過を計数するタイマ一手段と、 映像のフレーム位置を読み出す手段と、 該 始終点を検出した時点の経過時間とフレーム位置を読み出した時点の経過時 間を記憶する経過時間記憶手段と、 両者の経過時間の差分から読み出したフ レーム位置を補正するフレーム位置補正手段とを設け、 始終点検出からフレ —ム位置読み出しの時間遅れを補正して検出時点でのフレーム位置を決定で きるようにする。 さらに該音声処理手段には、 検出した始終点で映像の再生 を停止させる手段を設け、 該始終点のフレーム位置で映像の再生を一時停止 できるようにする。 ここで、 映像再生手段には計算機によって映像再生を制 御できる映像再生装置を用いる。 例えば、 VISCA (Video System Control Architecture: ビス力)端子付ビデオデッキや一般にプロ用の編集でよく使 われるビデオデッキ等を用いる。 これによつて、 検出した有音区間へ効率的 に頭だしできるようにする。
さらに本発明は、 上記音声処理手段に有音区間の開始点および終了点のフ レーム位置を個別に記憶するフレーム位置記憶手段と、 該開始点および終了 点のフレーム位置を個別に表示するディスプレイ手段とを設け、 素材映像中 の有音区間の開始点と終了点の位置を個別に作業者に提示できるようにする。 また、 一定時間長単位で時系列に入力した音声信号を蓄積するバッファメモ リ手段と、 入力した音声信号を再生する再生手段とを設け、 検出した有音区 間を視覚的にも聴覚的にも作業者が確認できるようにする。 さらに処理対象 の映像を CM素材として、 CM本体は一本あたり 1 5秒または 3 0秒の長さを持 つという一般的なルールを利用して、 これら一定時間の有音区間の時間長の 上限と 1または 2秒の許容範囲を予め設定する時間長設定手段と、 検出した 有音区間の開始点から終了点までの検出時間長と該設定時間長を比較する時 間長比較手段とを設け、 CM映像の一定の時間長の有音区間だけを検出できる ようにする。 また、 検出した有音区間前後にマージンを設定するマ一ジン設 定手段を設け、 CM素材から一定時間長の放送用の CM映像を CM管理装置に登 録できるようにする。 図面の簡単な説明
第 1図は、 本発明の実施例を実現するためのシステム構成図であり、第 2 図は、 本発明の有音区間検出方法の概念図であり、 第 3図は、 本発明の有音 区間検出方法のフローチャートであり、 第 4図は、 本発明の有音区間の始終 点判定条件を示した図であり、 第 5図は、 本発明を実現するための操作画面 例を示した図であり、 第 6図は、 全体の処理の流れを示したフローチャート であり、 第 7図は、 本発明の有音区間検出の制御方式を示した図であり、 第 8図は、 本発明のフィルタリング処理の入出力データの位置関係を示した図 であり、 第 9図は、 CMの時間長ルールを用いた有音区間検出処理の流れを示 したフローチャートであり、 第 1 0図は、 本発明の有音区間検出を実現する ためのデータ構造例を示した図である。 発明を実施するための最良の形態
以下、 本発明の実施例を図面をもちいて説明する。
第 1図は、 本発明を実現するためのシステム構成図の一例である。 1 0 1 は C R T等のディスプレイ装置であり、 音声処理装置 1 0 4の出力画面を表 示する。 音声処理装置 1 0 4に対する命令および閾値等の設定は、 マウス等 のポインティング ·デバイスおよびテンキー等の数値入力デバイスからなる 入力装置 1 0 5を使って行う。 映像再生装置 1 1 0は、 ビデオテープや光デ イスク等に記録された映像を再生する装置である。 映像再生装置 1 1 0から 再生出力される映像信号中の音声信号は、 逐次、 音声入力装置 1 0 3によつ てディジタル信号に変換され、 音声処理装置 1 0 4に入力される。 ディジタ ル信号に変換する際のサンプリング周波数、 サンプリング · ビッ卜数、 およ びモノラル又はステレオを示すチャンネル数(モノラルは 1、 ステレオは 2 ) といった情報も音声入力装置 1 0 3から音声処理装置 1 0 4に受け渡される。 もちろん、 これらの情報は 1 0 4で設定した数値を 1 0 3に与えるようにし てもよい。 音声処理装置 1 0 4は受け取った信号を処理して映像再生装置 1 1 0を制御する。 音声処理装置 1 0 4と映像再生装置 1 1 0は通信線 1 0 2 を通じて制御命令や応答の送受信をする。 映像再生装置 1 1 0の扱う映像の 各フレームに映像の先頭から順にフレーム番号 (タイムコード) が割り付け られている場合には、 該フレーム番号及び検索命令を音声処理装置 1 0 4か ら映像再生装置 1 1 0に送信することで、 当該フレーム番号の画像を検索で きる。 同様に音声処理装置 1 0 4は映像再生装置 1 1 0にフレーム番号を要 求して映像の現在のフレーム番号を受け取ることもできる。 音声処理装置 1 0 4内部では、 音声のディジタル信号はインタフヱ一ス 1 0 8を介して一旦 メモリ 1 0 9に入力され、 メモリ 1 0 9に格納された処理プログラムに従つ て、 C P U 1 0 7によって処理される。 処理プログラムは補助記憶装置 1 0 6に格納されており、 C P U 1 0 7の命令に応じてメモリ 1 0 9に適宜転送 される。 メモリ 1 0 9には、 以下に説明する処理によって作成される各種の データが蓄積され、 必要に応じて参照される。 また音声のディジタル信号や 処理結果等の各種情報は 1 0 6に格納することもできる。 スピーカ 1 1 1は 音声信号入力装置 1 0 3から音声処理装置 1 0 4に入力された音声信号を入 力に合わせて再生したり、 メモリ 1 0 9に蓄積された音声信号をユーザの要 求に応じて再生したりする。
以下では、 まず最初に、 ユーザが映像を確認しながら映像中の音声の有音 区間を簡便に検出できる映像中の有音区間検出方法について説明する。 次い で、 この方法を用いて構成する有音区間検出装置について説明し、 CM素材映 像から一定時間長の放送用 CM映像を見つけ出す方法について説明する。
第 2図は本発明の映像中の有音区間の検出方法の概要を示す模式図である。 動画像 2 0 1と音声波形 2 0 2は、 映像中に含まれる画像および音声の信 号を示している。 ここでは簡単のため音声波形 2 0 2はモノラルで示してい るが、 ステレオであっても構わない。 対象とする映像が CM素材の場合、 素材 の映像には CM本体の前後に遊びの映像が数秒間入っている。 遊びの映像は CM 本体の前後に同じ映像が連続して撮影されているため、 動画像 2 0 1を見た だけではどこからどこまでが放送すベき CM映像なのかわからなし、場合が多し、。 但し、 遊びの部分には音声は録音されない。 そのため従来は、 作業者が映像 の再生、 停止、 逆再生等の操作を繰り返しながら映像中の音の有無を判断し て CM映像の先頭や末尾を決めている。 本発明では有音区間を検出することに よってこのような聴覚による判断を自動化する。
音声波形 2 0 2の振幅値は正負の値が交互に頻繁に現れ、 瞬間的に大きさ が零となっていることも非常に多い。 そのため、 単にある瞬間の振幅の大き さを調べたのではその近傍での音の有無は必ずしもわからない。 ここでは音 の大きさを音声波形 2 0 2の包絡線の値で判定する。 包絡線の値には近傍の 音の有無が反映される。 包絡線の値が予め定めた音響レベルの閾値を上回つ た点を有音区間 2 0 3の開始点 (IN) 、 下回った点を終了点 (OUT) として検 出する。 該開始点から該終了点までの音声データをメモリ 1 0 9や補助記憶 装置 1 0 6に蓄え該データを再生することで、 有音区間 2 0 3の音声内容を 確認することも容易である。 これらの検出点の映像中での位置はフレーム番 号として求める。 有音区間 2 0 3の該開始点、 該終了点といった変化点を検 出したとき、映像再生装置 1 1 0は既に該変化点以降の映像を再生している。 そのため映像再生装置 1 1 0から検出時点でのフレーム番号を読み取り、 読 み取った時刻と該変化点の時刻の差分を用いて該フレーム番号を換算し、 該 変化点のフレーム番号を算出する。 該換算方法については後ほど第 7図で説 明する。 包絡線を利用して有音区間を検出し、 フレーム番号を利用して元の 映像と有音区間を対応づけることによって、 音が連続してある一定の音響レ ベルを上回っている映像区間を抽出できる。 また、 該開始点のフレーム番号 と検索要求を映像再生装置 1 1 0に送信することによって、 音の立ち上がり フレームの頭だしが容易に実現できる。 さらに、 該開始点から該終了点まで の時間長がわかるため、 放送用 CM映像に仕上げるのに必要なマ一ジンを抽出 した映像区間の前後に設定することも容易である。 これによつて、 時間長に ばらつきのない品質の良い CM映像を CM管理装置に登録できる。
本発明によれば、 ユーザは第 1図に示したシステムを使って、 素材の入つ たビデオテープ等を映像再生装置 1 1 0にセッ 卜し、 ディスプレイ 1 0 1に 表示される音声処理装置 1 0 4のコンソールのボタンを操作するだけでよい。 コンソールの画面例は後ほど第 5図で説明する。 ユーザはジョグ、 シャトル 等を使った手作業で映像中の有音区間の先頭や末尾を見つけ出さなくともよ くなる。 それゆえ、 操作の簡単化の効果がある。
次に第 3図、 第 4図を用いて、 有音区間の検出方法の詳細について説明す 0 第 3図は本発明の映像中の有音区間の始終点検出方法のフローチャートで ある。
3 0 1から 3 0 6はそれぞれプログラムステップを、 3 1 1から 3 1 6は各 ステップの出力データを示している。 これらプログラムやデータはすべてメ モリ 1 0 9に置かれ、 C P U 1 0 7によって処理する。 ここでは説明を簡単 にするために音声波形をモノラル (チャンネノレ数 1 ) で示しているカ、 ステ レオ (チャンネル数 2 ) の場合も同様に扱うことができる。 ステレオの場合 は左右各チャンネルの音声波形に対して以下に示すモノラルの処理を実行し、 両チャンネルの結果の AND (論理積)を取って重なりを判定したり OR (論理和) を取って全体を判定すればよい。
まずステップ 3 0 1では映像中の音声データを音声入力装置 1 0 3から受 け取る。 3 1 1は受け取った音声データの波形である。ステップ 3 0 2では、 3 1 1の各データの絶対値を求め、 音声波形の折り返し処理を行う。 ここで は、 音声の意味内容に関わらず、 音響レベルだけを扱うためである。 3 1 2 は 3 1 1を正に折り返した音声波形である。 次にステップ 3 0 3、 3 0 4で は最大最小型フィルタリングによって波形 3 1 2の包絡線を求める。 各フィ ルタリングではフィルタサイズ 3 2 1および 3 2 2のフィルタを準備し、 入 力データを順次フィルタに読み込んで、 フィルタ内の最大値、 最小値を求め て出力する。 ステップ 3 0 3では波形 3 1 2に対してフィルタ中の最大値を 各データ毎に出力する。 ステップ 3 0 4では最大値波形 3 1 3に対してフィ ルタ中の最小値を各データ毎に出力する。 3 1 4は結果として得られた包絡 線である。 ステップ 3 0 5では、 包絡線 3 1 4の各データを予め定めた音響 レベルの閾値 3 2 3と比較する閾値処理を行う。 包絡線 3 1 4が閾値 3 2 3 を上回るときには有音として 1を、下回るときには無音として 0を出力する。 3 1 5はステップ 3 0 5で出力した有音、 無音の 2値データである。 最後に ステップ 3 0 6では該 2値データ 3 1 5の有音、 無音の連続性を調べて有音 区間 3 2 4を検出し、 有音区間の始終点 3 1 6を出力する。 すなわち該有音 区間の立ち上がり点を音の開始点 3 2 5 ( IN) として、 また該有音区間の立 ち下がり点を音の終了点 3 2 6 (OUT) として出力する。 このステップ 3 0 6 については第 4図でタイミングチヤ一トを用いながら説明する。
最大最小型フィルタリングによって包絡線を算出する方法は、 音声波形の パワースぺクトルを計算して 0次のパワーを包絡線とする方法よりも計算量 を格段に少なくすることができる。 それゆえ C P Uの能力があまり高くなく ても実現できる。
ステップ 3 0 3、 3 0 4に記した 1次元の最大最小型フィルタリングにつ いては、 例えば「最大最小型画像フィルタリングの高速演算手法」 (電子情 報通信学会論文誌 D I I, Vol. J78-D-I I, No. 11, pp. 1598-鼠 1995年 11月) に記載されたフィルタリング手法を用いればよい。フィルタサイズ nに対して、 n+1個のデータが格納できるリングパ 'ッファを利用したデータ順次処理方式 である。 この手法では、 データ性質やフィルタサイズに関わらず、 一つのデ —夕あたり平均演算回数 3回程度で最大値や最小値を求めることができる。 それゆえ、今回のように大量のデータを高速に処理したい場合に適している。 第 4図は有音区間の始終点判定方法を示した図である。
有音区間の始終点の判定にあたっては、 始終点判定条件を、
開始点:無音状態が Tn以上続いた後、 有音状態が Ts以上続いたときの状態 変化点
終了点:有音状態が Ts以上続 、た後、 無音状態が Tn以上続! ^、たときの状態 変化点
と定める。 ここで TsCmsec]は有音状態の経過時間長の下限であり、 Tn[msec] は無音状態の経過時間長の下限である。 Tsや Tnの値は、 音声中の一音節の時 間長や発話文の間の休止の時間長を基準にして予め設定しておく。 これによ つて、 Ts未満の有音状態や Tn未満の無音状態を検出しないようにできるので、 単発的なノイズや発話中の句の継ぎ目のような微少時間の音の途切れに影響 されない、 安定した有音区間の検出方法を実現できる。 4 0 1は、 ステップ 3 0 6にて入力データ 3 1 5から有音区間の始終点 3 1 6が得られるまでを示したタイミングチヤ一トである。 状態を判定するフ ラグとして無音フラグ、 有音フラグ、 開始フラグ、 終了フラグの 4つのフラ グを設ける。
ステップ 3 0 6では、 有音、 無音の 2値状態を示す入力データ 3 1 5を順 次調べ、 各状態の経過時間として 0 (無音) と 1 (有音) のデータ個数を計 数する。 音声信号のディジタル化の際のサンプリング周波数は音声入力装置 1 0 3から音声処理装置 1 0 4に渡されているので、 時間条件 Tsおよび Tnを データ個数の条件に置き換えることは容易である。 なお、 有音状態のデータ 個数は無音フラグか ΌΝになつた時点でクリァし、 無音状態のデータ個数は有 音フラグが ONになった時点でクリアする。最初、 フラグはすべて OFFに設定し、 各状態のデータ個数を 0に設定する。 まず無音状態が Tnだけ続いた時点で無 音フラグを ONにする (4 0 2 ) 。 無音フラグが ONであるとき、 無音から有音 に変化した点はすべて開始点の候補とし、 そのデータ位置をメモリ 1 0 9に 格納する。 まず有音状態 4 0 3の立ち上がりを開始点の候補とする力 有音 状態 4 0 3は経過時間が Tsに満たないため 4 0 3のデータ個数は無音状態の データ個数(経過時間) に組み込み、単発的なノイズとしてキャンセルする。 次に有音状態 4 0 4の立ち上がりを開始点の候補とし、 有音状態が Tsだけ続 いた時点で有音フラグを ONにする (4 0 5 ) 。 これによつて無音フラグ、 有 音フラグとも ONとなって開始点の条件を満たすので、 開始フラグを ONにして 開始点 3 2 5 ( IN) に決定する。 ONになった開始フラグはセンスした時点で OFFに戻す。 以上時間軸上 4 2 0までが開始点検出である。
開始点を検出すると引き続いて終了点の検出を開始する。 まず無音フラグ は OFFにする (4 0 6 )。有音フラグが 0Nであるとき、有音から無音に変化し た点はすべて終了点の候補とし、そのデータ位置をメモリ 1 0 9に格納する。 無音状態 4 0 7は経過時間が Tnに満たないため 4 0 7のデータ個数は有音状 態のデータ個数に組み込み、 微少時間の途切れとしてキャンセルする。 次に 無音状態 4 0 8が Tnだけ続いた時点で無音フラグを ONにする (4 0 9 ) 。 こ れによつて有音フラグ、 無音フラグとも ONとなつて終了点の条件を満たすの で、終了フラグを ONにして終了点 3 2 6 (OUT) に決定する。 ONになった終了 フラグはセンスした時点で OFFに戻す。 また、有音フラグも次の開始点検出に 備えて OFFにする (4 1 0 )。以上時間軸上 4 2 1までが終了点検出である。 以上、 第 4図のようにフラグを操作することによつて継続的に有音区間の 始終点を検出することができるので、 一本の映像に複数の有音区間が含まれ ている場合でも各々を検出できる。 それゆえ、 本発明の有音区間検出方法は CM素材やビデオ映像に限らず TV放送映像やアーカイブ映像等の一般的な映像 に対しても適用可能である。 また処理映像が CM素材の場合には 「CMは一本あ たり 1 5秒もしくは 3 0秒の時間長で構成される」 という一般的な CMの時間 長ルールを利用できるので、 複数の有音区間を検出してもルールによって区 間をひとまとめにすることで、 適切な CM本体の始終点を決定できる。 CMのル ールを用いた始終点の検出方法については後ほど第 9図で説明する。
次いで、 以上の有音区間検出方法を用いて構成する有音区間検出装置につ いて説明する。
第 5図は本発明を実現する有音区間検出装置の操作画面の一例である。 操 作ウインドウ 5 0 1は音声処理装置 1 0 4のコンソールとしてディスプレイ 装置 1 0 1に表示され、 ユーザに操作環境を提供する。 5 0 1には QUITボタ ン 5 0 2、 DETECTボタン 5 0 3、 検出結果表示パネル 5 0 4、 音声波形モニ 夕 5 0 5、 有音区間表示パネル 5 0 6、 PLAYボタン 5 0 9、 映像再生装置操 作パネル 5 1 0、 パラメータ設定パネル 5 1 3を配置する。 ユーザは 5 0 1 上に配置された命令ボタンを入力装置 1 0 5のマウスでクリックして自分の 要求を音声処理装置 1 0 4に伝える。 QUITボタン 5 0 2は操作処理を終了し 操作ウインドウ 5 0 1を閉じるための命令ボタンである。
DETECTボタン 5 0 3は有音区間検出処理を実行するための命令ボタンであ る。 ユーザが 5 0 3をクリックすると、 音声処理装置 1 0 4は検出結果表示 パネル 5 0 4をクリアして、 プログラム 3 0 0に従って有音区間の検出を開 始し、 処理途中の結果を音声波形モニタ 5 0 5に表示する。 モニタ 5 0 5に は算出した包絡線 3 1 4や音響レベルの閾値 3 2 3を表示する。 有音区間の 始終点が検出されると、 検出したフレーム番号をタイムコ一ド形式でパネル 5 0 4に表示する。 タイムコ一 ihh:mm: ss :ff (hh:時間、 mra:分、 ss:秒、 ff : フレーム) という構成で位置や長さを直観的に把握しやすいため、 ユー ザにとって都合がよい。
有音区間表示パネル 5 0 6には有音区間検出の始終点を検出するまでに入 力した音声データの波形 5 0 7および有音区間 5 0 8を表示する。 有音区間 5 0 8は検出結果表示パネル 5 0 4の INフレームから OUTフレームまでに対 応している。 一般に CM映像は一本あたり最長 3 0秒なので、 ここでは 4 0秒 分の音声波形を表示するようにしている。 PLAYボタン 5 0 9は有音区間 5 0 8の音声データを再生するためのボタンである。 ユーザは音声デ一夕波形 5 0 7によって、 映像中の音声信号を視覚的に確認できる。 また 5 0 9をクリ ックして音声を再生することで聴覚によっても確認することができる。 これ によって、 ユーザは有音区間検出後すぐに検出状況を確認することができ、 確認作業を省力化することができる。
ユーザが有音区間にマージンを設ける場合、 有音区間 5 0 8の端をドラッ グして区間を広げることによって設定すればよい。 検出結果表示パネル 5 0 に表示しているように有音区間の始終点は既にわかつているので区間長は 計算できる。 ユーザは該区間長の前後にマ一ジンを設定して全体の時間長が 所望の長さになるようにする。 システムは設定されたマ一ジンの長さに応じ てパネル 5 0 4のフレーム番号を変更し、 変更後のフレーム番号を CM管理装 置に登録する CM映像の始終点にする。 これによつて、 ユーザは簡単に CM管理 装置への登録作業を進めることができる。 また、 該映像の始終点に挟まれた 映像を切り出すことで、ユーザは所望の長さの放送用の CM映像を作成できる。 映像再生装置操作パネル 5 1 0には映像再生装置操作ボタン群 5 1 1を配 置する。 操作ボタン群 5 1 1は映像の早送り、 巻き戻し、 再生、 コマ送りや 一時停止を実行するための命令ボタンである。 ユーザが操作ボタン群 5 1 1 から必要な命令ボタンをクリックすると、 音声処理装置 1 0 4は該当する操 作命令を映像再生装置 1 1 0に送信する。 映像のフレーム位置はタイムコ一 ドとして映像位置表示ボックス 5 1 2に表示する。
パラメータ設定パネル 5 1 3には有音区間検出のためのパラメータを設定 するパラメータ設定ボックス 5 1 4を配置する。 パネル 5 1 3には変更可能 なパラメータとして、 音響レベルの閾値 (Threshhold Value) 、 フィルタの 時間長 (Filterlength) 、 有音状態の経過時間長の下限 (Noise Limt) 、 無 音状態の経過時間長の下限(Silence)の 4つを配置している。ユーザがパラ メータを変更したい場合、 5 1 4 ,をクリックして入力装置 1 0 5から数値を 入力する。 このとき、 音響レベルの閾値 (図中の Threshold Value) の設定に あたっては、 入力装置 1 0 5から数値を入力する他に、 別方式として次のよ うに設定するようにしてもよい。 まず該音響レベルの閾値のノ、。ラメ一タ設定 ボックスがクリックされると、 映像再生装置 1 1 0は停止もしくは一時停止 状態にしておき、 その状態で音声入力装置 1 0 3から音声処理装置 1 0 4に 音声データを数秒間入力する。 次いで、 数秒間入力した該音声データの音響 レベルの最大値を音響レベルの閾値とする。 このとき、 数秒間入力すること によって、 映像再生装置 1 1 0や音声入力装置 1 0 3で生じる音声信号のラ ンダムノイズが音声処理装置 1 0 4に入力できる。 また最大値を音響レベル の閾値とすることによって、 1 1 0や 1 0 3で生じるノイズが再生映像中の 音声信号に影響するのを押さえることができるようになる。
第 6図は処理の全体の流れを示したフローチヤ一卜である。 ユーザからプ ログラムの起動要求があると C P U 1 0 7は補助記憶装置 1 0 6からプログ ラム 6 0 0を読み出し、 メモリ 1 0 9に格納して実行する。 このときメモリ 1 0 9には音声データや処理データも各種格納されるが、 これらデータの構 造については後ほど第 1 0図で説明する。 ステップ 6 0 1は処理開始にあたっての初期化処理である。 まず、 C P U 1 0 7はメモリ 1 0 9上に処理に必要なメモリ領域を確保してクリアし、 音 響レベルの閾値等のパラメータのデフォルト値をセッ卜する。 次いで、 ディ スプレイ装置 1 0 1に音声処理装置 1 0 4の操作ゥインドウ 5 0 1を表示す る。 また、 映像再生装置 1 1 0との通信の設定を初期化し、 通信ポ一卜を開 く。 次に映像再生装置 1 1 0に制御命令を送信して、 映像再生装置 1 1 0の 再生を一時停止状態 (STAND BY ON) にする。 映像再生装置 1 1 0を停止状態 ではなく一時停止状態にしておくことで、 別の制御命令が送られたときに映 像再生装置 1 1 0を即座に動作させることができ、 音声信号やフレーム番号 を素早く読み出すことができるようになる。
ステップ 6 0 2ではユーザの終了要求の有無を判定し、 要求がない間、 ス テツプ 6 0 3の画面制御を繰り返して実行する。
ステップ 6 0 3ではユーザに指定された命令ボタンに対応して処理を分岐 させる。 例えば、 ユーザが操作ゥインドウ 5 0 1の DETECTボタン 5 0 3をク リックした場合にはステップ 6 0 8と 6 0 9を実行してユーザの入力を待つ。 操作ウインドウ 5 0 1に配置される命令ボタンの個数、 種類の増減に応じて 分岐数、分岐判断を増減し、常に最適な処理が選択できるようにすればよい。 ステップ 6 0 4から 6 0 9は各命令ボタンに応じた処理である。
ステップ 6 0 4は映像再生装置操作ボタン群 5 1 1が指定されたときの処 理である。 この制御処理は、 操作ボタン群 5 1 1がクリックされた時ばかり でなく、 映像再生装置 1 1 0を制御する処理として利用可能である。 まず映 像再生装置 1 1 0に制御命令を送信し、 映像再生装置 1 1 0の応答ステ一夕 スを受信する。 次に応答ステータスを判定し、 エラ一が発生した場合にはェ ラ一メッセージをディスプレイ装置 1 0 1に表示して処理を中断する。 正常 に制御できた場合はフレーム番号を読み出して表示ボックス 5 1 2に表示し てステップ 6 0 3に戻る。
ステップ 6 0 5はパラメータ設定ボックス 5 1 4が指定されたときのパラ メータ設定処理である。 ユーザが入力装置 1 0 5から数値を入力して設定パ ラメ一タを変更するとメモリ 1 0 9に格納された該当パラメータを書き換え る。 また時間長に関するパラメータが変更されると、 音声データのサンプリ ング周波数に従って変更後の時間長をデータ個数に換算する。
ステップ 6 0 6は検出した有音区間 5 0 8の入力音声データをスピーカ 1 1 1で再生する音声再生処理である。 検出結果表示パネル 5 0 4に有音区間 の始終点がセッ 卜されていれば、 5 0 4の INフレームから OUTフレームまでの 音声データを再生する。 すなわち音声蓄積データバッファ 1 0 5 0の音声デ —夕をデータ位置 1 0 5 2からデータ位置 1 0 5 3までで再生する。 これに よって、 ユーザは検出結果を聴覚で確認できる。
ステップ 6 0 7は検出した有音区間にマージンを設けるマ一ジン設定処理 である。 ユーザは有音区間 5 0 8の端をドラッグして区間を広げることによ つて設定する。まず、検出結果表示パネル 5 0 4の INフレームから OUTフレー ムまでの有音区間の時間長を計算する。 一本あたりの CM映像の時間長を一定 長に定めておくと、該有音区間の時間長からマ一ジンの上限は一意に決まる。 該上限を越えないようにユーザの操作を監視しながらマ一ジンを決定し、 始 終点のフレーム番号をネ甫正する。 これによつて、 時間長にばらつきのない品 質の良い CM映像を管理装置に登録できるようになる。 別の方式としては、 該 上限を満たす適切なマージンを区間の前後に自動的に付加してもよい。 時間 長を限定しないのであれば、 ユーザの要求通りにマージンを付加する。 また 逆に有音区間長を短くすることも可能である。
ステップ 6 0 8は有音区間の始終点検出処理である。 DETECTボタン 5 0 3 が指定されると、 映像再生装置 1 1 0の映像を再生し、 音声入力装置 1 0 3 から音声データを入力し、 有音区間の始終点を検出して検出結果表示パネル 5 0 4に表示する。 詳細については後ほどプログラム 9 0 0 (第 9図) で説 明する。 プログラム 9 0 0はプログラム 3 0 0で示した有音区間の始終点検 出方法を有音区間検出装置に適用した例である。 このとき、別の方式として、 有音区間の始終点を検出した後に、 映像再生装置 1 1 0の映像を有音区間の 開始点に頭出しするようにしてもよい。 該頭出しは音声処理装置 1 0 4から 映像再生装置 1 1 0に有音区間の開始点のフレーム番号と検索命令を送信す ることによって実現できる。
ステップ 6 0 9では波形 5 0 7と有音区間 5 0 8をハ。ネル 5 0 6に表示す る。 有音区間検出の始終点を検出するまでに入力した音声データを波形 5 0 7として表示し、検出結果表示パネル 5 0 4の INフレームから OUTフレームま でを有音区間 5 0 8として表示する。 すなわち、 音声蓄積リングバッファ 1 0 5 0の音声データをオフセット 1 0 5 4からリングバッファを一巡して波 形表示する。 また 1 0 5 2と 1 0 5 3に挟まれるデータ区間を 5 0 8として 表示する。 これによつて、 ユーザは検出結果を視覚的に確認できる。
ステップ 6 1 0は終了処理である。 まず映像再生装置 1 1 0に制御命令を 送信して映像再生装置 1 1 0を停止状態 (STAND BY OFF)にした後に通信ポ一 トを閉じる。 次いでディスプレイ装置 1 0 1上の操作ウインドウ 5 0 1を閉 じる。 最後に確保していたメモリ領域を開放し、 処理を終了する。
ここで、 プログラム 3 0 0に示した有音区間の始終点検出方法を有音区間 検出装置に適用する際の制御方式とフィルタリング処理方式を開示する。 プログラム 3 0 0では、 映像全体の音声データを入力してから始終点を検 出することもできるが、 長時間の音声データを一度に入力すると検出までの タイムラグが長くなり、 検出のリアルタイム性が損なわれる。 検出のリアル タィム性を保持するためには、 音声デ一タを短し、時間毎に分割して入力処理 および検出処理を行った方がよい。
まずリアルタイム検出を実現するための制御方式を示す。 第 7図は本発明 の有音区間検出装置の制御方式を示した図であり、 有音区間の開始点を検出 するまでを示している。 図中の各矩形は制御対象の処理を示し、 該矩形の幅 は処理時間長を示す。
7 0 2は音声入力装置 1 0 3での音声データ入力処理である。 入力音声は 一定時間長の音声バッファが一杯になるまで音声入力装置 1 0 3に蓄積し、 一杯になった時点で音声処理装置 1 0 4に該音声バッファが一杯になったこ とを示す割り込み信号を送る。 7 0 2の時間長は音声バッファの大きさを示 している。 1 0 4では該割り込み信号を受け取ると該音声バッファのデータ をメモリ 1 0 9に転送する。 7 0 3は音声処理装置 1 0 4での音響解析処理 であり、 プログラム 3 0 0を実行する。 1 0 4は該割り込み信号が届いた時 点から 7 0 3を開始し、 次の該割り込み信号が届くまでに実行する。 例えば 該音声バッファの時間長を 1秒に設定すると、 7 0 3の処理には最大 1秒ま で時間をかけることができるので処理時間として十分である。 また、 Tsを 200msec, Triを 500msecに設定すると、 音の開始点や終了点は最大 2回分の音 声データを処理することで検出できる。 このとき、 1 0 3への入力開始から 1 0 4での検出までのタイムラグは最大 3秒程度に抑えることができ、 ほぼ リアルタィムに検出できる。 ここで Tsや Tnは第 4図で説明した有音 Ζ無音状 態の経過時間長の下限であり、 これらの数値は音声中の一音節の時間長や、 発話文の間の休止の時間長を基準に設定する。 メモリ 1 0 9に転送されるデ —夕量は、サンプリング周波数を 1 l kHz、サンプリングビッ 卜数を 8ビット、 チャンネル数を 1 (モノラル)に設定すれば 1秒のバッファでは 1 l kバイ卜 であるため、 転送時間は問題にならない。
開始点検出までの処理の流れを示す。 DETECTボタン 5 0 3がクリックされ ると、 まず全体制御処理によって映像再生装置 1 1 0で映像を再生し、 音声 入力処理 7 0 2を起動し、 有音区間検出処理を準備し、 処理の経過時間を夕 イマによって数え始める (7 0 1 ) 。 7 0 2の音声入力処理によって音声デ —夕を入力すると、 Ί 0 3の音響解析処理ではデータ到着時刻 T1をメモリ 1 0 9に記録する (7 0 4 ) 。 また音響解析処理によって音の開始点を検出す るとメモリ 1 0 9上の検出フラグを ONに設定する (7 0 5 )。 7 0 3の音響 解析処理が済むと、 全体制御処理では検出フラグをセンスする。 検出フラグ 力0FFの場合、途中結果を音声波形モニタ 5 0 5に表示する (7 0 6 )。一方、 ONの場合、 映像再生装置 1 1 0から現在のフレーム番号を読み出し、 タイマ からフレーム番号読み取り時刻 T2を取得し、 該フレーム番号および該読み取 り時間をメモリ 1 0 9に格納する。 また Π、 Τ2を利用して該フレーム番号を 音の開始点の時点のフレーム番号に換算してメモリ 1 0 9に格納する (7 0 7 ) 。 音の終了点を引き続き検出する場合は、 7 0 2から 7 0 7の処理を終 了点検出まで繰り返し実行する。 Ί 0 2から 7 0 7の処理は何度でも繰り返 し実行できるので、 一本の映像に複数の有音区間が含まれている場合でも 各々を検出できる。
次に処理 7 0 7での該開始点のフレーム番号の換算方法について説明する。 7 0 8の音声入力処理で得られた音声データ中の位置 Xに音の開始点が含ま れていたとする。 このとき、 データ到着時刻 Tl、 フレーム番号取得時刻 Τ2、 フレーム番号 TC2から音の開始点の時刻 TOを推定し、 TC2を開始点のフレーム 番号 TC0に換算する。 この換算方法は次式で表せる。
TO = Tl - dT(L-X) I L [msec]
(数 1 )
TCO = TC2 1000CT2 - TO) / 30 [フレーム]
(数 2 )
ここで、 Lは音声バッファサイズ (データ個数)であり、 dTは音声バッファの 時間長である。音声データが 8ビット、 モノラルの場合、 Lは音声パ'ッファの バイト数そのものとなる。 数 2で分母に 3 0とあるのは、 NTSCの映像信号が 1秒間に 3 0フレームで構成されるためである。 音の終了点についても同様 に計算できる。
以上の制御方式によって、 ほぼリアルタィ厶に有音区間の始終点を検出で さる。
次に分割入力した音声データを連続的にフィルタリング処理する方式につ いて説明する。 第 8図はステップ 3 0 3もしくは 3 0 4のフィルタリング処 理における入出力データの位置関係を示した図である。 図中の矩形はそれぞ れデータ配列を示す。 8 0 1は入力データ配列 (データ個数 L [個] )、 8 0 2 はフィルタバッファ (データ個数 Lf [個] ) である。 8 0 2はステップ 3 0 3 では 3 2 1のフィルタに該当し、 ステップ 3 0 4では 3 2 2のフィルタに該 当する。
ステップ 3 0 3と 3 0 4の各フィルタリング処理では、 フィルタバッファ 8 0 2に 8 0 1のデータを順次読み込み、 8 0 2の全データから最大値また は最小値を求め、 フィルタサイズの中央の位置のデータとして出力する。 こ のとき、 8 0 1全体の入力データから 8 0 3の部分の出力データが得られる。 L個の入力データのうち、フィルタサイズ分の Lf個は 8 0 2の初期化に使うた め、 出力データ配列の最初 8 0 4と最後 8 0 5の部分については出力データ が得られない。 第 7図の制御方式で音声入力装置 1 0 3からデータを受け取 る度に 8 0 2を初期化したのでは、 フィルタリング結果の包絡線が途切れ途 切れになってしまう。
ここではフィルタバッファ 8 0 2は 7 0 1で一回だけ初期化し、 その後は 途中でクリアしないで、 次に入力データを読み込む位置やデータ内容を絶え ず保持しておく。 これによつて、 (n + 1 ) 回目の音響解析処理に、 n回目 から継承した 8 0 2のデータ Lf個と (n + 1 )回目の入力データ 8 0 6の L個 を利用できるようになり、 8 0 5の部分と 8 0 7の部分の合計 L個の出力デ一 夕が得られるようになる。 すなわち L個の入力データに対して L個の出力デー 夕が得られるようになるので、 分割入力した音声データを連続的にフィルタ リング処理できるようになる。
伹しこのとき、 n回目の 8 0 5の部分の出力データが得られるのは、 (n + 1 ) 回目の 8 0 6が入力されてからになる。 第 7図の制御方式では音の始 終点のフレーム番号を算出するとき、 数 1に示したように始終点のデータ位 置 Xとタイマから読み取った入力データ到着時刻 T1を使う。 そのため、 n回目 と (n + 1 )回目の 2回分のデータ到着時刻をメモリ 1 0 9に記録しておく。 音の始終点が 8 0 5で見つかった場合には n回目の到着時刻を、 8 0 7で見 つかった場合には (n + 1 ) 回目の到着時刻を使うようにする。
なお、フィルタサイズ Lfは L- Lfが正になるような値を設定しておけばよし、。 人間の音声の基本周波数は一般に 100Hz以上であるから、その逆数の 10msec以 上の時間長(例えば 1フレーム時間 33mec)に含まれるデータ個数を設定して おけば包絡線を算出するのに問題はない。 該データ個数は時間長にサンプリ ング周波数を乗ずることで算出できる。
以上によって、 処理する音声データに途切れを生ずることなく検出処理を 実行できる。
以上の制御方式、 フィルタリング方式を反映した有音区間の始終点検出処 理のフローチャートを第 9図に示し、 メモリ 1 0 9に格納する音声データや 制御データのデータ構造を第 1図 0に示す。
第 9図は CMの時間長ルールを用いた有音区間検出処理の流れを示したフロ —チヤ一卜である。 プログラム 9 0 0は有音区間の始終点を一組検出する処 理プログラムであり、 ステップ 6 0 8で実行する。 9 0 0は大きく分けて次 の 4つの処理から構成される。 (1)有音区間の開始点検出処理、 (2)有音区間 の終了点検出処理、 (3)CMの時間長ルールを用いた判定処理、 (4)規定時間を 経過すると検出を打ち切る検出時間制限処理、である。(1)の処理はステップ 9 0 2から 9 0 4であり、(2)の処理はステップ 9 0 6、 9 0 7と 9 1 0であ る。 これらによって、 第 7図に示した処理 7 0 3から 7 0 7の制御を実行す る。 (3)の処理はステップ 9 0 5と 9 1 1から 9 1 5である。 これらによって、 予め定めた一定時間の有音区間のみをふるし、分ける。(4)の処理はステップ 9 0 8と 9 0 9である。 これらによって、 検出処理の実行時間に上限を設け終 了点が見つからない場合のエラー処理を実行する。 但し、 ここで有音区間の 検出に最低限必要なのは(1)の処理と(2)の処理であり、 (3)と(4)の処理は省 略可能である。
以下、 各ステップを順に説明する。
ステップ 9 0 1は初期化処理である。 メモリ 1 0 9に格納する音声データ や制御データを初期化し、 第 7図の制御処理 7 0 1を実行する。 すなわち音 声バッファ 1 0 3 0や音声蓄積バッファ 1 0 5 0、 制御パラメータ 1 0 1 0 を初期化し、 フィルタバッファ 1 0 4 0の空フラグ 1 0 4 2を TRUEにする。 ステップ 9 0 2では有音区間の開始点の検出状況を判定する。 制御ハ°ラメ —タ 1 0 1 0の開始点フラグ f lagIN 1 0 1 7が TRUEになるまでステップ 9 0 3を実行する。
ステップ 9 0 3では有音区間の開始点を検出する。 プログラム 3 0 0を実 行し、 途中結果を音声波形モニタ 5 0 5に表示する。 開始点を検出すると f lagIN 1 0 1 7を TRUEにし、 映像再生装置 1 1 0から現在のフレーム番号を 読み取り、 フレーム番号取得時刻 T2をタイマから読み取る。
ステップ 9 0 4では検出した開始点のフレーム番号を算出する。 数 1で開 始点の時刻 TOを算出し、数 2で開始点のフレーム番号 TC0を算出する。 開始点 の TC0は検出結果表示パネル 5 0 4に表示し、 また flagINを FALSEに戻す。 ステップ 9 0 5では有音区間の検出状況を判定する。 一定時間長の有音区 間を検出するまで以下のステップを実行する。
ステップ 9 0 6では有音区間の終了点の検出状況を判定する。 制御パラメ 一夕 1 0 1 0の終了点フラグ flagOUT l 0 1 8カ^ RUEになるまでステップ 9 0 7から 9 0 9を実行する。
ステップ 9 0 7では有音区間の終了点を検出する。 プログラム 3 0 0を実 行し、 途中結果を音声波形モニタ 5 0 5に表示する。 終了点を検出すると flagOUT 1 0 1 8を TRUEにし、映像再生装置 1 1 0から現在のフレーム番号を 読み取り、 フレーム番号取得時刻 T2をタイマから読み取る。 この時の終了点 のフレーム番号はステップ 9 1 0で算出する。
ステップ 9 0 8では検出処理の経過時間を判定する。 ステップ 9 0 3で開 始点を検出してからの経過時間が規定の検出時間よりも長くなると、 処理中 の映像には適切な時間長の映像が含まれていないと判定してステップ 9 0 9 を実行する。 該規定の検出時間としては、 例えば CMの時間長 3 0秒の 2倍と して 6 0秒にすればよい。 現在の入力データ到着時刻 Tl 1 0 2 2がステップ 9 0 3で取得した T2に対して Tl > T2 + 60[sec]となれば、 適切な時間長の映 像はないと判定する。
ステップ 9 0 9では検出結果を棄却して、 検出処理を中断する。 先に検出 した開始点をキャンセルする。 また音声入力装置 1 0 3からデータ入力する のを止め、 映像再生装置 1 1 0での映像再生を一時停止し、 音声バッファ 1 0 3 0やフィルタバッファ 1 0 4 0をクリアする。
ステップ 9 1 0では検出した終了点のフレーム番号を算出する。 数 1で終 了点の時刻 TOを算出し、数 2で終了点のフレーム番号 TC0を算出する。終了点 の TC0は検出結果表示パネル 5 0 4に表示し、 また flagOUTを FALSEに戻す。 ステップ 9 1 1では有音区間の時間長 Tを算出する。ステップ 9 0 4で求め た開始点の時刻とステップ 9 1 0で検出した終了点の時刻の差分として Tを 求める。
ステップ 9 1 2は CMの時間長ルールを用いた判定処理である。 検出した有 音区間の時間長が予め定めた一定時間長を満足すれば、 ステップ 9 1 3、 9 1 4を実行し、 該一定時間長を超過するとステップ 9 1 5を実行する。 該ー 定時間長に満たない場合は、 次の有音区間の終了点検出に戻る。 これによつ て、 一定時間長の有音区間を含む映像のみ検出できるようになる。 ここでは 「CMは一本あたり 1 5秒もしくは 3 0秒の時間長で構成される」 という一般 的なルールを用いて一定時間長を 1 5秒と 3 0秒とし、 許容範囲を 1 5秒に 対しては 1秒、 3 0秒に対しては 2秒に設定しているが、 これらの値は用途 に応じて適当に変更しても構わない。
ステップ 9 1 3、 9 1 4では検出した始終点を有音区間の始終点として採 用する。 また音声入力装置 1 0 3からデータ入力するのを止め、 映像再生装 置 1 1 0での映像再生を一時停止し、 音声バッファ 1 0 3 0やフィルタバッ ファ 1 0 4 0をクリアする。
ステップ 9 1 5では検出結果を棄却して、 検出処理を中断する。 検出した 始終点をキャンセルし、 パネル 5 0 4の表示をクリアする。 また音声入力装 置 1 0 3からデータ入力するのを止め、 映像再生装置 1 1 0での映像再生を 一時停止し、 音声バッファ 1 0 3 0やフィルタバッファ 1 0 4 0をクリアす る。
以上の方法によって、 一定時間長の有音区間のみを検出できる。
最後に、 メモリ 1 0 9に格納する音声データや制御データのデータ構造を 説明する。 第 1図 0は本発明の有音区間検出を実現するためのデータ構造 例を示した図である。 処理データはメモリ 1 0 9に格納し、 必要に応じて C P U 1 0 7に読み出す。
1 0 0 0は音声信号情報である。 音声入力装置 1 0 3で音声信号をディジ タル化する際に使用しているサンプリング周波数 1 0 0 1、 サンプリング- ビット数 1 0 0 2、 およびチャンネル数 1 0 0 3 (モノラルは 1、 ステレオ は 2 ) を格納する。
1 0 1 0は制御用パラメータである。 有音区間検出処理で用いる各種パラ メータやフラグを格納する。 1 0 1 1から 1 0 1 4はパラメータ設定パネル 5 1 3で変更可能な可変パラメータである。 1 0 1 5から 1 0 1 8は第 4図 で説明した有音区間始終点判定時の状態を示す 4つのフラグであり、 1 0 1 9と 1 0 2 0は有音/無音状態を計数するためのカウンタである。 開始点フ ラグ 1 0 1 7と終了点フラグ 1 0 1 8は始終点が未検出なら FALSE、検出済み なら TRUEにする。 1 0 2 1は第 7図で示した入力音声データ中の始終点のデ —夕位置 Xである。 1 0 2 2と 1 0 2 3は第 8図で説明したデータ到着時間 T1 と前回のデータ到着時刻である。 フラグ 1 0 1 7、 1 0 1 8が ONになったこ とを検出した時点のフレーム番号を読み出して数 1、 数 2に従って始終点の フレーム番号は算出できる。 該始終点のフレーム番号もメモリ 1 0 9に格納 する。 別方式としては、 該算出したフレーム番号を補助記憶装置 1 0 6に順 次書き込むようにしてもよい。 1 0 6の容量が許す限り有音区間を検出する ようにできる。 音声バッファ 1 0 3 0は、 プログラム 3 0 0の各ステップ間で受け渡され る処理データ 3 1 1から 3 1 5を格納するバッファのデータ構造である。 メ モリ 1 0 9には入力用、 作業用、 出力用に 3つ用意する。 各々のバッファサ ィズ 1 0 3 1にはすべて同じ値を設定する。 データ個数 1 0 3 2は該バッフ ァ 1 0 3 0に格納されるデータの個数である。 第 8図で説明したように最初 の入力バッファデータだけでは 8 0 4、 8 0 5部分の出力データが得られな いので出力バッファのデータ個数が減少する。 そのため 1 0 3 1とは別に 1 0 3 2を設ける。 1 0 3 3は処理データである。
フィルタノくッファ 1 0 4 0は、 ステップ 3 0 3と 3 0 4の最大最小型フィ ルタリングに用いるリングバッファのデータ構造である。 メモリ 1 0 9には MAXフィルタリング用と MINフィルタリング用に 2つ用意する。 バッファサイ ズ 1 0 4 1は 1 0 1 2の TLfから算出する。空フラグ 1 0 4 2はフィルタバッ ファの初期化状況を示し、 バッファが空である初期状態で TRUEにし、 いった んデータで満たされると FALSEにする。入力音声バッファ 1 0 3 0を処理する とき、 1 0 4 2が TRUEならば入力データをサイズ 1 0 4 1分だけ複写するこ とで初期化する。 FALSEならば初期化しない。 これによつて途切れなく包絡線 を算出することができる。 1 0 4 3は次の入力データを読み込む位置を指し 示すオフセットである。 1 0 4 4は読み込んだ入力データであり、 フィルタ リング処理の対象データである。
1 0 5 0は音声入力装置 1 0 3から入力される音声データを複写して絶え ず過去何秒分か保持する音声蓄積リングバッファである。 1 0 5 0の蓄積デ —タは、 音声デ一夕波形 5 0 7を表示したり、 PLAYボタン 5 0 9で音声を再 生したりするのに利用する。 1 0 5 1はバッファサイズである。 パ、ッフアサ ィズ 1 0 5 1は 1 0 3 1の整数倍にすると複写が容易になる。 1 0 5 2は第 7図の有音区間の開始点のデータ位置 Xに対応するリングパ'ッファ上のデー 夕位置である。 1 0 5 3は同様に終了点に対応するリングバッファ上のデ一 タ位置である。 1 0 5 2と 1 0 5 3には最初、 負の値を設定し、 始終点の検 出に応じてデータ位置の値と置き換える。 1 0 5 4は次の入力データ複写位 置の先頭を指し示すオフセットである。 1 0 5 5は音声データである。
ここで、 有音区間検出処理に用いるデータのメモリ量を見積もる。 例えば 音声信号情報 1 0 0 0が 1 l kHz、 8ビット、モノラルの音声データを扱う場 合、 入力バッファに記録できる時間長を 1秒にすると音声バッファ 1 0 3 0 の必要容量は 1 l kバイ ト程度になり、 3つのバッファの合計は 3 3 kバイ ト 程度になる。 音声を蓄積する時間長を 4 0秒とすると音声蓄積リングバッフ ァ 1 0 5 0の必要容量は 4 4 O kバイト程度である。 フィルタ時間長を 3 0 msecとするとフィルタバッファ 1 0 4 0の必要容量は 0 . 3 kバイト程度にな り、 2つでも l kバイ卜に満たない。その他のパラメ一夕と合わせてもデータ に関して必要なメモリ量は全部で 5 0 O kバイ卜程度である。それゆえ、 メモ リ量が比較的少なし、安価な計算機でも本発明の方法は十分に実装可能である。 本発明の構成は、 従来聴覚によつて判断していた音の有無を定量的かつ自 動的に検出できるので、 有音区間の検出作業の省力化効果がある。 作業者は CM素材を映像再生機にセットして、 音声処理装置画面のボタンを操作するだ けでよい。 この操作には、 映像の再生、 停止、 逆再生を頻繁に繰り返すとい つた煩雑な操作は一切不要であるので、 操作の簡単化の効果がある。 また音 声信号を短時間毎に分割入力するようにしているためリアルタイムに有音区 間を検出でき、 作業性能向上の効果がある。 確認作業の観点からは、 検出し た有音区間の音声を波形表示したり再生したりするようにしているので、 検 出結果を視覚および聴覚ですぐに確認することができ、 確認作業の省力化の 効果がある。 CM映像の時間長ルールを利用して有音区間を検出しているので、 長すぎたり短すぎたりする不適当な素材は却下でき、 CM映像の時間長を別途 検査する必要がなくなる。 さらに検出した有音区間にマ一ジンを設定できる ようにしているので、 時間長にばらつきのない品質の良い CM映像を管理装置 に登録でき、 登録映像の品質向上の効果がある。
また本発明の包絡線の算出に用いたフィルタリング処理はパワースぺクト ルの計算よりも計算量が少ないので、パソコン等の小型の計算機で実現でき、 音声信号入力のサンプリング · レー卜が高くても計算が速く行える効果があ る。
このような映像中の有音区間の検出方法を実現する装置は、 パソコンのよ うな小型の計算機で実現でき、 安価な検出装置が達成できる。
産業上の利用可能性
以上のように本発明に係る有音区間の検出方法及び装置は、映像と音 声とで構成される CM画像の開始点と終了点を検出して CM画像を登録す る CM登録装置に利用するのに適している。
また、映画や T V番組に挿入された CM映像の区間を検出する CM検出 装置に利用することができる。

Claims

請 求 の 範 囲
1 . 映像に記録された音声信号を時系列に入力し、 該音声信号の波形の包絡 線を算出し、 該予め設定された音響レベルの閾値と該包絡線が交差する時点 を有音区間の開始点もしくは終了点として検出することを特徴とする映像中 の有音区間の始終点の検出方法。
2 . 請求の範囲第 1項において、 無音状態の経過時間長の下限を予め設定 し、 上記音声信号の波形の包絡線の値が上記音響レベルの閾値を下回つた経 過時間が該下限よりも長ければ、 該音響レベルの閾値と該包絡線が交差する 時点を有音区間の開始点もしくは終了点として検出することを特徴とする映 像中の有音区間の始終点の検出方法。
3 . 請求の範囲第 1項において、有音状態の経過時間長の下限を予め設定し、 上記音声信号の波形の包絡線の値が上記音響レベルの閾値を上回つた経過時 間が該下限よりも長ければ、 該音響レベルの閾値と該包絡線が交差する時点 を有音区間の開始点もしくは終了点として検出することを特徴とする映像中 の有音区間の始終点の検出方法。
4 . 請求の範囲第 1項において、 上記時系列に入力した音声信号に対して一 定の時間幅を有するフィルタリング処理を施して上記包絡線を算出すること を特徴とする映像中の有音区間の始終点の検出方法。
5 . 請求の範囲第 4項において上記フィルタリング処理では、 時系列に入力 した音声信号に対して一定の時間幅の最大値を順次求める最大値フィルタと 最小値を順次求める最小値フィルタとが用いられることを特徴とする映像中 の有音区間の始終点の検出方法。
6 . 請求の範囲第 1項において、 上記音響レベルの閾値は、 映像を再生しな いで無音の音声信号を数秒間入力し、 その際に生じるノイズの音響レベルの 最大値に設定されることを特徴とする映像中の有音区間の始終点の検出方法。
7 . ユーザが指定した所望の位置で映像を停止させる映像再生装置と、 映像 の音声トラックに記録された音声信号をディジタル信号として時系列に入力 する音声入力装置と、 入力した音声信号から有音区間の始終点を検出する音 声処理装置とから成り、 該音声処理装置には該音声信号の波形の包絡線を算 出する包絡線算出手段と、 該包絡線の値に対して音響レベルの閾値を予め設 定する閾値設定手段と、 該音響レベルの閾値と該包絡線が交差する時点を有 音区間の開始点もしくは終了点として検出する始終点検出手段と、 該有音区 間の開始点もしくは終了点を検出した時点の映像のフレーム位置を決めるフ レーム位置決定手段と、 該フレーム位置を表示するディスプレイ手段とを設 け、 該有音区間の開始点もしくは終了点のフレーム位置を表示させるように したことを特徴とする映像中の有音区間の始終点の検出装置。
8 . 請求の範囲第 7項において、 上記フレーム位置決定手段は、 検出処理開 始からの時間経過を計数するタイマー手段と、 映像のフレーム位置を読み出 す手段と、 始終点を検出した時点の経過時間とフレーム位置を読み出した時 点の経過時間を記憶する経過時間記憶手段と、 両者の経過時間の差分を用い て読み出したフレーム位置を補正するフレー厶位置補正手段とを有すること を特徴とする映像中の有音区間の始終点の検出装置。
9 . 請求の範囲第 7項において、 上記音声処理装置は、 更に、 該有音区間の 始終点のフレーム位置で映像の再生を停止させる手段を有することを特徴と する映像中の有音区間の始終点の検出装置。
1 0 . ユーザが指定した所望の位置で映像を停止させる映像再生装置と、 映 像の音声卜ラックに記録された音声信号をディジタル信号として時系列に入 力する音声入力装置と、 入力した音声信号から有音区間の始終点を検出する 音声処理装置とから成り、 該音声処理装置には該音声信号の波形の包絡線を 算出する包絡線算出手段と、 該包絡線の値に対して閾値のレベルを予め設定 する閾値設定手段と、 該包絡線が該閾値のレベルを初めて上回る時点を有音 区間の開始点として検出する開始点検出手段と、 該包絡線が該閾値のレベル を初めて下回る時点を有音区間の終了点として検出する終了点検出手段と、 該開始点および終了点を検出した時点の映像のフレーム位置を決めるフレー ム位置決定手段と、 該開始点および終了点のフレーム位置を個別に記憶する フレーム位置記憶手段と、 該開始点および終了点のフレーム位置を個別に表 示するディスプレイ手段とを設け、 該開始点および終了点のフレーム位置を 表示させるようにしたことを特徴とする映像中の有音区間の始終点の検出装 置。
1 1 . 請求の範囲第 1 0項において、 上記音声処理装置は、 時系列に入力し た音声信号を蓄積するバッファメモリ手段を有し、 有音区間の開始点および 終了点を検出したときに該区間の音声波形が表示されることを特徴とする映 像中の有音区間の始終点の検出装置。
1 2 . 請求の範囲第 1 0項において、 上記音声処理装置には、 入力した音声 信号及び有音区間の開始点および終了点を検出したときの該区間の音声信号 を再生する再生手段を有することを特徴とする映像中の有音区間の始終点の 検出装置。
1 3 . 請求の範囲第 1 0項において、 上記音声処理装置は、 予め定めた有音 区間の時間長の上限と許容範囲を設定する時間長設定手段と、 検出した有音 区間の開始点から終了点までの検出時間長と該設定時間長を比較する時間長 比較手段とを有し、 該検出時間長が該設定時間長に比べて短い場合は有音区 間の開始点を保持したまま次の有音区間の終了点を検出させ、 該設定時間長 に比べて長い場合は検出を終了して検出結果を却下させ、 該設定時間長の許 容範囲である場合は検出を終了して検出結果を保持させ、 該設定時間長の 2 倍の時間を超えても終了点が検出されない場合は検出を終了させることを特 徴とする映像中の有音区間の始終点の検出装置。
1 4 . 請求の範囲第 1 3項において、 上記有音区間の時間長の上限を 1 5秒 または 3 0秒とし、 該許容範囲は 1または 2秒とし、 検出処理対象の映像を コマーシャル映像としたことを特徴とする映像中の有音区間の始終点の検出
1 5 . 請求の範囲第 1 3項において、 上記音声処理装置は、 有音区間の開始 点の前方および終了点の後方に対してマ一ジンを設定するマ一ジン設定手段 を有し、有音区間の検出時間長が該設定時間長の該許容範囲内である場合に、 検出した開始点および終了点を前方および後方に時間をずらせた結果を有音 区間の開始点および終了点とさせるようにしたことを特徴とする映像中の有 音区間の始終点の検出装置。
1 6 . 音声信号と映像信号と〜なる動画像信号を準備し、上記動画像信 号を再生して上記音声信号と映像信号とを別々に入力し、上記音声信号 の音声波形において無音区間の連続性に基づき有音区間の始点を検出 し、上記有音区間のたち下がり点を終了点として検出し、上記有音区間 の始点と終了点とにより示される区間に対応する上記映像信号の映像 フレーム区間を抽出する有音区間の映像の始終点検出方法。
1 7 . 請求の範囲第 1 6項において、 上記映像信号から動画像を構成す るフレームを所定時間間隔で時系列に表示し、上記フレームの時系列の 表示に合わせて上記音声信号が示す音声波形と上記映像フレーム区間 を表す表示バーとを視覚的に表示し、上記映像フレーム区間バ一を表示 上の時間軸上変形することにより、上記映像フレーム区間の始点又は終 了点のフレーム番号を再設定することを特徴とする有音区間の映像の 始終点検出方法。
1 8 . 請求の範囲第 1 7項において、 上記音声は刑の包絡線を算出し、 予め設定された音響レへ の閾値と該包絡線が交差する時点を上記有音 区間の始点又は終了点とすることを特徴とする有音区間の映像の始終 点検出方法。
PCT/JP1997/000905 1997-03-19 1997-03-19 Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video WO1998041978A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP54032098A JP3753384B2 (ja) 1997-03-19 1997-03-19 映像中の有音区間の終始点の検出装置
US09/341,471 US6600874B1 (en) 1997-03-19 1997-03-19 Method and device for detecting starting and ending points of sound segment in video
PCT/JP1997/000905 WO1998041978A1 (fr) 1997-03-19 1997-03-19 Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video
EP97907389A EP0977172A4 (en) 1997-03-19 1997-03-19 METHOD AND DEVICE FOR DETERMINING THE START AND END POINT OF A SOUND SECTION IN VIDEO

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1997/000905 WO1998041978A1 (fr) 1997-03-19 1997-03-19 Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video

Publications (1)

Publication Number Publication Date
WO1998041978A1 true WO1998041978A1 (fr) 1998-09-24

Family

ID=14180261

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/000905 WO1998041978A1 (fr) 1997-03-19 1997-03-19 Procede et dispositif destines a detecter des points de depart et de terminaison d'une section son dans une sequence video

Country Status (4)

Country Link
US (1) US6600874B1 (ja)
EP (1) EP0977172A4 (ja)
JP (1) JP3753384B2 (ja)
WO (1) WO1998041978A1 (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049384A (ja) * 2000-08-02 2002-02-15 Sony Corp ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
WO2007017970A1 (ja) * 2005-08-11 2007-02-15 Mitsubishi Denki Kabushiki Kaisha 映像記録装置、シーンチェンジ抽出方法、及び映像音声記録装置
JP2007516450A (ja) * 2003-08-18 2007-06-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ デジタル音声信号におけるクリッキングノイズ検出
EP1953751A3 (en) * 2007-01-30 2008-12-17 Viktor Company of Japan Ltd. Reproduction device, reproduction method and computer usable medium having computer readable reproduction embodied therein
JP2009055620A (ja) * 2008-09-29 2009-03-12 Sony Corp 情報処理装置および方法、並びにプログラム
US7822569B2 (en) 2005-04-20 2010-10-26 Sony Corporation Specific-condition-section detection apparatus and method of detecting specific condition section
JP2011091859A (ja) * 2011-01-14 2011-05-06 Mitsubishi Electric Corp 映像記録装置、映像記録方法、映像音声記録装置、及び映像音声記録方法
US8195472B2 (en) 2001-04-13 2012-06-05 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US8213775B2 (en) 2004-12-27 2012-07-03 Sony Corporation Information processing apparatus and method, and program
JP2012209958A (ja) * 2012-06-08 2012-10-25 Mitsubishi Electric Corp 映像音声記録装置及び映像音声記録方法
US8488800B2 (en) 2001-04-13 2013-07-16 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
JP2019533189A (ja) * 2016-09-28 2019-11-14 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号処理方法、装置、およびシステム
WO2020198230A1 (en) * 2019-03-27 2020-10-01 On Time Staffing Inc. Automatic camera angle switching to create combined audiovisual file
US11023735B1 (en) 2020-04-02 2021-06-01 On Time Staffing, Inc. Automatic versioning of video presentations
US11127232B2 (en) 2019-11-26 2021-09-21 On Time Staffing Inc. Multi-camera, multi-sensor panel data extraction system and method
US11144882B1 (en) 2020-09-18 2021-10-12 On Time Staffing Inc. Systems and methods for evaluating actions over a computer network and establishing live network connections
US11423071B1 (en) 2021-08-31 2022-08-23 On Time Staffing, Inc. Candidate data ranking method using previously selected candidate data
US11727040B2 (en) 2021-08-06 2023-08-15 On Time Staffing, Inc. Monitoring third-party forum contributions to improve searching through time-to-live data assignments
US11907652B2 (en) 2022-06-02 2024-02-20 On Time Staffing, Inc. User interface and systems for document creation
US11961044B2 (en) 2019-03-27 2024-04-16 On Time Staffing, Inc. Behavioral data analysis and scoring system

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020120925A1 (en) * 2000-03-28 2002-08-29 Logan James D. Audio and video program recording, editing and playback systems using metadata
JP3070837U (ja) * 2000-02-08 2000-08-15 船井電機株式会社 ビデオテ―プレコ―ダ
GB0029861D0 (en) * 2000-12-07 2001-01-24 Sony Uk Ltd Replaying video information
US7058889B2 (en) * 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
US7072908B2 (en) * 2001-03-26 2006-07-04 Microsoft Corporation Methods and systems for synchronizing visualizations with audio streams
US7161887B2 (en) * 2001-11-13 2007-01-09 Digeo, Inc. Method and apparatus for extracting digital data from a medium
US20050065915A1 (en) * 2003-09-23 2005-03-24 Allen Wayne J. Method and system to add protocol support for network traffic tools
FR2880462A1 (fr) 2005-01-06 2006-07-07 Thomson Licensing Sa Procede de reproduction de documents comprenant des sequences alterees et, dispositif de reproduction associe
US20090226144A1 (en) * 2005-07-27 2009-09-10 Takashi Kawamura Digest generation device, digest generation method, recording medium storing digest generation program thereon and integrated circuit used for digest generation device
WO2007039998A1 (ja) * 2005-09-30 2007-04-12 Pioneer Corporation 本編外シーン抽出装置およびそのプログラム
JP4698453B2 (ja) * 2006-02-28 2011-06-08 三洋電機株式会社 コマーシャル検出装置、映像再生装置
US7904056B2 (en) * 2006-03-01 2011-03-08 Ipc Systems, Inc. System, method and apparatus for recording and reproducing trading communications
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
JP4909165B2 (ja) * 2007-04-24 2012-04-04 ルネサスエレクトロニクス株式会社 シーン変化検出装置、符号化装置及びシーン変化検出方法
JP4962783B2 (ja) * 2007-08-31 2012-06-27 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
JP2010074823A (ja) * 2008-08-22 2010-04-02 Panasonic Corp 録画編集装置
US8811793B2 (en) * 2008-12-23 2014-08-19 Sony Corporation Camera event logger
CN102073635B (zh) * 2009-10-30 2015-08-26 索尼株式会社 节目端点时间检测装置和方法以及节目信息检索系统
US9031384B2 (en) 2011-06-02 2015-05-12 Panasonic Intellectual Property Corporation Of America Region of interest identification device, region of interest identification method, region of interest identification program, and region of interest identification integrated circuit
US10133472B2 (en) * 2013-03-15 2018-11-20 Disney Enterprises, Inc. Gesture based video clipping control
CN105144200A (zh) * 2013-04-27 2015-12-09 数据飞讯公司 用于处理非结构化数字的基于内容的检索引擎
WO2015038121A1 (en) * 2013-09-12 2015-03-19 Thomson Licensing Video segmentation by audio selection
US8719032B1 (en) * 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US10438582B1 (en) * 2014-12-17 2019-10-08 Amazon Technologies, Inc. Associating identifiers with audio signals
JP6060989B2 (ja) * 2015-02-25 2017-01-18 カシオ計算機株式会社 音声録音装置、音声録音方法、及びプログラム
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
JP6553111B2 (ja) 2017-03-21 2019-07-31 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US11170760B2 (en) 2019-06-21 2021-11-09 Robert Bosch Gmbh Detecting speech activity in real-time in audio signal
CN110853622B (zh) * 2019-10-22 2024-01-12 深圳市本牛科技有限责任公司 语音断句方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60498A (ja) * 1983-06-17 1985-01-05 カシオ計算機株式会社 音声検出装置
JPS6029800A (ja) * 1983-07-29 1985-02-15 株式会社東芝 音声分析方式
JPH0528717A (ja) * 1991-07-22 1993-02-05 Sony Corp 表示装置
JPH06302160A (ja) * 1993-04-13 1994-10-28 Sony Corp 編集装置
JPH08205076A (ja) * 1995-01-20 1996-08-09 Canon Inc 動画像編集装置及び動画像編集方法
JPH08279962A (ja) * 1995-04-05 1996-10-22 Nec Eng Ltd Cm送出装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JPH0991928A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 映像の編集方法
TW333610B (en) * 1997-10-16 1998-06-11 Winbond Electronics Corp The phonetic detecting apparatus and its detecting method
US6134524A (en) * 1997-10-24 2000-10-17 Nortel Networks Corporation Method and apparatus to detect and delimit foreground speech

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60498A (ja) * 1983-06-17 1985-01-05 カシオ計算機株式会社 音声検出装置
JPS6029800A (ja) * 1983-07-29 1985-02-15 株式会社東芝 音声分析方式
JPH0528717A (ja) * 1991-07-22 1993-02-05 Sony Corp 表示装置
JPH06302160A (ja) * 1993-04-13 1994-10-28 Sony Corp 編集装置
JPH08205076A (ja) * 1995-01-20 1996-08-09 Canon Inc 動画像編集装置及び動画像編集方法
JPH08279962A (ja) * 1995-04-05 1996-10-22 Nec Eng Ltd Cm送出装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP0977172A4 *
TAKAFUMI MIYATAKE, HITOSHI MATSUSHIAMA, MASAKAZU EJIRI, "High-Speed Computing Method for Maximum/Minimum Image Filtering (in Japanese)", THE TRANSACTION OF IEICE, Vol. J78 D-II, No. 11, 25 November 1995, p. 1598-1607. *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4538704B2 (ja) * 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
JP2002049384A (ja) * 2000-08-02 2002-02-15 Sony Corp ディジタル信号処理方法及びディジタル信号処理装置並びにプログラム格納媒体
US8842844B2 (en) 2001-04-13 2014-09-23 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US8488800B2 (en) 2001-04-13 2013-07-16 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US10134409B2 (en) 2001-04-13 2018-11-20 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US8195472B2 (en) 2001-04-13 2012-06-05 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US9165562B1 (en) 2001-04-13 2015-10-20 Dolby Laboratories Licensing Corporation Processing audio signals with adaptive time or frequency resolution
JP4739023B2 (ja) * 2003-08-18 2011-08-03 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー デジタル音声信号におけるクリッキングノイズ検出
JP2007516450A (ja) * 2003-08-18 2007-06-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ デジタル音声信号におけるクリッキングノイズ検出
US8213775B2 (en) 2004-12-27 2012-07-03 Sony Corporation Information processing apparatus and method, and program
US7822569B2 (en) 2005-04-20 2010-10-26 Sony Corporation Specific-condition-section detection apparatus and method of detecting specific condition section
JP4707713B2 (ja) * 2005-08-11 2011-06-22 三菱電機株式会社 映像記録装置及びシーンチェンジ抽出方法
JPWO2007017970A1 (ja) * 2005-08-11 2009-02-19 三菱電機株式会社 映像記録装置、シーンチェンジ抽出方法、及び映像音声記録装置
WO2007017970A1 (ja) * 2005-08-11 2007-02-15 Mitsubishi Denki Kabushiki Kaisha 映像記録装置、シーンチェンジ抽出方法、及び映像音声記録装置
US8886014B2 (en) 2005-08-11 2014-11-11 Mitsubishi Electric Corporation Video recording apparatus, scene change extraction method, and video audio recording apparatus
US7714223B2 (en) 2007-01-30 2010-05-11 Victor Company Of Japan, Limited Reproduction device, reproduction method and computer usable medium having computer readable reproduction program emodied therein
EP1953751A3 (en) * 2007-01-30 2008-12-17 Viktor Company of Japan Ltd. Reproduction device, reproduction method and computer usable medium having computer readable reproduction embodied therein
JP2009055620A (ja) * 2008-09-29 2009-03-12 Sony Corp 情報処理装置および方法、並びにプログラム
JP2011091859A (ja) * 2011-01-14 2011-05-06 Mitsubishi Electric Corp 映像記録装置、映像記録方法、映像音声記録装置、及び映像音声記録方法
JP2012209958A (ja) * 2012-06-08 2012-10-25 Mitsubishi Electric Corp 映像音声記録装置及び映像音声記録方法
JP2019533189A (ja) * 2016-09-28 2019-11-14 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号処理方法、装置、およびシステム
US10984807B2 (en) 2016-09-28 2021-04-20 Huawei Technologies Co., Ltd. Multichannel audio signal processing method, apparatus, and system
US11922954B2 (en) 2016-09-28 2024-03-05 Huawei Technologies Co., Ltd. Multichannel audio signal processing method, apparatus, and system
WO2020198230A1 (en) * 2019-03-27 2020-10-01 On Time Staffing Inc. Automatic camera angle switching to create combined audiovisual file
US11961044B2 (en) 2019-03-27 2024-04-16 On Time Staffing, Inc. Behavioral data analysis and scoring system
US11863858B2 (en) 2019-03-27 2024-01-02 On Time Staffing Inc. Automatic camera angle switching in response to low noise audio to create combined audiovisual file
US11457140B2 (en) 2019-03-27 2022-09-27 On Time Staffing Inc. Automatic camera angle switching in response to low noise audio to create combined audiovisual file
US11127232B2 (en) 2019-11-26 2021-09-21 On Time Staffing Inc. Multi-camera, multi-sensor panel data extraction system and method
US11783645B2 (en) 2019-11-26 2023-10-10 On Time Staffing Inc. Multi-camera, multi-sensor panel data extraction system and method
US11636678B2 (en) 2020-04-02 2023-04-25 On Time Staffing Inc. Audio and video recording and streaming in a three-computer booth
US11184578B2 (en) 2020-04-02 2021-11-23 On Time Staffing, Inc. Audio and video recording and streaming in a three-computer booth
US11861904B2 (en) 2020-04-02 2024-01-02 On Time Staffing, Inc. Automatic versioning of video presentations
US11023735B1 (en) 2020-04-02 2021-06-01 On Time Staffing, Inc. Automatic versioning of video presentations
US11720859B2 (en) 2020-09-18 2023-08-08 On Time Staffing Inc. Systems and methods for evaluating actions over a computer network and establishing live network connections
US11144882B1 (en) 2020-09-18 2021-10-12 On Time Staffing Inc. Systems and methods for evaluating actions over a computer network and establishing live network connections
US11727040B2 (en) 2021-08-06 2023-08-15 On Time Staffing, Inc. Monitoring third-party forum contributions to improve searching through time-to-live data assignments
US11966429B2 (en) 2021-08-06 2024-04-23 On Time Staffing Inc. Monitoring third-party forum contributions to improve searching through time-to-live data assignments
US11423071B1 (en) 2021-08-31 2022-08-23 On Time Staffing, Inc. Candidate data ranking method using previously selected candidate data
US11907652B2 (en) 2022-06-02 2024-02-20 On Time Staffing, Inc. User interface and systems for document creation

Also Published As

Publication number Publication date
EP0977172A1 (en) 2000-02-02
EP0977172A4 (en) 2000-12-27
US6600874B1 (en) 2003-07-29
JP3753384B2 (ja) 2006-03-08

Similar Documents

Publication Publication Date Title
WO1998041978A1 (fr) Procede et dispositif destines a detecter des points de depart et de terminaison d&#39;une section son dans une sequence video
JP3454396B2 (ja) 動画像の変化点検出制御方法とそれに基づく再生停止制御方法およびそれらを用いた動画像の編集システム
US7260306B2 (en) Editing method for recorded information
US9269399B2 (en) Capture, syncing and playback of audio data and image data
US5946445A (en) Media recorder for capture and playback of live and prerecorded audio and/or video information
US20030040917A1 (en) Device and method for selective recall and preservation of events prior to decision to record the events
US20070113182A1 (en) Replay of media stream from a prior change location
KR100903160B1 (ko) 신호처리장치 및 방법
JPWO2007029479A1 (ja) 記録再生装置、記録再生方法、記録再生プログラムおよびコンピュータに読み取り可能な記録媒体
CA2477697A1 (en) Methods and apparatus for use in sound replacement with automatic synchronization to images
WO2006134883A1 (ja) コンテンツタグ付け支援装置およびコンテンツタグ付け支援方法
JP5444611B2 (ja) 信号処理装置、信号処理方法及びプログラム
US20030112260A1 (en) Information retrieval system and information processing system
JPH10191248A (ja) 映像編集方法およびその方法の手順を記録した記録媒体
US20070055979A1 (en) Method for recording of data stream on multiple recording media
US20080031108A1 (en) Digital Dubbing Device
JP3138168B2 (ja) 話速変換機能付磁気記録再生装置
JP3133698B2 (ja) テレビジョン放送信号の記録再生装置
US20040062526A1 (en) VCR manipulation of broadcast digital content
JP2008262647A (ja) 番組再生装置
JP4836198B2 (ja) テレビジョン放送のcm放送判定方法、放送番組再生方法及び放送番組記録再生装置
JP2001008157A (ja) コマーシャル記録装置
JP2006173715A (ja) 番組自動選択装置
CN115023760A (zh) 控制信号生成电路、接收装置、系统、生成方法以及非易失性存储介质
JPH118835A (ja) テレビジョン放送の記録再生装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09341471

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1997907389

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1997907389

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1997907389

Country of ref document: EP