DE19983916B4 - Method and device for editing a video recording with an audio selection - Google Patents

Method and device for editing a video recording with an audio selection Download PDF

Info

Publication number
DE19983916B4
DE19983916B4 DE19983916T DE19983916T DE19983916B4 DE 19983916 B4 DE19983916 B4 DE 19983916B4 DE 19983916 T DE19983916 T DE 19983916T DE 19983916 T DE19983916 T DE 19983916T DE 19983916 B4 DE19983916 B4 DE 19983916B4
Authority
DE
Germany
Prior art keywords
audio
video
content
received signal
audio content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19983916T
Other languages
German (de)
Other versions
DE19983916T1 (en
Inventor
Theresa A. Alexander
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Priority claimed from PCT/US1999/002042 external-priority patent/WO2000045597A1/en
Publication of DE19983916T1 publication Critical patent/DE19983916T1/en
Application granted granted Critical
Publication of DE19983916B4 publication Critical patent/DE19983916B4/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/21Disc-shaped record carriers characterised in that the disc is of read-only, rewritable, or recordable type
    • G11B2220/213Read-only discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2508Magnetic discs
    • G11B2220/2512Floppy disks
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2545CDs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2562DVDs [digital versatile discs]; Digital video discs; MMCDs; HDCDs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2587Laser Discs; Optical disc using analog recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/40Combinations of multiple record carriers
    • G11B2220/41Flat as opposed to hierarchical combination, e.g. library of tapes or discs, CD changer, or groups of record carriers that together store one title
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/90Tape-like record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/032Electronic editing of digitised analogue information signals, e.g. audio or video signals on tapes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/775Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver

Abstract

Ein maschinen-implementiertes Verfahren, umfassend:
Empfangen eines einen Videoinhalt enthaltenden Signals;
Analysieren des Videoinhalts des empfangenen Signals, um sichtbare Merkmale des Videoinhalts zu ermitteln; und
Ermitteln einer geeigneten Audio-Inhalt-Auswahl aus einer Mehrzahl verfügbarer Audio-Inhalt-Auswahlen, mit welcher das empfangene Signal ergänzt werden soll, wenigstens teilweise auf der Grundlage der ermittelten sichtbaren Merkmale des Videoinhalts;
Bestimmen eines Aufzeichnungspegels für die ermittelte Audio-Inhalt-Auswahl, bei welchem der Audioinhalt des empfangenen Signals mit der ermittelten Audio-Inhalt-Auswahl angereichert werden soll, wobei
bestimmt wird, ob das empfangene Signal einen Audioinhalt enthält,
sofern festgestellt worden ist, daß das empfangene Signal einen Audioinhalt enthält, Ermitteln eines Audio-Attributs, welches anzeigt, ob der Audio-Inhalt Sprache enthält, und
der Aufzeichnungspegel wenigstens teilweise in Abhängigkeit von dem ermittelten Audio-Attribut ausgewählt wird; und
Ergänzen des empfangenen Signals mit der ermittelten Audio-Inhalt-Auswahl unter Verwendung des bestimmten Aufzeichnungspegels, so daß ein zusammengesetztes Audio/Video(A/V)-Signal gebildet wird, das zumindest den Videoinhalt...
A machine-implemented method comprising:
Receiving a video content containing signal;
Analyzing the video content of the received signal to determine visual characteristics of the video content; and
Determining, based at least in part on the determined visible features of the video content, an appropriate audio content selection from a plurality of available audio content selections to supplement the received signal;
Determining a recording level for the determined audio content selection in which the audio content of the received signal is to be enriched with the determined audio content selection, wherein
it is determined whether the received signal contains an audio content,
if it has been determined that the received signal contains audio content, determining an audio attribute indicating whether the audio content contains speech, and
the recording level is selected at least in part depending on the determined audio attribute; and
Completing the received signal with the determined audio content selection using the particular recording level to form a composite audio / video (A / V) signal that at least captures the video content ...

Figure 00000001
Figure 00000001

Description

HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION

1. Gebiet der Erfindung1. Field of the invention

Die vorliegende Erfindung bezieht sich auf das Gebiet der Unterhaltungssysteme und insbesondere auf ein Verfahren und eine Einrichtung zum Bearbeiten einer Videoaufzeichnung mit einer Audio-Auswahl.The The present invention relates to the field of entertainment systems and more particularly to a method and apparatus for editing a video recording with an audio selection.

2. Hintergrundinformationen2. Background information

Zahlreiche Fortschritte wurden in den letzten Jahren auf dem Gebiet der Konsumgüterelektronik im allgemeinen und der Unterhaltungssysteme im besonderen gemacht. Tatsächlich haben viele Haushalte in den Vereinigten Staaten nunmehr einen Fernseher und ein Video-Aufzeichnungs/Wiedergabe-Gerät, beispielsweise einen Videokassettenrekorder, eine Digital Versatile Disk (a. k. a. Digital Video Disk oder DVD), einen Laserplattenspieler und dergleichen. Darüber hinaus haben zunehmend mehr Haushalte heutzutage Videokameras, die üblicherweise auch als ”Camcorder” bezeichnet werden, mit welchen sie ihre eigenen Filme herstellen, beispielsweise in Audio und Video einen Kindergeburtstag, ein Fußballspiel, Ferien und dergleichen dokumentieren. In gleicher Weise werden, obwohl die ”Stand”-Bilder noch nicht vollständig ersetzt worden sind, viele Hochzeiten heutzutage auf Videobänder sowie in einem Fotoalbum aufgezeichnet.numerous Progress has been made in the field of consumer electronics in recent years general and entertainment systems in particular. Indeed Many households in the United States now have a television and a video recording / reproducing apparatus such as a video cassette recorder, a Digital Versatile Disk (not limited to Digital Video Disk or DVD), a laser disk player and the like. In addition, increasingly have More households today video cameras, which is commonly referred to as a "camcorder" for example, with which they make their own films in audio and video a children's birthday, a football game, Holidays and the like document. In the same way, although the "still" pictures are still not completely Many weddings nowadays have been replaced on videotapes as well recorded in a photo album.

Fortgeschrittenere Modelle dieser bekannten Videokameras weisen Merkmale auf, welche es einem Benutzer gestatten, die Aufzeichnung zu editieren und zu bearbeiten. Beispielsweise gestatten es einige Videokameras einem Benutzer, die Aufzeichnung dahingehend zu bearbeiten, daß ein Titel oder ein Vor- oder Abspann, beispielsweise zum Beginn der Aufzeich nung hinzugefügt wird. Einige Videokameras gestatten es einem Benutzer, ”einzublenden/auszublenden”, beispielsweise langsam aus einem ”verschwommenen” Bild zu einem klaren Bild zu fokussieren oder von einem vollständig schwarzen Bild zu einem klaren Bild und umgekehrt. In ähnlicher Weise enthalten einige der fortgeschritteneren Video-Aufzeichnungs/Wiedergabe-Geräte Merkmale, welche es einem Benutzer gestatten, eine Aufzeichnung zu editieren, um einen Titel oder einen Vorspann oder Abspann zu einer Videoaufzeichnung hinzuzufügen.More advanced Models of these known video cameras have features which Allow a user to edit and record the recording to edit. For example, some video cameras allow one User to edit the record to a title or a creditor or creditor, for example, at the beginning of the Aufzeich statement added becomes. Some video cameras allow a user to "show / hide", for example slowly out of a "blurry" image too to focus on a clear picture or of a completely black picture to a clear picture and vice versa. Similarly, some contain the more advanced video recording / playback devices features which Allow a user to edit a recording add a title or credo or credits to a video recording.

Keine der vorgenannten A/V-Geräte gestattet es jedoch einem Benutzer, eine Videoaufzeichnung so zu bearbeiten, daß ein Audioinhalt, beispielsweise ein Musik-Soundtrack, ein Gedicht, Sonett oder ein anderes anreicherndes Audiosignal, hinzugefügt wird, ohne den ursprünglichen Audioinhalt der Videoaufzeichnung zu ersetzen. Wenn es beispielsweise jemand wünschte, Hintergrundmusik zu seiner Videoaufzeichnung des Ozeans unter Verwendung der Heim-A/V-Ausrüstung, die im Stand der Technik typisch war, hinzuzufügen, so mußte er die Audiospur der Videoaufzeichnung neu aufzeichnen, wodurch der Klang des Ozeans durch die ”Hintergrund”-Musik ersetzt wurde, welche dann zu dem primären Audioinhalt der Videoaufzeichnung wurde. Fachleute erkennen, daß ein Audio”mischer”, beispielsweise ein Gerät, welches zwei Signale empfängt und sie zu einem zusammengesetzten Signal kombiniert, der bei professionellen Bearbeitungsausrüstungen üblich ist, dieses Dilemma gut lösen könnte und es einem Bearbeiter ermöglichen könnte, die Videoaufzeichnung mit Audiosignalen anzureichern. Jedoch sind Audiomischer, die für professionelle Bearbeitungssysteme typisch sind, teuer und schwierig zu installieren und zu benutzen. Das heißt, im Stand der Technik typische Audiomischer erfordern, daß der Benutzer einen Audioinhalt auswählt, mit welchem die Videoaufzeichnung angereichert werden soll, wobei der Benutzer gefordert ist, die Audio-Auswahl mit dem primären Audioinhalt zu synchronisie ren und die verschiedenen Pegel (z. B. Lautstärke) des Audiosignals einzustellen.None the aforementioned A / V devices however, allows a user to record a video edit that one Audio content, such as a music soundtrack, a poem, sonnet or another enriching audio signal, is added, without the original one Replace audio content of video recording. For example someone wished Background music to his video recording of the ocean using home A / V equipment, which was typical in the art to add, so he had the audio track of the video recording re-record, reducing the sound of the ocean through the "background" music which then becomes the primary audio content of the video record has been. Professionals recognize that Audio "mixer", for example a machine, which receives two signals and combined them into a composite signal that is professional Machining equipment is common, solve this dilemma well could and make it possible for an editor could, to enrich the video recording with audio signals. However, they are Audio mixer for professional machining systems are typical, expensive and difficult to handle install and use. That is, typical in the art Audio mixers require that User chooses an audio content, with which the video recording is to be enriched, where the user is required to select the audio with the primary audio content to synchronize and the different levels (eg volume) of the To adjust the audio signal.

Bestimmte Technologien und Diagnostiken erzeugen Audio-Signale auf Basis von Video-Attributen eines bewegten Bildes. Beispielsweise ist aus der Druckschrift US 5,548,346 ein Verfahren zur Analyse eines empfangenen Video-Signals und eines empfangenen Audio-Signals bekannt, wobei Video-Merkmalsinformationen zur Bestimmung einer geeigneten Anpassung der Lautstärke verwendet werden. Ferner ist aus der Druckschrift EP 1 020 843 A1 ein Verfahren zur automatischen Komposition von Hintergrundmusik für ein bewegtes Bild auf Basis eines ermittelten Merkmals bekannt, das Video-Informationen des bewegten Bildes beschreibt. Darüber hinaus ist beispielsweise aus der JP 6-186958 ein Verfahren zur Anpassung von Bilddaten bekannt, indem Attribute der Bildddaten in Klangattribute konvertiert werden und Musik unter Verwendung der Klangattribute komponiert wird.Certain technologies and diagnostics generate audio signals based on video attributes of a moving image. For example, from the document US 5,548,346 a method for analyzing a received video signal and a received audio signal, wherein video feature information is used to determine a suitable adjustment of the volume. Furthermore, from the document EP 1 020 843 A1 discloses a method of automatically composing background music for a moving picture based on a detected feature describing video information of the moving picture. In addition, for example, from the JP 6-186958 A method of adjusting image data by converting attributes of the image data into sound attributes and composing music using the sound attributes.

Somit würde selbst dann, wenn die Kosten eines solchen professionellen Mischers nicht unerschwinglich teuer wären, ein typischer Heimunterhaltungssystembenutzer es dennoch äußerst schwierig finden, einen professionellen Audiomischer zu benutzen, um seine Heimfilme zu bearbeiten. Obwohl es wünschenswert wäre, in der Lage zu sein, eine Hintergrundmusik oder andere Audioeffekte zu Heimfilmen hinzuzufügen, hat demzufolge die Konsumgüterelektronikindustrie bisher dieses Erfordernis nicht befriedigt.Consequently would be self then, if the cost of such a professional mixer is not would be prohibitively expensive, a typical home entertainment system user will still find it extremely difficult to use a professional audio mixer for his home movies to edit. Although it is desirable would be, in able to be a background music or other audio effects to add home movies, therefore has the consumer electronics industry so far this requirement is not satisfied.

Es ist somit ein Bedürfnis vorhanden nach einem Verfahren und einer Einrichtung zum Bearbeiten einer Videoaufzeichnung mit einer Audio-Auswahl, das bzw. die nicht durch die vorgenannten Defizite und Beschränkungen, die dem Stand der Technik anhaften, belastet ist.Thus, there is a need for a method and apparatus for editing a video recording with an audio selection that is not burdened by the aforementioned deficiencies and limitations inherent in the prior art.

ZUSAMMENFASSENDE DARSTELLUNG DER ERFINDUNGSUMMARY OF THE INVENTION

Gemäß den Lehren der vorliegenden Erfindung werden ein Verfahren mit den Merkmalen des Anspruchs 1 und eine Einrichtung mit den Merkmalen des Anspruchs 6 zum Bearbeiten einer Videoaufzeichnung mit einer Audio-Auswahl zur Verfügung gestellt, wobei nach Anspruch 15 die Einrichtung einen Bestandteil eines Videobearbeitungssystems bildet oder nach Anspruch 21 die Einrichtung als elektronisches Gerät ausgebildet ist.According to the teachings The present invention provides a method having the features of claim 1 and a device having the features of the claim 6 for editing a video recording with an audio selection made available, wherein according to claim 15, the device is part of a video processing system forms or according to claim 21, the device as electronic Device trained is.

KURZBESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS

Die vorliegende Erfindung wird anhand von Ausführungsbeispielen, aber nicht im Sinne einer Einschränkung, beschrieben, die in den beigefügten Zeichnungen veranschau licht sind, in welche gleiche Bezugszeichen ähnliche Elemente bezeichnen und in welchen:The The present invention will be described by way of example but not by way of example in the sense of a restriction, described in the attached drawings are illustrated, in which like reference numerals similar Denote elements and in which:

1 eine Blockdarstellung ist, die ein Unterhaltungssystem veranschaulicht, das die Lehren der vorliegenden Erfindung enthält; 1 Figure 12 is a block diagram illustrating an entertainment system incorporating the teachings of the present invention;

2 eine Blockdarstellung eines A/V-Bearbeitungssystems gemäß einem Ausführungsbeispiel der vorliegenden Erfindung ist; 2 Fig. 10 is a block diagram of an A / V processing system according to an embodiment of the present invention;

3 ein Ablaufdiagramm eines Ausführungsbeispiels eines Verfahrens zum automatischen Anreichern einer Videoaufzeichnung mit einer Audio-Auswahl gemäß den Lehren der vorliegenden Erfindung veranschaulicht; 3 Fig. 3 illustrates a flow diagram of one embodiment of a method for automatically enriching a video recording with an audio selection in accordance with the teachings of the present invention;

4 eine Veranschaulichung eines Beispiels eines Videokanals des empfangenen A/V-Signals ist, das Quantisierungsfelder zeigt, die verwendet werden, um die visuellen Attribute des A/V-Signals zu charakterisieren, gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; 4 Figure 4 is an illustration of an example of a video channel of the received A / V signal showing quantization fields used to characterize the visual attributes of the A / V signal, according to an embodiment of the present invention;

5 ein Ablaufdiagramm eines Beispiels eines Verfahrens zum automatischen Charakterisieren des primären Audioinhalts einer Videoaufzeichnung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht; 5 Fig. 10 illustrates a flowchart of an example of a method for automatically characterizing the primary audio content of a video record according to one embodiment of the present invention;

6 eine Darstellung eines Beispiels einer Audio-Auswahl-Datenbank gemäß einem Ausführungsbeispiel der vorliegenden Erfindung ist; 6 Fig. 10 is an illustration of an example of an audio selection database according to an embodiment of the present invention;

7 eine Blockdarstellung eines Beispielcomputersystems ist, das zur Verwendung als A/V-Bearbeitungssystem gemäß einem Ausführungsbeispiel der vorliegenden Erfindung geeignet ist; und 7 Fig. 10 is a block diagram of an example computer system suitable for use as an A / V editing system according to one embodiment of the present invention; and

8 eine Blockdarstellung ist, die eine Beispielsoftwarearchitektur zum Implementieren eines A/V-Bearbeitungssystems gemäß einem Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht. 8th 10 is a block diagram illustrating a sample software architecture for implementing an A / V editing system according to one embodiment of the present invention.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

In der folgenden Beschreibung werden aus Gründen der Erläuterung spezielle Anzahlen, Materialien und Konfiguratio nen angegeben, um ein besseres Verständnis der vorliegenden Erfindung zu erreichen. Für einen Fachmann ist es jedoch klar, daß die vorliegende Erfindung auch ohne die speziellen Details ausgeführt werden kann. An anderen Stellen werden bekannte Merkmale zur Erleichterung der Erläuterung fortgelassen oder vereinfacht. Darüber hinaus werden aus Gründen eines leichteren Verständnisses bestimmte Verfahrensschritte als separate Schritte abgegrenzt, wobei jedoch diese separat abgegrenzten Schritte nicht so ausgelegt werden sollten, daß ihre Leistungsfähigkeit notwendigerweise von der Reihenfolge abhängt.In The following description will be made for explanatory purposes specified numbers, materials and configurations to a better understanding to achieve the present invention. However, it is for a specialist clear that the present Invention can be performed without the special details can. Elsewhere, familiar features become easier the explanation omitted or simplified. In addition, for the sake of a easier understanding certain process steps delimited as separate steps, wherein however, these separately delineated steps will not be construed that way should that theirs capacity necessarily depends on the order.

Wenden wir uns 1 zu, in der eine Blockdarstellung gezeigt ist, die ein Beispiel eines Unterhaltungssystems veranschaulicht, das die Lehren der vorliegenden Erfindung verkörpert. Gemäß dem veranschaulichten Ausführungsbeispiel der 1 ist ein Unterhaltungssystem 100 gezeigt, das ein Audio/Video (A/V)-Bearbeitungssystem oder -Editiersystem 128 enthält, das die Lehren der vorliegenden Erfindung verkörpert. Wie detaillierter unten beschrieben wird, empfängt gemäß einem Ausführungsbeispiel der vorliegenden Erfindung das A/V-Bearbeitungssystem 128 ein Signal aus einem Video-Aufzeichnungs/Wiedergabe-Gerät, das einen Videoinhalt in einem Videostrom und optional einen Audioinhalt in einem Audiostrom des empfangenen Signals (das im folgenden allgemein als A/V-Signal bezeichnet wird) enthält, wobei das A/V-Bearbeitungssystem 128 den Videoinhalt des empfangenen A/V-Signals analysiert, wobei es visuelle Attribute identifiziert, welche den Videoinhalt charakterisieren, und wobei das A/V-Bearbeitungssystem 128 zumindest zum Teil auf der Grundlage der identifizierten visuellen Attribute eine geeignete Audio-Auswahl aus einer Mehrzahl verfügbarer Audio-Auswahlen identifiziert, mit welcher das empfangene A/V-Signal angereichert werden soll. Dementsprechend ist es einem Fachmann klar, daß das Unterhaltungssystem 100, das das innovative A/V-Bearbeitungssystem 128 enthält, für einen Benutzer eines solchen Unterhaltungssystems das Mittel zum au tomatischen Editieren oder Bearbeiten und Anreichern von Heimfilmen und anderen Videoaufzeichnungen mit automatisch ausgewählten Auto-Auswahlen zur Verfügung stellt.Let us turn 1 in which a block diagram illustrating an example of an entertainment system embodying the teachings of the present invention is shown. According to the illustrated embodiment of the 1 is an entertainment system 100 shown an audio / video (A / V) editing system or editing system 128 which embodies the teachings of the present invention. As will be described in more detail below, according to an embodiment of the present invention, the A / V processing system receives 128 a signal from a video recording / reproducing apparatus containing a video content in a video stream and optionally an audio content in an audio stream of the received signal (which is generally referred to as an A / V signal hereinafter), the A / V processing system 128 analyzes the video content of the received A / V signal, identifying visual attributes that characterize the video content, and the A / V editing system 128 identifying at least in part, on the basis of the identified visual attributes, a suitable audio selection from a plurality of available audio selections with which the received A / V signal is to be enriched. Accordingly, it is clear to a person skilled in the art that the entertainment system 100 that's the innovative A / V editing system 128 includes for a user of such an entertainment system the means for automatically editing or editing and enriching home movies and other video recordings with automatically selected ones Auto selections provides.

Wie es bei dem veranschaulichten Ausführungsbeispiel gemäß 1 gezeigt ist, kann das A/V-Bearbeitungssystem 128 gut mit einer großen Vielzahl von A/V-Komponenten benutzt werden. Gemäß 1 ist ein Unterhaltungssystem 100 gezeigt, das Signallenkmultiplexer 108 und 112, eine Mehrzahl von Video-Aufzeichnungs/Wiedergabe-Geräten, beispielsweise einen Videokassettenrekorder (VCR) 116, eine Digital Versatile Disk (a. k. a. Digital Video Disk oder DVD) 118, eine Laserplatte 120, eine Videokamera 122 und dergleichen, einen Fernsehmonitor 126 und eine Mehrzahl von Audiokomponenten, die kumulativ als Audiosystem 132 bezeichnet sind, die jeweils miteinander kommunizierend in dem System 100 gekoppelt sind, wie es in 1 gezeigt ist, enthält. Mit Ausnahme des A/V-Bearbeitungssystems 128, in dem die Lehren der vorliegenden Erfindung verkörpert sind, soll jedes der Elemente des Systems 100 eine große Vielzahl üblicherweise erhältlicher A/V-Komponenten repräsentieren und braucht insoweit, wie seine jeweiligen Funktionen und Merkmale im Stand der Technik gut bekannt sind, hier nicht näher beschrieben zu werden.As in the illustrated embodiment according to 1 can be shown, the A / V processing system 128 to be used well with a large variety of A / V components. According to 1 is an entertainment system 100 shown, the signal call multiplexer 108 and 112 , a plurality of video recording / playback devices, such as a video cassette recorder (VCR) 116 , a Digital Versatile Disk (aka Digital Video Disk or DVD) 118 , a laser plate 120 , a video camera 122 and the like, a television monitor 126 and a plurality of audio components cumulatively used as an audio system 132 each communicating with each other in the system 100 are coupled, as is in 1 is shown contains. Except for the A / V editing system 128 In which the teachings of the present invention are embodied, it is intended that each of the elements of the system 100 a large variety of commonly available A / V components, and as far as their respective functions and features are well known in the art, represent and need not be described further here.

Wie es bei dem Unterhaltungssystem 100 gemäß 1 veranschaulicht ist, kann das A/V-Signal aus irgendeiner einer Reihe von Quellen herrühren. Bei dem veranschaulichten Beispiel gemäß 1 ist das Unterhaltungssystem 100 in der Lage, ein A/V-Signal aus drahtlosen Quellen und/oder drahtgebundenen Quellen zu empfangen. Das heißt, das A/V-Bearbeitungssystem 128 kann das A/V-Signal über irgendeine einer Reihe von Rundfunkquellen empfangen, beispielsweise über Antenne 102 empfangene Fernsehrundfunksendungen 103 oder über Satellitenschüsselantenne 104 empfangene Satellitenrundfunksendungen 105. In ähnlicher Weise empfängt das Unterhaltungssystem 100 außerdem A/V-Signale aus drahtgebundenen Quellen, wie beispielsweise Internet-Ressourcen, In tranet-Ressourcen und Kabelfernsehsendungen über Leitung 106. So soll gemäß dem veranschaulichten Ausführungsbeispiel der 1 die Leitung 106 irgendeines einer Vielzahl von drahtgebundenen Transportmedien repräsentieren, die beispielsweise eine einfache alte Telefon(POTS)-Leitung, eine Leitung eines Integrated Services Digital Network (ISDN), eine Kabelleitung, eine Ethernet-Leitung, eine T1/E1-Leitung, etc. einschließen, die ein A/V-Signal aus einer entsprechenden Vielzahl von drahtgebundenen Dienstanbietern zur Verfügung stellt. In ähnlicher Weise kann das A/V-Bearbeitungssystem 128 das A/V-Signal aus irgendeinem der oben beschriebenen Mehrzahl von Video-Aufzeichnungs/Wiedergabe-Geräten (116122) empfangen. Bei einem alternativen Ausführungsbeispiel könnten der Fernsehmonitor 126 und das A/V-Bearbeitungssystem 128 ein Rundfunk-A/V-Signal direkt aus den einzelnen Antennen/Drahtleitungsquellen oder aus dem Multiplexer 108 über die Leitung 110 empfangen. Folglich ist es Fachleuten klar, daß das System 100 nur ein Beispiel ist, das die mannigfaltige Natur der Signalquellen, die für das A/V-Bearbeitungssystem 128 verfügbar sind, veranschaulichen soll, und daß Systeme mit mehr oder weniger Fähigkeiten alternativ verwendet werden können, ohne vom Geist und Umfang der vorliegenden Erfindung abzuweichen.As for the entertainment system 100 according to 1 is illustrated, the A / V signal may originate from any of a number of sources. In the illustrated example according to FIG 1 is the entertainment system 100 able to receive an A / V signal from wireless sources and / or wired sources. That is, the A / V editing system 128 can receive the A / V signal via any of a number of broadcast sources, for example via antenna 102 received television broadcasts 103 or via satellite dish antenna 104 received satellite broadcasts 105 , Similarly, the entertainment system receives 100 also A / V signals from wired sources, such as Internet resources, intranet resources and cable television broadcasts over line 106 , Thus, according to the illustrated embodiment of the 1 The administration 106 represent any of a variety of wired transport media including, for example, a plain old telephone (POTS) line, an Integrated Services Digital Network (ISDN) line, a cable line, an Ethernet line, a T1 / E1 line, etc. which provides an A / V signal from a corresponding plurality of wired service providers. Similarly, the A / V processing system 128 the A / V signal from any of the above-described plurality of video recording / playback devices ( 116 - 122 ) received. In an alternative embodiment, the television monitor 126 and the A / V editing system 128 a broadcast A / V signal directly from the individual antennas / wireline sources or from the multiplexer 108 over the line 110 receive. Consequently, it is clear to those skilled in the art that the system 100 just one example is that of the varied nature of the signal sources used for the A / V editing system 128 are available, and that systems with more or less capabilities can alternatively be used without departing from the spirit and scope of the present invention.

Bei einem Ausführungsbeispiel kann das A/V-Bearbeitungssystem 128 ein Computersystem sein, in dem die Lehren der vorliegenden Erfindung verwirklicht sind, wie unten unter Bezugnahme auf 7 näher erörtert werden wird. Bei einem anderen Ausführungsbeispiel kann das A/V-Bearbeitungssystem 128 eine ”Set-Top”-Box sein, die mit der erforderlichen Bearbeitungsleistung ausgestattet ist und in der die Lehren der vorliegenden Erfindung verkörpert sind. Alternativ kann das A/V-Bearbeitungssystem 128 gut in den einzelnen Elementen in dem System 100 (beispielsweise Fernsehsystem oder Videokassettenrekorder) enthalten sein. So soll gemäß dem veranschaulichten Ausführungsbeispiel der 1 das System 100 ein beliebiges einer Anzahl von Unterhaltungssystemen repräsentieren, die in vielen Haushalten zu finden sind, und die in der Lage sind, ein A/V-Signal aus irgendeiner einer Reihe von alternativen Quellen zu empfangen.In one embodiment, the A / V processing system 128 a computer system embodying the teachings of the present invention as described below with reference to FIG 7 will be discussed in more detail. In another embodiment, the A / V processing system 128 a "set-top" box equipped with the required processing power and embodying the teachings of the present invention. Alternatively, the A / V processing system 128 good in the individual elements in the system 100 (For example, television system or video cassette recorder). Thus, according to the illustrated embodiment of the 1 the system 100 represent any of a number of entertainment systems found in many homes and capable of receiving an A / V signal from any of a number of alternative sources.

Nachdem eine Einführung in das Konzept des innovativen A/V-Bearbeitungssystems 128 oben im Kontext des Unterhaltungssystems 100 gegeben wurde, stellt 2 eine Blockdarstellung zur Verfügung, welche eine Beispielarchitektur das A/V-Bearbeitungssystems 200 veranschaulicht, das zur Verwendung in dem Unterhaltungssystem 100 geeignet ist und die Lehren der vorliegenden Erfindung verkörpert. Bei dem veranschaulichten Ausführungsbeispiel gemäß 2 ist das A/V-Bearbeitungssystem 200 so gezeigt, daß es ein Videoanalysemodul 202, ein Audioanalysemodul 208, eine Steuereinrichtung 206, eine Anzeigeeinrichtung 216, eine Benutzereingabeeinrichtung 218 und Audiodateien 212 aufweist, die jeweils kommunikativ in der gezeigten Weise miteinander gekoppelt sind. Obwohl gezeigt ist, daß sich die Audiodateien 212 bei dem veranschaulichten Ausführungsbeispiel gemäß 2 außerhalb der Steuereinrichtung 206 befinden, werden Fachleute erkennen, daß solche Audiodateien gut in einer (nicht gezeigten) Massenspeichereinrichtung innerhalb der Steuereinrichtung 206 gespeichert sein können. Darüber hinaus ist es Fachleuten klar, daß bei alternativen Ausführungsbeispielen die Audiodateien 212 ebensogut an einem fernen Ort angeordnet sein können, auf den über das Internet und die Leitung 106 zugegriffen werden kann, oder daß die Audiodateien 212 ebensogut in einem Audiosystem (z. B. dem Audiosystem 132) angeordnet sein können, wobei die Leitung 214 die Verbindung zwischen dem A/V-Bearbeitungssystem 200 und dem Audiosystem repräsentiert. In ähnlicher Weise könnte bei einem alternativen Ausführungsbeispiel die Anzeigeeinrichtung 216 beseitigt werden, indem der Fernsehmonitor 126 als Videoanzeige für das A/V-Bearbeitungssystem 200 verwendet wird.Having an introduction to the concept of innovative A / V editing system 128 above in the context of the entertainment system 100 was given 2 a block diagram illustrating an example architecture of the A / V editing system 200 illustrates this for use in the entertainment system 100 is suitable and embodies the teachings of the present invention. In the illustrated embodiment according to 2 is the A / V editing system 200 shown to be a video analysis module 202 , an audio analysis module 208 , a control device 206 , a display device 216 , a user input device 218 and audio files 212 each communicatively coupled in the manner shown. Although it is shown that the audio files 212 according to the illustrated embodiment 2 outside the control device 206 Those skilled in the art will recognize that such audio files reside well in a mass storage device (not shown) within the controller 206 can be stored. In addition, it will be apparent to those skilled in the art that in alternative embodiments, the audio files 212 may as well be located in a distant place, over the Internet and the line 106 can be accessed, or that the audio files 212 just as well in an audio system (eg the audio system 132 ), wherein the conduit 214 the connection between the A / V Bear beitungssystem 200 and the audio system. Similarly, in an alternative embodiment, the display could 216 be eliminated by the television monitor 126 as a video display for the A / V editing system 200 is used.

Nachdem die Architekturbeschreibung des Beispiel-A/V-Bearbeitungssystems in 2 zur Verfügung gestellt worden ist, soll ein Beispielverfahren zum automatischen Anreichern einer Videoaufzeichnung mit einer Audio-Auswahl gemäß den Lehren der vorliegenden Erfindung unter Bezugnahme auf das in 3 gezeigte Ablaufdiagramm entwickelt werden. Insbesondere soll aus Gründen der Erläuterung und nicht in einem einschränkenden Sinne die Betriebsweise des A/V-Bearbeitungssystems 200 unter Bezugnahme auf 3 und fortgesetzte Bezugnahme auf 2 entwickelt werden. Wie es in 3 veranschaulicht ist, beginnt das Beispielverfahren zum automatischen Anreichern einer Videoaufzeichnung mit einer Audio-Auswahl mit dem anfänglichen Schritt des Bestimmens, ob die Anreicherungsfunktion freigegeben ist, Schritt 302. Dies soll heißen, daß bei einem Ausführungsbeispiel ein Benutzer des A/V-Bearbeitungssystems 200 das Audioanreicherungsmerkmal über eine Benutzereingabeeinrichtung 218 sperren könnte. Wenn im Schritt 302 festgestellt wird, daß das Audioanreicherungsmerkmal des A/V-Bearbeitungssystems 200 gesperrt worden ist, fährt die Bearbeitungssitzung ohne automatische Audioanreicherung fort, Schritt 304.After the architectural description of the example A / V editing system in FIG 2 is an example method for automatically enriching a video recording with an audio selection according to the teachings of the present invention with reference to the in 3 shown flowchart are developed. In particular, for purposes of explanation and not limitation, the operation of the A / V processing system is intended to be 200 with reference to 3 and continued reference to 2 be developed. As it is in 3 1, the example method for automatically enriching a video recording with an audio selection begins with the initial step of determining whether the enrichment function is enabled, step 302 , That is, in one embodiment, a user of the A / V processing system 200 the audio enrichment feature via a user input device 218 could lock. When in step 302 It is noted that the audio enrichment feature of the A / V editing system 200 has been locked, the editing session continues without automatic audio enrichment, step 304 ,

Wenn jedoch das Audioanreicherungsmerkmal des A/V-Bearbeitungssystems 200 freigegeben ist, lädt das A/V-Bearbeitungssystem 200 eine vorgegebene Menge der Videoaufzeichnung über ein A/V-Signal zur Analyse, Schritt 306. Bei einem Ausführungsbeispiel lädt das A/V-Bearbeitungssystem 200 die gesamte Videoaufzeichnung in (nicht gezeigte) Puffer innerhalb des Videoanalysemoduls 206 und des Audioanalysemoduls 208 zur Analyse und Audioanreicherung. Bei einem alternativen Ausführungsbeispiel lädt das A/V-Bearbeitungssystem 200 eine Untermenge der gesamten Videoaufzeichnung zur Analyse und Anreicherung. Insbesondere lädt gemäß dem letztgenannten Ausführungsbeispiel das A/V-Bearbeitungssystem 200 Zwei- bis Drei-Minuten-Segmente, d. h. Abtastwerte der Videoaufzeichnung in die Puffer zur Analyse und Anreicherung, wobei die Länge der Probe einer Durchschnittslänge einer Audiodatei in den Audiodateien 214 entspricht. Bei einem anderen Ausführungsbeispiel lädt das A/V-Bearbeitungssystem 200 einzelne Szenen der Videoaufzeichnung in Puffer. Bei einem Ausfüh rungsbeispiel führt das A/V-Bearbeitungssystem 200 eine anfängliche Analyse der Videoaufzeichnung durch, um jede einer Mehrzahl von Szenen zu identifizieren, die die Videoaufzeichnung umfaßt, und lädt inkrementell einzelne Szenen in den Analysepuffer zur Audioanreicherung, was vollständiger unten beschrieben werden soll.However, if the audio enrichment feature of the A / V editing system 200 is released loads the A / V editing system 200 a predetermined amount of video recording via an A / V signal for analysis, step 306 , In one embodiment, the A / V processing system loads 200 the entire video record into buffers (not shown) within the video analysis module 206 and the audio analysis module 208 for analysis and audio enrichment. In an alternative embodiment, the A / V processing system loads 200 a subset of the entire video recording for analysis and enrichment. In particular, according to the latter embodiment, the A / V processing system loads 200 Two- to three-minute segments, ie samples of the video recording in the buffers for analysis and enrichment, where the length of the sample is an average length of an audio file in the audio files 214 equivalent. In another embodiment, the A / V processing system loads 200 individual scenes of video recording in buffer. In one embodiment, the A / V processing system performs 200 perform an initial analysis of the video record to identify each of a plurality of scenes comprising the video record and incrementally load individual scenes into the audio enrichment analysis buffer, which will be described more fully below.

Nachdem im Schritt 306 die vorgegebene Menge der Videoaufzeichnung über ein A/V-Signal zur Analyse geladen worden ist, wird das empfangene A/V-Signal gleichzeitig durch das Videoanalysemodul 202 und das Audioanalysemodul 208 in den Schritten 308 bzw. 310 analysiert. Das heißt, gemäß dem veranschaulichten Ausführungsbeispiel der 3 wird das A/V-Signal gleichzeitig sowohl dem Videoanalysemodul 202, welches den Videoinhalt des A/V-Signals analysiert, als auch dem Audioanalysemodul 208, welches den Audioinhalt des A/V-Signals analysiert, zur Verfügung gestellt. Insbesondere analysiert das Videoanalysemodul 202 den in dem Videostrom des empfangenen A/V-Signals eingebetteten Videoinhalt und charakterisiert den Videoinhalt anhand irgendeines einer Reihe von visuellen Attributen, Schritt 308. Bei einem Ausführungsbeispiel ”splittet” das Videoanalysemodul 202 den empfangenen Videostrom in eine Reihe von Quantisierungsbereichen oder Quadranten und analysiert den Videoinhalt innerhalb jedes der Quantisierungsgebiete des Videostroms. Ein Beispiel eines in solche Quantisierungsgebiete unterteilten Videostroms ist in der Veranschaulichung von 4 gezeigt.After in step 306 the predetermined amount of video recording has been loaded via an A / V signal for analysis, the received A / V signal is simultaneously passed through the video analysis module 202 and the audio analysis module 208 in the steps 308 respectively. 310 analyzed. That is, according to the illustrated embodiment of the 3 At the same time, the A / V signal is sent to both the video analysis module 202 which analyzes the video content of the A / V signal as well as the audio analysis module 208 which analyzes the audio content of the A / V signal. In particular, the video analysis module analyzes 202 the video content embedded in the video stream of the received A / V signal and characterizes the video content using any one of a number of visual attributes, step 308 , In one embodiment, the video analysis module "splits" 202 the received video stream into a series of quantization areas or quadrants and analyzes the video content within each of the quantization areas of the video stream. An example of a video stream divided into such quantization areas is shown in FIG 4 shown.

Springen wir zu 4, in der eine Darstellung eines Videostroms mit seinen zugehörigen Quantisierungsgebieten gezeigt ist. Insbesondere ist ein Videostrom 400 gezeigt, der eine Reihe von ”Rahmen” (z. B. eine vorgegebene Menge des Videostroms) des Videostroms aufweist, die als 402a, 402b bis 402n bezeichnet sind. Wie es in 4 veranschaulicht ist, sind die Quantisierungsgebiete des Rahmens 402b als Quantisierungsgebiet 1 (Q1) 404a bis Quantisierungsgebiet 9 (Q9) 404n gezeigt. So analysiert gemäß einem Ausführungsbei spiel der vorliegenden Erfindung das Videoanalysemodul 202 den Videoinhalt innerhalb jedes der Quantisierungsgebiete jedes Rahmens des Videostroms, um den Videoinhalt anhand seiner visuellen Attribute zu charakterisieren.Let's jump 4 in which a representation of a video stream with its associated quantization areas is shown. In particular, a video stream 400 which has a number of "frames" (e.g., a predetermined amount of video stream) of the video stream, called the 402 . 402b to 402n are designated. As it is in 4 is illustrated are the quantization areas of the frame 402b as quantization area 1 (Q 1 ) 404a to quantization area 9 (Q 9 ) 404n shown. Thus, according to an embodiment of the present invention, the video analysis module is analyzed 202 the video content within each of the quantization regions of each frame of the video stream to characterize the video content based on its visual attributes.

Bei einem Ausführungsbeispiel analysiert das Videoanalysemodul 202 beispielsweise jedes der Quantisierungsgebiete 404a bis 404n des Videostroms 400 hinsichtlich der Farbattribute, beispielsweise, ob der Videoinhalt des empfangenen A/V-Signals eine ”kühle” Farbe (blaue und weiße Töne), eine ”heiße” Farbe (rote, gelbe) oder eine ”warme” oder ”erdige” Farbe (Braun-, Orangetöne), etc. aufweist, und gibt eine Skala von 0 (”kühl” (weiß)) bis 10 (”heiß” (rot)) mit geeigneten Abstufungen dazwischen aus. Bei einem anderen Ausführungsbeispiel analysiert das Videoanalysemodul 202 jedes der Quantisierungsgebiete 404a bis 404n des Videostroms 400 in bezug auf visuelle Beleuchtungsattribute, beispielsweise, ob der Videoinhalt ”hell” oder ”dunkel” ist. Bei einem anderen Ausführungsbeispiel analysiert das Videoanalysemodul 202 jedes der Quantisierungsgebiete 404a bis 404n des Videostroms 400 nach visuellen Inhalts- und Bewegungsattributen, beispielsweise ob das Video eine Stadtansicht oder eine Landschaft enthält, ob das Video Leute enthält, oder ob diese aktiv oder sitzend sind. Bei noch einem anderen Ausführungsbeispiel analysiert das Videoanalysemodul 202 Quantisierungsgebiete 404a bis 404n des Videostroms 400 für jedes der oben erwähnten visuellen Attribute.In one embodiment, the video analysis module analyzes 202 for example, each of the quantization areas 404a to 404n of the video stream 400 in terms of color attributes, for example, whether the video content of the received A / V signal is a "cool" color (blue and white tones), a "hot" color (red, yellow) or a "warm" or "earthy" color (brown -, orange tones), etc., and outputs a scale from 0 ("cool" (white)) to 10 ("hot" (red)) with appropriate gradations therebetween. In another embodiment, the video analysis module analyzes 202 each of the quantization areas 404a to 404n of the video stream 400 with regard to visual lighting attributes, for example, whether the video content is "light" or "dark". at In another embodiment, the video analysis module analyzes 202 each of the quantization areas 404a to 404n of the video stream 400 for visual content and motion attributes, such as whether the video contains a cityscape or a landscape, whether the video contains people, or whether they are active or sedentary. In yet another embodiment, the video analysis module analyzes 202 Quantisierungsgebiete 404a to 404n of the video stream 400 for each of the above-mentioned visual attributes.

Kehren wir zu dem veranschaulichten Beispielverfahren zurück, das in 2 gezeigt ist; zusätzlich zu der Videoanalyse des Schritts 308 analysiert das Audioanalysemodul 208 den in dem Audiostrom des empfangenen A/V-Signals emp fangenen Audioinhalt (im folgenden als primärer Audioinhalt bezeichnet), sofern ein solcher vorhanden ist, und identifiziert Audioattributinformationen, welche den in dem Audiostrom enthaltenen primären Audioinhalt charakterisieren, Schritt 310. Bei dem veranschaulichten Ausführungsbeispiel besteht der Zweck des Identifizierens von Audioattributinformationen im Schritt 310 darin, den Pegel, beispielsweise die Lautstärke der angereicherten Audio-Auswahl, einzustellen, um dadurch zu sichern, daß der primäre Audioinhalt, sofern ein solcher vorhanden ist, nicht durch den Relativpegel der angereicherten Audio-Auswahl ”erstickt” oder ”übertönt” wird. Ein Beispielverfahren zum Analysieren des primären Audioinhalts des empfangenen A/V-Signals (z. B. Schritt 310) ist in 5 gezeigt.Returning to the illustrated example method, which is shown in FIG 2 is shown; in addition to the video analysis of the step 308 analyzes the audio analysis module 208 the audio content received in the audio stream of the received A / V signal (hereinafter referred to as primary audio content), if any, and identifying audio attribute information characterizing the primary audio content contained in the audio stream, step 310 , In the illustrated embodiment, the purpose of identifying audio attribute information is step 310 in adjusting the level, such as the volume of the enriched audio selection, thereby ensuring that the primary audio content, if any, is not "stifled" or "drowned out" by the relative level of the enriched audio selection. An example method of analyzing the primary audio content of the received A / V signal (e.g., step 310 ) is in 5 shown.

Es wird auf 5 Bezug genommen, in der ein Beispielverfahren zum Analysieren des primären Audioinhalts des empfangenen A/V-Signals gemäß einem Ausführungsbeispiel der vorliegenden Erfindung gezeigt ist. Bei dem veranschaulichten Ausführungsbeispiel gemäß 5 beginnt die Audioanalyse damit, daß das Audioanalysemodul 208 feststellt, ob das empfangene A/V-Signal einen einen Audioinhalt (d. h. primären Audioinhalt) enthaltenden Audiostrom enthält, Schritt 502. Wenn das Audioanalysemodul 208 feststellt, daß der Audiostrom keinen Audioinhalt transportiert, wird eine Anzeige, daß die schließlich von dem A/V-Bearbeitungssystem 200 ausgewählte Audio-Auswahl den einzigen Audioinhalt für die Aufzeichnung zur Verfügung stellt, wobei das Audioanalysemodul 208 eine Pegelanzeige an die Steuereinrichtung 206 über die Leitung 214 zur Verfügung stellt, Schritt 504. In einem solchen Fall setzt die Pegelanzeige die Lautstärke der Audio-Auswahl, die von dem A/V-Bearbeitungssystem ausgewählt wird, auf einen ”hohen” Pegel, da sie den einzigen Audioinhalt für dieses Segment der Videoaufzeichnung zur Verfügung stellt. Wenn jedoch das Audioanalysemodul 208 feststellt, daß das empfangene A/V-Signal einen Audioinhalt enthält, Schritt 502, bestimmt das Audioanalysemodul 208 als näch stes, ob der primäre Audioinhalt Sprache enthält, Schritt 506. Bei einem Ausführungsbeispiel benutzt das Audioanalysemodul 208 irgendeine einer Reihe von verfügbaren Spracherkennungseinrichtungen, mit welcher es diese Aufgabe ausführt.It will open 5 Referring to FIG. 1, an example method for analyzing the primary audio content of the received A / V signal in accordance with one embodiment of the present invention is shown. In the illustrated embodiment according to 5 The audio analysis begins with the audio analysis module 208 determines whether the received A / V signal contains an audio stream containing an audio content (ie, primary audio content), step 502 , If the audio analysis module 208 determines that the audio stream is not carrying any audio content, an indication that the audio is finally coming from the A / V editing system 200 selected audio selection provides the only audio content for the recording, the audio analysis module 208 a level indicator to the controller 206 over the line 214 provides, step 504 , In such a case, the level meter sets the volume of the audio selection selected by the A / V editing system to a "high" level as it provides the only audio content for that segment of video recording. However, if the audio analysis module 208 determines that the received A / V signal contains audio content, step 502 , determines the audio analysis module 208 Next, if the primary audio content contains speech, step 506 , In one embodiment, the audio analysis module uses 208 any one of a number of available speech recognition devices with which it accomplishes this task.

Wenn im Schritt 506 das Audioanalysemodul 208 feststellt, daß der primäre Audioinhalt aus Sprache besteht, gibt das Audioanalysemodul 208 eine Pegelanzeige an die Steuereinrichtung 206 über die Leitung 214 aus, die sichert, daß die Sprache nicht übertönt wird, Schritt 508. Wenn andererseits im Schritt 506 das Audioanalysemodul 208 feststellt, daß der primäre Audioinhalt keine Sprache ist, wird im Schritt 510 eine Feststellung darüber getroffen, ob der primäre Audioinhalt aus Musik besteht. Bei einem Ausführungsbeispiel analysiert das Audioanalysemodul 208 die relativen Pegel und die Breite des Frequenzspektrums, das den primären Audioinhalt charakterisiert, wenn es diese Bestimmung ausführt. Beispielsweise eine Spektralanalyse, bei der der primäre Audioinhalt ein breites Frequenzspektrum mit großen Gradienten innerhalb des Spektrums, die sich über der Zeit ändern, überspannt, liefert eine Anzeige, daß der primäre Audioinhalt aus Musik besteht. Bei einem alternativen Ausführungsbeispiel könnte das Audioanalysemodul 208 mit einer Reihe von Musik-Auswahlen vorprogrammiert sein, mit welchen der empfangene primäre Audioinhalt verglichen wird.When in step 506 the audio analysis module 208 determines that the primary audio content is speech is the audio analysis module 208 a level indicator to the controller 206 over the line 214 ensuring that the language is not drowned out, step 508 , If, on the other hand, in step 506 the audio analysis module 208 determines that the primary audio content is not a language is in step 510 make a determination as to whether the primary audio content is music. In one embodiment, the audio analysis module analyzes 208 the relative levels and the width of the frequency spectrum that characterizes the primary audio content as it performs this determination. For example, a spectral analysis in which the primary audio content spans a wide frequency spectrum with large gradients within the spectrum that change over time provides an indication that the primary audio content is music. In an alternative embodiment, the audio analysis module 208 be preprogrammed with a number of music selections to which the received primary audio content is compared.

Unabhängig vom Verfahren der Analyse bestimmt dann, wenn das Audioanalysemodul 208 feststellt, daß der primäre Audioinhalt keine Musik ist, Schritt 510, und bereits festgestellt hat, daß der primäre Audioinhalt keine Sprache ist, das Audioanalysemodul 208, daß die schließlich von dem A/V-Bearbeitungssystem 200 auszuwählende Audio-Auswahl ein Hintergrundaudio sein soll, und gibt demzufolge eine Pegelanzeige an die Steuereinrichtung 206 über die Leitung 214 aus, um zu sichern, daß der primäre Audioinhalt nicht durch die Hintergrundaudioauswahl ”überdeckt” wird, Schritt 508. Wenn jedoch das Audioanalysemodul 208 im Schritt 510 feststellt, daß der primäre Audioinhalt aus Musik besteht, stellt das Audioanalysemodul 208 dieses Audioattributinformation an die Steuereinrichtung 206 über die Leitung 214 zur Verfügung. Nachfolgend fordert die Steuereinrichtung 206 den Benutzer des A/V-Bearbeitungssystems 200 über die Anzeigeeinrichtung 216 zu der Option des Überschreibens des primären Audioinhalts (z. B. der Musik) auf. Nur aus Gründen der Kontinuität und der einfacheren Erläuterung wird die Funktion, bei der die Steuereinrichtung 206 dem Benutzer des A/V-Bearbeitungssystem 200 diese Option zur Verfügung stellt, bei dem veranschaulichten Ausführungsbeispiel gemäß 5 als Schritt 512 präsentiert, obwohl es Fachleuten klar ist, daß dieser Schritt genausogut später in dem Verfahren 300 gemäß 3 abgeschlossen werden kann.Regardless of the method of analysis then determines if the audio analysis module 208 determines that the primary audio content is not music, step 510 , and has already determined that the primary audio content is not speech, the audio analysis module 208 that finally from the A / V editing system 200 is to be selected background audio, and thus outputs a level indication to the controller 206 over the line 214 to ensure that the primary audio content is not "covered" by the background audio selection step 508 , However, if the audio analysis module 208 in step 510 determines that the primary audio content is music, provides the audio analysis module 208 this audio attribute information to the controller 206 over the line 214 to disposal. Subsequently, the controller requests 206 the user of the A / V editing system 200 via the display device 216 to the option of overwriting the primary audio content (such as music). Just for the sake of continuity and simpler explanation, the function in which the control device 206 the user of the A / V editing system 200 provides this option in accordance with the illustrated embodiment 5 as a step 512 Although it is clear to those skilled in the art, this step just as later in the process 300 according to 3 can be completed.

Wenn der Benutzer das Überschreiben des primären Audioinhalts des empfangenen A/V-Signals auswählt, wird die von dem A/V-Bearbeitungssystem ausgewählte Audio-Auswahl zum primären Audioinhalt des zusammengesetzten, von dem A/V-Bearbeitungssystem 200 erzeugten Signals und wird dementsprechend auf einen geeigneten Pegel eingestellt, Schritt 504. Wenn jedoch im Schritt 512 der Benutzer des A/V-Bearbeitungssystems 200 kein Überschreiben des primären Audioinhalts, der aus Musik besteht, auswählt, fährt die Bearbeitungssitzung ohne Audioanreicherung dieses vorgegebenen Teils des empfangenen A/V-Signals fort, Schritt 514.When the user selects to overwrite the primary audio content of the received A / V signal, the audio selection selected by the A / V editing system becomes the primary audio content of the composite A / V editing system 200 generated signal and is accordingly set to an appropriate level, step 504 , However, if in step 512 the user of the A / V editing system 200 If no overwriting of the primary audio content consisting of music is selected, the editing session continues without audio enrichment of this predetermined portion of the received A / V signal, step 514 ,

Folglich wird gemäß einem Ausführungsbeispiel der vorliegenden Erfindung der Inhalt des Audiostroms bloß zum Zwecke des Einstellens eines Pegels analysiert, bei welchem das empfangene A/V-Signal angereichert werden soll. Das heißt, bei dem veranschaulichten Ausführungsbeispiel besteht die Funktion des Audioanalysemoduls 208 darin, die Audioattribute des primären Audioinhalts zu identifizieren, um zu sichern, daß der Aufzeichnungspegel (beispielsweise die Lautstärke) des angereicherten Audiosignals, der von der Steuereinrichtung 206 eingestellt wird, nicht den primären Audioinhalt ”erstickt”. Fachleute werden jedoch erkennen, daß bei anderen Ausführungsbeispielen die Analyse des Audioinhalts ebensogut zusätzlichen Funktionen dienen könnte, ohne vom Geist oder Umfang der Erfindung abzuweichen.Thus, according to an embodiment of the present invention, the content of the audio stream is analyzed merely for the purpose of setting a level at which the received A / V signal is to be accumulated. That is, in the illustrated embodiment, the function of the audio analysis module is to function 208 in identifying the audio attributes of the primary audio content to ensure that the recording level (e.g., volume) of the enhanced audio signal received from the controller 206 is not stifling the primary audio content. Those skilled in the art will recognize, however, that in other embodiments, the analysis of the audio content could just as well serve additional functions without departing from the spirit or scope of the invention.

Fahren wir bei dem Beispielverfahren gemäß 3 fort; nachdem die visuellen Attributinformationen aus dem Videoanalysemodul 202 im Schritt 308 empfangen worden sind, identifiziert die Steuereinrichtung 206 zumindest zum Teil auf der Grundlage der empfangenen visuellen Attributinformationen eine geeignete Audio-Auswahl aus einer Mehrzahl von Audio-Auswahlen, die in Audiodateien 212 enthalten sind, Schritt 312. Bei einem Ausführungsbeispiel vertraut die Steuereinrichtung 206 auf eine Datenbank, welche geeignete Audio-Auswahlen auf der Grundlage beliebiger einer Reihe von entsprechenden visuellen Attributen referenziert. Ein Beispiel einer Datenbank, die zur Verwendung durch die Steuereinrichtung 206 geeignet ist, ist in 6 gezeigt.Let's continue with the example procedure 3 continue; after the visual attribute information from the video analysis module 202 in step 308 have been received, the controller identifies 206 based at least in part on the received visual attribute information, a suitable audio selection from a plurality of audio selections contained in audio files 212 are included, step 312 , In one embodiment, the controller trusts 206 to a database that references appropriate audio selections based on any of a number of corresponding visual attributes. An example of a database for use by the controller 206 is suitable is in 6 shown.

Gemäß dem veranschaulichten Ausführungsbeispiel der 6, ist eine Datenbank 600 gezeigt, die eine Reihe von Audio-Auswahlen zeigt, die quer-verbunden mit einer Reihe von visuellen Attributen sind. Wie es bei dem veranschaulichten Ausführungsbeispiel von 6 gezeigt ist, nimmt die Datenbank 600 auf Audio-Auswahlen mit Hilfe entsprechender visueller Attribute in einer zweidimensionalen Datenbank Bezug. Bei dem veranschaulichten Ausführungsbeispiel ist die y-Achse durch das Identifizieren des Genre 602 der Audio-Auswahlen charakterisiert. Fachleuten ist es klar, daß Genre-Informationen 602 nur eine Art einer Reihe von alternativen Mitteln sind, anhand welcher die Informationen in der Datenbank 600 organisiert sein können. So gibt es eine Reihe geeigneter alternativer Lösungen zum Organisieren der Informationen der Datenbank 600, ohne vom Geist oder Umfang der vorliegenden Erfindung abzuweichen.According to the illustrated embodiment of the 6 , is a database 600 which shows a series of audio selections that are transversely connected to a number of visual attributes. As in the illustrated embodiment of FIG 6 shown, the database takes 600 referring to audio selections using corresponding visual attributes in a two-dimensional database. In the illustrated embodiment, the y-axis is identified by identifying the genre 602 characterized the audio selections. Professionals, it is clear that genre information 602 just one kind of a set of alternative means are based on which the information in the database 600 can be organized. So there are a number of suitable alternative solutions for organizing the information of the database 600 without departing from the spirit or scope of the present invention.

Die x-Achse der Datenbank 600 ist durch Audio-Auswahlen 604 charakterisiert, die zu entsprechenden visuellen Attributen quer-verbunden sind, wie beispielsweise Farbattributen 606, Beleuchtungsattributen 608 und Inhalts/Bewegungsat tributen 610. Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung kann das A/V-Bearbeitungssystem 200 zuvor mit einer Reihe von Audio-Auswahlen geladen werden, wobei die in der Datenbank 600 gespeicherten Audio-Auswahlen mit den verschiedenen Attributinformationen querverbunden sind. Bei einem weiteren Ausführungsbeispiel stellt das A/V-Bearbeitungssystem 200 eine Bedienerschnittstelle zur Verfügung, über welche Audio-Auswahlen den Audio-Dateien 212 hinzugefügt oder aus ihnen gelöscht werden können, wobei die Steuereinrichtung 206 automatisch in der geeigneten Weise die Datenbank 600 mit den Hinzufügungen/Löschungen aktualisiert. Darüber hinaus ist es Fachleuten klar, daß die Darstellung der Datenbank 600 als zweidimensionale Datenbank nur der Vereinfachung der Erläuterung dient. Das heißt, Datenbanken einer größeren oder geringeren Komplexität können die Datenbank 600 vorteilhaft ersetzen mit einer entsprechenden Wirkung auf die Menge und Komplexität der darin enthaltenen Informationen.The x-axis of the database 600 is through audio selections 604 which are cross-connected to corresponding visual attributes, such as color attributes 606 , Lighting attributes 608 and content / movement tributes 610 , According to an embodiment of the present invention, the A / V processing system 200 previously loaded with a number of audio selections, those in the database 600 stored audio selections are cross-linked with the various attribute information. In another embodiment, the A / V processing system provides 200 An operator interface is available over which audio selects the audio files 212 can be added or deleted from them, the control device 206 automatically in the appropriate way the database 600 updated with the additions / deletions. In addition, it is clear to professionals that the representation of the database 600 serves as a two-dimensional database only to simplify the explanation. That is, databases of greater or lesser complexity can use the database 600 advantageously replace with a corresponding effect on the amount and complexity of the information contained therein.

Kehren wir wieder zu dem veranschaulichten Ausführungsbeispiel gemäß 3 zurück; nachdem eine Audio-Auswahl automatisch ausgewählt worden ist, mit welcher die Videoaufzeichnung angereichert werden soll, fordert wenigstens zum Teil auf der Grundlage der identifizierten visuellen Attribute der Videoaufzeichnung im Schritt 312 die Steuereinrichtung 206 den Benutzer des A/V-Bearbeitungssystem 200 mit der Option des Akzeptierens der Audio-Auswahl der Steuereinrichtung oder der Zurückweisung dieser Auswahl zugunsten einer anderen Auswahl im Schritt 314 auf. Wenn im Schritt 314 der Benutzer die Audio-Auswahl der Steuereinrichtung 206 akzeptiert, synchronisiert die Steuereinrichtung 206 die Audio-Auswahl mit der Videoaufzeichnung, mischt die Audio-Auswahl mit dem primären Audioinhalt, sofern ein solcher vorhanden ist, bei Pegeln, die automatisch von dem Audioanalysemodul 208 geeignet bestimmt werden, und gibt ein zusammengesetztes Signal aus, das das mit der automatisch identifizierten Audio-Auswahl angereicherte empfangene A/V-Signal ist. Bei ei nem Ausführungsbeispiel koordiniert die Steuereinrichtung 206 das ”Tempo” (z. B. die Geschwindigkeit) der Audio-Auswahl mit der in dem Videoinhalt identifizierten Bewegungsrate oder mit dem Tempo des primären Audioinhalts, während sie die automatisch identifizierte Audio-Auswahl mit dem primären Audioinhalt mischt.Let us return to the illustrated embodiment 3 back; after automatically selecting an audio selection to which the video recording is to be enriched, at least in part, request based on the identified visual attributes of the video recording in the step 312 the controller 206 the user of the A / V editing system 200 with the option of accepting the audio selection of the controller or rejecting that selection in favor of another selection in the step 314 on. When in step 314 the user selects the audio of the controller 206 accepts, synchronizes the controller 206 the audio selection with the video recording, mixes the audio selection with the primary audio content, if any, at levels that are automatically from the audio analysis module 208 suitably determined, and outputs a composite signal which is the received A / V signal enriched with the automatically identified audio selection. In one embodiment, the controller coordinates 206 the "tempo" (eg, speed) of the audio selection with the motion rate identified in the video content or with the Tempo of the primary audio content while mixing the automatically identified audio selection with the primary audio content.

Wenn jedoch der Benutzer die Audio-Auswahl der Steuereinrichtung 206 im Schritt 314 zurückweist, wird dem Benutzer eine Schnittstelle zur Verfügung gestellt, über welche der Benutzer auf die Datenbank 600 der verfügbaren Audio-Auswahlen zugreifen kann, wobei der Benutzer eine Audio-Auswahl auswählt, mit welcher die Videoaufzeichnung angereichert werden soll, Schritt 316. Im Schritt 318 bestimmt die Steuereinrichtung 206, ob das Ende der Videoaufzeichnung erreicht ist. Sofern dies der Fall ist, endet das Verfahren. Wenn andererseits die Steuereinrichtung 206 feststellt, daß das Ende der Videoaufzeichnung noch nicht erreicht ist, wird das Verfahren mit dem Schritt 306 fortgesetzt, und die nächste vorgegebene Menge des Videosignals zum Bearbeiten wird in das A/V-Bearbeitungssystem 200 geeignet geladen.However, if the user selects the audio selection of the controller 206 in step 314 the user is provided with an interface through which the user accesses the database 600 the available audio selections, with the user selecting an audio selection to enrich the video recording step 316 , In step 318 determines the controller 206 whether the end of the video recording is reached. If so, the procedure ends. On the other hand, if the control device 206 determines that the end of the video recording has not yet been reached, the method in step 306 continued, and the next predetermined amount of the video signal for editing is in the A / V editing system 200 properly charged.

Folglich analysiert gemäß den Lehren der vorliegenden Erfindung das A/V-Bearbeitungssystem 200 den Videoinhalt des empfangenen A/V-Signals und charakterisiert den Videoinhalt in Form einer Anzahl visueller Attribute. Zusätzlich analysiert das A/V-Bearbeitungssystem 200 den Audioinhalt des empfangenen A/V-Signals, beispielsweise den primären Audioinhalt, um automatisch einen Pegel zu identifizieren, bei welchem die Audio-Auswahl mit dem primären Audioinhalt zu ”mischen” ist. Nachdem die visuellen Attributinformationen entwickelt worden sind, wählt das A/V-Bearbeitungssystem 200 eine Audio-Auswahl aus einer Mehrzahl verfügbarer Audio-Auswahlen wenigstens zum Teil auf der Grundlage der identifizierten visuellen Attributinformationen aus. Nachdem eine Audio-Auswahl identifiziert worden ist, mit welcher der primäre Audioinhalt angereichert werden soll, ”mischt” bei Empfang einer Benutzerbestätigung das A/V-Bearbeitungssystem 200 die Audio-Auswahl mit dem primären Audioinhalt bei einem Pegel, der automatisch in Übereinstimmung mit den festgestellten Audioattributinformationen des Audiostroms bestimmt wird. Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung ist die Audio-Auswahl eine Musikkomposition, beispielsweise ein Lied. Bei einem alternativen Ausführungsbeispiel ist die Audio-Auswahl ein Poem, ein Sonett oder eine andere lyrische Komposition, die automatisch von dem A/V-Bearbeitungssystem 200 ausgewählt wird, um die von den visuellen Attributen des empfangenen A/V-Signals angezeigte Stimmung anzureichern.Thus, in accordance with the teachings of the present invention, the A / V processing system analyzes 200 the video content of the received A / V signal and characterizes the video content in the form of a number of visual attributes. Additionally, the A / V processing system analyzes 200 the audio content of the received A / V signal, such as the primary audio content, to automatically identify a level at which the audio selection is to be "mixed" with the primary audio content. After the visual attribute information has been developed, the A / V editing system chooses 200 an audio selection from a plurality of available audio selections based at least in part on the identified visual attribute information. After identifying an audio selection to enrich the primary audio content, upon receiving a user acknowledgment, the A / V editing system "shuffles" 200 the audio selection with the primary audio content at a level that is automatically determined in accordance with the detected audio attribute information of the audio stream. According to an embodiment of the present invention, the audio selection is a music composition, such as a song. In an alternative embodiment, the audio selection is a poem, sonnet, or other lyrical composition automatically from the A / V editing system 200 is selected to enrich the mood displayed by the visual attributes of the received A / V signal.

Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung ist das A/V-Bearbeitungssystem 200 ein Computersystem, das in geeigneter Weise konfiguriert worden ist, um einen Videostrom zu analysieren und den Videoinhalt eines empfangenen A/V-Signals in Form seiner visuellen Attribute zu charakterisieren, und wobei wenigstens zum Teil auf der Grundlage dieser visuellen Attribute das Computersystem eine Audio-Auswahl identifiziert, mit welcher das empfangene A/V-Signal angereichert werden soll, und es ein zusammengesetztes Signal des empfangenen A/V-Signals und der automatisch identifizierten Audio-Auswahl zur Aufzeichnung erzeugt. Wie unten detaillierter beschrieben wird, soll das A/V-Bearbeitungssystem 200 eine breite Kategorie von im Stand der Technik bekannten Computersystemen repräsentieren. Ein Beispiel eines derartigen Systems ist ein Desktop-Computersystem, das mit einem Hochleistungsmikroprozessor, wie beispielsweise dem Pentium®-Prozessor, Pentium®-Pro-Prozessor oder Pentium II-Prozessor, die von der Intel Corporation aus Santa Clara, Kalifornien, hergestellt und üblicherweise von dieser erhältlich sind, ausgerüstet ist, einschließlich einer Anzahl von Audio- und Video-Eingabe- und -Ausgabe-Peripherieeinrichtungen/Schnittstellen zum Empfangen, Digitalisieren, Komprimieren und Dekomprimieren von Audio- und Videosignalen. Es ist klar, daß die Gehäusegröße und -gestaltung für das A/V-Bearbeitungssystem 200 geändert werden könnten, damit es besser in ein Unterhaltungssystem, beispielsweise das Unterhaltungssystem 100, visuell paßt. Dementsprechend könnte das A/V-Bearbeitungssystem 200 gut in einer ”Set-Top”-Box ausgeführt sein, in der die Lehren der vorliegenden Erfindung enthalten sind.According to an embodiment of the present invention, the A / V processing system is 200 a computer system that has been suitably configured to analyze a video stream and to characterize the video content of a received A / V signal in terms of its visual attributes, and based at least in part on these visual attributes, the computer system an audio Identifies selection, with which the received A / V signal is to be enriched, and it generates a composite signal of the received A / V signal and the automatically identified audio selection for recording. As will be described in more detail below, the A / V processing system 200 represent a broad category of computer systems known in the art. An example of such a system is a desktop computer system ® with a high performance microprocessor such as the Pentium processor, Pentium ® -Pro-processor, or Pentium II processor, manufactured by Intel Corporation of Santa Clara, California and usually available from this, including a number of audio and video input and output peripherals / interfaces for receiving, digitizing, compressing and decompressing audio and video signals. It is clear that the housing size and design for the A / V processing system 200 could be changed to make it better in an entertainment system, such as the entertainment system 100 , visually fits. Accordingly, the A / V processing system could 200 well in a "set-top" box containing the teachings of the present invention.

7 stellt eine Blockdarstellung eines Computersystems (z. B. System 700) zur Verfügung, in dem die Lehren der vorliegenden Erfindung enthalten sind. Bei einem Ausführungsbeispiel ist das System 700 das A/V-Bearbeitungssystem 128 gemäß 1. Bei dem veranschaulichten Ausführungsbeispiel enthält das System 700 wenigstens einen Prozessor (z. B. Prozessor 702) und einen Cache-Speicher 704, die miteinander in der gezeigten Weise gekoppelt sind. Zusätzlich enthält das System 700 einen Hochleistungs-Eingabe/Ausgabe(I/O)-Bus 706 und einen Standard-I/O-Bus 708, wie es gezeigt ist. Eine Host-Brücke 710 koppelt den Prozessor 702 mit dem Hochleistungs-I/O-Bus 706, während die I/O-Busbrücke 712 den Hochleistungs-I/O-Bus 706 mit dem Standard-I/O-Bus 708 koppelt. Mit dem Hochleistungs-I/O-Bus 706 sind eine Netzwerk-Kommunikationsschnittstelle 724, ein Systemspeicher 714, Audio/Video-Schnittstellenplatinen 730, ein A/V-Editierer 732 und ein Videospeicher 716 gekoppelt. Die Anzeigeeinrichtung 718 wiederum ist mit dem Videospeicher 716 gekoppelt. Mit dem Standard-I/O-Bus 708 sind eine Massenspeichereinrichtung 720, eine Tastatur und Zeigereinrichtung 722 und I/O-Ports 726 gekoppelt. Bei einem Ausführungsbeispiel sind die Tastatur und die Zeigereinrichtung mit dem Standard-I/O-Bus 708 über ein serielles Kommunikationsschnittstellenkabel gekoppelt, während bei alternativen Ausführungsbeispielen sie kommunikativ mit einer Infrarot(IR)-Schnittstelle oder einer Hochfrequenz(HF)-Schnittstelle kommunikativ gekoppelt sein könnten. 7 provides a block diagram of a computer system (eg system 700 ) incorporating the teachings of the present invention. In one embodiment, the system is 700 the A / V editing system 128 according to 1 , In the illustrated embodiment, the system includes 700 at least one processor (eg processor 702 ) and a cache memory 704 which are coupled together in the manner shown. In addition, the system contains 700 a high performance input / output (I / O) bus 706 and a standard I / O bus 708 as shown. A host bridge 710 couples the processor 702 with the high performance I / O bus 706 while the I / O bus bridge 712 the high performance I / O bus 706 with the standard I / O bus 708 coupled. With the high performance I / O bus 706 are a network communication interface 724 , a system memory 714 , Audio / video interface boards 730 , an A / V editor 732 and a video store 716 coupled. The display device 718 turn, is with the video memory 716 coupled. With the standard I / O bus 708 are a mass storage device 720 , a keyboard and pointing device 722 and I / O ports 726 coupled. In one embodiment, the keyboard and pointer are the standard I / O bus 708 coupled via a serial communication interface cable, while in alternative embodiments communicatively communicates with an infrared (IR) interface or ei radio frequency (RF) interface could be communicatively coupled.

Es wird weiter auf 7 Bezug genommen; die Elemente 702730 führen ihre herkömmlichen Funktionen aus, wie sie im Stand der Technik bekannt sind. Insbesondere wird die Netzwerk/Kommunikationsschnittstelle 724 verwendet, um eine Kom munikation zwischen dem System 700 und irgendeinem eines breiten Bereichs herkömmlicher Netzwerke, wie beispielsweise Ethernet, Token Ring, das Internet, etc., zur Verfügung zu stellen. In ähnlicher Weise wird die Audio-Video-Schnittstellenplatine 730 verwendet, um Rundfunkkommunikationen über irgendeine einer großen Anzahl herkömmlicher Kabelleitungen und drahtloser Rundfunkmedien, wie beispielsweise HF-Sendungen, Satellitensendungen, Kabelsendungen, etc., zu empfangen. Die Massenspeichereinrichtung 720 wird verwendet, um einen permanenten Speicher für die Daten und Programmbefehle zum Implementieren der oben beschriebenen Funktionen zur Verfügung zu stellen, wohingegen der Systemspeicher 714 verwendet wird, um einen temporären Speicher für die Daten und Programmbefehle, wenn sie von dem Prozessor 702 ausgeführt werden, zur Verfügung zu stellen. Die I/O-Ports 726 sind ein oder mehrere serielle und/oder parallele Kommunikationsports, die verwendet werden, um eine Kommunikation zwischen zusätzlichen Peripherieeinrichtungen zur Verfügung zu stellen, welche mit dem System 700 gekoppelt sein können (z. B. Stereolautsprecher, etc.). Insgesamt sollen die mit dem System 700 gekoppelten Elemente eine breite Kategorie von Hardwaresystemen repräsentieren, die beispielsweise Mehrzweckcomputersysteme auf der Grundlage des Pentium®-Prozessors, des Pentium®Pro-Prozessors oder des Pentium®II-Prozessors, die üblicherweise von der Intel Corporation aus Santa Clara, Kalifornien, erhältlich sind, einschließen.It will continue on 7 Reference is made; the Elements 702 - 730 perform their conventional functions as known in the art. In particular, the network / communication interface 724 used to communicate between the system 700 and any one of a wide range of conventional networks, such as Ethernet, Token Ring, the Internet, etc. Similarly, the audio-video interface board 730 used to receive broadcast communications over any one of a large number of conventional cable lines and wireless broadcast media, such as RF broadcasts, satellite broadcasts, cable broadcasts, etc. The mass storage device 720 is used to provide persistent storage for the data and program instructions for implementing the functions described above, whereas the system memory 714 is used to store temporary data and program commands when used by the processor 702 be provided. The I / O ports 726 are one or more serial and / or parallel communication ports used to provide communication between additional peripheral devices connected to the system 700 coupled (eg stereo speakers, etc.). Overall, those with the system 700 coupled elements represent a broad category of hardware systems, including, for example, general purpose computer systems based on the Pentium® processor, the Pentium® Pro processor, or the Pentium® II processor, commonly available from Intel Corporation of Santa Clara, California; lock in.

Bei einem Ausführungsbeispiel enthält der A/V-Bearbeiter oder -Editierer 732 ein Videoanalysemodul 202 und ein Audioanalysemodul 208 des A/V-Bearbeitungssystem 200, während die Steuereinrichtung 206, die Anzeigeeinrichtung 216 und die Benutzerschnittstelleneinrichtung 218 des A/V-Bearbeitungssystems 200 dem Prozessor 702, der Anzeigeeinrichtung 718 bzw. der Tastatur- und Zeigereinrichtung 722 des Systems 700 gemäß 7 entsprechen. Bei einem Ausführungsbeispiel werden die Audio-Dateien 216 auf einem Massenspeicher 720 gespeichert oder sind an einer fernen Stelle angeordnet und in kommunikativer Weise mit dem System 700 über eine Netzwerk/Kommunikationsschnittstelle 724 gekoppelt. Bei einem Ausführungsbeispiel empfängt das System 700 ein A/V-Signal aus der Netzwerk/Kommunikationsschnittstelle 724 und/oder aus einer Audio/Video-Tuner-Schnittstelle 730, analysiert den Videoinhalt nach visuellen Attributinformationen und identifiziert automatisch eine Audio-Auswahl, mit welcher das empfangene A/V-Signal angereichert werden soll, gemäß den oben angegebenen Lehren. Bei einem alternativen Ausführungsbeispiel empfängt das System 700 ein A/V-Signal über eine (nicht gezeigte) Antenne, die mit einem der I/O-Ports 726 gekoppelt ist und automatisch eine geeignete Audio-Auswahl identifiziert, mit welcher das empfangene A/V-Signal angereichert werden soll.In one embodiment, the A / V agent or editor includes 732 a video analysis module 202 and an audio analysis module 208 of the A / V processing system 200 while the controller 206 , the display device 216 and the user interface device 218 of the A / V processing system 200 the processor 702 , the display device 718 or the keyboard and pointing device 722 of the system 700 according to 7 correspond. In one embodiment, the audio files become 216 on a mass storage 720 stored or located in a remote location and in a communicative manner with the system 700 via a network / communication interface 724 coupled. In one embodiment, the system receives 700 an A / V signal from the network / communication interface 724 and / or from an audio / video tuner interface 730 , analyzes the video content for visual attribute information and automatically identifies an audio selection with which to enrich the received A / V signal, in accordance with the teachings given above. In an alternative embodiment, the system receives 700 an A / V signal via an antenna (not shown) connected to one of the I / O ports 726 is coupled and automatically identifies a suitable audio selection, with which the received A / V signal is to be enriched.

Es ist klar, daß verschiedene Komponenten des Systems 700 umarrangiert werden können. Beispielsweise könnte der Cache 704 auf dem Chip des Prozessors 702 sein. Alternativ könnten der Cache 704 und der Prozessor 702 miteinander als ”Prozessor-Modul” verkapselt sein, wobei der Prozessor 702 als ”Prozessorkern” bezeichnet wird. Darüber hinaus könnten die Massenspeichereinrichtung 720, die Tastatur- und Zeigereinrichtung 722 und/oder die Anzeigeeinrichtung 718 und der Videospeicher 716 nicht in dem System 700 enthalten sein. Außerdem könnten die Peripheriegeräte, die als mit dem Standard-I/O-Bus 708 gekoppelt gezeigt sind, bei alternativen Ausführungsbeispielen mit einem Hochleistungs-I/O-Bus 706 gekoppelt sein; oder es könnte bei einigen Implementierungen nur ein einziger Bus vorhanden sein, wobei die Komponenten des Systems 700 mit dem einzigen Bus gekoppelt sind. Darüber hinaus könnten zusätzliche Komponenten in das System 700 aufgenommen werden, wie beispielsweise zusätzliche Prozessoren, Speichereinrichtungen oder Speicher.It is clear that different components of the system 700 can be rearranged. For example, the cache could 704 on the chip of the processor 702 be. Alternatively, the cache could 704 and the processor 702 be encapsulated with each other as a "processor module", the processor 702 is referred to as a "processor core". In addition, the mass storage device could 720 , the keyboard and pointing device 722 and / or the display device 718 and the video memory 716 not in the system 700 be included. Also, the peripherals could work as with the standard I / O bus 708 in alternative embodiments with a high performance I / O bus 706 be coupled; or, in some implementations, there could be only a single bus, with the components of the system 700 coupled with the single bus. In addition, additional components could be added to the system 700 such as additional processors, memory devices or memory.

Bei einem Ausführungsbeispiel könnten die neuartigen Merkmale der vorliegenden Erfindung, die oben erörtert wurden, statt sie in einem separaten A/V-Bearbeiter 732 einzuschließen, als Serie von Softwareroutinen, die von dem Sy stem 700 gemäß 7 abgearbeitet werden, implementiert sein. Diese Software-Routinen lassen eine Mehrzahl oder eine Serie von Befehlen, die durch einen Prozessor, wie beispielsweise den Prozessor 702 im System 700, ausgeführt werden sollen, ablaufen. Anfänglich werden die Serien von Befehlen auf einer Speichereinrichtung, wie beispielsweise der Massenspeichereinrichtung 720, gespeichert. Es ist klar, daß die Serien der Befehle auf irgendeiner herkömmlichen Speichereinrichtung gespeichert werden können, wie beispielsweise einer Diskette, CD-ROM, einem Magnetband, einer Digital Versatile Disk (DVD) (auch als Digital Video Disk bezeichnet), einer Laserplatte, einem ROM, einem Flash-Speicher, etc. Es ist darüber hinaus klar, daß die Serien von Befehlen nicht lokal gespeichert zu werden brauchen und von einer fernen Speichereinrichtung, wie beispielsweise einem Server an einem Netzwerk, über Netzwerk/Kommunikationsschnittstelle 724 empfangen werden könnten. Die Befehle werden aus der Speichereinrichtung, wie beispielsweise der Massenspeichereinrichtung 720, in den Systemspeicher 714 kopiert, und dann wird auf sie von dem Prozessor 702 zugegriffen, und sie werden ausgeführt. Bei einem Ausführungsbeispiel sind diese Software-Routinen in der Programmiersprache C++ geschrieben. Es ist jedoch klar, daß diese Routinen in irgendeiner einer großen Anzahl von Programmiersprachen implementiert sein könnten. Bei alternativen Ausführungsbeispielen könnte die vorliegende Erfindung in diskreter Hardware oder Firmware implementiert sein. Beispielsweise könnte ein integrierter Kundenwunschschaltkreis (ASIC) mit den oben beschriebenen Funktionen der vorliegenden Erfindung programmiert werden.In one embodiment, the novel features of the present invention discussed above could be in a separate A / V handler rather than in a separate A / V handler 732 as a series of software routines used by the system 700 according to 7 be processed, be implemented. These software routines allow a plurality or series of instructions to be executed by a processor, such as the processor 702 in the system 700 to be executed, expire. Initially, the series of instructions are stored on a storage device, such as the mass storage device 720 , saved. It will be understood that the series of instructions may be stored on any conventional memory device, such as a floppy disk, CD-ROM, magnetic tape, Digital Versatile Disk (DVD) (also referred to as Digital Video Disk), laser disk, ROM It is also clear that the series of instructions need not be stored locally and from a remote storage device, such as a server on a network, over the network / communication interface 724 could be received. The instructions are from the storage device, such as the mass storage device 720 , into the system store 714 copied, and then it will be on the processor 702 accessed and they are executed. In one embodiment, these software routines are written in the C ++ programming language. However, it will be understood that these routines could be implemented in any of a large number of programming languages. In alternative embodiments, the present invention could be implemented in discrete hardware or firmware. For example, an integrated customer request circuit (ASIC) could be programmed with the above-described functions of the present invention.

8 ist eine Blockdarstellung, die die Software-Elemente veranschaulicht, die eine Beispiel-Software-Architektur gemäß einem Ausführungsbeispiel der vorliegenden Erfindung bilden. Insbesondere ist gezeigt, daß die Beispiel-Software-Architektur 800 eine A/V-Bearbeiteranwendung 802, einen A/V-Editierer-Agent 804 mit zugeordnetem Videoanalysemodul 806 und Audioanalysemodul 808 sowie ein Betriebssystem 810 mit zugehörigen Treibern und dem BIOS 822 enthält. Wie es bei dem veranschaulichten Ausführungsbeispiel gemäß 8 gezeigt ist, bildet die A/V-Bearbeiter-Anwendung 802 Schnittstellen zu dem A/V-Editierer-Agenten 804 und schafft dem Bediener eine Schnittstelle für das A/V-Bearbeitungssystem 128 gemäß 1. 8th Figure 14 is a block diagram illustrating the software elements that constitute an example software architecture according to an embodiment of the present invention. In particular, it is shown that the example software architecture 800 an A / V editor application 802 , an A / V Editor Agent 804 with associated video analysis module 806 and audio analysis module 808 as well as an operating system 810 with associated drivers and the BIOS 822 contains. As in the illustrated embodiment according to 8th shown forms the A / V Editor application 802 Interfaces to the A / V Editor Agent 804 and provides the operator with an interface for the A / V processing system 128 according to 1 ,

Bei einem Ausführungsbeispiel ist der A/V-Editierer-Agent 804 so eingekoppelt und in die Lage versetzt, daß er Informationen aus der Datenbank 812 und den Audio-Dateien 814 erlangen kann. Bei einem alternativen Ausführungsbeispiel sind die Audio-Dateien 814 und/oder die Datenbank 812 integrierte Module des A/V-Editierer-Agenten 804. Wie es in 8 gezeigt ist, empfängt der A/V-Editierer-Agent 804 ein Videosignal über einen Kommunikationsport über einen geeigneten Treiber innerhalb des Betriebssystems 810. Bei einem Ausführungsbeispiel führt das Videoanalysemodul 806 die Schritte des Analysierens des Videoinhalts des empfangenen A/V-Signals für irgendwelche einer Reihe visueller Attribute durch, während das Audioanalysemodul 808 den Audioinhalt des empfangenen A/V-Signals (beispielsweise des primären Audioinhalts), sofern ein solcher vorhanden ist, analysiert, um den relativen Pegel (beispielsweise die Lautstärke) zu bestimmen, bei welchem die Audio-Auswahl aufgezeichnet werden soll, gemäß den oben beschriebenen Lehren der vorliegenden Erfindung. Wenigstens zum Teil auf der Grundlage der Eingabe aus dem Videoanalysemodul 806 identifiziert der auf die Datenbank 812 zugreifende A/V-Editierer 804 eine Audio-Auswahl, welche im wesentlichen den identifizierten visuellen Attributen des Videoinhalts des empfangenen Signals entspricht, und bei einer Benutzerbestätigung der identifizierten Audio-Auswahl kombiniert der A/V-Editierer 802 das empfangene A/V-Signal mit der identifizierten Audio-Auswahl bei einem automatisch von dem Audioanalysemodul 208 ausgewählten Pegel, um ein zusammengesetztes A/V-Signal, das die angereicherte Audio-Auswahl enthält, zur Verfügung zu stellen, wel ches über einen geeigneten Treiber des Betriebssystems 810 ausgegeben wird.In one embodiment, the A / V Editor Agent is 804 so coupled and enabled to get information from the database 812 and the audio files 814 can obtain. In an alternative embodiment, the audio files are 814 and / or the database 812 integrated modules of the A / V Editor Agent 804 , As it is in 8th is shown, the A / V Editor Agent receives 804 a video signal via a communication port via a suitable driver within the operating system 810 , In one embodiment, the video analysis module performs 806 the steps of analyzing the video content of the received A / V signal for any of a number of visual attributes while the audio analysis module 808 the audio content of the received A / V signal (e.g., the primary audio content), if any, is analyzed to determine the relative level (e.g., volume) at which the audio selection should be recorded, in accordance with those described above Teachings of the present invention. At least in part, based on input from the video analysis module 806 identifies the on the database 812 accessing A / V editors 804 an audio selection which substantially corresponds to the identified visual attributes of the video content of the received signal, and upon user confirmation of the identified audio selection, the A / V editor combines 802 the received A / V signal with the identified audio selection automatically at the audio analysis module 208 selected level to provide a composite A / V signal containing the enriched audio selection, wel ches via a suitable driver of the operating system 810 is issued.

Wie oben erwähnt, stellt das BIOS 822 eine Schnittstelle zwischen dem Betriebssystem 810 und den verschiedenen mit dem Hardware-System gekoppelten I/O-Einrichtungen zur Verfügung. Das Betriebssystem 810 ist ein Software-Dienst, welcher eine Schnittstelle zwischen dem BIOS 822 und dem A/V-Editierer-Agenten 804 sowie zu weiteren Software-Anwendungen, sofern solche vorhanden sind, zur Verfügung stellt, die durch ein Computersystem ausgeführt werden, innerhalb welchem die vorliegende Erfindung ausgeführt wird (z. B. das System 700).As mentioned above, the BIOS provides 822 an interface between the operating system 810 and the various I / O devices coupled to the hardware system. The operating system 810 is a software service which provides an interface between the BIOS 822 and the A / V Editor Agent 804 and to other software applications, if any, provided by a computer system within which the present invention is practiced (e.g., the system 700 ).

Das Betriebssystem 810 schafft eine Schnittstelle, wie beispielsweise eine graphische Bedieneroberfläche (GUI), zwischen dem Bediener und der Systemsteuereinrichtung. Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung ist das Betriebssystem 810 das WindowsTM95-Betriebssystem, das von der Microsoft Corporation in Redmond, Washington, erhältlich ist. Es ist jedoch klar, daß die vorliegende Erfindung in Verbindung mit einem beliebigen anderen herkömmlichen Betriebssystem verwendet werden kann, wie beispielsweise anderen Versionen von Microsoft WindowsTM (beispielsweise WindowsTM 3.0, WindowsTM 3.1, WindowsTM NT oder WindowsTM CE), Microsoft DOS, OS/2, erhältlich von der International Business Machines Corporation aus Armonk, New York, dem Apple Macintosh Betriebssystem, erhältlich von der Apple Computer Inc. aus Cupertino, Kalifornien, dem NeXTSTEP®-Betriebssystem, das von der Apple Computer Inc. erhältlich ist, oder dem UNIX-Betriebssystem, das von der Santa Cruz Operations aus Santa Cruz, Kalifornien, erhältlich ist.The operating system 810 provides an interface, such as a graphical user interface (GUI), between the operator and the system controller. According to an embodiment of the present invention, the operating system is 810 the Windows 95 operating system, available from Microsoft Corporation of Redmond, Washington. However, it should be understood that the present invention may be used in conjunction with any other conventional operating system, such as other versions of Microsoft Windows (for example, Windows 3.0, Windows 3.1, Windows NT, or Windows CE), Microsoft DOS , OS / 2, available from International Business Machines Corporation of Armonk, New York, the Apple Macintosh operating system available from Apple computer Inc. of Cupertino, California, the NextStep ® operating system, which is available from Apple computer Inc. , or the UNIX operating system, available from Santa Cruz Operations of Santa Cruz, California.

So analysiert in Übereinstimmung mit den Lehren der vorliegenden Erfindung ein A/V-Bearbeitungssystem den Videoinhalt einer Videoaufzeichnung und identifiziert wenigstens zum Teil auf der Grundlage der visuellen Attribute des Videoinhalts automatisch eine Audio-Auswahl, mit welcher die Videoaufzeichnung angereichert werden soll, bei einem von dem A/V-Bearbeitungssystem automatisch ausgewählten Aufzeichnungspegel, der den primären Audioinhalt, sofern ein solcher vorhanden ist, der Videoaufzeichnung nicht erdrückt.So analyzed in agreement with the teachings of the present invention, an A / V processing system the video content of a video recording and at least identifies partly based on the visual attributes of the video content automatically an audio selection that enriches the video recording at a recording level automatically selected by the A / V processing system, the primary Audio content, if any, of the video recording not crushed.

Während das Verfahren und die Einrichtung der vorliegenden Erfindung anhand der oben veranschaulichten Ausführungsbeispiele beschrieben worden sind, ist es Fachleuten klar, daß die Erfindung nicht auf die so beschriebenen Ausführungsbeispiele eingeschränkt ist. Die vorliegende Erfindung kann mit Modifikationen und Änderungen innerhalb des Geists und des Umfangs der anhängigen Ansprüche ausgeführt werden. Obwohl es beispielsweise als separate Komponente gezeigt ist, könnte das A/V-Bearbeitungssystem 128 ebensogut in eine der Systemkomponenten (beispielsweise eine Fernsehmonitor/Videokassetten/Wiedergabe-Einrichtung) innerhalb des Systems 100 aufgenommen sein. Darüber hinaus könnte das A/V-Bearbeitungssystem 128 nicht sämtliche der in den 2 oder 7 gezeigten Elemente enthalten oder könnte alternativ zusätzliche Elemente enthalten, ohne vom Umfang und Geist der vorliegenden Erfindung abzuweichen. Demzufolge soll die Beschreibung in einem veranschaulichenden und nicht in einem die vorliegende Erfindung einschränkenden Sinne verstanden werden.While the method and apparatus of the present invention have been described in terms of the embodiments illustrated above, it will be apparent to those skilled in the art that the invention is not limited to the embodiments thus described. The present invention may involve modifications and changes within the spirit and the scope of the appended claims. For example, although shown as a separate component, the A / V processing system could 128 just as well into one of the system components (for example a television monitor / videocassette / player) within the system 100 be included. In addition, the A / V editing system could 128 not all of those in the 2 or 7 or alternatively could contain additional elements without departing from the scope and spirit of the present invention. Accordingly, the description is to be understood in an illustrative and not in a sense limiting the present invention.

Somit wurden ein Verfahren und eine Einrichtung zum Editieren oder Bearbeiten einer Videoaufzeichnung mit Audio-Auswahlen beschrieben.Consequently have been a method and a means of editing or editing a video recording with audio selections described.

Claims (24)

Ein maschinen-implementiertes Verfahren, umfassend: Empfangen eines einen Videoinhalt enthaltenden Signals; Analysieren des Videoinhalts des empfangenen Signals, um sichtbare Merkmale des Videoinhalts zu ermitteln; und Ermitteln einer geeigneten Audio-Inhalt-Auswahl aus einer Mehrzahl verfügbarer Audio-Inhalt-Auswahlen, mit welcher das empfangene Signal ergänzt werden soll, wenigstens teilweise auf der Grundlage der ermittelten sichtbaren Merkmale des Videoinhalts; Bestimmen eines Aufzeichnungspegels für die ermittelte Audio-Inhalt-Auswahl, bei welchem der Audioinhalt des empfangenen Signals mit der ermittelten Audio-Inhalt-Auswahl angereichert werden soll, wobei bestimmt wird, ob das empfangene Signal einen Audioinhalt enthält, sofern festgestellt worden ist, daß das empfangene Signal einen Audioinhalt enthält, Ermitteln eines Audio-Attributs, welches anzeigt, ob der Audio-Inhalt Sprache enthält, und der Aufzeichnungspegel wenigstens teilweise in Abhängigkeit von dem ermittelten Audio-Attribut ausgewählt wird; und Ergänzen des empfangenen Signals mit der ermittelten Audio-Inhalt-Auswahl unter Verwendung des bestimmten Aufzeichnungspegels, so daß ein zusammengesetztes Audio/Video(A/V)-Signal gebildet wird, das zumindest den Videoinhalt und die ermittelte Audio-Inhalt-Auswahl enthält.A machine-implemented method comprising: Receive a signal containing a video content; Analyze the Video content of the received signal to see visible features of the To determine video content; and Determine an appropriate audio content selection from a number of available Audio content selections to supplement the received signal, based at least in part on the identified visible Features of the video content; Determining a recording level for the determined audio content selection, in which the audio content of the received signal enriched with the determined audio content selection should be, where it determines if the received signal contains an audio content, provided it has been found that the received signal contains audio content, determining an audio attribute, which indicates whether the audio content contains speech, and of the Recording level at least partially depending on the determined Audio attribute selected becomes; and Complete the received signal with the determined audio content selection using the determined recording level, so that a composite Audio / Video (A / V) signal is formed, at least the video content and containing the determined audio content selection. Das Verfahren nach Anspruch 1, wobei das Analysieren des Videoinhalts des empfangenen Signals das Charakterisieren des Videoinhalts des empfangenen Signals in Form sichtbarer Farbmerkmale einschließt.The method of claim 1, wherein analyzing of the video content of the received signal characterizing the Includes video content of the received signal in the form of visible color features. Das Verfahren nach Anspruch 1, wobei das Analysieren des Videoinhalts des empfangenen Signals das Charakterisieren des Videoinhalts des empfangenen Signals in Form sichtbarer Beleuchtungsmerkmale einschließt.The method of claim 1, wherein analyzing of the video content of the received signal characterizing the Video content of the received signal in the form of visible illumination features includes. Das Verfahren nach Anspruch 1, wobei das Analysieren des Videoinhalts des empfangenen Signals das Charakterisieren des Videoinhalts des empfangenen Signals in Form sichtbarer Bewegungsmerkmale einschließt.The method of claim 1, wherein analyzing of the video content of the received signal characterizing the Video content of the received signal in the form of visible movement characteristics includes. Das Verfahren nach Anspruch 1, wobei das Analysieren des Videoinhalts des empfangenen Signals zumindest umfaßt: das Charakterisieren des Videoinhalts des empfangenen Signals in Form sichtbarer Farbmerkmale; das Charakterisieren des Videoinhalts des empfangenen Signals in Form sichtbarer Beleuchtungsmerkmale; und das Charakterisieren des Videoinhalts des empfangenen Signals in Form sichtbarer Bewegungsmerkmale.The method of claim 1, wherein analyzing of the video content of the received signal at least comprises: the Characterizing the video content of the received signal in the form visible color features; characterizing the video content the received signal in the form of visible illumination features; and characterizing the video content of the received signal in the form of visible movement characteristics. Eine Einrichtung, aufweisend: einen Eingangsport, über welchen die Einrichtung ein Signal empfängt, das einen Videoinhalt aufweist; eine Videoanalyseschaltung, die mit dem Eingangsport gekoppelt ist, und die so ausgebildet ist, daß sie den Videoinhalt des empfangenen Signals analysieren kann, um sichtbare Merkmale des Videoinhalts zu ermitteln; eine Audioanalyseschaltung, die mit dem Eingangsport gekoppelt ist und die so ausgebildet ist, daß sie bestimmt, ob das empfangene Signal einen Audio-Inhalt enthält und in dem Fall, dass bestimmt wird, dass ein Audio-Inhalt enthalten ist, ein Audio-Attribut bestimmt, welches anzeigt, ob der Audioinhalt des empfangenen Signals Sprache enthält, eine mit der Videoanalyseschaltung und der Audioanalyseschaltung gekoppelte Steuereinrichtung, die so ausgebildet ist, daß sie eine Audio-Inhalt-Auswahl aus einer Mehrzahl von Audio-Inhalt-Auswahlmöglichkeiten auswählt, mit welcher das empfangene Signal angereichert werden soll, wobei die Auswahl wenigstens zum Teil auf der Grundlage der ermittelten sichtbaren Merkmale des Videoinhalts des empfangenen Videosignals erfolgt und die Steuereinrichtung ferner einen Aufnahmepegel auf Grundlage des Audio-Attributs bestimmt, bei welchem das empfangene Signal mit dem ausgewählten Audio-Inhalt anzureichern ist.An institution comprising: an input port over which the device receives a signal, having a video content; a video analysis circuit, which is coupled to the input port and which is designed that she is the one Video content of the received signal can analyze to visible Identify features of the video content; an audio analysis circuit, which is coupled to the input port and which is designed that she determines whether the received signal contains audio content and in the event that determines is that an audio content is included that determines an audio attribute which indicates whether the audio content of the received signal is voice contains a coupled to the video analysis circuit and the audio analysis circuit Control means adapted to issue an audio content selection a plurality of audio content selections, with which the received signal is to be enriched, wherein the Select at least in part based on the detected visible Features of the video content of the received video signal is and the controller further determines a recording level based on the audio attribute determines at which the received signal with the selected audio content is to be enriched. Die Einrichtung nach Anspruch 6, ferner aufweisend eine Massenspeichereinrichtung, die mit der Steuereinrichtung gekoppelt ist, und die jede der Mehrzahl von Audio-Inhalt-Auswahlen speichern und wiedergewinnen kann.The device of claim 6, further comprising a mass storage device coupled to the controller and storing each of the plurality of audio content selections and regain. Die Einrichtung nach Anspruch 6, wobei die Videoanalyseschaltung sichtbare Farbmerkmale des Videoinhalts quantifizieren kann.The device of claim 6, wherein the Vi deoanalysis circuit can quantify visible color characteristics of the video content. Die Einrichtung nach Anspruch 6, wobei die Videoanalyseschaltung sichtbare Beleuchtungsmerkmale des Videoinhalts ermitteln kann.The apparatus of claim 6, wherein the video analysis circuit detect visible lighting features of the video content. Die Einrichtung nach Anspruch 6, wobei die Videoanalyseschaltung sichtbare Bewegungsmerkmale des Videoinhalts ermitteln kann.The apparatus of claim 6, wherein the video analysis circuit can detect visible movement characteristics of the video content. Die Einrichtung nach Anspruch 6, wobei die Videoanalyseschaltung sichtbare Farbmerkmale, sichtbare Beleuchtungsmerkmale und sichtbare Bewegungsmerkmale des Videoinhalts ermitteln kann.The apparatus of claim 6, wherein the video analysis circuit visible color features, visible lighting features and visible Can determine movement characteristics of the video content. Die Einrichtung nach Anspruch 6, wobei die Steuereinrichtung so ausgebildet ist, daß sie die ermittelte Audio-Inhalt-Auswahl bei dem automatisch ermittelten Aufzeichnungspegel mit dem primären Audioinhalt des empfangenen Signals mischen kann.The device of claim 6, wherein the control means is so designed that she the determined audio content selection at the automatically determined recording level with the primary audio content of the received signal. Die Einrichtung nach Anspruch 6, wobei die Mehrzahl der Audio-Inhalt-Auswahlen in einem fernen Audio-System gespeichert ist, das kommunikativ mit der Einrichtung über eine Audioschnittstelle gekoppelt ist, wobei die Steuereinrichtung so ausgebildet ist, daß sie geeignete Audio-Inhalt-Auswahlen aus dem fernen Audio-System über die Audioschnittstelle ermitteln und lesen kann.The device of claim 6, wherein the plurality the audio content selections stored in a remote audio system is communicative with the device via an audio interface coupled, wherein the control device is designed so that they are suitable Audio content selections the remote audio system can detect and read the audio interface. Die Einrichtung nach Anspruch 6, wobei die Mehrzahl der Audio-Inhalt-Auswahlen in einem Netzwerkserver gespeichert ist, der kommunikativ mit der Einrichtung über eine Netzwerkverbindung gekoppelt ist, wobei die Steuereinrichtung so ausgebildet ist, daß sie geeignete Audio-Inhalt-Auswahlen aus dem Netzwerkserver über die Netzwerkverbindung ermitteln und wiedergewinnen kann.The device of claim 6, wherein the plurality the audio content selections are stored in a network server, communicative with the device via a network connection coupled, wherein the control device is designed so that they are suitable Audio content selections from the network server over the network connection determine and recover. Die Einrichtung gemäß Anspruch 6, wobei die Einrichtung einen Bestandteil eines Videobearbeitungssystems bildet.The device of claim 6, wherein the device forms part of a video editing system. Das Bearbeitungssystem nach Anspruch 15, ferner aufweisend eine Massenspeichereinrichtung, die mit der Steuereinrichtung gekoppelt ist und die jede der Mehrzahl von Audio-Inhalt-Auswahlen speichern und wiedergewinnen kann.The processing system of claim 15, further comprising a mass storage device connected to the control device and each of the plurality of audio content selections save and regain. Das Bearbeitungssystem nach Anspruch 15, wobei die Videoanalyseschaltung sichtbare. Farbmerkmale des Videoinhalts, sichtbare Beleuchtungsmerkmale des Videoinhalts und/oder sichtbare Bewegungsmerkmale des Videoinhalts quantifizieren kann.The processing system of claim 15, wherein the Video analysis circuit visible. Color characteristics of the video content, visible lighting features of the video content and / or visible Can quantify movement characteristics of the video content. Das Bearbeitungssystem nach Anspruch 15, wobei die Steuereinrichtung so ausgebildet ist, daß sie die ermittelte Audio-Inhalt-Auswahl bei dem automatisch ermittelten Aufzeichnungspegel mit dem primären Audioinhalt des empfangenen Signals mischen kann.The processing system of claim 15, wherein the Control device is designed so that it determines the determined audio content selection at the automatically determined recording level with the primary audio content of the received signal. Das Bearbeitungssystem nach Anspruch 15, wobei die Mehrzahl der Audio-Inhalt-Auswahlen in einem fernen Audio- System gespeichert ist, das kommunikativ mit dem Bearbeitungssystem über eine Audio-Schnittstelle gekoppelt ist, wobei die Steuereinrichtung so ausgebildet ist, daß sie geeigneten Audio-Inhalt aus dem fernen Audio-System über die Audio-Schnittstelle auswählen kann.The processing system of claim 15, wherein the Most audio content selections stored in a remote audio system is communicative with the editing system via an audio interface coupled, wherein the control means is adapted to receive suitable audio content from the remote audio system via select the audio interface can. Das Bearbeitungssystem nach Anspruch 15, wobei die Mehrzahl der Audio-Inhalt-Auswahlen in einem Netzwerk-Server gespeichert ist, der kommunikativ mit dem Bearbeitungssystem über eine Netzwerkverbindung gekoppelt ist, wobei die Steuereinrichtung so ausgebildet ist, daß sie geeigneten Audio-Inhalt aus dem Netzwerk-Server über die Netzwerkverbindung auswählen kann.The processing system of claim 15, wherein the Most of the audio content selections are stored in a network server is communicative with the editing system via a Network connection is coupled, wherein the control device so is trained that she suitable audio content from the network server via select the network connection can. Die Einrichtung gemäß Anspruch 6, wobei die Einrichtung als elektronisches Gerät ausgebildet ist, aufweisend: eine primäre Audio/Video(A/V)-Funktionseinheit, die ein einen Videoinhalt enthaltendes Signal liefern kann und mit dem Eingangsport gekoppelt ist.The device of claim 6, wherein the device as an electronic device is formed, comprising: a primary audio / video (A / V) functional unit, which can deliver a signal containing a video content and with is coupled to the input port. Das elektronische Gerät nach Anspruch 21, wobei das elektronische Gerät ein Fernsehapparat ist.The electronic device according to claim 21, wherein the electronic device a TV is. Das elektronische Gerät nach Anspruch 21, wobei das elektronische Gerät ein Video-Aufzeichnungs/Wiedergabe-Gerät ist.The electronic device according to claim 21, wherein the electronic device is a video recording / playback device. Das elektronische Gerät nach Anspruch 21, wobei das Videobearbeitungssystem in der Lage ist, das empfangene Signal mit der ermittelten Audio-Auswahl anzureichern, so daß ein zusammengesetztes Audio/Video(A/V)-Signal erzeugt wird, das wenigstens den Videoinhalt und die ermittelte Audio-Auswahl enthält.The electronic device according to claim 21, wherein the Video editing system is capable of using the received signal enrich the determined audio selection, so that a composite Audio / Video (A / V) signal is generated, at least the video content and containing the determined audio selection.
DE19983916T 1999-01-28 1999-01-28 Method and device for editing a video recording with an audio selection Expired - Fee Related DE19983916B4 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US1999/002042 WO2000045597A1 (en) 1998-01-05 1999-01-28 Method and apparatus for editing a video recording with audio selections

Publications (2)

Publication Number Publication Date
DE19983916T1 DE19983916T1 (en) 2002-05-08
DE19983916B4 true DE19983916B4 (en) 2010-02-18

Family

ID=22272081

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19983916T Expired - Fee Related DE19983916B4 (en) 1999-01-28 1999-01-28 Method and device for editing a video recording with an audio selection

Country Status (5)

Country Link
JP (1) JP2002536887A (en)
KR (1) KR100420293B1 (en)
DE (1) DE19983916B4 (en)
GB (1) GB2362986B (en)
IL (2) IL144017A0 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101138396B1 (en) * 2007-09-11 2012-04-26 삼성전자주식회사 Method and apparatus for playing contents in IPTV terminal
JP4488091B2 (en) * 2008-06-24 2010-06-23 ソニー株式会社 Electronic device, video content editing method and program
DE102010052527A1 (en) * 2010-11-25 2012-05-31 Institut für Rundfunktechnik GmbH Method and device for improved sound reproduction of video recording video

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4491879A (en) * 1979-04-27 1985-01-01 Fine Clarence R Method of post production sound recording for video taped programs
US5206929A (en) * 1990-01-19 1993-04-27 Sony Corporation Of America Offline editing system
JPH06186958A (en) * 1992-12-21 1994-07-08 Hitachi Ltd Sound data generation system
US5548346A (en) * 1993-11-05 1996-08-20 Hitachi, Ltd. Apparatus for integrally controlling audio and video signals in real time and multi-site communication control method
JPH09138689A (en) * 1995-11-10 1997-05-27 Victor Co Of Japan Ltd Image selecting method for communication karaoke sing-along machine
US5636073A (en) * 1992-09-04 1997-06-03 Sony Corporation Methods and apparatus for editing and recording audio and/or video signals reproduced from plural sources
US5715412A (en) * 1994-12-16 1998-02-03 Hitachi, Ltd. Method of acoustically expressing image information
US5852438A (en) * 1995-09-21 1998-12-22 Roland Kabushiki Kaisha Video editor
EP1020843A1 (en) * 1996-09-13 2000-07-19 Hitachi, Ltd. Automatic musical composition method

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4491879A (en) * 1979-04-27 1985-01-01 Fine Clarence R Method of post production sound recording for video taped programs
US5206929A (en) * 1990-01-19 1993-04-27 Sony Corporation Of America Offline editing system
US5636073A (en) * 1992-09-04 1997-06-03 Sony Corporation Methods and apparatus for editing and recording audio and/or video signals reproduced from plural sources
JPH06186958A (en) * 1992-12-21 1994-07-08 Hitachi Ltd Sound data generation system
US5548346A (en) * 1993-11-05 1996-08-20 Hitachi, Ltd. Apparatus for integrally controlling audio and video signals in real time and multi-site communication control method
US5715412A (en) * 1994-12-16 1998-02-03 Hitachi, Ltd. Method of acoustically expressing image information
US5852438A (en) * 1995-09-21 1998-12-22 Roland Kabushiki Kaisha Video editor
JPH09138689A (en) * 1995-11-10 1997-05-27 Victor Co Of Japan Ltd Image selecting method for communication karaoke sing-along machine
EP1020843A1 (en) * 1996-09-13 2000-07-19 Hitachi, Ltd. Automatic musical composition method

Also Published As

Publication number Publication date
GB2362986B (en) 2002-12-24
DE19983916T1 (en) 2002-05-08
JP2002536887A (en) 2002-10-29
KR100420293B1 (en) 2004-03-02
IL144017A (en) 2007-06-17
KR20010108147A (en) 2001-12-07
GB2362986A (en) 2001-12-05
GB0116270D0 (en) 2001-08-29
IL144017A0 (en) 2002-04-21

Similar Documents

Publication Publication Date Title
US6067126A (en) Method and apparatus for editing a video recording with audio selections
DE60210611T2 (en) EFFICIENT TRANSMISSION AND PLAYING OF DIGITAL INFORMATION
DE60038328T2 (en) Device, method and medium for information processing
DE69831179T2 (en) PORTABLE DEVICE FOR SIMULATING BIDIRECTIONAL CONNECTIONS FOR ONE-DIRECTIVE DATA STREAMS
DE69908663T2 (en) Playback method, playback device and computer readable storage medium
DE60007876T2 (en) DIGITAL VIDEO PROCESSING AND INTERFACE SYSTEM FOR VIDEO, AUDIO AND ADDITIONAL DATA
DE69836790T2 (en) Searching of video images, production of video information and storage medium for storing a processing program therefor
DE69728177T2 (en) GRAPHIC USER INTERFACE WITH HIERARCHICAL MENUS
DE69434007T2 (en) image editing system
DE69633698T2 (en) Recording and / or playback of TV data
DE69408237T3 (en) Device for compressing / decompressing video signals in a video disc recording / playback device
DE69635528T2 (en) Image processing device
DE10053732B4 (en) Device and method for writing and reproducing data
DE69733527T2 (en) Image display unit, image display system and moving image retrieval system
DE60129390T2 (en) Information recording and reproducing apparatus
DE69632664T2 (en) Decoding of information pages comprising title information and page data
DE69535043T2 (en) Playback of recording media
DE60206849T2 (en) Method for recording multimedia information on an optical disk
DE10115084A1 (en) Coded data editing device e.g. for dividing moving image data into several data files in video camera, requires a definition device for defining an editing position for the coded data
DE112004002520T5 (en) Control of the overlay of several video signals
DE60038535T2 (en) METHOD AND DEVICE, STORAGE METHOD AND APPARATUS FOR INFORMATION CREATION AND PROCESSING
DE19714265A1 (en) System for editing videos related to text
DE19826596B4 (en) Digital camera and control method for it
DE69914371T2 (en) METHOD AND DEVICE FOR PRESENTING A COLORED AUDIOVISUAL PROGRAM
DE4129656A1 (en) Video signal monitor play back - has gray value distribution statistically evaluated to access look up table data for optimal gray value output

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee