DE10232916B4

DE10232916B4 - Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals

Info

Publication number: DE10232916B4
Application number: DE10232916A
Authority: DE
Inventors: Frank Dr. Klefenz; Karlheinz Brandenburg
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Callahan Cellular LLC
Priority date: 2002-07-19
Filing date: 2002-07-19
Publication date: 2008-08-07
Anticipated expiration: 2022-07-20
Also published as: EP1523719A2; WO2004010327A3; DE10232916A1; US7035742B2; US20050038635A1; EP1523719B1; WO2004010327A2

Abstract

Vorrichtung zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, mit folgenden Merkmalen:
einer Einrichtung (10) zum Bestimmen der lokalen Extremwerte des Informationssignals, wobei ein lokaler Extremwert durch einen Zeitpunkt und eine Amplitude definiert ist; und
einer Einrichtung (11) zum Ermitteln von Flächeninformationen von Tälern oder Bergen des Informationssignals im Falle einer eindimensionalen Amplitude des Informationssignals oder von Volumeninformationen von Tälern oder Bergen des Informationssignals im Falle einer zweidimensionalen Amplitude des Informationssignals, wobei ein Tal oder Berg durch einen zeitlichen Abschnitt (42, 47) des Informationssignals definiert ist, wobei sich der Abschnitt des Informationssignals von dem Zeitpunkt eines lokalen Extremwerts (43) bis zu einem zeitlich benachbarten Wert (44) des Informationssignals, der die gleiche Amplitude wie der lokale Extremwert aufweist, erstreckt, wobei die Flächeninformationen oder Volumeninformationen von mehreren Bergen oder Tälern für das Informationssignal charakteristisch sind.

Description

Die vorliegende Erfindung bezieht sich auf die Verarbeitung von Informationssignalen und insbesondere auf die Merkmalsextraktion von Informationssignalen beispielsweise zur Charakterisierung der Informationssignale oder zur Identifikation und Datenbanksuche.
Konzepte, durch die Zeitsignale mit einem harmonischen Anteil, wie z. B. Audiodaten, identifizierbar und referenzierbar sind, sind für viele Anwender nützlich. Insbesondere in einer Situation, in der ein Audiosignal vorliegt, dessen Titel und Autor unbekannt sind, ist es oftmals wünschenswert, herauszufinden, von wem das entsprechende Lied stammt. Ein Bedarf hierzu besteht beispielsweise, wenn der Wunsch vorhanden ist, z. B. eine CD des betreffenden Interpreten zu erwerben. Wenn das vorliegende Audiosignal lediglich den Zeitsignalinhalt umfaßt, jedoch keinen Namen über den Interpreten, den Musikverlag etc., so ist eine Identifizierung des Ursprungs des Audiosignals bzw. von wem ein Lied stammt, nicht möglich. Die einzige Hoffnung bestand dann darin, das Audiostück samt Referenzdaten bezüglich des Autors oder der Quelle, wo das Audiosignal zu erwerben ist, noch einmal zu hören, um dann den gewünschten Titel beschaffen zu können.
Im Internet ist es nicht möglich, Audiodaten unter Verwendung herkömmlicher Suchmaschinen zu suchen, da die Suchmaschinen lediglich mit textuellen Daten umgehen können. Audiosignale bzw. allgemeiner gesagt, Zeitsignale, die einen harmonischen Anteil haben, können durch solche Suchmaschinen nicht verarbeitet werden, wenn sie keine textuellen Suchangaben umfassen.
Ein realistischer Bestand an Audiodateien liegt bei mehreren tausend gespeicherten Audiodateien bis zu hunderttausenden von Audiodateien. Musikdatenbankinformationen können auf einem zentralen Internet-Server abgelegt sein, und potentielle Suchanfragen könnten über das Internet erfolgen. Alternativ sind bei heutigen Festplattenkapazitäten auch die zentrale Musikdatenbanken auf lokalen Festplattensystemen von Benutzern denkbar. Es ist wünschenswert, solche Musikdatenbanken durchsuchen zu können, um Referenzdaten über eine Audiodatei zu erfahren, von der lediglich die Datei selbst, jedoch keine Referenzdaten bekannt sind.
Darüber hinaus ist es gleichermaßen wünschenswert, Musikdatenbanken unter Verwendung vorgegebener Kriterien durchsuchen. zu können, die beispielsweise dahingehend lauten, ähnliche Stücke herausfinden zu können. Ähnliche Stücke sind beispielsweise die Stücke mit einer ähnlichen Melodie, einem ähnlichen Instrumentensatz, oder einfach mit ähnlichen Geräuschen, wie z. B. Meeresrauschen, Vogelgezwitscher, männliche Stimmen, weibliche Stimmen, etc.
Das U.S.-Patent Nr. 5,918,223 A offenbart ein Verfahren und eine Vorrichtung für eine Inhalts-basierte Analyse, Speicherung, Wiedergewinnung und Segmentierung von Audioinformationen. Dieses Verfahren beruht darauf, mehrere akustische Merkmale aus einem Audiosignal zu extrahieren. Gemessen werden Lautstärke, Baß, Tonhöhe, Brightness und Melfrequenz-basierte Cepstral-Koffizienten in einem Zeitfenster bestimmter Länge in periodischen Intervallabständen. Jeder Meßdatensatz besteht aus einer Folge von gemessenen Merkmalsvektoren. Jede Audiodatei ist durch den kompletten Satz der pro Merkmal berechneten Merkmalsfolgen spezifiziert. Ferner werden die ersten Ableitungen für jede Folge von Merkmalsvektoren berechnet. Dann werden statistische Werte wie Mittelwert und Standardabweichung berechnet. Dieser Satz von Werten wird in einem N-Vektor, d. h. einem Vektor mit n Elementen, gespeichert. Diese Vorgehensweise wird auf eine Vielzahl von Audiodateien angewendet, um für jede Au diodatei einen N-Vektor abzuleiten. Damit wird nach und nach eine Datenbank aus einer Vielzahl von N-Vektoren aufgebaut. Aus einer unbekannten Audiodatei wird dann unter Verwendung derselben Vorgehensweise ein Such-N-Vektor extrahiert. Bei einer Suchanfrage wird dann eine Abstandsberechnung des vorgegebenen N-Vektors und der in der Datenbank gespeicherten N-Vektoren ermittelt. Schließlich wird der N-Vektor ausgegeben, der den minimalen Abstand zu dem Such-N-Vektor hat. Dem ausgegebenen N-Vektor sind Daten über den Autor, den Titel, die Beschaffungsquelle etc. zugeordnet, so daß eine Audiodatei hinsichtlich ihres Ursprungs identifiziert werden kann.
Dieses Verfahren hat den Nachteil, daß mehrere Merkmale berechnet werden und willkürliche Heuristiken zur Berechnung der Kenngrößen eingeführt werden. Durch Mittelwert- und Standardabweichungsberechnungen über alle Merkmalsvektoren für eine gesamte Audiodatei wird die Information, die durch den zeitlichen Verlauf der Merkmalsvektoren gegeben ist, auf wenige Merkmalsgrößen reduziert. Dies führt zu einem hohen Informationsverlust.
Grundsätzlich haben alle sogenannten Features bzw. Merkmale, die zur Identifikation von Informationssignalen eingesetzt werden, zwei gegenläufige Anforderungen zu erfüllen. Die eine Anforderung besteht darin, eine möglichst gute Charakterisierung eines Informationssignals zu liefern. Die andere Anforderung besteht darin, daß das Merkmal oder Feature nicht besonders viel Speicherplatz in Anspruch nehmen darf, also so wenig Informationen als möglich haben darf. Im Hinblick auf den Speicherplatz kleinere Features haben unmittelbar kleinere Informationssignaldatenbanken zur Folge und resultieren auch in einer schnelleren Datenbanksuche, um eine qualitative Aussage über ein zu testendes Informationssignal oder sogar eine quantitative Aussage über ein solches Informationssignal treffen zu können.
Eine weitere ebenfalls wichtige Anforderung an das aus dem Informationssignal zu extrahierende Merkmal besteht darin, daß das Merkmal robust gegenüber Veränderungen sein sollte. Solche Veränderungen bestehen in einem systemimmanenten Rauschen, einer Verzerrung z. B. aufgrund eines verlustbehafteten Codierverfahrens. Andere Signalveränderungen sind beispielsweise Änderungen der Lautstärke am Beispiel eines Audiosignals sowie Verzerrungen aufgrund eines Abspielens eines Audiosignals über einen Lautsprecher und Wiederaufzeichnen des Audiosignals über ein Mikrophon etc.
Das US-Patent Nr. 4,852,181 offenbart ein System zur Spracherkennung für die Erkennung der Kategorie eines Eingabesprachmusters. Zunächst wird ein Rauschmuster des Umgebungsrauschens bestimmt, wonach ein Sprachmerkmalsvektor evaluiert wird, indem das Rauschmuster von dem Merkmalsvektor der eingegebenen Sprache abgezogen wird. Unter anderem wird ein Vektor mit lokalen Peaks evaluiert, indem eine spezielle Binärcodierungsverarbeitung eingesetzt wird.
Die WO 02/11123 A2 offenbart ein System und ein Verfahren zum Erkennen von Tonsignalen und Musiksignalen in einer Umgebung mit starkem Rauschen, wobei sogenannte Landmark-Zeitpunkte und zugeordnete Fingerabdrücke eingesetzt werden, die in einer Datenbank abgespeichert sind. Landmark-Zeitpunkte treten an reproduzierbaren Positionen innerhalb einer Datei auf, während Fingerabdrücke Merkmale des Signals bei oder neben den Landmark-Zeitpunkten darstellen.
Das US-Patent Nr. 5,536, 902 A offenbart ein Verfahren zum Analysieren und Synthetisieren eines Tonsignals, wobei Analysedaten verwendet werden, die mehrere Komponenten der ursprünglichen Ton-Wellenfront darstellen.
Die WO 01/88900 A2 offenbart ein Verfahren zum Identifizieren eines Audioinhalts, bei dem ein Fingerabdruck des Audiosignals basierend auf einem Energiegehalt in Frequenzsubbändern erzeugt wird.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein flexibles und robustes Konzept zum Charakterisieren eines Informationssignals zu schaffen.
Diese Aufgabe wird durch eine Vorrichtung zum Charakterisieren eines Informationssignals gemäß Anspruch 1, ein Verfahren zum Charakterisieren eines Informationssignals nach Patentanspruch 19, eine Vorrichtung zum Aufbauen einer Informationssignaldatenbank nach Patentanspruch 20, ein Verfahren zum Aufbauen einer Informationssignaldatenbank nach Patentanspruch 21, eine Vorrichtung zum Identifizieren eines Informationssignals nach Patentanspruch 22, ein Verfahren zum Identifizieren eines Informationssignals nach Patentanspruch 23 oder ein Computer-Programm nach Patentanspruch 24 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß eine einerseits charakteristische Darstellung eines Informationssignals und andererseits eine Darstellung des Informationssignals mit begrenztem Speicheraufwand dadurch erreicht werden kann, daß der Amplituden-Zeit-Verlauf des Informationssignals dahingehend verarbeitet wird, daß lokale Extremwerte bestimmt werden, und daß Flächeninformationen im Falle eines Informationssignals mit eindimensionaler Amplitude oder Volumeninformationen im Falle eines Audiosignals mit zweidimensionaler Amplitude von Tälern oder Bergen des Informationssignals ermittelt werden, wobei je dem Tal oder Berg des Informationssignals ein lokaler Extremwert sowie ein zeitlicher Abschnitt zugeordnet ist, wobei sich der zeitliche Abschnitt des Informationssignals für einen Berg oder für ein Tal von dem Zeitpunkt des lokalen Extremwerts bis zu einem zeitlich benachbarten Wert des Informationssignals erstreckt, der die gleiche Amplitude wie der lokale Extremwert aufweist. Dadurch werden Flächeninformationen bzw. Volumeninformationen in zeitlich aufeinanderfolgender Darstellung erhalten, die für das Informationssignal charakteristisch sind.
Die vorliegende Erfindung ist dahingehend vorteilhaft, daß die charakteristischen Eigenschaften eines Amplituden-Zeit-Verlaufs in Form von Flächeninformationen oder Volumeninformationen integrale Größen sind, die im Gegensatz beispielsweise zu Amplituden-Zeit-Tupel oder zu sonstigen eher an den akustischen Eigenschaften eines Audiosignals angenäherten Merkmalen, relativ invariante Größen sind, die in ihrer tatsächlichen quantitativen Größe oder zumindest in ihrer relative Größe in Hinblick auf eine zeitliche Folge gegenüber Verzerrungen, Rauschen etc. eine hohe Robustheit aufweisen.
Darüber hinaus ermöglicht das erfindungsgemäße Konzept der Darstellung eines Informationssignals durch integrale Größen, die vom Amplituden-Zeit-Verlauf des Informationssignals abgeleitet sind, eine stark komprimierte Darstellung, die im Hinblick auf eine Informationssignal-Identifikation zum einen zu kleinen Datenbanken führt und zum anderen zu kurzen Suchdauern zum Durchsuchen einer Datenbank unter Verwendung einer solchen Charakteristik eines zu testenden Signals.
Ein weiterer Vorteil des erfindungsgemäßen Konzepts besteht darin, daß die Darstellung eines Informationssignals mit einem Amplituden-Zeit-Veriauf anhand von integralen Flächen- oder Volumeninformationen in zeitlicher Folge besonders gut für Informationssignale geeignet sind, die sich wiederholende Grundstrukturen haben, wie z. B. Audiosignale. So liefern Instrumente beispielsweise ein Signal, das für jedes Instrument charakteristisch ist, und das insbesondere eine für jedes Instrument charakteristische Folge von Flächeninformationen aufweist. Sich wiederholende Muster treten auf, wenn ein Instrument aufeinanderfolgende Töne spielt. Dieses Muster findet sich unmittelbar in den aufeinanderfolgenden Flächeninformationen wieder. Eine Mustererkennung der Folge von Flächeninformationen kann daher dazu verwendet werden, das Audiosignal zu segmentieren, um diverse Nachverarbeitungen vornehmen zu können, wie z. B. eine Polyphonklangerkennung, eine Musikinstrumentenerkennung oder eine Melodieerkennung. Darüber hinaus zeichnen sich gesprochene Laute durch sich wiederholende Signalmuster aus. Daher ist das erfindungsgemäße Konzept auch zur Nachverarbeitung von Sprachsignalen geeignet, um beispielsweise eine Spracherkennung durchzuführen.
Quasi-stationäre Audiosignale als Beispiel für Informationssignale, die sich besonders gut für das erfindungsgemäße Konzept eignen, wobei die Audiosignale beispielsweise durch Sprachlaute oder Musikinstrumenten-Laute dargestellt sind, zeichnen sich dadurch aus, daß Replika des gleichen bzw. eines nur langsam veränderlichen Bodenprofils bzw. der gleichen oder einer nur langsam veränderlichen Audiosignalform n-fach aneinander gereiht werden, abhängig davon, wie lange der Sprachlaut gehalten bzw. wie lange der Ton angehalten wird. Replika der gleichen Signalform werden lokal festgestellt, indem gleiche oder nur geringfügig abweichende Flächeninformationen der Folge von Flächeninformationen vorzugsweise des Original- und des Komplementärsignals miteinander verglichen werden.
Gleiche Wellenzüge werden also dadurch identifiziert, daß gleiche Flächeninhalte assoziiert werden. Der absolute Inhalt, d. h. ein Flächenintegral, kann aber auch angeben, ob es sich um einen Vokal, Konsonant, ein bestimmtes Musikinstrument, einen hochfrequenten Ton etc. handelt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
1 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Charakterisieren eines Informationssignals;
2 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Aufbauen einer Informationssignal-Datenbank;
3 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Identifizieren eines Test-Informationssignals unter Verwendung einer Informationssignal-Datenbank;
4 einen Amplituden-Zeit-Verlauf eines beispielhaften Informationssignals mit eingezeichneten Flächeninformationen für lokale Maxima und lokale Minima; und
5 ein beispielhaftes Signalformdiagramm für einen gesprochenen Vokal „o".
Bevor detaillierter auf die nachfolgenden Figuren eingegangen wird, wird zunächst zur besseren Anschaulichkeit der Erfindung das allgemeine Prinzip erläutert. In Anlehnung an die nachfolgende Erörterung wird das erfindungsgemäße Konzept für Audiosignale als Informationssignale auch als "Audio-Watershed" bezeichnet. Dieses Konzept ist ein Konzept, mit dem Audiosignale in Intervalle unterteilbar sind. In der Geodäsie ist das Konzept sehr anschaulich beschreibbar. Berg- und Talbodenformationen werden von Regenwasser angefüllt. Das Wasser sammelt sich in Talsenken und umströmt Bergkuppen. Der maximale Füllstand einer isolierten Region ist durch das zweidimensionale Bodenprofil und die Höhe der geringsten Durchlaßstelle gegeben. Die aufgenommene Wassermenge kann einfach bestimmt werden, indem gemessen wird, welche Wassermenge der kontinuierlich strömenden Regenwasserquelle bis zum Überlauf entnommen wurde.
Für eindimensionale Informationssignale, beispielsweise Audiosignale, verteilen sich die herabregnenden Wassermengen über den gesamten Verlauf der Audiowellenzüge. Zwischen zwei benachbarten lokalen Wellenmaximas bleibt das Wasser stehen und wird eingeschlossen. Sukzessive können weitere Teilbereiche geflutet werden, bis zum Schluß auch das Amplitudenmaximum der gesamten Signaldarstellung geflutet ist. Zu diesem Zweck müßte angenommen werden, daß die Ränder am Anfang und am Ende des Signals hoch sind, und zwar mindestens höher als das globale Maximum des Signals. Dieses Konzept funktioniert jedoch auch ohne die Annahme solcher hoher Ränder. Dann wird das Maximum nicht geflutet, sondern das Wasser steigt nur bis zur Höhe des zweithöchsten Maximums an.
Zur detaillierteren Darstellung des Signals wird es bevorzugt, den Signalverlauf längs der t-Achse zu spiegeln, um ein komplementäres Informationssignal zu erhalten, um das invertierte Profil entsprechend durch Flächenbestimmung der Täler zu vermessen.
Nachdem sich insbesondere bei den beschriebenen Informationssignalen gleiche Wellenzüge periodisch quasi-stationär wiederholen, haben sie auch immer den gleichen "Wasserinhalt", so daß eine Segmentierung aufgrund des Wasserinhalts eines Wellenzugs, der sich aus mehreren Wasserinhalten der Täler, die in dem Wellenzug vorhanden sind, zusammensetzt, erfolgen kann. Gleiche Wellenzüge werden also dadurch identifiziert, daß gleiche Flächeninhalte assoziiert werden.
Wie es noch anhand von 4 erläutert werden wird, kann die Informationssignalcharakterisierung nicht nur anhand von Tälern, die durch lokale Maxima definiert sind, durch geführt werden, sondern auch anhand von Bergen, deren Basislinie durch ein lokales Minimum definiert ist, und deren Gipfel durch den Signalverlauf begrenzt sind. Diese Darstellung ist gleichwertig zur Invertierung des ursprünglichen Informationssignals und zur Betrachtung der Täler im invertierten Informationssignal.
Das erfindungsgemäße Konzept ist für sämtliche Informationssignale, die einen Amplituden-Zeit-Verlauf aufweisen, der lokale Extremwerte hat, anwendbar. Solche Informationssignal können Audiosignale, Videosignale, Spannungssignale oder Stromsignale, die irgendwie geartete Meßgrößen identifizieren, etc. sein. Am Beispiel von Audiosignalen oder Videosignalen sei darauf hingewiesen, daß der zeitliche Verlauf, also das Informationssignal nicht unbedingt eine Spannungsamplitude oder eine Stromamplitude angeben muß, sondern daß das Informationssignal auch eine Leistung oder einen Schalldruck als Amplitude haben kann.
Darüber hinaus sei darauf hingewiesen, daß das Informationssignal eine eindimensionale Amplitude haben kann, wie z. B. bei einem Audiosignal, daß das Informationssignal jedoch auch eine zweidimensionale Amplitude haben kann, so daß der Amplituden-Zeit-Verlauf des Informationssignals tatsächlich dreidimensionale Berge und Täler umfaßt, während diese Berge und Täler im Falle eines Informationssignals mit eindimensionaler Amplitude lediglich einen zweidimensionalen Verlauf haben, also durch Flächeninformationen dargestellt werden können.
Darüber hinaus sei darauf hingewiesen, daß das Informationssignal selbstverständlich nicht ein kontinuierliches Signal sein muß, sondern daß dasselbe auch ein zeitdiskretes Signal sein kann, bei dem ein gedachter kontinuierlicher Verlauf aus Anschaulichkeitsgründen angenommen werden kann, der sich durch eine gerade Verbindung aufeinanderfolgender zeitdiskreter Signalwerte oder durch Interpolation ergibt.
Nachfolgend wird anhand von 4 die vorliegende Erfindung dargestellt. 4 zeigt ein Informationssignal 40 mit einem Amplituden-Zeit-Verlauf. Bei dem in 4 gezeigten Informationssignal handelt es sich um ein Informationssignal mit eindimensionaler Amplitude. Das dargestellte Informationssignal ist ein typisches Audiosignal, das sich wiederholende Wellenzüge hat, wobei ein Wellenzug im ersten Segment A dargestellt ist, während der sich wiederholende Wellenzug im zweiten Segment B dargestellt ist. Es sei darauf hingewiesen, daß sich das Informationssignal im zweiten Segment B selbstverständlich von dem Informationssignal im ersten Segment A unterscheidet, jedoch nicht in seiner grundsätzlichen Topologie sondern lediglich bei dem in 4 gezeigten Ausführungsbeispiel in der Amplitude zu bestimmten Zeitpunkten.
Das Informationssignal weist lokale Maxima 41a, 41b, 41c, 41d, 41e und 41f auf. Jedem lokalen Maximum ist ein eigenes Tal zugeordnet. Dem Maximum 41a ist das mit A0 bezeichnete Tal zugeordnet. Entsprechend ist dem Maximum 41b das Tal A1 zugeordnet. Darüber hinaus ist dem Maximum 41d das AB1 zugeordnet. Dem Maximum 41c ist nun, da ein Teil des gesamten Tals bereits durch AB1 dem Maximum 41d zugeordnet ist, lediglich der darüberliegende Rest des Tals, der mit AB2 bezeichnet ist, zugeordnet. Schließlich ist dem Maximum 41e das Tal B1 zugeordnet. Dem lokalen Maximum 41f in 4 ist kein eigenes Tal zugeordnet. Dies liegt jedoch lediglich daran, daß der weitere Verlauf des Informationssignals nicht mehr dargestellt ist.
Wie es aus 4 ersichtlich ist, ist jedes Tal durch einen zeitlichen Abschnitt definiert, der in 4 am Beispiel des Tals A1, dem das lokale Maximum 41b zugeordnet ist, mit 42 bezeichnet ist. Der zeitliche Abschnitt erstreckt sich insbesondere von dem Zeitpunkt 43 des Auftretens des lokalen Maximums 41b bis zu einem zeitlich benachbarten Wert des Informationssignals, der die gleiche Ampli tude wie der lokale Extremwert aufweist. Dieser zeitliche Wert ist in 4 mit 44 bezeichnet. Damit ergibt sich die Fläche A1, die das dem lokalen Maximum 41b zugeordnete Tal repräsentiert. Entsprechend werden die anderen Täler A0, AB2, B0, B1 behandelt. Aus der Folge der Täler A0, A1, AB1, B0, B1 ergibt sich bereits eine Charakterisierung des Informationssignals, die zur Identifikation verwendet werden kann.
Erfindungsgemäß wird es jedoch bevorzugt, nicht nur die Flächeninformationen von Tälern des Informationssignals sondern auch die Flächeninformationen von Tälern des invertierten Informationssignals zu berechnen. Eine Inversion des Informationssignals kann erreicht werden, wenn 4 einfach umgedreht wird. Dies ist durch die umgekehrt geschriebenen Flächenidentifikatoren A0', A1', A2', A21', A210', B0', B1', B2', B21', B210' dargestellt.
Alternativ, wenn 4 nicht „umgedreht wird", so ergeben sich die „Berge", die jedem lokalen Minimum zugeordnet sind, folgendermaßen. Eine Untersuchung des Informationssignals liefert lokale Minima 45a, 45b, 45c, 45e, 45f. Der erste Berg A0' ist durch das lokale Minimum 45a sowie durch den zeitlich benachbarten Wert des Informationssignals bestimmt, der denselben Wert wie das lokale Minimum hat, also einen Wert 46 definiert. Zwischen dem Wert 46 und dem lokalen Minimum 45a ergibt sich der zeitliche Abschnitt 47, der den Berg A0' identifiziert. Zur Charakterisierung des Informationssignals wird nun die Fläche des Berges A0' gemäß der in 4 gezeigten Darstellung als Flächeninformationen berechnet. Analog hierzu wird mit dem Berg A1', A2' etc. vorgegangen. Aus 4 ist ferner ein Fall ersichtlich, bei dem sich der Berg A210', dem das lokale Minimum 45c zugeordnet ist, über einem Berg A21' befindet, dem das lokale Minimum 45a zugeordnet ist und insbesondere über den Bergen A1' und A2' befindet, denen das lokale Minimum 45b zugeordnet ist. Aus dem in 4 gezeigten Beispiel ist somit ersichtlich, daß einem lokalen Minimum auch zwei Flä cheninformationen zugeordnet sein können, derart, daß dem lokalen Minimum 45b sowohl die Flächeninformation des Bergs A1' als auch die Flächeninformation des Bergs A2' zugeordnet ist. Entsprechendes gilt für das lokale Minimum 45a, dem sowohl die Flächeninformationen A0' als auch die Flächeninformationen A21' zugeordnet sind.
Bei der Betrachtung der Flächeninformationen A210', A21', A2' und A1' wird ersichtlich, daß hier dieselbe Vorgehensweise verwendet worden ist, wie sie anhand der übereinander liegenden Täler AB1 und AB2 erläutert worden ist.
Nach einer Bearbeitung des Informationssignals dahingehend, daß die Flächeninformationen sämtlicher Berge und Täler in Zuordnung zu den entsprechenden lokalen Maxima und Minima bzw. in Zuordnungen zu einem bestimmten Zeitpunkt sind, der ein ausgewählter Zeitpunkt aus dem zeitlichen Abschnitt ist, wird eine Folge von Flächeninformationen bzw. Volumeninformationen erhalten, wobei diese Folge von Zeit-Flächenwerten bzw. Zeit-Volumenwerten für das Informationssignal charakteristisch ist.
Nachfolgend wird Bezug nehmend auf 1 eine bevorzugte Vorrichtung zum Charakterisieren eines Informationssignals dargestellt. Die Vorrichtung zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, umfaßt eine Einrichtung 10 zum Bestimmen von lokalen Extremwerten des Informationssignals, wobei ein lokaler Extremwert einen Zeitpunkt und einen Amplitudenwert umfaßt. Der Einrichtung 10 zum Bestimmen von lokalen Extremwerten ist eine Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformationen für Berge und Täler des Informationssignals nachgeschaltet. Die Einrichtung zum Ermitteln von Flächeninformationen oder Volumeninformationen ist wirksam, um die Fläche eines Tals oder Bergs zu berechnen, wobei ein Tal oder Berg durch einen zeitlichen Abschnitt des Informationssignals definiert ist, wobei sich der Abschnitt des Informationssignals von dem Zeitpunkt des lokalen Extremwerts bis zu einem zeitlich benachbarten Wert des Informationssignals, der die gleiche Amplitude wie der lokale Extremwert aufweist, erstreckt. Die Flächeninformationen von mehreren Bergen oder Tälern sind für das Informationssignal charakteristisch.
Vorzugsweise wird die Einrichtung 11 eine Folge von Flächeninformationen-Zeit-Werten erzeugen und einer Einrichtung 12 zum Nachverarbeiten zuführen, die ausgebildet ist, um einen nachverarbeiteten Merkmalsvektor auszugeben oder eine Spracherkennung, eine Musikinstrumentenerkennung, eine Melodieerkennung, eine Polyphonklangerkennung oder irgend eine sonstige Erkennung von Informationen durchzuführen, die in dem Informationssignal, das in die Einrichtung 10 eingespeist wird, enthalten sind.
Zur Bestimmung von lokalen Extremwerten durch die Einrichtung 10 können beliebige bekannte Konzepte hierfür verwendet werden, wie z. B. ein üblicher Minima-Maxima-Suchalgorithmus, der einen Abtastwert des Informationssignals mit dem vorherigen Abtastwert des Informationssignals vergleicht und dann ein lokales Maximum erkennt, wenn der zeitlich spätere Abtastwert kleiner als der zeitlich frühere Abtastwert ist, und wenn vorher ein lokales Minimum war. Der Algorithmus erkennt ferner ein lokales Minimum, wenn der zeitlich frühere Abtastwert größer als der zeitlich spätere Abtastwert ist, und wenn vorher ein lokales Maximum war. Alternativ kann der Maxima/Minima-Sucher auch ausgebildet sein, um mehrere aufeinanderfolgende Abtastwerte entsprechend auszuwerten. Um nicht durch ein dem Informationssignal überlagertes Rauschen beeinträchtigt zu werden, kann die Einrichtung 10 ferner ausgebildet sein, um vor der Maxima/Minima-Suche eine Tiefpaßfilterung des Informationssignals durchzuführen, um ein glatteres Informationssignal zu erhalten. Selbstverständlich sind beliebige andere Möglichkeiten denkbar, wie z. B. das Durchführen eines Polynomfits an das Informationssignal und das analytische Bestimmen von Extremwerten unter Verwendung der Polynomfit funktionen. Alternativ könnte auch das direkt vorliegende ungefilterte Informationssignal verwendet werden, um sämtliche Maxima und Minima zu bestimmen, und um dann nachträglich die Berge oder Täler mit einem kleineren Flächeinhalt als einem vorgegebenen Schwellwert herauszufiltern bzw. in der weiteren Informationssignal-Charakterisierung nicht mehr zu verwenden.
Die Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformationen für Berge und Täler wird typischerweise als numerischer Integrator ausgebildet sein, um die Fläche zwischen dem Informationssignal und der oberen Talbegrenzung bzw. der unteren Bergbegrenzung zu berechnen. Im Falle von übereinanderliegenden Bergen oder Tälern ist die Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformationen ausgebildet, um zu berücksichtigen, daß unter dem „Tal" bereits ein anderes „Tal" liegt. Als Basislinie zur Integration wird dann die obere Begrenzungslinie des Barunterliegenden Tals, also beispielsweise die Linie 48 von 4 verwendet. Die Fläche AB2 berechnet sich also unter Verwendung der seitlichen Begrenzung der Fläche AB2, die durch das Informationssignal gegeben ist und unter Verwendung der Basislinie 48 und der oberen Begrenzung der Fläche AB2, die in 4 mit 49 dargestellt ist und gewissermaßen den „Wasserstand" definiert, der durch das lokale Maximum 41c festgelegt ist.
Im nachfolgenden wird auf unterschiedliche Ausgestaltungen der Einrichtung 12 zum Nachverarbeiten der Folge von Flächeninformationen bzw. Volumeninformationen eingegangen. Wie es bereits ausgeführt worden ist, eignet sich das erfindungsgemäße Konzept insbesondere zur Segmentierung von Informationssignalen auf der Basis der berechneten Volumeninformationen. In 4 sind zwei Replika A und B der Signalform dargestellt. Es ergeben sich Kombinationspaare gleicher oder geringfügig abweichender Volumina. Im nichtinvertierten Signal sind dies die Kombinationspaare (A0, B0), (A1, B1).
Im invertierten Signal, also hinsichtlich der Berge, ergeben sich folgende Kombinationspaare (A0', B0'), (A1', B1'), (A2', B2'), (B21', A21'), (A210', B210').
Die prozentuale Schwankung ΔF/F ist für große eingeschlossene Flächen geringer, so daß besonders bei Rauschen die Flächeninformationsvergleiche großer Flächen eine verläßlichere Schätzung auf Identität sind. Ein Beispiel hierfür ist das Kombinationspaar (A210', B210'). Die repetitiven Volumina/Flächensequenzen (A210'_n, AB2_n, B210'_n) weisen auf das Vorliegen einer bestimmten Signalform hin. Der gesamte Informationssignalverlauf wird somit auf der Basis der Folge von Flächeninformationen in m Sequenzen von Flächen- bzw. Voluminaintervallen unterteilt, woraufhin Flächen- bzw. Voluminasequenzen zu Abschnitten der gleichen Informationssignalform zusammengefaßt werden. Eine Flächen- bzw. Voluminahüllkurve wird bestimmt, indem der Aufbau der Wellensignalform sich langsam vollzieht, wobei die Flächen bzw. Volumina gleicher repetitiver Sequenzen in einer Anstiegsphase ansteigen, dann in einer Sustainphase annähernd gleich bleiben und dann in einer Abklingphase langsam abnehmen. An dieser Stelle sei darauf hingewiesen, daß typische Töne von Musikinstrumenten eine Anstiegsphase, eine Sustainphase und eine Abklingphase haben. So wäre beispielsweise bei einem Klavier, bei dem eine Saite durch den Aufschlag eines Hämmerchens angeregt wird, die Anstiegsphase relativ kurz. Die Sustainphase wäre ebenfalls relativ kurz, während die Abklingphase relativ lang dauern würde.
Eine Intervallgrenze ergibt sich dann, wenn sich Flächen bzw. Volumina abrupt ändern.
Erfindungsgemäß kann auf der Basis der Folge von Flächen- bzw. Voluminainformationen auch eine Frequenzbestimmung durchgeführt werden. Die Frequenz des Wiederholungsmusters wird bestimmt, indem die Abstände der lokalen Maxima bzw. lokalen Minima aufeinanderfolgender gleicher oder nur ge ringfügig unterschiedlicher Flächen bzw. Volumina in der Form beispielsweise ((A0, B0), A1, B1)) gebildet werden, und wenn im invertierten Signal die Abstände ((A0', B0'), (A1', B1'), (A2', B2'), (A21', B21'), (A210', B210') gebildet werden.
Das gewissermaßen entstehende Relief aufeinanderfolgender Bergkuppen und Talsohlen wird durch die Bestimmung des Repititionsmusters der Form (A210', AB2, B210') ermittelt. Das Feinprofil eines Bergkamms oder einer Talsohle wird durch die Angabe der strukturierenden Elemente A0, A1 und A0', A1', A2', A21' bestimmt.
Erfindungsgemäß ist die Einrichtung 12 zum Nachverarbeiten ferner ausgebildet, um jeder Flächeninformation oder Volumeninformation einen Vektor zuzuweisen, der vorzugsweise den Zahlenwert des Flächeninhalts bzw. Volumeninhalts und den Zeitwert des Auftretens umfaßt. Als Zeitwert des Auftretens kann irgend ein Zeitwert des zeitlichen Abschnitts genommen werden. Es wird bevorzugt, einem Flächeninhalt den Zeitpunkt des Auftretens des lokalen Extremwerts zuzuordnen, der dem Flächeninhalt zugeordnet ist. Bedingt ein lokaler Extremwert, wie z. B. der lokale Extremwert 45b von 4 zwei in 4 gezeigte „Berge" A1', A2', so wird den Flächeninformationen A1', A2' derselbe Zeitwert zugeordnet, nämlich der Zeitwert des Auftretens des lokalen Minimums 45b.
Damit entsteht ein Zahlenfeld von n Vektoren längs der Zeitachse. Solche Sequenzen von Vektoren können mit DNA-Sequencing-Methoden mit bestehenden Volumenvektoren, die in einer Musikdatenbank gespeichert sind, verglichen werden, um über Identifikationen, die den einzelnen Vektoren in der Musikdatenbank zugeordnet sind, beispielsweise eine Informationssignal-Identifikation durchzuführen.
Werden die Informationssignale, wie z. B. Audiosignale unterschiedlicher Aufnahmen, normiert, so können Flächen- bzw. Voluminasequenzen direkt miteinander verglichen werden. Mit einer Frequenzbestimmung können Flächen bzw. Volumina, die die gleiche Audiosignalform haben, aber durch die frequenzabhängige Zeitdehnung dennoch unterschiedliche Flächen bzw. Volumina aufweisen, miteinander in Bezug gesetzt werden.
Aus den Volumina bzw. Flächen und der Lage der Maxima bzw. Minima können erfindungsgemäß weitere Flächenformbeschreibende Parameter, wie z. B. die longitudinale Ausdehnung, durch die Einrichtung 12 zum Nachverarbeiten von 1 bestimmt werden. Solche weiteren Parameter erlauben eine Aussage, ob es sich beispielsweise um Sprachlaute oder von Musikinstrumenten evozierte Signale handelt. In dem Informationssignal selbst können vorzugsweise durch die Einrichtung 12 zum Nachverarbeiten lediglich relative Flächen bzw. Volumina verwendet werden, indem durch die Einrichtung 12 zum Nachverarbeiten das Verhältnis aufeinanderfolgender Flächen bzw. Volumina gebildet wird.
Allgemein gesagt haben Sprachlaute, Polyphonklänge oder von Musikinstrumenten evozierte Monophonklänge voneinander abweichende Audiosignalformen und sind daher anhand der Flächen- bzw. Voluminasequenzen unterscheidbar. Der frequenzabhängige Anteil einer gleichen Audiosignalform wird ebenfalls durch eine Änderung der Flächen bzw. Volumina bestimmt. Ist einem Sprachlaut (Vokal) eine insgesamte Fläche eindeutig zuordenbar, so können Vokalabschnitte aus dem Informationssignal herausgelesen werden. Ebenfalls können Konsonanten und Übergangsabschnitte durch Angabe der Flächen- bzw. Voluminasequenzen unter Verwendung der Einrichtung 12 zum Nachverarbeiten bestimmt werden. Dasselbe trifft für Polyphonklänge wie auch für Melodiefolgen zu.
2 zeigt eine Vorrichtung gemäß einem weiteren Aspekt der vorliegenden Erfindung, die zum Aufbau einer Informationssignal-Datenbank dient. In eine Vorrichtung 20 zum Charakterisieren, die prinzipiell so aufgebaut sein kann, wie es in 1 dargestellt ist, werden aufeinanderfolgend mehrere Informationssignale unter der Steuerung einer Steuereinrichtung 21 eingespeist, um für jedes der mehreren Informationssignale einen Merkmalsvektor zu bestimmen, der von den Flächen- bzw. Voluminainformationen abgeleitet ist. Damit kann eine Informationssignaldatenbank 22 aufgebaut werden, deren Kernstück ein Speicher 23 ist, in dem die Merkmalsvektoren (MM1, MM2, MM3) der in die Einrichtung 20 eingespeisten Informationssignale jeweils in Zuordnung zu bestimmten Identifikatoren (ID1, ID2, ID3) gespeichert sind. Die Identifikatoren ID1, ID2, ID2 erlauben eine Identifikation der Informationssignale, deren Merkmalsvektoren MM1, MM2, MM3 in der Informationssignaldatenbank und insbesondere in dem Speicher 23 der Informationssignaldatenbank abgelegt sind. Eine Informationssignaldatenbank ist um so universeller, je mehr einzelne Informationssignale durch die Vorrichtung 20 zum Charakterisieren verarbeitet worden sind und in entsprechender Form, also mittels eines dieselben jeweils charakterisierenden Merkmalsvektors, im Speicher vorhanden sind.
3 zeigt eine erfindungsgemäße Vorrichtung zum Identifizieren eines Test-Informationssignals anhand einer Informationssignaldatenbank 22, die prinzipiell genauso aufgebaut sein kann, wie die anhand von 2 beschriebene Informationssignaldatenbank. Hierzu wird in die Vorrichtung 20 zum Charakterisieren ein Test-Informationssignal eingespeist, das zu identifizieren ist, bzw. von dem eine Identifikation in Hinblick auf bestimmte Merkmale desselben in qualitativer und/oder quantitativer Hinsicht erlangt werden soll. Durch die Einrichtung 20 zum Charakterisieren wird aus dem Test-Informationssignal ein Test-Merkmalsvektor ermittelt, der das Test-Informationssignal charakterisiert. Mit diesem Test-Merkmalsvektor wird dann eine Suche in der Informationssignal-Datenbank unter den im Speicher 23 gespeicherten Merkmalsvektoren MM1, MM2, MM3 durchgeführt, um am Ausgang der Informationssignal-Datenbank eine Aussage über das Test-Informationssignal zu erhalten.
Die Aussage über das Test-Informationssignal, die durch die in 3 gezeigte Vorrichtung zum Identifizieren des Test-Informationssignals geliefert wird, kann beispielsweise eine tatsächliche Bestimmung des Autors oder Urhebers des Informationssignals sein. Eine Aussage kann jedoch auch eine quantitative Aussage sein, dahingehend, daß das Test-Informationssignal beispielsweise eine bestimmte Anzahl von Vokalen oder Konsonanten enthält. In diesem Fall wären die Merkmalsvektoren MM1, MM2, MM3, die in der Informationssignal-Datenbank gespeichert sind, Merkmalsvektoren einzelner Vokale oder Konsonanten. Nachdem der Merkmalsvektor, der durch die Vorrichtung zum Charakterisieren 20 erzeugt werden kann, ein quantitativer Merkmalsvektor ist, und nachdem in diesem Fall die in der Informationssignal-Datenbank abgespeicherten Merkmalsvektoren ebenfalls quantitative Merkmale sind, können auch quantitative Aussagen über das Test-Informationssignal getroffen werden, nämlich dahingehend, daß es einen bestimmten Ähnlichkeitsgrad zu einem Informationssignal hat, das anhand seines Merkmalsvektors in der Informationssignal-Datenbank vorliegt.
5 zeigt ein beispielhaftes Signalformdiagramm, das sich ergibt, wenn der Vokal „o" bei einer Frequenz von etwa 100 Hz durch den Erfinder gesprochen wird. Entlang der Koordinate ist in 5 die Amplitude normiert auf Werte zwischen –1,0 und 1,0 aufgetragen. Entlang der Abszisse ist in 5 die Zeit in Sekunden aufgetragen. Es zeigt sich, daß der Vokal „o" ein stark repetitives Signalmuster hat, das sehr ähnliche Flächen- bzw. Volumeninformationen-Sequenzen aufweist. Im einzelnen ist zu sehen, daß sich die Sequenz von Flächeninformationen V1, V2 periodisch wiederholt.
Durch Feststellen dieser Sequenz V1, V2 in der zeitlichen Folge von Volumeninformationen wird erfindungsgemäß eine Segmentierung durchgeführt, beispielsweise bei dem lokalen Maximum, das die mit V2 bezeichneten Flächeninformationen bestimmt und in 5 mit 50 bezeichnet ist.
Alternativ könnte eine Segmentierung auch bei einem lokalen Minimum, wie z. B. dem Maximum 50 lokalbenachbarten Minimum oder dem wieder nach links benachbarten lokalen Maximum vorgenommen werden, das das Tal identifiziert, das mit V1 bezeichnet ist.
Anhand der 5 ist ferner zu sehen, daß die Flächeninformationen V1 das gesamte linke Tal der Signalform umfassen. Das durch V1 identifizierte Tal umfaßt somit die Flächeninformationen der beiden Täler unterhalb der gestrichelten Linie 51 sowie die Flächeninformationen zwischen der Linie 51 und der oberen Begrenzungslinie, die durch ein lokales Maximum 52 definiert ist. Aus 5 ist ersichtlich, daß entweder Sequenzen von einzelnen Flächeninformationen von Tälern oder Bergen verwendet werden können, oder daß zur Segmentierung auf der Basis von auftretenden Flächeninformationssequenzen auch „kombinierte" Täler/Berge genommen werden können, wie z. B. das durch V1 identifizierte Tal.
Bei einem weiteren bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird neben den Flächen/Volumeninformationen auch die Höheninformation berücksichtigt. Dieses Konzept hat wiederum sein Analogon in der Geodäsie, wenn nämlich nicht nur die Wassermenge in einem Tal berücksichtigt wird, sondern die potentielle Energie dieser Wassermengen in dem Tal. Damit ist eine Hyperfeinstruktur des Signals angebbar, indem zusätzlich der Energieterm der potentiellen Energie angegeben wird. Die poten tielle Energie ist gleich dem Produkt aus Dichte, Volumen, Beschleunigung und Höhe. Ferner kann eine gewissermaßen kompressionslose Flüssigkeit angenommen werden. Darüber hinaus werden die Dichte und die Beschleunigung konstant angenommen und so eingestellt, daß sich die Lageenergie eines „Wasserspeichers" aus dem integralen Produkt aus eingeschlossenen Volumen und Höhe errechnet. Die Energie des in dem mit V1 bezeichneten Tal in 5 kann durch Zerlegen des Tals in kleine Rechtecke berechnet werden, wobei die Fläche jedes Rechtecks vor der Aufsummation mit der Höhe dieses Rechtecks, also der Amplitude, die diesem Rechteck zugeordnet ist, multipliziert wird.
Damit werden höher gelegene Volumina stärker gewichtet, während Rauschen um die Nullinie weniger stark gewichtet wird. Die Gewichtung höher gelegenen Flächeninformationen durch Miteinbeziehung der entsprechenden Höhe entspricht dem üblichen Wesen von Musiksignalen, bei denen laute Signalanteile die Tendenz besitzen, höher informationstragend zu sein als leise Signalanteile.
Ein Signal mit stärkerer Amplitude trägt somit mehr Informationen als ein Signal mit schwächerer Amplitude. Diesem Aspekt wird durch die Gewichtung der Folge von Flächeninformationen mit entsprechenden Höheninformationen, um gewissermaßen die potentielle Energie eines in einem Tal befindlichen Wassers zu erhalten, Genüge getan.
Im nachfolgenden wird ferner auf ein bevorzugtes Ausführungsbeispiel beispielsweise zum Berechnen der Fläche A1 von 4 eingegangen. Vorzugsweise wird die Fläche A1 derart berechnet, daß zumindest die Fläche des Rechtecks berechnet wird, das sich durch die obere Begrenzungslinie 42, eine untere Begrenzungslinie, die durch das lokale Minimum 45b geht, sowie die beiden in 4 eingezeichneten gestrichelten Seitenlinien ergibt. Daraufhin wird eine normale Integration des Signals vom lokalen Maximum 41b bis zum Punkt 44 durchgeführt, wobei als Nullinie der Funktion die Linie genommen wird, die durch das lokale Minimum 45b verläuft. Die dadurch erhaltene Fläche wird dann von der ursprünglich berechneten Rechtecksfläche subtrahiert, um schließlich die Fläche A1 des Tals zu erhalten, das durch das lokale Maximum 41b definiert ist.
Es sei darauf hingewiesen, daß zur Berechnung der Flächen der Berge nicht eine erneute Integration über das Informationssignal durchgeführt werden muß, sondern daß eine einmalige Integration ausreichend ist, um dann anhand des Kurvenintegrals und verschiedener Rechtecke sämtliche Flächeninformationen der Täler bzw. Berge zusammenzustellen.
Wie es bereits ausgeführt worden ist, ist der Vokal „o" in 5 etwa bei 100 Hz gesprochen worden. Würde der Vokal bei einer höheren Frequenz gesprochen werden, so würde sich ein zwar ähnliches Zeitdiagramm ergeben, das jedoch hinsichtlich der Zeitachse gestaucht ist. Würde der Vokal dagegen mit einer niedrigeren Frequenz aus 100 Hz gesprochen werden, so würde sich ein prinzipiell zu 5 ähnliches Zeitdiagramm ergeben, das jedoch um einen entsprechenden Faktor, der von der Frequenzdifferenz abhängt, gedehnt ist.
Zur Frequenz-Amplitudennormierung wird daher erfindungsgemäß ein bei einer Normfrequenz, wie z. B. 100 Hz, gesprochener Vokal in der Informationssignaldatenbank 22 von 3 anhand seines Merkmalsvektors und seiner Identifikation abgelegt. Ein Testsignal, von dem nicht bekannt ist, bei wel cher Frequenz es gesprochen worden ist, wird dann innerhalb der Informationssignaldatenbank hinsichtlich seines Test-Merkmalsvektors (3) einem Sweep über der Frequenz unterzogen. Dies bedeutet, daß der Signalverlauf des Testsignals, der Signalverlauf des in der Informationssignaldatenbank abgespeicherten Signals oder beide Signale oder Merkmalsvektoren entsprechend gestaucht bzw. gedehnt werden, um bei jedem Stauchungsfaktor z. B. anhand der Methode der kleinsten Fehlerquadrate eine Übereinstimmung festzustellen. Damit kann ermittelt werden, ob überhaupt zu irgendeinem Zeitpunkt des Frequenz-Sweeps eine ausreichend gute Übereinstimmung stattgefunden hat. Wird dies verneint, so umfaßt das Test-Informationssignal beispielsweise keinen gesprochenen Vokal „o". Wird dagegen bei einer bestimmten Einstellung im Frequenz-Sweep eine ausreichend gute Übereinstimmung festgestellt, so kann davon ausgegangen werden, daß im Test-Informationssignal ein gesprochener Vokal „o" vorliegt, und daß dieser gesprochene Vokal bei einer bestimmten Frequenz gesprochen worden ist.
Es sei darauf hingewiesen, daß sich durch die Dehnung/Stauchung des Merkmalsvektors oder, wenn die Dehnung/Stauchung vor der Extraktion des Merkmalsvektors durchgeführt wird, zwar die absoluten Flächeninformationen verändern. Gleich bleiben jedoch die Relationen der Flächen/Volumeninformationen zueinander, so daß eine Dehnung/Stauchung an der Zeitachse keine Auswirkung auf Sequenzen von Flächeninformationen dahingehend hat, daß diese nicht mehr identifiziert werden könnten.
Eine analoge Vorgehensweise wird im Hinblick auf eine Amplitudennormierung erfindungsgemäß eingesetzt. Wird der gesprochene Vokal „o" von 5 mit einer bestimmten mittle ren Lautstärke in der Informationssignaldatenbank 22 von 3 abgespeichert, so kann eine Dehnung/Stauchung (Verstärkung/Dämpfung) entlang der Amplituden-Achse mit darauffolgender Fehlerquadratmethode durchgeführt werden, um erstens festzustellen, ob der Vokal überhaupt in einem Test-Informationssignal vorhanden ist, und um zweitens festzustellen, mit welcher Lautstärke der Vokal im Test-Informationssignal aufgetreten ist. Bestimmte Suchstrategien zur einzelnen oder kombinierten Veränderung, d. h. Dehnung/Stauchung entlang der Zeitachse und der Amplitudenachse, wird auf den Stand der Technik im Hinblick auf DNA-Sequencing-Konzepte oder auf Methoden der kleinsten Fehlerquadrate verwiesen, um beispielsweise die minimale Metrik bzw. den nächsten Nachbar („Next Neighbor") zu bestimmen.
Alternativ kann zur Frequenz/Amplituden-Kalibrierung eine Informationssignaldatenbank 22 geschaffen werden, bei der die einzelnen Merkmalsvektoren mit bestimmten Lautstärke/Frequenz-Einstellungen eines Meßsystems aufgezeichnet worden sind. Sofern ein Zugriff hierauf besteht, können dieselben Einstellungen z. B. hinsichtlich der Lautstärke, von dem Test-Informationssignal gefordert werden. Hierauf kann eine Kennlinie abgeleitet werden, um Flächen/Volumeninformationen eines beispielsweise bei 140 Hz gesprochenen Vokals „o" in Flächen/Volumeninformationen bei der vorbestimmten Aufnahmeeinstellung, wie z. B. einer Frequenz von 100 Hz, umzurechnen bzw. abzubilden.
Schließlich wird darauf hingewiesen, daß stark signifikante Merkmale eines Audiosignals als Beispiel für ein Informationssignal in großen Volumen/Flächeninformationen liegen. Solche großen Volumen/Flächeninformationen ergeben sich durch Summation der Flächeninformationen AB1, AB2, B0 von 4. Das gesamte Tal, das durch AB2, AB1, B0 definiert ist, erhält seine Höhenbegrenzung 49 aufgrund des lokalen Maximums 41c. Durch Aufaddition der Täler, die durch lokale Maxima mit kleinerer Amplitude definiert sind, wie z. B. des lokalen Maximums 41d, wird die gesamte Fläche des durch die Begrenzungslinie 49 nach oben begrenzten Tals erhalten. Entsprechend wird für die Täler des invertierten Signals, d. h. die Berge des nicht-invertierten Signals vorgegangen. Der Berg, der insgesamt das erste Segment A identifiziert, ergibt sich aus den Flächeninformationen A210', A0', A21', A1', A2'. Durch Ermitteln der Flächeninformationen eines gesamten Bergs oder eines gesamten Tals kann erfindungsgemäß eine Segmentierung mit verläßlichen Ergebnissen durchgeführt werden, da solche großen Flächeninformationen für Berge oder Täler für die Grobstruktur, d. h. für die repetitive Struktur des Informationssignals, charakteristisch sind.
Als weiteres Merkmal oder Feature wird es bevorzugt, die Flächen/Volumeninformationen einer einzelnen Sequenz V1, V2 von 5 zu addieren, um eine Gesamtfläche der Sequenz zu erhalten, mit der eine Suche in einer Datenbank unternommen werden kann, in der Gesamtflächen von bekannten Sequenzen gespeichert sind. Das Feature der Gesamtfläche ist zwar für ein Signal weniger charakteristisch, ist dafür jedoch stärker komprimiert, so daß eine kleinere Musikdatenbank und eine schnellere Suche möglich sind. Dieses Feature ist dann ausreichend, wenn es noch ausreichend charakteristisch ist. An diesem Beispiel zeigt sich die einfach erreichbare Skalierbarkeit zwischen dem Merkmale der Charakterisierung und dem Speicherplatzmerkmal des erfindungsgemäßen Konzepts.
Alternativ oder zusätzlich zu der Gesamtfläche könnte auch die Gesamtenergie einer Sequenz V1, V2 von 5 eingesetzt werden. Für das Energiefeature gelten die vorstehenden Ausführungen ebenso.
Die erfindungsgemäßen Verfahren zum Charakterisieren, zum Aufbauen einer Informationssignal-Datenbank oder zum Iden tifizieren eines Test-Informationssignal anhand einer Informationssignal-Datenbank können je nach vorliegendem Bedarf in Hardware oder in Software implementiert werden. Die Implementation kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, daß das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung eines oder mehrerer der erfindungsgemäßen Verfahren, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt ist die Erfindung somit ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm auf einem Computer abläuft.

Claims

Vorrichtung zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, mit folgenden Merkmalen: einer Einrichtung (10) zum Bestimmen der lokalen Extremwerte des Informationssignals, wobei ein lokaler Extremwert durch einen Zeitpunkt und eine Amplitude definiert ist; und einer Einrichtung (11) zum Ermitteln von Flächeninformationen von Tälern oder Bergen des Informationssignals im Falle einer eindimensionalen Amplitude des Informationssignals oder von Volumeninformationen von Tälern oder Bergen des Informationssignals im Falle einer zweidimensionalen Amplitude des Informationssignals, wobei ein Tal oder Berg durch einen zeitlichen Abschnitt (42, 47) des Informationssignals definiert ist, wobei sich der Abschnitt des Informationssignals von dem Zeitpunkt eines lokalen Extremwerts (43) bis zu einem zeitlich benachbarten Wert (44) des Informationssignals, der die gleiche Amplitude wie der lokale Extremwert aufweist, erstreckt, wobei die Flächeninformationen oder Volumeninformationen von mehreren Bergen oder Tälern für das Informationssignal charakteristisch sind.
Vorrichtung nach Anspruch 1, bei der die Einrichtung (10) zum Bestimmen ausgebildet ist, um lokale Maxima des Informationssignals zu bestimmen, und bei der die Einrichtung (11) zum Ermitteln von Flächeninformationen ausgebildet ist, um Flächeninformationen von Tälern des Informationssignals zu ermitteln, wobei ein Tal durch einen zeitlichen Abschnitt des Informationssignals definiert ist, der sich von dem Zeitpunkt des lokalen Maximums bis zu einem zeitlich benachbarten Wert des Informationssignals erstreckt, der die gleiche Amplitude wie das lokale Maximum hat.
Vorrichtung nach Anspruch 2, bei der die Einrichtung (11) zum Ermitteln von Flächeninformationen ausgebildet ist, um Flächeninformationen über ein Tal (AB2) des Informationssignals, das einem lokalen Maximum (41c) zugeordnet ist, das über einem Tal (AB1) des Informationssignals vorhanden ist, dem ein weiteres lokales Maximum (41d) mit kleinerer Amplitude als das eine lokale Maximum zugeordnet ist, so zu bestimmen, daß die Flächeninformationen des einen Tals (AB2) zusammen mit den Flächeninformationen des anderen Tals (AB1) auf eine geometrische Fläche zwischen dem Informationssignal und einer oberen Begrenzungslinie des einen Tals (AB2) hinweisen.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (10) zum Bestimmen ausgebildet ist, um lokale Minima des Informationssignals zu bestimmen, und bei der die Einrichtung (11) zum Ermitteln von Flächeninformationen ausgebildet ist, um Flächeninformationen von Bergen des Informationssignals zu ermitteln, wobei ein Berg durch einen zeitlichen Abschnitt des Informationssignals definiert ist, der sich von dem Zeitpunkt des lokalen Minimums bis zu einem zeitlich benachbarten Wert des Informationssignals erstreckt, der die gleiche Amplitude wie das lokale Minimum hat.
Vorrichtung nach Anspruch 4, bei der die Einrichtung (11) zum Ermitteln von Flächeninformationen ausgebildet ist, um Flächeninformationen über einen Berg (A1') des Informationssignals, der einem ersten Minimum (45b) zugeordnet ist, der über einem Berg (A21') des Informationssignals vorhanden ist, dem ein zweites Minimum (45a) mit kleinerer Amplitude als das erste Minimum (45b) zugeordnet ist, so zu bestimmen, daß die Flächeninformationen des ersten Bergs zusammen mit den Flächeninformationen des zweiten Bergs auf eine geometrische Fläche zwischen dem Informationssignal und einer unteren Begrenzungslinie des ersten Bergs (A21') hinweisen.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung zum Ermitteln ausgebildet ist, um als Flächeninformationen die geometrische Fläche eines Tals oder Bergs, das bzw. der einem lokalen Extremwert zugeordnet ist, zu berechnen.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (11) zum Ermitteln ausgebildet ist, um den Flächeninformationen für ein Tal oder einen Berg einen Zeitwert zuzuweisen, der dem zeitlichen Abschnitt, wodurch den das Tal oder der Berg definiert ist, entnommen ist, durch eine Folge von Flächeninformationen-Zeitwert-Tupeln entsteht.
Vorrichtung nach Anspruch 7, bei der der Zeitwert der Zeitpunkt des lokalen Extremswerts ist, der dem Tal oder dem Berg zugeordnet ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (11) zum Ermitteln ausgebildet ist, um als Flächeninformationen quantitative Werte zu ermitteln.
Vorrichtung nach Anspruch 9, die ferner folgendes Merkmal aufweist: eine Einrichtung (12) zum Nachverarbeiten der Flächeninformationen von mehreren Bergen oder Tälern.
Vorrichtung nach Anspruch 10, bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um Berge oder Täler, deren Flächeninformationen kleiner als ein vorbestimmter Schwellenwert sind, bei einer weiteren Verarbeitung zu unterdrücken.
Vorrichtung nach Anspruch 10 oder 11, bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um eine Folge von Flächeninformationsveränderungen durch Bestimmen eines Verhältnisses von jeweils zeitlich aufeinanderfolgenden Flächeninformationen oder durch Bilden einer Differenz zwischen zwei jeweils aufeinanderfolgenden Flächeninformationen zu ermitteln.
Vorrichtung nach Anspruch 10, 11 oder 12, bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um die Folge von Flächeninformationen nach sich wiederholenden Sequenzen von Flächeninformationen zu untersuchen.
Vorrichtung nach Anspruch 13, bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um das Informationssignal gemäß sich wiederholenden Sequenzen zu segmentieren.
Vorrichtung nach einem der Ansprüche 10 bis 14, bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um Kombinationspaare von identischen Flächeninformationen oder von Flächeninformationen die sich weniger als eine vorbestimmte Toleranz unterscheiden, zu bestimmen, und um anhand einer Zeitdifferenz zwischen Zeitpunkten der Flächeninformationen eines Kombinationspaars eine Frequenzinformation über das Informationssignal zu berechnen.
Vorrichtung nach einem der Ansprüche 10 bis, 12, bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um abrupte Flächeninformationsänderungen in der Folge von Flächeninformationen zu bestimmen, und um bei abrupten Flächeninformationsänderungen das Informationssignal zu segmentieren.
Vorrichtung nach einem der Ansprüche 10 bis 16, bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um Flächeninformationen zu normieren, um eine Folge von normierten Flächeninformationen zu erhalten.
Vorrichtung nach einem der Ansprüche 10 bis 17, bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um unter Verwendung der Flächeninformationen und von zugeordneten Zeitpunkten eine longitudinale Ausdehnung von Bergen oder Tälern zu erhalten, um bestimmen zu können, ob es sich bei dem Informati onssignal um ein Audiosignal mit einer Sprache oder einer Instrumentenmusik handelt.
Verfahren zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, mit folgenden Schritten: Bestimmen (10) der lokalen Extremwerte des Informationssignals, wobei ein lokaler Extremwert durch einen Zeitpunkt und eine Amplitude definiert ist; und Ermitteln (11) von Flächeninformationen von Tälern oder Bergen des Informationssignals im Falle einer eindimensionalen Amplitude des Informationssignals oder von Volumeninformationen von Tälern oder Bergen des Informationssignals im Falle einer zweidimensionalen Amplitude des Informationssignals, wobei ein Tal oder Berg durch einen zeitlichen Abschnitt (42, 47) des Informationssignals definiert ist, wobei sich der Abschnitt des Informationssignals von dem Zeitpunkt eines lokalen Extremwerts (43) bis zu einem zeitlich benachbarten Wert (44) des Informationssignals, der die gleiche Amplitude wie der lokale Extremwert aufweist, erstreckt, wobei die Flächeninformationen oder Volumeninformationen von mehreren Bergen oder Tälern für das Informationssignal charakteristisch sind.
Vorrichtung zum Aufbauen einer Informationssignal-Datenbank (22), mit folgenden Merkmalen: einer Vorrichtung (20) zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, um Flächeninformationen für ein Informationssignal zu erhalten, gemäß einem der Patentansprüche 1 bis 18; einer Steuereinrichtung (21) zum gesteuerten Zuführen mehrere Informationssignale zu der Vorrichtung (20) zum Charakterisieren, um für jedes Informationssignal einen Merkmalsvektor (MM1, MM2, MM3) zu erhalten, der von den Flächeninformationen für das Informationssignal abgeleitet ist; und einer Einrichtung (23) zum Speichern von Merkmalsvektoren (MM1, MM2, MM3) für die Informationssignale, wobei jedem Merkmalsvektor ein Identifikator (ID1, ID2, ID3) des Informationssignals zugeordnet ist, aus dem der jeweilige Merkmalsvektor ermittelt worden ist.
Verfahren zum Aufbauen einer Informationssignal-Datenbank (22), mit folgenden Schritten: Charakterisieren (20) eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, um Flächeninformationen für ein Informationssignal zu erhalten, gemäß dem Verfahren nach Patentanspruch 19; Zuführen (21) mehrerer Informationssignale zu der Vorrichtung (20) zum Charakterisieren, um für jedes Informationssignal einen Merkmalsvektor (MM1, MM2, MM3) zu erhalten, der von den Flächeninformationen für das Informationssignal abgeleitet ist; und Speichern (23) von Merkmalsvektoren (MM1, MM2, MM3) für die Informationssignale, wobei jedem Merkmalsvektor ein Identifikator (ID1, ID2, ID3) des Informationssignals zugeordnet ist, aus dem der jeweilige Merkmalsvektor ermittelt worden ist.
Vorrichtung zum Identifizieren eines Informationssignals unter Verwendung einer Informationssignal-Datenbank (22), die Merkmalsvektoren (MM1, MM2, MM3) in Zuordnung zu jeweiligen Informationssignalidentifikatoren (ID1, ID2, ID3) speichert, mit folgenden Merkmalen: einer Vorrichtung zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, gemäß einem der Ansprüche 1 bis 18, um Flächeninformationen von mehreren Bergen oder Tälern zu erhalten, die für das Informationssignal charakteristisch sind; und einer Einrichtung zum Vergleichen eines Merkmalsvektors, der von den Flächeninformationen oder Volumeninformationen abgeleitet ist, die für ein Test-Informationssignal charakteristisch sind, mit in der Informationssignal-Datenbank (22) gespeicherten Merkmalsvektoren, um eine Aussage über das Informationssignal zu treffen.
Verfahren zum Identifizieren eines Informationssignals unter Verwendung einer Informationssignal-Datenbank (22), die Merkmalsvektoren (MM1, MM2, MM3) in Zuordnung zu jeweiligen Informationssignalidentifikatoren (ID1, ID2, ID3) speichert, mit folgenden Schritten: Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, gemäß dem Verfahren nach Patentanspruch 19, um Flächeninformationen von mehreren Bergen oder Tälern zu erhalten, die für das Informationssignal charakteristisch sind; und Vergleichen eines Merkmalsvektors, der von den Flächeninformationen oder Volumeninformationen abgeleitet ist, die für ein Test-Informationssignal charakteristisch sind, mit in der Informationssignal-Datenbank (22) gespeicherten Merkmalsvektoren, um eine Aussage über das Informationssignal zu treffen.
Computer-Programm mit einem Programmcode zum Durchführen eines Verfahrens nach einem der Ansprüche 19, 21 oder 23, wenn das Programm auf einem Computer abläuft.