-
Die
vorliegende Erfindung bezieht sich auf die Verarbeitung von Informationssignalen
und insbesondere auf die Merkmalsextraktion von Informationssignalen
beispielsweise zur Charakterisierung der Informationssignale oder
zur Identifikation und Datenbanksuche.
-
Konzepte,
durch die Zeitsignale mit einem harmonischen Anteil, wie z. B. Audiodaten,
identifizierbar und referenzierbar sind, sind für viele Anwender nützlich.
Insbesondere in einer Situation, in der ein Audiosignal vorliegt,
dessen Titel und Autor unbekannt sind, ist es oftmals wünschenswert,
herauszufinden, von wem das entsprechende Lied stammt. Ein Bedarf
hierzu besteht beispielsweise, wenn der Wunsch vorhanden ist, z.
B. eine CD des betreffenden Interpreten zu erwerben. Wenn das vorliegende Audiosignal
lediglich den Zeitsignalinhalt umfaßt, jedoch keinen Namen über den
Interpreten, den Musikverlag etc., so ist eine Identifizierung des
Ursprungs des Audiosignals bzw. von wem ein Lied stammt, nicht möglich. Die
einzige Hoffnung bestand dann darin, das Audiostück samt Referenzdaten bezüglich des
Autors oder der Quelle, wo das Audiosignal zu erwerben ist, noch
einmal zu hören,
um dann den gewünschten
Titel beschaffen zu können.
-
Im
Internet ist es nicht möglich,
Audiodaten unter Verwendung herkömmlicher
Suchmaschinen zu suchen, da die Suchmaschinen lediglich mit textuellen
Daten umgehen können.
Audiosignale bzw. allgemeiner gesagt, Zeitsignale, die einen harmonischen
Anteil haben, können
durch solche Suchmaschinen nicht verarbeitet werden, wenn sie keine
textuellen Suchangaben umfassen.
-
Ein
realistischer Bestand an Audiodateien liegt bei mehreren tausend
gespeicherten Audiodateien bis zu hunderttausenden von Audiodateien. Musikdatenbankinformationen
können
auf einem zentralen Internet-Server abgelegt sein, und potentielle
Suchanfragen könnten über das
Internet erfolgen. Alternativ sind bei heutigen Festplattenkapazitäten auch
die zentrale Musikdatenbanken auf lokalen Festplattensystemen von
Benutzern denkbar. Es ist wünschenswert,
solche Musikdatenbanken durchsuchen zu können, um Referenzdaten über eine
Audiodatei zu erfahren, von der lediglich die Datei selbst, jedoch
keine Referenzdaten bekannt sind.
-
Darüber hinaus
ist es gleichermaßen
wünschenswert,
Musikdatenbanken unter Verwendung vorgegebener Kriterien durchsuchen.
zu können,
die beispielsweise dahingehend lauten, ähnliche Stücke herausfinden zu können. Ähnliche
Stücke
sind beispielsweise die Stücke
mit einer ähnlichen
Melodie, einem ähnlichen
Instrumentensatz, oder einfach mit ähnlichen Geräuschen,
wie z. B. Meeresrauschen, Vogelgezwitscher, männliche Stimmen, weibliche Stimmen,
etc.
-
Das
U.S.-Patent Nr. 5,918,223
A offenbart ein Verfahren und eine Vorrichtung für eine Inhalts-basierte
Analyse, Speicherung, Wiedergewinnung und Segmentierung von Audioinformationen. Dieses
Verfahren beruht darauf, mehrere akustische Merkmale aus einem Audiosignal
zu extrahieren. Gemessen werden Lautstärke, Baß, Tonhöhe, Brightness und Melfrequenz-basierte
Cepstral-Koffizienten in einem Zeitfenster bestimmter Länge in periodischen
Intervallabständen.
Jeder Meßdatensatz
besteht aus einer Folge von gemessenen Merkmalsvektoren. Jede Audiodatei
ist durch den kompletten Satz der pro Merkmal berechneten Merkmalsfolgen spezifiziert.
Ferner werden die ersten Ableitungen für jede Folge von Merkmalsvektoren
berechnet. Dann werden statistische Werte wie Mittelwert und Standardabweichung
berechnet. Dieser Satz von Werten wird in einem N-Vektor, d. h.
einem Vektor mit n Elementen, gespeichert. Diese Vorgehensweise
wird auf eine Vielzahl von Audiodateien angewendet, um für jede Au diodatei
einen N-Vektor abzuleiten. Damit wird nach und nach eine Datenbank
aus einer Vielzahl von N-Vektoren aufgebaut. Aus einer unbekannten
Audiodatei wird dann unter Verwendung derselben Vorgehensweise ein
Such-N-Vektor extrahiert. Bei einer Suchanfrage wird dann eine Abstandsberechnung
des vorgegebenen N-Vektors und der in der Datenbank gespeicherten
N-Vektoren ermittelt. Schließlich
wird der N-Vektor ausgegeben, der den minimalen Abstand zu dem Such-N-Vektor
hat. Dem ausgegebenen N-Vektor sind Daten über den Autor, den Titel, die
Beschaffungsquelle etc. zugeordnet, so daß eine Audiodatei hinsichtlich
ihres Ursprungs identifiziert werden kann.
-
Dieses
Verfahren hat den Nachteil, daß mehrere
Merkmale berechnet werden und willkürliche Heuristiken zur Berechnung
der Kenngrößen eingeführt werden.
Durch Mittelwert- und Standardabweichungsberechnungen über alle
Merkmalsvektoren für
eine gesamte Audiodatei wird die Information, die durch den zeitlichen
Verlauf der Merkmalsvektoren gegeben ist, auf wenige Merkmalsgrößen reduziert. Dies
führt zu
einem hohen Informationsverlust.
-
Grundsätzlich haben
alle sogenannten Features bzw. Merkmale, die zur Identifikation
von Informationssignalen eingesetzt werden, zwei gegenläufige Anforderungen
zu erfüllen.
Die eine Anforderung besteht darin, eine möglichst gute Charakterisierung eines
Informationssignals zu liefern. Die andere Anforderung besteht darin,
daß das
Merkmal oder Feature nicht besonders viel Speicherplatz in Anspruch nehmen
darf, also so wenig Informationen als möglich haben darf. Im Hinblick
auf den Speicherplatz kleinere Features haben unmittelbar kleinere
Informationssignaldatenbanken zur Folge und resultieren auch in
einer schnelleren Datenbanksuche, um eine qualitative Aussage über ein
zu testendes Informationssignal oder sogar eine quantitative Aussage über ein
solches Informationssignal treffen zu können.
-
Eine
weitere ebenfalls wichtige Anforderung an das aus dem Informationssignal
zu extrahierende Merkmal besteht darin, daß das Merkmal robust gegenüber Veränderungen
sein sollte. Solche Veränderungen
bestehen in einem systemimmanenten Rauschen, einer Verzerrung z.
B. aufgrund eines verlustbehafteten Codierverfahrens. Andere Signalveränderungen
sind beispielsweise Änderungen
der Lautstärke
am Beispiel eines Audiosignals sowie Verzerrungen aufgrund eines
Abspielens eines Audiosignals über
einen Lautsprecher und Wiederaufzeichnen des Audiosignals über ein
Mikrophon etc.
-
Das
US-Patent Nr. 4,852,181 offenbart
ein System zur Spracherkennung für
die Erkennung der Kategorie eines Eingabesprachmusters. Zunächst wird
ein Rauschmuster des Umgebungsrauschens bestimmt, wonach ein Sprachmerkmalsvektor
evaluiert wird, indem das Rauschmuster von dem Merkmalsvektor der
eingegebenen Sprache abgezogen wird. Unter anderem wird ein Vektor
mit lokalen Peaks evaluiert, indem eine spezielle Binärcodierungsverarbeitung
eingesetzt wird.
-
Die
WO 02/11123 A2 offenbart
ein System und ein Verfahren zum Erkennen von Tonsignalen und Musiksignalen
in einer Umgebung mit starkem Rauschen, wobei sogenannte Landmark-Zeitpunkte und zugeordnete
Fingerabdrücke
eingesetzt werden, die in einer Datenbank abgespeichert sind. Landmark-Zeitpunkte treten
an reproduzierbaren Positionen innerhalb einer Datei auf, während Fingerabdrücke Merkmale
des Signals bei oder neben den Landmark-Zeitpunkten darstellen.
-
Das
US-Patent Nr. 5,536, 902
A offenbart ein Verfahren zum Analysieren und Synthetisieren
eines Tonsignals, wobei Analysedaten verwendet werden, die mehrere
Komponenten der ursprünglichen Ton-Wellenfront
darstellen.
-
Die
WO 01/88900 A2 offenbart
ein Verfahren zum Identifizieren eines Audioinhalts, bei dem ein Fingerabdruck
des Audiosignals basierend auf einem Energiegehalt in Frequenzsubbändern erzeugt
wird.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, ein flexibles
und robustes Konzept zum Charakterisieren eines Informationssignals
zu schaffen.
-
Diese
Aufgabe wird durch eine Vorrichtung zum Charakterisieren eines Informationssignals
gemäß Anspruch
1, ein Verfahren zum Charakterisieren eines Informationssignals
nach Patentanspruch 19, eine Vorrichtung zum Aufbauen einer Informationssignaldatenbank
nach Patentanspruch 20, ein Verfahren zum Aufbauen einer Informationssignaldatenbank
nach Patentanspruch 21, eine Vorrichtung zum Identifizieren eines
Informationssignals nach Patentanspruch 22, ein Verfahren zum Identifizieren
eines Informationssignals nach Patentanspruch 23 oder ein Computer-Programm
nach Patentanspruch 24 gelöst.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß eine einerseits
charakteristische Darstellung eines Informationssignals und andererseits
eine Darstellung des Informationssignals mit begrenztem Speicheraufwand
dadurch erreicht werden kann, daß der Amplituden-Zeit-Verlauf
des Informationssignals dahingehend verarbeitet wird, daß lokale
Extremwerte bestimmt werden, und daß Flächeninformationen im Falle
eines Informationssignals mit eindimensionaler Amplitude oder Volumeninformationen
im Falle eines Audiosignals mit zweidimensionaler Amplitude von
Tälern
oder Bergen des Informationssignals ermittelt werden, wobei je dem Tal
oder Berg des Informationssignals ein lokaler Extremwert sowie ein
zeitlicher Abschnitt zugeordnet ist, wobei sich der zeitliche Abschnitt
des Informationssignals für
einen Berg oder für
ein Tal von dem Zeitpunkt des lokalen Extremwerts bis zu einem zeitlich
benachbarten Wert des Informationssignals erstreckt, der die gleiche
Amplitude wie der lokale Extremwert aufweist. Dadurch werden Flächeninformationen
bzw. Volumeninformationen in zeitlich aufeinanderfolgender Darstellung
erhalten, die für
das Informationssignal charakteristisch sind.
-
Die
vorliegende Erfindung ist dahingehend vorteilhaft, daß die charakteristischen
Eigenschaften eines Amplituden-Zeit-Verlaufs in Form von Flächeninformationen
oder Volumeninformationen integrale Größen sind, die im Gegensatz
beispielsweise zu Amplituden-Zeit-Tupel oder zu sonstigen eher an
den akustischen Eigenschaften eines Audiosignals angenäherten Merkmalen,
relativ invariante Größen sind, die
in ihrer tatsächlichen
quantitativen Größe oder zumindest
in ihrer relative Größe in Hinblick
auf eine zeitliche Folge gegenüber
Verzerrungen, Rauschen etc. eine hohe Robustheit aufweisen.
-
Darüber hinaus
ermöglicht
das erfindungsgemäße Konzept
der Darstellung eines Informationssignals durch integrale Größen, die
vom Amplituden-Zeit-Verlauf des Informationssignals abgeleitet sind,
eine stark komprimierte Darstellung, die im Hinblick auf eine Informationssignal-Identifikation
zum einen zu kleinen Datenbanken führt und zum anderen zu kurzen
Suchdauern zum Durchsuchen einer Datenbank unter Verwendung einer
solchen Charakteristik eines zu testenden Signals.
-
Ein
weiterer Vorteil des erfindungsgemäßen Konzepts besteht darin,
daß die
Darstellung eines Informationssignals mit einem Amplituden-Zeit-Veriauf anhand
von integralen Flächen-
oder Volumeninformationen in zeitlicher Folge besonders gut für Informationssignale
geeignet sind, die sich wiederholende Grundstrukturen haben, wie
z. B. Audiosignale. So liefern Instrumente beispielsweise ein Signal,
das für
jedes Instrument charakteristisch ist, und das insbesondere eine
für jedes
Instrument charakteristische Folge von Flächeninformationen aufweist.
Sich wiederholende Muster treten auf, wenn ein Instrument aufeinanderfolgende
Töne spielt.
Dieses Muster findet sich unmittelbar in den aufeinanderfolgenden
Flächeninformationen
wieder. Eine Mustererkennung der Folge von Flächeninformationen kann daher
dazu verwendet werden, das Audiosignal zu segmentieren, um diverse
Nachverarbeitungen vornehmen zu können, wie z. B. eine Polyphonklangerkennung,
eine Musikinstrumentenerkennung oder eine Melodieerkennung. Darüber hinaus
zeichnen sich gesprochene Laute durch sich wiederholende Signalmuster
aus. Daher ist das erfindungsgemäße Konzept
auch zur Nachverarbeitung von Sprachsignalen geeignet, um beispielsweise
eine Spracherkennung durchzuführen.
-
Quasi-stationäre Audiosignale
als Beispiel für
Informationssignale, die sich besonders gut für das erfindungsgemäße Konzept
eignen, wobei die Audiosignale beispielsweise durch Sprachlaute
oder Musikinstrumenten-Laute dargestellt sind, zeichnen sich dadurch
aus, daß Replika
des gleichen bzw. eines nur langsam veränderlichen Bodenprofils bzw. der
gleichen oder einer nur langsam veränderlichen Audiosignalform
n-fach aneinander gereiht werden, abhängig davon, wie lange der Sprachlaut
gehalten bzw. wie lange der Ton angehalten wird. Replika der gleichen
Signalform werden lokal festgestellt, indem gleiche oder nur geringfügig abweichende
Flächeninformationen
der Folge von Flächeninformationen
vorzugsweise des Original- und des Komplementärsignals miteinander verglichen
werden.
-
Gleiche
Wellenzüge
werden also dadurch identifiziert, daß gleiche Flächeninhalte
assoziiert werden. Der absolute Inhalt, d. h. ein Flächenintegral, kann
aber auch angeben, ob es sich um einen Vokal, Konsonant, ein bestimmtes
Musikinstrument, einen hochfrequenten Ton etc. handelt.
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf
die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
-
1 ein
Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Charakterisieren
eines Informationssignals;
-
2 ein
Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Aufbauen
einer Informationssignal-Datenbank;
-
3 ein
Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Identifizieren
eines Test-Informationssignals
unter Verwendung einer Informationssignal-Datenbank;
-
4 einen
Amplituden-Zeit-Verlauf eines beispielhaften Informationssignals
mit eingezeichneten Flächeninformationen
für lokale
Maxima und lokale Minima; und
-
5 ein
beispielhaftes Signalformdiagramm für einen gesprochenen Vokal „o".
-
Bevor
detaillierter auf die nachfolgenden Figuren eingegangen wird, wird
zunächst
zur besseren Anschaulichkeit der Erfindung das allgemeine Prinzip erläutert. In
Anlehnung an die nachfolgende Erörterung
wird das erfindungsgemäße Konzept
für Audiosignale
als Informationssignale auch als "Audio-Watershed" bezeichnet. Dieses Konzept ist ein
Konzept, mit dem Audiosignale in Intervalle unterteilbar sind. In der
Geodäsie
ist das Konzept sehr anschaulich beschreibbar. Berg- und Talbodenformationen
werden von Regenwasser angefüllt.
Das Wasser sammelt sich in Talsenken und umströmt Bergkuppen. Der maximale
Füllstand
einer isolierten Region ist durch das zweidimensionale Bodenprofil
und die Höhe
der geringsten Durchlaßstelle
gegeben. Die aufgenommene Wassermenge kann einfach bestimmt werden, indem
gemessen wird, welche Wassermenge der kontinuierlich strömenden Regenwasserquelle
bis zum Überlauf
entnommen wurde.
-
Für eindimensionale
Informationssignale, beispielsweise Audiosignale, verteilen sich
die herabregnenden Wassermengen über
den gesamten Verlauf der Audiowellenzüge. Zwischen zwei benachbarten
lokalen Wellenmaximas bleibt das Wasser stehen und wird eingeschlossen.
Sukzessive können
weitere Teilbereiche geflutet werden, bis zum Schluß auch das
Amplitudenmaximum der gesamten Signaldarstellung geflutet ist. Zu
diesem Zweck müßte angenommen
werden, daß die
Ränder
am Anfang und am Ende des Signals hoch sind, und zwar mindestens
höher als
das globale Maximum des Signals. Dieses Konzept funktioniert jedoch
auch ohne die Annahme solcher hoher Ränder. Dann wird das Maximum
nicht geflutet, sondern das Wasser steigt nur bis zur Höhe des zweithöchsten Maximums
an.
-
Zur
detaillierteren Darstellung des Signals wird es bevorzugt, den Signalverlauf
längs der
t-Achse zu spiegeln, um ein komplementäres Informationssignal zu erhalten,
um das invertierte Profil entsprechend durch Flächenbestimmung der Täler zu vermessen.
-
Nachdem
sich insbesondere bei den beschriebenen Informationssignalen gleiche
Wellenzüge
periodisch quasi-stationär
wiederholen, haben sie auch immer den gleichen "Wasserinhalt", so daß eine Segmentierung aufgrund
des Wasserinhalts eines Wellenzugs, der sich aus mehreren Wasserinhalten der
Täler,
die in dem Wellenzug vorhanden sind, zusammensetzt, erfolgen kann.
Gleiche Wellenzüge werden
also dadurch identifiziert, daß gleiche
Flächeninhalte
assoziiert werden.
-
Wie
es noch anhand von 4 erläutert werden wird, kann die
Informationssignalcharakterisierung nicht nur anhand von Tälern, die
durch lokale Maxima definiert sind, durch geführt werden, sondern auch anhand
von Bergen, deren Basislinie durch ein lokales Minimum definiert
ist, und deren Gipfel durch den Signalverlauf begrenzt sind. Diese
Darstellung ist gleichwertig zur Invertierung des ursprünglichen Informationssignals
und zur Betrachtung der Täler
im invertierten Informationssignal.
-
Das
erfindungsgemäße Konzept
ist für
sämtliche
Informationssignale, die einen Amplituden-Zeit-Verlauf aufweisen,
der lokale Extremwerte hat, anwendbar. Solche Informationssignal
können Audiosignale,
Videosignale, Spannungssignale oder Stromsignale, die irgendwie
geartete Meßgrößen identifizieren,
etc. sein. Am Beispiel von Audiosignalen oder Videosignalen sei
darauf hingewiesen, daß der
zeitliche Verlauf, also das Informationssignal nicht unbedingt eine
Spannungsamplitude oder eine Stromamplitude angeben muß, sondern
daß das
Informationssignal auch eine Leistung oder einen Schalldruck als
Amplitude haben kann.
-
Darüber hinaus
sei darauf hingewiesen, daß das
Informationssignal eine eindimensionale Amplitude haben kann, wie
z. B. bei einem Audiosignal, daß das
Informationssignal jedoch auch eine zweidimensionale Amplitude haben
kann, so daß der
Amplituden-Zeit-Verlauf des Informationssignals tatsächlich dreidimensionale
Berge und Täler
umfaßt,
während
diese Berge und Täler
im Falle eines Informationssignals mit eindimensionaler Amplitude
lediglich einen zweidimensionalen Verlauf haben, also durch Flächeninformationen
dargestellt werden können.
-
Darüber hinaus
sei darauf hingewiesen, daß das
Informationssignal selbstverständlich
nicht ein kontinuierliches Signal sein muß, sondern daß dasselbe
auch ein zeitdiskretes Signal sein kann, bei dem ein gedachter kontinuierlicher
Verlauf aus Anschaulichkeitsgründen
angenommen werden kann, der sich durch eine gerade Verbindung aufeinanderfolgender
zeitdiskreter Signalwerte oder durch Interpolation ergibt.
-
Nachfolgend
wird anhand von 4 die vorliegende Erfindung
dargestellt. 4 zeigt ein Informationssignal 40 mit
einem Amplituden-Zeit-Verlauf. Bei dem in 4 gezeigten
Informationssignal handelt es sich um ein Informationssignal mit
eindimensionaler Amplitude. Das dargestellte Informationssignal
ist ein typisches Audiosignal, das sich wiederholende Wellenzüge hat,
wobei ein Wellenzug im ersten Segment A dargestellt ist, während der
sich wiederholende Wellenzug im zweiten Segment B dargestellt ist.
Es sei darauf hingewiesen, daß sich
das Informationssignal im zweiten Segment B selbstverständlich von
dem Informationssignal im ersten Segment A unterscheidet, jedoch
nicht in seiner grundsätzlichen Topologie
sondern lediglich bei dem in 4 gezeigten
Ausführungsbeispiel
in der Amplitude zu bestimmten Zeitpunkten.
-
Das
Informationssignal weist lokale Maxima 41a, 41b, 41c, 41d, 41e und 41f auf.
Jedem lokalen Maximum ist ein eigenes Tal zugeordnet. Dem Maximum 41a ist
das mit A0 bezeichnete Tal zugeordnet. Entsprechend ist dem Maximum 41b das
Tal A1 zugeordnet. Darüber
hinaus ist dem Maximum 41d das AB1 zugeordnet. Dem Maximum 41c ist
nun, da ein Teil des gesamten Tals bereits durch AB1 dem Maximum 41d zugeordnet
ist, lediglich der darüberliegende
Rest des Tals, der mit AB2 bezeichnet ist, zugeordnet. Schließlich ist
dem Maximum 41e das Tal B1 zugeordnet. Dem lokalen Maximum 41f in 4 ist kein
eigenes Tal zugeordnet. Dies liegt jedoch lediglich daran, daß der weitere
Verlauf des Informationssignals nicht mehr dargestellt ist.
-
Wie
es aus 4 ersichtlich ist, ist jedes Tal durch einen zeitlichen
Abschnitt definiert, der in 4 am Beispiel
des Tals A1, dem das lokale Maximum 41b zugeordnet ist,
mit 42 bezeichnet ist. Der zeitliche Abschnitt erstreckt
sich insbesondere von dem Zeitpunkt 43 des Auftretens des
lokalen Maximums 41b bis zu einem zeitlich benachbarten
Wert des Informationssignals, der die gleiche Ampli tude wie der
lokale Extremwert aufweist. Dieser zeitliche Wert ist in 4 mit 44 bezeichnet.
Damit ergibt sich die Fläche
A1, die das dem lokalen Maximum 41b zugeordnete Tal repräsentiert.
Entsprechend werden die anderen Täler A0, AB2, B0, B1 behandelt.
Aus der Folge der Täler
A0, A1, AB1, B0, B1 ergibt sich bereits eine Charakterisierung des
Informationssignals, die zur Identifikation verwendet werden kann.
-
Erfindungsgemäß wird es
jedoch bevorzugt, nicht nur die Flächeninformationen von Tälern des
Informationssignals sondern auch die Flächeninformationen von Tälern des
invertierten Informationssignals zu berechnen. Eine Inversion des
Informationssignals kann erreicht werden, wenn 4 einfach umgedreht
wird. Dies ist durch die umgekehrt geschriebenen Flächenidentifikatoren
A0', A1', A2', A21', A210', B0', B1', B2', B21', B210' dargestellt.
-
Alternativ,
wenn 4 nicht „umgedreht wird", so ergeben sich
die „Berge", die jedem lokalen Minimum
zugeordnet sind, folgendermaßen.
Eine Untersuchung des Informationssignals liefert lokale Minima 45a, 45b, 45c, 45e, 45f.
Der erste Berg A0' ist
durch das lokale Minimum 45a sowie durch den zeitlich benachbarten
Wert des Informationssignals bestimmt, der denselben Wert wie das
lokale Minimum hat, also einen Wert 46 definiert. Zwischen
dem Wert 46 und dem lokalen Minimum 45a ergibt
sich der zeitliche Abschnitt 47, der den Berg A0' identifiziert. Zur
Charakterisierung des Informationssignals wird nun die Fläche des
Berges A0' gemäß der in 4 gezeigten
Darstellung als Flächeninformationen
berechnet. Analog hierzu wird mit dem Berg A1', A2' etc.
vorgegangen. Aus 4 ist ferner ein Fall ersichtlich,
bei dem sich der Berg A210',
dem das lokale Minimum 45c zugeordnet ist, über einem
Berg A21' befindet,
dem das lokale Minimum 45a zugeordnet ist und insbesondere über den
Bergen A1' und A2' befindet, denen
das lokale Minimum 45b zugeordnet ist. Aus dem in 4 gezeigten
Beispiel ist somit ersichtlich, daß einem lokalen Minimum auch
zwei Flä cheninformationen
zugeordnet sein können,
derart, daß dem
lokalen Minimum 45b sowohl die Flächeninformation des Bergs A1' als auch die Flächeninformation
des Bergs A2' zugeordnet
ist. Entsprechendes gilt für
das lokale Minimum 45a, dem sowohl die Flächeninformationen
A0' als auch die
Flächeninformationen
A21' zugeordnet
sind.
-
Bei
der Betrachtung der Flächeninformationen
A210', A21', A2' und A1' wird ersichtlich,
daß hier dieselbe
Vorgehensweise verwendet worden ist, wie sie anhand der übereinander
liegenden Täler
AB1 und AB2 erläutert
worden ist.
-
Nach
einer Bearbeitung des Informationssignals dahingehend, daß die Flächeninformationen sämtlicher
Berge und Täler
in Zuordnung zu den entsprechenden lokalen Maxima und Minima bzw.
in Zuordnungen zu einem bestimmten Zeitpunkt sind, der ein ausgewählter Zeitpunkt
aus dem zeitlichen Abschnitt ist, wird eine Folge von Flächeninformationen bzw.
Volumeninformationen erhalten, wobei diese Folge von Zeit-Flächenwerten
bzw. Zeit-Volumenwerten für
das Informationssignal charakteristisch ist.
-
Nachfolgend
wird Bezug nehmend auf 1 eine bevorzugte Vorrichtung
zum Charakterisieren eines Informationssignals dargestellt. Die
Vorrichtung zum Charakterisieren eines Informationssignals, das
einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist,
umfaßt
eine Einrichtung 10 zum Bestimmen von lokalen Extremwerten
des Informationssignals, wobei ein lokaler Extremwert einen Zeitpunkt
und einen Amplitudenwert umfaßt.
Der Einrichtung 10 zum Bestimmen von lokalen Extremwerten
ist eine Einrichtung 11 zum Ermitteln von Flächen- bzw.
Volumeninformationen für
Berge und Täler
des Informationssignals nachgeschaltet. Die Einrichtung zum Ermitteln
von Flächeninformationen oder
Volumeninformationen ist wirksam, um die Fläche eines Tals oder Bergs zu
berechnen, wobei ein Tal oder Berg durch einen zeitlichen Abschnitt
des Informationssignals definiert ist, wobei sich der Abschnitt
des Informationssignals von dem Zeitpunkt des lokalen Extremwerts
bis zu einem zeitlich benachbarten Wert des Informationssignals,
der die gleiche Amplitude wie der lokale Extremwert aufweist, erstreckt.
Die Flächeninformationen
von mehreren Bergen oder Tälern
sind für
das Informationssignal charakteristisch.
-
Vorzugsweise
wird die Einrichtung 11 eine Folge von Flächeninformationen-Zeit-Werten
erzeugen und einer Einrichtung 12 zum Nachverarbeiten zuführen, die
ausgebildet ist, um einen nachverarbeiteten Merkmalsvektor auszugeben
oder eine Spracherkennung, eine Musikinstrumentenerkennung, eine
Melodieerkennung, eine Polyphonklangerkennung oder irgend eine sonstige
Erkennung von Informationen durchzuführen, die in dem Informationssignal,
das in die Einrichtung 10 eingespeist wird, enthalten sind.
-
Zur
Bestimmung von lokalen Extremwerten durch die Einrichtung 10 können beliebige
bekannte Konzepte hierfür
verwendet werden, wie z. B. ein üblicher
Minima-Maxima-Suchalgorithmus,
der einen Abtastwert des Informationssignals mit dem vorherigen
Abtastwert des Informationssignals vergleicht und dann ein lokales
Maximum erkennt, wenn der zeitlich spätere Abtastwert kleiner als
der zeitlich frühere
Abtastwert ist, und wenn vorher ein lokales Minimum war. Der Algorithmus
erkennt ferner ein lokales Minimum, wenn der zeitlich frühere Abtastwert größer als
der zeitlich spätere
Abtastwert ist, und wenn vorher ein lokales Maximum war. Alternativ kann
der Maxima/Minima-Sucher auch ausgebildet sein, um mehrere aufeinanderfolgende
Abtastwerte entsprechend auszuwerten. Um nicht durch ein dem Informationssignal überlagertes
Rauschen beeinträchtigt
zu werden, kann die Einrichtung 10 ferner ausgebildet sein,
um vor der Maxima/Minima-Suche eine Tiefpaßfilterung des Informationssignals
durchzuführen,
um ein glatteres Informationssignal zu erhalten. Selbstverständlich sind
beliebige andere Möglichkeiten
denkbar, wie z. B. das Durchführen
eines Polynomfits an das Informationssignal und das analytische
Bestimmen von Extremwerten unter Verwendung der Polynomfit funktionen.
Alternativ könnte auch
das direkt vorliegende ungefilterte Informationssignal verwendet
werden, um sämtliche
Maxima und Minima zu bestimmen, und um dann nachträglich die Berge
oder Täler
mit einem kleineren Flächeinhalt
als einem vorgegebenen Schwellwert herauszufiltern bzw. in der weiteren
Informationssignal-Charakterisierung nicht mehr zu verwenden.
-
Die
Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformationen
für Berge
und Täler
wird typischerweise als numerischer Integrator ausgebildet sein,
um die Fläche
zwischen dem Informationssignal und der oberen Talbegrenzung bzw. der
unteren Bergbegrenzung zu berechnen. Im Falle von übereinanderliegenden
Bergen oder Tälern
ist die Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformationen
ausgebildet, um zu berücksichtigen,
daß unter
dem „Tal" bereits ein anderes „Tal" liegt. Als Basislinie
zur Integration wird dann die obere Begrenzungslinie des Barunterliegenden
Tals, also beispielsweise die Linie 48 von 4 verwendet.
Die Fläche
AB2 berechnet sich also unter Verwendung der seitlichen Begrenzung
der Fläche
AB2, die durch das Informationssignal gegeben ist und unter Verwendung
der Basislinie 48 und der oberen Begrenzung der Fläche AB2,
die in 4 mit 49 dargestellt ist und gewissermaßen den „Wasserstand" definiert, der durch
das lokale Maximum 41c festgelegt ist.
-
Im
nachfolgenden wird auf unterschiedliche Ausgestaltungen der Einrichtung 12 zum
Nachverarbeiten der Folge von Flächeninformationen
bzw. Volumeninformationen eingegangen. Wie es bereits ausgeführt worden
ist, eignet sich das erfindungsgemäße Konzept insbesondere zur
Segmentierung von Informationssignalen auf der Basis der berechneten Volumeninformationen.
In 4 sind zwei Replika A und B der Signalform dargestellt.
Es ergeben sich Kombinationspaare gleicher oder geringfügig abweichender
Volumina. Im nichtinvertierten Signal sind dies die Kombinationspaare
(A0, B0), (A1, B1).
-
Im
invertierten Signal, also hinsichtlich der Berge, ergeben sich folgende
Kombinationspaare (A0',
B0'), (A1', B1'), (A2', B2'), (B21', A21'), (A210', B210').
-
Die
prozentuale Schwankung ΔF/F
ist für große eingeschlossene
Flächen
geringer, so daß besonders
bei Rauschen die Flächeninformationsvergleiche
großer
Flächen
eine verläßlichere
Schätzung auf
Identität
sind. Ein Beispiel hierfür
ist das Kombinationspaar (A210',
B210'). Die repetitiven
Volumina/Flächensequenzen
(A210'_n, AB2_n,
B210'_n) weisen
auf das Vorliegen einer bestimmten Signalform hin. Der gesamte Informationssignalverlauf
wird somit auf der Basis der Folge von Flächeninformationen in m Sequenzen
von Flächen-
bzw. Voluminaintervallen unterteilt, woraufhin Flächen- bzw.
Voluminasequenzen zu Abschnitten der gleichen Informationssignalform
zusammengefaßt
werden. Eine Flächen- bzw. Voluminahüllkurve
wird bestimmt, indem der Aufbau der Wellensignalform sich langsam
vollzieht, wobei die Flächen
bzw. Volumina gleicher repetitiver Sequenzen in einer Anstiegsphase
ansteigen, dann in einer Sustainphase annähernd gleich bleiben und dann
in einer Abklingphase langsam abnehmen. An dieser Stelle sei darauf
hingewiesen, daß typische
Töne von
Musikinstrumenten eine Anstiegsphase, eine Sustainphase und eine
Abklingphase haben. So wäre
beispielsweise bei einem Klavier, bei dem eine Saite durch den Aufschlag
eines Hämmerchens
angeregt wird, die Anstiegsphase relativ kurz. Die Sustainphase
wäre ebenfalls
relativ kurz, während
die Abklingphase relativ lang dauern würde.
-
Eine
Intervallgrenze ergibt sich dann, wenn sich Flächen bzw. Volumina abrupt ändern.
-
Erfindungsgemäß kann auf
der Basis der Folge von Flächen- bzw. Voluminainformationen auch
eine Frequenzbestimmung durchgeführt
werden. Die Frequenz des Wiederholungsmusters wird bestimmt, indem
die Abstände
der lokalen Maxima bzw. lokalen Minima aufeinanderfolgender gleicher oder
nur ge ringfügig
unterschiedlicher Flächen
bzw. Volumina in der Form beispielsweise ((A0, B0), A1, B1)) gebildet
werden, und wenn im invertierten Signal die Abstände ((A0', B0'),
(A1', B1'), (A2', B2'), (A21', B21'), (A210', B210') gebildet werden.
-
Das
gewissermaßen
entstehende Relief aufeinanderfolgender Bergkuppen und Talsohlen
wird durch die Bestimmung des Repititionsmusters der Form (A210', AB2, B210') ermittelt. Das
Feinprofil eines Bergkamms oder einer Talsohle wird durch die Angabe
der strukturierenden Elemente A0, A1 und A0', A1',
A2', A21' bestimmt.
-
Erfindungsgemäß ist die
Einrichtung 12 zum Nachverarbeiten ferner ausgebildet,
um jeder Flächeninformation
oder Volumeninformation einen Vektor zuzuweisen, der vorzugsweise
den Zahlenwert des Flächeninhalts
bzw. Volumeninhalts und den Zeitwert des Auftretens umfaßt. Als
Zeitwert des Auftretens kann irgend ein Zeitwert des zeitlichen
Abschnitts genommen werden. Es wird bevorzugt, einem Flächeninhalt
den Zeitpunkt des Auftretens des lokalen Extremwerts zuzuordnen,
der dem Flächeninhalt
zugeordnet ist. Bedingt ein lokaler Extremwert, wie z. B. der lokale
Extremwert 45b von 4 zwei in 4 gezeigte „Berge" A1', A2', so wird den Flächeninformationen
A1', A2' derselbe Zeitwert
zugeordnet, nämlich
der Zeitwert des Auftretens des lokalen Minimums 45b.
-
Damit
entsteht ein Zahlenfeld von n Vektoren längs der Zeitachse. Solche Sequenzen
von Vektoren können
mit DNA-Sequencing-Methoden
mit bestehenden Volumenvektoren, die in einer Musikdatenbank gespeichert
sind, verglichen werden, um über
Identifikationen, die den einzelnen Vektoren in der Musikdatenbank
zugeordnet sind, beispielsweise eine Informationssignal-Identifikation
durchzuführen.
-
Werden
die Informationssignale, wie z. B. Audiosignale unterschiedlicher
Aufnahmen, normiert, so können
Flächen- bzw. Voluminasequenzen
direkt miteinander verglichen werden. Mit einer Frequenzbestimmung
können
Flächen
bzw. Volumina, die die gleiche Audiosignalform haben, aber durch
die frequenzabhängige
Zeitdehnung dennoch unterschiedliche Flächen bzw. Volumina aufweisen,
miteinander in Bezug gesetzt werden.
-
Aus
den Volumina bzw. Flächen
und der Lage der Maxima bzw. Minima können erfindungsgemäß weitere
Flächenformbeschreibende
Parameter, wie z. B. die longitudinale Ausdehnung, durch die Einrichtung 12 zum
Nachverarbeiten von 1 bestimmt werden. Solche weiteren
Parameter erlauben eine Aussage, ob es sich beispielsweise um Sprachlaute
oder von Musikinstrumenten evozierte Signale handelt. In dem Informationssignal
selbst können vorzugsweise
durch die Einrichtung 12 zum Nachverarbeiten lediglich
relative Flächen
bzw. Volumina verwendet werden, indem durch die Einrichtung 12 zum Nachverarbeiten
das Verhältnis
aufeinanderfolgender Flächen
bzw. Volumina gebildet wird.
-
Allgemein
gesagt haben Sprachlaute, Polyphonklänge oder von Musikinstrumenten
evozierte Monophonklänge
voneinander abweichende Audiosignalformen und sind daher anhand
der Flächen- bzw.
Voluminasequenzen unterscheidbar. Der frequenzabhängige Anteil
einer gleichen Audiosignalform wird ebenfalls durch eine Änderung
der Flächen bzw.
Volumina bestimmt. Ist einem Sprachlaut (Vokal) eine insgesamte
Fläche
eindeutig zuordenbar, so können
Vokalabschnitte aus dem Informationssignal herausgelesen werden.
Ebenfalls können
Konsonanten und Übergangsabschnitte
durch Angabe der Flächen-
bzw. Voluminasequenzen unter Verwendung der Einrichtung 12 zum
Nachverarbeiten bestimmt werden. Dasselbe trifft für Polyphonklänge wie
auch für
Melodiefolgen zu.
-
2 zeigt
eine Vorrichtung gemäß einem weiteren
Aspekt der vorliegenden Erfindung, die zum Aufbau einer Informationssignal-Datenbank
dient. In eine Vorrichtung 20 zum Charakterisieren, die
prinzipiell so aufgebaut sein kann, wie es in 1 dargestellt
ist, werden aufeinanderfolgend mehrere Informationssignale unter
der Steuerung einer Steuereinrichtung 21 eingespeist, um
für jedes
der mehreren Informationssignale einen Merkmalsvektor zu bestimmen,
der von den Flächen-
bzw. Voluminainformationen abgeleitet ist. Damit kann eine Informationssignaldatenbank 22 aufgebaut
werden, deren Kernstück
ein Speicher 23 ist, in dem die Merkmalsvektoren (MM1,
MM2, MM3) der in die Einrichtung 20 eingespeisten Informationssignale
jeweils in Zuordnung zu bestimmten Identifikatoren (ID1, ID2, ID3) gespeichert
sind. Die Identifikatoren ID1, ID2, ID2 erlauben eine Identifikation
der Informationssignale, deren Merkmalsvektoren MM1, MM2, MM3 in
der Informationssignaldatenbank und insbesondere in dem Speicher 23 der
Informationssignaldatenbank abgelegt sind. Eine Informationssignaldatenbank
ist um so universeller, je mehr einzelne Informationssignale durch
die Vorrichtung 20 zum Charakterisieren verarbeitet worden
sind und in entsprechender Form, also mittels eines dieselben jeweils
charakterisierenden Merkmalsvektors, im Speicher vorhanden sind.
-
3 zeigt
eine erfindungsgemäße Vorrichtung
zum Identifizieren eines Test-Informationssignals anhand einer Informationssignaldatenbank 22, die
prinzipiell genauso aufgebaut sein kann, wie die anhand von 2 beschriebene
Informationssignaldatenbank. Hierzu wird in die Vorrichtung 20 zum Charakterisieren
ein Test-Informationssignal eingespeist, das zu identifizieren ist,
bzw. von dem eine Identifikation in Hinblick auf bestimmte Merkmale desselben
in qualitativer und/oder quantitativer Hinsicht erlangt werden soll.
Durch die Einrichtung 20 zum Charakterisieren wird aus
dem Test-Informationssignal ein Test-Merkmalsvektor ermittelt, der
das Test-Informationssignal charakterisiert. Mit diesem Test-Merkmalsvektor
wird dann eine Suche in der Informationssignal-Datenbank unter den
im Speicher 23 gespeicherten Merkmalsvektoren MM1, MM2, MM3
durchgeführt,
um am Ausgang der Informationssignal-Datenbank eine Aussage über das
Test-Informationssignal zu erhalten.
-
Die
Aussage über
das Test-Informationssignal, die durch die in 3 gezeigte
Vorrichtung zum Identifizieren des Test-Informationssignals geliefert wird,
kann beispielsweise eine tatsächliche
Bestimmung des Autors oder Urhebers des Informationssignals sein.
Eine Aussage kann jedoch auch eine quantitative Aussage sein, dahingehend,
daß das
Test-Informationssignal
beispielsweise eine bestimmte Anzahl von Vokalen oder Konsonanten
enthält.
In diesem Fall wären
die Merkmalsvektoren MM1, MM2, MM3, die in der Informationssignal-Datenbank
gespeichert sind, Merkmalsvektoren einzelner Vokale oder Konsonanten.
Nachdem der Merkmalsvektor, der durch die Vorrichtung zum Charakterisieren 20 erzeugt
werden kann, ein quantitativer Merkmalsvektor ist, und nachdem in
diesem Fall die in der Informationssignal-Datenbank abgespeicherten
Merkmalsvektoren ebenfalls quantitative Merkmale sind, können auch
quantitative Aussagen über
das Test-Informationssignal
getroffen werden, nämlich
dahingehend, daß es
einen bestimmten Ähnlichkeitsgrad
zu einem Informationssignal hat, das anhand seines Merkmalsvektors
in der Informationssignal-Datenbank vorliegt.
-
5 zeigt
ein beispielhaftes Signalformdiagramm, das sich ergibt, wenn der
Vokal „o" bei einer Frequenz
von etwa 100 Hz durch den Erfinder gesprochen wird. Entlang der
Koordinate ist in 5 die Amplitude normiert auf
Werte zwischen –1,0
und 1,0 aufgetragen. Entlang der Abszisse ist in 5 die Zeit
in Sekunden aufgetragen. Es zeigt sich, daß der Vokal „o" ein stark repetitives
Signalmuster hat, das sehr ähnliche
Flächen-
bzw. Volumeninformationen-Sequenzen
aufweist. Im einzelnen ist zu sehen, daß sich die Sequenz von Flächeninformationen
V1, V2 periodisch wiederholt.
-
Durch
Feststellen dieser Sequenz V1, V2 in der zeitlichen Folge von Volumeninformationen
wird erfindungsgemäß eine Segmentierung
durchgeführt, beispielsweise
bei dem lokalen Maximum, das die mit V2 bezeichneten Flächeninformationen
bestimmt und in 5 mit 50 bezeichnet
ist.
-
Alternativ
könnte
eine Segmentierung auch bei einem lokalen Minimum, wie z. B. dem
Maximum 50 lokalbenachbarten Minimum oder dem wieder nach
links benachbarten lokalen Maximum vorgenommen werden, das das Tal
identifiziert, das mit V1 bezeichnet ist.
-
Anhand
der 5 ist ferner zu sehen, daß die Flächeninformationen V1 das gesamte
linke Tal der Signalform umfassen. Das durch V1 identifizierte Tal
umfaßt
somit die Flächeninformationen
der beiden Täler
unterhalb der gestrichelten Linie 51 sowie die Flächeninformationen
zwischen der Linie 51 und der oberen Begrenzungslinie,
die durch ein lokales Maximum 52 definiert ist. Aus 5 ist
ersichtlich, daß entweder
Sequenzen von einzelnen Flächeninformationen
von Tälern
oder Bergen verwendet werden können,
oder daß zur
Segmentierung auf der Basis von auftretenden Flächeninformationssequenzen auch „kombinierte" Täler/Berge
genommen werden können,
wie z. B. das durch V1 identifizierte Tal.
-
Bei
einem weiteren bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung wird neben den Flächen/Volumeninformationen auch
die Höheninformation
berücksichtigt.
Dieses Konzept hat wiederum sein Analogon in der Geodäsie, wenn
nämlich nicht
nur die Wassermenge in einem Tal berücksichtigt wird, sondern die
potentielle Energie dieser Wassermengen in dem Tal. Damit ist eine
Hyperfeinstruktur des Signals angebbar, indem zusätzlich der
Energieterm der potentiellen Energie angegeben wird. Die poten tielle
Energie ist gleich dem Produkt aus Dichte, Volumen, Beschleunigung
und Höhe.
Ferner kann eine gewissermaßen
kompressionslose Flüssigkeit angenommen
werden. Darüber
hinaus werden die Dichte und die Beschleunigung konstant angenommen
und so eingestellt, daß sich
die Lageenergie eines „Wasserspeichers" aus dem integralen
Produkt aus eingeschlossenen Volumen und Höhe errechnet. Die Energie des
in dem mit V1 bezeichneten Tal in 5 kann durch
Zerlegen des Tals in kleine Rechtecke berechnet werden, wobei die
Fläche
jedes Rechtecks vor der Aufsummation mit der Höhe dieses Rechtecks, also der
Amplitude, die diesem Rechteck zugeordnet ist, multipliziert wird.
-
Damit
werden höher
gelegene Volumina stärker
gewichtet, während
Rauschen um die Nullinie weniger stark gewichtet wird. Die Gewichtung
höher gelegenen
Flächeninformationen
durch Miteinbeziehung der entsprechenden Höhe entspricht dem üblichen
Wesen von Musiksignalen, bei denen laute Signalanteile die Tendenz
besitzen, höher
informationstragend zu sein als leise Signalanteile.
-
Ein
Signal mit stärkerer
Amplitude trägt
somit mehr Informationen als ein Signal mit schwächerer Amplitude. Diesem Aspekt
wird durch die Gewichtung der Folge von Flächeninformationen mit entsprechenden
Höheninformationen,
um gewissermaßen
die potentielle Energie eines in einem Tal befindlichen Wassers
zu erhalten, Genüge
getan.
-
Im
nachfolgenden wird ferner auf ein bevorzugtes Ausführungsbeispiel
beispielsweise zum Berechnen der Fläche A1 von 4 eingegangen.
Vorzugsweise wird die Fläche
A1 derart berechnet, daß zumindest
die Fläche
des Rechtecks berechnet wird, das sich durch die obere Begrenzungslinie 42,
eine untere Begrenzungslinie, die durch das lokale Minimum 45b geht,
sowie die beiden in 4 eingezeichneten gestrichelten
Seitenlinien ergibt. Daraufhin wird eine normale Integration des
Signals vom lokalen Maximum 41b bis zum Punkt 44 durchgeführt, wobei
als Nullinie der Funktion die Linie genommen wird, die durch das
lokale Minimum 45b verläuft.
Die dadurch erhaltene Fläche
wird dann von der ursprünglich
berechneten Rechtecksfläche
subtrahiert, um schließlich
die Fläche
A1 des Tals zu erhalten, das durch das lokale Maximum 41b definiert
ist.
-
Es
sei darauf hingewiesen, daß zur
Berechnung der Flächen
der Berge nicht eine erneute Integration über das Informationssignal
durchgeführt werden
muß, sondern
daß eine
einmalige Integration ausreichend ist, um dann anhand des Kurvenintegrals
und verschiedener Rechtecke sämtliche
Flächeninformationen
der Täler
bzw. Berge zusammenzustellen.
-
Wie
es bereits ausgeführt
worden ist, ist der Vokal „o" in 5 etwa
bei 100 Hz gesprochen worden. Würde
der Vokal bei einer höheren
Frequenz gesprochen werden, so würde
sich ein zwar ähnliches
Zeitdiagramm ergeben, das jedoch hinsichtlich der Zeitachse gestaucht
ist. Würde
der Vokal dagegen mit einer niedrigeren Frequenz aus 100 Hz gesprochen
werden, so würde
sich ein prinzipiell zu 5 ähnliches Zeitdiagramm ergeben,
das jedoch um einen entsprechenden Faktor, der von der Frequenzdifferenz
abhängt,
gedehnt ist.
-
Zur
Frequenz-Amplitudennormierung wird daher erfindungsgemäß ein bei
einer Normfrequenz, wie z. B. 100 Hz, gesprochener Vokal in der
Informationssignaldatenbank 22 von 3 anhand
seines Merkmalsvektors und seiner Identifikation abgelegt. Ein Testsignal,
von dem nicht bekannt ist, bei wel cher Frequenz es gesprochen worden
ist, wird dann innerhalb der Informationssignaldatenbank hinsichtlich seines
Test-Merkmalsvektors
(3) einem Sweep über der Frequenz unterzogen.
Dies bedeutet, daß der
Signalverlauf des Testsignals, der Signalverlauf des in der Informationssignaldatenbank
abgespeicherten Signals oder beide Signale oder Merkmalsvektoren
entsprechend gestaucht bzw. gedehnt werden, um bei jedem Stauchungsfaktor
z. B. anhand der Methode der kleinsten Fehlerquadrate eine Übereinstimmung
festzustellen. Damit kann ermittelt werden, ob überhaupt zu irgendeinem Zeitpunkt
des Frequenz-Sweeps eine ausreichend gute Übereinstimmung stattgefunden
hat. Wird dies verneint, so umfaßt das Test-Informationssignal
beispielsweise keinen gesprochenen Vokal „o". Wird dagegen bei einer bestimmten
Einstellung im Frequenz-Sweep eine ausreichend gute Übereinstimmung
festgestellt, so kann davon ausgegangen werden, daß im Test-Informationssignal
ein gesprochener Vokal „o" vorliegt, und daß dieser
gesprochene Vokal bei einer bestimmten Frequenz gesprochen worden
ist.
-
Es
sei darauf hingewiesen, daß sich
durch die Dehnung/Stauchung des Merkmalsvektors oder, wenn die Dehnung/Stauchung
vor der Extraktion des Merkmalsvektors durchgeführt wird, zwar die absoluten
Flächeninformationen
verändern.
Gleich bleiben jedoch die Relationen der Flächen/Volumeninformationen zueinander,
so daß eine
Dehnung/Stauchung an der Zeitachse keine Auswirkung auf Sequenzen von
Flächeninformationen
dahingehend hat, daß diese
nicht mehr identifiziert werden könnten.
-
Eine
analoge Vorgehensweise wird im Hinblick auf eine Amplitudennormierung
erfindungsgemäß eingesetzt.
Wird der gesprochene Vokal „o" von 5 mit
einer bestimmten mittle ren Lautstärke in der Informationssignaldatenbank 22 von 3 abgespeichert,
so kann eine Dehnung/Stauchung (Verstärkung/Dämpfung) entlang der Amplituden-Achse mit
darauffolgender Fehlerquadratmethode durchgeführt werden, um erstens festzustellen,
ob der Vokal überhaupt
in einem Test-Informationssignal
vorhanden ist, und um zweitens festzustellen, mit welcher Lautstärke der
Vokal im Test-Informationssignal
aufgetreten ist. Bestimmte Suchstrategien zur einzelnen oder kombinierten
Veränderung,
d. h. Dehnung/Stauchung entlang der Zeitachse und der Amplitudenachse,
wird auf den Stand der Technik im Hinblick auf DNA-Sequencing-Konzepte
oder auf Methoden der kleinsten Fehlerquadrate verwiesen, um beispielsweise
die minimale Metrik bzw. den nächsten
Nachbar („Next
Neighbor") zu bestimmen.
-
Alternativ
kann zur Frequenz/Amplituden-Kalibrierung eine Informationssignaldatenbank 22 geschaffen
werden, bei der die einzelnen Merkmalsvektoren mit bestimmten Lautstärke/Frequenz-Einstellungen
eines Meßsystems
aufgezeichnet worden sind. Sofern ein Zugriff hierauf besteht, können dieselben
Einstellungen z. B. hinsichtlich der Lautstärke, von dem Test-Informationssignal
gefordert werden. Hierauf kann eine Kennlinie abgeleitet werden,
um Flächen/Volumeninformationen
eines beispielsweise bei 140 Hz gesprochenen Vokals „o" in Flächen/Volumeninformationen
bei der vorbestimmten Aufnahmeeinstellung, wie z. B. einer Frequenz
von 100 Hz, umzurechnen bzw. abzubilden.
-
Schließlich wird
darauf hingewiesen, daß stark
signifikante Merkmale eines Audiosignals als Beispiel für ein Informationssignal
in großen
Volumen/Flächeninformationen
liegen. Solche großen Volumen/Flächeninformationen
ergeben sich durch Summation der Flächeninformationen AB1, AB2,
B0 von 4. Das gesamte Tal, das durch AB2, AB1, B0 definiert ist,
erhält
seine Höhenbegrenzung 49 aufgrund
des lokalen Maximums 41c. Durch Aufaddition der Täler, die
durch lokale Maxima mit kleinerer Amplitude definiert sind, wie
z. B. des lokalen Maximums 41d, wird die gesamte Fläche des
durch die Begrenzungslinie 49 nach oben begrenzten Tals
erhalten. Entsprechend wird für
die Täler
des invertierten Signals, d. h. die Berge des nicht-invertierten
Signals vorgegangen. Der Berg, der insgesamt das erste Segment A
identifiziert, ergibt sich aus den Flächeninformationen A210', A0', A21', A1', A2'. Durch Ermitteln
der Flächeninformationen
eines gesamten Bergs oder eines gesamten Tals kann erfindungsgemäß eine Segmentierung
mit verläßlichen
Ergebnissen durchgeführt
werden, da solche großen
Flächeninformationen
für Berge
oder Täler
für die
Grobstruktur, d. h. für
die repetitive Struktur des Informationssignals, charakteristisch
sind.
-
Als
weiteres Merkmal oder Feature wird es bevorzugt, die Flächen/Volumeninformationen
einer einzelnen Sequenz V1, V2 von 5 zu addieren, um
eine Gesamtfläche
der Sequenz zu erhalten, mit der eine Suche in einer Datenbank unternommen werden
kann, in der Gesamtflächen
von bekannten Sequenzen gespeichert sind. Das Feature der Gesamtfläche ist
zwar für
ein Signal weniger charakteristisch, ist dafür jedoch stärker komprimiert, so daß eine kleinere
Musikdatenbank und eine schnellere Suche möglich sind. Dieses Feature
ist dann ausreichend, wenn es noch ausreichend charakteristisch ist.
An diesem Beispiel zeigt sich die einfach erreichbare Skalierbarkeit
zwischen dem Merkmale der Charakterisierung und dem Speicherplatzmerkmal des
erfindungsgemäßen Konzepts.
-
Alternativ
oder zusätzlich
zu der Gesamtfläche
könnte
auch die Gesamtenergie einer Sequenz V1, V2 von 5 eingesetzt
werden. Für
das Energiefeature gelten die vorstehenden Ausführungen ebenso.
-
Die
erfindungsgemäßen Verfahren
zum Charakterisieren, zum Aufbauen einer Informationssignal-Datenbank
oder zum Iden tifizieren eines Test-Informationssignal anhand einer
Informationssignal-Datenbank können
je nach vorliegendem Bedarf in Hardware oder in Software implementiert
werden. Die Implementation kann auf einem digitalen Speichermedium,
insbesondere einer Diskette oder CD mit elektronisch auslesbaren
Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem
zusammenwirken können,
daß das
entsprechende Verfahren ausgeführt
wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt
mit auf einem maschinenlesbaren Träger gespeicherten Programmcode
zur Durchführung
eines oder mehrerer der erfindungsgemäßen Verfahren, wenn das Computer-Programm-Produkt auf
einem Rechner abläuft.
In anderen Worten ausgedrückt
ist die Erfindung somit ein Computer-Programm mit einem Programmcode
zur Durchführung des
Verfahrens, wenn das Computer-Programm auf einem Computer abläuft.