-
Die vorliegende Erfindung bezieht
sich auf die Verarbeitung von Informationssignalen und insbesondere
auf die Merkmalsextraktion von Informationssignalen beispielsweise
zur Charakterisierung der Informationssignale oder zur Identifikation
und Datenbanksuche.
-
Konzepte, durch die Zeitsignale mit
einem harmonischen Anteil, wie z. B. Audiodaten, identifizierbar
und referenzierbar sind, sind für
viele Anwender nützlich.
Insbesondere in einer Situation, in der ein Audiosignal vorliegt,
dessen Titel und Autor unbekannt sind, ist es oftmals wünschenswert,
herauszufinden, von wem das entsprechende Lied stammt. Ein Bedarf
hierzu besteht beispielsweise, wenn der Wunsch vorhanden ist, z.
B. eine CD des betreffenden Interpreten zu erwerben. Wenn das vorliegende Audiosignal
lediglich den Zeitsignalinhalt umfaßt, jedoch keinen Namen über den
Interpreten, den Musikverlag etc., so ist eine Identifizierung des
Ursprungs des Audiosignals bzw. von wem ein Lied stammt, nicht möglich. Die
einzige Hoffnung bestand dann darin, das Audiostück samt Referenzdaten bezüglich des
Autors oder der Quelle, wo das Audiosignal zu erwerben ist, noch
einmal zu hören,
um dann den gewünschten
Titel beschaffen zu können.
-
Im Internet ist es nicht möglich, Audiodaten unter
Verwendung herkömmlicher
Suchmaschinen zu suchen, da die Suchmaschinen lediglich mit textuellen
Daten umgehen können.
Audiosignale bzw. allgemeiner gesagt, Zeitsignale, die einen harmonischen
Anteil haben, können
durch solche Suchmaschinen nicht verarbeitet werden, wenn sie keine
textuellen Suchangaben umfassen.
-
Ein realistischer Bestand an Audiodateien liegt
bei mehreren tausend gespeicherten Audiodateien bis zu hunderttausenden
von Audiodateien. Musikdatenbankinformationen können auf einem zentralen Internet-Server
abgelegt sein, und potentielle Suchanfragen könnten über das Internet erfolgen.
Alternativ sind bei heutigen Festplattenkapazitäten auch die zentrale Musikdatenbanken
auf lokalen Festplattensystemen von Benutzern denkbar. Es ist wünschenswert,
solche Musikdatenbanken durchsuchen zu können, um Referenzdaten über eine
Audiodatei zu erfahren, von der lediglich die Datei selbst, jedoch
keine Referenzdaten bekannt sind.
-
Darüber hinaus ist es gleichermaßen wünschenswert,
Musikdatenbanken unter Verwendung vorgegebener Kriterien durchsuchen
zu können,
die beispielsweise dahingehend lauten, ähnliche Stücke herausfinden zu können. Ähnliche
Stücke
sind beispielsweise die Stücke
mit einer ähnlichen
Melodie, einem ähnlichen
Instrumentensatz, oder einfach mit ähnlichen Geräuschen,
wie z. B. Meeresrauschen, Vogelgezwitscher, männliche Stimmen, weibliche Stimmen,
etc.
-
Das U.S.-Patent Nr. 5,918,223 offenbart
ein Verfahren und eine Vorrichtung für eine Inhalts-basierte Analyse,
Speicherung, Wiedergewinnung und Segmentierung von Audioinformationen.
Dieses Verfahren beruht darauf, mehrere akustische Merkmale aus
einem Audiosignal zu extrahieren. Gemessen werden Lautstärke, Baß, Tonhöhe, Brightness
und Melfrequenz-basierte Cepstral-Koffizienten in einem Zeitfenster
bestimmter Länge
in periodischen Intervallabständen.
Jeder Meßdatensatz
besteht aus einer Folge von gemessenen Merkmalsvektoren. Jede Audiodatei
ist durch den kompletten Satz der pro Merkmal berechneten Merkmalsfolgen
spezifiziert. Ferner werden die ersten Ableitungen für jede Folge von
Merkmalsvektoren berechnet. Dann werden statistische Werte wie Mittelwert
und Standardabweichung berechnet. Dieser Satz von Werten wird in
einem N-Vektor, d. h. einem Vektor mit n Elementen, gespeichert.
Diese Vorgehensweise wird auf eine Vielzahl von Audiodateien angewendet,
um für
jede Au diodatei einen N-Vektor abzuleiten. Damit wird nach und nach
eine Datenbank aus einer Vielzahl von N-Vektoren aufgebaut. Aus
einer unbekannten Audiodatei wird dann unter Verwendung derselben Vorgehensweise
ein Such-N-Vektor extrahiert. Bei einer Suchanfrage wird dann eine
Abstandsberechnung des vorgegebenen N-Vektors und der in der Datenbank
gespeicherten N-Vektoren ermittelt. Schließlich wird der N-Vektor ausgegeben,
der den minimalen Abstand zu dem Such-N-Vektor hat. Dem ausgegebenen
N-Vektor sind Daten über
den Autor, den Titel, die Beschaffungsquelle etc. zugeordnet, so
daß eine
Audiodatei hinsichtlich ihres Ursprungs identifiziert werden kann.
-
Dieses Verfahren hat den Nachteil,
daß mehrere
Merkmale berechnet werden und willkürliche Heuristiken zur Berechnung
der Kenngrößen eingeführt werden.
Durch Mittelwert- und Standardabweichungsberechnungen über alle
Merkmalsvektoren für
eine gesamte Audiodatei wird die Information, die durch den zeitlichen
Verlauf der Merkmalsvektoren gegeben ist, auf wenige Merkmalsgrößen reduziert. Dies
führt zu
einem hohen Informationsverlust.
-
Grundsätzlich haben alle sogenannten
Features bzw. Merkmale, die zur Identifikation von Informationssignalen
eingesetzt werden, zwei gegenläufige
Anforderungen zu erfüllen.
Die eine Anforderung besteht darin, eine möglichst gute Charakterisierung eines
Informationssignals zu liefern. Die andere Anforderung besteht darin,
daß das
Merkmal oder Feature nicht besonders viel Speicherplatz in Anspruch nehmen
darf, also so wenig Informationen als möglich haben darf. Im Hinblick
auf den Speicherplatz kleinere Features haben unmittelbar kleinere
Informationssignaldatenbanken zur Folge und resultieren auch in
einer schnelleren Datenbanksuche, um eine qualitative Aussage über ein
zu testendes Informationssignal oder sogar eine quantitative Aussage über ein
solches Informationssignal treffen zu können.
-
Eine weitere ebenfalls wichtige Anforderung an
das aus dem Informationssignal zu extrahierende Merkmal besteht
darin, daß das
Merkmal robust gegenüber
Veränderungen
sein sollte. Solche Veränderungen
bestehen in einem systemimmanenten Rauschen, einer Verzerrung z.
B. aufgrund eines verlustbehafteten Codierverfahrens. Andere Signalveränderungen
sind beispielsweise Änderungen
der Lautstärke
am Beispiel eines Audiosignals sowie Verzerrungen aufgrund eines
Abspielens eines Audiosignals über
einen Lautsprecher und Wiederaufzeichnen des Audiosignals über ein
Mikrophon etc.
-
Die Aufgabe der vorliegenden Erfindung
besteht darin, ein flexibles und robustes Konzept zum Charakterisieren
eines Informationssignals zu schaffen.
-
Diese Aufgabe wird durch eine Vorrichtung zum
Charakterisieren eines Informationssignals gemäß Anspruch 1, ein Verfahren
zum Charakterisieren eines Informationssignals nach Patentanspruch
19, eine Vorrichtung zum Aufbauen einer Informationssignaldatenbank
nach Patentanspruch 20, ein Verfahren zum Aufbauen einer Informationssignaldatenbank
nach Patentanspruch 21, eine Vorrichtung zum Identifizieren eines
Informationssignals nach Patentanspruch 22, ein Verfahren zum Identifizieren
eines Informationssignals nach Patentanspruch 23 oder ein Computer-Programm
nach Patentanspruch 24 gelöst.
-
Der vorliegenden Erfindung liegt
die Erkenntnis zugrunde, daß eine
einerseits charakteristische Darstellung eines Informationssignals
und andererseits eine Darstellung des Informationssignals mit begrenztem
Speicheraufwand dadurch erreicht werden kann, daß der Amplituden-Zeit-Verlauf
des Informationssignals dahingehend verarbeitet wird, daß lokale
Extremwerte bestimmt werden, und daß Flächeninformationen im Falle
eines Informationssignals mit eindimensionaler Amplitude oder Volumeninformationen
im Falle eines Audiosignals mit zweidimensionaler Amplitude von
Tälern
oder Bergen des Informationssignals ermittelt werden, wobei je dem Tal
oder Berg des Informationssignals ein lokaler Extremwert sowie ein
zeitlicher Abschnitt zugeordnet ist, wobei sich der zeitliche Abschnitt
des Informationssignals für
einen Berg oder für
ein Tal von dem Zeitpunkt des lokalen Extremwerts bis zu einem zeitlich
benachbarten Wert des Informationssignals erstreckt, der die gleiche
Amplitude wie der lokale Extremwert aufweist. Dadurch werden Flächeninformationen
bzw. Volumeninformationen in zeitlich aufeinanderfolgender Darstellung
erhalten, die für
das Informationssignal charakteristisch sind.
-
Die vorliegende Erfindung ist dahingehend vorteilhaft,
daß die
charakteristischen Eigenschaften eines Amplituden-Zeit-Verlaufs in Form
von Flächeninformationen
oder Volumeninformationen integrale Größen sind, die im Gegensatz
beispielsweise zu Amplituden-Zeit-Tupel oder zu sonstigen eher an
den akustischen Eigenschaften eines Audiosignals angenäherten Merkmalen,
relativ Invariante Größen sind, die
in ihrer tatsächlichen
quantitativen Größe oder zumindest
in ihrer relative Größe in Hinblick
auf eine zeitliche Folge gegenüber
Verzerrungen, Rauschen etc. eine hohe Robustheit aufweisen.
-
Darüber hinaus ermöglicht das
erfindungsgemäße Konzept
der Darstellung eines Informationssignals durch integrale Größen, die
vom Amplituden-Zeit-Verlauf des Informationssignals abgeleitet sind,
eine stark komprimierte Darstellung, die im Hinblick auf eine Informationssignal-Identifikation
zum einen zu kleinen Datenbanken führt und zum anderen zu kurzen
Suchdauern zum Durchsuchen einer Datenbank unter Verwendung einer
solchen Charakteristik eines zu testenden Signals.
-
Ein weiterer Vorteil des erfindungsgemäßen Konzepts
besteht darin, daß die
Darstellung eines Informationssignals mit einem Amplituden-Zeit-Verlauf anhand
von integralen Flächen-
oder Volumeninformationen in zeitlicher Folge besonders gut für Informationssignale
geeignet sind, die sich wiederholende Grundstrukturen haben, wie
z. B. Audiosignale. So liefern Instrumente beispielsweise ein Signal,
das für
jedes Instrument charakteristisch ist, und das insbesondere eine
für jedes
Instrument charakteristische Folge von Flächeninformationen aufweist.
Sich wiederholende Muster treten auf, wenn ein Instrument aufeinanderfolgende
Töne spielt.
Dieses Muster findet sich unmittelbar in den aufeinanderfolgenden
Flächeninformationen
wieder. Eine Mustererkennung der Folge von Flächeninformationen kann daher
dazu verwendet werden, das Audiosignal zu segmentieren, um diverse
Nachverarbeitungen vornehmen zu können, wie z. B. eine Polyphonklangerkennung,
eine Musikinstrumentenerkennung oder eine Melodieerkennung. Darüber hinaus
zeichnen sich gesprochene Laute durch sich wiederholende Signalmuster
aus. Daher ist das erfindungsgemäße Konzept
auch zur Nachverarbeitung von Sprachsignalen geeignet, um beispielsweise
eine Spracherkennung durchzuführen.
-
Quasi-stationäre Audiosignale als Beispiel für Informationssignale,
die sich besonders gut für das
erfindungsgemäße Konzept
eignen, wobei die Audiosignale beispielsweise durch Sprachlaute
oder Musikinstrumenten-Laute dargestellt sind, zeichnen sich dadurch
aus, daß Replika
des gleichen bzw. eines nur langsam veränderlichen Bodenprofils bzw. der
gleichen oder einer nur langsam veränderlichen Audiosignalform
n-fach aneinander gereiht werden, abhängig davon, wie lange der Sprachlaut
gehalten bzw. wie lange der Ton angehalten wird. Replika der gleichen
Signalform werden lokal festgestellt, indem gleiche oder nur geringfügig abweichende
Flächeninformationen
der Folge von Flächeninformationen
vorzugsweise des Original- und des Komplementärsignals miteinander verglichen
werden.
-
Gleiche Wellenzüge werden also dadurch identifiziert,
daß gleiche
Flächeninhalte
assoziiert werden. Der absolute Inhalt, d. h. ein Flächenintegral, kann
aber auch angeben, ob es sich um einen Vokal, Konsonant, ein bestimmtes
Musikinstrument, einen hochfrequenten Ton etc. handelt.
-
Bevorzugte Ausführungsbeispiele der vorliegenden
Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden
Zeichnungen detailliert erläutert.
Es zeigen:
-
1 ein
Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Charakterisieren
eines Informationssignals;
-
2 ein
Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Aufbauen
einer Informationssignal-Datenbank;
-
3 ein
Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Identifizieren
eines Test-Informationssignals
unter Verwendung einer Informationssignal-Datenbank;
-
4 einen
Amplituden-Zeit-Verlauf eines beispielhaften Informationssignals
mit eingezeichneten Flächeninformationen
für lokale
Maxima und lokale Minima; und
-
5 ein
beispielhaftes Signalformdiagramm für einen gesprochenen Vokal „o".
-
Bevor detaillierter auf die nachfolgenden
Figuren eingegangen wird, wird zunächst zur besseren Anschaulichkeit
der Erfindung das allgemeine Prinzip erläutert. In Anlehnung an die
nachfolgende Erörterung
wird das erfindungsgemäße Konzept
für Audiosignale
als Informationssignale auch als „Audio-Watershed" bezeichnet. Dieses
Konzept ist ein Konzept, mit dem Audiosignale in Intervalle unterteilbar
sind. In der Geodäsie
ist das Konzept sehr anschaulich beschreibbar. Berg- und Talbodenformationen
werden von Regenwasser angefüllt.
Das Wasser sammelt sich in Talsenken und umströmt Bergkuppen. Der maximale
Füllstand
einer isolierten Region ist durch das zweidimensionale Bodenprofil
und die Höhe
der geringsten Durchlaßstelle
gegeben. Die aufgenommene Wassermenge kann einfach bestimmt werden, indem
gemessen wird, welche Wassermenge der kontinuierlich strömenden Regenwasserquelle
bis zum Überlauf
entnommen wurde.
-
Für
eindimensionale Informationssignale, beispielsweise Audiosignale,
verteilen sich die herabregnenden Wassermengen über den gesamten Verlauf der
Audiowellenzüge.
Zwischen zwei benachbarten lokalen Wellenmaximas bleibt das Wasser
stehen und wird eingeschlossen. Sukzessive können weitere Teilbereiche geflutet
werden, bis zum Schluß auch
das Amplitudenmaximum der gesamten Signaldarstellung geflutet ist.
Zu diesem Zweck müßte angenommen
werden, daß die
Ränder
am Anfang und am Ende des Signals hoch sind, und zwar mindestens
höher als
das globale Maximum des Signals. Dieses Konzept funktioniert jedoch
auch ohne die Annahme solcher hoher Ränder. Dann wird das Maximum
nicht geflutet, sondern das Wasser steigt nur bis zur Höhe des zweithöchsten Maximums
an.
-
Zur detaillierteren Darstellung des
Signals wird es bevorzugt, den Signalverlauf längs der t-Achse zu spiegeln,
um ein komplementäres
Informationssignal zu erhalten, um das invertierte Profil entsprechend
durch Flächenbestimmung
der Täler
zu vermessen.
-
Nachdem sich insbesondere bei den
beschriebenen Informationssignalen gleiche Wellenzüge periodisch
quasi-stationär
wiederholen, haben sie auch immer den gleichen „Wasserinhalt", so daß eine Segmentierung
aufgrund des Wasserinhalts eines Wellenzugs, der sich aus mehreren
Wasserinhalten der Täler,
die in dem Wellenzug vorhanden sind, zusammensetzt, erfolgen kann.
Gleiche Wellenzüge werden
also dadurch identifiziert, daß gleiche
Flächeninhalte
assoziiert werden.
-
Wie es noch anhand von 4 erläutert werden wird, kann die
Informationssignalcharakterisierung nicht nur anhand von Tälern, die
durch lokale Maxima definiert sind, durch geführt werden, sondern auch anhand
von Bergen, deren Basislinie durch ein lokales Minimum definiert
ist, und deren Gipfel durch den Signalverlauf begrenzt sind. Diese
Darstellung ist gleichwertig zur Invertierung des ursprünglichen Informationssignals
und zur Betrachtung der Täler
im invertierten Informationssignal.
-
Das erfindungsgemäße Konzept ist für sämtliche
Informationssignale, die einen Amplituden-Zeit-Verlauf aufweisen,
der lokale Extremwerte hat, anwendbar. Solche Informationssignal
können Audiosignale,
Videosignale, Spannungssignale oder Stromsignale, die irgendwie
geartete Meßgrößen identifizieren,
etc. sein. Am Beispiel von Audiosignalen oder Videosignalen sei
darauf hingewiesen, daß der
zeitliche Verlauf, also das Informationssignal nicht unbedingt eine
Spannungsamplitude oder eine Stromamplitude angeben muß, sondern
daß das
Informationssignal auch eine Leistung oder einen Schalldruck als
Amplitude haben kann.
-
Darüber hinaus sei darauf hingewiesen,
daß das
Informationssignal eine eindimensionale Amplitude haben kann, wie
z. B. bei einem Audiosignal, daß das
Informationssignal jedoch auch eine zweidimensionale Amplitude haben
kann, so daß der
Amplituden-Zeit-Verlauf des Informationssignals tatsächlich dreidimensionale
Berge und Täler
umfaßt,
während
diese Berge und Täler
im Falle eines Informationssignals mit eindimensionaler Amplitude
lediglich einen zweidimensionalen Verlauf haben, also durch Flächeninformationen
dargestellt werden können.
-
Darüber hinaus sei darauf hingewiesen,
daß das
Informationssignal selbstverständlich
nicht ein kontinuierliches Signal sein muß, sondern daß dasselbe
auch ein zeitdiskretes Signal sein kann, bei dem ein gedachter kontinuierlicher
Verlauf aus Anschaulichkeitsgründen
angenommen werden kann, der sich durch eine gerade Verbindung aufeinanderfolgender
zeitdiskreter Signalwerte oder durch Interpolation ergibt.
-
Nachfolgend wird anhand von 4 die vorliegende Erfindung
dargestellt. 4 zeigt
ein Informationssignal 40 mit einem Amplituden-Zeit-Verlauf. Bei
dem in 4 gezeigten Informationssignal
handelt es sich um ein Informationssignal mit eindimensionaler Amplitude.
Das dargestellte Informationssignal ist ein typisches Audiosignal,
das sich wiederholende Wellenzüge
hat, wobei ein Wellenzug im ersten Segment A dargestellt ist, während der
sich wiederholende Wellenzug im zweiten Segment B dargestellt ist.
Es sei darauf hingewiesen, daß sich
das Informationssignal im zweiten Segment B selbstverständlich von
dem Informationssignal im ersten Segment A unterscheidet, jedoch
nicht in seiner grundsätzlichen Topologie
sondern lediglich bei dem in 4 gezeigten
Ausführungsbeispiel
in der Amplitude zu bestimmten Zeitpunkten.
-
Das Informationssignal weist lokale
Maxima 41a, 41b, 41c, 41d, 41e und 41f auf.
Jedem lokalen Maximum ist ein eigenes Tal zugeordnet. Dem Maximum 41a ist
das mit A0 bezeichnete Tal zugeordnet. Entsprechend ist dem Maximum 41b das
Tal A1 zugeordnet. Darüber
hinaus ist dem Maximum 41d das AB1 zugeordnet. Dem Maximum 41c ist
nun, da ein Teil des gesamten Tals bereits durch AB1 dem Maximum 41d zugeordnet
ist, lediglich der darüberliegende
Rest des Tals, der mit AB2 bezeichnet ist, zugeordnet. Schließlich ist
dem Maximum 41e das Tal B1 zugeordnet. Dem lokalen Maximum 41f in 4 ist kein eigenes Tal zugeordnet.
Dies liegt jedoch lediglich daran, daß der weitere Verlauf des Informationssignals
nicht mehr dargestellt ist.
-
Wie es aus 4 ersichtlich ist, ist jedes Tal durch
einen zeitlichen Abschnitt definiert, der in 4 am Beispiel des Tals A1, dem das lokale
Maximum 41b zugeordnet ist, mit 42 bezeichnet
ist. Der zeitliche Abschnitt erstreckt sich insbesondere von dem
Zeitpunkt 43 des Auftretens des lokalen Maximums 41b bis
zu einem zeitlich benachbarten Wert des Informationssignals, der
die gleiche Ampli tude wie der lokale Extremwert aufweist. Dieser
zeitliche Wert ist in 4 mit 44 bezeichnet.
Damit ergibt sich die Fläche
A1, die das dem lokalen Maximum 41b zugeordnete Tal repräsentiert.
Entsprechend werden die anderen Täler A0, AB2, B0, B1 behandelt.
Aus der Folge der Täler
A0, A1, AB1, B0, B1 ergibt sich bereits eine Charakterisierung des
Informationssignals, die zur Identifikation verwendet werden kann.
-
Erfindungsgemäß wird es jedoch bevorzugt, nicht
nur die Flächeninformationen
von Tälern
des Informationssignals sondern auch die Flächeninformationen von Tälern des
invertierten Informationssignals zu berechnen. Eine Inversion des
Informationssignals kann erreicht werden, wenn 4 einfach umgedreht wird. Dies ist durch
die umgekehrt geschriebenen Flächenidentifikatoren
A0', A1', A2', A21', A210', B0', B1', B2', B21', B210' dargestellt.
-
Alternativ, wenn 4 nicht „umgedreht wird", so ergeben sich
die „Berge", die jedem lokalen Minimum
zugeordnet sind, folgendermaßen.
Eine Untersuchung des Informationssignals liefert lokale Minima 45a, 45b, 45c, 45e, 45f.
Der erste Berg A0' ist
durch das lokale Minimum 45a sowie durch den zeitlich benachbarten
Wert des Informationssignals bestimmt, der denselben Wert wie das
lokale Minimum hat, also einen Wert 46 definiert. Zwischen
dem Wert 46 und dem lokalen Minimum 45a ergibt
sich der zeitliche Abschnitt 47, der den Berg A0' identifiziert. Zur
Charakterisierung des Informationssignals wird nun die Fläche des
Berges A0' gemäß der in 4 gezeigten Darstellung
als Flächeninformationen
berechnet. Analog hierzu wird mit dem Berg A1', A2' etc.
vorgegangen. Aus 4 ist
ferner ein Fall ersichtlich, bei dem sich der Berg A210', dem das lokale
Minimum 45c zugeordnet ist, über einem Berg A21' befindet, dem das
lokale Minimum 45a zugeordnet ist und insbesondere über den
Bergen A1' und A2' befindet, denen
das lokale Minimum 45b zugeordnet ist. Aus dem in 4 gezeigten Beispiel ist
somit ersichtlich, daß einem
lokalen Minimum auch zwei Flä cheninformationen
zugeordnet sein können,
derart, daß dem
lokalen Minimum 45b sowohl die Flächeninformation des Bergs A1' als auch die Flächeninformation
des Bergs A2' zugeordnet
ist. Entsprechendes gilt für
das lokale Minimum 45a, dem sowohl die Flächeninformationen
A0' als auch die
Flächeninformationen
A21' zugeordnet
sind.
-
Bei der Betrachtung der Flächeninformationen
A210', A21', A2' und A1' wird ersichtlich,
daß hier dieselbe
Vorgehensweise verwendet worden ist, wie sie anhand der übereinander
liegenden Täler
AB1 und AB2 erläutert
worden ist.
-
Nach einer Bearbeitung des Informationssignals
dahingehend, daß die
Flächeninformationen sämtlicher
Berge und Täler
in Zuordnung zu den entsprechenden lokalen Maxima und Minima bzw.
in Zuordnungen zu einem bestimmten Zeitpunkt sind, der ein ausgewählter Zeitpunkt
aus dem zeitlichen Abschnitt ist, wird eine Folge von Flächeninformationen bzw.
Volumeninformationen erhalten, wobei diese Folge von Zeit-Flächenwerten
bzw. Zeit-Volumenwerten für
das Informationssignal charakteristisch ist.
-
Nachfolgend wird Bezug nehmend auf 1 eine bevorzugte Vorrichtung
zum Charakterisieren eines Informationssignals dargestellt. Die
Vorrichtung zum Charakterisieren eines Informationssignals, das
einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist,
umfaßt
eine Einrichtung 10 zum Bestimmen von lokalen Extremwerten
des Informationssignals, wobei ein lokaler Extremwert einen Zeitpunkt
und einen Amplitudenwert umfaßt.
Der Einrichtung 10 zum Bestimmen von lokalen Extremwerten
ist eine Einrichtung 11 zum Ermitteln von Flächen- bzw.
Volumeninformationen für
Berge und Täler
des Informationssignals nachgeschaltet. Die Einrichtung zum Ermitteln
von Flächeninformationen oder
Volumeninformationen ist wirksam, um die Fläche eines Tals oder Bergs zu
berechnen, wobei ein Tal oder Berg durch einen zeitlichen Abschnitt
des Informationssignals definiert ist, wobei sich der Abschnitt
des Informationssignals von dem Zeitpunkt des lokalen Extremwerts
bis zu einem zeitlich benachbarten Wert des Informationssignals,
der die gleiche Amplitude wie der lokale Extremwert aufweist, erstreckt.
Die Flächeninformationen
von mehreren Bergen oder Tälern
sind für
das Informationssignal charakteristisch.
-
Vorzugsweise wird die Einrichtung 11 eine Folge
von Flächeninformationen-Zeit-Werten
erzeugen und einer Einrichtung 12 zum Nachverarbeiten zuführen, die
ausgebildet ist, um einen nachverarbeiteten Merkmalsvektor auszugeben
oder eine Spracherkennung, eine Musikinstrumentenerkennung, eine
Melodieerkennung, eine Polyphonklangerkennung oder irgend eine sonstige
Erkennung von Informationen durchzuführen, die in dem Informationssignal,
das in die Einrichtung 10 eingespeist wird, enthalten sind.
-
Zur Bestimmung von lokalen Extremwerten durch
die Einrichtung 10 können
beliebige bekannte Konzepte hierfür verwendet werden, wie z.
B. ein üblicher
Minima-Maxima-Suchalgorithmus,
der einen Abtastwert des Informationssignals mit dem vorherigen
Abtastwert des Informationssignals vergleicht und dann ein lokales
Maximum erkennt, wenn der zeitlich spätere Abtastwert kleiner als
der zeitlich frühere
Abtastwert ist, und wenn vorher ein lokales Minimum war. Der Algorithmus
erkennt ferner ein lokales Minimum, wenn der zeitlich frühere Abtastwert größer als
der zeitlich spätere
Abtastwert ist, und wenn vorher ein lokales Maximum war. Alternativ kann
der Maxima/Minima-Sucher auch ausgebildet sein, um mehrere aufeinanderfolgende
Abtastwerte entsprechend auszuwerten. Um nicht durch ein dem Informationssignal überlagertes
Rauschen beeinträchtigt
zu werden, kann die Einrichtung 10 ferner ausgebildet sein,
um vor der Maxima/Minima-Suche eine Tiefpaßfilterung des Informationssignals
durchzuführen,
um ein glatteres Informationssignal zu erhalten. Selbstverständlich sind
beliebige andere Möglichkeiten
denkbar, wie z. B. das Durchführen
eines Polynomfits an das Informationssignal und das analytische
Bestimmen von Extremwerten unter Verwendung der Polynomfit funktionen.
Alternativ könnte auch
das direkt vorliegende ungefilterte Informationssignal verwendet
werden, um sämtliche
Maxima und Minima zu bestimmen, und um dann nachträglich die Berge
oder Täler
mit einem kleineren Flächeinhalt
als einem vorgegebenen Schwellwert herauszufiltern bzw. in der weiteren
Informationssignal-Charakterisierung nicht mehr zu verwenden.
-
Die Einrichtung 11 zum Ermitteln
von Flächen-
bzw. Volumeninformationen für
Berge und Täler
wird typischerweise als numerischer Integrator ausgebildet sein,
um die Fläche
zwischen dem Informationssignal und der oberen Talbegrenzung bzw. der
unteren Bergbegrenzung zu berechnen. Im Falle von übereinanderliegenden
Bergen oder Tälern
ist die Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformationen
ausgebildet, um zu berücksichtigen,
daß unter
dem „Tal" bereits ein anderes „Tal" liegt. Als Basislinie
zur Integration wird dann die obere Begrenzungslinie des darunterliegenden
Tals, also beispielsweise die Linie 48 von 4 verwendet. Die Fläche AB2 berechnet sich also
unter Verwendung der seitlichen Begrenzung der Fläche AB2, die
durch das Informationssignal gegeben ist und unter Verwendung der
Basislinie 48 und der oberen Begrenzung der Fläche AB2,
die in 4 mit 49 dargestellt
ist und gewissermaßen
den „Wasserstand" definiert, der durch
das lokale Maximum 41c festgelegt ist.
-
Im nachfolgenden wird auf unterschiedliche Ausgestaltungen
der Einrichtung 12 zum Nachverarbeiten der Folge von Flächeninformationen
bzw. Volumeninformationen eingegangen. Wie es bereits ausgeführt worden
ist, eignet sich das erfindungsgemäße Konzept insbesondere zur
Segmentierung von Informationssignalen auf der Basis der berechneten Volumeninformationen.
In 4 sind zwei Replika
A und B der Signalform dargestellt. Es ergeben sich Kombinationspaare
gleicher oder geringfügig
abweichender Volumina. Im nichtinvertierten Signal sind dies die
Kombinationspaare (A0, B0), (A1, B1).
-
Im invertierten Signal, also hinsichtlich
der Berge, ergeben sich folgende Kombinationspaare (A0', B0'), (A1', B1'), (A2', B2'), (B21', A21'), (A210', B210').
-
Die prozentuale Schwankung ΔF/F ist für große eingeschlossene
Flächen
geringer, so daß besonders
bei Rauschen die Flächeninformationsvergleiche
großer
Flächen
eine verläßlichere
Schätzung auf
Identität
sind. Ein Beispiel hierfür
ist das Kombinationspaar (A210',
B210'). Die repetitiven
Volumina/Flächensequenzen
(A210'_n, AB2_n,
B210'_n) weisen
auf das Vorliegen einer bestimmten Signalform hin. Der gesamte Informationssignalverlauf
wird somit auf der Basis der Folge von Flächeninformationen in m Sequenzen
von Flächen-
bzw. Voluminaintervallen unterteilt, woraufhin Flächen- bzw.
Voluminasequenzen zu Abschnitten der gleichen Informationssignalform
zusammengefaßt
werden. Eine Flächen- bzw. Voluminahüllkurve
wird bestimmt, indem der Aufbau der Wellensignalform sich langsam
vollzieht, wobei die Flächen
bzw. Volumina gleicher repetitiver Sequenzen in einer Anstiegsphase
ansteigen, dann in einer Sustainphase annähernd gleich bleiben und dann
in einer Abklingphase langsam abnehmen. An dieser Stelle sei darauf
hingewiesen, daß typische
Töne von
Musikinstrumenten eine Anstiegsphase, eine Sustainphase und eine
Abklingphase haben. So wäre
beispielsweise bei einem Klavier, bei dem eine Saite durch den Aufschlag
eines Hämmerchens
angeregt wird, die Anstiegsphase relativ kurz. Die Sustainphase
wäre ebenfalls
relativ kurz, während
die Abklingphase relativ lang dauern würde.
-
Eine Intervallgrenze ergibt sich
dann, wenn sich Flächen
bzw. Volumina abrupt ändern.
-
Erfindungsgemäß kann auf der Basis der Folge
von Flächen- bzw. Voluminainformationen auch
eine Frequenzbestimmung durchgeführt
werden. Die Frequenz des Wiederholungsmusters wird bestimmt, indem
die Abstände
der lokalen Maxima bzw. lokalen Minima aufeinanderfolgender gleicher oder
nur ge ringfügig
unterschiedlicher Flächen
bzw. Volumina in der Form beispielsweise ((A0, B0), A1, B1)) gebildet
werden, und wenn im invertierten Signal die Abstände ((A0', B0'),
(A1', B1'), (A2', B2'), (A21', B21'), (A210', B210') gebildet werden.
-
Das gewissermaßen entstehende Relief aufeinanderfolgender
Bergkuppen und Talsohlen wird durch die Bestimmung des Repititionsmusters
der Form (A210',
AB2, B210') ermittelt.
Das Feinprofil eines Bergkamms oder einer Talsohle wird durch die Angabe
der strukturierenden Elemente A0, A1 und A0', A1',
A2', A21' bestimmt.
-
Erfindungsgemäß ist die Einrichtung 12 zum Nachverarbeiten
ferner ausgebildet, um jeder Flächeninformation
oder Volumeninformation einen Vektor zuzuweisen, der vorzugsweise
den Zahlenwert des Flächeninhalts
bzw. Volumeninhalts und den Zeitwert des Auftretens umfaßt. Als
Zeitwert des Auftretens kann irgend ein Zeitwert des zeitlichen
Abschnitts genommen werden. Es wird bevorzugt, einem Flächeninhalt
den Zeitpunkt des Auftretens des lokalen Extremwerts zuzuordnen,
der dem Flächeninhalt
zugeordnet ist. Bedingt ein lokaler Extremwert, wie z. B. der lokale
Extremwert 45b von 4 zwei in 4 gezeigte „Berge" A1', A2', so wird den Flächeninformationen
A1', A2' derselbe Zeitwert
zugeordnet, nämlich
der Zeitwert des Auftretens des lokalen Minimums 45b.
-
Damit entsteht ein Zahlenfeld von
n Vektoren längs
der Zeitachse. Solche Sequenzen von Vektoren können mit DNA-Sequencing-Methoden
mit bestehenden Volumenvektoren, die in einer Musikdatenbank gespeichert
sind, verglichen werden, um über
Identifikationen, die den einzelnen Vektoren in der Musikdatenbank
zugeordnet sind, beispielsweise eine Informationssignal-Identifikation
durchzuführen.
-
Werden die Informationssignale, wie
z. B. Audiosignale unterschiedlicher Aufnahmen, normiert, so können Flächen- bzw. Voluminasequenzen
direkt miteinander verglichen werden. Mit einer Frequenzbestimmung
können
Flächen
bzw. Volumina, die die gleiche Audiosignalform haben, aber durch
die frequenzabhängige
Zeitdehnung dennoch unterschiedliche Flächen bzw. Volumina aufweisen,
miteinander in Bezug gesetzt werden.
-
Aus den Volumina bzw. Flächen und
der Lage der Maxima bzw. Minima können erfindungsgemäß weitere
Flächenformbeschreibende
Parameter, wie z. B. die longitudinale Ausdehnung, durch die Einrichtung 12 zum
Nachverarbeiten von 1 bestimmt
werden. Solche weiteren Parameter erlauben eine Aussage, ob es sich
beispielsweise um Sprachlaute oder von Musikinstrumenten evozierte
Signale handelt. In dem Informationssignal selbst können vorzugsweise
durch die Einrichtung 12 zum Nachverarbeiten lediglich
relative Flächen
bzw. Volumina verwendet werden, indem durch die Einrichtung 12 zum Nachverarbeiten
das Verhältnis
aufeinanderfolgender Flächen
bzw. Volumina gebildet wird.
-
Allgemein gesagt haben Sprachlaute,
Polyphonklänge
oder von Musikinstrumenten evozierte Monophonklänge voneinander abweichende
Audiosignalformen und sind daher anhand der Flächen- bzw. Voluminasequenzen
unterscheidbar. Der frequenzabhängige
Anteil einer gleichen Audiosignalform wird ebenfalls durch eine Änderung
der Flächen bzw.
Volumina bestimmt. Ist einem Sprachlaut (Vokal) eine insgesamte
Fläche
eindeutig zuordenbar, so können
Vokalabschnitte aus dem Informationssignal herausgelesen werden.
Ebenfalls können
Konsonanten und Übergangsabschnitte
durch Angabe der Flächen-
bzw. Voluminasequenzen unter Verwendung der Einrichtung 12 zum
Nachverarbeiten bestimmt werden. Dasselbe trifft für Polyphonklänge wie
auch für
Melodiefolgen zu.
-
2 zeigt
eine Vorrichtung gemäß einem weiteren
Aspekt der vorliegenden Erfindung, die zum Aufbau einer Informationssignal-Datenbank
dient. In eine Vorrichtung 20 zum Charakterisieren, die
prinzipiell so aufgebaut sein kann, wie es in 1 dargestellt ist, werden aufeinanderfolgend
mehrere Informationssignale unter der Steuerung einer Steuereinrichtung 21 eingespeist,
um für
jedes der mehreren Informationssignale einen Merkmalsvektor zu bestimmen,
der von den Flächen-
bzw. Voluminainformationen abgeleitet ist. Damit kann eine Informationssignaldatenbank 22 aufgebaut
werden, deren Kernstück
ein Speicher 23 ist, in dem die Merkmalsvektoren (MM1,
MM2, MM3) der in die Einrichtung 20 eingespeisten Informationssignale
jeweils in Zuordnung zu bestimmten Identifikatoren (ID1, ID2, ID3) gespeichert
sind. Die Identifikatoren ID1, ID2, ID2 erlauben eine Identifikation
der Informationssignale, deren Merkmalsvektoren MM1, MM2, MM3 in
der Informationssignaldatenbank und insbesondere in dem Speicher 23 der
Informationssignaldatenbank abgelegt sind. Eine Informationssignaldatenbank
ist um so universeller, je mehr einzelne Informationssignale durch
die Vorrichtung 20 zum Charakterisieren verarbeitet worden
sind und in entsprechender Form, also mittels eines dieselben jeweils
charakterisierenden Merkmalsvektors, im Speicher vorhanden sind.
-
3 zeigt
eine erfindungsgemäße Vorrichtung
zum Identifizieren eines Test-Informationssignals anhand einer Informationssignaldatenbank 22, die
prinzipiell genauso aufgebaut sein kann, wie die anhand von 2 beschriebene Informationssignaldatenbank.
Hierzu wird in die Vorrichtung 20 zum Charakterisieren
ein Test-Informationssignal eingespeist, das zu identifizieren ist,
bzw. von dem eine Identifikation in Hinblick auf bestimmte Merkmale desselben
in qualitativer und/oder quantitativer Hinsicht erlangt werden soll.
Durch die Einrichtung 20 zum Charakterisieren wird aus
dem Test-Informationssignal ein Test-Merkmalsvektor ermittelt, der
das Test-Informationssignal charakterisiert. Mit diesem Test-Merkmalsvektor
wird dann eine Suche in der Informationssignal-Datenbank unter den
im Speicher 23 gespeicherten Merkmalsvektoren MM1, MM2, MM3
durchgeführt,
um am Ausgang der Informationssignal-Datenbank eine Aussage über das
Test-Informationssignal zu erhalten.
-
Die Aussage über das Test-Informationssignal,
die durch die in 3 gezeigte
Vorrichtung zum Identifizieren des Test-Informationssignals geliefert wird,
kann beispielsweise eine tatsächliche
Bestimmung des Autors oder Urhebers des Informationssignals sein.
Eine Aussage kann jedoch auch eine quantitative Aussage sein, dahingehend,
daß das
Test-Informationssignal
beispielsweise eine bestimmte Anzahl von Vokalen oder Konsonanten
enthält.
In diesem Fall wären
die Merkmalsvektoren MM1, MM2, MM3, die in der Informationssignal-Datenbank
gespeichert sind, Merkmalsvektoren einzelner Vokale oder Konsonanten.
Nachdem der Merkmalsvektor, der durch die Vorrichtung zum Charakterisieren 20 erzeugt
werden kann, ein quantitativer Merkmalsvektor ist, und nachdem in
diesem Fall die in der Informationssignal-Datenbank abgespeicherten
Merkmalsvektoren ebenfalls quantitative Merkmale sind, können auch
quantitative Aussagen über
das Test-Informationssignal
getroffen werden, nämlich
dahingehend, daß es
einen bestimmten Ähnlichkeitsgrad
zu einem Informationssignal hat, das anhand seines Merkmalsvektors
in der Informationssignal-Datenbank vorliegt.
-
5 zeigt
ein beispielhaftes Signalformdiagramm, das sich ergibt, wenn der
Vokal „o" bei einer Frequenz
von etwa 100 Hz durch den Erfinder gesprochen wird. Entlang der
Koordinate ist in 5 die
Amplitude normiert auf Werte zwischen – 1,0 und 1,0 aufgetragen.
Entlang der Abszisse ist in 5 die Zeit
in Sekunden aufgetragen. Es zeigt sich, daß der Vokal „o" ein stark repetitives
Signalmuster hat, das sehr ähnliche
Flächen-
bzw. Volumeninformationen-Sequenzen
aufweist. Im einzelnen ist zu sehen, daß sich die Sequenz von Flächeninformationen
V1, V2 periodisch wiederholt.
-
Durch Feststellen dieser Sequenz
V1, V2 in der zeitlichen Folge von Volumeninformationen wird erfindungsgemäß eine Segmentierung
durchgeführt, beispielsweise
bei dem lokalen Maximum, das die mit V2 bezeichneten Flächeninformationen
bestimmt und in 5 mit 50 bezeichnet
ist.
-
Alternativ könnte eine Segmentierung auch bei
einem lokalen Minimum, wie z.B. dem Maximum 50 lokalbenachbarten
Minimum oder dem wieder nach links benachbarten lokalen Maximum
vorgenommen werden, das das Tal identifiziert, das mit V1 bezeichnet
ist.
-
Anhand der 5 ist ferner zu sehen, daß die Flächeninformationen
V1 das gesamte linke Tal der Signalform umfassen. Das durch V1 identifizierte Tal
umfaßt
somit die Flächeninformationen
der beiden Täler
unterhalb der gestrichelten Linie 51 sowie die Flächeninformationen
zwischen der Linie 51 und der oberen Begrenzungslinie,
die durch ein lokales Maximum 52 definiert ist. Aus 5 ist ersichtlich, daß entweder
Sequenzen von einzelnen Flächeninformationen
von Tälern
oder Bergen verwendet werden können,
oder daß zur
Segmentierung auf der Basis von auftretenden Flächeninformationssequenzen auch „kombinierte" Täler/Berge
genommen werden können,
wie z.B. das durch V1 identifizierte Tal.
-
Bei einem weiteren bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung wird neben den Flächen/Volumeninformationen auch
die Höheninformation
berücksichtigt.
Dieses Konzept hat wiederum sein Analogon in der Geodäsie, wenn
nämlich nicht
nur die Wassermenge in einem Tal berücksichtigt wird, sondern die
potentielle Energie dieser Wassermengen in dem Tal. Damit ist eine
Hyperfeinstruktur des Signals angebbar, indem zusätzlich der
Energieterm der potentiellen Energie angegeben wird. Die poten tielle
Energie ist gleich dem Produkt aus Dichte, Volumen, Beschleunigung
und Höhe.
Ferner kann eine gewissermaßen
kompressionslose Flüssigkeit angenommen
werden. Darüber
hinaus werden die Dichte und die Beschleunigung konstant angenommen
und so eingestellt, daß sich
die Lageenergie eines „Wasserspeichers" aus dem integralen
Produkt aus eingeschlossenen Volumen und Höhe errechnet. Die Energie des
in dem mit V1 bezeichneten Tal in 5 kann
durch Zerlegen des Tals in kleine Rechtecke berechnet werden, wobei
die Fläche
jedes Rechtecks vor der Aufsummation mit der Höhe dieses Rechtecks, also der
Amplitude, die diesem Rechteck zugeordnet ist, multipliziert wird.
-
Damit werden höher gelegene Volumina stärker gewichtet,
während
Rauschen um die Nullinie weniger stark gewichtet wird. Die Gewichtung
höher gelegenen
Flächeninformationen
durch Miteinbeziehung der entsprechenden Höhe entspricht dem üblichen
Wesen von Musiksignalen, bei denen laute Signalanteile die Tendenz
besitzen, höher
informationstragend zu sein als leise Signalanteile.
-
Ein Signal mit stärkerer Amplitude trägt somit mehr
Informationen als ein Signal mit schwächerer Amplitude. Diesem Aspekt
wird durch die Gewichtung der Folge von Flächeninformationen mit entsprechenden
Höheninformationen,
um gewissermaßen
die potentielle Energie eines in einem Tal befindlichen Wassers
zu erhalten, Genüge
getan.
-
Im nachfolgenden wird ferner auf
ein bevorzugtes Ausführungsbeispiel
beispielsweise zum Berechnen der Fläche A1 von 4 eingegangen. Vorzugsweise wird die
Fläche
A1 derart berechnet, daß zumindest
die Fläche
des Rechtecks berechnet wird, das sich durch die obere Begrenzungslinie
42,
eine untere Begrenzungslinie, die durch das lokale Minimum 45b geht,
sowie die beiden in 4 eingezeichneten
gestrichelten Seitenlinien ergibt. Daraufhin wird eine normale Integration
des Signals vom lokalen Maximum 41b bis zum Punkt 44 durchgeführt, wobei
als Nullinie der Funktion die Linie genommen wird, die durch das
lokale Minimum 45b verläuft.
Die dadurch erhaltene Fläche
wird dann von der ursprünglich
berechneten Rechtecksfläche
subtrahiert, um schließlich
die Fläche
A1 des Tals zu erhalten, das durch das lokale Maximum 41b definiert
ist.
-
Es sei darauf hingewiesen, daß zur Berechnung
der Flächen
der Berge nicht eine erneute Integration über das Informationssignal
durchgeführt werden
muß, sondern
daß eine
einmalige Integration ausreichend ist, um dann anhand des Kurvenintegrals
und verschiedener Rechtecke sämtliche
Flächeninformationen
der Täler
bzw. Berge zusammenzustellen.
-
Wie es bereits ausgeführt worden
ist, ist der Vokal „o" in 5 etwa bei 100 Hz gesprochen worden.
Würde der
Vokal bei einer höheren
Frequenz gesprochen werden, so würde
sich ein zwar ähnliches
Zeitdiagramm ergeben, das jedoch hinsichtlich der Zeitachse gestaucht
ist. Würde
der Vokal dagegen mit einer niedrigeren Frequenz aus 100 Hz gesprochen
werden, so würde
sich ein prinzipiell zu 5 ähnliches
Zeitdiagramm ergeben, das jedoch um einen entsprechenden Faktor,
der von der Frequenzdifferenz abhängt, gedehnt ist.
-
Zur Frequenz-Amplitudennormierung
wird daher erfindungsgemäß ein bei
einer Normfrequenz, wie z.B. 100 Hz, gesprochener Vokal in der Informationssignaldatenbank 22 von 3 anhand seines Merkmalsvektors
und seiner Identifikation abgelegt. Ein Testsignal, von dem nicht
bekannt ist, bei wel cher Frequenz es gesprochen worden ist, wird
dann innerhalb der Informationssignaldatenbank hinsichtlich seines
Test-Merkmalsvektors
(3) einem Sweep über der
Frequenz unterzogen. Dies bedeutet, daß der Signalverlauf des Testsignals,
der Signalverlauf des in der Informationssignaldatenbank abgespeicherten
Signals oder beide Signale oder Merkmalsvektoren entsprechend gestaucht
bzw. gedehnt werden, um bei jedem Stauchungsfaktor z.B. anhand der Methode
der kleinsten Fehlerquadrate eine Übereinstimmung festzustellen.
Damit kann ermittelt werden, ob überhaupt
zu irgendeinem Zeitpunkt des Frequenz-Sweeps eine ausreichend gute Übereinstimmung
stattgefunden hat. Wird dies verneint, so umfaßt das Test-Informationssignal
beispielsweise keinen gesprochenen Vokal „o". Wird dagegen bei einer bestimmten
Einstellung im Frequenz-Sweep eine ausreichend gute Übereinstimmung
festgestellt, so kann davon ausgegangen werden, daß im Test-Informationssignal
ein gesprochener Vokal „o" vorliegt, und daß dieser
gesprochene Vokal bei einer bestimmten Frequenz gesprochen worden
ist.
-
Es sei darauf hingewiesen, daß sich durch die
Dehnung/Stauchung des Merkmalsvektors oder, wenn die Dehnung/Stauchung
vor der Extraktion des Merkmalsvektors durchgeführt wird, zwar die absoluten
Flächeninformationen
verändern.
Gleich bleiben jedoch die Relationen der Flächen/Volumeninformationen zueinander,
so daß eine
Dehnung/Stauchung an der Zeitachse keine Auswirkung auf Sequenzen von
Flächeninformationen
dahingehend hat, daß diese
nicht mehr identifiziert werden könnten.
-
Eine analoge Vorgehensweise wird
im Hinblick auf eine Amplitudennormierung erfindungsgemäß eingesetzt.
Wird der gesprochene Vokal „o" von 5 mit einer bestimmten mittle ren Lautstärke in der
Informationssignaldatenbank 22 von 3 abgespeichert, so kann eine Dehnung/Stauchung
(Verstärkung/Dämpfung)
entlang der Amplituden-Achse mit darauffolgender Fehlerquadratmethode
durchgeführt
werden, um erstens festzustellen, ob der Vokal überhaupt in einem Test-Informationssignal
vorhanden ist, und um zweitens festzustellen, mit welcher Lautstärke der
Vokal im Test-Informationssignal
aufgetreten ist. Bestimmte Suchstrategien zur einzelnen oder kombinierten
Veränderung,
d.h. Dehnung/Stauchung entlang der Zeitachse und der Amplitudenachse,
wird auf den Stand der Technik im Hinblick auf DNA-Sequencing-Konzepte
oder auf Methoden der kleinsten Fehlerquadrate verwiesen, um beispielsweise
die minimale Metrik bzw. den nächsten
Nachbar („Next
Neighbor") zu bestimmen.
-
Alternativ kann zur Frequenz/Amplituden-Kalibrierung
eine Informationssignaldatenbank 22 geschaffen werden,
bei der die einzelnen Merkmalsvektoren mit bestimmten Lautstärke/Frequenz-Einstellungen
eines Meßsystems
aufgezeichnet worden sind. Sofern ein Zugriff hierauf besteht, können dieselben
Einstellungen z.B. hinsichtlich der Lautstärke, von dem Test-Informationssignal
gefordert werden. Hierauf kann eine Kennlinie abgeleitet werden,
um Flächen/Volumeninformationen
eines beispielsweise bei 140 Hz gesprochenen Vokals „o" in Flächen/Volumeninformationen
bei der vorbestimmten Aufnahmeeinstellung, wie z.B. einer Frequenz
von 100 Hz, umzurechnen bzw. abzubilden.
-
Schließlich wird darauf hingewiesen,
daß stark
signifikante Merkmale eines Audiosignals als Beispiel für ein Informationssignal
in großen
Volumen/Flächeninformationen
liegen. Solche großen Volumen/Flächeninformationen
ergeben sich durch Summation der Flächeninformationen AB1, AB2,
B0 von 4. Das gesamte
Tal, das durch AB2, AB1, B0 definiert ist, erhält seine Höhenbegrenzung 49 aufgrund
des lokalen Maximums 41c. Durch Aufaddition der Täler, die
durch lokale Maxima mit kleinerer Amplitude definiert sind, wie
z.B. des lokalen Maximums 41d, wird die gesamte Fläche des
durch die Begrenzungslinie 49 nach oben begrenzten Tals
erhalten. Entsprechend wird für
die Täler
des invertierten Signals, d.h. die Berge des nicht-invertierten
Signals vorgegangen. Der Berg, der insgesamt das erste Segment A
identifiziert, ergibt sich aus den Flächeninformationen A210', A0', A21', A1', A2'. Durch Ermitteln der
Flächeninformationen
eines gesamten Bergs oder eines gesamten Tals kann erfindungsgemäß eine Segmentierung
mit verläßlichen
Ergebnissen durchgeführt
werden, da solche großen
Flächeninformationen
für Berge
oder Täler
für die
Grobstruktur, d.h. für
die repetitive Struktur des Informationssignals, charakteristisch
sind.
-
Als weiteres Merkmal oder Feature
wird es bevorzugt, die Flächen/Volumeninformationen
einer einzelnen Sequenz V1, V2 von 5 zu
addieren, um eine Gesamtfläche
der Sequenz zu erhalten, mit der eine Suche in einer Datenbank unternommen werden
kann, in der Gesamtflächen
von bekannten Sequenzen gespeichert sind. Das Feature der Gesamtfläche ist
zwar für
ein Signal weniger charakteristisch, ist dafür jedoch stärker komprimiert, so daß eine kleinere
Musikdatenbank und eine schnellere Suche möglich sind. Dieses Feature
ist dann ausreichend, wenn es noch ausreichend charakteristisch ist.
An diesem Beispiel zeigt sich die einfach erreichbare Skalierbarkeit
zwischen dem Merkmale der Charakterisierung und dem Speicherplatzmerkmal des
erfindungsgemäßen Konzepts.
-
Alternativ oder zusätzlich zu
der Gesamtfläche
könnte
auch die Gesamtenergie einer Sequenz V1, V2 von 5 eingesetzt werden. Für das Energiefeature
gelten die vorstehenden Ausführungen ebenso.
-
Die erfindungsgemäßen Verfahren zum Charakterisieren,
zum Aufbauen einer Informationssignal-Datenbank oder zum Iden tifizieren
eines Test-Informationssignal anhand einer Informationssignal-Datenbank
können
je nach vorliegendem Bedarf in Hardware oder in Software implementiert
werden. Die Implementation kann auf einem digitalen Speichermedium,
insbesondere einer Diskette oder CD mit elektronisch auslesbaren
Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem
zusammenwirken können,
daß das
entsprechende Verfahren ausgeführt
wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt
mit auf einem maschinenlesbaren Träger gespeicherten Programmcode
zur Durchführung
eines oder mehrerer der erfindungsgemäßen Verfahren, wenn das Computer-Programm-Produkt auf
einem Rechner abläuft.
In anderen Worten ausgedrückt
ist die Erfindung somit ein Computer-Programm mit einem Programmcode
zur Durchführung des
Verfahrens, wenn das Computer-Programm auf einem Computer abläuft.