DE69725172T2 - Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch - Google Patents

Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch Download PDF

Info

Publication number
DE69725172T2
DE69725172T2 DE69725172T DE69725172T DE69725172T2 DE 69725172 T2 DE69725172 T2 DE 69725172T2 DE 69725172 T DE69725172 T DE 69725172T DE 69725172 T DE69725172 T DE 69725172T DE 69725172 T2 DE69725172 T2 DE 69725172T2
Authority
DE
Germany
Prior art keywords
feature
normalized
values
frequency bands
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69725172T
Other languages
English (en)
Other versions
DE69725172D1 (de
Inventor
B. Adam FINEBERG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of DE69725172D1 publication Critical patent/DE69725172D1/de
Application granted granted Critical
Publication of DE69725172T2 publication Critical patent/DE69725172T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf Geräuscherkennung und im Besonderen auf Geräuscherkennung in einer Umgebung mit hohem oder variablem Rauschen.
  • Hintergrund der Erfindung
  • Die fortschreitende Technologie bewegt sich stetig in Richtung auf eine Kommerzialisierung von Geräuscherkennung durch elektronische Vorrichtungen, wie z. B. Spracherkenner. Im Allgemeinen gibt es zwei Typen von Spracherkennern. Ein Typ führt bestimmte Operationen aus, wenn der Anwender kurze Befehle gibt. Ein anderer Typ akzeptiert diktierte Sprache und gibt die Sprache als Text ein.
  • Die meisten Spracherkenner müssen durch den Anwender trainiert werden, bevor sie durch den Anwender gesprochene Wörter oder Phrasen erkennen können. Diese werden „spre cherabhängige" Spracherkenner genannt, was bedeutet, dass der Spracherkenner durch die Stimme des Anwenders trainiert werden muss, bevor der Erkenner Anwenderwörter und -befehle interpretieren kann. Das Trainieren eines Spracherkenners erfordert, dass ein Anwender bestimmte Wörter oder Phrasen in den Erkenner spricht, üblicherweise viele Male, so dass der Spracherkenner das Sprachmuster des Anwenders erkennt. Später, wenn der Anwender den Spracherkenner verwendet, vergleicht der Spracherkenner das eingegebene Stimmensignal mit verschiedenen gespeicherten Sprachschablonen, um eine Schablone zu finden, die dem eingegebenen Stimmensignal am meisten gleicht. Dieses Verfahren wird „Musteranpassung" genannt.
  • Ein Anwender „trainiert" einen Spracherkenner im Allgemeinen in einer Umgebung, die ein relativ niedriges störendes Rauschen hat. Anschließend müssen die meisten Spracherkenner in Umgebungen mit niedrigem störenden Rauschen verwendet werden. Anderenfalls ist der Spracherkenner nicht in der Lage, gesprochene Wörter vom Hintergrundrauschen zu trennen. Da, wo Spracherkenner in einer Umgebung mit niedrigem Rauschen verwendet werden, wird eine ziemlich hohe Erkennungsrate erreicht. Wenn der Spracherkenner an einem Standort trainiert wird, der ein moderates, konstantes Hintergrundrauschen hat, und anschließend in einer Umgebung verwendet wird, die das selbe moderate, konstante Hintergrundrauschen hat, wird eine hohe Erkennungsrate erreicht. Wenn diese Spracherkenner jedoch in Umgebungen mit hohem Rauschen mit negativem Signal-Rausch-Verhältnis und Umgebungen, wo das vorhandene Rauschen von dem Hintergrundrauschen, das in der Trainingssitzung vorhanden ist, verschie den ist, verwendet wird, fällt die Erkennungsrate auf sehr niedrige, unbrauchbare Genauigkeitspegel.
  • Um das Problem des Hintergrundrauschens zu korrigieren, versuchen konventionelle Spracherkenner die Merkmale des umgebenden Rauschens einzuschätzen und bestimmen dann die Auswirkungen auf die Stimme des Anwenders. Verschiedene Techniken sind eingearbeitet, um statistische oder parametrische Modelle des Rauschens zu erzeugen, die von dem Geräuschsignal subtrahiert werden. In Umgebungen mit hohem und variablem Rauschen sind diese Modelle sehr ungenau.
  • Die DE-A-43 17 372 offenbart ein Verfahren zum Berechnen von Merkmalswerten eines akustischen Signals über eine Vielzahl von Frequenzbändern, einschließlich dem Bestimmen von minimalen und maximalen Merkmalswerten, um normalisierte Merkmalswerte zu bestimmen und zum Vergleichen des normalisierten Merkmalswertes mit Merkmalsvektorschablonen. Sie offenbart nicht das Ableiten von gewichteten minimalen und maximalen Merkmalswerten durch Verwenden einer Gewichtungsfunktion.
  • Zusammenfassung der Erfindung
  • In einem ersten Aspekt stellt die vorliegende Erfindung ein Verfahren gemäß Anspruch 1 zur Verfügung. In einem weiteren Aspekt stellt die vorliegende Erfindung einen Geräuscherkenner gemäß Anspruch 9 zur Verfügung.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines Stimmerkenners gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • 2 zeigt ein Flussdiagramm einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • 3 zeigt ein Flussdiagramm eines Verfahrens, das verwendet wird, um Merkmalswerte gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung zu berechnen.
  • 4 ist eine Darstellung eines Leistungsspektrums einer Geräuschsignalprobe mit darauf angelegten Frequenzfiltern gemäß der vorliegenden Erfindung.
  • 5 zeigt eine Matrix von Merkmalen der Geräuschsignalprobe gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • 6 zeigt eine Matrix von normalisierten Merkmalen für die Merkmale von 3 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung.
  • Beschreibung einer bevorzugten Ausführungsform
  • Eine bevorzugte Ausführungsform der vorliegenden Erfindung wird in einer widerstandsfähigen Stimmerkennung für Geräuscherkenner verwendet. Die bevorzugte Ausführungsform ist zur Verwendung in Zellulartelefonen in Automobilen gut geeignet, wo ein Anwender beide Hände am Lenkrad belassen kann, mit dem Blick auf die Straße, und doch ein Telefongespräch führen kann, sogar bei heruntergelassenen Fenstern und lautgestelltem Stereosystem. Anders als konventionelle Spracherkenner, die eine unbrauchbare, schlechte Genauig keitsrate unter hohen und/oder variablen Rauschbedingungen haben, sind Geräuscherkenner, die gemäß der bevorzugten Ausführungsform der vorliegenden Erfindung konstruiert sind, widerstandsfähig und können in Umgebungen, die variables Rauschen und Rauschpegel haben, die größer sind als die Lautstärke der Sprache des Anwenders, eine sehr hohe Genauigkeitsrate erreichen.
  • Die vorliegende Erfindung wird im Folgenden in Verbindung mit den Zeichnungen beschrieben. Im Besonderen wird die bevorzugte Ausführungsform mit Bezug auf 1 in Kombination mit den anderen Abbildungen beschrieben.
  • Die vorliegende Erfindung kann auf die Erkennung eines beliebigen akustischen Geräusches angewendet werden. Das akustische Geräusch kann z. B. Sprache, Grunzgeräusche, Geräusche, die von Tieren gemacht werden, Geräusche, die durch Instrumente, einschließlich Schlaginstrumente, gemacht werden oder ein beliebiger anderer Typ von Geräusch sein. Am häufigsten bezieht sich die vorliegende Erfindung auf das Erkennen von Sprache.
  • 1 zeigt einen Geräuscherkenner 100 gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung. In der bevorzugten Ausführungsform wird ein akustisches Signal in einem Analog-Digital-Wandler (ADC) 105 des Geräuscherkenners 100 eingegeben, wo das Signal in ein digitales Signal umgewandelt und bei einer Rate von 16 KHz abgetastet wird. Wenn angemessen, können andere Abtastraten verwendet werden, wie z. B. 8 KHz.
  • Die abgetasteten digitalen Signale werden in die Merkmalsvektorvorrichtung 110 eingegeben, die die abgetasteten digitalen Signale in Analyserahmen teilt. Jeder Analyserahmen kann so gewählt werden, dass er entweder eine feste Zeitbreite (wie z. B. 20 ms) oder eine variierte Zeitbreite hat, in Abhängigkeit von Signalmerkmalen wie z. B. Tonhöhe- bzw. Tonstärkeperioden ("pitch periods") oder anderen bestimmenden Faktoren. Der Startpunkt eines jeden Rahmens kann so gewählt werden, dass er entweder vor, an oder nach dem Endpunkt des vorherigen Rahmens liegt. In der bevorzugten Ausführungsform werden die Analyserahmen so gewählt, dass sie eine feste Zeitbreite haben, und jeder Analyserahmen beginnt an dem Endpunkt des vorherigen Analyserahmens.
  • Für jeden der Analyserahmen berechnet die Merkmalsvektorvorrichtung 110 einen Merkmalsvektor (210 des Flussdiagramms von 2). Für jede beliebige Anzahl von Analyserahmen erzeugt die Merkmalsvektorvorrichtung 110 eine gleiche Anzahl von Merkmalsvektoren. Ein Merkmalsvektor ist eine Reihe von Werten oder eine Vielzahl von Merkmalswerten, die von der Geräuschsignalprobe in einem gegebenen Analyserahmen abgeleitet werden. Diese Merkmalswerte stellen die in der Geräuschsignalprobe enthaltene Information dar.
  • Es gibt viele dem Fachmann bekannte Techniken zur Spracherkennung, die verwendet werden können, um Merkmalsvektoren zu bestimmen. Die Techniken umfassen lineare Prädiktionskodierungskoeffizienten (LPC-Koeffizienten), Cepstral-Koeffizienten, Log-Area-Verhältnisse, und Mel-Scale-Filterbank-Koeffizienten. Die bevorzugte Ausführungsform der vorliegenden Erfindung verwendet das Mel-Scale-Filterbankkoeffizienten-Verfahren, obwohl die vorliegende Erfindung mit anderen Merkmalsvektortechniken arbeitet, wie z. B. den oben aufgelisteten.
  • Mel-Scale-Filterbank-Koeffizienten werden folgendermaßen mit Bezug auf das Flussdiagramm von 3 berechnet.
    • 1. Die Geräuschsignalproben für einen Analyserahmen werden durch ein vorverzerrendes Hochfrequenzfilter geleitet, um das Spektrum der Geräuschsignalproben weiß zu machen (310 des Flussdiagramms von 3). Dies erhöht die relative Energie in den Hochfrequenzkomponenten im Vergleich zu der Energie der Niederfrequenzkomponenten. Man erhält Vorteile, wenn die bevorzugte Ausführungsform der vorliegenden Erfindung mit Sprachsignalen verwendet wird, weil Niederfrequenzkomponenten von Sprache eine relative Energie haben, die größer ist als die der Hochfrequenzkomponenten und weil die zwei Komponenten in dem vorverzerrenden Filter neu abgeglichen werden. In der bevorzugten Ausführungsform wird das Filtern gemäß der folgenden Gleichung erreicht: pi(k) = si(k) – si(k – 1) wo si(k) die Geräuschsignalprobe an der Position k in dem Analyserahmen „i" ist, si(k – 1) die Geräuschsignalprobe in dem Analyserahmen „i" an der vorherigen Position in der Zeit „k – 1" ist und pi(k) die vorverzerrte Geräuschsignalprobe an der Position „k" in dem Analyserahmen „i" ist. Dem Fachmann auf dem Gebiet der Spracherkennung ist klar, dass andere vorverzerrende Filter verwendet werden können.
    • 2. Die vorverzerrten Geräuschsignalproben für jeden Analyserahmen werden durch eine Reihe von Filtern, die verschiedene Frequenzbänder abdecken, bandpassgefiltert. Die Filter können auf jede beliebige numerische Art angewendet werden, die entweder in der Zeit domäne oder der Frequenzdomäne erforderlich ist. In der bevorzugten Ausführungsform werden die Filter in der Frequenzdomäne angewendet. Zuerst muss jedoch ein Leistungsspektrum der vorverzerrten Geräuschsignalprobe in dem Analyserahmen berechnet werden (320 von 3). Das Leistungsspektrum erhält man durch:
    • a. Die vorverzerrten Geräuschsignalproben in dem Analyserahmen werden mit den Proben einer Fensterfunktion oder Gewichtungsfunktion multipliziert. Jede beliebige Fensterfunktion kann angewendet werden. Zum Zwecke des Erklärens der vorliegenden. Erfindung gehen wir von einem einfachen rechteckigen Fenster aus (das Fenster hat einen Wert von 1.0 für alle Proben).
    • b. Die Fourier-Transformation der vorverzerrten Geräuschsignalproben in jedem gefensterten Analyserahmen wird berechnet.
    • c. Werte für das Leistungsspektrum werden durch Quadrieren der Fourier-Transformationswerte erhalten.
  • Nachdem die Werte für das Leistungsspektrum bestimmt sind, werden die Bandpassfilter in der Frequenzdomäne durch einen Filtergewichtungswert für jeden der Leistungsspektrumswerte angewendet (330 von 3). Obwohl viele Filtergewichtungsfunktionen in den Bandpassfiltern verwendet werden können, enthält die bevorzugte Ausführungsform ein Raised-Cosine-Gewichtungsprofil, das man in 4 sehen kann.
  • 4 zeigt ein Leistungsspektrum 400, das ein darauf aufgezwungenes Raised-Cosine-Profil 410 hat. Die Frequenzbänder für jedes Bandpassfilter, oder Raised-Cosine-Profil 410, werden in der bevorzugten Ausführungsform der vorlie genden Erfindung entlang der Frequenzachse gemäß einer Mel- oder Barkskala angeordnet, die der Frequenzantwort des menschlichen Ohres in etwa entspricht. Die Frequenzbänder für die Bandpassfilter (die Raised-Cosine-Profile 410) sind von 0 bis 1 KHz mit ungefähr linearen Abständen und oberhalb von 1 KHz mit logarithmischen Abständen angeordnet. Es können auch andere als die für die bevorzugte Ausführungsform definierten Filterabstände verwendet werden. Wie in 4 für die bevorzugte Ausführungsform zu sehen, überlappen sich die Bandpassfilter, oder Raised-Cosine-Profile 410. Die Ausgaben der Bandpassfilter oder Raised-Cosine-Profile 410, werden berechnet gemäß: fij = ΣPi(ω)Bj(ω) wo Pi(ω) der Leistungsspektrumswert für den Analyserahmen „i" bei der Frequenz ω ist, Bj(ω) die Bandpassfiltergewichtungsfunktion oder Frequenzantwort für den Filter „j" bei der Frequenz ω ist, Σ die Additionsoperation über alle Frequenzen ω darstellt und fij die Bandpassfilterausgabe für den Analyserahmen „i" und das Bandpassfilter „j" ist.
  • Nachdem alle die Bandpassfilterausgaben für jeden Analyserahmen „i" (0 ≤ i ≤ n) und jedes Bandpassfilter „j" (0 ≤ j ≤ m) berechnet worden sind, berechnet die Merkmalsvektorvorrichtung 110 die Merkmalswerte „vij" der Geräuschsignalprobe durch Logarithmieren eines jeden Bandpassfilters fij (340 von 3). Das Ergebnis kann als eine Matrix gezeigt werden, wie z. B. die in 5 dargestellte Matrix, die mit „i" Analyserahmen und „j" Bandpassfiltern struktu riert ist, die eine Dimension von n × m hat. Alle die Merkmalswerte in einem Analyserahmen, vi1 bis vim, bilden einen einzelnen Merkmalsvektor (wie in v11 bis v1j, Punkt 510), und alle Analyserahmen, 0 ≤ i ≤ n, bilden eine Vielzahl von Merkmalsvektoren für die Geräuschsignalprobe.
  • Wenn die Vielzahl von Merkmalsvektoren für die Analyserahmen „i" = 1 bis „n" einmal berechnet worden sind, überprüft eine Min/Max-Vorrichtung 120 (1), die mit der Merkmalsvektorvorrichtung 110 gekoppelt oder in ihr enthalten ist, alle Merkmalswerte in einem Frequenzband für das Bandpassfilter „j" und findet den minimalen (minj) Merkmalswert und den maximalen (maxj) Merkmalswert für das Frequenzband „j" für alle Analyserahmen, 0 ≤ i ≤ n (220 von 2). Diese Minimal- und Maximalwerte werden verwendet, um die normalisierten Merkmalswerte „v⊇" zu bestimmen.
  • Der Normalisierer 130 von 1 ist mit der Min/Max-Vorrichtung 120 und der Merkmalsvektorvorrichtung 110 gekoppelt. Der Normalisierer 130 normalisiert jeden der Merkmalswerte über ein Frequenzband oder Bandpassfilter, „j", mit den gewichteten minimalen und maximalen Merkmalswerten für dieses Bandpassfilter, um die normalisierten Merkmalswerte „v⊇" zu bestimmen (230 von 2).
  • Die Min/Max-Vorrichtung 120 findet einen gewichteten minimalen (ωminj) Merkmalswert und einen gewichteten maximalen (ωmaxj) Merkmalswert für das Frequenzband „j" für alle Analyserahmen, 0 ≤ i ≤ n (220 von 2). Diese gewichteten Minimal- und Maximalwerte werden wie folgt berechnet:
    Figure 00100001
    Figure 00110001
    wo r üblicherweise ein kleiner Wert wie z. B. 2 oder 3 ist, das Gewicht [k] typischerweise eine Gewichtungsfunktion ist, wo der Mittelpunkt, Gewicht [0], einen Wert hat, der größer oder gleich dem Wert aller anderen Gewichtungswerte ist, und
    Figure 00110002
  • Diese gewichteten Minimal- und gewichteten Maximalwerte werden verwendet, um die normalisierten Merkmalswerte „v⊇" zu bestimmen. In dieser Ausführungsform ist die Normalisierungsgleichung: v⊇ij = (vij – ωminj)/(ωmaxj – ωminj) wo v⊇ij einer der normalisierten Merkmalswerte ist, vij einer der Merkmalswerte ist, ωminj der gewichtete minimale Merkmalswert für das „j-te" Frequenzband ist und ωmaxj der gewichtete maximale Merkmalswert für das „j-te" Frequenzband ist.
  • Das Resultat des Normalisierungsprozesses kann als eine Matrix gezeigt werden, wie in 6 dargestellt. Jeder der Analyserahmen „i" von 6 stellt einen normalisierten Merkmalsvektor (610) dar.
  • Der Komparator 140 von 1 ist mit dem Normalisierer 130 gekoppelt und vergleicht die normalisierten Merkmalsvektoren mit Merkmalsvektorschablonen, um zu bestimmen, welche der Merkmalsvektorschablonen den normalisierten Merkmalsvektoren am meisten ähneln. Sätze von Merkmalsvektorschablonen, die Phrasen oder Befehle darstellen, werden in der Merkmalsvektorschablonenbibliothek 150 gespeichert. Der Komparator 140 vergleicht der Reihe nach die normalisierten Merkmalsvektoren von dem Normalisierer 130 mit jedem der Merkmalsvektorschablonen in der Merkmalsvektorschablonenbibliothek 150 (240 von 2) und bestimmt, welcher Satz von den Merkmalsvektorschablonen [den normalisierten Merkmalsvektoren am meisten ähnelt. Dies wird] durch Berechnen eines Abstandsmaßes zwischen den normalisierten Merkmalsvektoren und jedem der Sätze von Merkmalsvektorschablonen [durchgeführt]. (Anmerkung des Übersetzers: Die eckig geklammerten Textbestandteile fehlen im "Druckexemplar".) Der Satz von Merkmalsvektorschablonen, der das minimale Abstandsmaß hat, wird als derjenige bestimmt, der den normalisierten Merkmalsvektoren am meisten ähnelt. Der Komparator 140 von 1 gibt als eine am besten passende Anpassung den Satz von Merkmalsvektorschablonen aus der Merkmalsvektorschablonenbibliothek 150 aus, der den normalisierten Merkmalsvektoren (250 von 2) am meisten ähnelt (der das minimale Abstandsmaß hat).
  • Es gibt mehrere gut bekannte Verfahren, durch die die Vielzahl von normalisierten Merkmalsvektoren mit den Merkmalsvektorschablonen verglichen werden können, um eine am besten passende Anpassung zu finden. Studien, die die be vorzugte Ausführungsform der vorliegenden Erfindung verwenden, zeigen, dass das Vergleichen der Vielzahl von normalisierten Merkmalsvektoren mit den Merkmalsvektorschablonen in einem dynamischen Zeitverwerfungsprozess die besten Resultate erzielt.
  • Wie zuvor erwähnt, ist die vorliegende Erfindung, wenn sie in einem sprecherabhängigen Geräuscherkennungssystem mit kleinem Vokabular verwendet wird, sehr widerstandsfähig und erhöht die Erkennungsgenauigkeit in Umgebungen mit hohem und variablem Rauschen von unbrauchbaren Genauigkeitsraten auf sehr hohe Genauigkeitsraten.
  • Es sei darauf hingewiesen, dass die vorliegende Erfindung in vielen verschiedenen Geräuscherkennungssystemen verwendet werden kann. Alle solche unterschiedlichen Verwendungen werden durch die vorliegende Erfindung berücksichtigt.

Claims (11)

  1. Verfahren, das die folgenden Schritte umfasst: Berechnen von Merkmalswerten für eine Anzahl von Analyserahmen eines akustischen Signals, wobei die Merkmalswerte über eine Vielzahl von Frequenzbändern berechnet werden; für jedes aus der Vielzahl von Frequenzbändern, Bestimmen in einer logarithmischen Domäne, welcher der Merkmalswerte in einem entsprechenden der Vielzahl von Frequenzbändern ein minimaler Merkmalswert über die Zeit ist und welcher der Merkmalswerte in dem entsprechenden der Vielzahl von Frequenzbändern ein maximaler Merkmalswert über die Zeit ist; gekennzeichnet durch Gewichten der minimalen Merkmalswerte und der maximalen Merkmalswerte, um gewichtete minimale Merkmalswerte und gewichtete maximale Merkmalswerte zu erhalten; in jedem Frequenzband, Vergleichen jedes der Merkmalswerte mit dem gewichteten minimalen Merkmalswert und dem gewichteten maximalen Merkmalswert des entsprechenden Frequenzbandes, um normalisierte Merkmalswerte zu erhalten, die in jedem der Frequenzbänder über die Zeit normalisiert sind, wobei alle die normalisierten Merkmalswerte für eine gegebene Anzahl von Analyserahmen einen aus einer Vielzahl von normalisierten Merkmalsvektoren definieren; Vergleichen der Vielzahl von normalisierten Merkmalsvektoren mit Sätzen von Merkmalsvektorschablonen, um Merkmalsvektorschablonen zu bestimmen, die der Vielzahl von normalisierten Merkmalsvektoren am meisten ähneln; und Ausgeben der Merkmalsvektorschablonen, die der Vielzahl von normalisierten Merksmalvektoren am meisten ähneln.
  2. Verfahren gemäß Anspruch 1, bei dem der Schritt des Berechnens der Merkmalswerte umfasst: Teilen eines Leistungsspektrums eines akustischen Geräuschsignals in die Vielzahl von Frequenzbändern; Gewichten des Leistungsspektrums in jedem aus einer Vielzahl von Frequenzbändern gemäß einer Gewichtungsfunktion, um Filterausgaben zu erreichen; und Berechnen der Merkmalswerte aus den Filterausgaben.
  3. Verfahren gemäß Anspruch 2, bei dem das Leistungsspektrum in einer Frequenzdomäne gemäß einem Raised-Cosine-Profil gewichtet wird.
  4. Verfahren gemäß Anspruch 3, bei dem das Raised-Cosine-Profil die Filterausgaben gemäß einer Gleichung berechnet: fij = SPi(w)Bj(w) wo fij eine der Filterausgaben an einem Analyserahmen „i" aus einer Anzahl von Analyserahmen und einem Frequenzband „j" aus einer Vielzahl von Frequenzbändern ist, Pi(w) ein Leistungsspektrumswert für den Analyserahmen „i" bei der Frequenz w ist, Bj(w) eine Bandpassfiltergewichtungsfunktion, oder Frequenzantwort, für das Frequenzband „j" bei der Frequenz w ist und S eine Additionsoperation über alle Frequenzen w darstellt.
  5. Verfahren gemäß Anspruch 1, bei dem der Schritt des Vergleichens der normalisierten Merkmalsvektoren mit Sätzen von Merkmalsvektorschablonen, um die Merkmalsvektorschablonen zu bestimmen, die den normalisierten Merkmalsvektor am meisten ähneln, ein Vergleichen der normalisierten Merkmalsvektoren mit dem Satz von Merkmalsvektorschablonen in einem dynamischen Zeitverwerfungsprozess umfasst.
  6. Verfahren gemäß Anspruch 2, bei dem der Schritt des Berechnens der Merkmalswerte aus den Filterausgaben das Logarithmieren jeder Filterausgabe umfasst.
  7. Verfahren gemäß Anspruch 2, bei dem das Leistungsspektrum in eine Vielzahl von Frequenzbändern gemäß einer Mel- oder Bark-Skala geteilt wird, um einer Frequenzantwort eines menschlichen Ohres in etwa zu entsprechen.
  8. Verfahren gemäß Anspruch 1, bei dem jeder der normalisierten Merkmalsvektoren gemäß einer Gleichung gefunden wird: v~ij = (vij – ωminj)/(ωmaxj – ωminj) wo v~ij eines der normalisierten Merkmale eines Analyserahmens „i" aus der Anzahl von Analyserahmen und eines Frequenzbandes „j" aus der Vielzahl von Frequenzbändern ist; vij einer der Merkmalswerte an dem Analyserahmen „i" und dem Frequenzband „j" ist; ωminj der gewichtete minimale Merkmalswert für das „j"-Frequenzband ist; und ωmaxj der gewichtete maximale Merkmalswert für das „j"-Frequenzband ist.
  9. Geräuscherkenner, der folgendes umfasst: eine Merkmalsvektorvorrichtung, die Merkmalswerte für eine Anzahl von Analyserahmen einer akustischen Signaleingabe in den Geräuscherkenner berechnet, wobei die Merkmalswerte für eine Vielzahl von Frequenzbändern berechnet werden; eine Min/Max-Vorrichtung, die mit der Merkmalsvektorvorrichtung gekoppelt ist, um in einer logarithmischen Domäne zu bestimmen, welcher der Merkmalswerte in einem entsprechenden aus der Vielzahl von Frequenzbändern ein minimaler Merkmalswert über die Zeit und welcher der Merkmalswerte in dem entsprechenden aus der Vielzahl von Frequenzbändern ein maximaler Merkmalswert über die Zeit für jedes aus der Vielzahl von Frequenzbändern über die gesamte Anzahl von Analyserahmen ist; dadurch gekennzeichnet, dass die Min/Max-Vorrichtung die minimalen Merkmalswerte und die maximalen Merkmalswerte gewichtet, um gewichtete minimale Merkmalswerte und gewichtete maximale Merkmalswerte zu erhalten; einen mit der Min/Max-Vorrichtung gekoppelten Normalisierer, der in jedem aus der Vielzahl von Frequenzbändern jeden der Merkmalswerte mit dem gewichteten minimalen Merk malswert und dem gewichteten maximalen Merkmalswert des entsprechenden aus der Vielzahl von Frequenzbändern vergleicht, um normalisierte Merkmalswerte, normalisiert über die Zeit in jedem der Frequenzbänder, zu erhalten, bei dem alle von den normalisierten Merkmalswerten für einen bestimmten der Analyserahmen einen aus einer Vielzahl von normalisierten Merkmalsvektoren bestimmen, und einen mit dem Normalisierer gekoppelten Komparator, der die Vielzahl von normalisierten Merkmalsvektoren mit Sätzen von Merkmalsvektorschablonen vergleicht, um Merkmalsvektorschablonen zu bestimmen, die der Vielzahl von normalisierten Merkmalsvektoren am meisten ähneln, wobei der Komparator die Merkmalsvektorschablonen ausgibt, die der Vielzahl von normalisierten Merkmalsvektoren am meisten ähneln.
  10. Geräuscherkenner gemäß Anspruch 9, bei dem der Normalisierer jeden aus der Vielzahl der normalisierten Merkmalsvektoren gemäß der folgenden Gleichung berechnet: v~ij = (vij – ωminj)/(ωmaxj – ωminj) wo v~ij einer der normalisierten Merkmalswerte eines Analyserahmens „i" aus der Anzahl von Analyserahmen und eines Frequenzbandes „j" aus der Vielzahl von Frequenzbändern ist; vij einer von den Merkmalswerten an dem Analyserahmen „i" und dem Frequenzband „j" ist; ωminj der gewichtete minimale Merkmalswert für das „j"-Frequenzband ist; und ωmaxj der gewichtete maximale Merkmalswert für das „j"-Frequenzband ist.
  11. Geräuscherkenner gemäß Anspruch 9, bei dem der Komparator mit einer Merkmalsvektorschablonenbibliothek gekoppelt ist, wobei die Merkmalsvektorschablonenbibliothek die Sätze von Merkmalsvektorschablonen enthält.
DE69725172T 1996-03-08 1997-03-06 Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch Expired - Fee Related DE69725172T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US61326996A 1996-03-08 1996-03-08
US613269 1996-03-08
PCT/US1997/004350 WO1997033273A1 (en) 1996-03-08 1997-03-06 Method and recognizer for recognizing a sampled sound signal in noise

Publications (2)

Publication Number Publication Date
DE69725172D1 DE69725172D1 (de) 2003-10-30
DE69725172T2 true DE69725172T2 (de) 2004-04-08

Family

ID=24456589

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69725172T Expired - Fee Related DE69725172T2 (de) 1996-03-08 1997-03-06 Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch

Country Status (9)

Country Link
US (1) US5842162A (de)
EP (1) EP0950239B1 (de)
AT (1) ATE250801T1 (de)
AU (1) AU702852B2 (de)
CA (1) CA2247364C (de)
DE (1) DE69725172T2 (de)
ES (1) ES2208887T3 (de)
IL (1) IL125649A (de)
WO (1) WO1997033273A1 (de)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8094949B1 (en) 1994-10-21 2012-01-10 Digimarc Corporation Music methods and systems
US6560349B1 (en) 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
US6760463B2 (en) 1995-05-08 2004-07-06 Digimarc Corporation Watermarking methods and media
US7805500B2 (en) 1995-05-08 2010-09-28 Digimarc Corporation Network linking methods and apparatus
US7224819B2 (en) 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
US6411725B1 (en) 1995-07-27 2002-06-25 Digimarc Corporation Watermark enabled video objects
US7711564B2 (en) 1995-07-27 2010-05-04 Digimarc Corporation Connected audio and other media objects
US6505160B1 (en) 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US7562392B1 (en) 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6829368B2 (en) 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
SE516798C2 (sv) * 1996-07-03 2002-03-05 Thomas Lagoe Anordning och sätt för analys och filtrering av ljud
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
US7689532B1 (en) 2000-07-20 2010-03-30 Digimarc Corporation Using embedded data with file sharing
IL125940A (en) * 1998-08-26 2002-05-23 Bar Shalom Avshalom An instrument, method and system for automatically detecting samples of sounds played by animals
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
AT407097B (de) * 1998-09-25 2000-12-27 Schauer Herbert Mag Vorrichtung zur überwachung und gegebenenfalls betreuung von nutztieren
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6466906B2 (en) * 1999-01-06 2002-10-15 Dspc Technologies Ltd. Noise padding and normalization in dynamic time warping
US7302574B2 (en) 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US7565294B2 (en) 1999-05-19 2009-07-21 Digimarc Corporation Methods and systems employing digital content
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6816085B1 (en) 2000-01-14 2004-11-09 Michael N. Haynes Method for managing a parking lot
US7123166B1 (en) 2000-11-17 2006-10-17 Haynes Michael N Method for managing a parking lot
US8121843B2 (en) 2000-05-02 2012-02-21 Digimarc Corporation Fingerprint methods and systems for media signals
US7853664B1 (en) 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US20020072982A1 (en) * 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
WO2002051063A1 (en) 2000-12-21 2002-06-27 Digimarc Corporation Methods, apparatus and programs for generating and utilizing content signatures
JP2002215192A (ja) * 2001-01-17 2002-07-31 Nec Corp オーディオ情報処理装置及び処理方法
US7359889B2 (en) 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US7248715B2 (en) 2001-04-06 2007-07-24 Digimarc Corporation Digitally watermarking physical media
US7046819B2 (en) 2001-04-25 2006-05-16 Digimarc Corporation Encoded reference signal for digital watermarks
CN1478269B (zh) 2001-08-06 2012-06-13 株式会社索引网 根据吠声的特征分析判断狗的情绪的设备及其方法
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US7623114B2 (en) 2001-10-09 2009-11-24 Immersion Corporation Haptic feedback sensations based on audio output from computer devices
US6703550B2 (en) * 2001-10-10 2004-03-09 Immersion Corporation Sound data output and manipulation using haptic feedback
US7369115B2 (en) 2002-04-25 2008-05-06 Immersion Corporation Haptic devices having multiple operational modes including at least one resonant mode
US7366352B2 (en) * 2003-03-20 2008-04-29 International Business Machines Corporation Method and apparatus for performing fast closest match in pattern recognition
US7765333B2 (en) 2004-07-15 2010-07-27 Immersion Corporation System and method for ordering haptic effects
US20060017691A1 (en) * 2004-07-23 2006-01-26 Juan Manuel Cruz-Hernandez System and method for controlling audio output associated with haptic effects
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
US8700791B2 (en) 2005-10-19 2014-04-15 Immersion Corporation Synchronization of haptic effect data in a media transport stream
US8378964B2 (en) 2006-04-13 2013-02-19 Immersion Corporation System and method for automatically producing haptic events from a digital audio signal
US8000825B2 (en) * 2006-04-13 2011-08-16 Immersion Corporation System and method for automatically producing haptic events from a digital audio file
US7979146B2 (en) * 2006-04-13 2011-07-12 Immersion Corporation System and method for automatically producing haptic events from a digital audio signal
US9019087B2 (en) 2007-10-16 2015-04-28 Immersion Corporation Synchronization of haptic effect data in a media stream
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
WO2010019508A1 (en) * 2008-08-11 2010-02-18 Immersion Corporation A haptic enabled gaming peripheral for a musical game
ES2334429B2 (es) * 2009-09-24 2011-07-15 Universidad Politécnica de Madrid Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas.
CN102959544B (zh) * 2010-05-04 2016-06-08 沙扎姆娱乐有限公司 用于同步媒体的方法和系统
CN102446504B (zh) * 2010-10-08 2013-10-09 华为技术有限公司 语音/音乐识别方法及装置
US20130151248A1 (en) * 2011-12-08 2013-06-13 Forrest Baker, IV Apparatus, System, and Method For Distinguishing Voice in a Communication Stream
WO2013097239A1 (en) * 2011-12-31 2013-07-04 Thomson Licensing Method and device for presenting content
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
WO2013166439A1 (en) 2012-05-04 2013-11-07 Setem Technologies, Llc Systems and methods for source signal separation
WO2014145960A2 (en) 2013-03-15 2014-09-18 Short Kevin M Method and system for generating advanced feature discrimination vectors for use in speech recognition
EP3019963A4 (de) 2013-07-12 2017-02-08 University of Iowa Research Foundation Augmentative und alternative kommunikation
CN108268458B (zh) * 2016-12-30 2020-12-08 广东精点数据科技股份有限公司 一种基于knn算法的半结构化数据分类方法及装置
CN107358171B (zh) * 2017-06-22 2019-08-02 华中师范大学 一种基于余弦距离与动态时间规整的手势识别方法
CN108399913B (zh) * 2018-02-12 2021-10-15 北京容联易通信息技术有限公司 高鲁棒性音频指纹识别方法及系统
CN110488278B (zh) * 2019-08-20 2021-07-27 深圳锐越微技术有限公司 多普勒雷达信号类型识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US5073939A (en) * 1989-06-08 1991-12-17 Itt Corporation Dynamic time warping (DTW) apparatus for use in speech recognition systems
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5581654A (en) * 1993-05-25 1996-12-03 Sony Corporation Method and apparatus for information encoding and decoding
US5969193A (en) * 1997-08-18 1999-10-19 Medeva Pharmaceuticals Pa, Inc. Method for the preparation of sevoflurane

Also Published As

Publication number Publication date
IL125649A0 (en) 1999-04-11
AU702852B2 (en) 1999-03-04
US5842162A (en) 1998-11-24
DE69725172D1 (de) 2003-10-30
IL125649A (en) 2002-12-01
CA2247364C (en) 2002-05-14
AU2216997A (en) 1997-09-22
ES2208887T3 (es) 2004-06-16
EP0950239B1 (de) 2003-09-24
ATE250801T1 (de) 2003-10-15
WO1997033273A1 (en) 1997-09-12
CA2247364A1 (en) 1997-09-12
EP0950239A1 (de) 1999-10-20
EP0950239A4 (de) 2000-07-12

Similar Documents

Publication Publication Date Title
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE60023517T2 (de) Klassifizierung von schallquellen
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE60207784T9 (de) Sprecheranpassung für die Spracherkennung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69836785T2 (de) Audiosignalkompression, Sprachsignalkompression und Spracherkennung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE112010003461B4 (de) Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60124551T2 (de) Verfahren und vorrichtung zur erzeugung der referenzmuster für ein sprecherunabhängiges spracherkennungssystem
DE60025748T2 (de) Spracherkennung
DE112009000805T5 (de) Rauschreduktion
DE60004331T2 (de) Sprecher-erkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee