DE602006000109T2 - Verfahren und Vorrichtung zur Verringerung von Geräuschbeeinträchtigung eines alternativen Sensorsignals während multisensorischer Sprachverstärkung - Google Patents

Verfahren und Vorrichtung zur Verringerung von Geräuschbeeinträchtigung eines alternativen Sensorsignals während multisensorischer Sprachverstärkung Download PDF

Info

Publication number
DE602006000109T2
DE602006000109T2 DE602006000109T DE602006000109T DE602006000109T2 DE 602006000109 T2 DE602006000109 T2 DE 602006000109T2 DE 602006000109 T DE602006000109 T DE 602006000109T DE 602006000109 T DE602006000109 T DE 602006000109T DE 602006000109 T2 DE602006000109 T2 DE 602006000109T2
Authority
DE
Germany
Prior art keywords
signal
alternative sensor
noise
value
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602006000109T
Other languages
English (en)
Other versions
DE602006000109D1 (de
Inventor
Amarnag Redmond Subramanya
James G. Redmond Droppo
Zhengyou Redmond Zhang
Zicheng Redmond Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE602006000109D1 publication Critical patent/DE602006000109D1/de
Application granted granted Critical
Publication of DE602006000109T2 publication Critical patent/DE602006000109T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Description

  • Hintergrund der Erfindung
  • Die vorliegende Erfindung bezieht sich auf die Rauschminderung. Insbesondere bezieht sich die Entwicklung auf das Entfernen von Geräuschen aus Sprachsignalen.
  • Ein allgemeines Problem in der Spracherkennung und der Sprachübertragung ist die Störung des Sprachsignals durch zusätzliche Geräusche. Insbesondere hat sich erwiesen, dass die Störung aufgrund des Sprechens eines anderen Redners nur schwer zu erfassen und/oder zu korrigieren ist.
  • Vor Kurzem ist ein System entwickelt worden, das versucht, unter Verwendung einer Kombination aus einem alternativen Sensor wie etwa einem Schädeldeckenmikrofon und einem Luftleitungsmikrofon die Geräusche zu entfernen. Dieses System schätzt über das Schädeldeckenmikrofon das Ansprechverhalten der Kanäle, die mit der Übertragung der Sprache und der Geräusche verknüpft sind. Diese Ansprechverhalten der Kanäle werden dann in einem direkten Filterverfahren dazu verwendet, ein Schätzresultat des sauberen Sprachsignals auf der Basis eines lauten Schädeldeckenmikrofonsignals und eines lauten Luftleitungsmikrofonsignals zu identifizieren.
  • Obwohl dieses System gut funktioniert, neigt es dazu, bei höheren Frequenzen Nullen in das Sprachsignal einzufügen, und tendiert ebenfalls dazu, störende Klickgeräusche in das geschätzte saubere Sprachsignal einzufügen, wenn der Benutzer während des Sprechens mit den Zähnen klappert. Daher wird ein System benötigt, das das direkte Filterverfahren zum Entfernen der störenden Klickgeräusche verbessert und die Schätzung des sauberen Sprachsignals verfeinert. Ein direktes Filterverfahren auf der Basis von zwei verschiedenen Mikrofonen ist bei Zicheng Liu et al., „Leakage Model and Teeth Clack Removal for Air- and Bone-Conducted Integrated Microphones", Proceedings ICASSP 2005, Philadelphia, USA zu finden.
  • Überblick über die Erfindung
  • Ein Verfahren und eine Vorrichtung klassifizieren einen Teilbereich eines alternativen Sensorsignals als entweder Geräusche enthaltend oder als nicht Geräusche enthaltend.
  • Die Teilbereiche des alternativen Sensorsignals, die als Geräusche enthaltend klassifiziert werden, werden nicht zur Schätzung eines Teilbereichs des sauberen Sprachsignals und der Kanalantwort, der mit dem alternativen Sensor verknüpft ist, verwendet. Die Teilbereiche des alternativen Sensorsignals, die als nicht Geräusche enthaltend klassifiziert werden, werden zur Schätzung eines Teilbereichs des sauberen Sprachsignals und der Kanalantwort, der mit dem alternativen Sensor verknüpft ist, verwendet. Nach der Erfindung gibt es zwei unabhängige Verfahren, die in den Ansprüchen 1 und 19 dargelegt sind, und ein Computerlesbares Medium, das in Anspruch 9 ausgeführt ist.
  • Kurze Beschreibung der Zeichnungen
  • 1 zeigt ein Blockdiagramm einer Rechnerumgebung, in der die vorliegende Erfindung betrieben werden kann.
  • 2 zeigt ein Blockdiagramm einer alternativen Rechnerumgebung, in der die vorliegende Erfindung betrieben werden kann.
  • 3 zeigt ein Blockdiagramm eines Sprachverbesserungssystems der vorliegenden Erfindung.
  • 4 zeigt ein Flussdiagramm zur Sprachverbesserung gemäß einer Ausführungsform der vorliegenden Erfindung.
  • 5 zeigt ein Blockdiagramm eines Lernsystems für das Verbesserungsmodell einer Ausführungsform der vorliegenden Erfindung.
  • 6 zeigt ein Flussdiagramm zur Sprachverbesserung gemäß einer weiteren Ausführungsform der vorliegenden Erfindung.
  • Detaillierte Beschreibung der veranschaulichenden Ausführungsformen
  • 1 veranschaulicht ein Beispiel einer geeigneten Rechnersystemumgebung 100, in der die Erfindung umgesetzt werden kann. Die Rechnersystemumgebung 100 ist lediglich ein Beispiel für eine geeignete Rechnerumgebung, und es ist nicht beabsichtigt, etwa dem Anwendungsbereich oder der Funktionalität der Erfindung irgendeine Beschränkung zu unterstellen. Auch sollte die Rechnerumgebung 100 nicht so betrachtet werden, als habe sie irgendwelche Abhängigkeiten von irgendeiner oder Anforderungen an irgendeine Kombination der Komponenten, die in der beispielhaften Betriebsumgebung 100 dargestellt sind.
  • Die Erfindung kann mit zahlreichen anderen Umgebungen von Universal- oder Spezial-Rechnersystemen oder Konfigurationen betrieben werden. Beispiele weit verbreiteter Rechnersysteme, Umgebungen und/oder Konfigurationen, die für die Anwendung der Erfindung geeignet sein können, umfassen – sind jedoch nicht darauf beschränkt – Personalcomputer, Serverrechner, Hand-Held- oder Laptop-Geräte, Multiprozessorsysteme, Mikroprozessorbasierte Systeme, Digitalempfänger, programmierbare Unterhaltungselektronikgeräte, Netzwerk-PCs, Minicomputer, Großrechner, Telephoniesysteme, verteilte Rechnerumgebungen, die beliebige der oben genannten Systeme oder Geräte und Ähnliches einschließen.
  • Die Erfindung kann in einem allgemeinen Zusammenhang mit Anweisungen, die durch einen Computer ausführbar sind, wie etwa Programmmodule, die auf einem Rechner ausgeführt werden können, beschrieben werden. Im Allgemeinen umfassen Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen etc., die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen umsetzen. Die Erfindung ist so konzipiert, dass sie in verteilten Rechnerumgebungen realisiert werden kann, in denen Anwendungen durch entfernte Rechnereinheiten, die über ein Kommunikationsnetz miteinander verknüpft sind, ausgeführt werden. In einer verteilten Rechnerumgebung liegen die Programmmodule sowohl auf den lokalen als auch auf den entfernten Rechnerspeichermedien einschließlich der Datenspeichergeräte vor.
  • Mit Bezug auf die 1 umfasst ein beispielhaftes System zur Umsetzung der Erfindung eine Universalcomputervorrichtung in der Art eines Computers 110. Die Komponenten des Computers 110 können eine Prozessoreinheit 120, einen Systemspeicher 130 und einen Systembus 121, der die verschiedenen Systemkomponenten einschließlich des Systemspeichers der Prozessoreinheit 120 miteinander koppelt, umfassen, sie sind aber nicht darauf beschränkt. Der Systembus 121 kann jede beliebige Art von Busstruktur aufweisen, wobei er einen Speicherbus oder einen Speicher-Controller, einen Peripherie-Bus und einen lokalen Bus unter Verwendung einer beliebigen Busarchitektur umfasst. Als Beispiel – nicht als Einschränkung anzusehen – umfassen derartige Architekturen den ISA-Bus (Industrial Standard Architecture), den MCA-Bus (Micro Channel Architecture), den EISA-Bus (Enhanced ISA), den VESA-Lokalbus (Video Electronics Stan dards Architecture) und den PCI-Bus (Peripherical Component Interconnect), der auch als Mezzanine-Bus („Zwischengeschoss") bekannt ist.
  • Der Computer 110 umfasst typischerweise eine Vielzahl von Computer-lesbaren Medien. Computerlesbare Medien können jede Art von verfügbaren Medien sein, auf die ein Computer 110 zugreifen kann und sie schließen sowohl flüchtige als auch nichtflüchtige, austauschbare als auch nicht austauschbare Medien ein. Als Beispiel – nicht als Einschränkung anzusehen – können Computer-lesbare Medien Computer-Speichermedien und Kommunikationsmedien umfassen. Computer-Speichermedien schließen sowohl flüchtige als auch nicht-flüchtige, austauschbare als auch nicht austauschbare Medien ein, die nach einem beliebigen Verfahren oder einer beliebigen Technik zur Speicherung von Daten wie etwa Computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder mit anderen Daten aufgebaut sind. Computer-Speichermedien umfassen – sind aber nicht darauf beschränkt – das RAM, das ROM, das EEPROM, den Flash-Speicher oder andere Speichertechnologien, die CD-ROM, die DVD (digital versatile disk) oder andere optische Plattenspeicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere Magnetspeichergeräte oder jedes andere Medium, das verwendet werden kann, um die gewünschten Daten zu speichern und auf das der Computer 110 zugreifen kann. Kommunikationsmedien enthalten typischerweise Computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal wie etwa einer Trägerschwingung oder anderen Transportmechanismen und schließen alle Datenübergabemedien ein. Der Begriff „moduliertes Datensignal" bezeichnet ein Signal, das eines oder mehrere seiner charakteristischen Merkmale so gesetzt oder geändert hat, um Daten im Signal zu kodieren. Als Beispiel – nicht als Einschränkung anzusehen – umfassen Kommunikationsmedien verkabelte Medien wie etwa ein Kabel-Netzwerk oder eine direkte Leitungsverbindung und Funkmedien wie etwa Schall-, RF-, Infrarot- und andere Funkmedien. Kombinationen aus den oben genannten Medien sollten ebenso in den Umfang der Computer-lesbaren Medien eingeschlossen werden.
  • Der Computerspeicher 130 umfasst Computerspeichermedien in der Form von flüchtigem und/oder nicht-flüchtigem Speicher wie etwa das ROM (read only memory) 131 und das RAM (random access memory) 132. Ein BIOS (basic input/output system) 133, das die Basisprozeduren, die die Übermittlung der Daten zwischen den Elementen im Computer 110 wie etwa während des Anlaufs unterstützen, ist typischerweise im ROM 131 gespeichert. Das RAM 132 enthält typischerweise Daten und/oder Programmmodule, auf die unmittelbar zugegriffen werden kann und/oder die durch die Prozessoreinheit 120 sogleich in Betrieb gesetzt werden können. Als Beispiel – nicht als Einschränkung anzusehen – zeigt die 1 das Betriebssystem 134, die Anwenderprogramme 135, weitere Programmmodule 136 und die Programmdaten 137.
  • Der Computer 110 kann auch andere auswechselbare/nicht austauschbare flüchtige/nicht-flüchtige Computerspeichermedien umfassen. Nur als Beispiel betrachtet, zeigt die 1 ein Festplattenlaufwerk 141, das von nicht austauschbaren, nichtflüchtigen magnetischen Medien liest oder darauf schreibt, ein Magnetplattenlaufwerk 151, das von einem austauschbaren, nichtflüchtigen Magnetplattenlaufwerk 152 liest oder darauf schreibt, und ein optisches Laufwerk 155, das von einem austauschbaren, nicht-flüchtigen optischen Laufwerk 156 wie etwa einer CD-ROM oder einem anderen optischen Medium liest oder darauf schreibt. Andere auswechselbare/nicht austauschbare, flüchtige/nicht-flüchtige Medien, die in der beispielhaften Betriebsumgebung eingesetzt werden können, umfassen – sind jedoch nicht darauf beschränkt – Magnetbandkassetten, Flash-Speicherkarten, DVDs, digitales Videoband, fixiertes RAM, fixiertes ROM und Ähnliches. Das Festplattenlaufwerk 141 ist üblicherweise über eine nicht auswechselbare Speicherschnittstelle wie etwa der Schnittstelle 140 mit dem Systembus 121 verbunden, und das Magnetplattenlaufwerk 151 und das optische Plattenlaufwerk 155 sind üblicherweise über eine austauschbare Speicherschnittstelle wie etwa der Schnittstelle 150 mit dem Systembus 121 verbunden.
  • Die Laufwerke und ihre zugeordneten Speichermedien, die oben diskutiert wurden und die in 1 dargestellt sind, sorgen für die Speicherung der Computerlesbaren Anweisungen, der Datenstrukturen, der Programmmodule und anderer Daten für den Computer 110. Zum Beispiel wird das Festplattenlaufwerk 141 in 1 so dargestellt, dass es die Speicherung des Betriebssystems 144, der Anwenderprogramme 145, anderer Programmmodule 146 und der Programmdaten 147 übernimmt. Es ist anzumerken, dass diese Komponenten entweder die gleichen sein können wie das Betriebssystem 134, die Anwenderprogramme 135, andere Programmmodule 136 und die Programmdaten 137 oder sie können davon abweichen. Dem Betriebssystem 144, den Anwenderprogrammen 145, den anderen Programmmodulen 146 und den Programmdaten 147 sind hier unterschiedliche Nummern gegeben worden, um zu zeigen, dass sie auf einem Minimum unterschiedliche Kopien sind.
  • Ein Anwender kann Befehle und Daten in den Computer 110 über Eingabegeräte wie etwa eine Tastatur 162, ein Mikrofon 163 und ein Zeigegerät 161, wie etwa eine Maus, ein Trackball oder ein Touchpad eingeben. Andere Eingabegeräte (nicht gezeigt) können einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner oder Ähnliches umfassen. Diese und andere Eingabegeräte sind häufig über eine Benutzereingabeschnittstelle 160, die mit dem Systembus verbunden ist, an die Prozessoreinheit 120 angeschlossen, sie können jedoch über andere Schnittstellen- und Busstrukturen wie etwa einen Parallel-Port, einen Gameport oder einen universellen seriellen Bus (USB) angeschlossen werden. Ein Monitor 191 oder andere Arten von Anzeigegeräten sind über eine Schnittstelle wie etwa eine Videoschnittstelle 190 mit dem Systembus 121 verbunden. Zusätzlich zum Monitor können Computer auch andere periphere Ausgabegeräte wie etwa die Lautsprecher 197 und den Drucker 196 umfassen, die über eine Schnittstelle für periphere Ausgaben 195 angeschlossen sein können.
  • Der Computer 110 wird in einer Netzwerkumgebung unter Anwendung logischer Verbindungen zu einem oder mehreren entfernten Computern wie etwa einem entfernten Computer 180 betrieben. Der entfernte Computer 180 kann ein Personalcomputer, ein Handheld-Gerät, ein Server, ein Router, ein Netzwerk-PC, eine Teilnehmervorrichtung oder ein anderer gebräuchlicher Netzwerkknoten sein und umfasst typischerweise viele oder alle Elemente, die oben mit Bezug auf den Computer 110 beschrieben sind. Die logischen Verbindungen, die in 1 dargestellt sind, enthalten ein lokales Netzwerk (LAN) 171 und ein Fernnetz (WAN) 173, sie können jedoch auch andere Netzwerke enthalten. Derartige Netzwerkumgebungen findet man gewöhnlich in Büros, in unternehmensweiten Computernetzwerken, in Intranets und im Internet.
  • Wenn der Computer 110 in einer LAN-Netzwerkumgebung eingesetzt wird, ist er über eine Netzwerkschnittstelle oder einen Netzwerkadapter 170 an das LAN 171 angeschlossen. Wenn der Computer 110 in einer WAN-Netzwerkumgebung eingesetzt wird, umfasst er üblicherweise ein Modem 172 oder andere Hilfsmittel zum Aufbauen von Verbindungen wie etwa zum Internet über das WAN 173. Das Modem 172, das intern oder extern sein kann, kann über die Benutzereingabeschnittstelle 160 oder eine andere geeignete Vorrichtung mit dem Systembus 121 verbunden werden. In einer Netzwerkumgebung können Programmmodule, die bezogen auf den Computer 110 dargestellt sind, oder Teile davon in dem entfernten Datenspeicherlaufwerk gespeichert werden. Als Beispiel – nicht als Einschränkung anzusehen – zeigt die 1 die entfernten Anwenderprogramme 185 als resident im entfernten Computer 180. Es ist verständlich, dass die gezeigten Netzwerkverbindungen als Beispiele gesehen werden sollen und andere Hilfsmittel zum Aufbauen von Kommunikationsverbindungen zwischen den Computern eingesetzt werden können.
  • 2 zeigt ein Blockdiagramm eines transportablen Systems 200, das eine beispielhafte Rechnerumgebung darstellt. Das transportable System 200 umfasst einen Mikroprozessor 202, einen Speicher 204, die Ein- und Ausgabe-Komponenten (I/O) 206 und eine Kommunikationsschnittstelle 208 zur Kommunikation mit entfernten Computern oder anderen transportablen Systemen. In einer Ausführungsform werden die zuvor erwähnten Komponenten zur Kommunikation miteinander über einen geeigneten Bus 210 verbunden.
  • Der Speicher 204 ist als nicht-flüchtiger elektronischer Speicher ausgeführt, etwa als Speicher mit Direktzugriff (RAM) mit einem Batteriemodul zur Absicherung (nicht gezeigt) derart, dass die Daten, die im Speicher 204 gespeichert sind, nicht verloren gehen, wenn die allgemeine Stromzufuhr zum transportablen System 200 unterbrochen wird. Ein Teil des Speichers 204 ist vorzugsweise als adressierbarer Speicher für die Programmausführung ausgelegt, während ein anderer Teil des Speichers 204 vorzugsweise zur Speicherung, etwa zum Simulieren des Speichervorgangs auf ein Plattenlaufwerk, eingesetzt wird.
  • Der Speicher 204 umfasst ein Betriebssystem 212, die Anwenderprogramme 214 sowie einen Objektspeicher 216. Während des Betriebs wird das Betriebssystem 212 üblicherweise durch den Prozessor 202 aus dem Speicher 204 ausgeführt. Das Betriebssystem 212 ist in einer bevorzugten Ausführungsform ein Betriebssystem der Marke WINDOWS CE, das bei der Microsoft Corporation erhältlich ist. Das Betriebssystem 212 ist vorzugsweise für transportable Geräte vorgesehen und implementiert Datenbank-Bausteine, die von den Anwendungen 214 über eine Reihe von offenen Schnittstellen und Verfahren der Anwendungsprogrammierung verwendet werden können. Die Objekte im Objektspeicher 216 werden durch die Anwendungen 214 und das Betriebssystem 212 zumindest teilweise als Antwort auf Aufrufe an die offenen Schnittstellen und Verfahren der Anwendungsprogrammierung, gepflegt.
  • Die Kommunikationsschnittstelle 208 steht für zahlreiche Geräte und Techniken, die es dem transportablen Gerät 200 erlauben, Daten zu senden und zu empfangen. Die Geräte umfassen verkabelte und drahtlose Modems, Satellitenempfänger und Rundfunkemp fänger, um nur einige zu nennen. Das transportable Gerät 200 kann auch direkt an einen Computer angeschlossen werden, um mit diesem Daten auszutauschen. In solchen Fällen kann die Kommunikationsschnittstelle 208 ein Infrarot-Trarisceiver oder ein serieller oder paralleler Kommunikationsanschluss sein, wobei sie alle in der Lage sind, Datenströme zu übertragen.
  • Die Eingabe- und Ausgabe-Komponenten 206 umfassen eine Vielfalt von Eingabegeräten wie etwa einen Kontaktbildschirm, Knöpfe, Rollen und ein Mikrophon, ebenso eine Vielfalt von Ausgabegeräten, die einen Tongenerator, eine Vibriereinrichtung und eine Anzeige einschließen. Die oben aufgeführten Geräte sind übrigens nur als Beispiele genannt und müssen nicht alle am transportablen Gerät 200 vorhanden sein. Zusätzlich können andere Eingabe- und Ausgabe-Vorrichtungen im Anwendungsbereich der vorliegenden Erfindung an dem transportablen Gerät 200 angebracht werden oder an einem solchen vorhanden sein.
  • Die 3 legt ein Blockdiagramm eines Sprachverbesserungssystems für Ausführungsformen der vorliegenden Erfindung vor. In 3 erzeugt ein Anwender/Sprecher 300 ein Sprachsignal 302 (X), das über ein Luftleitungsmikrofon 304 und einen alternativen Sensor 306 erfasst wird. Beispiele für alternative Sensoren umfassen ein Kehlkopfmikrofon, das die Schwingungen des Kehlkopfes eines Anwenders misst, ein Schädeldeckensensor, der auf oder nahe bei einem Gesichts- oder Schädelknochen des Anwenders (etwa dem Kieferknochen) oder im Ohr des Anwenders platziert ist und der Schwingungen des Schädels oder des Kiefers aufnimmt, die der Sprache, die vom Anwender erzeugt wird, entsprechen. Das Luftleitungsmikrofon 304 ist eine Art des Mikrofons, das allgemein verwendet wird, um Luftschallwellen in elektrische Signale umzuwandeln.
  • Das Luftleitungsmikrofon 304 empfängt auch die Nebengeräusche 308 (V), die von einer oder mehreren Schallquellen 310 erzeugt werden. Abhängig vom Typ des alternativen Sensors und der Stärke der Geräusche kann der Lärm 308 auch vom alternativen Sensor erfasst werden. In den Ausführungsformen der vorliegenden Erfindung ist der alternative Sensor 306 üblicherweise jedoch weniger empfindlich gegenüber den Nebengeräuschen als das Luftleitungsmikrofon 304. Deshalb enthält das Signal des alternativen Sensors, das vom alternativen Sensor 306 erzeugt wird, im Allgemeinen ein geringeres Rauschen als das das Signal des Luftleitungsmikrofons, das vom Luftleitungsmikrofon 304 erzeugt wird. Obwohl der alternative Sensor 306 weniger empfindlich für Nebengeräusche ist, erzeugt er doch etwas Sensorrauschen 320 (W).
  • Der Pfad vom Lautsprecher 300 zum Signal des alternativen Sensors 316 kann als Kanal modelliert werden, der eine Kanalantwort H besitzt. Der Pfad von den Quellen der Nebengeräusche 310 zum Signal des alternativen Sensors 316 kann als Kanal modelliert werden, der eine Kanalantwort G besitzt.
  • Das Signal des alternativen Sensors vom alternativen Sensor 306 und das Signal des Luftleitungsmikrofons vom Luftleitungsmikrofon 304 werden jeweils an die Analog-Digital-Konverter 322 und 324 weitergegeben, um eine Folge von digitalen Werten zu erzeugen, die Frames von Werten jeweils durch die Frame-Builder 326 und 328 zu Gruppen zusammenfasst werden. In einer Ausführungsform zerlegen die A/D-Konverter 322 und 324 die analogen Signale bei 16 kHz in Gruppen im Muster von 16 Bits, wobei sie pro Sekunde 32 Kilobytes Sprachdaten erzeugen und die Frame-Builder 326 und 328 alle 10 Millisekunden einen neuen entsprechenden Frame erzeugen, der einen Datenwert von 20 Millisekunden umfasst.
  • Jeder entsprechende Datenframe, der von den Frame-Buildern 326 und 328 ausgegeben wird, wird jeweils in den Frequenzbereich 330 und 332 unter Einsatz der schnellen Fourier-Transformationen (Fast Fourier Transforms, FFT) umgewandelt. Daraus ergeben sich die Frequenzbereichswerte 334 (B) für das Signal des alternativen Sensors und die Frequenzbereichswerte 336 (Y) für das Signal des Luftleitungsmikrofons.
  • Die Frequenzbereichswerte für das Signal des alternativen Sensors 334 und für das Signal des Luftleitungsmikrofons 336 werden an den Verbesserungsmodelltrainer 338 und die Einheit zur Verbesserung der direkten Filterung 340 weitergegeben. Der Verbesserungsmodelltrainer 338 trainiert die Modellparameter, die die Ansprechverhalten der Kanäle H und G sowie das Nebengeräusch V und das Sensorgeräusch W auf der Basis der Werte des alternativen Sensors B und der Werte des Luftleitungsmikrofons Y beschreiben. Diese Modellparameter werden an die Einheit zur Verbesserung der direkten Filterung 340 weitergegeben, die die Parameter und die Frequenzbereichswerte B und Y verwendet, um ein sauberes Sprachsignal 342 (X) zu schätzen.
  • Die Schätzung des sauberen Sprachsignals 342 ist ein Satz von Frequenzbereichswerten. Diese Werte werden unter Anwendung einer inversen schnellen Fourier-Transformation 344 in den Zeitbereich umgewandelt. Jeder Frame von Zeitbereichswerten wird durch eine Einheit zur Überlappung und Ergänzung 346 überlappt und um die benachbarten Frames ergänzt. Das erzeugt einen durchgehenden Satz von Zeitbe reichswerten, die an einen Sprachprozess 348 weitergegeben werden, der eine Sprachcodierung oder eine Spracherkennung enthalten kann.
  • Die Erfinder dieser Erfindung haben herausgefunden, dass das System zum Identifizieren von Schätzungen eines sauberen Sprachsignals, wie es in 3 gezeigt ist, durch vorübergehende Geräusche wie etwa dem Zähneklappern nachteilig beeinflusst werden kann, was vom alternativen Sensor 306 starker als vom Luftleitungsmikrofon 304 erfasst wird. Die Erfinder dieser Erfindung haben herausgefunden, dass derartige vorübergehende Geräusche die Schätzung der Kanalantwort H verschlechtern, indem sie Nullen in der Schätzung des sauberen Sprachsignals hervorrufen. Wenn ein Wert des alternativen Sensors B durch ein derartiges vorübergehendes Geräusch verschlechtert wurde, bewirkt dies, dass zusätzlich auch der saubere Sprachwert, der aus diesem Wert des alternativen Sensors geschätzt wurde, verschlechtert wird.
  • Die vorliegende Erfindung bietet Verfahren zur direkten Filterung für das Schätzen des sauberen Sprachsignals 342, das eine Beeinflussung der Schätzung einer sauberen Sprache durch derartige vorübergehende Geräusche im Signal des alternativen Sensors wie etwa dem Zähneklappern vermeidet. In der nachfolgenden Erörterung verweist dieses vorübergehende Geräusch auf ein Zähneklappern, um eine Vermengung mit anderen Arten von Geräuschen, die im System gefunden werden, zu vermeiden. Die Kenner der Technik werden jedoch erkennen, dass die vorliegende Erfindung zum Identifizieren von sauberen Signalwerten verwendet werden kann, wenn das System durch eine beliebige andere Art von Geräuschen, die vom alternativen Sensor stärker als vom Luftleitungsmikrofon erfasst werden, beeinflusst wird.
  • 4 zeigt ein Flussdiagramm eines Batch-Update-Verfahrens, das zum Schätzen von sauberen Sprachwerten aus geräuschvollen Sprachsignalen unter Einsatz von Verfahren der vorliegenden Erfindung verwendet wird.
  • In Schritt 400 werden die Werte des Luftleitungsmikrofons (Y) und die Werte des alternativen Sensors (B) erfasst. Diese Werte werden an den Verbesserungsmodelltrainer 338 weitergegeben.
  • 5 zeigt ein Blockdiagramm des Trainers 338. Innerhalb des Trainers 338 werden die Werte des alternativen Sensors (B) und die Werte des Luftleitungsmikrofons (Y) an eine Spracherkennungseinheit 500 weitergegeben.
  • Die Spracherkennungseinheit 500 ermittelt in Schritt 402, welche Werte des alternativen Sensors und welche Werte des Luftleitungsmikrofons dem Sprechen des Benutzers entsprechen und welche Werte den Hintergrundgeräuschen einschließlich der Sprache im Hintergrund entsprechen.
  • Gemäß einer Ausführungsform ermittelt die Spracherkennungseinheit 500 durch das Identifizieren von energiearmen Abschnitten des Signals des alternativen Sensors, ob ein Wert dem Sprechen des Benutzers entspricht, da die Energie der Geräusche im alternativen Sensor viel geringer ist als die des Sprachsignals, das im Signal des alternativen Sensors eingefangen wird.
  • Insbesondere ermittelt die Spracherkennungseinheit 500 die Energie des Signals des alternativen Sensors für jeden Frame, wie er durch jeden Wert des alternativen Sensors dargestellt wird. Die Spracherkennungseinheit 500 durchsucht dann die Folge der Energiewerte der Frames, um einen Spitzenwert in der Energie zu finden. Dann sucht es nach einem Tal hinter der Spitze. Der Energiewert dieses Tals wird dann als Separator für die Energie d angesehen. Um zu ermitteln, ob ein Frame Sprache enthält, wird dann der Quotient k aus der Energie des Frames e über den Separator für die Energie d bestimmt als: k = e/d. Ein Wert der Sprachkonfidenz q für den Frame wird dann bestimmt als:
    Figure 00110001
    wobei α den Übergang zwischen zwei Zuständen definiert und in einer Ausführung auf 2 gesetzt ist. Schließlich wird der durchschnittliche Konfidenzwert der 5 benachbarten Frames (sich selbst eingeschlossen) als der endgültige Konfidenzwert für den Frame verwendet.
  • Gemäß einer Ausführungsform wird, um zu ermitteln, ob Sprache vorliegt, ein festgelegter Schwellenwert so verwendet, dass der Frame als Sprache enthaltend angesehen wird, wenn der Konfidenzwert den Schwellenwert übersteigt, und dass der Frame als nicht Sprache enthaltend angesehen wird, wenn der Konfidenzwert den Schwellenwert nicht übersteigt. In einer Ausführungsform wird ein Schwellenwert von 0,1 verwendet.
  • In anderen Ausführungsformen werden bekannte Spracherkennungsverfahren beim Luftleitungssprachsignal eingesetzt, um zu erkennen, wann der Sprecher spricht. Üblicherweise verwenden solche Systeme Tonhöhenverfolger zum Identifizieren von Sprache-Frames, da solche Frames gewöhnlich Oberschwingungen enthalten, die in Nicht-Sprache nicht vorkommen.
  • Die Werte des alternativen Sensors und die Werte des Luftleitungsmikrofons, die der Sprache zugeordnet werden, werden als Sprache-Frames 504 und die Werte, die der Nicht-Sprache zugeordnet werden, werden als Nicht-Sprache-Frames 502 gespeichert.
  • Unter Verwendung der Werte in den Nicht-Sprache-Frames 502 bewerten eine Schätzfunktion für die Hintergrundgeräusche 506, eine Schätzfunktion für die Geräusche des alternativen Sensors 508 und eine Schätzfunktion für die Kanalantwort 510 in Schritt 404 Modellparameter, die jeweils die Hintergrundgeräusche, die Geräusche des alternativen Sensors und die Kanalantwort G beschreiben.
  • In einer Ausführungsform werden aus den realen und imaginären Teilen der Hintergrundgeräusche V und aus den realen und imaginären Teilen der Sensorgeräusche W unabhängige normalisierte (auf den Mittelwert Null zentrierte) Gauss-Verteilungen gebildet: V = N(O, σ2ν ) Eq. 2 W = N(O, σ2w ) Eq. 3wobei σ2ν die Varianz der Hintergrundgeräusche V und σ2w die Varianz der Sensorgerausche W darstellt.
  • Die Varianz der Hintergrundgeräusche σ2ν wird aus Werten des Luftleitungsmikrofons während der Frames mit Nicht-Sprache geschätzt. Insbesondere werden die Werte des Luftleitungsmikrofons Y während der Nicht-Sprache-Phase als gleich den Hintergrundgeräuschen V angenommen. Auf diese Weise können die Werte des Luftleitungsmikrofons Y zur Ermittlung der Varianz σ2ν unter der Annahme, dass die Werte von Y während der Nicht-Sprache-Phase als normalisierte (auf den Mittelwert Null zentrierte) Gauss-Verteilung gebildet werden, verwendet werden. Gemäß einer Ausführungsform wird diese Varianz durch das Dividieren der Summe der Quadratwerte der Werte Y durch die Anzahl der Werte bestimmt.
  • Die Varianz der Geräusche des alternativen Sensors σ2w kann aus den Frames mit Nicht-Sprache ermittelt werden, indem das Sensorgeräusch Wt bei jedem Frame mit Nicht-Sprache so abgeschätzt wird: Wt = Bt – GYt Eq. 4wobei G zunächst als Null angenommen wird, jedoch in einem iterativen Prozess, in dem σ2w im ersten Schritt der Iteration und G im zweiten Schritt der Iteration geschätzt wird, aktualisiert wird. Die Werte von Wt werden dann verwendet, um die Varianz σ2w unter der Annahme eines normalisierten (auf den Mittelwert Null zentrierten) Gauss-Verteilungsmodell für W zu schätzen.
  • Die Schätzfunktion für G 510 bewertet die Kanalantwort G im zweiten Schritt der Iteration nach der Formel:
    Figure 00130001
    wobei D die Anzahl der Frames darstellt, in denen der Benutzer nicht spricht. In Gleichung Eq. 5 wird angenommen, dass G über alle Frames der Äußerungen konstant bleibt und deshalb nicht von dem Zeitframe t abhängig ist.
  • Die Gleichungen Eq. 4 und Eq. 5 werden iterativ durchlaufen, bis die Werte für σ2w und G zu stabilen Werten konvergieren. Die endgültigen Werte für σ2ν , σ2w und G werden in den Modellparametern 512 gespeichert.
  • In Schritt 406 werden die Modellparameter für die Kanalantwort H zunächst durch die Schätzfunktion für H und σ2H 518 unter Anwendung der Modellparameter für das Geräusch, die in den Modellparametern 512 gespeichert sind, und den Werten von B und Y in den Sprache-Frames 504 errechnet. Insbesondere wird H berechnet nach der Formel
    Figure 00140001
  • Wobei S die Anzahl der Sprache-Frames ist, und für G angenommen wird, dass es während der Berechnung von H gleich Null ist.
  • Zusätzlich wird die Varianz eines früheren Modells von H, σ2H in Schritt 406 ermittelt. Der Wert von σ2H kann berechnet werden als
    Figure 00140002
  • In einigen Ausführungsformen wird σ2H stattdessen als ein Prozentanteil von H2 errechnet. Zum Beispiel durch: σ2H = .01H2 Eq. 8
  • Sobald die Werte für H und σ2H in Schritt 406 ermittelt worden sind, werden diese Werte in Schritt 408 dazu verwendet, den Wert der diskriminanten Funktion für jeden Sprache-Frame 504 zu ermitteln. Insbesondere ermittelt ein Detektor für das Zähneklappern 514 für jeden Sprache-Frame den Wert
    Figure 00140003
    wobei K die Anzahl der Frequenzkomponenten in den Frequenzbereichswerten Bt und Yt darstellt.
  • Die Erfinder dieser Erfindung haben herausgefunden, dass ein hoher Wert für Ft angibt, dass der Sprache-Frame ein Zähneklappern enthält, während niedrige Werte für Ft angeben, dass der Sprache-Frame kein Zähneklappern enthält. Daher können Sprache-Frames unter Verwendung eines einfachen Schwellenwerts als Sprache-Frames mit Zähneklappern klassifiziert werden. Dies ist in 4 als Schritt 410 dargestellt.
  • In einer Ausführungsform wird der Schwellenwert für F bestimmt, indem F als eine Chi-Quadrat-Verteilung mit einer annehmbaren Fehlerrate modelliert wird. In Ausdrücken einer Gleichung wird es wie folgt dargestellt: P(Ft < ε|Ψ) = α Eq. 10Wobei P(F < ε|Ψ) die Wahrscheinlichkeit darstellt, dass Ft kleiner ist als der Schwellenwert ε bei gegebener Hypothese Ψ, dass dieser Frame kein Frame mit einem Zähneklappern ist, und α die annehmbare fehlerfreie Rate darstellt.
  • Gemäß einer Ausführungsform ist α = 0,99. Anders ausgedrückt, wird dieses Modell einen Frame als einen Frame mit einem Zähneklappern klassifizieren, wenn der Frame tatsächlich nur während 1% der Zeit kein Zähneklappern aufweist. Verwendet man diese Fehlerrate, wird auf der Basis der veröffentlichten Werte für Chi-Quadrat-Verteilungen der Schwellenwert für F gleich ε = 365,3650. Es ist anzumerken, dass andere fehlerfreie Raten, die andere Schwellenwerte als Ergebnisse haben, im Anwendungsbereich der vorliegenden Erfindung eingesetzt werden können.
  • Mit dem Einsatz des Schwellenwertes, der aus der Chi-Quadrat-Verteilung bestimmt wird, wird in Schritt 410 jeder der Frames entweder als Frame mit Zähneklappern oder als Frame ohne Zähneklappern klassifiziert. Da F von der Varianz der Hintergrundgeräusche und der Varianz der Sensorgeräusche abhängig ist, ist die Klassifizierung empfindlich bei Fehlern im Bestimmen der Werte dieser Varianzen. Um sicher zu stellen, dass Fehler in den Varianzen nicht verursachen, dass zu viele Frames so klassifiziert werden, als enthielten sie ein Zähneklappern, ermittelt der Detektor für das Zähneklappern 514 den prozentualen Anteil der Frames, die zunächst so klassifiziert werden, als enthielten sie ein Zähneklappern. Wenn in Schritt 412 der prozentuale Anteil höher ist als ein vorher festgelegter Prozentsatz von etwa 5%, wird der Schwellenwert in Schritt 414 erhöht und die Frames in Schritt 416 erneut klassifiziert, so dass lediglich die Frames im festgelegten prozentualen Anteil so gekennzeichnet werden, als enthielten sie ein Zähneklappern. Obwohl oben ein prozentualer Anteil der Frames verwendet wird, kann stattdessen auch eine festgelegte Anzahl von Frames eingesetzt werden.
  • Sobald entweder in Schritt 412 oder in Schritt 416 weniger Frames als der festgelegte prozentuale Anteil so gekennzeichnet worden sind, als enthielten sie ein Zähneklappern, werden die Frames, die als Frames ohne Zähneklappern 516 klassifiziert wurden, an die Schätzfunktion für H und σ2H 518 weitergegeben, um die Werte für H und σ2H neu zu berechnen. Insbesondere wird die Gleichung Eq. 6 unter Verwendung der Werte von Bt und Yt, die in den Frames ohne Zähneklappern 516 vorgefunden werden, neu berechnet.
  • In Schritt 420 wird der aktualisierte Wert von H mit dem Wert von G und den Werten der Geräuschvarianzen σ2ν und σ2w von der Einheit zur Verbesserung der direkten Filterung 340 verwendet, um den sauberen Sprachwert abzuschätzen durch
    Figure 00160001
    wobei H* die komplexe Konjugierende von H ist. Für Frames, die so klassifiziert wurden, als enthielten sie ein Zähneklappern, ist der Wert von Bt durch das Zähneklappern unbrauchbar gemacht worden und sollte daher nicht dazu verwendet werden, das saubere Sprachsignal abzuschätzen. Für solche Frames wird Bt in Gleichung Eq. 11 als Bt ≈ HYt veranschlagt. Die Klassifizierung der Frames in Sprache enthaltende und in Zähneklappern enthaltende Frames wird vom Verbesserungsmodelltrainer 338 an die Einheit zur Verbesserung der direkten Filterung 340 weitergegeben, so dass diese Substitution in Gleichung Eq. 10 vorgenommen werden kann.
  • Durch das Schätzen von H allein unter Verwendung von Frames, die kein Zähneklappern enthalten, bietet die vorliegende Erfindung einen besseren Schätzwert für H. Dies hilft, die Nullen, die in den höheren Frequenzen der Schätzwerte für das saubere Signal nach herkömmlicher Technik vorhanden waren, zu reduzieren. Indem das Signal des alternativen Sensors in den Frames, die ein Zähneklappern enthalten, nicht verwendet wird, bietet die vorliegende Erfindung zusätzlich bessere Schätzwerte für die sauberen Sprachwerte für diese Frames.
  • Das Flussdiagramm aus 4 zeigt eine Batch-Aktualisierung des Ansprechverhaltens der Kanäle und der Klassifizierung der Frames, die ein Zähneklappern enthalten. Diese Batch-Aktualisierung wird über eine vollständige Äußerung durchgeführt. 6 stellt ein Flussdiagramm eines laufenden oder „online ausgeführten" Verfahrens bereit, mit dem die Werte des Ansprechverhaltens der Kanäle aktualisiert und das saubere Sprachsignal geschätzt werden.
  • In Schritt 600 der 6 werden ein Wert eines Luftleitungsmikrofons Yt und ein Wert eines alternativen Sensors Bt zu einem Frame zusammengeführt. In Schritt 602 ermittelt die Spracherkennungseinheit 500, ob der Frame Sprache enthält. Es können für diese Ermittlung die gleichen Verfahren eingesetzt werden, die oben beschrieben wurden. Wenn der Frame keine Sprache enthält, werden in Schritt 604 die Varianz der Hintergrundgeräusche, die Varianz der Geräusche am alternativen Sensor und der Schätzwert von G aktualisiert. Insbesondere werden die Varianzen aktualisiert mit
    Figure 00170001
    wobei d die Anzahl der Frames ohne Sprache, die bearbeitet wurde, und Gd-1 den Wert von G vor dem aktuell bearbeiteten Frame darstellt.
  • Der Wert von G wird aktualisiert mit
    Figure 00170002
    wobei: J(d) = cJ(d – 1) + (σ2ν |BT|2 – σ2w |YT|2) Eq. 15 K(d) = cK(d – 1) + B*T YT Eq. 16wobei c ≤ 1, womit eine wirkungsvolle Darstellungslänge geboten wird.
  • Wenn der aktuelle Frame ein Sprache-Frame ist, wird in Schritt 606 der Wert von F mit der oben stehenden Gleichung Eq. 9 berechnet. Dieser Wert von F wird einem Puffer hinzugefügt, der die Werte von F der vorangegangenen Frames und der Klassifikation jener Frames mit oder ohne Klappern enthält.
  • Indem der Wert von F auf den aktuellen Frame und ein Schwellenwert für F mit Zähneklappern angewendet werden, wird in Schritt 608 der aktuelle Frame entweder als Frame mit Zähneklappern oder als Frame ohne Zähneklappern klassifiziert. Dieser Schwellenwert wird zu Beginn unter Anwendung des oben beschriebenen Chi-Quadrat-Verteilungsmodells gesetzt. Der Schwellenwert wird mit jedem neuen Frame aktualisiert, wie nachfolgend beschrieben wird.
  • Wenn der aktuelle Frame in Schritt 610 als Frame mit Zähneklappern klassifiziert wurde, wird die Anzahl der Frames im Puffer, die als Frames mit Zähneklappern klassifiziert wurden, in Schritt 612 gezählt, um zu ermitteln, ob der prozentuale Anteil der Frames mit Zähneklappern im Puffer einen ausgewählten prozentualen Anteil der Gesamtzahl der Frames im Puffer überschreitet.
  • Wenn der prozentuale Anteil der Frames mit Zähneklappern den ausgewählten prozentualen Anteil, der in 6 mit fünf Prozent ausgewiesen ist, übersteigt, wird der Schwellenwert für F in Schritt 614 erhöht, so dass der ausgewählte prozentuale Anteil der Frames als Frames mit Zähneklappern klassifiziert wird. Die Frames im Puffer werden dann unter Anwendung des neuen Schwellenwerts in Schritt 616 erneut klassifiziert.
  • Wenn der aktuelle Frame in Schritt 618 ein Frame mit Zähneklappern ist oder wenn der prozentuale Anteil der Frames mit Zähneklappern in Schritt 612 den ausgewählten prozentualen Anteil der Gesamtzahl der Frames nicht überschreitet, sollte der aktuelle Frame nicht verwendet werden, um die Parameter des Modells für die Kanalantwort H anzupassen, und der Wert des alternativen Sensors sollte nicht dazu verwendet werden, um den sauberen Sprachwert zu schätzen. Deshalb werden in Schritt 620 die Parameter für die Kanalantwort H gleich ihrem Wert, der aus einem früheren Frame vor dem aktuellen Frame ermittelt wurde, gesetzt und der Wert des alternativen Sensors Bt wird als Bt ≈ HYt geschätzt. Diese Werte von H und Bt werden dann in Schritt 624 verwendet, um den sauberen Sprachwert mittels der oben angeführten Gleichung Eq. 11 zu schätzen.
  • Wenn der aktuelle Frame weder in Schritt 610 noch in Schritt 618 ein Frame mit Zähneklappern ist, werden in Schritt 622 die Modellparameter für die Kanalantwort H auf der Basis der Werte von Bt und Yt für den aktuellen Frame aktualisiert. Im Einzelnen werden die Werte aktualisiert durch
    Figure 00190001
    wobei: J(t) = cJ(d – 1) + (σ2ν |BT|2 – σ2w |YT|2) Eq. 18 K(t) = cK(d – 1) + B*T YT Eq. 19wobei J(t – 1) und K(t – 1) den berechneten Werten für den vorherigen Frame ohne Zähneklappern in der Folge der Frames entsprechen.
  • Die Varianz für H wird dann aktualisiert durch σ2H = .01|H|2 Eq. 20
  • Die neuen Werte für σ2H und Ht werden dann dazu verwendet, um in Schritt 624 den sauberen Sprachwert unter Verwendung der oben stehenden Gleichung Eq. 11 zu berechnen. Da der Wert des alternativen Sensors Bt nicht durch das Zähneklappern verdorben ist, wird der aus dem alternativen Sensor ermittelte Wert direkt in Gleichung Eq. 11 verwendet.
  • Nachdem der saubere Sprachschätzwert in Schritt 624 ermittelt wurde, wird der nächste Sprache-Frame bearbeitet, indem der Prozess zum Schritt 600 zurückkehrt. Der Prozess aus 6 wird fortgesetzt, bis es keine weiteren Sprache-Frames mehr zum Bearbeiten gibt.
  • Gemäß dem Verfahren in 6 werden Sprache-Frames, die durch Zähneklappern verdorben sind, erkannt, bevor die Kanalantwort oder der saubere Sprachwert geschätzt wird. Indem die vorliegende Erfindung dieses Erkennungssystem anwendet, ist sie in der Lage, die Kanalantwort zu schätzen, ohne Frames zu verwenden, die durch Zähneklappern verdorben sind. Dies hilft, das Modell der Kanalantwort zu verbessern und dabei die Abschätzung des sauberen Signals in Frames ohne Zähneklappern zu verbessern. Ferner verwendet die vorliegende Erfindung nicht die Werte des alternativen Sensors aus Frames mit Zähneklappern, wenn sie für diese Frames den sauberen Sprachwert berechnet. Dies verbessert den sauberen Sprachschätzwert für Frames mit Zähneklappern.
  • Obwohl die vorliegende Erfindung mit Bezug auf bestimmte bevorzugte Ausführungsformen beschrieben wurde, werden Fachleute erkennen, dass Änderungen in der Form und in den Details vorgenommen werden können, ohne den Anwendungsbereich der Erfindung, wie sie in den beigefügten Ansprüchen definiert ist, zu verlassen.

Claims (20)

  1. Verfahren zum Bestimmen eines Schätzwertes für einen geräuschreduzierten Wert, der einen Teil eines geräuschreduzierten Sprachsignal darstellt, wobei das Verfahren umfasst: Erzeugen eines Signals eines alternativen Sensors unter Verwendung eines anderen, alternativen Sensors als einen Luftleitungsmikrofon; Erzeugen eines Signals eines Luftleitungsmikrofons; teilweise auf Basis des Signals des Luftleitungsmikrofons Bestimmen, ob ein Teil des Signals des alternativen Sensors durch vorübergehendes Geräusch beeinträchtigt wird; und Schätzen des geräuschreduzierten Wertes auf Basis des Teils des Signals des alternativen Sensors, wenn bestimmt wird, dass der Teil des Signals des alternativen Sensors nicht durch vorübergehendes Geräusch gestört wird.
  2. Verfahren nach Anspruch 1, das des Weiteren umfasst, dass der Teil des Signals des alternativen Sensors nicht verwendet wird, um den geräuschreduzierten Wert zu schätzen, wenn bestimmt wird, dass der Teil des Signals des alternativen Sensors durch vorübergehendes Geräusch gestört wird.
  3. Verfahren nach Anspruch 1, wobei Schätzen des geräuschreduzierten Wertes durch Verwenden eines Schätzwertes einer Kanalantwort umfasst, die mit dem alternativen Sensor verbunden ist.
  4. Verfahren nach Anspruch 3, dass des Weiteren Aktualisieren des Schätzwertes der Kanalantwort auf Basis lediglich von Teilen des Signals des alternativen Sensors umfasst, für die bestimmt wird, dass sie durch vorübergehendes Geräusch nicht gestört werden.
  5. Verfahren nach Anspruch 1, wobei Feststellen, ob ein Teil des Signals des alternativen Sensors durch vorübergehendes Geräusch gestört wird, umfasst: Berechnen des Wertes einer Funktion auf Basis des Teils des Signals des alternativen Sensors und eines Teils des Signals des Luftleitungsmikrofons; und Vergleichen des Wertes der Funktion mit einem Schwellenwert.
  6. Verfahren nach Anspruch 5, wobei die Funktion eine Differenz zwischen einem Wert des Signals des alternativen Sensors und einem Wert des Luftleitungsmikrofons umfasst, der auf eine Kanalantwort angewendet wird, die mit dem alternativen Sensor verbunden ist.
  7. Verfahren nach Anspruch 5, wobei der Schwellenwert auf einer Chi-Quadrat-Verteilung für die Werte der Funktion basiert.
  8. Verfahren nach Anspruch 5, das des weiteren Regulieren des Schwellenwertes umfasst, wenn festgestellt wird, dass mehr als eine bestimmte Anzahl von den Teilen des akustischen Signals durch vorübergehendes Geräusch gestört werden.
  9. Computerlesbares Medium, das durch Computer ausführbare Befehle zum Durchführen von Schritten aufweist, die umfassen, dass: ein Signal von einem anderen, alternativen Sensor als einem Luftleitungsmikrofon empfangen wird; Teile des Signals des alternativen Sensors als entweder vorübergehendes Geräusch enthaltend oder kein vorübergehendes Geräusch enthaltend klassifiziert werden, die Teile des Signals des alternativen Sensors verwendet, die als kein vorübergehendes Geräusch enthaltend klassifiziert werden, um saubere Sprachwerte zu schätzen, und die Teile des Signals des alternativen Sensors nicht verwendet werden, die als vorübergehendes Geräusch enthaltend klassifiziert werden, um saubere Sprachwerte zu schätzen.
  10. Computerlesbares Medium nach Anspruch 9, das des weiteren Verwenden von Teilen eines Signals eines Luftleitungsmikrofons zum Schätzen der sauberen Sprachwerte umfasst.
  11. Computerlesbares Medium nach Anspruch 10, wobei Schätzen eines sauberen Sprachwertes umfasst, dass ein Wert, der von einem Teil des Signals des Luftleitungsmikrofons hergeleitet wird, auf einen Schätzwert einer Kanalantwort angewendet wird, der mit dem alternativen Sensor verbunden ist, wenn ein entsprechender Teil des Signals des alternativen Sensors als vorübergehendes Geräusch enthaltend klassifiziert wird, um einen Schätzwert eines Teils des Signals des alternativen Sensors auszubilden.
  12. Computerlesbares Medium nach Anspruch 9, das des weiteren umfasst, dass ein Teil des Signals des alternativen Sensors, der als kein vorübergehendes Geräusch enthaltend klassifiziert wird, verwendet wird, um eine Kanalantwort zu schätzen, die mit dem alternativen Sensor verbunden ist.
  13. Computerlesbares Medium nach Anspruch 12, wobei Schätzen eines sauberen Sprachwertes umfasst, dass ein Schätzwert der Kanalantwort, der aus einem vorangehenden Teil des Signals des alternativen Sensors bestimmt wird, verwendet wird, wenn ein aktueller Teil des Signals des alternativen Sensors als vorübergehendes Geräusch enthaltend klassifiziert wird.
  14. Computerlesbares Medium nach Anspruch 9, wobei Klassifizieren eines Teils eines Signals des alternativen Sensors umfasst, dass der Wert einer Funktion unter Verwendung des Teils des Signals des alternativen Sensors und eines Teils des Signals des Luftleitungsmikrofons berechnet wird.
  15. Computerlesbares Medium nach Anspruch 14, wobei Berechnen des Wertes der Funktion umfasst, dass eine Summe über Frequenzkomponenten des Teils des Signals des alternativen Sensors gebildet wird.
  16. Computerlesbares Medium nach Anspruch 14, wobei Klassifizieren eines Teils des Signals des alternativen Sensors des Weiteren umfasst, dass der Wert der Funktion mit einem Schwellenwert verglichen wird.
  17. Computerlesbares Medium nach Anspruch 16, wobei der Schwellenwert aus einer Chi-Quadrat-Verteilung bestimmt wird.
  18. Computerlesbares Medium nach Anspruch 16, das des weiteren umfasst, dass der Schwellenwert so reguliert wird, dass nicht mehr als ein ausgewählter Pro zentsatz einer Gruppe von Teilen des Signals des alternativen Sensors als Geräusch enthaltend klassifiziert wird.
  19. Computerimplementiertes Verfahren, das umfasst: Bestimmen eines Wertes für eine Funktion teilweise auf Basis eines Rahmens eines Signals von einem anderen, alternativen Sensor als einem Luftleitungsmikrofon; Vergleichen des Wertes mit einem Schwellenwert, um den Rahmen des Signals entweder als vorübergehendes Geräusch enthaltend oder als kein vorübergehendes Geräusch enthaltend zu klassifizieren; Regulieren des Schwellenwertes, um einen neuen Schwellenwert auszubilden, so dass weniger als ein ausgewählter Prozentsatz einer Gruppe von Rahmen des Signals als Geräusch enthaltend klassifiziert wird; und Vergleichen des Wertes mit dem neuen Schwellenwert, um den Rahmen entweder als vorübergehendes Geräusch enthaltend oder kein vorübergehendes Geräusch enthaltend neu zu klassifizieren.
  20. Verfahren nach Anspruch 19, wobei der Schwellenwert auf Basis einer Chi-Quadrat-Verteilung für Werte der Funktion eingestellt wird.
DE602006000109T 2005-02-04 2006-01-04 Verfahren und Vorrichtung zur Verringerung von Geräuschbeeinträchtigung eines alternativen Sensorsignals während multisensorischer Sprachverstärkung Active DE602006000109T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/050,936 US7590529B2 (en) 2005-02-04 2005-02-04 Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
US50936 2005-02-04

Publications (2)

Publication Number Publication Date
DE602006000109D1 DE602006000109D1 (de) 2007-10-31
DE602006000109T2 true DE602006000109T2 (de) 2008-01-10

Family

ID=36084220

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602006000109T Active DE602006000109T2 (de) 2005-02-04 2006-01-04 Verfahren und Vorrichtung zur Verringerung von Geräuschbeeinträchtigung eines alternativen Sensorsignals während multisensorischer Sprachverstärkung

Country Status (5)

Country Link
US (1) US7590529B2 (de)
EP (1) EP1688919B1 (de)
JP (1) JP5021212B2 (de)
AT (1) ATE373858T1 (de)
DE (1) DE602006000109T2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US7406303B2 (en) 2005-07-05 2008-07-29 Microsoft Corporation Multi-sensory speech enhancement using synthesized sensor signal
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
US8094621B2 (en) * 2009-02-13 2012-01-10 Mitsubishi Electric Research Laboratories, Inc. Fast handover protocols for WiMAX networks
KR101500823B1 (ko) * 2010-11-25 2015-03-09 고어텍 인크 음성 향상 방법, 장치 및 노이즈 감소 통신 헤드셋
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102405793B1 (ko) * 2015-10-15 2022-06-08 삼성전자 주식회사 음성 신호 인식 방법 및 이를 제공하는 전자 장치
KR102192678B1 (ko) 2015-10-16 2020-12-17 삼성전자주식회사 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
US9978397B2 (en) * 2015-12-22 2018-05-22 Intel Corporation Wearer voice activity detection
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
CN115989681A (zh) * 2021-03-19 2023-04-18 深圳市韶音科技有限公司 信号处理系统、方法、装置及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3947636A (en) * 1974-08-12 1976-03-30 Edgar Albert D Transient noise filter employing crosscorrelation to detect noise and autocorrelation to replace the noisey segment
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
DE69527731T2 (de) * 1994-05-18 2003-04-03 Nippon Telegraph & Telephone Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JP3095214B2 (ja) * 1996-06-28 2000-10-03 日本電信電話株式会社 通話装置
JP3097901B2 (ja) * 1996-06-28 2000-10-10 日本電信電話株式会社 通話装置
JPH11265199A (ja) * 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
JP2000102087A (ja) * 1998-09-25 2000-04-07 Nippon Telegr & Teleph Corp <Ntt> 通信装置
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
JP2000261530A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
DE10045197C1 (de) * 2000-09-13 2002-03-07 Siemens Audiologische Technik Verfahren zum Betrieb eines Hörhilfegerätes oder Hörgerätessystems sowie Hörhilfegerät oder Hörgerätesystem
US7617099B2 (en) 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty

Also Published As

Publication number Publication date
EP1688919A1 (de) 2006-08-09
US7590529B2 (en) 2009-09-15
US20060178880A1 (en) 2006-08-10
DE602006000109D1 (de) 2007-10-31
JP2006215549A (ja) 2006-08-17
ATE373858T1 (de) 2007-10-15
JP5021212B2 (ja) 2012-09-05
EP1688919B1 (de) 2007-09-19

Similar Documents

Publication Publication Date Title
DE602006000109T2 (de) Verfahren und Vorrichtung zur Verringerung von Geräuschbeeinträchtigung eines alternativen Sensorsignals während multisensorischer Sprachverstärkung
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60023517T2 (de) Klassifizierung von schallquellen
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE112014003305B4 (de) Verfahren zum Verarbeiten eines akustischen Signals
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE102019110272A1 (de) Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
DE112014004836B4 (de) Verfahren und System zum Verbessern eines verrauschten Eingangssignals
DE112015004185T5 (de) Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE112009000805T5 (de) Rauschreduktion
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
DE102008031150B3 (de) Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60212617T2 (de) Vorrichtung zur sprachverbesserung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition