Die Erfindung betrifft ein Verfahren zur Geräuschreduktion eines ein Störsignal enthal
tenden primären Nutzsignals.
Ein häufig verwendetes Verfahren zur Geräuschreduktion eines gestörten Nutzsignals,
z. B. eines Sprachsignals, Musiksignals etc., ist die spektrale Subtraktion. Vorteil der
spektralen Subtraktion ist die geringe Komplexität und daß das gestörte Nutzsignal nur
in einer Variante (nur 1 Kanal) benötigt wird. Nachteil ist die Signalverzögerung (bedingt
durch die Blockverarbeitung im Spektralbereich), die begrenzte maximal erreichbare
Geräuschreduktion und die Schwierigkeit instationäre Geräusche zu kompensieren.
Stationäre Geräusche können bei noch guter Sprachqualität z. B. um 12 dB reduziert
werden.
Wird eine höhere Geräuschreduktion oder eine bessere Sprachqualität verlangt, sind
mehrere Aufnahmekanäle erforderlich. Es werden z. B. Mikrofon-Arrays verwendet. Von
den verschiedenen Mikrofon-Arrays sind für viele praktische Anwendungen solche
besonders interessant, die mit kleinen geometrischen Abmessungen für die Mikrofon
anordnung auskommen, bsp. kleine differentielle Mikrofon-Arrays (auch superdirektive
Arrays genannt). Insbesondere wird eine adaptive Form dieser Mikrofonanordnung
eingesetzt, wobei zur Adaption ein mittels des LMS-Algorithmus ("least mean square")
betriebenes adaptives Filter verwendet wird; hierbei werden zwei Mikrofone laufzeit
kompensiert auf zwei Arten derart subtrahiert, daß ein "virtuelles" Mikrofon mit
nierenförmiger Richtcharakteristik zum Sprecher und ein "virtuelles" Mikrofon mit
nierenförmiger Richtcharakteristik vom Sprecher abgewandt entsteht. Die Laufzeitkom
pensation entspricht der Zeit, die der Schall für die Distanz zwischen den beiden
Mikrofonen benötigt, z. B. 1.5 cm. Es ergibt sich eine "Rücken-an-Rücken" nierenförmige
Richtcharakteristik. Das zum Sprecher gerichtete Mikrofon ist das primäre Signal für
das adaptive Filter und das entgegengesetzt gerichtete Mikrofon ist das die Störung des
primären Nutzsignals charakterisierende Referenzsignal.
Fig. 1 zeigt eine adaptive Anordnung für einen Strahlformer. Die Laufzeitkompensation
mit einem Allpaß All wird durch Verschiebung um ganze Abtastwerte realisiert. Durch
die oben beschriebene Kombination zweier Einzelmikrofone mit Kugelcharakteristik
ergibt sich eine nierenförmige Richtcharakteristik zum Sprecher und eine entgegenge
setzt gerichtete nierenförmige Richtcharakteristik als Referenzsignal für die Störung.
Das adaptive Filter H1 wird im Zeitbereich mit dem LMS-Algorithmus adaptiert. Ein
Tiefpaß TP am Systemausgang hebt tiefe Frequenzanteile an, die bei der Bildung der
nierenförmigen Richtcharakteristik gedämpft werden.
Die Anordnung der Mikrofone hintereinander gemäß Fig. 1 wird als "end fire array"
bezeichnet, im Gegensatz dazu wird die Anordnung der Mikrofone nebeneinander als
"broad side array" bezeichnet.
Fig. 2 zeigt eine Anordnung für ein "broad side array" aus zwei Mikrofonen im Ab
stand, wobei mit Hilfe der spektralen Subtraktion SPS die beiden Mikrofonsignale vor
verarbeitet werden. Eine Laufzeitkompensation mit dem Allpaß All zwischen beiden Ka
nälen wird ausgeführt und dient dem Ausgleich von Bewegungen des Sprechers. Die
Summe der beiden vorverarbeiteten Mikrofonsignale bildet den primären Eingang und
die Differenz den Referenzeingang für ein adaptives Filter H1. Das adaptive Filter H1 in
dieser Anordnung mit Summen- und Differenzeingang wird auch als ,generalized sidelo
be canceller' bezeichnet. Die Adaption des Filters H1 erfolgt mit dem LMS-Algorithmus,
wobei die Implementierung des LMS-Algorithmus im Frequenzbereich erfolgt. Eine
Nachverarbeitung Post der Mikrofonsignale wird mit einer modifizierten Kreuzkorrelati
onsfunktion im Frequenzbereich durchgeführt. Die grundlegende Struktur mit spektraler
Vorverarbeitung mittels SPS, Strahlformung und Nachverarbeitung Post ist in der Pa
tentschrift EP 0 615 226 B1 beschrieben, wobei eine genaue Spezifizierung des
Strahlformers nicht erfolgt ist. In der DE 43 07 688 A1 wird vorgeschlagen, auf Basis
der spektralen Subtraktion eine Geräuschreduktion der Mikrofonsignale zunächst in
jedem einzelnen der Aufnahmekanäle durchzuführen und zur weiteren Unterdrückung
von Störanteilen die Signale der einzelnen Aufnahmekanäle im nachhinein wieder zu
sammenzuführen.
Fig. 3 zeigt einen Überblick über Schaltungsanordnungen von Mikrofonen zur Bildung
der Richtcharakteristiken für zwei Mikrofone. Die beiden einzelnen Mikrofone selbst
können bereits eine nierenförmige Charakteristik haben oder die sogenannte Kugel
charakteristik. "All" bezeichnet einen Allpaß für den Laufzeitausgleich. "Gain" ist ein
Verstärkungsausgleich zwischen den beiden Aufnahmekanälen; dieser ist in der Praxis
erforderlich, um die Empfindlichkeit der Mikrofonkapseln anzugleichen.
Die Einsprechrichtung in den Polardiagrammen der Richtcharakteristiken ist 90°. Die
ersten 3 Anordnungen a, b und c sind als Sprachkanal geeignet, da bei 90° ein Maxi
mum vorliegt und für die weiteren Richtungen eine Dämpfung vorbanden ist. Anordnung
a und b führen auf die gleiche Richtcharakteristik. Die Anordnungen a, b werden als
Summen- oder Differenz-Array, Anordnung c wird als differentielles Array bezeichnet.
Die Anordnungen d und e haben eine Nullstelle bei 90° im Polardiagramm und sind
damit zur Generierung des Referenzsignals für die Störung (als Störreferenz) geeignet.
Die Nullstelle bei 90° im Polardiagramm ist notwendig, damit keine Sprachanteile in
den Referenzkanal gelangen. Sprachanteile im Referenzkanal führen zur teilweisen
Kompensation der Sprache.
Unter idealen Bedingungen wird sich gemäß den Anordnungen d und e für die Störrefe
renz eine Nullstelle in Richtung zum Sprecher einstellen. In praktischen Anwendungen
wird dies jedoch nicht der Fall sein. Die Folge ist, daß Sprachanteile wie Störungen und
folglich wie Störsignale behandelt werden und damit vom eigentlichen Sprachsignal
entfernt werden.
Strahlformer werden meist nur in den Sprachpausen adaptiert, um keine Adaption an
Sprachanteile zu ermöglichen. Dennoch werden auch in diesem Fall im Referenzkanal
vorhandene Sprachanteile kompensiert, da sie stets den Störungen (dem Geräusch)
überlagert sind.
Eine andere Vorgehensweise ist die Verstärkung von Kanälen anzugleichen, damit bei
deren Subtraktion im Idealfall eine Nullstelle erzeugt wird. Dies ist notwendig, da Mikro
fone aus der Serienfertigung Toleranzen aufweisen. In den Anordnungen der Fig. 3 ist
dies mit dem Funktionsblock "Gain" berücksichtigt, der unterschiedliche Mikrofon-
Empfindlichkeiten ausgleicht.
In Anwendungen wird trotz Empfindlichkeitsausgleich mit "Gain" im Referenzsignal
dennoch keine Nullstelle für das Sprachsignal eingestellt. Nur unter der Voraussetzung,
daß das Mikrofon im akustischen Freifeld betrieben wird (ohne Reflexionen), können die
Sprachanteile vollständig kompensiert werden. Reale Anwendungen haben bedingt
durch Reflexionen einen gewissen Schallanteil aus unterschiedlichen Richtungen, der
eine Nullstelle für das Sprachsignal nicht entstehen läßt. Es wird sich bei Anordnungen
gemäß Fig. 1 oder Fig. 2 stets ein gewisser Sprachanteil und damit ein gewisser
Anteil des primären Nutzsignals im Referenzsignal des Strahlformers wiederfinden, der
zu Sprachverzerrungen führt.
Der vorliegende Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Geräuschre
duktion eines ein Störsignal enthaltenden primären Nutzsignals anzugeben, mit dem
unter Verwendung eines Störreferenzsignals ungünstige, zu Sprachverzerrungen füh
rende Effekte auf einfache Weise vermieden werden.
Die Erfindung ist im Patentanspruch 1 angegeben.
Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind den Unteransprü
chen zu entnehmen.
Die Erfindung geht davon aus, daß zur Bildung des Störreferenzsignals eine einseitige
spektrale Subtraktion durchgeführt wird. Wesentlich ist, daß die spektrale Subtraktion
zur Bildung eines Referenzsignals nur an einem Kanal stattfindet, was mit ,einseitig'
bezeichnet wird. Der eine Kanal enthält damit Nutz- und Störsignale, der zweite Kanal
nach der spektralen Subtraktion nur Nutzsignale. Bei der anschließenden Subtraktion
der beiden Kanäle wird der Nutzanteil subtrahiert und es verbleibt die Störung. Diese
Differenz ist das Störreferenzsignal.
Die Erfindung hat den Vorteil, daß deutlich weniger Nutzsignalanteile, z. B. Sprachanteile
im Störreferenzsignal vorhanden sind als mit den bisherigen Verfahren. Die Beseitigung
der störenden Sprachanteile ist damit unter realen Bedingungen mit Reflexionen des
Sprachsignals in realen Räumen wie z. B. im Kraftfahrzeug möglich.
Werden z. B. Mikrofone zur Aufnahme von Sprachsignalen verwendet, so werden die
Sprachsignale derart verarbeitet, daß das Störreferenzsignal eine Nullstelle zum Spre
cher in der Form einer nierenförmigen oder einer achtförmigen Charakteristik aufweist.
Die einseitige spektrale Subtraktion führt zu einer selbststeuernden Regelung der Cha
rakteristik, derart, daß die Nullstelle nur bei Sprachaktivität entsteht. In Sprachpausen
führt die einseitige spektrale Subtraktion dazu, daß nichts oder nur ein geringes Signal
subtrahiert wird und damit näherungsweise die Charakteristik des Einzelmikrofons (z. B.
Niere oder Kugel) für die Störung zur Verfügung steht.
Die ideale Nullstelle für das Sprachsignal im Störreferenzsignal wird nur mit einer idea
len spektralen Subtraktion im akustischen Freifeld erreicht. Eine ideale spektrale
Subtraktion ergibt das ungestörte Sprachsignal als Ausgangssignal und würde dann
jede weitere Bearbeitung unnötig machen. In der Praxis ergibt die spektrale Subtraktion
nur eine gute Annäherung des Sprachsignals mit Geräuschresten in den Sprachpausen.
Da die einseitige spektrale Subtraktion ergänzend zu der Mikrofon-Nullstelle eingesetzt
wird, vermindern sich die Sprachanteile im Störreferenzsignal deutlich.
Das Restgeräusch der spektralen Subtraktion in Sprachpausen wird mit einem Para
meter eingestellt, dem ,spectral floor'. Der spectral floor b ist der minimale Wert eines
Filterkoeffizienten W der spektralen Subtraktion bei jedem Frequenzindex i. Das Aus
gangssignal Y(i) ergibt sich durch Multiplikation der Filterkoeffizienten W(i) mit dem
Eingangswert X(i):
W(i): = max(W(i), b);
und Y(i) = W(i).X(i);
Der maximale Wert für W ist 1 (Ausgang = Eingang). Wird b = 1 gewählt, ist die spekt
rale Subtraktion praktisch ausgeschaltet. Mit b = 0 erreicht die spektrale Subtraktion
die maximale Wirksamkeit. In der Praxis ergibt sich mit b = 0 eine schlechte Sprach
qualität. Mit dem Parameter b ergibt sich für die vorliegende Erfindung die Möglichkeit,
die einseitige spektrale Subtraktion in ihrer Wirksamkeit kontinuierlich einzustellen. Mit
einem Wert von z. B. b = 0.25 wird eine Geräuschunterdrückung von ca. 12 dB und eine
gute Sprachqualität erzielt.
Die Erfindung wird im folgenden anhand von Ausführungsbeispielen unter Bezugnahme
auf schematische Zeichnungen näher erläutert.
Fig. 4 zeigt drei Blockschaltbilder mit einseitiger spektraler Subtraktion für den Refe
renzeingang.
In Fig. 4a ist das primäre Nutzsignal P des Strahlformers (z. B. ein Sprachsignal) auf ein
differentielles Array DA für die Kanäle 1, 2 geschaltet (Anordnung c in Fig. 3). In Fig.
4b, 4c ist das primäre Nutzsignal P auf ein Summen- und Differenz-Array SD für die
Kanäle 1, 2 geschaltet (Anordnungen a und b in Fig. 3). Der Störreferenzeingang ver
arbeitet das Referenzsignal mit der zusätzlichen Erweiterung der einseitigen spektralen
Subtraktion in differentieller Form gemäß den Anordnungen d und e in Fig. 3. Die
Differenz aus Nutzsignal in Kanal 2 und entstörtem Nutzsignal aus Kanal 1 wird auf das
adaptive Filter H1 gegeben. Das adaptive Filter H1 wird im Zeitbereich oder in einer
äquivalenten Form im Frequenzbereich mit dem LMS-Algorithmus adaptiert. Das gefil
terte Störreferenzsignal R wird anschließend vom primären Nutzsignal P subtrahiert.
Eine weitere Ausgestaltung der Erfindung gemäß Fig. 5 besteht darin, daß die ein
seitige spektrale Subtraktion SPS1 einmal am Kanal 1 für das Nutzsignal durchgeführt
wird, um damit zusammen mit dem Nutzsignal in Kanal 2 ein erstes Referenzsignal R1
zu bilden. Ein zweites Mal wird die einseitige spektrale Subtraktion SPS2 am Nutzsignal
des Kanals 2 durchgeführt, um zusammen mit dem Nutzsignal in Kanal 1 ein zweites
Referenzsignal R2 zu bilden. Es entsteht ein System mit 2 Referenzsignalen, die vom
primären Nutzsignal P subtrahiert werden. Bei Sprachsignalen wird in den Sprachpau
sen die Störung jeweils mit der Charakteristik der Einzelmikrofone erfaßt und bei
Sprachaktivität eine Nullstelle für das Sprachsignal erzeugt.
Entsprechend den Erläuterungen zu den Blockschaltbildern der Fig. 4 wird die Ab
wandlung mit 2 Referenzeingängen für eine ,end fire array'-Mikrofonanordnung oder
eine ,broad side array'-Mikrofonanordnung verwendet. Fig. 5 zeigt das Blockschalt
schild für die, end fire array'-Mikrofonanordnung. Der Strahlformer besteht aus dem
Kanal 1 für das Sprachsignal und zwei Referenzkanälen 2, 3. Jeder Referenzeingang
wird von einem adaptiven Filter H1 bzw. H2 gefiltert. Der Filterabgleich erfolgt mit einem
mehrkanaligen LMS-Algorithmus.
Stehen mehr als 2 Eingangssignale zur Verfügung, so wird durch Kombination von je
weils 2 Eingängen in der beschriebenen Weise eine einseitige spektrale Subtraktion
durchgeführt, um ein Referenzsignal zu erhalten. Wird z. B. eine ,broad side array'-
Mikrofonanordnung mit 3 Mikrofonen angenommen, ergeben sich für die Paarbildung 6
Kombinationen. Wird berücksichtigt, daß bei jedem Paar die einseitige spektrale Sub
traktion wahlweise bei dem einen oder dem anderen Kanal durchgeführt wird, so
verdoppelt sich die Anzahl der Kombinationen und somit die Anzahl der Referenzkanäle.
Bei einem Array aus mehreren Mikrofonen wird eine eingeschränkte Anzahl aus den
möglichen Kombinationen verwendet.
Die Erfindung ist nicht auf die Aufzeichnung der Nutzsignale durch Mikrofone be
schränkt, sondern es können Empfangssysteme wie z. B. Antennen verwendet werden.
Nutzsignale können jegliche Art von akustischen und elektrischen Signalen sein.