DE69534942T2 - System zur sprecher-identifizierung und-überprüfung - Google Patents

System zur sprecher-identifizierung und-überprüfung Download PDF

Info

Publication number
DE69534942T2
DE69534942T2 DE69534942T DE69534942T DE69534942T2 DE 69534942 T2 DE69534942 T2 DE 69534942T2 DE 69534942 T DE69534942 T DE 69534942T DE 69534942 T DE69534942 T DE 69534942T DE 69534942 T2 DE69534942 T2 DE 69534942T2
Authority
DE
Germany
Prior art keywords
speech
transfer function
adaptive component
cepstrum
component weighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69534942T
Other languages
English (en)
Other versions
DE69534942D1 (de
Inventor
J. Richard Bridgewater MAMMONE
T. Khaled Tempe ASSALEH
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rutgers State University of New Jersey
Original Assignee
Rutgers State University of New Jersey
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rutgers State University of New Jersey filed Critical Rutgers State University of New Jersey
Application granted granted Critical
Publication of DE69534942D1 publication Critical patent/DE69534942D1/de
Publication of DE69534942T2 publication Critical patent/DE69534942T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Erfindungsgebiet
  • Die vorliegende Erfindung betrifft ein Sprecher-Erkennungssystem oder eine ähnliche Vorrichtung, die eine adaptive Gewichtung von Komponenten in jedem Sprachrahmen für die Normierung des Sprachspektrums anwendet, wodurch Kanaleinflüsse verringert werden.
  • 2. Beschreibung des betreffenden Standes der Technik
  • Die Aufgabe eines Sprecher-Identifizierungssystems ist es, aus einer Äußerung zu bestimmen, um welchen Sprecher es sich handelt. Alternativ ist es eine Aufgabe des Sprecher-Überprüfungssystems, anhand einer Äußerung die von einem Sprecher beanspruchte Identität zu überprüfen. Systeme zur Sprecher-Identifizierung und Sprecher-Überprüfung können in der allgemeinen Kategorie von Sprecher-Erkennungssystemen definiert werden.
  • Es ist bekannt, dass typische Telefon-Vermittlungssysteme Rufe zwischen denselben Start- und Endstandorten oft über unterschiedliche Kanäle leiten. Ein Sprachspektrum, das auf jedem der Kanäle bestimmt wird, kann wegen der Einflüsse des Kanals eine unterschiedliche Form aufweisen. Außerdem kann ein Sprachspektrum, das in einer verrauschten Umgebung erzeugt wird, eine andere Form aufweisen als ein Sprachspektrum, das durch denselben Sprecher in einer ruhigen Umgebung erzeugt wird. Die Spracherkennung auf unterschiedlichen Kanälen oder in einer verrauschten Umgebung ist deshalb wegen der Veränderungen im Sprachspektrum aufgrund von Nicht-Vokaltrakt-Komponenten schwierig.
  • In herkömmlichen Verfahren wurde versucht, das Sprachspektrum zu normieren, um es hinsichtlich der spektralen Form zu korrigieren. Die US-Patentschrift Nr. 5,001,761 beschreibt eine Vorrichtung zur Sprachnormierung um eine bestimmte Frequenz herum, die einen Rauscheinfluss aufweist. Ein Sprachspektrum wird bei der vorgegebenen Frequenz abgeteilt. Für jedes abgeteilte Spektrum wird eine lineare Näherungslinie bestimmt, und die Näherungslinien werden für die Normierung des Spektrums bei der vorgegebenen Frequenz verbunden. Diese Vorrichtung weist den Nachteil auf, dass jeder Sprachrahmen nur für die vorgegebene Frequenz normiert ist, welche den Rauscheinfluss aufweist, und dass der Sprachrahmen nicht normiert ist hinsichtlich einer Verminderung von Nicht-Vokaltrakt-Einflüssen, die in dem Spektrum über einen Frequenzbereich hinweg auftreten können.
  • Die US-Patentschrift Nr. 4,926,488 beschreibt ein Verfahren zur Sprachnormierung für eine Verstärkung der Spracheingabe, um das Rauschen, das mit dem Sprachsignal einhergeht, zu berücksichtigen. Dieses Verfahren erzeugt Sprachmerkmalsvektoren. Ein Merkmalsvektor wird durch eine Operatorfunktion normiert, die eine Anzahl von Parametern enthält. Für den normierten Vektor wird ein nächstliegender Prototypvektor bestimmt, und die Operatorfunktion wird verändert, um den normierten Vektor näher an den nächstliegenden Prototyp zu schieben. Der geänderte Operatorvektor wird auf den nächsten Merkmalsvektor bei dessen Umformung in einen normierten Vektor angewendet. Dieses Patent weist die Einschränkung auf, dass es keine Nicht-Vokaltrakt-Einflüsse berücksichtigt, die über mehr als eine Frequenz hinweg auftreten könnten.
  • Das Sprechen wurde herkömmlicherweise in einer Form modelliert, welche den menschlichen Vokaltrakt nachbildet. Zur Beschreibung kurzer Sprachabschnitte wurde das lineare Vorhersagekodieren (Linear predictive coding, LPC) eingesetzt, indem Parameter verwendet wurden, die in ein Spektrum von Lagen (Frequenzen) und Formen (Bandbreiten) von Spitzenwerten in der spektralen Hüllkurve der Sprachelemente transformiert werden können. Cepstral-Koeffizienten stellen die inverse Fourier-Transformation des Logarithmus des Leistungsspektrums eines Signals dar. Die Cepstral-Koeffizienten können aus dem Frequenzspektrum oder aus den linearen Vorhersage-(LP)-Koeffizienten abgeleitet werden. Die Cepstral-Koeffizienten können als maßgebliche Merkmale für die Sprechererkennung verwendet werden. Gewöhnlich werden zwölf Cepstral-Koeffizienten für jeden Sprachrahmen gebildet.
  • Es wurde festgestellt, dass für das Synthetisieren oder Erkennen von Sprache ein reduzierter Satz von Cepstral-Koeffizienten verwendet werden kann. In der US-Patentschrift Nr. 5,165,008 wird ein Verfahren zum Synthetisieren von Sprache beschrieben, in dem fünf Cepstral-Koeffizienten für jedes Segment von sprecherunabhängigen Daten verwendet wird. Der Satz von fünf Cepstral-Koeffizienten wird durch lineare Vorhersageanalyse festgelegt, um einen Koeffizientengewichtungsfaktor zu bestimmen. Der Koeffizientengewichtungsfaktor minimiert einen nicht quadrierten Vorhersagefehler eines jeden Elements eines Vektors im Vokaltrakt-Quellraum. Auf jeden Sprachrahmen werden die gleichen Koeffizienten-Gewichtungsfaktoren angewendet, und die Nicht-Vokaltrakt-Einflüsse werden nicht berücksichtigt.
  • Der der Erfindung nächstkommenste Stand der Technik wird in Hangai u.a. „Speaker Identification Based on Multiple Excitation and LPC Vocal-Tract Model", ICSLP 1990, S. 1269–1272 offenbart, wo eine schnelle Technik zur Sprecheridentifizierung beschrieben wird, in der lediglich einige Glottallautparameter kombiniert mit einigen LPC-Vokaltraktparametern verwendet werden. Für Selbstlautsignale wird der Vokaltrakt durch eine Allpol-Übertragungsfunktion modelliert, für glottale Signale wird ein Mehrpuls-Stimmritzenerregungsmodell verwendet.
  • Es ist wünschenswert, ein Spracherkennungssystem bereitzustellen, in dem das Sprachspektrum normiert ist, um eine adaptive Gewichtung von Sprachkomponenten für jeden Sprachrahmen bereitzustellen, um die Vokaltraktmerkmale des Signals zu verbessern, während die Nicht-Vokaltrakt-Einflüsse verringert werden.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Das Verfahren der vorliegenden Erfindung nutzt die Tatsache, dass es einen Unterschied zwischen Sprachkomponenten und Nicht-Vokaltrakt-Komponenten in Verbindung mit der Form eines Spektrums für die Komponenten bezüglich der Zeit gibt. Es wurde festgestellt, dass Nicht-Vokaltrakt-Komponenten, wie z.B. Kanal- und Rauschkomponenten, im Spektrum eine Bandbreite aufweisen, die wesentlich größer ist als die Bandbreite für die Sprachkomponenten. Die Sprachaufklärung wird durch Abschwächen der Komponenten mit einer großen Bandbreite verbessert, während die Komponenten mit einer kleinen Bandbreite, die zur Sprache gehören, hervorgehoben werden. Die verbesserte Sprachaufklärung kann in solchen Erzeugnissen, wie Hochleistungs-Spracherkennungsvorrichtungen, verwendet werden.
  • Das Verfahren umfasst die Analyse eines analogen Sprachsignals durch Umwandeln des analogen Sprachsignals in die digitale Form, um fortlaufende Digitalsprachrahmen zu erzeugen. Die Digitalsprachrahmen werden eingehend analysiert, wobei die lineare Vorhersageanalyse verwendet wird, um ein Sprachspektrum und einen Satz von Sprachparametern, die als Vorhersagekoeffizienten bekannt sind, abzuleiten. Die Vorhersagekoeffizienten weisen eine Anzahl von Polen eines Allpol-Filters auf, welche die Komponenten der Sprachrahmen charakterisieren. Die Komponenten des Spektrums können normiert werden, um den Beitrag der herausragenden Komponenten auf Basis ihrer zugehörigen Bandbreiten zu verstärken. Auf die Komponenten des Spektrums werden adaptive Komponentengewichtungen angewendet, um die Komponenten zu verstärken, die mit der Sprache verbunden sind, und die Komponenten abzuschwächen, die mit nicht sprachlichen Einflüssen verbunden sind. Auf der Basis des normierten Spektrums werden Cepstral-Koeffizienten bestimmt, um verstärkte Merkmale des Sprachsignals bereitzustellen. Die verbesserte Klassifizierung wird in einem Sprechererkennungssystem auf der Basis der verstärkten Merkmale ausgeführt.
  • Vorzugsweise kann das Sprechererkennungssystem der vorliegenden Erfindung zur Überprüfung der Identität einer Person über ein Telefonsystem für Kreditkartengeschäfte, Telefonabrechnungskartengeschäfte und für die Zugangsgewährung in Computernetze verwendet werden. Außerdem kann das Sprechererkennungssystem für sprachaktivierte Schließeinrichtungen für Türen, sprachaktivierte Fahrzeugantriebe und sprachaktivierte Computersysteme verwendet werden.
  • Die Erfindung wird weiter mit Bezugnahme auf die folgenden Zeichnungen verständlich.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Flussdiagramm des Systems der vorliegenden Erfindung während des Trainings des Systems.
  • 2 ist ein Flussdiagramm des Systems der vorliegenden Erfindung während der Sprecher-Identifizierung oder -Überprüfung.
  • 3 ist ein Flussdiagramm des Verfahrens der vorliegenden Erfindung für die Rahmenauswahl und die Merkmalsgewinnung.
  • 4 ist ein Blockdiagramm eines Experiments zur Empfindlichkeit von LP-Spektralkomponentenparametern, die schmale und breite Bandbreiten mit Bezug auf einen Zufalls-Einzelabgriffskanal aufweisen.
  • 5A ist eine Histogrammanalyse für eine Breitbandkomponente ωbb.
  • 5B ist eine Histogrammanalyse für eine Breitbandkomponente Bbb.
  • 5C ist eine Histogrammanalyse für eine Breitbandkomponente rbb.
  • 6A ist eine Histogrammanalyse für eine Schmalbandkomponente ωnb.
  • 6B ist eine Histogrammanalyse für eine Schmalbandkomponente Bnb.
  • 6C ist eine Histogrammanalyse für eine Schmalbandkomponente rnb.
  • 7A ist eine grafische Darstellung der Komponente eines LP-Spektrums vom Stand der Technik.
  • 7B ist eine grafische Darstellung der Komponenten des ACW-Spektrums.
  • 8A ist eine grafische Darstellung der Komponenten eines LP-Spektrums vom Stand der Technik nach der Bearbeitung durch einen Einzelabgriffskanal mit (1 – 0,9 z–1).
  • 8B ist eine grafische Darstellung der Komponenten des ACW-Spektrums nach der Bearbeitung durch einen Einzelabgriffskanal mit (1 – 0,9 z–1).
  • AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
  • In der gesamten Beschreibung werden gleiche Ziffern verwendet, um gleiche Elemente gemäß den verschiedenen Figuren, welche die Erfindung veranschaulichen, zu kennzeichnen.
  • 1 veranschaulicht ein schematisches Diagramm des Spracherkennungssystems 10 während des Systemtrainings. Einem Analog-Digital-Wandler 12 wird ein Sprachtrainings-Eingabesignal 11 zugeführt, um fortlaufende Digitalsprachrahmen bereitzustellen. Das Merkmalsgewinnungsmodul 13 empfängt die Digitalsprachrahmen. Das Merkmalsgewinnungsmodul 13 erhält charakteristische Parameter der Digitalsprachrahmen. Zur Sprechererkennung sind die Merkmale, die im Merkmalsgewinnungsmodul 13 gewonnen wurden, für den Sprecher eindeutig, um eine adäquate Sprechererkennung zu ermöglichen.
  • Die Sprechermodellierung wird im Block 15 ausgeführt, indem die Merkmale im Merkmalgewinnungsmodul 13 verstärkt werden. Das Sprechermodellierungsmodul 15 kann auch die Anzahl der gewonnenen Merkmale auf die dominierenden Merkmale zurückführen, die für die Sprecherkennung benötigt werden. Die Klassifikation wird an den verstärkten Merkmalen ausgeführt. Vorzugsweise kann die Klassifikation mit einem herkömmlichen Vektorquantisierungsverfahren ausgeführt werden, um ein universelles Kodebuch für jeden Sprecher zu erzeugen. Alternativ kann die Klassifikation durch Mehrschichtwahrnehmung, neuronale Netze, Radialbasisfunktionsnetze und Hidden-Markov-Modelle ausgeführt werden. Es ist einzusehen, dass andere Klassifikationsverfahren, die vom Stand der Technik her bekannt sind, mit den Lehren aus der vorliegenden Erfindung verwendet werden könnten.
  • In 2 ist ein Sprechererkennungssystem 10 für die Sprecher-Identifizierung und -Überprüfung dargestellt. Im Analog-Digital-Wandler 12 wird ein Sprachbewertungs-Eingabesignal 16 digitalisiert und auf das Merkmalgewinnungsmodul 13 angewendet. Die verstärkten Merkmale des Spracheingabesignals werden bei einem Musterabstimmungsmodul 17 aufgenommen. Das Nlusterabstimmungsmodul 17 bestimmt die stärkste Übereinstimmung in dem universellen Kodebuch oder Beispielklassifikationssystem, um entweder die Identifizierung des Sprechers festzustellen oder zu bestätigen, dass der Sprecher einen Eintrag im universellen Kodebuch aufweist.
  • 3 veranschaulicht ein Flussdiagramm einer bevorzugten Ausführungsform für die Ausführung eines Merkmalgewinnungsblocks 13. Ein Sprachrahmen s(k) kann durch ein Modulationsmodell (MM) dargestellt werden. Das Modulationsmodell (MM) enthält Parameter, welche eine Anzahl N von amplitudenmodulierten (AM) und frequenzmodulierten (FM) Komponenten kennzeichnen. Der Sprachrahmen kann durch die folgende Formel dargestellt werden:
    Figure 00080001
    wobei Ai(k) die Amplitudenmodulation der i-ten Komponente, Φi(k) die momentane Phase der i-ten Komponente und η(k) der Modellierungsfehler ist.
  • Die Amplitudenmodulationskomponente Ai(k) und die momentane Phasenkomponente Φi(k) sind typische Schmalbandsignale. Zum Bestimmen der Modulationsfunktionen über ein Zeitintervall einer Teilungsperiode kann die lineare Vorhersageanalyse verwendet werden, um zu erhalten:
    Figure 00080002
    wobei Gi die Komponentenverstärkung, Bi die Bandbreite, ωi die Mittenfrequenz und Θi die relative Verzögerung ist.
  • Das Sprachsignal s(k) wird auf den Block 112 angewendet, um im Block 114 lineare Vorhersagekodierungs-(LPC)-Koeffizienten zu erhalten. Ein LP-Polynom A(z) für das Sprachsignal kann durch die folgende Gleichung
    Figure 00090001
    erhalten werden, wobei die ai die linearen Vorhersagekoeffizienten sind und P die Ordnung der Koeffizienten ist.
  • In der linearen Vorhersagekodierungsanalyse kann die Übertragungsfunktion des Vokaltraktes durch ein zeitabhängiges Allpol-Filter modelliert werden, das durch eine LP-Analyse P-ter Ordnung gegeben ist, die wie folgt definiert ist:
    Figure 00090002
  • Die Wurzeln von A(z) können im Block 116 mittels Faktorisieren des LP-Polynoms A(z) hinsichtlich seiner Wurzeln bestimmt werden, was ergibt:
    Figure 00090003
    wobei die zi die Wurzeln des LP-Polynoms A(z) sind und P die Ordnung des LP-Polynoms ist. Im Allgemeinen sind die Wurzeln des LP-Polynoms komplex und liegen bei einem radialen Abstand von etwa eins vom Ursprung der komplexen z-Ebene entfernt.
  • Es wird eine neue Übertragungsfunktion Ĥ(z) bestimmt, um die Komponenten mit einer großen Bandbreite, die zu den Nicht-Vokaltrakt-Einflüssen gehören, abzuschwächen und die Komponenten mit einer kleinen Bandbreite, die zur Sprache gehören, hervorzuheben.
  • Ĥ(z) kann in einer Form gleichlaufend zu Gleichung 108 durch eine Partialbruchentwicklung als
    Figure 00100001
    dargestellt werden, wobei das Residuum ri den Beitrag einer jeden Komponente (1 – zi z–1) zur Funktion Ĥ(z) darstellt. Die Residuen ri stellen die relative Verstärkung und die Phasenverschiebung einer jeden Komponente i dar, welche als die spektrale Neigung des zusammengesetzten Spektrums definiert werden kann.
  • Der Rahmenauswahlblock 118 wählt aus oder verwirft Sprachrahmen 112 für die weitere Bearbeitung auf Basis der Zahlenwurzeln, die in einem festgelegten Bereich in der z-Ebene innerhalb eines Einheitskreises liegen.
  • Im Block 120 wird für jeden ausgewählten Rahmen
    Figure 00100002
    gebildet. Im Block 122 werden die Koeffizienten (bi) derart berechnet, dass
    Figure 00100003
    ist. Durch Normieren der Residuen ergibt ri einen anteiligen Beitrag jeder Komponente i zum Spektrum ausgehend von ihrer Bandbreite. Das Normieren der Residuen ri wird ausgeführt, indem die ri gleich einer Konstanten, wie z.B. Eins, gesetzt werden. Zum Beispiel ist dann, wenn ri gleich Eins gesetzt wird, der Beitrag der Komponente i ungefähr:
    Figure 00110001
    was äquivalent ist zur Gleichung
  • Figure 00110002
  • Ausgehend von Gleichung 114 wird gezeigt, dass der Beitrag einer jeden Komponente i indirekt proportional zu ihrer Bandbreite Bi ist, und wenn eine Komponente i eine große Bandbreite Bi aufweist, wird der Wert der Gleichung 114 kleiner sein als dann, wenn die Komponente i eine kleine Bandbreite Bi aufweist. Das Normieren der Residuen ri kann als eine adaptive Komponentengewichtung (ACW) definiert werden, welche im Block 122 als eine Gewichtung der Spektralkomponenten eines jeden Sprachrahmens auf Basis der Bandbreite Anwendung findet.
  • Ausgehend von den obigen Erkenntnissen wird auf der Basis von ACW eine neue Übertragungsfunktion Ĥ(z) durch die folgende Gleichung dargestellt
    Figure 00110003
    welche die Nicht-Vokaltrakt-Komponenten abschwächt, während sie die Sprachkomponenten verstärkt.
  • Ausgehend von Gleichung 115 wird gezeigt, das Ĥ(z) keine Allpol-Übertragungsfunktion ist. Ĥ(z) weist eine Gleitdurchschnittskomponente (MA) auf, die von der Ordnung P – 1 ist, welche den Beitrag der Sprachkomponenten des Signals normiert.
  • Vom Stand der Technik her ist bekannt, dass Cepstral-Komponenten als spektrale Informationen verwendet werden, wie in M. R. Schroeder, Direct (nonrecursive) relations between cepstral and predictor coefficients, Proc. IEEE 29, 297–301, April 1981, dargestellt ist. Der Block 124 bestimmt den Cepstral-Koeffizienten c(n), welcher den LP-Koeffizienten ai entspricht. Im Block 126 wird die adaptive Komponentengewichtung
    Figure 00120001
    festgelegt, wobei der Cepstral-Koeffizient cN(n) zu den adaptiven Komponentengewichtungskoeffizienten bi gehört und die cN(n) aus der Rekursionsbeziehung mit den Koeffizienten bk aus N(z), das in Gleichung (7) gegeben ist, berechnet werden können. Diese Beziehung ist gegeben durch
    Figure 00120002
  • Im Block 128 wird das ACW-Cepstrum berechnet. Das ACW-Cepstrum ĉ(n) kann definiert werden als die inverse z-Transformierte des natürlichen Logarithmus des ACW-Cepstrums Ĥ(z).
  • Figure 00120003
  • Figure 00130001
  • Somit ist das ACW-Cepstrum ĉ(n) gegeben durch ĉ(n) = c(n) – cN(n).
  • In einer alternativen Ausführungsform können die Cepstral-Koeffizienten in der folgenden Beziehung durch die Potenzsumme der Pole definiert werden, die zum Cepstral-Index normiert sind:
    Figure 00130002
    wobei cn der Cepstral-Koeffizient ist.
  • Die Cepstral-Koeffizienten cn können durch die Wurzel des LP-Polynoms A(z), das durch Gleichung 106 definiert ist, ausgedrückt werden als
    Figure 00130003
  • Es ist bekannt, dass die Vorhersagekoeffizienten ai reell sind. Die Wurzeln des LP-Polynoms A(z), das durch die Gleichung 106 definiert ist, sind entweder reell oder treten in komplex konjugierten Paaren auf. Jede Wurzel des LP-Polynoms A(z) ist in der folgenden Beziehung mit der Mittenfrequenz ωi und der Bandbreite Bi verknüpft:
    Figure 00130004
    wobei die Mittenfrequenz ωi und die Bandbreite Bi erhalten werden können aus:
    Figure 00140001
    mit Im(zi) als den imaginären Wurzeln und Re(zi) als den reellen Wurzeln und
    Figure 00140002
  • Das Einsetzen von Gleichung 118 in die Gleichung 117 ergibt die Cepstral-Koeffizienten für das Sprachsignal s(k), das wie folgt definiert werden kann:
    Figure 00140003
    wobei der n-te Cepstral-Koeffizient cn eine nichtlineare Transformation der MM-Parameter ist. Der Quefrenzindex n entspricht der Zeitvariablen k in Formel 100, wobei die relativen Verzögerungen Φi gleich null und der relative Verstärkungsgrad Gi gleich eins gesetzt ist.
  • Aus der neuen Übertragungsfunktion Ĥ(z) kann ein Spektralkanal- und Neigungsfilter N(z) bestimmt werden. N(z) ist ein LP-Polynom, das den Kanal und die spektrale Neigung des Sprachspektrums verkörpert, welches definiert werden kann als:
    Figure 00140004
    wobei b die linearen Vorhersagekoeffizienten darstellt und P die Ordnung des Polynoms ist. Ein FIR-Filter, das die Sprachkomponenten des Signals normiert, kann definiert werden durch
    Figure 00150001
  • Das Faktorisieren des LP-Polynoms N(z), wie es durch Gleichung 126 definiert ist, und von A(z), wie es durch Gleichung 110 definiert ist, ergibt die neue Übertragungsfunktion Ĥ(z), die wie folgt definiert ist:
    Figure 00150002
    wobei die zi die Wurzeln des durch Gleichung 126 definierten LP-Polynoms sind.
  • Ein Spektrum mit einer adaptiven Komponentengewichtung (ACW) kann mittels der folgenden Gleichung
    Figure 00150003
    durch sein normiertes Cepstrum ĉ(n) dargestellt werden.
  • Für jeden digitalen Sprachrahmen wird ein normiertes Cepstrum ĉ(n) berechnet. Das normierte Cepstrum schwächt die Nicht-Vokaltrakt-Komponenten und verstärkt die Sprachkomponenten eines herkömmlichen Cepstralspektrums. Das festgelegte normierte Cepstralspektrum kann im Merkmalgewinnungsblock 13 oder Musterabstimmungsblock 17 verwendet werden.
  • Die Empfindlichkeit der Parameter (ωi, Bi, ri) mit Bezug auf Kanalveränderungen wurde experimentell mit dem folgenden Experiment ermittelt, das in 4 veranschaulicht ist.
  • Ein stimmgebundener Sprachrahmen 100 wird durch einen Zufalls-Einzelabgriffskanal 200 bearbeitet, der gegeben ist durch Θj(z) = 1 – ajz–1
  • Im Block 202 werden für jedes aj, j = 1, 2 ... J, die Parameterfolgen (ωi, Bi, ri) berechnet. Zwei Parameterfolgen (ωi, Bi, ri), die eine Schmalbandkomponente (nb) und eine Breitbandkomponente (bb) darstellen, werden ausgewählt. Diese Komponenten werden als (ωnb, Bnb, rnb) bzw. (ωbb, Bbb, rbb) bezeichnet. Die Empfindlichkeit der Parameter der ausgewählten Schmalband- und Breitbandkomponenten wird durch den Histogrammanalyseblock 204 ermittelt.
  • Für die Breitbandkomponente sind die Histogramme der Parameter ωbb, Bbb und rbb in den jeweiligen 5A, 5B und 5C dargestellt. Die Breitbandhistogramme zeigen auf, dass die Mittenfrequenzen ωbb, Bandbreiten Bbb und Residuen rbb, die zu den Breitbandkomponenten gehören, wesentlich größere Streuungen bezüglich der Veränderungen der Kanalparameter aufweisen. Die Breitbandkomponenten bringen eine unerwünschte Veränderlichkeit des LP-Spektrums mit sich, welche Fehlzuordnungen zwischen Merkmalen ähnlicher Sprachsignale, die durch unterschiedliche Kanäle bearbeitet wurden, erzeugt.
  • Für die Schmalbandkomponente sind die Histogramme der Parameter ωnb, Bnb und rnb in den jeweiligen 6A, 6B und 6C dargestellt. Die Schmalbandhistogramme zeigen auf, dass die Mittenfrequenzen ωnb und die Bandbreiten Bnb, die mit den Schmalbandkomponenten verbunden sind, relativ unveränderlich bei Kanalveränderungen sind, da die Histogramme sehr kleine Streuungen aufweisen. Die Residuen, die mit den Schmalbandkomponenten verbunden sind, zeigen große Streuungen.
  • 7A veranschaulicht die Zerlegung eines Sprachspektrums vom Stand der Technik für einen Sprecher über einen Kanal mit der Übertragungsfunktion H(z). Die mit 14 bezeichneten Komponenten stellen Resonanzen des Vokaltraktes dar. Ein Spitzenwert in der Resonanz tritt bei einer Mittenfrequenz auf, die durch ω1–ω4 bezeichnet ist. Jede Resonanz weist eine jeweilige Bandbreite auf, die mit B1–B4 bezeichnet ist. Die mit 5 und 6 bezeichneten Komponenten stellen Nicht-Vokaltrakt-Einflüsse dar. 7A zeigt, dass die mit B5 und B6 bezeichneten Bandbreiten, die Nicht-Vokaltrakt-Einflüsse darstellen, viel größer sind als die Bandbreiten B1–B4 für Sprachkomponenten.
  • 7B veranschaulicht eine Zerlegung des in 4 gezeigten Sprachspektrums nach Anwenden der adaptiven Komponentengewichtungs-Übertragungsfunktion Ĥ(z). In 7B werden die Spitzenwerte der Komponenten 14 hervorgehoben und die Spitzenwerte der Komponenten 5 und 6 abgeschwächt.
  • 8A veranschaulicht ein dem Stand der Technik entsprechendes Spektrum eines Sprachsignals einschließlich von Vokal- und Nicht-Vokaltrakt-Komponenten. 8B veranschaulicht ein Spektrum eines Sprachsignals nach Anwenden eines adaptiven Komponentengewichtungsfilters. 8B normiert die Spitzenwerte 14 auf einen Wert von ungefähr 30 dB zum Hervorheben der Sprachkomponenten des Signals.
  • Es wurde ein textunabhängiges Sprecheridentifizierungsbeispiel ausgeführt. Es wurde eine Untermenge einer DARPA-TIMIT-Datenbank verwendet, welche 38 Sprecher des gleichen Dialekts (New England) repräsentiert. Jeder Sprecher trug zehn Äußerungen mit einer mittleren Dauer von drei Sekunden pro Äußerung vor. Fünf Äußerungen wurden für das Trainingssystem 10 im Block 16 und fünf Äußerungen für die Bewertung im Block 18 verwendet. Ein erster Satz von Cepstral-Merkmalen, der aus der Übertragungsfunktion H(z) abgeleitet wurde, wurde mit einem zweiten Satz von Cepstral-Merkmalen verglichen, der aus der adaptiven Komponentengewichtungs-Übertragungsfunktion Ĥ(z) abgeleitet wurde.
  • Training und Test wurden ohne Kanaleinflüsse auf das Sprechsignal ausgeführt. Der erste Satz von Merkmalen der Cepstral-Merkmale aus H(z) und der zweite Cepstral-Satz aus Ĥ(z) wiesen dieselbe Wiedererkennungsrate von 93 % auf.
  • Training und Test wurden mit einem Sprachsignal einschließlich eines Kanaleinflusses ausgeführt, wobei der Kanal durch die Übertragungsfunktion (1 – 0,9 z–1) simuliert wurde. Der erste Satz von Cepstral-Merkmalen, der aus H(z) bestimmt wurde, wies eine Wiedererkennungsrate von 50,1 % auf. Der zweite Satz von Cepstral-Merkmalen, der aus Ĥ(z) bestimmt wurde, wies eine Wiedererkennungsrate von 74,7 % auf. Es wurde eine Verbesserung von 24,6 % in der Wiedererkennungsrate bei einer Verwendung der Cepstral-Merkmale gefunden, die durch adaptive Komponentengewichtung bestimmt wurden.
  • Die vorliegende Erfindung weist den Vorzug auf, dass die Sprechererkennung über einen Kanal oder dergleichen durch Verbessern der Merkmale eines Sprachsignals verbessert wird. Nicht-Vokaltrakt-Komponenten des Sprachsignals werden abgeschwächt, und Vokaltrakt-Komponenten werden hervorgehoben. Die vorliegende Erfindung wird vorzugsweise zur Sprechererkennung über ein Telefonsystem oder in verrauschten Umgebungen verwendet.
  • Die Erfindung wurde zwar mit Bezugnahme auf die bevorzugte Ausführungsform beschrieben, diese Beschreibung ist jedoch nicht als eine Einschränkung gedacht. Durch Fachleute wird anzuerkennen sein, dass Abwandelungen ausgeführt werden können, ohne den Gültigkeitsbereich der Erfindung zu verlassen, wie er in den beigefügten Ansprüchen definiert ist.

Claims (5)

  1. Verfahren zur Sprechererkennung, das die Schritte umfasst: Fensteraufteilung (110) eines Sprachsignals in eine Vielzahl von Sprachrahmen; Bestimmen (114) linearer Vorhersagekoeffizienten (ai) für jeden Sprachrahmen, wobei die linearen Vorhersagekoeffizienten dem LP-Polynom (A(z)) entsprechen, das den Nenner eines Allpol-Filters darstellt, das die Übertragungsfunktion (H(z)) des Vokaltrakts modelliert; Bestimmen (124) des ersten Cepstral-Koeffizienten (c(n)) aus den linearen Vorhersagekoeffizienten (ai); Bestimmen (116) der Wurzeln des Allpol-Filters (zi); Auswählen (118) eines der Rahmen, der eine vorgegebene Anzahl der Wurzeln in einem festgelegten Bereich in der z-Ebene innerhalb des Einheitskreises aufweist; für jeden ausgewählten Rahmen Ausführen der folgenden Schritte: a) Beschaffen (116) der Residuen (ri) als den Zählern, die sich aus einer Partialbruchentwicklung (Ĥ(z)) der Übertragungsfunktion (H(z)) des Vokaltrakts ergeben; b) Hervorheben der Sprachformanten des Sprachsignals und Abschwächen der Restkomponenten durch Normieren (120) der Residuen (ri); c) Bestimmen (122) eines Filters mit endlicher Impulsantwort (finite impulse response filter) (N(z)), der dem Zähler der so modifizierten Übertragungsfunktion des Vokaltrakts entspricht, wobei der Nenner der modifizierten Übertragungsfunktion das LP-Polynom (A(z)) ist; d) Bestimmen (126) zweiter Cepstral-Koeffizienten (cN(n)) aus den Koeffizienten (bi) des Filters mit endlicher Impulsantwort (finite impulse response filter) (N(z)); e) Subtrahieren (128) der zweiten Cepstral-Koeffizienten (cN(n)) von den ersten Cepstral-Koeffizienten (c(n)) zum Ausbilden eines adaptiven Komponentengewichtungs-Cepstrums (ĉ(n)); Erkennen des adaptiven Komponentengewichtungs-Cepstrums durch Berechnen der Ähnlichkeit des adaptiven Komponentengewichtungs-Ceptrums und einer Vielzahl von Sprachmustern, die durch eine Vielzahl von sprechenden Personen im Voraus erzeugt wurden.
  2. Verfahren nach Anspruch 1, das ferner den Schritt umfasst: Klassifizieren des adaptiven Komponentengewichtungs-Cepstrums in einem Klassifikationsmittel als die Vielzahl von Sprachmustern.
  3. Verfahren nach Anspruch 2, das ferner den Schritt umfasst: Bestimmen der Ähnlichkeit des adaptiven Komponentengewichtungs-Cepstrums mit den Sprechmustern durch Abstimmen des adaptiven Komponentengewichtungs-Cepstrums mit dem klassifizierten adaptiven Komponentengewichtungs-Cepstrum in dem Klassifikationsmittel.
  4. System zur Sprechererkennung, das umfasst: Mittel zur Fensteraufteilung (110) eines Sprachsignals in eine Vielzahl von Sprachrahmen; Mittel zum Bestimmen (114) linearer Vorhersagekoeffizienten (ai) für jeden Sprachrahmen, wobei die linearen Vorhersagekoeffizienten dem LP-Polynom (A(z)) entsprechen, das den Nenner eines Allpol-Filters darstellt, das die Übertragungsfunktion (H(z)) des Vokaltrakts modelliert; Mittel zum Bestimmen (124) des ersten Cepstral-Koeffizienten (c(n)) aus den linearen Vorhersagekoeffizienten (ai); Mittel zum Bestimmen (116) der Wurzeln des Allpol-Filters (zi); Mittel zum Auswählen (118) eines der Rahmen, der eine vorgegebene Anzahl der Wurzeln in einem festgelegten Bereich in der z-Ebene innerhalb des Einheitskreises aufweist; für jeden ausgewählten Rahmen Mittel zum Ausführen der folgenden Schritte: a) Beschaffen (116) der Residuen (ri) als den Zählern, die sich aus einer Partialbruchentwicklung (Ĥ(z)) der Übertragungsfunktion (H(z)) des Vokaltrakts ergeben; b) Hervorheben der Sprachformanten des Sprachsignals und Abschwächen der Restkomponenten durch Normieren (120) der Residuen (ri); c) Bestimmen (122) eines Filters mit endlicher Impulsantwort (finite impulse response filter) (N(z)), der zu dem Zähler der so modifizierten Übertragungsfunktion des Vokaltrakts gehört, wobei der Nenner der modifizierten Übertragungsfunktion das LP-Polynom (A(z)) ist; d) Bestimmen (126) zweiter Cepstral-Koeffizienten (cN(n)) aus den Koeffizienten (bi) des Filters mit endlicher Impulsantwort (finite impulse response filter) (N(z)); e) Subtrahieren (128) der zweiten Cepstral-Koeffizienten (cN(n)) von den ersten Cepstral-Koeffizienten (c(n)) zum Ausbilden eines adaptiven Komponentengewichtungs-Cepstrums (ĉ(n)); Mittel zum Erkennen des adaptiven Komponentengewichtungs-Cepstrums durch Berechnen der Ähnlichkeit des adaptiven Komponentengewichtungs-Cepstrums und einer Vielzahl von Sprachmustern, die durch eine Vielzahl von sprechenden Personen im Voraus erzeugt wurden.
  5. System nach Anspruch 4, das ferner umfasst: Mittel zum Klassifizieren des adaptiven Komponentengewichtungs-Cepstrums als eine Vielzahl von Sprachmustern.
DE69534942T 1994-02-28 1995-02-28 System zur sprecher-identifizierung und-überprüfung Expired - Lifetime DE69534942T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/203,988 US5522012A (en) 1994-02-28 1994-02-28 Speaker identification and verification system
US203988 1994-02-28
PCT/US1995/002801 WO1995023408A1 (en) 1994-02-28 1995-02-28 Speaker identification and verification system

Publications (2)

Publication Number Publication Date
DE69534942D1 DE69534942D1 (de) 2006-05-24
DE69534942T2 true DE69534942T2 (de) 2006-12-07

Family

ID=22756137

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69534942T Expired - Lifetime DE69534942T2 (de) 1994-02-28 1995-02-28 System zur sprecher-identifizierung und-überprüfung

Country Status (9)

Country Link
US (1) US5522012A (de)
EP (1) EP0748500B1 (de)
JP (1) JPH10500781A (de)
CN (1) CN1142274A (de)
AT (1) ATE323933T1 (de)
AU (1) AU683370B2 (de)
CA (1) CA2184256A1 (de)
DE (1) DE69534942T2 (de)
WO (1) WO1995023408A1 (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666466A (en) * 1994-12-27 1997-09-09 Rutgers, The State University Of New Jersey Method and apparatus for speaker recognition using selected spectral information
JPH08211897A (ja) * 1995-02-07 1996-08-20 Toyota Motor Corp 音声認識装置
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
FR2748343B1 (fr) * 1996-05-03 1998-07-24 Univ Paris Curie Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces
US6078664A (en) * 1996-12-20 2000-06-20 Moskowitz; Scott A. Z-transform implementation of digital watermarks
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
SE515447C2 (sv) * 1996-07-25 2001-08-06 Telia Ab Metod och anordning för talverifiering
US5946654A (en) * 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models
SE511418C2 (sv) * 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US5995924A (en) * 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5940791A (en) * 1997-05-09 1999-08-17 Washington University Method and apparatus for speech analysis and synthesis using lattice ladder notch filters
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6192353B1 (en) 1998-02-09 2001-02-20 Motorola, Inc. Multiresolutional classifier with training system and method
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
US6317710B1 (en) 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
CA2366892C (en) * 1999-03-11 2009-09-08 British Telecommunications Public Limited Company Method and apparatus for speaker recognition using a speaker dependent transform
US20030115047A1 (en) * 1999-06-04 2003-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for voice recognition in mobile communication systems
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
KR100366057B1 (ko) * 2000-06-26 2002-12-27 한국과학기술원 인간 청각 모델을 이용한 효율적인 음성인식 장치
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
JP2002306492A (ja) * 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置
ATE335195T1 (de) * 2001-05-10 2006-08-15 Koninkl Philips Electronics Nv Hintergrundlernen von sprecherstimmen
US20040158462A1 (en) * 2001-06-11 2004-08-12 Rutledge Glen J. Pitch candidate selection method for multi-channel pitch detectors
US6898568B2 (en) * 2001-07-13 2005-05-24 Innomedia Pte Ltd Speaker verification utilizing compressed audio formants
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
KR100488121B1 (ko) * 2002-03-18 2005-05-06 정희석 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JP3927559B2 (ja) * 2004-06-01 2007-06-13 東芝テック株式会社 話者認識装置、プログラム及び話者認識方法
CN1811911B (zh) * 2005-01-28 2010-06-23 北京捷通华声语音技术有限公司 自适应的语音变换处理方法
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
US7788101B2 (en) * 2005-10-31 2010-08-31 Hitachi, Ltd. Adaptation method for inter-person biometrics variability
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
DE102007011831A1 (de) * 2007-03-12 2008-09-18 Voice.Trust Ag Digitales Verfahren und Anordnung zur Authentifizierung einer Person
CN101303854B (zh) * 2007-05-10 2011-11-16 摩托罗拉移动公司 用于提供识别的语音输出的方法
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
CN101339765B (zh) * 2007-07-04 2011-04-13 黎自奋 一种国语单音辨认方法
CN101281746A (zh) * 2008-03-17 2008-10-08 黎自奋 一个百分之百辨认率的国语单音与句子辨认方法
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
EP3373176B1 (de) * 2014-01-17 2020-01-01 Cirrus Logic International Semiconductor Limited Manipulationssicheres element zur verwendung bei der sprechererkennung
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552723A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
WO2018163279A1 (ja) * 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム
GB201801875D0 (en) * 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Audio processing

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
JPS58129682A (ja) * 1982-01-29 1983-08-02 Toshiba Corp 個人照合装置
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
IT1160148B (it) * 1983-12-19 1987-03-04 Cselt Centro Studi Lab Telecom Dispositivo per la verifica del parlatore
CA1229681A (en) * 1984-03-06 1987-11-24 Kazunori Ozawa Method and apparatus for speech-band signal coding
US5146539A (en) * 1984-11-30 1992-09-08 Texas Instruments Incorporated Method for utilizing formant frequencies in speech recognition
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
US4922539A (en) * 1985-06-10 1990-05-01 Texas Instruments Incorporated Method of encoding speech signals involving the extraction of speech formant candidates in real time
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
US5001761A (en) * 1988-02-09 1991-03-19 Nec Corporation Device for normalizing a speech spectrum
US5048088A (en) * 1988-03-28 1991-09-10 Nec Corporation Linear predictive speech analysis-synthesis apparatus
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5007094A (en) * 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
JPH02309820A (ja) * 1989-05-25 1990-12-25 Sony Corp デイジタル信号処理装置
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system

Also Published As

Publication number Publication date
US5522012A (en) 1996-05-28
AU683370B2 (en) 1997-11-06
EP0748500A4 (de) 1998-09-23
AU2116495A (en) 1995-09-11
EP0748500B1 (de) 2006-04-19
EP0748500A1 (de) 1996-12-18
CN1142274A (zh) 1997-02-05
JPH10500781A (ja) 1998-01-20
MX9603686A (es) 1997-12-31
CA2184256A1 (en) 1995-08-31
WO1995023408A1 (en) 1995-08-31
DE69534942D1 (de) 2006-05-24
ATE323933T1 (de) 2006-05-15

Similar Documents

Publication Publication Date Title
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE60034026T2 (de) Sprachverbesserung mit durch sprachaktivität gesteuerte begrenzungen des gewinnfaktors
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE112009000805B4 (de) Rauschreduktion
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE69131776T2 (de) Verfahren zur sprachanalyse und synthese
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE60109111T2 (de) Sprachdekoder zum hochqualitativen Dekodieren von Signalen mit Hintergrundrauschen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition