DE60020865T2 - System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener - Google Patents

System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener Download PDF

Info

Publication number
DE60020865T2
DE60020865T2 DE60020865T DE60020865T DE60020865T2 DE 60020865 T2 DE60020865 T2 DE 60020865T2 DE 60020865 T DE60020865 T DE 60020865T DE 60020865 T DE60020865 T DE 60020865T DE 60020865 T2 DE60020865 T2 DE 60020865T2
Authority
DE
Germany
Prior art keywords
emotion
voice
voice signal
pitch
feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60020865T
Other languages
English (en)
Other versions
DE60020865D1 (de
Inventor
A. Valery PETRUSHIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture LLP
Original Assignee
Accenture LLP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accenture LLP filed Critical Accenture LLP
Publication of DE60020865D1 publication Critical patent/DE60020865D1/de
Application granted granted Critical
Publication of DE60020865T2 publication Critical patent/DE60020865T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • User Interface Of Digital Computer (AREA)
  • Preliminary Treatment Of Fibers (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Stored Programmes (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf Spracherkennung und insbesondere auf das Bereitstellen einer Rückkopplung, basierend auf erkennbaren Stimmcharakteristika bzw. -merkmalen, welche während einer Konversation extrahiert werden.
  • Hintergrund der Erfindung
  • Obwohl die erste Monographie über ein Ausdrücken von Emotionen bei Tieren und Menschen durch Charles Darwin im letzten Jahrhundert geschrieben wurde und Psychologen allmählich Kenntnis auf dem Gebiet der Emotionsdetektion und der Stimmerkennung gesammelt haben, hat es eine neue Welle von Interesse kürzlich sowohl von Psychologen wie auch Spezialisten für künstliche Intelligenz auf sich gezogen. Es gibt verschiedene Gründe für dieses erneuerte Interesse: technologischen Fortschritt beim Aufzeichnen, Speichern und Verarbeiten von audiovisueller Information; die Entwicklung von nicht-eindringenden Sensoren; die Einführung bzw. das Auftreten von tragbaren Computern; und den Zwang, die Mensch-Computer-Schnittstelle vom Zeigen und Klicken zu einem Empfinden und Fühlen zu erweitern. Weiters ist es als ein neues Gebiet von Forschung, die in der AI bzw. künstlichen Intelligenz als gemütsbezogenes bzw. emotionales Berechnen bekannt ist, kürzlich identifiziert worden.
  • Betreffend Forschung beim Erkennen von Emotionen in der Sprache haben einerseits Psychologen viele Experimente durchgeführt und Theorien vorgeschlagen. Andererseits trugen AI-Forscher zu den folgenden Gebieten bei: Synthese von emotionaler Sprache, Erkennung von Emotionen und die Verwendung von Agentien bzw. Mitteln zum Dekodieren und Ausdrücken von Emotionen. Ein ähnlicher Fortschritt wurde bei der Spracherkennung gemacht.
  • Trotz der Erforschung beim Erkennen von Emotionen in der Sprache war die Technik ohne Verfahren und Vorrichtungen, welche eine Emotionserkennung und Stimm- bzw. Spracherkennung für Geschäftszwecke verwenden.
  • WO-A-99/31653 beschreibt eine Vorrichtung zum Detektieren des emotionalen Zustands eines Individuums unter Verwendung eines Stimmanalysators, um eine Sprachprobe einzugeben, welche durch das Individuum erzeugt wurde, und um eine Internations- bzw. Sprachmelodieinformation davon abzuleiten. WO-A-99/22364 leitet einen Emotionsgehalt aus dem Audiosignal in der Frequenzdomäne ab und schlägt die Verwendung eines neuralen Netzwerks zur Emotionsklassifizierung vor.
  • Gemäß der vorliegenden Erfindung werden ein Verfahren, wie es in Anspruch 1 dargelegt ist, ein Computerprogramm, wie es in Anspruch 10 dargelegt ist, und ein System zur Verfügung gestellt, wie es in Anspruch 19 dargelegt ist.
  • Kurze Beschreibung der Zeichnungen
  • Die Erfindung wird besser verstanden werden, wenn die folgende detaillierte Beschreibung davon berücksichtigt wird.
  • Eine solche Beschreibung nimmt bezug auf die beigefügten Zeichnungen, worin:
  • 1 ein schematisches Diagramm einer Hardware-Implementierung von einer Ausführungsform der vorliegenden Erfindung ist;
  • 2 ein Flußdiagramm ist, welches eine Ausführungsform der vorliegenden Erfindung darstellt, welche Emotion unter Verwendung einer Stimm- bzw. Sprachanalyse detektiert;
  • 3 ein Graph ist, welcher die durchschnittliche bzw. Durchschnittsgenauigkeit einer Erkennung für einen s70-Datensatz zeigt;
  • 4 eine Karte ist, welche die Durchschnittsgenauigkeit einer Erkennung für einen s80-Datensatz illustriert;
  • 5 ein Graph ist, welcher die Durchschnittsgenauigkeit einer Erkennung für einen s90-Datensatz darstellt;
  • 6 ein Flußdiagramm ist, welches eine Ausführungsform der vorliegenden Erfindung illustriert, welche eine Emotion unter Verwendung von Statistik detektiert;
  • 7 ein Flußdiagramm ist, welches ein Verfahren zum Detektieren von Nervosität in einer Stimme in einer Geschäftsumgebung illustriert, um zu helfen, einen Betrug zu verhindern;
  • 8 ein Flußdiagramm ist, welches eine Vorrichtung zum Detektieren von Emotion aus einer Stimmprobe in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung darstellt;
  • 9 ein Flußdiagramm ist, welches eine Vorrichtung zum Erzeugen sichtbarer Aufzeichnungen von Schall in Übereinstimmung mit einer Ausführungsform der Erfindung illustriert;
  • 10 ein Flußdiagramm ist, welches eine Ausführungsform der vorliegenden Erfindung illustriert, welche Emotionen in Stimmsignalen überwacht und eine Rückkopplung basierend auf den detektierten Emotionen zur Verfügung stellt;
  • 11 ein Flußdiagramm ist, welches ein System illustriert, welches Anwender- gegen Computeremotionsdetektion von Stimmsignalen vergleicht, um eine Emotionserkennung von entweder einer Ausführungsform der Erfindung, einem Anwender, oder beiden zu verbessern;
  • 12 ein schematisches Diagramm in Blockform einer Spracherkennungsvorrichtung ist;
  • 13 ein schematisches Diagramm in Blockform der Elementanordnung und eines Speicherblocks in 12 ist;
  • 14 ein Spracherkennungssystem mit einem Biomonitor und einem Vorprozessor illustriert;
  • 15 ein Biosignal illustriert, welches durch den Biomonitor von 14 erzeugt wurde;
  • 16 einen Schaltkreis innerhalb des Biomonitors illustriert;
  • 17 ein Blockdiagramm des Vorprozessors ist;
  • 18 eine Beziehung zwischen einer Tonhöhenmodifizierung und dem Biosignal illustriert;
  • 19 ein Flußdiagramm eines Kalibrationsprogramms ist;
  • 20 allgemein die Konfiguration des Abschnitts des Systems zeigt, wobei eine verbesserte Auswahl eines Satzes von Tonhöhenperiodenkandidaten erhalten bzw. erzielt wird.
  • Detaillierte Beschreibung
  • In Übereinstimmung mit wenigstens einer Ausführungsform der vorliegenden Erfindung ist bzw. wird ein System zum Durchführen verschiedener Funktionen und Aktivitäten durch Stimmanalyse und Stimmerkennung zur Verfügung gestellt. Das System kann eingerichtet sein, indem eine Hardware-Implementierung, wie beispielsweise jene verwendet wird, die in
  • 1 illustriert ist. Weiters können verschiedene funktionelle und Anwender-Schnittstellenmerkmale einer Ausführungsform der vorliegenden Erfindung eingerichtet bzw. ermöglicht sein, indem eine Softwareprogrammierung, z.B. objektorientierte Programmierung (OOP) verwendet wird.
  • Hardwareüberblick
  • Eine repräsentative Hardwareumgebung einer bevorzugten Ausführungsform der vorliegenden Erfindung ist in 1 dargestellt, welche eine typische Hardwarekonfiguration einer Arbeitsstation illustriert, welche eine Zentralrecheneinheit 110, wie beispielsweise einen Mikroprozessor, und eine Anzahl von anderen Einheiten aufweist, welche über einen Systembus 112 verbunden sind. Die in 1 gezeigte Arbeitsstation beinhaltet einen Direktzugriffsspeicher bzw. Schreib-Lese-Speicher (RAM) 114, einen Nurlese- bzw. Festwertspeicher (ROM) 116, einen I/O-Adapter 118 zum Verbinden bzw. Anschließen peripherer Geräte, wie beispielsweise Diskettenspeichereinheiten 120 mit dem Bus 112, einen Anwender-Schnittstellenadapter 122 zum Verbinden einer Tastatur 124, einer Maus 126, eines Lautsprechers 128, eines Mikrophons 132, und/oder andere Anwender-Schnittstellengeräte, wie beispielsweise einen Berührungsbildschirm bzw. Sensorbildschirm (nicht gezeigt) mit dem Bus 112, Kommunikationsadapter 134 zum Verbinden der Arbeitsstation mit einem Kommunikationsnetzwerk (z.B. einem Datenverarbeitungsnetzwerk) und einen Anzeigeadapter 136 zum Verbinden des Buses 112 mit einer Anzeigevorrichtung 138. Die Arbeitsstation weist typischerweise darauf angesiedelt ein Betriebssystem auf, wie beispielsweise das Microsoft Windows NT oder Windows/95 Betriebssystem (OS), das IBM OS/2-Betriebssystem, das MAC OS, oder UNIX-Betriebssystem.
  • Emotionserkennung
  • Die vorliegende Erfindung ist auf ein Verwenden einer Erkennung von Emotionen in der Sprache für Geschäftszwecke gerichtet. Einige Ausführungsformen der vorliegenden Erfindung können verwendet werden, um die Emotion einer Person basierend auf einer Stimmanalyse zu detektieren und die detektierte Emotion der Person auszugeben. Andere Ausführungsformen der vorliegenden Erfindung können für die Detektion des emotionalen Zustands in Telefon-Call-Center-Unterhaltungen und ein Bereitstellen einer Rückkopplung bzw. eines Feedbacks für einen Betreiber oder Überwacher für Überwachungszwecke verwendet werden.
  • Wenn die Zielsubjekte bekannt sind, wird vorgeschlagen, daß eine Studie an einigen der Zielsubjekte ausgeführt wird, um zu bestimmen, welche Abschnitte einer Stimme am verläßlichsten als Indikatoren bzw. Anzeiger einer Emotion sind. Wenn Zielsubjekte nicht verfügbar sind, können andere Subjekte bzw. Personen verwendet werden. Unter Berücksichtigung dieser Orientierung gilt für die folgende Diskussion:
    • • Daten sollten von Leuten gefordert bzw. gesammelt werden, welche nicht professionelle Schauspieler oder Schauspielerinnen sind, um die Genauigkeit zu verbessern, da Schauspieler und Schauspielerinnen eine bestimmte Sprachkomponente überbetonen könnten, was einen Fehler erzeugt.
    • • Daten könnten von Testsubjekten gefordert werden, welche aus einer Gruppe ausgewählt sind, von welcher erwartet wird, daß sie analysiert wird. Dies würde die Genauigkeit verbessern.
    • • Auf Sprache in Telefonqualität (< 3,4 kHz) kann abgezielt werden, um eine Genauigkeit zur Verwendung mit einem Telefonsystem zu verbessern.
    • • Die Erprobung kann auf nur einem Stimmsignal beruhen. Dies bedeutet, daß die modernen Spracherkennungstechniken ausgeschlossen würden, da diese eine viel bessere Qualität des Signals und Rechenleistung erfordern.
  • Datensammlung & Evaluierung
  • In einem beispielhaften Test werden vier kurze Sätze von jedem von dreißig Leuten aufgezeichnet bzw. aufgenommen:
    • • "Dies ist nicht, was ich erwartete."
    • • "Ich werde da sein."
    • • "Morgen ist mein Geburtstag."
    • • "Ich werde nächste Woche heiraten."
  • Jeder Satz sollte fünf mal aufgezeichnet werden; jedesmal porträtiert das Subjekt einen der folgenden emotionalen Zustände: Fröhlichkeit, Ärger, Traurigkeit, Angst/Nervosität und normal (unemotionell). Fünf Subjekte können auch die Sätze zweimal mit unterschiedlichen Aufzeichnungsparametern aufzeichnen. Somit hat jedes Subjekt 20 oder 40 Aussagen aufgezeichnet, welche einen Bestand ergeben, der 700 Aussagen mit 140 Aussagen pro emotionalem Zustand enthält. Jede Aussage kann unter Verwendung eines Nahebesprechungsmikrofons aufgezeichnet werden; die ersten 100 Aussagen bei 22-kHz/8 Bit und die verbleibenden 600 Aussagen bei 22-kHz/16 Bit.
  • Nach Erstellen des Bestands kann ein Experiment ausgeführt werden, um die Antworten auf die folgenden Fragen zu finden:
    • • Wie gut können Leute ohne spezielles Training Emotionen in der Sprache porträtieren bzw. darstellen und erkennen?
    • • Wie gut können Leute ihre eigene Emotionen erkennen, welche sie 6–8 Wochen früher aufzeichneten?
    • • Welche Arten von Emotionen sind leichter/schwerer zu erkennen?
  • Ein wichtiges Ergebnis des Experiments ist eine Auswahl eines Satzes der zuverlässigsten Aussagen, d.h. Aussagen bzw. Äußerungen, die durch die meisten Leute erkannt werden. Dieser Satz kann als Trainings- und Testdaten für Musterbekennungsalgorithmen verwendet werden, die auf einem Computer laufen.
  • Ein interaktives Programm eines Typs, welches in der Technik bekannt ist, kann verwendet werden, um die Aussagen in zufälliger Reihenfolge auszuwählen und wiederzugeben und es einem Anwender zu gestatten, jede Aussage entsprechend ihrem emotionalen Inhalt zu klassifizieren. Beispielsweise können dreiundzwanzig Subjekte bzw. Personen an der Evaluierungsstufe und zusätzliche 20 von jenen teilnehmen, welche früher im Aufnahmezustand teilgenommen haben.
  • Tabelle 1 zeigt eine Leistungs-Verwirrungsmatrix, welche aus Daten resultiert, die aus der Darbietung der zuvor besprochenen Studie gesammelt hat. Die Reihen und Spalten repräsentieren jeweils wahre und bewertete Kategorien. Beispielsweise sagt die zweite Reihe aus, daß 11,9% von Aussagen, welche als glücklich porträtiert wurden, als normal (unemotional) bewertet wurden, 61,4% als wirklich glücklich, 10,1% als ärgerlich, 4,1% als traurig, und 12,5% als ängstlich. Es wird auch ersehen, daß die am leichtesten erkennbare Kategorie Ärger ist (72,2%) und die am wenigsten erkennbare Kategorie Angst ist (49,5%). Eine Menge an Verwirrung wird zwischen Traurigkeit und Angst, Traurigkeit und unemotionalem Zustand und Fröhlichkeit und Angst gefunden. Die mittlere Genauigkeit ist 63,5%, welche mit den Resultaten der anderen experimentellen Studien übereinstimmt.
  • Tabelle 1 Leistungs-Konfusions- bzw. -Verwirrungsmatrix
    Figure 00090001
  • Tabelle 2 zeigt Statistiken für Bewerter für jede emotionelle Kategorie und für eine zusammengefaßte Leistung bzw. Darbietung, welche als die Summe von Darbietungen für jede Kategorie berechnet wurde. Es kann ersehen werden, daß die Varianz bzw. Abweichung für Ärger und Traurigkeit viel weniger als für die anderen emotionellen bzw. emotionalen Kategorien ist.
  • Tabelle 2 Statistik der Bewerter
    Figure 00100001
  • Tabelle drei unten zeigt Statistiken für "Schauspieler", d.h., wie gut Subjekte Emotionen porträtieren. Genauer gesagt, zeigen die Zahlen in der Tabelle, welcher Abschnitt von porträtierten Emotionen einer bestimmten Kategorie als diese Kategorie durch andere Subjekte erkannt wurde. Es ist interessant zu sehen, daß bei einem Vergleich von Tabelle 2 und 3 die Fähigkeit, Emotionen zu porträtieren (Gesamtmittelwert ist 62,9%) ungefähr auf demselben Pegel bleibt wie die Fähigkeit, Emotionen zu erkennen (Gesamtmittelwert ist 63,2%), jedoch die Abweichung bzw. Varianz für ein Porträtieren viel größer ist.
  • Tabelle 3 Statistik der Schauspieler
    Figure 00100002
  • Tabelle 4 zeigt Selbstbezugsstatistiken, d.h. wie gut Subjekte fähig waren, ihre eigenen Portraits bzw. Darstellungen zu erkennen. Wir können sehen, daß Leute viel besser ihre eigene Emotionen erkennen (das Mittel ist 80,0%), besonders für Ärger (98,1%), Traurigkeit (80,0%) und Angst (78,8%). Interessanterweise wurde Angst besser erkannt als Glücklichkeit bzw. Fröhlichkeit. Einige Subjekte versagten beim Erkennen ihrer eigenen Darstellungen für Fröhlichkeit und den Normalzustand.
  • Tabelle 4 Selbstbezugsstatistik
    Figure 00110001
  • Aus dem Bestand von 700 Aussagen bzw. Äußerungen können fünf ineinander geschachtelte Datensätze, welche Äußerungen beinhalten, die als die gegebene Emotion porträtierend durch wenigstens p Prozent der Subjekte (p = 70, 80, 90, 95 und 100%) erkannt wurden, ausgewählt werden. Für die gegenwärtige Besprechung bzw. Diskussion sollen diese Datensätze als s70, s80, s90 und s100 bezeichnet werden. Tabelle 5 unten zeigt die Anzahl von Elementen in jedem Datensatz. Wir können sehen, daß nur 7,9% der Äußerungen des Bestands durch alle Subjekte erkannt wurden. Und diese Zahl nimmt geradlinig bis zu 52,7% für den Datensatz s70 zu, welcher mit dem 70%-Pegel einer Konkordanz bzw. Übereinstimmung bei einem Dekodieren von Emotionen in Sprache übereinstimmt.
  • Tabelle 5 p-Pegel Übereinstimmungs-Datensätze
    Figure 00120001
  • Die Ergebnisse bieten eine nützliche Einsicht über menschliche Darbietung bzw. Leistung und können als eine Grundlinie für einen Vergleich mit einer Computerdarbietung bzw. -leistung dienen.
  • Merkmalsextraktion
  • Es wurde gefunden, daß die Tonhöhe der Hauptstimmhinweise zur Emotionserkennung ist. Streng gesprochen, wird die Tonhöhe durch die fundamentale bzw. Grundfrequenz (FO) repräsentiert, d.h. die Haupt-(niedrigste)Frequenz der Vibration bzw. Schwingung der Stimmlippen bzw. Stimmbänder. Die anderen akustischen Variablen, welche zur stimmlichen Emotionssignalisierung beitragen, sind:
    • • Stimmenergie bzw. Vokalenergie
    • • spektrale Frequenz-Merkmale
    • • Formanten (üblicherweise werden nur ein oder zwei erste Formanten (F1, F2) betrachtet).
    • • zeitliche Merkmale (Sprachtempo und Unterbrechung).
  • Eine andere Annäherung an eine Merkmalsextraktion ist, den Satz von Merkmalen durch Betrachten einiger derivativer Merkmale, wie beispielsweise LPC (lineare, voraussagende, codierende) Parameter eines Signals oder Merkmale der geglätteten Tonhöhenkontur und ihrer Ableitungen zu betrachten.
  • Für diese Erfindung kann die folgende Strategie angewendet werden. Erstens, berücksichtige die Grundfrequenz F0 (d.h. die Haupt-(niedrigste)Frequenz der Vibration der Stimmbänder), Energie, Sprachgeschwindigkeit, die ersten drei Formanten (F1, F2 und F3) und ihre Bandbreiten (BW1, BW2 und BW3) und berechne für diese so viele Statistiken bzw. statistische Daten wie möglich. Dann reihe die Statistiken unter Verwendung von Merkmalsauswahltechniken, und wähle einen Satz von "wichtigsten" Merkmalen aus.
  • Die Sprachgeschwindigkeit kann als das Umgekehrte der Durchschnittslänge des stimmhaften Teils einer Äußerung berechnet werden. Für alle anderen Parameter können die folgenden statistischen Daten berechnet werden: Mittelwert, Standardabweichung, Minimum, Maximum und Bereich. Zusätzlich kann für F0 die Steigung als eine lineare Regression für den stimmhaften Teil der Sprache berechnet werden, d.h. jene Linie, welche zu der Tonhöhenkontur paßt. Die relative stimmhafte bzw. durch Stimme geäußerte Energie kann auch als der Anteil der stimmhaften Energie zu der Gesamtenergie der Äußerung berechnet werden. Insgesamt gibt es etwa 40 Merkmale für jede Äußerung.
  • Der RELIEF-F- bzw. ENTLASTE-F-Algorithmus kann zur Merkmalsauswahl verwendet werden. Beispielsweise kann ENTLASTE-F für den s70-Datensatz gelaufen werden, wobei die Anzahl der nächsten Nachbarn von 1 bis 12 variiert wird, und die Merkmale entsprechend ihrer Summe von Rängen bzw. Reihungen geordnet werden. Die obersten 14 Merkmale sind die folgenden: F0 Maximum, F0 Standardabweichung, F0 Bereich, F0 Mittelwert, BW1 Mittelwert, BW2 Mittelwert, Energie-Standardabweichung, Sprachgeschwindigkeit, F0 Steigung, F1 Maximum, Energiemaximum, Energiebereich, F2 Bereich und F1 Bereich.
  • Um zu untersuchen, wie Sätze von Merkmalen die Genauigkeit von Emotionserkennungs-Algorithmen beeinflussen, können drei ineinander verschachtelte Sätze von Merkmalen basierend auf ihrer Summe von Reihungen ausgebildet werden. Der erste Satz beinhaltet die oberen acht Merkmale (von F0 Maximum zur Sprechgeschwindigkeit), der zweite Satz erstreckt sich von dem ersten zu zwei weiteren Merkmalen (F0 Steigung und F1 Maximum), und der dritte Satz beinhaltet alle 14 Höchstmerkmale. Mehr Details über den RELIEF-F-Algorithmus werden in der Veröffentlichung Proc. European Conf. On Machine Learning (1994) in dem Artikel von I. Kononenko, mit dem Titel "Abschätzungsattribute: Analyse und Erweiterung von "RELIEF-" bzw. "ENTLASTUNG" dargelegt und auf den Seiten 171–182 gefunden.
  • 2 illustriert eine Ausführungsform der vorliegenden Erfindung, welche Emotion unter Verwendung von Sprach- bzw. -Stimmanalyse detektiert. Im Vorgang 200 wird ein Stimmsignal empfangen bzw. aufgenommen, wie beispielsweise durch ein Mikrophon oder in der Form einer digitalisierten Probe bzw. Abtastung. Eine vorbestimmte Anzahl von Merkmalen des Stimmsignals wird, wie oben dargelegt, extrahiert und in dem Vorgang 202 ausgewählt. Diese Merkmale beinhalten, sind jedoch nicht begrenzt auf, einen Maximalwert einer fundamentalen bzw. Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Bereich der Grundfrequenz, einen Mittelwert der Grundfrequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung der Energie, eine Sprachgeschwindigkeit, eine Steigung der Grundfrequenz, einen Maximalwert der ersten Formanten, einen Maximalwert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten, und einen Bereich der ersten Formanten. Unter Verwendung der in Funktion bzw. Vorgang 202 ausgewählten Merkmale wird eine Emotion, die mit dem Stimmsignal assoziiert ist, in Vorgang 204 basierend auf dem extrahierten Merkmal bestimmt. Schließlich wird in Vorgang 206 die bestimmte Emotion ausgegeben. Siehe die Besprechung unten, besonders unter Bezugnahme auf 8 und 9 für eine detailliertere Besprechung bzw. Diskussion eines Bestimmens einer Emotion basierend auf einem Stimmsignal in Übereinstimmung mit der vorliegenden Erfindung.
  • Vorzugsweise wird das Merkmal des Stimmsignals aus der Gruppe von Merkmalen ausgewählt, welche aus dem Maximalwert der Grundfrequenz, der Standardabweichung der Grundfrequenz, dem Bereich der Grundfrequenz, dem Mittelwert der Grundfrequenz, dem Mittelwert der Bandbreite der ersten Formanten, dem Mittelwert der Bandbreite der zweiten Formanten, der Standardabweichung der Energie, und der Sprechgeschwindigkeit bestehen. Idealerweise beinhaltet das extrahierte Merkmal wenigstens eine der Steigung der Grundfrequenz und des Maximalwerts der ersten Formanten.
  • Optional ist bzw. wird eine Vielzahl von Merkmalen extrahiert, beinhaltend den Maximalwert der Grundfrequenz, die Standardabweichung der Grundfrequenz, den Bereich der Grundfrequenz, den Mittelwert der Grundfrequenz, den Mit telwert der Bandbreite der ersten Formanten, den Mittelwert der Bandbreite der zweiten Formanten, die Standardabweichung der Energie, und die Sprechgeschwindigkeit. Vorzugsweise beinhalten die extrahierten Merkmale die Steigung der Grundfrequenz und den Maximalwert der ersten Formanten.
  • Als eine andere Option wird eine Vielzahl von Merkmalen extrahiert, beinhaltend den Maximalwert der Grundfrequenz, die Standardabweichung der Grundfrequenz, den Bereich der Grundfrequenz, den Mittelwert der Grundfrequenz, den Mittelwert der Bandbreite der ersten Formanten, den Mittelwert der Bandbreite der zweiten Formanten, die Standardabweichung der Energie, die Sprechgeschwindigkeit, die Steigung der Grundfrequenz, den Maximalwert der ersten Formanten, den Maximalwert der Energie, den Bereich der Energie, den Bereich der zweiten Formanten, und den Bereich der ersten Formanten.
  • Computerleistung
  • Um Emotionen in einer Sprache zu erkennen, können zwei beispielhafte Annäherungen vorgenommen werden: neurale Netzwerke und Ensembles von Sortierern bzw. Klassifiziermaschinen. In der ersten Annäherung kann eine zweilagige rückwärts ausbreitende neurale Netzwerkarchitektur mit einem 8-, 10- oder 14-Element-Eingabevektor, 10 oder 20 Knoten in der versteckten sigmoidalen Schicht und fünf Knoten in der ausgegebenen linearen Schicht verwendet werden. Die Anzahl von Ausgaben stimmt mit der Anzahl von emotionalen Kategorien überein. Um die Algorithmen zu trainieren und zu testen, können Datensätze s70, s80 und s90 verwendet werden. Diese Sätze können zufällig in Training (67% an Äußerungen) und Test (33%) Untersätze aufgespalten bzw. aufgeteilt werden. Verschiedene neurale Netzwerkklassifizierer, welche mit unterschiedlichen Ausgangsgewichts-Matrizen trainiert sind, können erstellt bzw. erzeugt werden. Diese Annäherung, wenn an den s70-Datensatz und den 8-Merkmalsatz oben angewendet, ergaben die Durchschnittsgenauigkeit von etwa 55% mit der folgenden Verteilung für emotionale Kategorien. Normalzustand ist 40–50%, Fröhlichkeit ist 55–65%, Ärger ist 60–80%, Traurigkeit ist 60–70%, und Angst ist 20–40%.
  • Für die zweite Annäherung bzw. den zweiten Zugang werden Ensembles von Klassifizierern verwendet. Ein Ensemble besteht an einer ungeraden Anzahl von neuralen Netzwerkklassifizierern, welche auf unterschiedlichen Subsätzen bzw. Untersätzen des Trainingssatzes unter Verwendung der Bootstrapaggregation und kreuz- bzw. querbestätigten Ausschußtechniken trainiert wurden. Das Ensemble fällt Entscheidungen basierend auf dem Mehrheitsabstimmungsprinzip vorgeschlagene bzw. empfohlene Ensemblegrößen reichen von 7 bis 15.
  • 3 zeigt die durchschnittliche Genauigkeit einer Erkennung für einen s70-Datensatz, alle drei Sätze der Merkmale, und beide neurale Netzwerkarchitekturen (10 und 20 Neuronen in der versteckten Schicht). Es kann gesehen werden, daß die Genauigkeit für Glücklichkeit dieselbe bleibt (ungefähr 68%) für die unterschiedlichen Sätze von Merkmalen und Architekturen. Die Genauigkeit für Angst ist ziemlich niedrig (15–25%). Die Genauigkeit für Ärger ist relativ niedrig (40–45%) für den 8-Merkmals-Satz und verbessert sich dramatisch (65%) für den 14-Merkmalssatz. Jedoch ist die Genauigkeit für Traurigkeit höher für den 8-Merkmals-Satz als für die anderen Sätze. Die Durchschnittsgenauigkeit be trägt etwa 55%. Die niedrige Genauigkeit für Angst bestätigt das theoretische Resultat, welches besagt, daß, wenn die individuellen Klassifizierer unkorrelierte Fehler begehen oder Raten 0,5 überschreiten (sie beträgt 0,6–0,8 in unserem Fall), dann die Fehlerrate des gewählten Ensembles zunimmt.
  • 4 zeigt Resultate für einen s80-Datensatz. Es wird gesehen, daß die Genauigkeit für den Normalzustand niedrig ist (20–30%). Die Genauigkeit für Angst ändert sich dramatisch von 11% für den 8-Merkmalssatz und 10-Neuronen-Architektur auf 53% für die 10-Merkmals- und 10-Neuronen-Architektur. Die Genauigkeit für Fröhlichkeit, Ärger und Traurigkeit ist relativ hoch (68–83%). Die Durchschnittsgenauigkeit (~61%) ist höher als für den s70-Datensatz.
  • 5 zeigt Resultate für einen s90-Datensatz. Wir können sehen, daß die Genauigkeit für Angst höher ist (25–60%), jedoch demselben Muster folgt, wie es für den s80-Datensatz gezeigt wird. Die Genauigkeit für Traurigkeit und Ärger ist sehr hoch: 75–100% für Ärger und 88–93% für Trauer. Die Durchschnittsgenauigkeit (62%) ist ungefähr gleich der Durchschnittsgenauigkeit für den s80-Datensatz.
  • 6 illustriert eine Ausführungsform der vorliegenden Erfindung, welche Emotion unter Verwendung von Statistiken bzw. statistischen Daten detektiert. Zuerst wird eine Datenbank in Vorgang 600 zur Verfügung gestellt. Die Datenbank weist Statistiken auf, welche Statistiken von menschlichen Assoziationen von Stimmparametern mit Emotionen beinhalten, wie beispielsweise jene, die in den Tabellen oben und 3 bis 5 gezeigt sind bzw. werden. Weiters kann die Datenbank eine Serie von Stimmtonhöhen beinhalten, welche mit Angst assoziiert sind, und eine andere Serie von Stimmtonlagen bzw. -höhen, welche mit Fröhlichkeit assoziiert wird, und einen Fehlerbereich für bestimmte Tonlagen. Als nächstes wird ein Stimmsignal in Vorgang bzw. Funktion 602 empfangen bzw. aufgenommen. In Vorgang 604 wird bzw. werden ein oder mehrere Merkmal(e) aus dem Stimmsignal extrahiert. Siehe den Merkmalsextraktionsabschnitt oben für mehr Details über ein Extrahieren von Merkmalen aus einem Stimmsignal. Dann wird in Vorgang 606 das extrahierte Stimmmerkmal mit den Stimmparametern in der Datenbank verglichen. In Vorgang 608 wird eine Emotion aus der Datenbank basierend auf dem Vergleich des extrahierten Stimmmerkmals mit den Stimmparametern ausgewählt. Dies kann beispielsweise ein Vergleichen digitalisierter Sprachproben aus der Datenbank mit einer digitalisierten Probe des Merkmals, welches aus dem Stimmsignal extrahiert wurde, um eine Liste von wahrscheinlichen bzw. möglichen Emotionen zu erstellen, und dann ein Verwenden von Algorithmen beinhalten, um Statistiken der Genauigkeit von Menschen beim Erkennen der Emotion zu berücksichtigen, um eine endgültige Bestimmung der wahrscheinlichsten Emotion vorzunehmen. Die ausgewählte Emotion wird endgültig in Vorgang 610 ausgegeben. Siehe den Abschnitt mit dem Titel "Beispielhafte Vorrichtungen zum Detektieren von Emotion in Sprachsignalen", unten, für computerisierte Mechanismen, um eine Emotionserkennung in einer Sprache durchzuführen.
  • In einer Ausführungsform der vorliegenden Erfindung beinhaltet die Datenbank Wahrscheinlichkeiten von besonderen Merkmalen, welche mit einer Emotion assoziiert werden. Vorzugsweise beinhaltet die Auswahl der Emotion aus der Datenbank ein Analysieren der Wahrscheinlichkeiten und ein Auswählen der wahrscheinlichsten Emotion basierend auf den Wahrscheinlichkeiten. Optional können die Wahrscheinlichkeiten der Datenbank Darbietungsverwirrungs-Statistiken beinhalten, wie sie beispielsweise in der Bearbeitungs-Verwirrungs-Matrix oben gezeigt sind. Ebenfalls optional können die Statistiken in der Datenbank Selbsterkennungsstatistiken beinhalten, wie sie beispielsweise in den Tabellen oben gezeigt werden.
  • In einer anderen Ausführungsform der vorliegenden Erfindung beinhaltet das Merkmal, welches extrahiert wird, einen Maximalwert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Bereich der Grundfrequenz, einen Mittelwert der Grundfrequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung der Energie, eine Sprechgeschwindigkeit bzw. -rate, eine Steigung der Grundfrequenz, einen Maximalwert der ersten Formanten, einen Maximalwert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten und/oder einen Bereich der ersten Formanten.
  • 7 ist ein Flußdiagramm, welches ein Verfahren zum Detektieren von Nervosität in einer Stimme in einer Geschäftsumgebung illustriert, um Betrug verhindern zu helfen. Zuerst werden in Vorgang 700 Stimmsignale von einer Person während eines Geschäftsereignisses empfangen. Beispielsweise können die Stimmsignale durch ein Mikrophon in der Nähe der Person erzeugt werden, können von einer Telefonanzapfung eingefangen werden, usw. Die Stimmsignale werden während des Geschäftsereignisses in Vorgang bzw. Funktion 702 analysiert, um einen Nervositätspegel der Person zu bestimmen. Die Stimmsignale können analysiert werden, wie dies oben dargelegt wurde. In Vorgang 704 wird eine An zeige des Pegels bzw. Niveaus der Nervosität bzw. eines Nervositätspegels ausgegeben, vorzugsweise bevor das Geschäftsereignis abgeschlossen ist, so daß jemand, der versucht, einen Betrug zu verhindern, eine Bewertung vornehmen kann, ob die Person zu konfrontieren ist, bevor diese Person weggeht. Jede Art von Ausgabe ist akzeptierbar, beinhaltend einen Papierausdruck oder eine Anzeige auf einem Computerbildschirm. Es sollte sich verstehen, daß diese Ausführungsform der Erfindung Emotionen verschieden von Nervosität detektieren kann. Derartige Emotionen beinhalten Streß und jede andere Emotion, welche einer Person eigen ist, wenn sie einen Betrug begeht.
  • Diese Ausführungsform der vorliegenden Erfindung hat eine besondere Anwendung in Geschäftsbereichen, wie beispielsweise Vertragsverhandlung, Versicherungsabwicklungen, Kundenservice, usw. Betrug in diesen Bereichen kostet Gesellschaften jedes Jahr Millionen. Glücklicherweise stellt die vorliegende Erfindung ein Werkzeug zur Verfügung, um bei der Bekämpfung eines derartigen Betrugs zu helfen. Es sollte auch beachtet werden, daß die vorliegende Erfindung Anwendungen im Strafverfolgungsbereich, wie auch in einer Gerichtssaalumgebung usw. hat.
  • Vorzugsweise wird ein Grad an Gewißheit betreffend den Nervositätspegel der Person ausgegeben, um jemanden bei einer Suche nach Betrug dabei zu helfen, eine Bestimmung darüber vorzunehmen, ob die Person in betrügerischer Absicht gesprochen hat. Dies kann auf Statistiken basieren, wie dies oben in der Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf 6 dargelegt wurde. Optional kann die Anzeige des Nervositätspegels der Person in Echtzeit ausgegeben werden, um es jemanden, der versucht, Betrug zu verhindern, zu gestatten, Resultate sehr schnell zu erhalten, so daß er oder sie fähig ist, die Person bald herauszufordern, nachdem die Person eine verdächtige Äußerung macht.
  • Als eine andere Option kann die Anzeige des Nervositätspegels einen Alarm beinhalten, welcher ausgelöst wird, wenn der Nervositätspegel einen vorbestimmten Pegel überschreitet. Der Alarm kann eine sichtbare Benachrichtigung auf einer Computeranzeige beinhalten, einen hörbaren Klang bzw. Ton, usw., um einen Aufseher, den Zuhörer und/oder jemanden zu alarmieren, der nach Betrug sucht. Der Alarm könnte auch mit einer Aufzeichnungsvorrichtung verbunden sein, welche beginnen würde, die Konversation aufzuzeichnen, wenn der Alarm ausgelöst wurde, wenn die Konversation nicht bereits aufgezeichnet wird.
  • Die Alarmoptionen wären besonders in einer Situation nützlich sein, wo sich viele Personen beim Sprechen abwechseln. Ein Beispiel wäre in einer Kundenserviceabteilung oder am Telefon eines Kundenservicebeauftragten. Da jeder Kunde an die Reihe kommt, um mit einem Kundenservice-Beauftragten zu sprechen, würden Ausführungsformen der vorliegenden Erfindung den Nervositätspegel in der Sprache des Kunden detektieren. Wenn der Alarm ausgelöst wurde, da der Nervositätspegel eines Kunden den vorgeschriebenen Pegel überquerte, könnte der Kundenservicebeauftragte bzw. -verantwortliche durch eine sichtbare Anzeige auf seinem oder ihrem Computerbildschirm, ein blinkendes Licht, usw. benachrichtigt werden. Der Kundenservicebeauftragte, nun von dem möglichen Betrug wissend, könnte dann versuchen, den Betrug freizulegen bzw. aufzudecken, wenn er existiert. Der Alarm könnte auch verwendet werden, um genausogut einen Manager zu be nachrichtigen. Weiters könnte eine Aufzeichnung der Konversation bzw. Unterhaltung beginnen, nachdem der Alarm aktiviert wurde.
  • In einer Ausführungsform der vorliegenden Erfindung wird wenigstens ein Merkmal der Stimmsignale extrahiert und verwendet, um den Nervositätspegel der Person zu bestimmen. Merkmale, welche extrahiert werden, können beinhalten einen Maximalwert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Bereich der Grundfrequenz, einen Mittelwert der Grundfrequenz, einen Mittelwert einer Bandbreite einer ersten Formanten, einen Mittelwert einer Bandbreite einer zweiten Formanten, eine Standardabweichung der Energie, eine Sprechgeschwindigkeit, eine Neigung bzw. Steigung der Grundfrequenz, einen Maximalwert der ersten Formanten, einen Maximalwert der Energie, einen Bereich der Energie, einen Bereich der zweiten Formanten, und einen Bereich der ersten Formanten. Somit kann beispielsweise ein Grad eines Schwankens im Ton der Stimme, wie er aus Messungen bzw. Auslesungen der Grundfrequenz bestimmt wurde, verwendet werden, um beim Bestimmen eines Nervositätspegels bzw. -niveaus zu helfen. Je größer der Grad eines Schwankens, umso höher ist der Nervositätspegel. Pausen in der Sprache der Person können ebenfalls berücksichtigt werden.
  • Der folgende Abschnitt beschreibt Vorrichtungen, welche verwendet werden können, um Emotion beinhaltend Nervosität, in Stimmsignalen zu bestimmen.
  • Beispielhafte Vorrichtungen zum Detektieren von Emotion in Sprach- bzw. Stimmsignalen
  • Dieser Abschnitt beschreibt verschiedene Vorrichtungen zum Analysieren von Sprache in Übereinstimmung mit der vorliegenden Erfindung.
  • Eine Ausführungsform der vorliegenden Erfindung beinhaltet eine Vorrichtung zum Analysieren der Sprache einer Person, um ihren emotionalen Zustand zu bestimmen. Der Analysator arbeitet auf der Echtzeitfrequenz oder Tonhöhenkomponenten innerhalb des ersten Formantenbands von menschlicher Sprache. Beim Analysieren der Sprache analysiert die Vorrichtung Erscheinungsmuster bestimmter Werte im Hinblick auf Muster einer differentiellen ersten Formantentonlage, Rate einer Tonlagenänderung, Dauer und Zeitverteilung. Diese Faktoren beziehen sich auf eine komplexe, jedoch sehr fundamentale Weise sowohl auf vorübergehende wie auch emotionellen Langzeit-Zuständen.
  • Die menschliche Sprache wird durch zwei grundlegende Tonerzeugungsmechanismen angeregt. Die Stimmbänder; dünne gestreckte bzw. gedehnte Membranen unter Muskelregelung bzw. -steuerung oszillieren bzw. schwingen, wenn ausgestoßene Luft von den Lungen durch sie durchtritt. Sie erzeugen einen charakteristischen "Brumm"-Klang bei einer fundamentalen bzw. Grundfrequenz zwischen 80 Hz und 240 Hz. Diese Frequenz wird über einen moderaten Bereich sowohl durch bewußte als auch unbewußte Muskelkontraktion und -entspannung variiert. Die Wellenform des grundlegenden "Brummens" beinhaltet viele Harmonische, von welchen einige eine Erregungsresonanz verschieden festgelegt ist und veränderliche Hohlräume mit dem stimmlichen Gebiet assoziiert sind. Der zweite Grundton, welcher während einer Sprache erzeugt wird, ist ein pseudozufälliges Rauschen, welches eine ziemlich breite und einheitliche bzw. gleichförmige Frequenzverteilung aufweist. Er wird durch Turbulenz verursacht, sobald ausgeatmete bzw. ausgestoßene Luft sich durch den Vokaltrakt bewegt und wird ein "Zisch"-Klang bzw. Zischlaut genannt. Er wird hauptsächlich durch Zungenbewegungen moduliert und erregt auch die festgelegten und veränderlichen Hohlräume. Es ist diese komplexe Mischung von "Brumm"- und "Zisch"-Lauten, welche durch die Resonanzhohlräume geformt und artikuliert werden, welche Sprache erzeugen.
  • In einer Energieverteilungsanalyse von Sprachklängen bzw. Sprachtönen wird gefunden werden, daß die Energie in getrennte bzw. ausgeprägte Frequenzbänder, Formanten genannt, fällt. Es gibt drei signifikante Formanten. Das hier beschriebene System verwendet das erste Formantenband, welches sich von der grundlegenden "Brumm"-Frequenz bis ungefähr 1000 Hz erstreckt. Dieses Band weist nicht nur den höchsten Energiegehalt auf, sondern reflektiert einen hohen Grad an Frequenzmodulation als eine Funktion von verschiedenen Vokaltrakt- und Gesichtsmuskelspannungs-Variationen.
  • In Wirklichkeit wird durch ein Analysieren bestimmter Verteilungsmuster der ersten Formantenfrequenz eine qualitative Messung von sprachbezogenen Muskelspannungsvariationen und Wechselwirkungen durchgeführt. Da diese Muskel überwiegend durch sekundäre unbewußte Vorgänge vorgespannt und artikuliert werden, welche wiederum durch einen emotionalen Zustand beeinflußt sind, kann eine relative Messung einer emotionalen Aktivität unabhängig von dem Bewußtsein einer Person oder einem Mangel an Bewußtsein von diesem Zustand bestimmt werden. Die Forschung bestätigt auch eine allge meine Vermutung, daß, da die Mechanismen der Sprache äußerst komplex und weitestgehend autonom sind, sehr wenig Leute fähig sind, bewußt einen fiktiven emotionalen Zustand zu "projizieren". Tatsächlich erzeugt ein Versuch so vorzugehen, üblicherweise seinen eigenen einzigartigen psychologischen Streß-"Fingerabdruck" in dem Stimmuster.
  • Wegen der Charakteristika bzw. Merkmale der ersten Formanten-Sprachklänge bzw. -Sprachtöne analysiert die vorliegende Erfindung ein FM-demoduliertes erstes Formanten-Sprachsignal und erzeugt eine Ausgabe, welche Nullen davon anzeigt.
  • Die Frequenz oder Anzahl von Nullen oder "flachen" Punkten in dem FM-demodulierten Signal, die Länge der Nullen und das Verhältnis der Gesamtzeit, zu welcher Nullen während einer Wortperiode existieren, zur Gesamtzeit der Wortperiode sind alle für einen emotionalen Zustand des Einzelnen anzeigend bzw. indikativ. Durch ein Betrachten der Ausgabe der Vorrichtung kann der Ver- bzw. Anwender das Auftreten der Nullen sehen oder fühlen und somit durch ein Beobachten der Ausgabe der Anzahl oder Frequenz von Nullen bestimmen, der Länge der Nullen und des Verhältnisses der Gesamtzeit, während welcher Nullen während einer Wortperiode bis zur Länge der Wortperiode existieren, den emotionalen Zustand des Einzelnen bzw. Individiums.
  • In Ausführungsformen der vorliegenden Erfindung ist das erste Formanten-Frequenzbad eines Sprachsignals FM-demoduliert und das FM-demodulierte Signal wird an einen Wortdetektorschaltkreis angewendet bzw. angelegt, welcher das Vorhandensein eines FM-demodulierten Signals detektiert. Das FM-demodulierte Signal wird auch an Null-Detektormittel angelegt, welche die Nullen in dem FM-demodulierten Signal detektieren, und eine Ausgabe erzeugen, welche dafür anzeigend bzw. hinweisend ist. Ein Ausgabeschaltkreis wird mit dem Wortdetektor und dem Nulldetektor gekoppelt. Der Ausgabeschaltkreis wird durch den Wortdetektor freigegeben, wenn der Wortdetektor das Vorhandensein eines FM-demodulierten Signals detektiert, und der Ausgabeschaltkreis erzeugt eine Ausgabe, welche für das Vorhandensein oder Nicht-Vorhandensein einer Null in dem FM-demodulierten Signal anzeigend ist. Die Ausgabe des Ausgabeschaltkreises wird auf eine Weise angezeigt, in welcher sie durch einen Anwender wahrgenommen wird, so daß der Ver- bzw. Anwender mit einer Anzeige des Bestehens von Nullen in dem FM-demodulierten Signal versorgt ist. Der Anwender der Vorrichtung überwacht somit die Nullen und kann dadurch den emotionalen Zustand des Individuums bestimmen, dessen Sprache analysiert wird.
  • In einer anderen Ausführungsform der vorliegenden Erfindung wird das Stimmvibrato analysiert. Das sogenannte Stimmvibrato wurde als eine halbfreiwillige Antwort erstellt, welche beim Studieren einer Irreführung zusammen mit bestimmten anderen Reaktionen von Wert sein könnte; wie beispielsweise Atmungsvolumen; Einatmungs-Ausatmungs-Verhältnisse; Stoffwechselrate; Regelmäßigkeit und Rate bzw. Geschwindigkeit einer Einatmung; Assoziation von Worten und Ideen; Gesichtsausdrücke; Bewegungsreaktionen; und Reaktionen auf bestimmte Narkotika; jedoch wurde keine verwendbare Technik zuvor entwickelt, welche eine gültige und zuverlässige Analyse von Stimmänderungen in der klinischen Bestimmung eines emotionalen Zustands, Meinungen oder Täuschungsversuche eines Subjekts bzw. einer Person gestattet.
  • Frühe Experimente, welche Versuche beinhalteten, Stimmqualitätsänderungen mit emotionalen Reizen zu korrelieren, haben festgestellt bzw. ergeben, daß die menschliche Sprache durch starke Emotion beeinflußt wird. Detektierbare Änderungen der Stimme treten viel rascher auf, nachfolgend auf eine Streßstimulierung, als es die klassischen Anzeigen von physiologischen Manifestationen tun, welche aus dem Funktionieren des autonomen Nervensystems resultieren.
  • Zwei Typen einer Stimme ändern sich als ein Resultat von Streß. Die erste von diesen wird als die Grobänderung bezeichnet, welche üblicherweise nur als ein Ergebnis einer wesentlichen Streßsituation auftritt. Diese Änderung manifestiert sich selbst in hörbaren merklichen Änderungen der Sprechgeschwindigkeit, Lautstärke, Stimmzittern, Änderung im Abstand zwischen Silben, und einer Änderung in der Grundtonhöhe oder Frequenz der Stimme. Diese grobe Änderung ist Gegenstand der bewußten Steuerung, wenigstens bei einigen Subjekten bzw. Personen, wenn der Streßpegel unter jenem eines Totalverlusts einer Steuerung bzw. Regelung ist.
  • Der zweite Typ an Stimmänderung ist jener von Stimmqualität. Dieser Typ der Änderung ist nicht für das menschliche Ohr unterscheidbar bzw. wahrnehmbar, sondern ist eine offenbar unbewußte Manifestation der leichten Spannung der Stimmbänder unter sogar geringem Streß, resultierend in einer Dämpfung ausgewählter Frequenzvariationen. Bei graphischer Darstellung wird der Unterschied leicht zwischen ungestreßter oder normaler Stimmgebung und Stimmgebung unter mildem bzw. geringem Streß, Täuschungsversuchen oder feindlichen bzw. gegnerischen Einstellungen wahrnehmbar. Diese Muster haben sich über einen weiten Bereich menschlicher Stimmen beider Geschlechter, unterschiedlicher Alter und unter verschiedenen situationalen Bedingungen als wahr bzw. zutreffend erwiesen. Dieser zweite Änderungstyp ist nicht Gegenstand einer bewußten Steuerung.
  • Es gibt zwei Typen bzw. Arten von Klang bzw. Ton, welche durch die menschliche Stimmanatomie erzeugt werden. Der erste Typ an Ton ist ein Produkt aus der Vibration der Stimmbänder, welche wiederum ein Produkt eines teilweisen Schließens der Stimmritze ist und eines Zwingens von Luft durch die Stimmritze durch eine Kontraktion des Lungenhohlraums und der Lungen ist. Die Frequenzen dieser Vibrationen können im allgemeinen zwischen 100 und 300 Hertz, abhängig von Geschlecht und Alter des Sprechers und den Intonationen variieren, die der Sprecher anwendet. Dieser Ton hat eine rasche Abfall- bzw. Abklingzeit.
  • Die zweite Art an Klang bzw. Ton beinhaltet die Formanten-Frequenzen. Diese bilden einen Klang, welcher aus der Resonanz der Hohlräume im Kopf, beinhaltend den Hals, den Mund, die Nase und die Stirnhöhlen resultiert. Der Klang wird durch ein Anregung der Resonanzhohlräume durch eine Tonquelle von niedrigeren Frequenzen, im Fall des durch die Stimmbänder erzeugten vokalisierten Klangs, oder durch eine teilweise Beschränkung des Durchtritts von Luft von den Lungen, wie im Fall von stimmlosen Reiblauten erzeugt. Was auch immer die Erregungsquelle ist, die Frequenz der Formanten wird durch die Resonanzfrequenzen des involvierten Hohlraums bestimmt. Die Formantenfrequenzen erscheinen im allgemeinen bei etwa 800 Hertz und erscheinen in bestimmten Frequenzbändern, welche mit der Resonanzfrequenz der individuellen Hohlräume übereinstimmen. Die erste, oder niedrigste, Formante, ist jene, die durch den Mund und Rachen- bzw. Halshohlräume gebildet wird und ist merkbar für ihre Frequenzverschiebung, sobald der Mund seine Abmessungen und Volumen bei der Bildung von verschiedenen Klängen, besonders von Vokalen ändert. Die höchsten Formanten-Frequenzen sind konstanter aufgrund des konstanteren Volumens der Hohlräume. Die Formanten-Wellenformen sind läutende Signale, im Gegensatz zu den rasch abklingenden Signalen der Stimmbänder. Wenn stimmhafte Töne bzw. Klänge geäußert werden, werden die Stimmwellenformen auf die Formanten-Wellenformen als Amplitudenmodulationen eingeprägt bzw. überlagert.
  • Es wurde entdeckt, daß eine dritte Signalkategorie in der menschlichen Stimme existiert und daß diese dritte Signalkategorie mit der zweiten Art einer Stimmänderung verwandt ist, wie dies oben besprochen wurde. Dies ist eine Infraschall- oder Unterschall-Frequenzmodulation, welche in einem gewissen Grad sowohl in den Stimmbandklängen als auch in den Formantenklängen vorhanden ist. Dieses Signal liegt typischerweise zwischen 8 und 12 Hertz. Dementsprechend ist es nicht für das menschliche Ohr hörbar. Wegen der Tatsache, daß diese Charakteristik eine Frequenzmodulation bildet, wie sie sich von einer Amplitudenmodulation unterscheidet, ist es nicht direkt auf Zeitbasis/Amplituden-Kartenaufzeichnungen wahrnehmbar bzw. unterscheidbar. Wegen der Tatsache, daß dieses Infraschallsignal eine der signifikanteren Stimmanzeigen von psychologischem Streß ist, wird es in größerem Detail behandelt werden.
  • Es bestehen verschiedene Analogien, welche verwendet werden, um schematische Darstellungen des gesamten Stimmprozesses zur Verfügung zu stellen. Sowohl mechanische wie auch elektronische Analogien werden erfolgreich beispielsweise beim Entwurf von Computerstimmen verwendet bzw. ange wandt. Diese Analogien betrachten jedoch die stimmhafte Klangquelle (Stimmbänder) und die Wände der Hohlräume als harte und konstante Merkmale. Jedoch stellen sowohl die Stimmbänder als auch die Wände der grundlegenden Formanten-erzeugenden Hohlräume in der Realität ein flexibles Gewebe dar, welches augenblicklich auf die komplexe Anordnung von Muskeln antwortet, welche eine Steuerung des Gewebes zur Verfügung stellen. Diese Muskel, welche die Stimmbänder durch die mechanische Verbindung von Knochen und Knorpel steuern, gestatten sowohl die gezielte als auch automatische Erzeugung von Stimmklang und Veränderung der Stimmtonhöhe durch ein Individuum. In ähnlicher Weise erlauben diese Muskel, welche die Zunge, Lippen und Hals bzw. Rachen steuern, sowohl die gezielte als auch die automatische Steuerung der ersten Formanten-Frequenzen. Andere Formanten können ähnlich zu einem begrenzteren Grad bzw. Ausmaß beeinflußt werden.
  • Es ist wert zu beachten, daß während normaler Sprache diese Muskel auf einem kleinen Prozentsatz ihrer Gesamtarbeitsfähigkeit arbeiten. Aus diesem Grund verbleiben, trotz ihrer Verwendung zum Ändern der Position der Stimmbänder und der Positionen der Lippen, Zunge und inneren Halswände, die Muskeln in einem relativ entspannten Zustand. Es wurde bestimmt, daß während dieses relativ entspannten Zustands eine Muskelwellenbewegung typischerweise bei der zuvor erwähnten Frequenz von 8 bis 12 Hertz auftritt. Diese Wellenbewegung verursacht eine leichte Variation in der Spannung der Stimmbänder und verursacht Verschiebungen bzw. Verlagerungen der grundlegenden Tonhöhenfrequenz der Stimme. Auch variiert die Wellenform leicht das Volumen des Resonanzhohlraums (besonders des mit der ersten Formanten assoziierten) und der Elastizität der Hohlraumwände, um Ver schiebungen der Formantenfrequenzen zu verursachen. Diese Verschiebungen um eine Zentralfrequenz bilden eine Frequenzmodulation der Zentral- oder Trägerfrequenz.
  • Es ist wichtig zu beachten, daß keine der Verschiebungen in der grundlegenden Tonhöhenfrequenz der Stimme oder in den Formantenfrequenzen direkt durch einen Zuhörer detektierbar ist, teilweise, da die Verschiebungen sehr klein sind, und teilweise, da sie primär in dem zuvor erwähnten unhörbaren Frequenzbereich bestehen.
  • Um diese Frequenzmodulation zu beobachten, kann irgendeine von verschiedenen bestehenden Techniken zur Demodulation einer Frequenzmodulation eingesetzt bzw. verwendet werden, natürlich unter Beachtung, daß die Modulationsfrequenz die nominellen 8–12 Hertz sind und der Träger eines der Bänder innerhalb des Stimmspektrums ist.
  • Um vollständiger die obige Diskussion zu verstehen, muß das Konzept eines "Schwerpunkts" dieser Wellenform verstanden werden. Es ist möglich, ungefähr den Mittelpunkt zwischen den zwei Extremen bzw. Extremwerten von jeder einzelnen Auslenkung des Aufzeichnungsstifts zu bestimmen. Wenn die Mittelpunkte zwischen den Extremen aller Auslenkungen markiert sind und wenn diese Mittelpunkte dann ungefähr durch eine kontinuierliche Kurve verbunden sind, wird gesehen werden, daß eine Linie, die sich einem Mittelwert oder "Schwerpunkt" der gesamten Wellenform annähert, resultieren wird. Ein Verbinden aller derartigen Markierungen, mit etwas Glättung, resultiert in einer sanften gekrümmten Linie. Die Linie repräsentiert die Infraschall-Frequenzmodulation, die aus den zuvor beschriebenen Wellenformen resultiert.
  • Wie oben erwähnt, wurde bestimmt, daß die Anordnung von mit den Stimmbändern assoziierten Muskeln und Hohlraumwänden Gegenstand einer sanften Muskelspannung ist, wenn leichter bis mittlerer psychologischer Streß in der individuellen Überprüfung bzw. Untersuchung erzeugt wird. Diese Spannung, die für das Subjekt bzw, die Person nicht wahrnehmbar ist, und ähnlich durch normale, nicht unterstützte Beobachtungstechniken für den Überprüfer nicht wahrnehmbar ist, ist ausreichend, um die Muskelwellenformen zu senken oder virtuell die Muskelwellenformen zu verringern oder nahezu zu entfernen, welche in dem nicht gestreßten Subjekt vorhanden sind, wodurch die Basis für die Trägerfrequenzvariationen entfernt wird, welche die Infraschall-Frequenzmodulierungen erzeugen.
  • Während die Verwendung der Infraschallwellenform einzigartig für die Technik ist, welche Stimme als das physiologische Medium zur physiologischen Streßbewertung einsetzt, stellt die Stimme zusätzliche instrumentierte Anzeigen von durch ein Hören nicht wahrnehmbaren physiologischen Änderungen als ein Ergebnis von psychologischem Streß zur Verfügung, welche physiologischen Änderungen ähnlich durch Techniken und Vorrichtungen in gegenwärtiger Verwendung detektierbar sind. Von den vier am häufigsten verwendeten physiologischen Änderungen, welche zuvor erwähnt wurden (Hirnwellenmuster, Herzaktivität, Hautleitfähigkeit und Atmungsaktivität) beeinflussen zwei von diesen, die Atmungsaktivität und Herzaktivität, direkt und indirekt die Amplitude und das Detail einer Wellenform einer mündlichen Äußerung und stellen die Basis für eine gröbere Bewertung von psychologischem Streß, besonders, wenn die Prüfung bzw. das Testen sequentielle vokale Antworten beinhaltet bzw. involviert, zur Verfügung.
  • Eine andere Vorrichtung ist in 8 gezeigt. Wie gezeigt, konvertiert bzw. wandelt ein Wandler 800 die Schallwellen der mündlichen Äußerungen des Subjekts in elektrische Signale um, wovon diese mit der Eingabe eines Audioverstärkers 802 verbunden sind, welcher einfach zum Zweck einer Leistungssteigerung der elektrischen Signale auf einen stabileren nützlicheren Pegel dient. Die Ausgabe bzw. der Ausgang des Verstärkers 802 ist mit einem Filter 804 verbunden, welches primär zum Zweck eines Entfernens einiger unerwünschten Niederfrequenzkomponenten und Rauschkomponenten dient.
  • Nach einem Filtern wird das Signal mit einem FM-Diskriminator 806 verbunden, wobei die Frequenzabweichungen von der zentralen bzw. Mittenfrequenz in Signale umgewandelt werden, welche in der Amplitude variieren. Die in der Amplitude variierenden Signale werden dann in einem Detektorschaltkreis 808 zum Zweck eines Gleichrichtens des Signals detektiert und erzeugen ein Signal, welches eine Serie von Halbwellenpulsen bildet. Nach einer Detektion wird das Signal mit einem Integratorschaltkreis 810 verbunden, worin das Signal im gewünschten Ausmaß integriert wird. Im Schaltkreis bzw. in der Schaltung 810 wird das Signal entweder in einem sehr kleinen Ausmaß integriert, wobei eine Wellenform erzeugt wird, oder wird zu einem größeren Ausmaß integriert, wobei ein Signal erzeugt wird. Nach einer Integration wird das Signal im Verstärker 812 verstärkt und mit einem Prozessor 814 verbunden, welcher die mit dem Stimmsignal assoziierte Emotion bestimmt. Eine Ausgabevorrichtung 816, wie beispielsweise ein Computer bildschirm oder Drucker wird verwendet, um die detektierte Emotion auszugeben. Optional können statistische Daten ebenfalls ausgegeben werden.
  • Eine etwas einfachere Ausführungsform einer Vorrichtung zum Erzeugen sichtbarer Aufzeichnungen in Übereinstimmung mit der Erfindung ist in 9 gezeigt, worin die akustischen Signale durch ein Mikrophon 900 in elektrische Signale umgewandelt werden, welche magnetisch in einer Bandaufzeichnungsvorrichtung 902 aufgezeichnet werden. Die Signale können dann durch die verbleibende Ausrüstung bei verschiedenen Geschwindigkeiten und zu jeder Zeit be- bzw. verarbeitet werden, wobei die Wiedergabe mit einer herkömmlichen Halbleiterdiode 904 verbunden ist, welche die Signale gleichrichtet. Die gleichgerichteten Signale werden mit der Eingabe eines herkömmlichen bzw. konventionellen Verstärkers 906 verbunden und auch mit dem bewegbaren Kontakt eines Wahlschalters, welcher allgemein bei 908 angezeigt bzw. bezeichnet ist. Der bewegbare Kontakt des Schalters 908 kann zu irgendeinem einer Vielzahl von festgelegten Kontakten bewegt werden, von welchen ein jeder mit einem Kondensator verbunden ist. In 9 ist eine Auswahl von vier Kondensatoren 910, 912, 914 und 916 gezeigt, wovon ein jeder einen Anschluß mit einem festgelegten Kontakt des Schalters verbunden und den anderen Anschluß mit Masse verbunden aufweist. Die Ausgabe bzw. der Ausgang des Verstärkers 906 ist mit einem Prozessor 918 verbunden.
  • Ein Bandaufzeichnungsgerät, welches in dieser besonderen Anordnung von Ausrüstung verwendet werden kann, war eine Uher Modell-4000 Bandeinheit mit vier Geschwindigkeiten, welche ihren eigenen internen Verstärker aufweist. Die Werte der Kondensatoren 910 bis 916 waren jeweils 0,5, 3, 10 und 50 Mikrofarad und die Eingabeimpedanz des Verstärkers 906 war ungefähr 10.000 Ohm. Wie erkannt werden wird, könnten verschiedene andere Komponenten in dieser Vorrichtung verwendet werden bzw. verwendet worden sein.
  • Im Betrieb des Schaltkreises von 9 wird die durch Diode 904 entstehende gleichgerichtete Wellenform im gewünschten Ausmaß integriert, wobei die Zeitkonstante so ausgewählt ist, daß der Effekt der frequenzmodulierten Infraschallwelle als ein langsam variierender Gleichstrom- bzw. DC-Pegel erscheint, welcher ungefähr der Linie folgt, die den "Schwerpunkt" der Wellenform repräsentiert. Die in diesem besonderen Diagramm gezeigten Ausschläge sind relativ rasch, wobei dies anzeigt, daß der Schalter mit einem der Kondensatoren mit niedrigerem Wert verbunden war. In dieser Ausführungsform wird ein gemischtes bzw. zusammengesetztes Filtern durch den Kondensator 910, 912, 914 oder 916, und in dem Fall einer Reduktion der Wiedergabegeschwindigkeit durch das Bandaufzeichnungsgerät erreicht.
  • Telefonischer Betrieb mit Bedienerrückmeldung
  • 10 illustriert eine Ausführungsform der vorliegenden Erfindung, welche Emotionen in Stimmsignalen überwacht und eine Bedienerrückkopplung bzw. Telefonistenrückkopplung bzw. -rückmeldung basierend auf den detektierten Emotionen zur Verfügung stellt. Zuerst wird ein Stimmsignal, welches für eine Komponente einer Konversation zwischen wenigstens zwei Subjekten repräsentativ ist, in Funktion bzw. Vorgang 1000 empfangen. In Vorgang 1002 wird eine Emotion, welche mit dem Stimmsignal assoziiert ist, bestimmt. Schließlich wird in Vorgang 1004 eine Rückkopplung bzw. Rückmeldung einem Dritten basierend auf der bestimmten Emotion zur Verfügung gestellt.
  • Die Konversation kann über ein Telekommunikationsnetzwerk ausgeführt werden, wie auch ein Weitverkehrsnetzwerk, wie beispielsweise das Internet, wenn es mit Internettelephonie verwendet wird. Als eine Option werden die Emotionen gerastet bzw. gesiebt und eine Rückmeldung wird nur zur Verfügung gestellt, wenn von der Emotion bestimmt wird, eine negative Emotion zu sein, ausgewählt aus der Gruppe von negativen Emotionen, welche aus Ärger, Traurigkeit und Angst bestehen. Das Gleiche könnte mit Gruppen von positiven oder neutralen Emotionen vorgenommen werden. Die Emotion kann durch ein Extrahieren eines Merkmals aus dem Stimmsignal bestimmt werden, wie dies zuvor im Detail beschrieben wurde.
  • Die vorliegende Erfindung ist besonders für einen Betrieb in Verbindung mit einem Notfallantwortsystem, wie beispielsweise dem 911-System geeignet. In einem derartigen System könnten eingehende Anrufe durch Ausführungsformen der vorliegenden Erfindung überwacht werden. Eine Emotion des Anrufers würde während der Konversation des Anrufers mit dem Techniker bestimmt werden, der den Anruf beantwortet. Die Emotion könnte dann über Funkwellen beispielsweise zu dem Notfallteam gesandt werden, d.h. Polizei, Feuerwehr und/oder Ambulanzpersonal, so daß diese über den emotionellen Zustand des Anrufers unterrichtet sind.
  • In einem anderen Szenario ist einer der Subjekte ein Kunde, ein anderes der Subjekte ist ein Angestellter, wie beispielsweise jemand, der durch ein Callcenter oder eine Kundenserviceabteilung angestellt ist, und der Dritte oder die dritte Person ist ein Manager. Die vorliegende Erfindung würde die Konversation zwischen dem Kunden und dem Angestellten überwachen, um zu bestimmen, ob der Kunde und/oder der Angestellte beispielsweise aufgeregt wird. Wenn negative Emotionen detektiert werden, wird eine Rückmeldung zum Manager gesandt, der die Situation beurteilen und falls nötig, intervenieren bzw. einschreiten kann.
  • Verbessern einer Emotionserkennung
  • 11 illustriert ein System, das eine Anwender- mit einer Computeremotionsdetektion von Stimmsignalen vergleicht, um eine Stimmerkennung von einer der Ausführungsformen der Erfindung, einem Anwender oder beiden zu verbessern. Zuerst werden, in Vorgang 1100, ein Stimmsignal und eine Emotion, welche mit dem Stimmsignal assoziiert ist, zur Verfügung gestellt. Die mit dem Stimmsignal assoziierte Emotion wird automatisch in Vorgang 1102 auf eine Weise bestimmt, wie sie oben dargelegt wurde. Die automatisch bestimmte Emotion wird in Vorgang 1104 beispielsweise auf einem computerlesbaren Medium gespeichert. In Vorgang 1106 wird eine anwenderbestimmte, mit dem Stimmsignal assoziierte Emotion, welche durch einen Anwender bestimmt ist, empfangen. Die automatisch bestimmte Emotion wird mit der anwenderbestimmten Emotion in Vorgang 1108 verglichen.
  • Das Stimmsignal kann ausgesendet bzw. ausgegeben oder empfangen werden durch ein System, welches die vorliegende Erfindung verkörpert. Optional wird die mit dem Stimmsignal assoziierte Emotion identifiziert, wenn bzw. nachdem die Emotion bereitgestellt ist. In einem derartigen Fall sollte bestimmt werden, ob die automatisch bestimmte Emotion oder die anwenderbestimmte Emotion mit der identifizierten Emotion übereinstimmt. Dem Ver- bzw. Anwender kann ein Preis zuerkannt werden, wenn die anwenderbestimmte Emotion mit der identifizierten Emotion übereinstimmt bzw. zusammenpaßt. Weiters kann die Emotion automatisch durch ein Extrahieren von wenigstens einem Merkmal der Stimmsignale, wie beispielsweise in der oben besprochenen Weise, bestimmt werden.
  • Um einen Anwender beim Erkennen einer Emotion zu unterstützen, kann ein Emotionserkennungsspiel gespielt werden. Das Spiel könnte es einem Anwender gestatten, gegen einen Computer oder eine andere Person anzutreten, um zu sehen, wer am besten Emotion in aufgezeichneter Sprache erkennen kann. Eine praktische Anwendung des Spiels ist, autistischen Leuten bei einer Entwicklung einer besseren emotionalen Erfahrung beim Erkennen von Emotion in der Sprache zu helfen.
  • In einer Anordnung kann eine Vorrichtung verwendet werden, um Daten über Stimmsignale zu erzeugen, welche verwendet werden können, um eine Emotionserkennung zu verbessern. Die Vorrichtung akzeptiert stimmlichen Klang durch einen Wandler, wie beispielsweise ein Mikrophon oder ein Klang- bzw. Tonaufzeichnungsgerät. Die physikalische Schallwelle bzw. Klangwelle, welche in elektrische Signale umgewandelt wurde, wird parallel an einer typischen, kommerziell verfügbaren Bank von elektronischen Filtern angewendet, welche den hörbaren bzw. Audio-Frequenzbereich abdecken. Ein Einstellen der zentralen bzw. Mittelfrequenz des niedrigsten Filters auf irgendeinen Wert, welcher die elektrische Energierepräsentation der Stimmsignalamplitude durchläßt, welche das niedrigste Stimmfrequenzsignal beinhaltet, er richtet die Mittenwerte aller nachfolgenden Filter bis zum letzten, welcher im allgemeinen die Energie zwischen 8 kHz bis 16 kHz oder zwischen 10 kHz und 20 kHz durchläßt, und auch die exakte Anzahl derartiger Filter bestimmt. Der spezifische Wert der Mittenfrequenz des ersten Filters ist nicht signifikant, solange die tiefsten Töne der menschlichen Stimme aufgefangen werden, ungefähr 70 Hz. Im wesentlichen ist jede kommerziell erhältliche Bank anwendbar, wenn sie an irgendeinen kommerziell erhältlichen Digitalisierer und dann Mikrocomputer angeschlossen werden kann. Der Beschreibungsabschnitt beschreibt einen spezifischen Satz von Mittenfrequenzen und Mikroprozessor in der bevorzugten Ausführungsform. Die Filterqualität ist auch nicht besonders signifikant, da ein in der Beschreibung geoffenbarter Verbesserungs- bzw. Verfeinerungsalgorithmus jeden Satz von Filtern durchschnittlicher Qualität in akzeptable Frequenz- und Amplitudenwerte bringt. Das Verhältnis 1/3 definiert natürlich die Bandbreite von allen Filtern, sobald die Mittenfrequenzen berechnet sind.
  • Diesem Sequentierungs- bzw. Aufteilungsvorgang bzw. -prozeß folgend werden die Filterausgabespannungen durch einen kommerziell erhältlichen Satz von Digitalisierern oder vorzugsweise Multiplexer und Digitalisierern oder einen Digitalisierer digitalisiert, welcher in die gleiche identifizierte kommerziell erhältliche Filterbank eingebaut ist, um eine Kopplungslogik und Hardware zu entfernen. Erneut ist die Qualität eines Digitalisierers bzw. einer Digitalisiervorrichtung im Hinblick auf die Geschwindigkeit einer Umwandlung oder Diskriminierung nicht signifikant bzw. bedeutsam, da durchschnittliche gegenwärtig erhältliche kommerzielle Einheiten die hier benötigten Erfordernisse aufgrund eines Korrekturalgorithmus (siehe Spezi fikationen) und der niedrigen notwendigen Abtastrate überschreiten.
  • Jeder komplexe Klang bzw. Ton bzw. Schall, welcher sich konstant ändernde Information trägt, kann mit einer Reduktion von Informationsbits durch ein Auffangen der Frequenz und Amplitude von Spitzen des Signals angenähert werden. Dies ist natürlich altes Wissen, wie es ein Durchführen eines derartigen Vorgangs an Sprachsignalen auch ist. Jedoch waren in der Sprachforschung verschiedene spezifische Bereiche, wo derartige Spitzen häufig auftreten, als "Formanten"-Bereiche bezeichnet. Jedoch decken sich diese Bereichsannäherungen nicht immer mit den Spitzen jedes Sprechers unter allen Umständen. Sprachforscher und der erfinderische Stand der Technik neigen zu einer großen Anstrengung, um "legitimierte" Spitzen zu messen und als solche zu benennen, welche innerhalb der typischen Formanten-Frequenzbereiche fallen, als ob ihre Defination nicht Abschätzungen involvieren würde, sondern eher Absolutheit bzw. Absolutwerte. Dies hat zahlreiche Forschung und Formanten-Meßvorrichtungen veranlaßt, künstlich entsprechende Spitzen auszuschließen, welche nötig sind, um adäquat eine komplexe, hochveränderliche Klangwelle in Echtzeit zu repräsentieren. Da die vorliegende Offenbarung entworfen ist, um für Tierstimmenklänge wie auch alle menschlichen Sprachen geeignet zu sein, sind künstliche Beschränkungen, wie beispielsweise Formanten, nicht von Interesse, und die Klang- bzw. Schallwelle wird als eine komplexe, variierende Schallwelle behandelt, welche jeden derartigen Klang bzw. Schall analysieren kann.
  • Um eine Spitzenidentifizierung unabhängig von einer Abweichung in Filterbandbreite, Qualität und Digitalisierer diskriminierung zu normalisieren und zu vereinfachen, sind die tatsächlichen Werte, welche für Amplitude und Frequenz gespeichert sind, "repräsentative Werte". Dies deshalb, damit die Breite von oberen Frequenzfilter numerisch ähnlich zur Bandbreite der Filter unterer Frequenz ist. Jedem Filter werden einfach fortlaufende Werte von 1 bis 25 gegeben, und ein Klang von sanft zu laut wird von 1 bis 40 zur Vereinfachung auf einer CRT-Bildschirmanzeige skaliert. Eine Korrektur an den Frequenzrepräsentationswerten wird erreicht bzw. durchgeführt, indem die Anzahl der Filter auf einen höheren Dezimalwert zu dem nächsten ganzzahligen Wert eingestellt wird, wenn die Filterausgabe zur Rechten des Spitzenfilters eine größere Amplitude als die Filterausgabe zur Linken des Spitzenfilters aufweist. Die Details dieses Algorithmus sind in den Beschreibungen dieser Offenbarung beschrieben. Dieser Korrekturvorgang muß sich vor dem Komprimierungsvorgang ereignen, während alle Filteramplitudenwerte verfügbar sind.
  • Statt die Abtastrate zu verlangsamen, speichert die bevorzugte Anordnung alle Filteramplitudenwerte für 10 bis 15 Abtastungen bzw. Proben pro Sekunde für eine Sprachprobe von ungefähr 10 bis 15 Sekunden vor diesem Korrektur- und Komprimierungsprozeß. Wenn der Computerspeicherplatz kritischer als die Durchlaufgeschwindigkeit ist, sollten sich die Korrekturen und Komprimierung zwischen jedem Durchlauf ereignen, um den nächsten für einen großen starken Datenspeicher auszulöschen. Da die meisten kommerziell erhältlichen Minicomputer mit durchschnittlichem Preis einen ausreichenden Speicher aufweisen, speichert die bevorzugte und hierin geoffenbarte Anordnung alle Daten und be- bzw. verarbeitet nachher die Daten.
  • Die meisten Tierstimmensignale von Interesse, inklusive der menschlichen, beinhalten eine größte Amplitudenspitze, wahrscheinlich nicht an jedem Ende der Frequenzdomäne. Diese Spitze kann durch irgendeinen einfachen und üblichen numerischen Sortieralgorithmus bestimmt werden, wie es in dieser Erfindung vorgenommen wird. Die für Amplitude und Frequenz repräsentativen Werte werden dann in der Zahl drei von sechs Speicherstellensätzen angeordnet, um die Amplituden und Frequenzen von sechs Spitzen bzw. Peaks zu halten.
  • Die höchste Frequenzspitze über 8 kHz wird in der Speicherstelle Nummer sechs angeordnet und als Hochfrequenzspitze gekennzeichnet. Die niedrigste Spitze wird in dem ersten Satz von Speicherstellen bzw. Speicherplätzen angeordnet. Die anderen drei werden aus Spitzen zwischen diesen ausgewählt. Dieser Kompressionsfunktion folgend wird das Stimmsignal durch einen für Amplitude und Frequenz repräsentativen Wert von jeder der sechs Spitzen plus einer Gesamtenergieamplitude aus dem ungefilterten Gesamtsignal für beispielsweise zehn mal pro Sekunde für eine Probe bzw. Abtastung von zehn Sekunden repräsentiert. Dies liefert eine Gesamtzahl von 1300 Werten.
  • Die Algorithmen erlauben Variationen in der Abtastlänge im Fall, daß der Bediener den Abtastlängenschalter mit dem Übersteuerungsausschalter übersteuert bzw. außer Kraft setzt, um eine Fortsetzung während einer unerwarteten Geräuschunterbrechung zu verhindern. Die Algorithmen erledigen dies durch Verwendung von Durchschnitten, welche nicht signifikant empfindlich auf Änderungen in der Abtastanzahl über vier oder fünf Sekunden eines Schall- bzw. Klangsignals sind. Der Grund für eine größere Sprachab tastung, wenn möglich, ist, um den Durchschnitts-"Stil" der Sprache des Sprechers aufzufangen, welcher typischerweise innerhalb von 10 bis 15 Sekunden offensichtlich bzw. evident wird.
  • Die Ausgabe dieser Komprimierungsfunktion wird in die Elementanordnung und einen Speicheralgorithmus eingespeist, welcher zusammenbaut (a) vier Stimmqualitätswerte, welche unten zu beschreiben sind; (b) eine Klang- bzw. Schall-"Pause" oder ein Ein-zu-Aus-Verhältnis; (c) "Variabilität" – den Unterschied zwischen der Spitze jeder Amplitude für den gegenwärtigen Durchlauf und jenen des letzten Durchlaufs; Unterschiede zwischen der Frequenzzahl einer jeden Spitze für den gegenwärtigen Durchlauf und jener des letzten Durchlaufs; und Unterschied zwischen der ungefilterten Gesamtenergie des vorliegenden bzw. gegenwärtigen Durchlaufs und jener des letzten Durchlaufs; (d) eine "Silbenänderungsannäherung" durch ein Erhalten des Verhältnisses von Malen, daß sich die zweite Spitze mehr als 0,4 zwischen Durchläufen zu der Gesamtanzahl von Durchläufen mit Ton ändert; und (e) "Hochfrequenzanalyse" – das Verhältnis der Anzahl von Klang-Ein-Durchläufen, welche einen Nicht-Nullwert in dieser Spitze für die Spitzenamplitude Nummer sechs beinhalten. Dies ist eine Gesamtzahl von 20 Elementen, die pro Durchlauf verfügbar. Diese werden dann zum Dimensionszusammenbau-Algorithmus durchgeleitet.
  • Die vier Stimmqualitätswerte, welche als Elemente verwendet werden, sind (1) die "Ausbreitung bzw. Verbreitung" – der Abtastmittelwert von allen Unterschieden von Durchläufen zwischen ihrem Durchschnitt der eine Frequenz repräsentierenden Werte oberhalb der Maximalamplitudenspitze und dem Durchschnitt von jenen darunter, (2) die "Balance" – der Abtastmittelwert von allen Durchschnittsamplitudenwerte der Durchläufe von Spitzen 4, 5 & 6 geteilt durch den Durchschnitt der Spitzen 1 & 2. (3) "Hüllkurvenebenheit-hoch" – der Abtastmittelwert von allen Durchschnitten der Durchläufe von ihren Amplituden oberhalb der größten Spitze, geteilt durch die größte Spitze, (4) "Hüllkurven-ebenheit niedrig" – der Abtastmittelwert von allen Durchschnitten der Durchläufe von ihren Amplituden unterhalb der größten Spitze, geteilt durch die größte Spitze.
  • Die Stimmenstildimensionen werden "Resonanz" und "Qualität" bezeichnet und werden durch einen Algorithmus zusammengebaut, welcher eine Koeffizientenmatrix beinhaltet, die auf ausgewählten Elementen arbeitet.
  • Die "Sprachstil"-Dimensionen werden "Variabilität monoton", "abgehackt-sanft", "Stakkato halten", "Anstieg sanft", "Affektivitätssteuerung" bezeichnet. Diese fünf Dimensionen, wobei Namen zu jedem Ende von jeder Dimension gehören, werden gemessen und durch einen Algorithmus zusammengebaut, welcher eine Koeffizientenmatrix involviert, die auf 15 von den 20 Klangelementen arbeitet, die in Tabelle 6 und dem Spezifikationsabschnitt detailliert sind.
  • Die Wahrnehmungsstildimensionen werden "Eko-Struktur", "invariante Empfindlichkeit", "anders selbst", "sensorisch-intern", "Haß-Liebe", "Unabhängigkeit-Abhängigkeit" und "emotional-physisch" bezeichnet. Diese sieben Wahrnehmungsdimensionen mit Namen, die sich auf die Endbereiche der Dimensionen beziehen, werden gemessen und durch einen Algorithmus zusammengebaut bzw. zusammengestellt, welcher eine Koeffizientenmatrix involviert und auf ausgewählten Klangelementen von Stimme und Sprache (detailliert in Tabelle 7) und dem Spezifikationsabschnitt arbeitet.
  • Eine kommerziell erhältliche, typische Computertastatur oder Folientastatur gestattet es dem Anwender der vorliegenden Offenbarung, jeden und alle Koeffizienten für eine Neudefinition von irgendeiner zusammengesetzten Sprach-, Stimmen- oder Wahrnehmungsdimension für Forschungszwecke abzuändern. Auswahlschalter gestatten es, jedes oder alle Elemente oder Dimensionswerte für eine Stimmprobe eines vorgegebenen Subjekts anzuzeigen. Der digitale Prozessor regelt bzw. steuert die Analog-Zu-Digital-Wandlung des Klangsignals und regelt bzw. steuert auch den Wiederzusammenbau bzw. Neuzusammenbau der Stimmklangelemente in numerische Werte der Stimmen-, Sprach- und Wahrnehmungsdimensionen.
  • Der Mikrocomputer koordiniert auch die Tastatureingaben des Bedieners bzw. Betätigers und die gewählte Ausgabeanzeige von Werten, und Koeffizientenmatrixauswahl, um mit den Algorithmen zusammenzuwirken, welche die Stimmen-, Sprach- und Wahrnehmungsdimensionen zusammensetzen. Der Ausgabeauswahlschalter richtet einfach die Ausgabe zu jedem oder allen Ausgabesteckern, welche geeignet sind, um das Signal zu typischen kommerziell erhältlichen Monitoren, Modems, Druckern oder vorgegeben zu einer lichtausgebenden bordeigenen Anordnung zu richten.
  • Durch ein Entwickeln von Gruppenprofilstandards unter Verwendung dieser Erfindung kann ein Forscher Ergebnisse in Veröffentlichungen durch Berufe bzw. Beschäftigungen, Fehlfunktionen, Aufgabenstellungen, Hobbyinteressen, Kulturen, Sprachen, Geschlecht, Alter, Tierart, usw. auflisten. Oder der (die) Anwender (in) kann seine/ihre Werte mit jenen vergleichen, welche durch andere veröffentlicht wurden, oder mit jenen, welche in die Maschine eingebaut sind.
  • Bezugnehmend nun auf 12 der Zeichnungen wird eine stimmliche Äußerung in den Stimmklanganalysator durch ein Mikrophon 1210 eingebracht, und durch einen Mikrophonverstärker 1211 zur Signalverstärkung, oder von einer aufgezeichneten Eingabe durch einen Bandeingabestecker 1212 zur Verwendung einer vorab gezeichneten stimmlichen Äußerung eingegeben. Eine Eingabepegelregelung bzw. -steuerung 1213 stellt den Stimmsignalpegel auf den Filtertreiberverstärker 1214 ein. Der Filtertreiberverstärker 1214 verstärkt das Signal und legt das Signal an das V. U.-Meter 1215 zum Messen des korrekten Betriebssignalpegels an.
  • Die Durchlaufrate pro Sekunde und die Anzahl von Durchläufen pro Abtastung bzw. Probe wird durch den Betätiger bzw. Bediener mit den Durchlaufraten- und Abtastzeitschalter 1216 geregelt bzw. gesteuert. Der Bediener startet eine Abtastung mit dem Abtaststartschalter und der Stopübersteuerung 1217. Das Übersteuerungsmerkmal gestattet es dem Bediener, manuell die eingestellte Abtastzeit zu übersteuern, und die Abtastung bzw. Probennahme zu stoppen, um ein Kontaminieren bzw. Verunreinigen einer Abtastung bzw. Probe mit unerwarteten Klangstörungen zu verhindern, beinhaltend gleichzeitige Lautsprecher. Dieser Schalter verbindet und unterbricht auch die Stromversorgung des Mikroprozessors mit 110 Volt elektrischen Standardeingabestiften bzw. -anschlüssen.
  • Die Ausgabe des Filtertreiberverstärkers 1214 wird auch an eine kommerziell erhältliche, durch einen Mikroprozessor gesteuerte Filterbank und einen Digitalisierer 1218 angewendet bzw. angelegt, welche(r) das elektrische Signal in 1/3-Oktavenbereiche über den hörbaren Frequenzbereich für den Organismen segmentiert bzw. unterteilt, welcher abgetastet wird, und die Spannungsausgabe von jedem Filter digitalisiert. In einem spezifischen Arbeitssystem reichen 25 1/3-Oktavenfilter eines Eventide-Spektrumanalysators mit Filtermittelfrequenzen von 63 Hz bis 16.000 Hz. Weiters wurde ein AKAI-Mikrophon und Bandaufzeichnungsgerät mit eingebautem Verstärker als die Eingabe in die Filterbank und den Digitalisierer 1218 verwendet. Die Anzahl von Durchläufen pro Sekunde, welche die Filterbank verwendet, beträgt ungefähr zehn Durchläufe pro Sekunde. Andere mikroprozessorgesteuerte Filterbänke und Digitalisierer können bei unterschiedlichen Geschwindigkeiten arbeiten.
  • Irgendein von verschiedenen kommerziell erhältlichen Mikroprozessoren ist geeignet, um die oben angeführte Filterbank und den Digitalisierer zu regeln bzw. zu steuern.
  • Wie bei jedem komplexen Klang bzw. Schall wird eine Amplitude über den hörbaren Frequenzbereich für einen "Zeitanteil bzw. Zeitstück" von 0,1 einer Sekunde nicht konstant oder flach sein, sondern wird eher Spitzen und Täler sein bzw. aufweisen. Die für eine Frequenz repräsentativen Werte der Spitzen dieses Signals, 1219, werden genauer gemacht, indem die Amplitudenwerte auf jeder Seite der Spitzen festgestellt werden, und die Spitzenwerte zu dem benachbarten Filterwert eingestellt werden, welcher die größere Amplitude aufweist. Dies wird gemacht, da, wie es für benachbarte 1/3-Oktavenfilter charakteristisch ist, Energie bei einer gegebenen Frequenz in einem gewissen Ausmaß in benachbarte Filter abhängig von den Abschneid- bzw. Wegschneidequalitäten der Filter überläuft. Um diesen Effekt zu minimieren, wird von der Frequenz eines Spitzenfilters angenommen, die Mittenfrequenz zu sein, nur wenn die zwei benachbarten Filter Amplituden innerhalb von 10% von ihrem Durchschnitt aufweisen. Um diskrete, gleich beabstandete, kleine Werte für ein Linearisieren und Normalisieren der Werte zu garantieren, die die ungleichen Frequenzintervalle repräsentieren, werden jedem der 25 Filter Zahlen- bzw. Nummernwerte 1 bis 25 gegeben und diese Nummern werden für den Rest der Bearbeitung verwendet. Auf diese Weise wird der 3.500 Hz-Unterschied zwischen den Filtern 24 und 25 ein Wert von 1, welcher wiederum ebenfalls gleich der 17 Hz-Differenz zwischen dem ersten und zweiten Filter ist.
  • Und mehr als fünf Sub-Unterteilungen von jeder Filteranzahl zu verhindern und damit fortzufahren, gleiche bewertete Schritte bzw. Stufen zwischen jeder Sub- bzw. Unterabteilung der 1 bis 25 Filterzahlen aufrechtzuerhalten, werden diese in 0,2 Schritte unterteilt und weiter zugeordnet wie folgt. Wenn die Amplitudendifferenz der zwei benachbarten Filter zu einem Spitzenfilter größer als 30% von ihrem Durchschnitt ist, dann wird von der Zahl bzw. Nummer des Spitzenfilters angenommen, näher dem Punkt auf halbem Weg zur nächsten Filterzahl zu sein, als sie es von dem Spitzenfilter ist. Dies würde die Filterzahl eines Spitzenfilters, sagen wir, Filternummer 6,0, dazu veranlassen, auf 6,4 erhöht oder auf 5,6 vermindert zu werden, wenn das größere benachbarte Filter eine höhere bzw. niedere Frequenz repräsentiert. Allen anderen Filterwerten von Spitzenfiltern wird automatisch der Wert seiner Filter nummer +0,2 und –0,2 gegeben, wenn die größere der benachbarten Filteramplituden jeweils eine höhere oder niederere Frequenz repräsentiert.
  • Das segmentierte und digital repräsentierte bzw. dargestellte Stimmäußerungssignal 1219 wird nach der oben angeführten Frequenzkorrektur 1220 komprimiert, um Speicherplatz zu sparen, indem alle außer sechs Amplitudenspitzen verworfen werden. Der Erfinder fand heraus, daß sechs Spitzen ausreichend waren, um die Stilcharakteristika aufzufangen, solange die folgenden Charakteristika bzw. Merkmale beobachtet werden. Wenigstens eine Spitze ist nahe der fundamentalen bzw. Grundfrequenz; genau eine Spitze ist zwischen dem Bereich der Grundfrequenz und der Spitzenamplitudenfrequenz gestattet, wo die nächste zur maximalen bzw. Maximalspitze konserviert wird; und die ersten zwei Spitzen oberhalb der Maximalspitze werden gespeichert plus die Spitze am nächsten zu dem 16.000 Hz-Ende oder dem 25. Filter, wenn oberhalb von 8 kHz, für eine Gesamtanzahl von sechs Spitzen, die im Mikroprozessorspeicher aufbewahrt und gespeichert werden. Dies wird garantieren, daß die Maximalspitze immer die dritte Spitze ist, welche im Speicher gespeichert wird, und daß die sechste gespeicherte Spitze für eine Hochfrequenzanalyse verwendet werden kann, und die die erste die niedrigste und nächste zur Grundlegenden bzw. Fundamentalen ist.
  • Nachfolgend auf die Kompression des Signals, um einen Amplitudenwert eines vollständigen Bands, die Filterzahl und Amplitudenwert von sechs Spitzen, und jeden dieser dreizehn Werte für 10 Abtastungen für eine 10 Sekunden-Abtastung (1300 Werte), 1221 von 12, zu beinhalten, beginnt der Klangelementzusammenbau.
  • Um bei Stimmstil-"Qualitäts"-Elementen anzukommen, verwendet dieses System Beziehungen zwischen dem niedrigen Satz und höheren Satz von Frequenzen in der stimmlichen Äußerung. Die Sprachstilelemente werden andererseits durch eine Kombination von Messungen bezüglich des Musters von Stimmenergieauftritten, wie beispielsweise Pausen und Abklingraten bestimmt. Diese Stimmstil-"Qualitäts"-Elemente tauchen aus der Spektrumanalyse, 13, 1330, 1331, und 1332 auf. Die Sprachstilelemente tauchen aus anderen vier Analysenfunktionen auf, wie dies in 12, 1233, 1234, 1235, und 1236 und Tabelle 6 gezeigt ist.
  • Die gespeicherten Stimmstilqualitätsanalyse-Elemente werden bezeichnet und abgeleitet als: (1) die Spektrum-"Verteilung" – der Abtastmittelwert des Abstands in Filterzahlen zwischen dem Durchschnitt der Spitzenfilteranzahlen oberhalb und dem Durchschnitt der Spitzenfilterzahlen unter der maximalen Spitze, für jeden Durchlauf, 13, 1330; (2) die Energie-"Balance" des Spektrums – der Mittelwert für eine Abtastung aller Verhältnisse des Durchlaufs der Summe der Amplituden von jenen Spitzen oberhalb der Summe der Amplituden unterhalb der Maximalspitze, 1331; (3) die Spektrumhüllkurve "Flachheit" – der arithmetische Mittelwert für jeden von zwei Sätzen von Verhältnissen für jede Abtastung bzw. Probe – die Verhältnisse der Durchschnittsamplitude von diesen Spitzen oberhalb (hoch) zur Maximalspitze, und von jenen unterhalb (niedrig) der Maximalspitze zur Maximalspitze für jeden Durchlauf, 1332.
  • Die Sprachstilelemente, welche gespeichert sind, werden jeweils bezeichnet und abgeleitet: (1) Spektrumvariabilität – die sechs Mittelwerte einer Äußerungsabtastung bzw. -probe, der numerischen Differenzen bzw. Unterschiede zwischen jeder Filterzahl einer Spitze, bei einem Durchlauf, zu jeder entsprechenden Filternummer bzw. -zahl einer Spitze beim nächsten Durchlauf, und auch die sechs Amplitudenwertdifferenzen für diese sechs Spitzen und auch beinhaltend die vollständigen Spektrumamplitudendifferenzen für jeden Durchlauf, um eine Abtastsumme von 13 Mittelwerten, 1333 zu erzeugen; (2) Äußerungspausenverhältnis-Analyse – das Verhältnis der Anzahl von Durchläufen in der Abtastung, bei welcher die vollständigen Energieamplitudenwerte Pausen waren (unter zwei Einheiten des Amplitudenwerts) zu der Zahl, welche Schallenergie aufwies (größer als eine Einheit des Werts), 1334; (3) Silbenänderungsannäherung – das Verhältnis der Anzahl von Durchläufen, bei welchen die dritte Spitze den Nummernwert um mehr als 0,4 zur Anzahl von Durchläufen geändert hat, welche Schall bzw. Klang während der Abtastung aufwiesen, 1335; (4) und, Hochfrequenzanalyse – das Verhältnis der Anzahl von Durchläufen für die Abtastung, bei welchem die sechste Spitze einen Amplitudenwert zur Gesamtanzahl von Durchläufen aufwies, 1336.
  • Klangstile werden in die sieben Dimensionen unterteilt, wie dies in Tabelle 6 dargestellt ist. Von diesen wurde bestimmt, die am empfindlichsten für einen assoziierten Satz von sieben Wahrnehmungs- oder Erkennungsstildimensionen zu sein, welche in Tabelle 7 aufgelistet sind.
  • Das Verfahren zum Beziehen der Klangstilelemente auf Stimmen-, Sprach- und Wahrnehmungsdimension zur Ausgabe, 12, 1228, erfolgt durch Gleichungen, welche jede Dimension als eine Funktion ausgewählter Klangstilelemente bestimmen, 13, 1330 bis 1336. Tabelle 6 bezieht die Sprachstilelemente, 1333 bis 1336 von 13, auf die Sprachstildimensionen.
  • Tabelle 7 stellt die Beziehung zwischen sieben Wahrnehmungsstildimensionen und den Klangstilelementen, 1330 bis 1336 dar. Erneut ist der Zweck, eine optionale Eingabekoeffizientenanordnung zu haben, welche Nullen beinhaltet, es dem Vorrichtungsbediener zu erlauben, Änderungen in diesen Koeffizienten zu Forschungszwecken, 1222, 1223 zu schalten oder einzugeben. Der schlaue Bediener kann unterschiedliche Wahrnehmungsdimensionen oder sogar Persönlichkeits- oder Erkenntnisdimensionen, oder Faktoren (wenn er diese Ausdrucksweise bevorzugt) entwickeln, welche alle gemeinsam unterschiedliche Koeffizienten erfordern. Dies wird vorgenommen bzw. durchgeführt, indem der gewünschte Satz von Koeffizienten eingegeben wird und notiert wird, auf welche Dimension (1226) er diese bezieht. Beispielsweise muß die Dimension anderer – selbst von Tabelle 7 nicht eine gewünschte Dimension durch einen Forscher sein, welcher diese durch eine Anwenderwahrnehmungsdimension ersetzen möchte, welche er introvertiert – extrovertiert nennt. Durch ein Ersetzen des Koeffizientensatzes für den Satz anderer – selbst, durch Versuchssätze, bis eine annehmbar hohe Korrelation zwischen der ausgewählten Kombination von gewichteten Klangstilelementen und seiner extern bestimmten Dimension introvertiert-extrovertiert besteht, kann der Forscher somit diesen Slot für die neue Dimension introvertiert – extrovertiert verwenden, indem er diese effektiv neu benennt. Dies kann in dem Ausmaß vorgenommen werden, daß der Satz von Klangelementen dieser Erfindung empfindlich ist für eine Anwenderdimension von introvertiert-extrovertiert, und der Koeffizientensatz des Forschers reflektiert die geeignete Beziehung. Dies wird möglich sein mit ziemlich vielen, durch einen Anwender bestimmten Dimensionen in einem nützlichen Ausmaß, wodurch es dem System ermöglicht wird, produktiv in einer Forschungsumgebung zu funktionieren, wo neue Wahrnehmungsdimensionen, bezogen auf Klangstilelemente, erforscht, entwickelt oder bewertet werden. Tabelle 6
    Figure 00540001
    • ##STR1##
    • DS1 = Variabilität monoton
    • DS2 = abgehackt sanft bzw. glatt
    • DS3 = Stakkato aufrechterhalten
    • DS4 = Anstieg sanft
    • DS5 = Affektivitätsregelung bzw. -steuerung
    • (2) Nr. 1 bis 6 = Spitzenfilterunterschiede 1–6, und Amp1 bis 6 = Spitzenamplitudendifferenzen bzw. -unterschiede 1–6.
    • Amp7 = Volle Bandpaßamplitudendifferenzen.
    Tabelle 7
    Figure 00550001
    Figure 00560001
    • ##STR2##
    • DP1 = EcoStruktur hoch-niedrig;
    • DP2 = Invariantempfindlichkeit hoch-niedrig;
    • DP3 = anders-selbst;
    • DP4 = sensorisch-intern;
    • DP5 = Haß-Liebe;
    • DP6 Abhängigkeit-Unabhängigkeit;
    • DP7 = emotionell-physisch.
    • (2) Nr. 1 bis 6 = Spitzenfilterdifferenzen 1–6; Amp1 bis 6 = Spitzenamplitudendifferenzen 1–6; und Amp7 vollständige Bandpaßamplitudendifferenzen.
  • Die für den Anwender dieses Systems verfügbaren primären Resultate sind die Dimensionswerte, 1226, welche selektiv durch einen Schalter, 1227 verfügbar sind, um auf einer Standardlichtanzeige und auch selektiv für Monitor, Drucker, Modem und andere Standardausgabevorrichtungen, 1228 angezeigt zu werden. Diese können verwendet werden, um zu bestimmen, wie nahe die Stimme des Subjekts zu einer beliebigen oder allen der Klang- oder Wahrnehmungsdimensionen von den eingebauten oder veröffentlichten oder persönlich entwickelten Regelungen bzw. Steuerungen oder Standards ist, welche dann verwendet werden können, um bei einer Verbesserung einer Emotionserkennung zu helfen.
  • In einer anderen beispielhaften Anordnung werden Biosignale, die von einem Anwender empfangen werden, ver wendet, um dabei zu helfen, Emotionen in der Sprache des Anwenders zu bestimmen. Die Erkennungsrate eines Spracherkennungssystems wird durch ein Kompensieren von Änderungen in der Sprache des Anwenders verbessert, welche aus Faktoren, wie beispielsweise Emotion, Angst oder Ermüdung bzw. Müdigkeit resultieren. Ein von einer Äußerung eines Anwenders abgeleitetes Sprachsignal wird durch einen Vorprozessor modifiziert und einem Spracherkennungssystem bereitgestellt, um die Erkennungsrate zu verbessern. Das Sprachsignal wird basierend auf einem Biosignal modifiziert, welches für den emotionalen Zustand des Anwenders anzeigend bzw. hinweisend ist.
  • Detaillierter illustriert 14 ein Spracherkennungssystem, wo Sprachsignale vom Mikrophon 1418 und Biosignale vom Biomonitor 1430 durch einen Vorprozessor 1432 empfangen bzw. aufgenommen werden. Das Signal vom Biomonitor 1430 zum Vorprozessor 1432 ist ein Biosignal, welches für die Impedanz zwischen zwei Punkten auf der Oberfläche der Haut eines Anwenders anzeigend ist. Der Biomotor 1430 mißt die Impedanz unter Verwendung eines Kontakts 1436, welcher an einem der Finger des Anwenders befestigt ist, und eines Kontakts 1438, welche an einem anderen Finger des Anwenders befestigt ist. Ein Biomonitor, wie beispielsweise ein Biofeedbackmonitor bzw. Biorückkopplungsmonitor, welcher durch Radio Shack, welche eine Abteilung von Tandy Corporation ist, unter dem Handelsnamen (MICRONATA.RTM. BIOFEEDBACK MONITOR) Modell Nummer 63-664 verkauft wird, kann verwendet werden. Es ist auch möglich, die Kontakte an anderen Positionen auf der Haut des Anwenders festzulegen bzw. zu befestigen. Wenn der Anwender aufgeregt oder ängstlich wird, nimmt die Impedanz zwischen den Punkten 1436 und 1438 ab und die Abnahme wird durch den Monitor 1430 detektiert, welcher ein Biosignal erzeugt, welches anzeigend für bzw. hinweisend auf eine verringerte Impedanz ist. Der Vorprozessor 1432 verwendet das Biosignal von dem Biomotor 1430, um das vom Mikrophon 1418 empfangene Sprachsignal zu modifizieren, wobei das Sprachsignal modifiziert wird, um die Änderungen in der Sprache des Anwenders aufgrund der aus Faktoren, wie beispielsweise Müdigkeit oder einer Änderung des emotionalen Zustands resultierenden Änderungen zu kompensieren. Beispielsweise kann der Vorprozessor 1432 die Tonhöhe des Sprachsignals von dem Mikrophon 1418 absenken, wenn das Biosignal von dem Biomonitor 1430 anzeigt, daß der Anwender in einem aufgeregten Zustand ist, und der Vorprozessor 1432 kann die Tonhöhe des Sprachsignals vom Mikrophon 1418 erhöhen, wenn das Biosignal von dem Biomonitor 1430 anzeigt, daß der Anwender in einem weniger aufgeregten Zustand ist, wie beispielsweise bei Ermüdung. Der Vorprozessor 1432 stellt dann das modifizierte Sprachsignal der Audiokarte 1416 auf herkömmliche Weise zur Verfügung. Für Zwecke, wie beispielsweise Initialisierung oder Kalibrierung, kann der Vorprozessor 1432 mit dem PC 1410 unter Verwendung eines Interface bzw. einer Schnittstelle, wie beispielsweise einer RS232-Schnittstelle, kommunizieren. Der Anwender 1434 kann mit dem Vorprozessor 1432 durch ein Beobachten der Anzeige 1412 und durch Eingeben von Befehlen unter Verwendung der Tastatur 1414 oder Folientastatur 1439 oder einer Maus kommunizieren.
  • Es ist auch möglich, das Biosignal zu verwenden, um das Sprachsignal durch Regeln bzw. Steuern des Gewinns bzw. der Verstärkung und/oder Frequenzantwort des Mikrophons 1418 vorzuverarbeiten. Der Gewinn oder die Verstärkung des Mikrophons kann in Antwort auf das Biosignal erhöht oder verringert werden. Das Biosignal kann auch verwendet wer den, um die Frequenzantwort des Mikrophons zu ändern. Beispielsweise kann, wenn das Mikrophon 1418 ein Modell ATM71, erhältlich von AUDIO-TECHNICA U.S., Inc., ist, das Biosignal verwendet werden, um zwischen einer relativ flachen Antwort und einer abgerollten Antwort zu schalten, wobei die abgerollte Antwort weniger Gewinn bzw. Verstärkung bei Sprachsignalen niedriger Frequenz zur Verfügung stellte.
  • Wenn der Biomonitor 1430 der oben genannte Monitor, erhältlich von Radio Shack, ist, ist das Biosignal in der Form einer Serie von rampenähnlichen Signalen, wobei jede Rampe ungefähr 0,2 ms andauert. 15 illustriert das Biosignal, wo eine Serie von rampenähnlichen Signalen 1542 durch eine Zeit T getrennt ist. Der Anteil bzw. das Ausmaß der Zeit T zwischen den Rampen 1542 bezieht sich auf die Impedanz zwischen den Punkten 1438 und 1436. Wenn der Anwender in einem aufgeregteren Zustand ist, wird die Impedanz zwischen den Punkten 1438 und 1436 verringert und die Zeit T wird verringert. Wenn sich der Anwender in einem weniger aufgeregten Zustand befindet, wird die Impedanz zwischen den Punkten 1438 und 1436 gesteigert und die Zeit T wird gesteigert bzw. vergrößert.
  • Die Form eines Biosignals von einem Biomonitor kann in anderen Formen als einer Serie von rampenähnlichen Signalen sein. Beispielsweise kann das Biosignal ein analoges Signal sein, welches in der Periodizität, Amplitude und/oder Frequenz basierend auf Messungen variiert, welche durch den Biomonitor vorgenommen wurden, oder es kann ein digitaler Wert basierend auf durch den Biomonitor gemessenen Bedingungen sein.
  • Der Biomonitor 1430 beinhaltet den Schaltkreis von 16, welcher das Biosignal erzeugt, das die Impedanz zwischen den Punkten 1438 und 1436 anzeigt. Der Schaltkreis besteht aus zwei Abschnitten. Der erste Abschnitt wird verwendet, um die Impedanz zwischen den Kontakten 1438 und 1436 zu erfassen, und der zweite Abschnitt wirkt als ein Oszillator, um eine Serie von Rampensignalen am Ausgangs- bzw. Ausgabeverbinder 1648 zu erzeugen, wo die Frequenz der Oszillation durch den ersten Abschnitt geregelt bzw. gesteuert wird.
  • Der erste Abschnitt regelt bzw. steuert den Kollektorstrom Ic,Q1 und die Spannung Vc,Q1 des Transisters Q1 basierend auf der Impedanz zwischen den Kontakten 1438 und 1436. In dieser Ausführungsform besteht der Impedanzsensor 1650 einfach aus Kontakten 1438 und 1436, welche auf der Haut des Sprechers positioniert sind bzw. werden. Da sich die Impedanz zwischen den Kontakten 1438 und 1436 relativ langsam im Vergleich zu der Oszillations- bzw. Schwingungsfrequenz des Abschnitts 2 ändert, sind der Kollektorstrom Ic,Q1 und die Spannung Vc,Q1 virtuell bzw. nahezu konstant, soweit der Abschnitt 2 betroffen ist. Der Kondensator C3 stabilisiert weiter diese Ströme und Spannungen.
  • Der Abschnitt 2 wirkt als ein Oszillator. Die reaktiven Komponenten, L1 und C1, schalten den Transistor Q3 ein und aus, um eine Oszillation bzw. Schwingung zu erzeugen. Wenn die Energie bzw. Leistung zuerst eingeschaltet wird, schaltet Ic,Q1 Q2 durch Ziehen von Basisstrom Ib,Q2 ein. In ähnlicher Weise schaltet Ic,Q2 den Transistor Q3 ein, indem ein Basisstrom Ib,Q3 zur Verfügung gestellt wird. Anfänglich gibt es keinen Strom durch den Induktor bzw. die Induktivität L1. Wenn Q3 eingeschaltet ist, wird die Spannung VCC geringer als eine kleine gesättigte bzw. Sättigungs-Transistorspannung Vc,Q3 über L1 angelegt bzw. angewendet. Als ein Ergebnis steigt der Strom IL1 in Übereinstimmung mit
  • Figure 00610001
  • Da bzw. wenn der Strom IL1 ansteigt bzw. zunimmt, nimmt der Strom Ic1 durch den Kondensator C1 zu. Ein Steigern des Stroms Ic1 reduziert den Basisstrom IB,Q2 vom Transistor Q2, da der Strom Ic,Q1 virtuell bzw. nahezu konstant ist. Dies reduziert wiederum die Ströme Ic,Q2, Ib,Q3 und Ic,Q3. Als ein Ergebnis tritt mehr vom Strom IL1 durch den Kondensator C1 durch und reduziert weiter den Strom Ic,Q3. Diese Rückkopplung veranlaßt den Transistor Q3 dazu, abgeschaltet zu werden. Schließlich ist der Kondensator C1 vollständig geladen und die Ströme IL1 und Ic1 fallen auf null, und erlauben es dadurch dem Strom Ic,Q1 erneut, den Basisstrom Ib,Q2 zu ziehen und die Transistoren Q2 und Q3 einzuschalten, was den Oszillationszyklus erneut startet.
  • Der Strom Ic,Q1, welcher von der Impedanz zwischen den Kontakten 1438 und 1436 abhängt, regelt bzw. steuert die Frequenz des Lastverhältnisses bzw. Arbeitszyklus des Ausgabesignals. Wenn die Impedanz zwischen den Punkten 1438 und 1436 abnimmt, nimmt die Zeit T zwischen den Rampensignalen ab, und wenn die Impedanz zwischen den Punkten 1438 und 1436 zunimmt, nimmt die Zeit T zwischen den Rampensignalen zu.
  • Der Schaltkreis wird durch eine Drei-Volt-Batteriequelle 1662 angetrieben, welche mit dem Schaltkreis über den Schalter 1664 verbunden ist. Ebenfalls beinhaltet ist ein variabler Widerstand 1666, welcher verwendet wird, um einen Arbeitspunkt für den Schaltkreis einzustellen. Es ist wünschenswert, den variablen Widerstand 1666 auf eine Position einzustellen, welche ungefähr in der Mitte seines Einstellbereichs ist. Der Schaltkreis schwankt dann von diesem Arbeitspunkt, wie früher beschrieben, basierend auf der Impedanz zwischen den Punkten 1438 und 1436. Der Schaltkreis beinhaltet auch einen Schalter 1668 und einen Lautsprecher 1670. Wenn ein zusammenpassender Verbinder nicht in den Verbinder 1648 eingesetzt ist, stellt der Schalter 1668 die Ausgabe des Schaltkreises am Lautsprecher 1670 eher als am Verbinder 1648 zur Verfügung.
  • 17 ist ein Blockdiagramm des Vorprozessors 1432. Ein Analog-zu-Digital-Konverter bzw. -Wandler (A/D) 1780 empfängt ein Sprach- oder Äußerungssignal vom Mikrophon 1418, und ein Analog-zu-Digital-Wandler (A/D) 1782 empfängt ein Biosignal von dem Biomonitor 1430. Das Signal von dem A/D 1782 wird einem Mikroprozessor 1784 zur Verfügung gestellt. Der Mikroprozessor 1784 überwacht das Signal von dem A/D 1782, um zu bestimmen, welche Maßnahme durch die digitale Signalprozessor-Vorrichtung (DSP) 1786 vorgenommen werden sollte. Der Mikroprozessor 1784 verwendet einen Speicher 1788 für eine Programmspeicherung und für Zwischenregistervorgänge. Der Mikroprozessor 1784 kommuniziert mit dem PC 1410 unter Verwendung einer RS232-Schnittstelle. Die Software zum Regeln bzw. Steuern der Schnittstelle zwischen dem PC 1410 und dem Mikroprozessor 1784 kann auf dem PC 1410 in einer Mehrfachanwendungsumgebung unter Verwendung eines Softwarepakets ablaufen, wie beispielsweise einem Programm, das unter dem Handelsnamen (WINDOWS) durch Microsoft Corporation verkauft wird. Die Ausgabe von dem DSP 1786 wird zu einem analogen Signal durch einen Digital-zu-Analog-Wandler 1790 rückgewandelt. Nachdem der DSP 1786 das Signal von dem A/D 1780 modifiziert, wie durch den Mikroprozessor 1784 befohlen wurde, wird die Ausgabe des D/A-Wandlers 1790 zu der Audiokarte 1416 gesandt. Der Mikroprozessor 1784 kann einer von weithin verfügbaren Mikroprozessoren sein, wie beispielsweise die Mikroprozessoren, die von Intel Corporation erhältlich sind, und der DSP 1786 kann einer der weit verbreitet erhältlichen digitalen Signalverarbeitungschips sein, welche von Gesellschaften, wie beispielsweise TMS320CXX-Serie von Geräten von Texas Instruments sind.
  • Es ist möglich, um den Biomonitor 1430 und Vorprozessor 1432 auf einer einzelnen Karte zu positionieren, welche in einen leeren Kartensteckplatz im PC 1410 eingesetzt wird. Es ist auch möglich, die Funktionen des Mikroprozessors 1784 und des digitalen Signalprozessors 1786 unter Verwendung des PC 1410 statt durch spezialisierte Hardware durchzuführen.
  • Der Mikroprozessor 1784 überwacht das Biosignal von dem A/D 1782, um zu bestimmen, welche Maßnahme durch den DSP 1786 vorgenommen werden sollte. Wenn das Signal von dem A/D 1782 anzeigt, daß der Anwender in einem aufgeregteren Zustand ist, zeigt der Mikroprozessor 1784 dem DSP 1786 an, daß er das Signal von dem A/D 1780 verarbeiten sollte, so daß die Tonhöhe des Sprachsignals verringert wird. Wenn das Biosignal von dem A/D 1782 anzeigt, daß der Anwender in einem weniger aufgeregten oder ermüdeten Zustand ist, instruiert der Mikroprozessor 1784 den DSP 1786, die Tonhöhe des Sprachsignals zu erhöhen.
  • Der DSP 1786 modifiziert die Tonhöhe des Sprachsignals durch ein Erzeugen eines Sprachmodells. Der DSP verwendet dann das Modell, um das Sprachsignal mit einer modifizierten Tonhöhe wieder herzustellen. Das Sprachmodell wird unter Verwendung einer der linearen voraussagenden Codiertechniken erzeugt, welche in der Technik gut bekannt sind. Eine derartige Technik ist in einem Anwendungsbuch von Analog Device, Inc., geoffenbart, mit dem Titel "Digitale Signalverarbeitungsanwendungen unter Verwendung der ADSP 2100 Familie", Seiten 355–372, veröffentlicht durch Prentice-Hall, Englewood Cliffs, N. J., 1992. Diese Technik involviert ein Modellieren des Sprachsignals als ein FIR-Filter (finite bzw. endliche Impulsantwort) mit zeitveränderlichen Koeffizienten, wobei das Filter durch einen Zug von Impulsen erregt wird. Dann ist die Zeit T zwischen den Impulsen ein Maß der Tonhöhe oder Grundfrequenz. Die zeitveränderlichen Koeffizienten können unter Verwendung einer Technik berechnet werden, wie beispielsweise die Levinson-Durbin-Rekursion, welche in der oben angeführten Veröffentlichung von Analog Device, Inc. geoffenbart ist. Eine Zeit T zwischen den Impulsen, welche den Zug von Impulsen bilden, welche das Filter erregen, kann unter Verwendung eines Algorithmus berechnet werden, wie beispielsweise der SIFT-Algorithmus (vereinfachtes inverses Filternachführen) von John D. Markel, welcher geoffenbart ist in "Der SIFT-Algorithmus zur Grundfrequenzabschätzung" von John D. Markel, IEEE Transactions on Audio und Electroacoustics, Vol. AU-20, Nr. 5, Dezember 1972. Der DSP 1786 modifiziert die Tonhöhe oder Grundfrequenz des Sprachsignals durch ein Ändern der Zeit T zwischen den Impulsen, wenn er das FIR-Filter erregt, um das Sprachsignal wiederherzustellen. Beispielsweise kann die Tonhöhe um 1% erhöht werden, indem die Zeit T zwischen den Impulsen um 1% verringert wird.
  • Es sollte beachtet werden, daß das Sprachsignal auf andere Weisen als Änderungen in der Tonhöhe modifiziert sein kann. Beispielsweise können Tonhöhe, Amplitude, Frequenz und/oder Signalspektrum modifiziert sein. Ein Abschnitt des Signalspektrums oder des Gesamtspektrums kann abgeschwächt oder verstärkt sein.
  • Es ist auch möglich, andere Biosignale als ein Signal zu überwachen, welches für die Impedanz zwischen zwei Punkten auf einer Haut des Anwenders hinweisend bzw. anzeigend ist. Signale, die für eine autonome Aktivität anzeigend sind, können als Biosignale verwendet werden. Signale, welche für eine autonome Aktivität anzeigend sind, wie beispielsweise Blutdruck, Pulszahl, Hirnwellen- oder andere elektrische Aktivität, Pupillengröße, Hauttemperatur, Transparenz oder Reflexionsvermögen einer bestimmten elektromagnetischen Wellenlänge, oder andere Signale, die für den emotionalen Zustand des Anwenders anzeigend sind, können verwendet werden.
  • 18 illustriert Tonhöhenmodifikationskurven, welche der Mikroprozessor 1784 verwendet, um den DSP 1786 zu instruieren, die Tonhöhe des Sprachsignals basierend auf der Zeitperiode T, welche mit dem Biosignal assoziiert ist, zu ändern. Die horizontale Achse 1802 zeigt die Zeitperiode T zwischen den Rampen 1442 des Biosignals an und die vertikale Achse 1804 zeigt die Prozentänderung in der Tonhöhe an, welche durch den DSP 1786 eingebracht wird.
  • 19 illustriert ein Flußdiagramm der Befehle, welche durch den Mikroprozessor 1784 ausgeführt werden, um eine in 18 illustrierte Betriebslinie bzw. -kurve zu er richten. Nach einer Initialisierung wird Schritt 1930 ausgeführt, um eine Linie zu errichten, die co-linear mit der Achse 1802 ist. Diese Linie zeigt an, daß eine Null-Tonhöhenänderung für alle Werte von T von dem Biosignal eingebracht ist. Nach dem Schritt 1930 wird ein Entscheidungsschritt 1932 ausgeführt, wo der Mikroprozessor 1784 bestimmt, ob ein Modifikationskommando bzw. -befehl von der Tastatur 1414 oder der Folientastatur 1439 empfangen wurde. Wenn kein Modifikationsbefehl empfangen wurde, wartet der Mikroprozessor 1784 in einer Schleife auf einen Modifikationsbefehl. Wenn ein Modifikationskommando empfangen wird, wird ein Schritt 1934 ausgeführt, um den Wert von T = Tref1 zu bestimmen, welcher verwendet werden wird, um einen neuen Referenz- bzw. Bezugspunkt Ref1 zu errichten. Der Wert Tref1 ist gleich dem gegenwärtigen Wert von T, der aus dem Biosignal erhalten wurde. Beispielsweise kann Tref1 gleich 0,6 ms sein. Nach einer Bestimmung des Werts Tref1 führt der Mikroprozessor 1784 einen Schritt 1938 aus, welcher den Anwender auffordert, eine Äußerung zu tätigen, so daß eine Tonhöhenprobe in Schritt 1940 entnommen werden kann. Es ist wünschenswert, eine Tonhöhenprobe zu erhalten, da die Tonhöhenprobe als eine Basis für die prozentuellen Änderungen der Tonhöhe verwendet wird, die entlang der Achse 1804 angezeigt ist. In Schritt 1942 instruiert der Mikroprozessor 1784 den DSP 1786, die Tonhöhe des Sprachsignals um einen Betrag gleich der gegenwärtigen Tonhöhenänderung, die mit dem Punkt Ref1 assoziiert ist, plus einer Erhöhung von fünf Prozent zu erhöhen, jedoch können kleinere oder größere Erhöhungen bzw. Schrittgrößen verwendet werden. (An diesem Punkt ist die mit dem Punkt Ref1 assoziierte Tonhöhenänderung null. Siehe bzw. Wiederaufrufen von Schritt 1930.) In Schritt 1944 fordert der Mikroprozessor 1784 den Anwender auf, einen Erkennungstest aus zuführen, indem verschiedene Kommandos bzw. Befehle zu dem Spracherkennungssystem gesprochen werden, um zu bestimmen, ob eine annehmbare Erkennungsrate erzielt wurde. Wenn der Anwender den Test beendet, kann der Anwender die Beendigung des Tests dem Mikroprozessor 1784 anzeigen, indem ein Befehl, wie beispielsweise "Ende", unter Verwendung der Tastatur 1414 oder Folientastatur 1439 eingegeben wird.
  • Nach einem Ausführen des Schritts 1944 führt der Mikroprozessor 1784 einen Schritt 1946 aus, in welchem er den DSP 1786 instruiert, die Tonhöhe des eingehenden Sprachsignals um die Tonhöhenänderung zu vermindern, welche mit dem Punkt Ref1 assoziiert ist, minus einer Verminderung von fünf Prozent; jedoch können kleinere oder größere Beträge bzw. Anteile verwendet werden. (Beachten Sie, daß die Tonhöhenänderung, welche mit dem Punkt Ref1 assoziiert ist, null als ein Ergebnis des Schritts 1930 ist). In Schritt 1948 fordert der Mikroprozessor 1784 den Anwender auf, einen anderen Spracherkennungstest durchzuführen und ein "Ende"-Kommando einzugeben, wenn der Test abgeschlossen ist. In Schritt 1950 fordert der Mikroprozessor 1784 den Anwender auf, für den ersten oder zweiten Test zu stimmen, um anzuzeigen, welcher Test eine bessere Erkennungsfähigkeit hatte. In Schritt 1952 werden die Resultate der Wahl des Anwenders verwendet, um zwischen den Schritten 1954 und 1956 auszuwählen. Wenn der Test 1 als der beste bewertet wurde, wird der Schritt 1956 ausgeführt und die neue, mit dem Punkt Ref1 assoziierte, prozentuelle bzw. Prozentänderung wird dem vorhergehenden Wert des Punkts Ref1 plus fünf Prozent oder die Erhöhung gleichgesetzt, welche in Schritt 1942 verwendet wurde. Wenn der Test 2 als der beste bewertet ist, wird der Schritt 1954 ausgeführt und der neue, mit Ref1 assoziierte, Prozentänderungswert wird dem alten Wert von Ref1 minus fünf Prozent oder die Verminderung gleichgesetzt, welche in Schritt 1946 verwendet wurde. Ein Bestimmen einer prozentuellen bzw. Prozentänderung, die mit T = Tref1 assoziiert ist, errichtet einen neuen Referenzpunkt Ref1. Beispielsweise ist, wenn der Test 1 als der beste bewertet wurde, der Punkt Ref1 am Punkt 1858 in 18 angeordnet. Nach Errichten der Position des Punkts 1858, welcher der neu errichtete Ref1 ist, ist bzw. wird die Linie 1860 in Schritt 1962 errichtet. Die Linie 1860 ist die Anfangstonhöhen-Modifikationslinie, welche verwendet wird, um die Tonhöhenänderungen für unterschiedliche Werte von T aus dem Biosignal zu berechnen. Anfänglich kann dieser Linie eine Neigung bzw. ein Anstieg von beispielsweise plus fünf Prozent pro Millisekunde gegeben sein; jedoch können andere Neigungen bzw. Anstiege verwendet werden.
  • Nach Errichten bzw. Aufbauen dieser anfänglichen Modifikationslinie geht der Mikroprozessor 1784 in eine Warteschleife, wo Schritte 1964 und 1966 ausgeführt werden. In Schritt 1964 prüft der Mikroprozessor 1784 nach einem Modifikationskommando bzw. -befehl, und in Schritt 1966 prüft er nach einem Abschaltekommando. Wenn ein Modifizierungsbefehl in Schritt 1964 nicht empfangen wird, überprüft der Prozessor nach dem Abschaltkommando in Schritt 1966. Wenn ein Abschaltkommando nicht empfangen ist bzw. wird, kehrt der Mikroprozessor zu Schritt 1964 zurück, und wenn ein Abschaltkommando empfangen wird, führt der Mikroprozessor Schritt 1930 aus, welcher die Tonhöhenänderung mit null für alle Werte von T von dem Biosignal gleichsetzt. Der Prozessor bleibt in dieser Schleife zum Prüfen nach Modifizierungs- und Abschaltkommandos, bis der Anwender mit der Erkennungsrate unzufrieden wird, welche aus dem Vorver arbeiten des Sprachsignals unter Verwendung der Kurve 1860 resultiert.
  • Wenn in Schritt 1964 ein Modifizierungskommando empfangen wird, wird ein Schritt 1968 ausgeführt. In Schritt 1968 wird der Wert von T bestimmt, um zu überprüfen, ob der Wert von T gleich oder nahezu gleich dem Wert von Tref1 des Punkts Ref1 ist. Wenn der Wert von T mit Ref1 übereinstimmt, wird der Schritt 1942 ausgeführt. Wenn der Wert von T nicht mit Ref1 übereinstimmt, wird der Schritt 1970 ausgeführt. In Schritt 1970 wird der Wert von Tref2 für einen neuen Referenz- bzw. Bezugspunkt Ref2 errichtet. Zum Zweck eines illustrativen Beispiels werden wir annehmen, daß Tref2 = 1,1 ms. Unter Bezugnahme auf 18 errichtet dies den Punkt Ref2 als Punkt 1872 auf der Linie 1860. In Schritt 1974 instruiert der Mikroprozessor 1784 den DSP 1786, die Tonhöhenänderung, welche mit dem Punkt Ref2 assoziiert ist, um plus 2,5 Prozent (andere Prozentwerte können verwendet werden) zu erhöhen. (Andere Prozentwerte können verwendet werden). In Schritt 1976 wird der Anwender aufgefordert, einen Erkennungstest durchzuführen und das "Ende"-Kommando bzw. -befehl beim Abschluß einzugeben. In Schritt 1978 instruiert der Mikroprozessor 1784 den DSP 1786, die Tonhöhe des Sprachsignals um einen Betrag gleich einer Tonhöhenänderung zu vermindern, die mit Ref2 minus 2,5 Prozent assoziiert ist. In Schritt 1980 wird der Anwender erneut aufgefordert, einen Erkennungstest durchzuführen und einen "Ende"-Befehl bei Beendigung einzugeben. In Schritt 1982 wird der Anwender aufgefordert anzuzeigen, ob der erste oder zweite Test die erstrebenswertesten Resultate aufwies. In Schritt 1984 entscheidet der Mikroprozessor 1784, einen Schritt 1986 auszuführen, wenn Test 1 als der beste bewertet wurde, und einen Schritt 1988, wenn Test 2 als der beste bewertet wurde. In Schritt 1986 stellt der Mikroprozessor 1784 die Prozentänderung, welche mit Punkt Ref2 assoziiert ist, auf den früheren Wert ein, welcher mit Ref2 plus 2,5 Prozent oder der Erhöhung assoziiert ist, welche in Schritt 1974 verwendet wurde. In Schritt 1988 wird die Prozentänderung, die mit Ref2 assoziiert ist, gleich dem früheren Wert eingestellt, der mit Ref2 minus 2,5 Prozent oder der Verringerung assoziiert ist, die in Schritt 1978 verwendet wurde. Nach Vollendung der Schritte 1986 oder 1988 wird ein Schritt 1990 ausgeführt. In Schritt 1990 ist eine neue Tonhöhenmodifizierungslinie errichtet. Die neue Linie verwendet den Punkt, der mit Ref1 assoziiert ist, und den neuen Punkt, der mit Ref2 assoziiert ist. Beispielsweise ist, wenn angenommen wird, daß der Anwender Test 1 in Schritt 1984 ausgewählt hat, der neue mit Ref2 assoziierte Punkt der Punkt 1892 von 18. Die neue Tonhöhenumwandlungslinie ist nun die Linie 1898, welche durch die Punkte 1892 und 1858 durchtritt. Nach Ausführen des Schritts 1990 kehrt der Mikroprozessor 1684 zu der mit den Schritten 1964 und 1966 assoziierten Schleifenfunktion zurück.
  • Es sollte beachtet werden, daß eine lineare Modifikationslinie verwendet wurde; jedoch ist es möglich, nicht-lineare Modifikationslinien zu verwenden. Dies kann vorgenommen werden, indem die Punkte 1858 und 196 verwendet werden, um einen Anstieg für eine Linie rechts des Punkts 1858 zu errichten, und indem ein anderer Referenz- bzw. Bezugspunkt links des Punkts 1858 verwendet wird, um eine Steigung für eine Linie zu errichten, die sich links des Punkts 1858 erstreckt. Es ist auch möglich, positive und negative Grenzen auf der maximalen, prozentuellen Tonhöhenänderung anzuordnen. Wenn die Tonhöhenmodifikationslinie sich diesen Grenzen nähert, können sich diese ihr asymptotisch annähern oder einfach abrupt am Kontaktpunkt mit der Grenze ändern.
  • Es ist auch möglich, eine festgelegte Modifikationskurve zu verwenden, wie beispielsweise Kurve 1800, und dann den variablen Widerstand 1666 einzustellen, bis eine annehmbare Erkennungsrate erzielt wird.
  • Sprach- bzw. Stimmbenachrichtigungssystem
  • 20 stellt ein System dar, welches Sprachnachrichten basierend auf Emotionscharakteristika der Sprachnachrichten handhabt. In Vorgang 2000 wird eine Vielzahl von Sprachnachrichten, welche über ein Telekommunikationsnetzwerk übertragen werden, empfangen. In Vorgang 2002 werden die Sprachnachrichten auf einem Speichermedium, wie beispielsweise dem oben dargelegten Bandaufzeichnungsgerät oder einer Festplatte beispielsweise gespeichert. Eine mit den Sprach- bzw. Stimmsignalen der Sprachnachrichten assoziierte Emotion wird in Vorgang 2004 bestimmt. Die Emotion kann durch irgendeines der oben dargelegten Verfahren bestimmt werden.
  • Die Sprachnachrichten werden in Vorgang bzw. Funktion 2006 basierend auf der bestimmten Emotion organisiert. Beispielsweise Nachrichten, in welchen die Stimme negative Emotionen, z.B. Traurigkeit, Ärger oder Angst, anzeigt, können gemeinsam in einer Mailbox bzw. einem Briefkasten und/oder einer Datenbank gruppiert werden. Ein Zugriff auf die organisierten Sprachnachrichten ist in Vorgang 2008 gestattet.
  • Die Sprachnachrichten können einem Telefonanruf folgen. Optional können die Sprachnachrichten einer ähnlichen Emotion zusammen organisiert sein. Ebenfalls optional können die Sprachnachrichten in Echtzeit unmittelbar nach Erhalt über das Telekommunikationsnetzwerk organisiert sein. Vorzugsweise ist eine Weise, in welcher die Sprachnachrichten organisiert sind, identifiziert, um den Zugriff auf die organisierten Sprachnachrichten zu erleichtern. Ebenfalls vorzugsweise wird die Emotion durch ein Extrahieren von wenigstens einem Merkmal aus Sprachsignalen bestimmt, wie dies zuvor besprochen wurde.
  • In einer beispielhaften Anordnung werden Tonhöhen- und LPC-Parameter (und üblicherweise auch andere Erregungsinformation) zur Übertragung und/oder Speicherung codiert, und werden decodiert, um eine nahe Nachbildung der ursprünglichen Spracheingabe zur Verfügung zu stellen.
  • Das vorliegende System ist besonders auf lineare voraussagende Codierungssysteme (LPC) für ein Analysieren oder Codieren analer Sprachsignale (und Verfahren hierfür) bezogen. In einer LPC-Modellierung wird allgemein jede Abtastung bzw. Probe in einer Serie von Abtastungen (im vereinfachten Modell) als eine lineare Kombination von vorhergehenden Abtastungen modelliert, plus einer Erregungsfunktion:
    Figure 00720001
    wobei uk das LPC-Restsignal ist. Das heißt, uk repräsentiert die verbleibende bzw. Restinformation in dem eingegebenen bzw. Eingabesprachsignal, welches nicht durch das LPC-Modell vorhergesagt ist. Es soll beachtet werden, daß nur N ältere bzw. frühere Signale zur Vorhersage verwendet werden. Die Modellreihenfolge (typischerweise etwa 10) kann erhöht werden, um eine bessere Voraussage zu ergeben, jedoch wird etwas Information immer in dem Restsignal uk für jede normale Sprachmodellierungsanwendung verbleiben.
  • Innerhalb des allgemeinen Rahmenwerks der LPC-Modellierung können viele besondere Implementierungen einer Stimmanalyse ausgewählt werden. In vielen von diesen ist es notwendig, die Tonhöhe des Eingabesprachsignals zu bestimmen. D.h., zusätzlich zu den Formanten-Frequenzen, welche tatsächlich mit Resonanzen des Stimmtrakts übereinstimmen, beinhaltet die menschliche Stimme auch eine Tonhöhe, die durch den Sprecher moduliert wird, welche mit der Frequenz übereinstimmt, bei welcher der Kehlkopf den Luftstrom moduliert. D.h., die menschliche Stimme kann als eine Erregungsfunktion betrachtet werden, welche an ein akustisches passives Filter angewendet bzw. angelegt wird, und die Erregungsfunktion wird im allgemeinen in der LPC-Restfunktion erscheinen, während die Charakteristika bzw. Merkmale des passiven akustischen Filters (d.h. die Resonanzcharakteristika von Mund, Nasenhohlraum, Brustkorb, usw.) durch die LPC-Parameter geformt werden wird. Es sollte beachtet werden, daß während stimmloser Sprache die Erregungsfunktion nicht eine gut definierte Tonhöhe aufweist, sondern stattdessen als breitbandiges, weißes Rauschen oder rosa Rauschen modelliert ist.
  • Eine Abschätzung der Tonhöhenperiode ist nicht vollständig trivial. Unter den Problemen ist die Tatsache, daß die erste Formante häufig bei einer Frequenz nahe derjenigen der Tonhöhe auftreten wird. Aus diesem Grund wird die Tonhöhenabschätzung häufig an dem LPC-Restsignal durchgeführt, da der LPC-Abschätzvorgang tatsächlich Vokaltaktresonanzen aus der Erregungsinformation entfaltet, so daß das Restsignal relativ weniger der Vokaltraktresonanten (Formanten) und relativ mehr der Erregungsinformation (Tonhöhe) beinhaltet. Jedoch weisen derartige, auf einem Rest basierende Tonhöhenabschätzungstechniken ihre eigenen Schwierigkeiten auf. Das LPC-Modell selbst wird normalerweise hochfrequentes Rauschen in das Restsignal einbringen, und Abschnitte von diesem hochfrequenten Rauschen können eine höhere spektrale Dichte aufweisen als die tatsächliche Tonhöhe, welche detektiert werden sollte. Eine Lösung für diese Schwierigkeit ist einfach, das Restsignal bei etwa 1000 Hz Tiefpaß zu filtern. Dies entfernt das hochfrequente Rauschen, entfernt jedoch auch die legitimierte Hochfrequenzenergie, welche in den stimmlosen Bereichen der Sprache vorhanden ist, und macht das Restsignal nahezu nutzlos für stimmhafte Entscheidungen.
  • Ein Hauptkriterium in Sprachnachrichtenanwendungen ist die Qualität der reproduzierten Sprache. Systeme nach dem Stand der Technik hatten in dieser Hinsicht viele Schwierigkeiten. Insbesondere beziehen sich viele dieser Schwierigkeiten auf Probleme eines genauen Detektierens der Tonhöhe und der Stimmhaftigkeit des eingegebenen bzw. Eingabesprachsignals.
  • Es ist typischerweise sehr leicht, eine Tonhöhenperiode auf dem Doppelten oder der Hälfte ihres Werts unkorrekt abzuschätzen. Beispielsweise garantiert, wenn Korrelationsverfahren verwendet werden, eine gute Korrelation bei einer Periode P eine gute Korrelation bei einer Periode 2P, und bedeutet auch, daß es für das Signal wahrscheinlicher ist, eine gute Korrelation bei einer Periode P/2 zu zeigen.
  • Jedoch erzeugen solche Verdopplungs- und Halbierungsfehler eine sehr lästige Verminderung der Stimm- bzw. Sprachqualität. Beispielsweise wird ein fehlerhaftes Halbieren der Tonhöhenperiode dazu neigen, eine quietschende Stimme zu erzeugen, und ein fehlerhaftes Verdoppeln der Tonhöhenperiode wird dazu neigen, eine rauhe Stimme zu erzeugen. Darüber hinaus ist es wahrscheinlich, daß ein Verdoppeln oder Halbieren einer Tonhöhenperiode intermittierend bzw. mit Unterbrechungen auftritt, so daß die synthetisierte Stimme dazu neigen wird, mit Unterbrechungen zu knacksen oder zu kratzen.
  • Bevorzugte Anordnungen verwenden ein adaptives Filter, um das Restsignal zu filtern. Durch Verwendung eines zeitveränderlichen Filters, welches einen einzelnen Pol beim ersten Reflexionskoeffizienten (k1 der Spracheingabe) aufweist, wird das hochfrequente bzw. Hochfrequenz-Rauschen aus den stimmhaften Perioden der Sprache entfernt, jedoch wird die hochfrequente Information in den stimmlosen Sprachperioden zurückgehalten. Das adaptiv gefilterte Restsignal wird dann als die Eingabe für die Tonhöhenentscheidung verwendet.
  • Es ist notwendig, die hochfrequente bzw. Hochfrequenz-Information in den stimmlosen Sprachperioden zurückzuhalten bzw. beizubehalten, um bessere Stimmhaftigkeits/Stimmlosigkeits-Entscheidungen zu gestatten. D.h., die "stimmlose" Stimmhaftigkeitsentscheidung wird normalerweise vorgenommen, wenn keine starke Tonhöhe vorgefunden wird, d.h., wenn keine Korrelationsverzögerung des Restsignals einen hohen normalisierten Korrelationswert liefert. Jedoch kann, wenn nur ein tiefpaßgefilterter Abschnitt des Restsignals während stimmlosen Sprachperioden getestet wird, dieses teilweise bzw. Teilsegment des Restsignals unechte Korrelationen aufweisen. D.h., die Gefahr ist, daß das abgeschnittene Restsignal, welches durch das festgelegte Tiefpaßfilter nach dem Stand der Technik erzeugt ist, nicht genug Daten beinhaltet, um zuverlässig zu zeigen, daß keine Korrelation während stimmloser Perioden besteht, und die zusätzliche, durch die hochfrequente Energie der stimmlosen Perioden zur Verfügung gestellte Bandbreite notwendig ist, um zuverlässig die unechten Korrelationsverzögerungen auszuschließen, welche andernfalls gefunden werden könnten.
  • Eine Verbesserung in Tonhöhen- und Stimmhaftigkeitsentscheidungen ist besonders kritisch für Sprachnachrichtensysteme, ist jedoch auch für andere Anwendungen wünschenswert. Beispielsweise eine Worterkennungsvorrichtung, welche Tonhöheninformation mit einbezieht, würde natürlich ein gutes Tonhöhenabschätzverfahren erfordern. In ähnlicher Weise wird eine Tonhöheninformation manchmal zur Lautsprecher- bzw. Sprecherüberprüfung verwendet, insbesondere über eine Telefonleitung, wo eine hochfrequente Information teilweise verloren ist. Darüber hinaus wäre für zukünftige Weitbereichserkennungssysteme es wünschenswert, fähig zu sein, die syntaktische Information zu berücksichtigen, welche durch die Tonhöhe angegeben ist. In ähnlicher Weise wäre eine gute Analyse der Stimmhaftigkeit für einige fortschrittliche Spracherkennungssysteme, z.B. Sprache-zu-Text-Systeme wünschenswert.
  • Der erste Reflexionskoeffizient k1 ist ungefähr auf das hoch/niederfrequente Energieverhältnis und ein Signal bezogen. Siehe R. J. McAulay, "Entwurf eines robusten Tonhöhenabschätzers maximaler Wahrscheinlichkeit für Sprache und zusätzliches Rauschen", Technische Notiz, 1979-28, Lincoln Labs, 11. Juni 1979. Für k1 nahe zu –1 gibt es mehr niederfrequente Energie in dem Signal als hochfrequente Energie und umgekehrt für k1 nahe zu 1. Somit wird durch Verwendung von k1 zum Bestimmen des Pols eines 1-poligen Deemphasis-Filters das Restsignal in den stimmhaften Sprachperioden tiefpaßgefiltert und wird in den stimmlosen Sprachperioden hochpaßgefiltert. Dies bedeutet, daß die Formanten-Frequenzen von einer Berechnung der Tonhöhe während der stimmhaften Perioden ausgeschlossen sind, während die notwendige Hochbandbreiteninformation in den stimmlosen Perioden zur genauen Detektion der Tatsache beibehalten wird, daß keine Tonhöhenkorrelation besteht.
  • Vorzugsweise wird eine nachverarbeitende, dynamische Programmiertechnik verwendet, und nicht nur einen optimalen Tonhöhenwert, sondern auch eine optimale Stimmhaftigkeitsentscheidung zur Verfügung zu stellen. D.h., sowohl Tonhöhe wie auch Stimmhaftigkeit werden von Rahmen zu Rahmen nachgeführt und ein kumulativer Nachteil für eine Sequenz bzw. Abfolge von Rahmentonhöhen/Stimmhaftigkeitsentscheidungen wird für verschiedene Spuren akkumuliert, um die Spur zu finden, welche optimale Tonhöhen- und Stimmhaftigkeitsentscheidungen ergibt. Der kumulative Nachteil wird erhalten, indem ein Rahmenfehler eingeführt wird, der von einem Rahmen zum nächsten geht. Der Rahmenfehler benachteiligt vorzugsweise nicht nur große Abweichungen in der Tonhöhenperiode von Rahmen zu Rahmen, sondern benachteiligt auch Tonhöhenhypothesen, welche einen relativ schlechten Korrelations-"Güte"-Wert aufweisen, und benachteiligt auch Änderungen in der Stimmhaftigkeitsentscheidung, wenn das Spektrum relativ unverändert von Rahmen zu Rahmen ist. Dieses letzte Merkmal des Rahmenübergangsfehlers erzwingt deshalb Stimmhaftigkeitsübergänge zu den Punkten von maximaler spektraler Änderung.
  • Das Sprachnachrichtensystem beinhaltet ein Spracheingabesignal, welches als eine Zeitserie si gezeigt ist, welches an einem LPC-Analyseblock zur Verfügung gestellt wird. Die LPC-Analyse kann durch eine breite Vielzahl konventioneller Techniken vorgenommen werden, jedoch ist das Endprodukt ein Satz von LPC-Parametern und einem Restsignal ui. Der Hintergrund einer LPC-Analyse im allgemeinen und verschiedener Verfahren zur Extraktion von LPC-Parametern wird in zahlreichen allgemein bekannten Literaturstellen gefunden, beinhaltend Markel und Gray, Linear Prediction of Speed (1976) und Rabiner und Schafer, Digital Processing of Speed Signals (1978) und darin zitierten Literaturstellen.
  • In der gegenwärtig bevorzugten Anordnung wird die analoge Sprachwellenform bei einer Frequenz von 8 KHz und mit einer Genauigkeit von 16 Bits abgetastet, um die Eingabezeitserie si zu erzeugen. Natürlich ist das System überhaupt nicht von der Abtastrate oder der verwendeten Genauigkeit abhängig und ist an Sprache, welche bei einer beliebigen Rate abgetastet wurde, oder mit jedem beliebigen Grad von Genauigkeit anwendbar.
  • In der gegenwärtig bevorzugten Anordnung beinhaltet der Satz von LPC-Parametern, welcher verwendet wird, eine Vielzahl von Reflexionskoeffizienten ki, und ein LPC-Modell der 10. Ordnung wird verwendet (d.h., nur die Reflexionskoeffizienten k1 bis k10 werden extrahiert bzw. entnommen, und Koeffizienten höherer Ordnung werden nicht extrahiert). Jedoch können andere Modellreihenfolgen bzw. -ordnungen oder andere gleichwertige Sätze von LPC-Parametern ver wendet werden, wie es für jene mit Erfahrung in der Technik bekannt ist. Beispielsweise können die LPC-Vorhersagekoeffizienten ak verwendet werden oder die Impulsantwortabschätzungen ek. Jedoch sind die Reflexionskoeffizienten ki am bequemsten.
  • In der gegenwärtig bevorzugten Anordnung werden die Reflexionskoeffizienten gemäß dem Leroux-Gueguen-Verfahren extrahiert, welches beispielsweise in den IEEE Transactions on Acoustic, Speech and Signal Processing, Seite 257 (Juni 1977), dargelegt ist.
  • Jedoch könnten andere Algorithmen, welche jenen mit Erfahrung in der Technik gut bekannt sind, wie beispielsweise Durbin's verwendet werden, um die Koeffizienten zu berechnen.
  • Ein Nebenprodukt der Berechnung der LPC-Parameter wird typischerweise ein Restsignal uk sein. Jedoch kann, wenn die Parameter durch ein Verfahren berechnet werden, welches nicht automatisch uk als ein Nebenprodukt ausgibt bzw. hervorbringt, der Rest einfach durch Verwendung der LPC-Parameter gefunden werden, um ein digitales Filter mit endlicher Impulsantwort zu konfigurieren, welches direkt die Restserie uk aus der eingegebenen bzw. Eingangsserie sk berechnet.
  • Die Restsignalzeitserie uk wird nun durch einen sehr einfachen digitalen Filtervorgang gegeben, welcher von den LPC-Parametern für den aktuellen Rahmen abhängig ist. D.h., das Spracheingabesignal sk ist eine Zeitserie, welche einen Wert aufweist, welcher sich einmal in jeder Abtastung bei einer Abtastrate von z.B. 8 KHz ändern kann. Jedoch werden die LPC-Parameter normalerweise nur einmal in jeder Rahmenperiode bei einer Rahmenfrequenz von z.B. 100 Heizeinrichtung neu berechnet. Das Restsignal uk ebenfalls weist eine Periode gleich der Abtastperiode auf. Somit ist bzw. wird das Digitalfilter, dessen Wert von den LPC-Parametern abhängig ist, vorzugsweise nicht bei jedem Restsignal uk neu eingestellt. In der gegenwärtig bevorzugten Anordnung treten ungefähr 80 Werte in der Restsignalzeitserie uk durch das Filter 14, bevor ein neuer Wert der LPC-Parameter erzeugt wird, und deshalb ist eine neue Charakteristik für das Filter 14 implementiert.
  • Insbesondere wird der erste Reflektionskoeffizient k1 aus dem Satz von LPC-Parametern extrahiert, welche durch den LPC-Analyseabschnitt 12 zur Verfügung gestellt sind. Während die LPC-Parameter selbst die Reflexionskoeffizienten k1 sind, ist es lediglich notwendig, den ersten Reflexionskoeffizienten k1 zu suchen bzw. nachzusehen. Jedoch ist, wo andere LPC-Parameter verwendet werden, die Transformation bzw. Umformung der Parameter, um den Reflexionskoeffizienten erster Ordnung zu erzeugen, typischerweise extrem einfach, beispielsweise, k1 = a1/a0
  • Das System verwendet vorzugsweise den ersten Reflexionskoeffizienten, um 1-poliges adaptives Filter zu definieren. Jedoch muß das Filter nicht ein einpoliges Filter sein, sondern kann als ein komplexeres Filter konfiguriert sein, welches einen oder mehrere Pole oder eine oder mehrere Nullen aufweist, von welchen einige oder alle adaptiv variiert werden können.
  • Es sollte auch beachtet werden, daß die adaptive Filtercharakteristik bzw. Charakteristik des adaptiven Filters nicht durch den ersten Reflexionskoeffizienten k1 bestimmt werden muß. Wie es in der Technik gut bekannt ist, gibt es zahlreiche gleichwertige Sätze von LPC-Parametern, und die Parameter in anderen LPC-Parametersätzen können ebenfalls wünschenswerte Filtercharakteristika zur Verfügung stellen. Besonders in einem beliebigen Satz von LPC-Parametern sind die Parameter der niedrigsten Ordnung am wahrscheinlichsten, Information über die grobe spektrale Form zur Verfügung zu stellen. Somit könnte ein adaptives Filter a1 oder e1 verwenden, um einen Pol zu definieren, wobei dies ein einziger oder Mehrfachpol sein kann und alleine oder in Kombination mit anderen Nullen und/oder Polen verwendet werden kann. Darüber hinaus muß der Pol (oder null), welcher adaptiv durch ein LPC-Parameter definiert ist, nicht exakt mit diesem Parameter zusammenfallen, sondern kann in Größe oder Phase verschoben sein bzw. werden.
  • Somit filtert das 1-polige adaptive Filter die Restsignalzeitserie uk, um eine gefilterte Zeitserie u'k zu erzeugen. Wie oben besprochen, wird diese gefilterte Zeitserie u'k, ihre hochfrequente Energie bedeutend während der stimmhaften Sprachsegmente reduziert aufweisen, wird jedoch nahezu die vollständige Frequenzbandbreite während der stimmlosen Sprachsegmente beibehalten. Dieses gefilterte Restsignal u'k wird dann einer weiteren Verarbeitung unterzogen, um die Tonhöhenkandidaten und die Stimmhaftigkeitsentscheidung zu extrahieren.
  • Eine breite Vielzahl von Verfahren zum Extrahieren der Tonhöheninformation aus einem Restsignal besteht und jede von diesen kann verwendet werden. Viele von diesen werden im allgemeinen in dem oben erwähnten Buch von Markel und Gray besprochen.
  • In der gegenwärtig bevorzugten Anordnung werden die Kandidatentonhöhenwerte erhalten, indem die Spitzen in der normalisierten Korrelationsfunktion des gefilterten Restsignals gefunden wird, definiert wie folgt:
    Figure 00820001
    for km,n ≤ k ≤ kmax
    wo u'j das gefilterte Restsignal ist, kmin und kmax die Grenzen für die Korrelationsverzögerung k definieren, und m die Anzahl von Abtastungen in einer Rahmenperiode (80 in der bevorzugten Anordnung) ist und deshalb die Anzahl von zu korrelierenden Abtastungen definiert. Die Kandidatentonhöhenwerte sind bzw. werden durch die Verzögerungen k* definiert, bei welchem der Wert von C(k*) ein örtliches Maximum annimmt, und der skalare Wert von C(k) verwendet wird, um einen "Güte"-Wert für jeden Kandidaten k* zu definieren.
  • Optional wird ein Schwellenwert-Wert Cmin auf dem Gütemaß C(k) eingeführt, und lokale bzw. örtliche Maxima von C(k), welche nicht den Schwellwert Cmin überschreiten, werden ignoriert. Wenn kein k* existiert, für welches C(k*) größer als Cmin ist, dann ist der Rahmen notwendigerweise stimmlos.
  • Alternativ kann der Güteschwellwert Cmin entfallen und die normalisierte Autokorrelationsfunktion 1112 kann einfach geregelt bzw. gesteuert werden, um eine gegebene Anzahl von Kandidaten auszuweisen, welche die besten Gütewerte auf weisen, z.B. die 16 Tonhöhenperiodenkandidaten k, welche die größten Werte von C(k) aufweisen.
  • In einer Anordnung ist bzw. wird überhaupt kein Schwellwert auf dem Gütewert C(k) eingeführt bzw. diesem überlagert, und keine Stimmhaftigkeitsentscheidung wird auf dieser Stufe vorgenommen. Stattdessen werden die 16 Tonhöhenperiodenkandidaten k*1, k*2 usw. zusammen mit dem entsprechenden Gütewert (C(k*i)) für jeden Einzelnen ausgewiesen. In der gegenwärtig bevorzugten Anordnung wird die Stimmhaftigkeitsentscheidung auf dieser Stufe nicht vorgenommen, selbst wenn alle der C(k)-Werte extrem niedrig sind, jedoch wird die Stimmhaftigkeitsentscheidung vorgenommen in dem nachfolgenden dynamischen Programmierschritt, welcher unten besprochen bzw. diskutiert wird.
  • In der gegenwärtig bevorzugten Anordnung ist bzw. wird eine veränderliche Anzahl von Tonhöhenkandidaten entsprechend einem Spitzenfindungsalgorithmus identifiziert. D.h., der Graph der "Güte"-Werte C(k), verglichen mit der Kandidatentonhöhenperiode k wird nachgeführt bzw. verfolgt. Jedes örtliche Maximum ist als eine mögliche Spitze identifiziert. Jedoch ist bzw. wird das Vorhandensein einer Spitze an diesem identifizierten lokalen bzw. örtlichen Maximum nicht bestätigt, bis die Funktion danach um einen konstanten Betrag abgefallen ist. Dieses bestätigte lokale Maximum stellt dann einen der Tonhöhenperiodenkandidaten zur Verfügung. Nachdem jeder Spitzenkandidat auf diese Weise identifiziert wurde, sucht der Algorithmus danach nach einem Tal. D.h., jedes lokale Minimum ist bzw. wird als ein mögliches Tal identifiziert, ist jedoch nicht als ein Tal bestätigt, bis die Funktion danach um einen vorbestimmten konstanten Wert angestiegen ist. Die Täler werden nicht getrennt ausgezeichnet bzw. berichtet, jedoch wird ein bestätigtes Tal nötig, nachdem eine bestätigte Spitze vor einer neuen Spitze identifiziert werden wird. In der gegenwärtig bevorzugten Ausführungsform, wo die Gütewerte definiert sind, um durch +1 oder –1 begrenzt zu sein, wurde der zur Bestätigung einer Spitze oder eines Tals erforderliche konstante Wert auf 0,2 eingestellt, jedoch kann dies weitgehend geändert werden. Somit stellt diese Stufe eine variable Anzahl von Tonhöhenkandidaten als Ausgabe, von null bis 15 zur Verfügung.
  • In der gegenwärtig bevorzugten Anordnung wird der Satz von Tonhöhenperiodenkandidaten, welche durch die vorangegangenen Schritte zur Verfügung gestellt werden, dann zu einem dynamischen Programmieralgorithmus zur Verfügung gestellt. Dieser dynamische Programmieralgorithmus verfolgt dann sowohl Tonhöhen- wie auch Stimmhaftigkeitsentscheidungen, um eine Tonhöhen- und Stimmhaftigkeitsentscheidung für jeden Rahmen bereitzustellen, welcher optimal im Zusammenhang seiner Nachbarn ist.
  • Angesichts der Kandidatentonhöhenwerte und ihrer Gütewerte C(k) wird nun dynamisches Programmieren verwendet, um eine optimale Tonhöhenkontur bzw. -umrißlinie zu erhalten, welche eine optimale Stimmhaftigkeitsentscheidung für jeden Rahmen beinhaltet. Das dynamische Programmieren erfordert, daß verschiedene Sprachrahmen in einem Segment von Sprache analysiert werden, bevor die Tonhöhe und Stimmhaftigkeit für den ersten Rahmen des Segments entschieden werden kann. Bei jedem Rahmen des Sprachsegments wird jeder Tonhöhenkandidat mit den zurückgehaltenen Tonhöhenkandidaten des vorhergehenden Rahmens verglichen. Jeder zurückgehaltene Tonhöhenkandidat von dem vorhergehenden Rahmen trägt mit sich einen kumulativen bzw. zunehmenden Nachteil bzw. Abzug, und jeder Vergleich zwischen einem neuen Tonhöhenkandidaten und jedem der zurückgehaltenen Tonhöhenkandidaten weist auch ein neues Distanz- bzw. Abstandsmaß auf. Somit gibt es für jeden Tonhöhenkandidaten in dem neuen Rahmen einen kleinsten Nachteil bzw. Abzug, welcher eine beste Übereinstimmung mit einem der bei- bzw. zurückgehaltenen Tonhöhenkandidaten des vorhergehenden Rahmens repräsentiert. Wenn der kleinste kumulative Nachteil für jeden neuen Kandidaten berechnet wurde, wird der Kandidat zusammen mit seinem kumulativen Nachteil und einem Rückwärtszeiger zu der besten Übereinstimmung in dem vorhergehenden Rahmen zurückgehalten. Somit definieren die Rückwärtszeiger eine Trajektorie bzw. Zustandskurve, welche einen kumulativen Abzug aufweist, wie in dem kumulativen Abzugswert des letzten Rahmens in der Projektrate aufgezeichnet wurde. Die optimale Trajektorie für jeden gegebenen Rahmen wird durch ein Auswählen der Trajektorie mit dem minimalen kumulativen Nachteil erhalten. Der stimmlose Zustand ist als ein Tonhöhenkandidat auf jedem Rahmen definiert. Die Abzugs- bzw. Nachteilsfunktion beinhaltet vorzugsweise Stimmhaftigkeitsinformation, so daß die Stimmhaftigkeitsentscheidung eine natürliche Folge der dynamischen Programmierstrategie ist.
  • In der gegenwärtig bevorzugten Anordnung ist die dynamische Programmierstrategie 16 breit und 6 tief. D.h., 15 Kandidaten (oder weniger) plus der "Stimmlosigkeits"-Entscheidung (zur Bequemlichkeit als eine Null-Tonhöhenperiode festgelegt) werden als mögliche Tonhöhenperiode auf jedem Rahmen identifiziert, und alle 16 Kandidaten zusammen mit ihren Gütewerten werden für die 6 vorhergehenden Rahmen zurückgehalten.
  • Die Entscheidungen über Tonhöhe und Stimmhaftigkeit werden endgültig nur in bezug auf den ältesten Rahmen vorgenommen, welcher in dem dynamischen Programmieralgorithmus enthalten ist. D.h., die Tonhöhen- und Stimmhaftigkeitsentscheidung würde die Kandidatentonhöhe beim Rahmen FK-5 akzeptieren, dessen gegenwärtige Trajektorien-Kosten minimal waren. D.h. von den 16 (oder weniger) Trajektorien, welche am neuesten bzw. frischesten Rahmen FK enden, identifiziert die Kandidatentonhöhe im Rahmen FK, welche die geringsten kumulativen Trajektorien-Kosten aufweist, die optimale Trajektorie. Diese optimale Trajektorie wird dann zurückverfolgt und verwendet, um die Tonhöhen/Stimmhaftigkeitsentscheidung für Rahmen FK–-5 vorzunehmen. Es soll beachtet werden, daß keine endgültige Entscheidung über die Tonhöhenkandidaten in nachfolgenden Rahmen (Fk-4 usw.) vorgenommen wird, da die optimale Trajektorie nicht länger optimal erscheinen mag, nachdem mehrere Rahmen bewertet sind. Natürlich kann, wie es für jene mit Erfahrung in der Technik und der numerischen Optimierung wohl bekannt ist, eine endgültige Entscheidung in einem derartigen dynamischen Programmieralgorithmus alternativ zu anderen Zeiten bzw. Zeitpunkten vorgenommen werden, z.B. im nächsten bis letzten Rahmen, der in dem Puffer gehalten wird. Zusätzlich können die Breite und Tiefe des Puffers weitgehend variiert werden. Beispielsweise können bis zu 64 Tonhöhenkandidaten bewertet werden oder sowenig wie zwei; der Puffer könnte sowenig wie einen vorigen Rahmen zurückhalten, oder soviel wie 16 vorige Rahmen oder mehr, und andere Modifikationen und Abänderungen können eingerichtet werden, wie durch jene mit Erfahrung in der Technik erkannt werden wird. Der dynamische Programmieralgorithmus ist bzw. wird durch den Übergangsfehler zwischen einem Tonhöhenperiodenkandidaten in einem Rahmen und einem anderen Tonhöhenperiodenkandidaten in dem nachfolgenden Rahmen definiert. In der gegenwärtig bevorzugten Anordnung ist dieser Übergangsfehler als die Summe von drei Teilen definiert: einem Fehler EP aufgrund von Tonhöhenabweichungen, einem Fehler Es aufgrund von Tonhöhenkandidaten, welche einen niedrigen "Güte"-Wert aufweisen, und einem Fehler E1 aufgrund des Stimmhaftigkeitsübergangs.
  • Der Tonhöhenabweichungsfehler EP ist eine Funktion der gegenwärtigen Tonhöhenperiode und der vorigen Tonhöhenperiode, angegeben durch:
    Figure 00870001
    wenn beide Rahmen stimmhaft sind, und EP = BP mal DN andernfalls; wo tau die Kandidatentonhöhenperiode des gegenwärtigen Rahmens ist, taup eine zurückgehaltene Tonhöhenperiode des vorigen Rahmens, in bezug auf welchen der Übergangsfehler berechnet wird, ist, und BP, AD und DN Konstante sind. Es soll beobachtet werden, daß die Minimumfunktion eine Vorkehrung zur Tonhöhenperiodenverdopplung und Tonhöhenperiodenhalbierung beinhaltet. Diese Vorkehrung ist nicht unbedingt notwendig, wird jedoch als vorteilhaft betrachtet. Natürlich könnte optional eine ähnliche Vorkehrung zur Tonhöhenperiodenverdreifachung beinhaltet sein, usw.
  • Der Stimmhaftigkeitszustandsfehler ES ist eine Funktion des "Güte"-Werts C(k) des gegenwärtig betrachteten Rahmentonhöhenkandidaten. Für den stimmlosen Kandidaten, welcher immer unter den 16 oder weniger Tonhöhenperiodenkandidaten enthalten ist, die für jeden Rahmen zu berücksichtigen sind, wird der Gütewert C(k) gleich dem Maximum von C(k) für alle anderen 15 Tonhöhenperiodenkandidaten im selben Rahmen gesetzt. Der Stimmhaftigkeitszustandsfehler ES ist gegeben durch ES = BS(Rv – C(tau), wenn der gegenwärtige Kandidat stimmhaft ist, und ES = BS(C(tau) – RU) andernfalls, wo C(tau) der "Gütewert" entsprechend dem gegenwärtigen Tonhöhenkandidaten tau ist, und BS, Rv, und RU Konstante sind.
  • Der Stimmhaftigkeitsübergangsfehler ET ist im Hinblick auf ein spektrales Differenzmaß T definiert. Das spektrale Differenzmaß T definierte, für jeden Rahmen, im allgemeinen, wie unterschiedlich sein Spektrum von dem Spektrum des aufnehmenden Rahmens ist. Offensichtlich könnte eine Anzahl von Definitionen für ein derartiges spektrales Differenzmaß verwendet werden, welches in der gegenwärtig bevorzugten Anordnung definiert ist wie folgt:
    Figure 00880001
    wo E die RMS-Energie bzw. Effektivwertenergie des gegenwärtigen Rahmens ist, EP die Energie des vorigen Rahmens ist, L(N) ist der N-te Logarithmus des Flächenverhältnisses des augenblicklichen Rahmens und LP(N) N-te Logarithmus des Flächenverhältnisses des vorigen Rahmens ist. Das logarithmische Flächenverhältnis L(N) wird direkt aus dem N-ten Reflexionskoeffizienten kN berechnet wie folgt:
  • Figure 00890001
  • Der Stimmhaftigkeitsübergangsfehler ET ist dann als eine Funktion des spektralen Differenzmaßes definiert wie folgt:
    Wenn der gegenwärtige und vorige Rahmen beide stimmlos sind, oder wenn beide stimmhaft sind, wird ET gleich 0 gesetzt;
    andernfalls, ET = GT + AT/T, wo T das spektrale Differenzmaß bzw. Maß der spektralen Differenz des gegenwärtigen Rahmens ist. Wieder könnte die Definition des Stimmhaftigkeitsübergangsfehlers weitgehend variiert werden. Das Schlüsselmerkmal des wie hier definierten Stimmhaftigkeitsübergangsfehlers ist, daß, wann immer eine Stimmhaftigkeitszustandsänderung (stimmhaft zu stimmlos oder stimmlos zu stimmhaft) auftritt, ein Nachteil bzw. Abzug festgestellt wird, welcher eine abnehmende Funktion der spektralen Differenz zwischen den zwei Rahmen ist. D.h., eine Änderung im Stimmhaftigkeitszustand wird mißbilligt, außer es tritt auch ein beträchtlicher spektraler Wechsel auf.
  • Eine derartige Definition eines Stimmhaftigkeitsübergangsfehlers liefert beträchtliche Vorteile, da sie die Verarbeitungszeit reduziert, die erforderlich ist, um ausgezeichnete Stimmhaftigkeitsentscheidungen zu liefern.
  • Die anderen Fehler ES und EP, welche den Übergangsfehler in der gegenwärtig bevorzugten Anordnung ausmachen, können ebenfalls verschiedenartig definiert sein. D.h., der Stimmhaftigkeitszustandsfehler kann auf jede Weise definiert sein, welche im allgemeinen Tonhöhenperiodenhypothesen, welche zu den Daten in dem gegenwärtigen Rahmen zu passen scheinen, gegenüber jenen bevorzugt, welche weniger gut zu den Daten passen. In ähnlicher Weise kann der Tonhöhenabweichungsfehler EP auf jede Weise definiert sein, welche im allgemeinen mit Änderungen in der Tonhöhenperiode übereinstimmt bzw. diesen entspricht. Es ist nicht notwendig für den Tonhöhenabweichungsfehler, eine Vorkehrung zum Verdoppeln und Halbieren zu beinhalten, wie dies hier festgelegt wurde, obwohl eine derartige Vorkehrung wünschenswert ist.
  • Ein weiteres optionales Merkmal ist, daß, wenn der Tonhöhenabweichungsfehler Vorkehrungen zum Nachfolgen der Tonhöhe über Verdopplungen und Halbierungen beinhaltet, es wünschenswert sein kann, die Tonhöhenperiodenwerte entlang der optimalen Trajektorie zu verdoppeln (oder zu halbieren), nachdem die optimale Trajektorie identifiziert wurde, um diese so weit wie möglich konsistent bzw. einheitlich zu machen.
  • Es sollte beachtet werden, daß es nicht notwendig ist, alle der drei identifizierten Komponenten des Übergangsfehlers zu verwenden. Beispielsweise könnte der Stimmhaftigkeitszustandsfehler ausgelassen sein, wenn einige vorige Stufen Tonhöhenhypothesen mit einem niedrigen "Güte"-Wert ausschlossen, oder wenn die Tonhöhenperioden auf nach dem "Güte"-Wert in einer gewissen Weise derart geordnet wurden, daß die Tonhöhenperioden, welche einen höheren Gütewert aufweisen, bevorzugt würden, oder auf andere Weise. In ähnlicher Weise können andere Komponenten in der Übergangsfehlerdefinition nach Wunsch beinhaltet sein.
  • Es sollte auch beachtet werden, daß das dynamische Programmierverfahren, welches hierin gelehrt wurde, nicht notwendigerweise auf Tonhöhenperiodenkandidaten angewendet werden muß, welche aus einem adaptiv gefilterten Restsignal extrahiert wurden, noch auf Tonhöhenperiodenkandidaten, welche aus dem LPC-Restsignal abgeleitet wurden, sondern auf jeden Satz von Tonhöhenperiodenkandidaten angewendet werden kann, welche Tonhöhenperiodenkandidaten beinhalten, die direkt aus dem ursprünglichen Eingabesprachsignal extrahiert wurden.
  • Diese drei Fehler werden dann summiert, um den Gesamtfehler zwischen irgendeinem Tonhöhenkandidaten in dem gegenwärtigen Rahmen und irgendeinem Tonhöhenkandidaten in dem vorhergehenden Rahmen zur Verfügung zu stellen. Wie oben angemerkt wurde, werden diese Übergangsfehler dann kumulativ summiert, um kumulative Nachteile bzw. Abzüge für jede Trajektorie in dem dynamischen Programmieralgorithmus zur Verfügung zu stellen.
  • Dieses dynamische Programmierverfahren für ein gleichzeitiges Finden von sowohl Tonhöhe wie auch Stimmhaftigkeit ist in sich selbst neuartig, und muß nicht nur in Kombination mit den gegenwärtig bevorzugten Verfahren eines Findens von Tonhöhenperiodenkandidaten verwendet werden. Jedes Verfahren zum Finden von Tonhöhenkandidaten kann in Kombination mit diesem neuartigen dynamischen Programmieralgorithmus verwendet werden. Egal welches Verfahren verwendet wird, um Tonhöhenperiodenkandidaten zu finden, werden die Kandidaten einfach als Eingabe zu dem dynamischen Programmieralgorithmus zur Verfügung gestellt.
  • Insbesondere ist, während ein Verwenden eines Minicomputers und ein hochgenaues Abtasten gegenwärtig bevorzugt ist, dieses System nicht wirtschaftlich für großvolumige Anwendungen. Somit wird von dem bevorzugten System in der Zukunft erwartet, eine Anordnung zu sein, welche ein auf einem Mikrocomputer basierendes System verwendet, wie beispielsweise den TI Professional Computer.
  • Dieser professionelle Computer, wenn er mit einem Mikrophon, Lautsprecher und einer Sprachverarbeitungskarte konfiguriert ist, beinhaltend einen TMS 320 numerisch verarbeitenden Mikroprozessor und Datenwandler, ist ausreichende Hardware, um das System zu realisieren.

Claims (27)

  1. Verfahren zum Überwachen von Emotionen in Sprech- bzw. Stimmsignalen und Bereitstellen einer Rückmeldung bzw. eines Feedbacks darauf, umfassend die Schritte eines: (a) Empfangens eines Stimmsignals, das für eine Komponente einer Konversation zwischen wenigstens zwei Menschen bzw. Personen repräsentativ ist; (b) Segmentierens des Stimmsignals in Bereiche bzw. Regionen über einen Bereich einer Tonfrequenz des Stimmsignals; (c) Bestimmens einer Emotion, die mit dem Stimmsignal assoziiert ist, durch Verwendung der Bereiche als ein Eingabevektor zu einem neuralen Netzwerk, das verwendet wird, um die Emotion zu bestimmen; und (d) Bereitstellens einer Rückmeldung zu einer dritten Partei, basierend auf der Emotion, welche aus den Bereichen bestimmt wird, die in das neurale Netzwerk eingegeben wird.
  2. Verfahren nach Anspruch 1, wobei die Rückmeldung nur bereitgestellt wird, wenn die Emotion als eine negative Emotion bestimmt wird, die aus der Gruppe von negativen Emotionen, bestehend aus Zorn, Traurigkeit und Angst gewählt ist.
  3. Verfahren nach Anspruch 1, wobei die Emotion durch ein Extrahieren eines Merkmals aus dem Stimmsignal bestimmt wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Konversation über ein Telekommunikationsnetzwerk ausgeführt wird.
  5. Verfahren nach Anspruch 4, wobei eine der Personen ein Kunde, eine der Perso nen ein Angestellter und die dritte Partei ein Manager ist.
  6. Verfahren nach Anspruch 5, wobei der Angestellte durch ein Telefonzentrum bzw. Callcenter angestellt wird.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei das neurale Netzwerk ein zweilagiges rückwärts fortschreitendes bzw. fortpflanzendes neurales Netzwerk ist.
  8. Verfahren nach einem der Ansprüche 1 bis 6, wobei ein Bestimmen einer Emotion ein Treffen von Entscheidungen basierend auf einem Abstimm- bzw. Stimmverhalten mit einer ungeraden Anzahl von Klassifizierern des neuralen Netzwerks ist.
  9. Verfahren nach einem der Ansprüche 1 bis 8, wobei ein Segmentieren des Stimm- bzw. Sprachsignals ein Filtern des Stimmsignals mit einem elektronischen Filter beinhaltet.
  10. Computerprogramm, das auf einem computerlesbarem Medium verkörpert ist, zum Überwachen von Emotionen in Sprach- bzw. Stimmsignalen und Bereitstellen einer Rückmeldung bzw. Feedbacks darauf, wenn das Computerprogramm auf einem Computer läuft, wobei das Computerprogramm umfaßt: (a) ein Codesegment, welches ein Stimmsignal erhält bzw. empfängt, das für eine Komponente einer Konversation zwischen wenigstens zwei Menschen bzw. Personen repräsentativ ist; (b) ein Codesegment, welches das Stimmsignal in Bereiche bzw. Regionen über einen Bereich einer Tonfrequenz des Stimmsignals segmentiert bzw. unterteilt; (c) ein Codesegment, welches eine Emotion bestimmt, die mit dem Stimmsignal assoziiert ist, indem die Bereiche als ein Eingabevektor zu einem neuralen Netzwerk verwendet werden, das verwendet wird, um die Emotion zu bestimmen; und (d) ein Codesegment, welches eine Rückmeldung bzw. Feedback zu einer dritten Partei basierend auf der Emotion bereitstellt, welche aus den Bereichen bestimmt ist, die in das neurale Netzwerk eingegeben sind.
  11. Computerprogramm nach Anspruch 10, wobei die Rückmeldung nur bereitgestellt ist, wenn die Emotion als eine negative Emotion bestimmt ist, gewählt aus der Gruppe von negativen Emotionen, bestehend aus Zorn, Traurigkeit und Angst.
  12. Computerprogramm nach Anspruch 10, wobei die Emotion durch ein Extrahieren eines Merkmals aus dem Stimmsignal bestimmt ist.
  13. Computerprogramm nach einem der Ansprüche 10 bis 12, wobei die Konversation über ein Telekommunikationsnetzwerk ausgeführt wird.
  14. Computerprogramm nach Anspruch 13, wobei eine der Personen ein Kunde, eine Person ein Angestellter ist, und die dritte Partei ein Manager ist.
  15. Computerprogramm nach Anspruch 14, wobei der Angestellte durch ein Callcenter bzw. ein Telefonzentrum angestellt ist.
  16. Computerprogramm nach einem der Ansprüche 10 bis 15, wobei das neurale Netzwerk ein zweilagiges rückwärts fortschreitendes bzw. fortpflanzendes neurales Netzwerk ist.
  17. Computerprogramm nach einem der Ansprüche 10 bis 15, wobei eine Emotion durch das Codesegment bestimmt ist, basierend auf einem Abstimm- bzw. Stimmverhalten mit einer ungeraden Anzahl von Klassifizierern des neuralen Netzwerks bestimmt ist.
  18. Computerprogramm nach einem der Ansprüche 10 bis 17, wobei das Stimmsignal durch ein Codesegment segmentiert ist, welches eine Filtration des Stimmsignals mit einem elektronischen Filter anleitet.
  19. System zum Überwachen von Emotionen in Stimm- bzw. Sprachsignalen und Bereitstellen einer Rückmeldung bzw. Feedback dafür, umfassend: (a) Logikmittel, die adaptiert sind, um das Stimmsignal zu empfangen, das für eine Komponente einer Konversation zwischen wenigstens zwei Menschen bzw. Personen repräsentativ ist; (b) Logikmittel, die adaptiert sind, um das Stimmsignal in Bereiche bzw. Regionen über einen Bereich einer Tonfrequenz des Stimmsignals zu segmentieren; (c) Logikmittel, die adaptiert sind, um eine Emotion zu bestimmen, die mit dem Stimmsignal assoziiert bzw. diesem zugeordnet ist, indem die Regionen als ein Eingabevektor zu einem neuralen Netzwerk verwendet werden, welches zur Bestimmung der Emotion verwendet ist, und (d) Logikmittel, die adaptiert sind, um eine Rückmeldung zu einer dritten Partei basierend auf der Emotion bereitzustellen, welche aus den Bereichen bestimmt ist, die in das neurale Netzwerk eingegeben sind.
  20. System nach Anspruch 19, wobei die Rückmeldung nur bereitgestellt wird, wenn die Emotion als eine negative Emotion bestimmt ist, ausgewählt aus der Gruppe von negativen Emotionen, bestehend aus Zorn, Traurigkeit und Angst.
  21. System nach Anspruch 19, wobei die Emotion durch ein Extrahieren eines Merkmals aus dem Stimmsignal bestimmt ist.
  22. System nach einem der Ansprüche 19 bis 21, wobei die Konversation über ein Telekommunikationsnetzwerk ausgeführt ist.
  23. System nach Anspruch 22, wobei eine der Personen ein Kunde ist, eine der Personen ein Angestellter ist, und die dritte Partei ein Manager ist.
  24. System nach Anspruch 23, wobei der Angestellte durch ein Telefonzentrum bzw. Callcenter angestellt ist.
  25. System nach einem der Ansprüche 19 bis 24, wobei das neurale Netzwerk ein zweilagiges rückwärts fortschreitendes bzw. fortpflanzendes neurales Netzwerk ist.
  26. System nach einem der Ansprüche 19 bis 24, wobei eine Emotion durch eine Logik bestimmt ist, basierend auf einem Stimmverhalten mit einer ungeraden Anzahl von Klassifizierern des neuralen Netzwerks.
  27. System nach einem der Ansprüche 19 bis 26, wobei das Stimmsignal durch eine Logik segmentiert ist, welche eine Filtration des Stimmsignals mit einem elektronischen Filter anleitet.
DE60020865T 1999-08-31 2000-08-31 System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener Expired - Lifetime DE60020865T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US387621 1999-08-31
US09/387,621 US6480826B2 (en) 1999-08-31 1999-08-31 System and method for a telephonic emotion detection that provides operator feedback
PCT/US2000/024325 WO2001016939A1 (en) 1999-08-31 2000-08-31 A system, method, and article of manufacture for a telephonic emotion detector that provides operator feedback

Publications (2)

Publication Number Publication Date
DE60020865D1 DE60020865D1 (de) 2005-07-21
DE60020865T2 true DE60020865T2 (de) 2006-03-16

Family

ID=23530689

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60020865T Expired - Lifetime DE60020865T2 (de) 1999-08-31 2000-08-31 System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener

Country Status (8)

Country Link
US (1) US6480826B2 (de)
EP (1) EP1222656B1 (de)
AT (1) ATE298123T1 (de)
AU (1) AU7348700A (de)
DE (1) DE60020865T2 (de)
ES (1) ES2242634T3 (de)
IL (2) IL148414A0 (de)
WO (1) WO2001016939A1 (de)

Families Citing this family (189)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL129399A (en) * 1999-04-12 2005-03-20 Liberman Amir Apparatus and methods for detecting emotions in the human voice
US7222075B2 (en) 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
US7844504B1 (en) 2000-04-27 2010-11-30 Avaya Inc. Routing based on the contents of a shopping cart
WO2001091109A1 (en) * 2000-05-24 2001-11-29 Stars 1-To-1 Interactive voice communication method and system for information and entertainment
US7085719B1 (en) * 2000-07-13 2006-08-01 Rockwell Electronics Commerce Technologies Llc Voice filter for normalizing an agents response by altering emotional and word content
CA2429676A1 (en) * 2000-11-23 2002-06-13 Goren Gordon Method and system for creating meaningful summaries from interrelated sets of information units
US7346492B2 (en) * 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
US6721704B1 (en) * 2001-08-28 2004-04-13 Koninklijke Philips Electronics N.V. Telephone conversation quality enhancer using emotional conversational analysis
EP1300831B1 (de) * 2001-10-05 2005-12-07 Sony Deutschland GmbH Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
KR100898435B1 (ko) * 2001-10-22 2009-05-21 소니 가부시끼 가이샤 로봇 장치 및 그 제어 방법
US7315821B2 (en) * 2002-01-31 2008-01-01 Sanyo Electric Co., Ltd. System and method for health care information processing based on acoustic features
US7336779B2 (en) * 2002-03-15 2008-02-26 Avaya Technology Corp. Topical dynamic chat
US7415417B2 (en) * 2002-03-15 2008-08-19 Avaya Technology Corp. Presence awareness agent
JP4075473B2 (ja) * 2002-06-10 2008-04-16 松下電工株式会社 携帯無線端末および通報センタ装置
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US7290207B2 (en) 2002-07-03 2007-10-30 Bbn Technologies Corp. Systems and methods for providing multimedia information management
US20040054694A1 (en) * 2002-09-12 2004-03-18 Piccionelli Gregory A. Remote personalization method
CN1682566A (zh) * 2002-09-13 2005-10-12 皇家飞利浦电子股份有限公司 校准第一麦克风和第二麦克风
US20040138894A1 (en) * 2002-10-17 2004-07-15 Daniel Kiecza Speech transcription tool for efficient speech transcription
JP2004237022A (ja) * 2002-12-11 2004-08-26 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US20040215453A1 (en) * 2003-04-25 2004-10-28 Orbach Julian J. Method and apparatus for tailoring an interactive voice response experience based on speech characteristics
FR2854483B1 (fr) * 2003-05-02 2005-12-09 Miriad Technologies Procede d'identification de sons specifiques
US7299177B2 (en) * 2003-05-30 2007-11-20 American Express Travel Related Services Company, Inc. Speaker recognition in a multi-speaker environment and comparison of several voice prints to many
US20050010411A1 (en) * 2003-07-09 2005-01-13 Luca Rigazio Speech data mining for call center management
US7881934B2 (en) * 2003-09-12 2011-02-01 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
AU2004274717A1 (en) * 2003-09-22 2005-03-31 Inserm (Institut National De La Sante Et De La Recherche Medicale) A method for detecting Nipah virus and method for providing immunoprotection against henipaviruses
US8094804B2 (en) 2003-09-26 2012-01-10 Avaya Inc. Method and apparatus for assessing the status of work waiting for service
US20050071241A1 (en) * 2003-09-26 2005-03-31 Flockhart Andrew D. Contact center resource allocation based on work bidding/auction
US7770175B2 (en) * 2003-09-26 2010-08-03 Avaya Inc. Method and apparatus for load balancing work on a network of servers based on the probability of being serviced within a service time goal
DE102004001801A1 (de) * 2004-01-05 2005-07-28 Deutsche Telekom Ag Dialogsystem insbesondere zur Unterstützung der Patientenbetreuung
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US20050163302A1 (en) * 2004-01-22 2005-07-28 Mock Von A. Customer service system and method using physiological data
US7729490B2 (en) 2004-02-12 2010-06-01 Avaya Inc. Post-termination contact management
US8457300B2 (en) 2004-02-12 2013-06-04 Avaya Inc. Instant message contact management in a contact center
DE102004011426B3 (de) * 2004-03-09 2005-05-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion und Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen Emotion
US7885401B1 (en) 2004-03-29 2011-02-08 Avaya Inc. Method and apparatus to forecast the availability of a resource
US7953859B1 (en) 2004-03-31 2011-05-31 Avaya Inc. Data model of participation in multi-channel and multi-party contacts
US7734032B1 (en) 2004-03-31 2010-06-08 Avaya Inc. Contact center and method for tracking and acting on one and done customer contacts
US7158909B2 (en) * 2004-03-31 2007-01-02 Balboa Instruments, Inc. Method and system for testing spas
US8000989B1 (en) 2004-03-31 2011-08-16 Avaya Inc. Using true value in routing work items to resources
US8234141B1 (en) 2004-09-27 2012-07-31 Avaya Inc. Dynamic work assignment strategies based on multiple aspects of agent proficiency
US7949121B1 (en) 2004-09-27 2011-05-24 Avaya Inc. Method and apparatus for the simultaneous delivery of multiple contacts to an agent
US7949123B1 (en) 2004-09-28 2011-05-24 Avaya Inc. Wait time predictor for long shelf-life work
US7657021B2 (en) 2004-09-29 2010-02-02 Avaya Inc. Method and apparatus for global call queue in a global call center
DE102004056164A1 (de) * 2004-11-18 2006-05-24 Deutsche Telekom Ag Verfahren zur Dialogsteuerung und danach arbeitendes Dialogsystem
US7892648B2 (en) * 2005-01-21 2011-02-22 International Business Machines Corporation SiCOH dielectric material with improved toughness and improved Si-C bonding
US9036538B2 (en) * 2005-04-19 2015-05-19 Qualcomm Incorporated Frequency hopping design for single carrier FDMA systems
US7817796B1 (en) 2005-04-27 2010-10-19 Avaya Inc. Coordinating work assignments for contact center agents
US7529670B1 (en) 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US7511606B2 (en) * 2005-05-18 2009-03-31 Lojack Operating Company Lp Vehicle locating unit with input voltage protection
US8094790B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center
US8094803B2 (en) * 2005-05-18 2012-01-10 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US7995717B2 (en) 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US20060265088A1 (en) * 2005-05-18 2006-11-23 Roger Warford Method and system for recording an electronic communication and extracting constituent audio data therefrom
US7809127B2 (en) * 2005-05-26 2010-10-05 Avaya Inc. Method for discovering problem agent behaviors
US7940897B2 (en) 2005-06-24 2011-05-10 American Express Travel Related Services Company, Inc. Word recognition system and method for customer and employee assessment
JP2007041988A (ja) * 2005-08-05 2007-02-15 Sony Corp 情報処理装置および方法、並びにプログラム
US7779042B1 (en) 2005-08-08 2010-08-17 Avaya Inc. Deferred control of surrogate key generation in a distributed processing architecture
US20080040110A1 (en) * 2005-08-08 2008-02-14 Nice Systems Ltd. Apparatus and Methods for the Detection of Emotions in Audio Interactions
US7881450B1 (en) 2005-09-15 2011-02-01 Avaya Inc. Answer on hold notification
CA2622365A1 (en) * 2005-09-16 2007-09-13 Imotions-Emotion Technology A/S System and method for determining human emotion by analyzing eye properties
US8577015B2 (en) * 2005-09-16 2013-11-05 Avaya Inc. Method and apparatus for the automated delivery of notifications to contacts based on predicted work prioritization
US10572879B1 (en) 2005-10-03 2020-02-25 Avaya Inc. Agent driven media-agnostic work item grouping and sharing over a consult medium
US8073129B1 (en) 2005-10-03 2011-12-06 Avaya Inc. Work item relation awareness for agents during routing engine driven sub-optimal work assignments
US8116446B1 (en) 2005-10-03 2012-02-14 Avaya Inc. Agent driven work item awareness for tuning routing engine work-assignment algorithms
US7822587B1 (en) 2005-10-03 2010-10-26 Avaya Inc. Hybrid database architecture for both maintaining and relaxing type 2 data entity behavior
US8411843B1 (en) 2005-10-04 2013-04-02 Avaya Inc. Next agent available notification
US7787609B1 (en) 2005-10-06 2010-08-31 Avaya Inc. Prioritized service delivery based on presence and availability of interruptible enterprise resources with skills
US7752230B2 (en) * 2005-10-06 2010-07-06 Avaya Inc. Data extensibility using external database tables
US8478596B2 (en) * 2005-11-28 2013-07-02 Verizon Business Global Llc Impairment detection using speech
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
WO2007072485A1 (en) * 2005-12-22 2007-06-28 Exaudios Technologies Ltd. System for indicating emotional attitudes through intonation analysis and methods thereof
US20070150281A1 (en) * 2005-12-22 2007-06-28 Hoff Todd M Method and system for utilizing emotion to search content
US20070162505A1 (en) * 2006-01-10 2007-07-12 International Business Machines Corporation Method for using psychological states to index databases
US8238541B1 (en) 2006-01-31 2012-08-07 Avaya Inc. Intent based skill-set classification for accurate, automatic determination of agent skills
US20070192108A1 (en) * 2006-02-15 2007-08-16 Alon Konchitsky System and method for detection of emotion in telecommunications
US8737173B2 (en) 2006-02-24 2014-05-27 Avaya Inc. Date and time dimensions for contact center reporting in arbitrary international time zones
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
US8442197B1 (en) 2006-03-30 2013-05-14 Avaya Inc. Telephone-based user interface for participating simultaneously in more than one teleconference
US7571101B2 (en) * 2006-05-25 2009-08-04 Charles Humble Quantifying psychological stress levels using voice patterns
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US7936867B1 (en) 2006-08-15 2011-05-03 Avaya Inc. Multi-service request within a contact center
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US8391463B1 (en) 2006-09-01 2013-03-05 Avaya Inc. Method and apparatus for identifying related contacts
US8938063B1 (en) 2006-09-07 2015-01-20 Avaya Inc. Contact center service monitoring and correcting
US8811597B1 (en) 2006-09-07 2014-08-19 Avaya Inc. Contact center performance prediction
US8855292B1 (en) 2006-09-08 2014-10-07 Avaya Inc. Agent-enabled queue bypass to agent
US7835514B1 (en) 2006-09-18 2010-11-16 Avaya Inc. Provide a graceful transfer out of active wait treatment
US8767944B1 (en) 2007-01-03 2014-07-01 Avaya Inc. Mechanism for status and control communication over SIP using CODEC tunneling
US20080201158A1 (en) 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
US8542802B2 (en) * 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US7675411B1 (en) 2007-02-20 2010-03-09 Avaya Inc. Enhancing presence information through the addition of one or more of biotelemetry data and environmental data
WO2008115927A2 (en) * 2007-03-20 2008-09-25 Cogito Health Inc. Methods and systems for performing a clinical assessment
US20080240374A1 (en) * 2007-03-30 2008-10-02 Kelly Conway Method and system for linking customer conversation channels
US8718262B2 (en) 2007-03-30 2014-05-06 Mattersight Corporation Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication
US8023639B2 (en) 2007-03-30 2011-09-20 Mattersight Corporation Method and system determining the complexity of a telephonic communication received by a contact center
US7869586B2 (en) * 2007-03-30 2011-01-11 Eloyalty Corporation Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics
US20080240404A1 (en) * 2007-03-30 2008-10-02 Kelly Conway Method and system for aggregating and analyzing data relating to an interaction between a customer and a contact center agent
US8832731B1 (en) * 2007-04-03 2014-09-09 At&T Mobility Ii Llc Multiple language emergency alert system message
WO2008134625A1 (en) * 2007-04-26 2008-11-06 Ford Global Technologies, Llc Emotive advisory system and method
US7747705B1 (en) 2007-05-08 2010-06-29 Avaya Inc. Method to make a discussion forum or RSS feed a source for customer contact into a multimedia contact center that is capable of handling emails
DE102007021772B4 (de) * 2007-05-09 2013-01-24 Voicecash Ip Gmbh Digitales Verfahren und Anordnung zur Authentifizierung eines Nutzers einer Datenbasis
US8166109B2 (en) * 2007-06-21 2012-04-24 Cisco Technology, Inc. Linking recognized emotions to non-visual representations
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
US7716054B2 (en) * 2007-06-29 2010-05-11 Microsoft Corporation Activity-ware for non-textual objects
US8721554B2 (en) 2007-07-12 2014-05-13 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
US20090043586A1 (en) * 2007-08-08 2009-02-12 Macauslan Joel Detecting a Physiological State Based on Speech
US8504534B1 (en) 2007-09-26 2013-08-06 Avaya Inc. Database structures and administration techniques for generalized localization of database items
US10419611B2 (en) * 2007-09-28 2019-09-17 Mattersight Corporation System and methods for determining trends in electronic communications
US8856182B2 (en) 2008-01-25 2014-10-07 Avaya Inc. Report database dependency tracing through business intelligence metadata
US8140368B2 (en) * 2008-04-07 2012-03-20 International Business Machines Corporation Method and system for routing a task to an employee based on physical and emotional state
US8831206B1 (en) 2008-05-12 2014-09-09 Avaya Inc. Automated, data-based mechanism to detect evolution of employee skills
US8385532B1 (en) 2008-05-12 2013-02-26 Avaya Inc. Real-time detective
CA2665055C (en) * 2008-05-23 2018-03-06 Accenture Global Services Gmbh Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto
CA2665014C (en) * 2008-05-23 2020-05-26 Accenture Global Services Gmbh Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto
CA2665009C (en) * 2008-05-23 2018-11-27 Accenture Global Services Gmbh System for handling a plurality of streaming voice signals for determination of responsive action thereto
US20100010370A1 (en) 2008-07-09 2010-01-14 De Lemos Jakob System and method for calibrating and normalizing eye data in emotional testing
US10375244B2 (en) 2008-08-06 2019-08-06 Avaya Inc. Premises enabled mobile kiosk, using customers' mobile communication device
US8136944B2 (en) 2008-08-15 2012-03-20 iMotions - Eye Tracking A/S System and method for identifying the existence and position of text in visual media content and for determining a subjects interactions with the text
US8116237B2 (en) 2008-09-26 2012-02-14 Avaya Inc. Clearing house for publish/subscribe of status data from distributed telecommunications systems
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8630726B2 (en) 2009-02-12 2014-01-14 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
WO2010100567A2 (en) 2009-03-06 2010-09-10 Imotions- Emotion Technology A/S System and method for determining emotional response to olfactory stimuli
US8621011B2 (en) 2009-05-12 2013-12-31 Avaya Inc. Treatment of web feeds as work assignment in a contact center
US8964958B2 (en) 2009-05-20 2015-02-24 Avaya Inc. Grid-based contact center
US8676172B2 (en) 2009-06-29 2014-03-18 Nokia Solutions And Networks Oy Generating relational indicators based on analysis of telecommunications events
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US8644491B2 (en) 2009-08-21 2014-02-04 Avaya Inc. Mechanism for multisite service state description
US8385533B2 (en) 2009-09-21 2013-02-26 Avaya Inc. Bidding work assignment on conference/subscribe RTP clearing house
US8565386B2 (en) 2009-09-29 2013-10-22 Avaya Inc. Automatic configuration of soft phones that are usable in conjunction with special-purpose endpoints
US9468755B2 (en) * 2009-09-30 2016-10-18 Respicardia, Inc. Medical lead with preformed bias
US9516069B2 (en) 2009-11-17 2016-12-06 Avaya Inc. Packet headers as a trigger for automatic activation of special-purpose softphone applications
US8306212B2 (en) * 2010-02-19 2012-11-06 Avaya Inc. Time-based work assignments in automated contact distribution
US9015046B2 (en) * 2010-06-10 2015-04-21 Nice-Systems Ltd. Methods and apparatus for real-time interaction analysis in call centers
US20110307258A1 (en) * 2010-06-10 2011-12-15 Nice Systems Ltd. Real-time application of interaction anlytics
WO2012003523A1 (en) 2010-07-06 2012-01-12 Rmit University Emotional and/or psychiatric state detection
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US20130019187A1 (en) * 2011-07-15 2013-01-17 International Business Machines Corporation Visualizing emotions and mood in a collaborative social networking environment
JP2013068532A (ja) * 2011-09-22 2013-04-18 Clarion Co Ltd 情報端末、サーバー装置、検索システムおよびその検索方法
WO2013071305A2 (en) * 2011-11-10 2013-05-16 Inventime Usa, Inc. Systems and methods for manipulating data using natural language commands
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
US8675860B2 (en) 2012-02-16 2014-03-18 Avaya Inc. Training optimizer for contact center agents
WO2013138633A1 (en) 2012-03-15 2013-09-19 Regents Of The University Of Minnesota Automated verbal fluency assessment
US9037481B2 (en) 2012-06-11 2015-05-19 Hartford Fire Insurance Company System and method for intelligent customer data analytics
US9257122B1 (en) 2012-08-06 2016-02-09 Debra Bond Cancro Automatic prediction and notification of audience-perceived speaking behavior
US9892155B2 (en) * 2012-09-06 2018-02-13 Beyond Verbal Communication Ltd System and method for selection of data according to measurement of physiological parameters
US9047871B2 (en) 2012-12-12 2015-06-02 At&T Intellectual Property I, L.P. Real—time emotion tracking system
US9191510B2 (en) 2013-03-14 2015-11-17 Mattersight Corporation Methods and system for analyzing multichannel electronic communication data
US9318113B2 (en) 2013-07-01 2016-04-19 Timestream Llc Method and apparatus for conducting synthesized, semi-scripted, improvisational conversations
JP5840186B2 (ja) * 2013-09-26 2016-01-06 日本電信電話株式会社 感情検索装置、方法及びプログラム
US9390706B2 (en) 2014-06-19 2016-07-12 Mattersight Corporation Personality-based intelligent personal assistant system and methods
US9922350B2 (en) 2014-07-16 2018-03-20 Software Ag Dynamically adaptable real-time customer experience manager and/or associated method
US10380687B2 (en) 2014-08-12 2019-08-13 Software Ag Trade surveillance and monitoring systems and/or methods
US10178473B2 (en) 2014-09-05 2019-01-08 Plantronics, Inc. Collection and analysis of muted audio
WO2016057781A1 (en) 2014-10-08 2016-04-14 The University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9449218B2 (en) * 2014-10-16 2016-09-20 Software Ag Usa, Inc. Large venue surveillance and reaction systems and methods using dynamically analyzed emotional input
US9269374B1 (en) 2014-10-27 2016-02-23 Mattersight Corporation Predictive video analytics system and methods
US9722965B2 (en) * 2015-01-29 2017-08-01 International Business Machines Corporation Smartphone indicator for conversation nonproductivity
US9576190B2 (en) * 2015-03-18 2017-02-21 Snap Inc. Emotion recognition in video conferencing
US9747573B2 (en) * 2015-03-23 2017-08-29 Avatar Merger Sub II, LLC Emotion recognition for workforce analytics
JP6238246B2 (ja) * 2015-04-16 2017-11-29 本田技研工業株式会社 会話処理装置、および会話処理方法
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
JP6703420B2 (ja) * 2016-03-09 2020-06-03 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
JP6672114B2 (ja) * 2016-09-13 2020-03-25 本田技研工業株式会社 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10834262B2 (en) * 2016-11-17 2020-11-10 International Business Machines Corporation Enhancing customer service processing using data analytics and cognitive computing
JP6751536B2 (ja) * 2017-03-08 2020-09-09 パナソニック株式会社 装置、ロボット、方法、及びプログラム
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
US10460709B2 (en) * 2017-06-26 2019-10-29 The Intellectual Property Network, Inc. Enhanced system, method, and devices for utilizing inaudible tones with music
US11030983B2 (en) 2017-06-26 2021-06-08 Adio, Llc Enhanced system, method, and devices for communicating inaudible tones associated with audio files
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
JP2019159707A (ja) * 2018-03-12 2019-09-19 富士ゼロックス株式会社 情報提示装置、情報提示方法及び情報提示プログラム
EP3779965A4 (de) * 2018-04-12 2021-06-09 Sony Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungssystem, informationsverarbeitungsverfahren und programm
US10593350B2 (en) 2018-04-21 2020-03-17 International Business Machines Corporation Quantifying customer care utilizing emotional assessments
WO2020032914A1 (en) * 2018-08-06 2020-02-13 Hewlett-Packard Development Company, L.P. Images generated based on emotions
US11862148B2 (en) * 2019-11-27 2024-01-02 Amazon Technologies, Inc. Systems and methods to analyze customer contacts
US11893526B2 (en) * 2019-11-27 2024-02-06 Amazon Technologies, Inc. Customer contact service with real-time supervisor assistance
US10992805B1 (en) 2020-01-27 2021-04-27 Motorola Solutions, Inc. Device, system and method for modifying workflows based on call profile inconsistencies
CA3176352A1 (en) * 2020-04-21 2021-10-28 Cary Chu Systems and methods for improved accuracy of bullying or altercation detection or identification of excessive machine noise
CN112995414B (zh) * 2021-02-26 2022-10-25 平安普惠企业管理有限公司 基于语音通话的行为质检方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5976081A (en) * 1983-08-11 1999-11-02 Silverman; Stephen E. Method for detecting suicidal predisposition
US5148483A (en) * 1983-08-11 1992-09-15 Silverman Stephen E Method for detecting suicidal predisposition
US5410739A (en) 1992-09-29 1995-04-25 The Titan Corporation Variable data message communication over voice communication channel
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
US6006188A (en) * 1997-03-19 1999-12-21 Dendrite, Inc. Speech signal processing for determining psychological or physiological characteristics using a knowledge base
US6173260B1 (en) 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
IL122632A0 (en) 1997-12-16 1998-08-16 Liberman Amir Apparatus and methods for detecting emotions
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters

Also Published As

Publication number Publication date
WO2001016939A1 (en) 2001-03-08
US20020002464A1 (en) 2002-01-03
ES2242634T3 (es) 2005-11-16
EP1222656A1 (de) 2002-07-17
IL148414A0 (en) 2002-09-12
DE60020865D1 (de) 2005-07-21
AU7348700A (en) 2001-03-26
ATE298123T1 (de) 2005-07-15
EP1222656B1 (de) 2005-06-15
US6480826B2 (en) 2002-11-12
IL148414A (en) 2006-10-31

Similar Documents

Publication Publication Date Title
DE60020865T2 (de) System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener
DE60031432T2 (de) System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern
DE60210295T2 (de) Verfahren und vorrichtung zur sprachanalyse
US6697457B2 (en) Voice messaging system that organizes voice messages based on detected emotion
US6427137B2 (en) System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
US6353810B1 (en) System, method and article of manufacture for an emotion detection system improving emotion recognition
DE602005001142T2 (de) Nachrichtenübertragungsgerät
DE60033132T2 (de) Detektion von emotionen in sprachsignalen mittels analyse einer vielzahl von sprachsignalparametern
DE60014063T2 (de) Vorrichtung und verfahren zur erkennung von gefühlen in der menschlichen stimme
DE60030920T2 (de) Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs
US6463415B2 (en) 69voice authentication system and method for regulating border crossing
DE60108373T2 (de) Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation
Owren et al. The acoustic features of vowel-like grunt calls in chacma baboons (Papio cyncephalus ursinus): Implications for production processes and functions
DE69837107T2 (de) Gerät und verfahren zum feststellen von gefühlen
DE3416238C2 (de) Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten
DE60124225T2 (de) Verfahren und Vorrichtung zur Erkennung von Emotionen
DE2918533A1 (de) Spracherkennungssystem
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
EP3291234A1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE19840548C2 (de) Verfahren zur instrumentellen Sprachqualitätsbestimmung
DE4010028A1 (de) Spracherkennungsverfahren
DE102014207437A1 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
Harrison Variability of formant measurements

Legal Events

Date Code Title Description
8364 No opposition during term of opposition