DE60033132T2

DE60033132T2 - Detektion von emotionen in sprachsignalen mittels analyse einer vielzahl von sprachsignalparametern

Info

Publication number: DE60033132T2
Application number: DE60033132T
Authority: DE
Inventors: A. Valery Buffalo Grove PETRUSHIN
Original assignee: Accenture LLP
Current assignee: Accenture LLP
Priority date: 1999-08-31
Filing date: 2000-08-31
Publication date: 2007-11-08
Anticipated expiration: 2020-09-01
Also published as: JP4644403B2; US6151571A; EP1770687B1; EP1125280A1; ATE352836T1; HK1039994B; EP1770687A1; JP2003508805A; DE60033132D1; CA2353688A1; EP1125280B1; HK1039994A1; AU7339000A; CA2353688C; WO2001016938A1

Description

BEREICH DER ERFINDUNG
Die vorliegende Erfindung betrifft die Spracherkennung und insbesondere die Erfassung von Emotionen unter Verwendung einer Stimmanalyse.
HINTERGRUND DER ERFINDUNG
Obwohl die erste Monographie über den Ausdruck von Gefühlen bei Tieren und Menschen im letzten Jahrhundert von Charles Darwin geschrieben wurde und Psychologen allmählich Kenntnisse im Bereich der Emotionserfassung und Stimmerkennung gewonnen haben, hat dies in jüngster Zeit sowohl bei Psychologen als auch bei Experten für künstliche Intelligenz eine neue Welle des Interesses ausgelöst. Für dieses wiedererwachte Interesse gibt es mehrere Gründe: den technologischen Fortschritt bei der Aufzeichnung, Speicherung und Verarbeitung akustischer und optischer Informationen, die Entwicklung berührungsfreier Sensoren, das Aufkommen tragbarer Computer und der Drang, die Schnittstelle zwischen Mensch und Computer von einem Zeigen und Anklicken um ein Spüren und Fühlen zu bereichern. Ferner wurde im Bereich der künstlichen Intelligenz (AI, artificial intelligence) kürzlich ein neues, als affektive Datenverarbeitung bezeichnetes Forschungsgebiet etabliert.
Hinsichtlich der die Erkennung von Emotionen in Sprache betreffenden Forschung haben Psychologen einerseits zahlreiche Experimente ausgeführt und Theorien vorgeschlagen. Andererseits haben AI-Forscher auf den folgenden Gebieten Beiträge geleistet: emotionale Sprachsynthese, Erkennung von Emotionen und die Verwendung von Mitteln zur Decodierung und zum Ausdrücken von Emotionen. Ähnliche Fortschritte wurden bei der Stimmerkennung erzielt.
In der WIPO-Veröffentlichung WO 99/22364 „System and Method for Automatically Classifying the Affective Content of Speech" ist die Klassifikation des emotionalen Inhalts von Sprache unter Verwendung akustischer Messungen zusätzlich zur Tonhöhe als Klassifikationseingang beschrieben.
Ein Artikel gemäß dem Stand der Technik auf diesem Gebiet betrifft die Unterscheidung von Emotionen anhand der Stimme eines Menschen. Der Artikel mit dem Titel „SCREAM: SCREen-based NavigAtion in voice Messages" wurde von H.W. Lie et al. in 1993 Proceedings IEEE Symposium on Visual Languages (Kat.Nr. 93TH0562-9), 24.–27. August 1993, Bergen, Norwegen, Seiten 401–405 veröffentlicht. Dieser Artikel führt aus, dass bei einer Analyse von Stimmnachrichten statistische Charakteristika, wie die Grundfrequenz des Tonsignals (die Tonhöhe), der Bereich der Tonhöhe, die Wahrscheinlichkeit des Vorliegens einer Grundfrequenz und die Energie des Tonsignals, verwendet werden. Die Analyse kann dann zur Bestimmung des Geschlechts, des Alters und des Gemütszustands des Sprechenden verwendet werden. Dann können unter Verwendung einer vereinbarten Symbolik auf den Stimmcharakteristika basierende Bilder angezeigt werden. Es kann unter mehreren derartigen Bildern navigiert werden, wie bei einem Sprachnachrichtensystem.
ZUSAMMENFASSUNG DER ERFINDUNG
Durch die vorliegende Erfindung werden ein Verfahren und ein System zur Erfassung von Emotionen unter Verwendung einer Stimmanalyse geschaffen, wie jeweils in den Ansprüchen 1 und 19 beschrieben. Durch die vorliegende Erfindung wird auch ein computerlesbares Medium gemäß Anspruch 12 geschaffen. Zunächst wird ein Stimmsignal empfangen und gespeichert, worauf bestimmte Merkmale aus dem Stimmsignal extrahiert werden. Als nächstes wird auf der Grundlage der extrahierten Merkmale eine dem Stimmsignal zugeordnete Emotion bestimmt. Bei einer bevorzugten Ausführungsform wird eine derartige erfasste Emotion dann zum Ordnen von Sprachnachrichten verwendet.
BESCHREIBUNG DER ZEICHNUNGEN
Die Erfindung ist unter Berücksichtigung ihrer nachstehenden detaillierten Beschreibung besser verständlich. In der Beschreibung wird auf die beiliegenden Zeichnungen Bezug genommen, wobei
1 ein schematisches Diagramm einer Hardwareimplementierung einer Ausführungsform der vorliegenden Erfindung ist;
2 ein Ablaufdiagramm ist, das eine Ausführungsform der vorliegenden Erfindung zeigt, die Emotionen unter Verwendung einer Stimmanalyse erfasst;
3 ein Diagramm ist, das die durchschnittliche Genauigkeit der Erkennung bei einem s70-Datensatz zeigt;
4 eine Übersicht ist, die die durchschnittliche Genauigkeit der Erkennung bei einem s80-Datensatz darstellt;
5 ein Diagramm ist, das die durchschnittliche Genauigkeit der Erkennung bei einem s90-Datensatz zeigt;
6 ein Ablaufdiagramm ist, das eine Ausführungsform der vorliegenden Erfindung darstellt, die Emotionen unter Verwendung von Statistiken erfasst;
7 ein Ablaufdiagramm ist, das ein Verfahren zur Erfassung von Nervosität in einer Stimme in einer Geschäftsumgebung zur Unterstützung einer Verhinderung von Betrug darstellt;
8 ein Ablaufdiagramm ist, das eine Vorrichtung zur Erfassung von Emotionen anhand einer Stimmprobe gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
9 ein Ablaufdiagramm ist, das eine Vorrichtung zur Erzeugung sichtbarer Protokolle anhand von Klang gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
10 ein Ablaufdiagramm ist, das eine Ausführungsform der vorliegenden Erfindung darstellt, die Emotionen in Stimmsignalen überwacht und auf der Grundlage der erfassten Emotionen eine Rückmeldung liefert;
11 ein. Ablaufdiagramm ist, das eine Ausführungsform der vorliegenden Erfindung darstellt, die die Erfassung von Emotionen anhand von Stimmsignalen durch einen Benutzer mit der durch einen Computer vorgenommenen vergleicht, um die Erfassung von Emotionen entweder durch die Erfindung oder durch den Benutzer oder beides zu verbessern;
12 ein schematisches Diagramm einer Spracherkennungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung in Blockform ist;
13 ein schematisches Diagramm der Elementbaugruppe und des Speicherblocks gemäß 12 in Blockform ist;
14 ein Spracherkennungssystem mit einem Biomonitor und einem Vorprozessor gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
15 ein von dem Biomonitor gemäß 14 erzeugtes Biosignal darstellt;
16 eine Schaltung in dem Biomonitor darstellt;
17 ein Blockdiagramm des Vorprozessors ist;
18 eine Beziehung zwischen einer Tonhöhenänderung und dem Biosignal darstellt;
19 ein Ablaufdiagramm eines Kalibrierungsprogramms ist;
20 allgemein den Aufbau des Teils des erfindungsgemäßen Systems zeigt, indem eine verbesserte Auswahl eines Satzes von möglichen Tonhöhenperioden realisiert wird;
21 ein Ablaufdiagramm ist, das eine Ausführungsform der vorliegenden Erfindung darstellt, die einen Benutzer durch eine Stimmverifikation identifiziert, um dem Benutzer Zugriff auf Daten in einem Netzwerk zu gewähren;
22 das Grundkonzept eines zur Steuerung des Zugriffs auf ein gesichertes System verwendeten Stimmauthentifizierungssystems zeigt;
23 ein erfindungsgemäßes System zum Nachweis der Identität eines Sprechers darstellt;
24 den ersten Schritt zur Identifikation eines Sprechers bei einem beispielhaften System gemäß der vorliegenden Erfindung zeigt;
25 einen zweiten Schritt bei dem in 24 gezeigten System darstellt;
26 einen dritten Schritt bei dem in 24 gezeigten System darstellt;
27 einen vierten Schritt bei dem in 24 gezeigten System zur Identifikation eines Sprechers darstellt;
28 ein Ablaufdiagramm ist, das ein Verfahren zur Feststellung des passiven Wahlrechts einer Person an einem Grenzüber gang, die die Grenze überqueren will, anhand von Stimmsignalen darstellt;
29 ein Verfahren zur Sprechererkennung gemäß einem Aspekt der vorliegenden Erfindung darstellt;
30 ein weiteres Verfahren zur Sprechererkennung gemäß einem Aspekt der vorliegenden Erfindung darstellt;
31 die Grundbauteile eines Sprechererkennungssystems darstellt;
32 ein Beispiel der in der Speichereinheit für die Sprechererkennung betreffende Informationen gemäß 31 gespeicherten Informationen darstellt;
33 eine bevorzugte Ausführungsform eines Sprechererkennungssystems gemäß einer Ausführungsform der vorliegenden Erfindung darstellt;
34 die Ausführungsform des Sprechererkennungssystems gemäß 33 genauer beschreibt;
35 ein Ablaufdiagramm ist, das ein Verfahren zur Erkennung von Stimmbefehlen zur Manipulation von Daten im Internet darstellt;
36 ein verallgemeinertes Blockdiagramm eines Informationssystems gemäß einer Ausführungsform der Erfindung zur Steuerung von Inhalten und Anwendungen über ein Netzwerk mittels Stimmsignalen ist;
die 37A, 37B und 37C zusammen ein Blockdiagramm eines beispielhaften Unterhaltungssystems bilden, in dem eine Ausführungsform der vorliegenden Erfindung enthalten ist;
38 die Art und Weise darstellt, in der gemäß einer Ausführungsform der vorliegenden Erfindung, die eine Sprachübersetzungsfunktion umfasst, Regeln angewendet werden, um akzeptable Sätze zu bilden; und
39 eine repräsentative Hardwareimplementierung einer Ausführungsform der Erfindung mit einer Sprachübersetzungsfunktion darstellt.
GENAUE BESCHREIBUNG
Gemäß mindestens einer Ausführungsform der vorliegenden Erfindung wird ein System zum Ausführen verschiedener Funktionen und Aktivitäten durch Stimmanalyse und Stimmerkennung geschaffen. Das System kann unter Verwendung einer Hardwareimplementierung, wie der in 1 gezeigten, aktiviert werden. Ferner können unter Verwendung einer Softwareprogrammierung, d.h. einer objektorientierten Programmierung (OOP), verschiedenste funktionale und Benutzerschnittstellenmerkmale einer Ausführungsform der vorliegenden Erfindung aktiviert werden.
UBERSICHT ÜBER DIE HARDWARE
Eine repräsentative Hardwareumgebung gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ist in 1 dargestellt, die eine typische Hardwarekonfiguration eines Arbeitsplatzes mit einer Zentraleinheit 110, wie einem Mikroprozessor, und einer Reihe weiterer, über einen Systembus 112 verbundener Einheiten zeigt. Der in 1 gezeigte Arbeitsplatz umfasst einen Direktzugriffsspeicher (RAM) 114, einen Festspeicher (ROM) 116, einen Eingabe-/Ausgabeadapter 118 zum Anschließen von Peripheriegerä ten, wie Plattenspeichereinheiten 120, an den Bus 112, einen Benutzerschnittstellenadapter 122 zum Anschließen einer Tastatur 124, einer Maus 126, eines Lautsprechers 128, eines Mikrophons 132 und/oder weiterer Benutzerschnittstellenvorrichtungen, wie eines (nicht gezeigten) berührungsempfindlichen Bildschirms, an den Bus 112, einen Kommunikationsadapter 134 zum Anschließen des Arbeitsplatzes an ein Kommunikationsnetzwerk (beispielsweise ein Datenverarbeitungsnetzwerk) und einen Anzeigeadapter 136 zum Anschließen des Busses 112 an eine Anzeigevorrichtung 138. Auf dem Arbeitsplatz ist typischer Weise ein Betriebssystem, wie Microsoft Windows NT oder das Betriebssystem (OS) Windows 95, das IBM Betriebssystem OS/2, das MAC OS oder das Betriebssystem UNIX, installiert.
UBERSICHT ÜBER DIE SOFTWARE
Die objektorientierten Programmierung (OOP) wird zunehmend zur Entwicklung komplexer Anwendungen verwendet. Da sich die OOP auf die Hauptrichtung der Softwareerstellung und -entwicklung zu bewegt, ist eine Anpassung unterschiedlicher Softwarelösungen erforderlich, um die Vorteile der OOP nutzen zu können. Es besteht ein Bedarf an einer derartigen Anwendung der Prinzipien der OOP auf eine Nachrichtenübertragungsschnittstelle eines elektronischen Nachrichtenübertragungssystems, dass ein Satz von OOP-Klassen und Objekten für die Nachrichtenübertragungsschnittstelle bereitgestellt werden kann.
Die OOP ist ein Prozess zur Entwicklung von Computersoftware unter Verwendung von Objekten, der die Schritte der Analyse des Problems, der Gestaltung des Systems und der Konstruktion des Programms umfasst. Ein Objekt ist ein Softwarepaket, das sowohl Daten als auch eine Sammlung zugehöriger Strukturen und Prozeduren enthält. Da es sowohl Daten als auch eine Sammlung von Strukturen und Prozeduren enthält, kann man es sich als autarke Komponente vorstellen, die keine zusätzlichen Strukturen, Prozeduren oder Daten benötigt, um ihre bestimmte Aufgabe auszuführen. Die OOP betrachtet daher ein Computerprogramm als eine Sammlung zum größten Teil autonomer, als Objekte bezeichneter Komponenten, von denen jede für eine bestimmte Aufgabe zuständig ist. Dieses Konzept des Zusammenpackens von Daten, Strukturen und Prozeduren in eine Komponente bzw. ein Modul wird als Verkapseln bezeichnet.
Im Allgemeinen sind OOP-Komponenten wiederverwendbare Softwaremodule, die eine Schnittstelle darstellen, die einem Objektmodell entspricht, und auf die bei der Ausführung über eine Komponentenintegrationsarchitektur zugegriffen wird. Eine Komponentenintegrationsarchitektur ist ein Satz von Architekturmechanismen, die Softwaremodulen an unterschiedlichen Prozessstellen die gegenseitige Nutzung ihrer Kapazitäten bzw. Funktionen ermöglichen. Dies erfolgt im Allgemeinen durch die Annahme eines Objektmodells mit gemeinsamen Komponenten, auf dem die Architektur aufgebaut werden kann. Es lohnt sich, an diesem Punkt zwischen einem Objekt und einer Klasse von Objekten zu unterscheiden. Ein Objekt ist ein einziges Element der Klasse von Objekten, die häufig nur als Klasse bezeichnet wird. Eine Klasse von Objekten kann als Blaupause betrachtet werden, anhand derer viele Objekte erzeugt werden können.
Die OOP ermöglicht dem Programmierer die Erstellung eines Objekts, das Teil eines anderen Objekts ist. Zu dem einen Kolbenmotor repräsentierenden Objekt kann beispielsweise ausgesagt werden, dass es eine die Zusammensetzung betreffende Beziehung mit dem einen Kolben repräsentierenden Objekt hat. In der Realität umfasst ein Kolbenmotor einen Kolben, Ventile und viele andere Bauteile; die Tatsache, dass ein Kolben ein Element eines Kolbenmotors ist, kann bei der OOP logisch und semantisch durch zwei Objekte repräsentiert werden.
Die OOP lässt auch die Erzeugung eines Objekts zu, das von einem anderen Objekt „abhängt". Sind zwei Objekte vorhanden, von denen das eine einen Kolbenmotor und das andere einen aus Keramik gefertigten Kolben repräsentiert, ist die Beziehung zwischen den beiden Objekten nicht die eines zusammengesetzten Aufbaus. Ein Keramikkolbenmotor macht keinen Kolbenmotor aus. Vielmehr ist er lediglich eine Art von Kolbenmotor, der eine Einschränkung mehr als der Kolbenmotor aufweist, nämlich dass sein Kolben aus Keramik gefertigt ist. In diesem Fall wird das den Keramikkolbenmotor repräsentierende Objekt als abgeleitetes Objekt bezeichnet, für das sämtliche Aspekte des einen Kolbenmotor repräsentierenden Objekts übernommen und eine weitere Einschränkung bzw. ein weiteres Detail hinzugefügt werden. Das den Keramikkolbenmotor repräsentierende Objekt „hängt" von dem Objekt ab, das den Kolbenmotor repräsentiert. Die Beziehung zwischen diesen Objekten wird als Übernahme bezeichnet.
Wenn das Objekt oder die Klasse, das bzw. die den Keramikkolbenmotor repräsentiert, sämtliche Aspekte der Objekte übernimmt, die den Kolbenmotor repräsentieren, übernimmt es bzw. sie die in der Klasse der Kolbenmotoren definierten Wärmecharakteristika eines Standardkolbens. Das Objekt Keramikkolbenmotor ersetzt sie jedoch durch keramikspezifische Wärmecharakteristika, die sich typischer Weise von den einem Metallkolben zugeordneten unterscheiden. Es überspringt das Original und verwendet neue Funktionen, die Keramikkolben betreffen. Unterschiedliche Arten von Kolbenmotoren ha ben unterschiedliche Eigenschaften, können jedoch die gleichen, ihnen zugrunde liegenden Funktionen aufweisen (beispielsweise die Anzahl der Kolben des Motors, die Zündfolgen, die Schmierung, etc.). Um in jedem Kolbenmotorobjekt auf diese Funktionen zuzugreifen, würde ein Programmierer die gleichen Funktionen durch die gleichen Namen bezeichnen, doch jeder Typ von Kolbenmotor kann unter dem gleichen Namen unterschiedliche/aufhebende Implementierungen von Funktionen aufweisen. Diese Fähigkeit, unterschiedliche Implementierungen einer Funktion hinter dem gleichen Namen zu verbergen, wird als Polymorphie bezeichnet und vereinfacht die Kommunikation unter den Objekten erheblich.
Durch die Konzepte der die Zusammensetzung betreffenden Beziehung, der Verkapselung, der Übernahme und der Polymorphie kann ein Objekt so gut wie alles in der wirklichen Welt repräsentieren. Tatsächlich ist die logische Wahrnehmung der Realität die einzige Einschränkung bei der Bestimmung der Arten von Dingen, die Objekte der objektorientierten Software werden können. Folgendes sind einige typische Kategorien:

• Objekte können physische Objekte, wie Kraftfahrzeuge in einer Verkehrsflusssimulation, elektrische Bauteile in einem Schaltungskonstruktionsprogramm, Länder in einem Wirtschaftsmodell oder Flugzeuge in einem Luftverkehrssteuersystem, repräsentieren.
• Objekte können Elemente der Computerbenutzerumgebung, wie Fenster, Menüs oder grafische Objekte, repräsentieren.
• Ein Objekt kann Inventar repräsentieren, wie eine Personalakte oder eine Tabelle der Längen- und Breitengrade von Städten.
• Ein Objekt kann benutzerdefinierte Datentypen, wie die Zeit, Winkel und komplexe Zahlen oder Punkte auf einer Ebene, repräsentieren.

Durch diese enorme Kapazität eines Objekts, so gut wie jeden logisch unterscheidbaren Inhalt zu repräsentieren, ermöglicht die OOP dem Softwareentwickler das Erstellen und Implementieren eines Computerprogramms, das ein Modell einiger Aspekte der Realität darstellt, ob diese Realität nun eine physische Entität, ein Prozess, ein System oder eine Struktur aus Materie ist. Da das Objekt alles repräsentieren kann, kann der Softwareentwickler ein Objekt erzeugen, das als eine Komponente in einem größeren zukünftigen Softwareprojekt verwendet werden kann.
Wenn 90 % eines neuen OOP-Softwareprogramms aus erprobten, vorhandenen Objekten bestehen, die aus bereits vorhandenen, wiederverwendbaren Objekten erstellt wurden, müssen nur die übrigen 10 % des Softwareprojekts neu geschrieben und ohne Vorgabe erprobt werden. Da 90 % bereits aus einem Inventar umfassend erprobter, wiederverwendbarer Objekte stammen, sind die potentielle Domäne, aus der ein Fehler stammen könnte, 10 % des Programms. Dadurch ermöglicht die OOP Softwareentwicklern das Konstruieren von Objekten aus anderen, vorher konstruierten Objekten.
Dieser Prozess ähnelt stark dem Bau komplexer Maschinen aus Baugruppen und Unterbaugruppen. Die OOP-Technologie rückt daher die Softwaretechnik näher an die Hardwaretechnik, indem die Software aus vorhandenen Komponenten aufgebaut wird, die dem Entwickler als Objekte zur Verfügung stehen. All dies trägt zu einer verbesserten Qualität der Software sowie zu einer Erhöhung der Geschwindigkeit ihrer Entwicklung bei.
Die Programmiersprachen beginnen, die OOP-Prinzipien, wie die Verkapselung, die Übernahme, die Polymorphie und die Zusammensetzungsbeziehung, voll zu unterstützen. Mit dem Aufkommen der Programmiersprache C++ haben viele kommerzielle Softwareentwickler die OOP aufgegriffen. C++ ist eine OOP-Sprache, die einen schnellen, durch eine Maschine ausführbaren Code bereitstellt. Überdies ist C++ sowohl für kommerzielle Anwendungen als auch für Systemprogrammierungsprojekte geeignet. Gegenwärtig scheint C++ bei vielen OOP-Programmierern die verbreitetste Wahl zu sein, doch es existieren zahlreiche weitere OOP-Sprachen, wie Smalltalk, Common Lisp Object System (CLOS) und Eiffel. Zudem werden zu verbreiteten traditionelleren Computerprogrammiersprachen, wie Pascal, OOP-Funktionen hinzugefügt.
Die Vorteile der Objektklassen können wie folgt zusammengefasst werden:

• Objekte und die ihnen entsprechenden Klassen unterteilen komplexe Programmieraufgaben in zahlreiche kleinere, einfachere Aufgaben.
• Die Verkapselung erzwingt eine Datenabstraktion durch die Organisation von Daten in kleinen, unabhängigen Objekten, die miteinander kommunizieren können. Die Verkapselung schützt die Daten in einem Objekt vor einer versehentlichen Beschädigung, ermöglicht anderen Objekten jedoch das Interagieren mit diesen Daten durch Aufrufen der zu dem Objekt gehörigen Funktionen und Strukturen.
• Eine Unterklassierung und Übernahme ermöglichen eine Erweiterung und Modifikation von Objekten durch Ableiten neuer Arten von Objekten anhand der im System vorhandenen Stan dardklassen. So werden neue Kapazitäten erzeugt, ohne von Grund auf neu beginnen zu müssen.
• Polymorphie und Mehrfachübernahme ermöglichen unterschiedlichen Programmierern das Mischen und Anpassen der Charakteristika vieler unterschiedlicher Klassen und das erstellen spezialisierter Objekte, die nach wie vor in vorhersehbarer Weise mit zugeordneten Objekten zusammenarbeiten können.
• Klassenhierarchien und Einschlusshierarchien bieten einen flexiblen Mechanismus zur Abbildung realer Objekte und ihrer Beziehungen untereinander.
• Bibliotheken wieder verwendbarer Klassen sind in vielen Situationen nützlich, sie unterliegen jedoch einigen Einschränkungen, beispielsweise:
• Komplexität. In einem komplexen System können die Klassenhierarchien zusammengehöriger Klassen bei Duzenden oder sogar Hunderten von Klassen extrem verwirrend werden.
• Steuerfluss. Ein mit der Hilfe von Klassenbibliotheken geschriebenes Programm ist nach wie vor für den Steuerfluss verantwortlich (d.h. es muss die Interaktionen zwischen sämtlichen anhand einer bestimmten Bibliothek erstellten Objekten steuern). Der Programmierer muss entscheiden, welche Funktionen er zu welchen Zeitpunkten für welche Arten von Objekten aufrufen soll.
• Verdoppelung des Aufwands. Obwohl Klassenbibliotheken Programmierern das Verwenden und Wiederverwenden vieler kleiner Codefragmente ermöglichen, setzt jeder Programmierer diese Fragmente auf unterschiedliche Art und Weise zusammen. Zwei verschiedene Programmierer können den gleichen Satz von Klassenbibliotheken zum Schreiben von zwei Programmen verwenden, die genau das Gleiche tun, deren innerer Aufbau (d.h. deren Konstruktion) abhängig von hunderten kleiner Entscheidungen, die jeder Programmierer bei seiner Arbeit trifft, jedoch ziemlich unterschiedlich sein kann. Es ist unvermeidlich, dass ähnliche Codefragmente schließlich auf geringfügig unterschiedliche Art Ähnliches ausführen und nicht so gut zusammenarbeiten, wie sie sollten.

Klassenbibliotheken sind sehr flexibel. Wenn die Programme komplexer werden, sehen sich mehr Programmierer gezwungen, grundlegende Lösungen für grundlegende Probleme immer wieder neu zu erfinden. Eine relativ neue Erweiterung des Konzepts der Klassenbibliotheken ist die Erstellung einer Grundstruktur von Klassenbibliotheken. Diese Grundstruktur ist komplexer und besteht aus erheblichen Sammlungen zusammenarbeitender Klassen, die sowohl die Muster im kleinen Maßstab als auch die größeren Mechanismen erfassen, die die gemeinsamen Anforderungen und Gestaltungen in einer bestimmten Anwendungsdomäne implementieren. Sie wurden zunächst entwickelt, um Anwendungsprogrammierer von den lästigen, mit der Anzeige von Menüs, Fenstern, Dialogfeldern und weiteren Standardbenutzerschnittstellenelementen für Personal Computer verbundenen Aufgaben zu befreien.
Grundstrukturen repräsentieren auch eine Änderung der Art und Weise, in der Programmierer die Interaktion zwischen dem Code, den sie schreiben, und von Anderen geschriebenem Code sehen. In den Anfängen der verfahrensorientierten Programmierung rief der Programmierer zum Ausführen bestimmter Aufgaben vom Betriebssystem bereitgestellte Bibliotheken auf, doch grundsätzlich wurde das Programm in der vorgegebenen Reihenfolge vom Anfang bis zum Ende ausgeführt, und allein der Programmierer war für den Ablauf der Steuerung verantwortlich. Das war für das Ausdrucken von Gehaltsschecks, das Berechnen einer mathematischen Tabelle oder zur Lösung weiterer Probleme durch ein Programm angemessen, das in genau einer Weise ablief.
Die Entwicklung grafischer Benutzerschnittstellen begann den verfahrensorientierten Aufbau der Programmierung völlig umzukrempeln. Diese Schnittstellen ermöglichen statt der Programmlogik dem Benutzer das Programm anzusteuern und zu entscheiden, wann bestimmte Aktionen ausgeführt werden sollen. Heute wird dies beim größten Teil der Software für Personal Computer mittels einer Ereignisschleife realisiert, die die Maus, die Tastatur und weitere Quellen externer Ereignisse überwacht und entsprechend den vom Benutzer ausgeführten Aktionen geeignete Teile des Codes des Programmierers aufruft. Der Programmierer bestimmt die Reihenfolge nicht mehr, in der die Ereignisse stattfinden. Stattdessen ist ein Programm in separate Teile unterteilt, die zu unvorhersehbaren Zeitpunkten und in einer nicht vorhersehbaren Reihenfolge aufgerufen werden. Indem er die Steuerung auf diese Weise auf den Benutter überträgt, erstellt der Entwickler ein Programm, das erheblich leichter zu benutzen ist. Nichtsdestotrotz rufen einzelne Teile des vom Entwickler geschriebenen Programms nach wie vor vom Betriebssystem zum Ausführen bestimmter Aufgaben bereitgestellte Bibliotheken auf, und der Programmierer muss nach wie vor den Ablauf der Steuerung in jedem Teil bestimmen, nachdem es von der Ereignisschleife aufgerufen wurde. Der Anwendungscode sitzt noch immer „obenauf" auf dem System.
Selbst bei Ereignisschleifenprogqammen müssen Programmierer viel Code schreiben, der nicht für jede Anwendung eigens geschrieben werden müsste. Das Konzept einer Anwendungsgrundstruktur entwickelt das Konzept der Ereignisschleifen weiter. Statt sich mit sämtlichen Einzelteilen zur Konstruktion von Grundmenüs, Fenstern und Dialogfenstern zu befassen und dann dafür zu sorgen, dass all diese Dinge zusammenarbeiten, beginnen Programmierer, die Anwendungsgrundstrukturen verwenden, damit, einen Anwendungscode und grundlegende Benutzerschnittstellenelemente zusammenzustellen. Anschließend fahren sie von dort aus mit dem Ersetzen einiger der gattungsmäßigen Leistungsmerkmale der Grundstruktur durch die spezifischen Merkmale der geplanten Anwendung fort.
Anwendungsgrundstrukturen verringern die Gesamtmenge des Codes, den ein Programmierer ohne Vorgabe schreiben muss. Da die Grundstruktur jedoch tatsächlich eine allgemeine Anwendung ist, die Fenster anzeigt und ein Kopieren und Einfügen, etc. unterstützt, kann der Programmierer die Steuerung in höherem Maße abtreten, als Ereignisschleifenprogramme dies zulassen. Der Grundstrukturcode übernimmt fast die gesamte Ereignisverarbeitung und den Steuerungsablauf, und der Code des Programmierers wird nur aufgerufen, wenn die Grundstruktur ihn benötigt (beispielsweise zur Erstellung oder Manipulation einer geschützten Datenstruktur).
Ein Programmierer, der ein Grundstrukturprogramm schreibt, überlässt dem Benutzer nicht nur die Steuerung (was auch für Ereignisschleifenprogramme zutrifft), sondern tritt auch den genauen Ablauf der Steuerung innerhalb des Programms an die Grundstruktur ab. Dieser Ansatz ermöglicht, anders als isolierte Programme mit einem eigens erstellten Code, die wieder und wieder für ähnliche Aufgabenstellungen erstellt werden, die Erstellung komplexerer Systeme, die auf interessante Art und Weise zusammenarbeiten.
Wie vorstehend ausgeführt, ist eine Grundstruktur daher grundsätzlich eine Ansammlung kooperierender Klassen, die eine Lösung mit einem wiederverwendbaren Aufbau für eine gegebene Problemdomäne bilden. Sie umfasst typischer Weise Objekte, die ein Standardverhalten aufweisen (beispielsweise für Menüs und Fenster), und Programmierer nutzen sie, indem sie Einiges von diesem Standardverhalten übernehmen und das übrige Verhalten so außer Kraft setzen, dass die Grundstruktur zu den geeigneten Zeitpunkten den Anwendungscode aufruft.
Zwischen Grundstrukturen und Klassenbibliotheken bestehen drei Hauptunterschiede:

• Verhalten versus Protokoll: Klassenbibliotheken sind im Wesentlichen Sammlungen von Verhalten, die aufgerufen werden können, wenn die einzelnen Verhalten in einem Programm gewünscht werden. Eine Grundstruktur bietet andererseits nicht nur Verhalten, sondern auch das Protokoll bzw. den Satz von Regeln, die die Art und Weise regeln, in denen Verhalten kombiniert werden können, einschließlich Regeln, die festlegen, was ein Programmierer liefern soll und was die Grundstruktur bereitstellt.
• Aufruf versus überlagernde Abänderung: Bei einer Klassenbibliothek konkretisiert der Programmierer Objekte und ruft ihre zugehörigen Funktionen auf. Objekte können auf die gleiche Weise wie bei einer Grundstruktur konkretisiert und aufgerufen werden (d.h. die Grundstruktur kann wie eine Klassenbibliothek verwendet werden), um die Vorteile des wiederverwendbaren Aufbaus der Grundstruktur jedoch vollständig zu nutzen, schreibt ein Programmierer typischer Weise einen überlagernden Code, der von der Grundstruktur aufgerufen wird. Die Grundstruktur verwaltet den Ablauf der Steuerung zwischen ihren Objekten. Das Schreiben eines Programms umfasst die Aufteilung der Verantwortung unter den verschiedenen Softwareelementen, die von der Grundstruktur aufgerufen werden, statt der Spezifikation, wie die unterschiedlichen Elemente zusammenarbeiten sollen.
• Implementierung versus Aufbau: Bei Klassenbibliotheken verwenden Programmierer nur Implementierungen wieder, wogegen sie bei Grundstrukturen den Aufbau wiederverwenden. Eine Grundstruktur verkörpert die Art und Weise, in der eine Familie zusammengehöriger Programme bzw. Softwareelemente arbeiten. Sie repräsentiert eine allgemeine Lösung für den Aufbau, die an eine Vielzahl spezifischer Probleme in einer gegebenen Domäne angepasst werden kann. Eine einzige Grundstruktur kann beispielsweise die Art und Weise repräsentieren, in der eine Benutzerschnittstelle arbeitet, obwohl zwei verschiedene, mit der gleichen Grundstruktur erstellte Benutzerschnittstellen völlig unterschiedliche Schnittstellenaufgaben lösen können.

Daher können durch die Entwicklung von Grundstrukturen für Lösungen zu unterschiedlichen Aufgabenstellungen und Programmieraufgaben erhebliche Verringerungen des Erstellungs- und Entwicklungsaufwands für Software erzielt werden. Bei einer bevorzugten Ausführungsform der Erfindung wird die HyperText Markup Language (HTML) zum Implementieren von Dokumenten im Internet zusammen mit einem sicheren Mehrzweckkommunikationsprotokoll für ein Beförderungsmedium zwischen dem Kunden und einer Firma genutzt. HTML kann ohne übermäßiges Experimentieren leicht durch HTTP oder andere Protokolle ersetzt werden. Informationen zu diesen Produkten sind in T. Berners-Lee, D. Connoly, „RFC 1866: Hypertext Markup Language – 2.0" (Nov. 1995) und R. Fielding, H. Frystyk, T. Berners-Lee, J. Gettys und J.C. Mogul, „Hypertext Transfer Protocol – HTTP/1.1: HTTP Working Group Internet Draft" (2. Mai 1996) zu finden. HTML ist ein einfaches Datenformat, das zur Erstellung von Hypertextdokumenten verwendet wird, die von einer Plattform zur anderen übertragen werden können. HTML-Dokumente sind SGML-Dokumente mit einer gattungsmäßigen Semantik, die zur Repräsentation von Informationen aus vielfältigen Domänen geeignet sind. HTML wird von der World-Wide Web Global Information Initiative seit 1990 verwendet. HTML ist eine Anwendung gemäß dem ISO-Standard 8879, 1996, Information Processing Text and Office System; Standard Generalized Markup Language (SGML).
Bisher waren die Möglichkeiten, mit Web-Entwicklungsdientsprogrammen dynamische Web-Anwendungen zu erstellen, die von einem Client zu einem Server reichen und mit vorhandenen Datenverarbeitungsressourcen zusammenarbeiten, begrenzt. Bis vor kurzem war HTML die dominante Technologie, die bei der Entwicklung Web-basierender Lösungen verwendet wurde. HTML hat sich jedoch in den folgenden Bereichen als inadäquat erwiesen:

• Unzureichende Leistung,
• Begrenzte Benutzerschnittstellenkapazitäten,
• Kann nur statische Web-Seiten erzeugen,
• Mangelnde Interoperabilität mit vorhandenen Anwendungen und Daten und
• Unfähigkeit, abzuwägen.

Die Sprache Java von Sun Microsystems löst viele der Probleme auf der Seite des Kunden durch:

• Verbesserung der Leistung auf der Kundenseite,
• Ermöglichen der Erstellung dynamischer Echtzeit-Web-Anwendungen und
• Bereitstellen der Möglichkeit der Erstellung einer breiten Vielfalt von Benutzerschnittstellenkomponenten.

Mit Java können Entwickler robuste Benutzerschnittstellenkomponenten (UI-Komponenten) erstellen. Es können benutzerdefinierte „Widgets" (beispielsweise Echtzeitbörsenschreiber, animierte Piktogramme, etc.) erstellt werden, und die Leistung seitens des Client wird verbessert. Anders als HTML unterstützt Java die Idee der Validierung seitens des Client, wobei zugunsten einer verbesserten Leistung geeignete Verarbeitungen an den Client übertragen werden. Es können dynamische Echtzeit-Web-Seiten erstellt werden. Auch können unter Verwendung der vorstehend erwähnten benutzerdefinierten UI-Komponenten dynamische Web-Seiten erstellt werden.
Die Sprache Java von Sun ist als von der Industrie anerkannte Sprache zum „Programmieren des Internet" entstanden. Sun definiert Java als „eine einfache, objektorientierte, verbreitete, übersetzte, robuste, sichere, architekturneutrale, mobile, dynamische, schlagwortkonforme Mehrpfad-Mehrzweck-Hochleistungs-Programmiersprache. Java unterstützt eine Programmierung für das Internet in Form von plattformunabhängigen Java-Applets." Java-Applets sind kleine, spezialisierte Anwendungen, die mit der Java Application Programming Interface (API) konform sind und Entwicklern das Hinzufügen „interaktiver Inhalte" (beispielsweise einfacher Animationen, Seitenverzierungen, Basisspielen, etc.) zu Web-Dokumenten ermöglichen. Applets arbeiten innerhalb einer Java-kompatiblen Suchmaschine (beispielsweise dem Netscape Navigator), indem sie Code vom Server auf einen Client kopieren. Unter dem Gesichtspunkt der Sprache basiert der Satz der Kernfunktionen von Java auf C++, Die Java betreffende Lite ratur von Sun führt aus, dass Java grundsätzlich „C++ mit Erweiterungen durch Objective C für eine dynamischere Verfahrensauflösung" ist.
Eine weitere Technologie, die ähnliche Funktionen wie JAVA bietet, wird von Microsoft und ActiveX Technologies angeboten, um Entwicklern und Web-Designern ein Werkzeug zur Erstellung dynamischer Inhalte für das Internet und Personal Computer zu liefern. ActiveX umfasst Dienstprogramme zur Entwicklung von Animationen, dreidimensionaler virtueller Realität, Video und weiteren Multimedia-Inhalten. Die Dienstprogramme verwenden Internetstandards, arbeiten auf vielen Plattformen und werden von mehr als 100 Firmen unterstützt. Die Bausteine der Gruppe werden als ActiveX Controls bezeichnet und sind schnelle Komponenten, die Entwicklern das Einbetten von Softwareelementen in Hypertext Markup Language Seiten (HTML-Seiten) ermöglichen. ActiveX Controls arbeiten mit einer Vielzahl von Programmiersprachen, einschließlich Microsoft Visual C++, Borland Delphi, dem Microsoft Visual Basic Programmiersystem und zukünftig mit dem Entwicklungstool für Java von Microsoft mit dem Codenamen „Jakarta". ActiveX Technologien umfassen auch das ActiveX Server Framework, das Entwicklern die Erstellung von Serveranwendungen ermöglicht. Für Personen mit normalen Fachkenntnissen ist leicht zu erkennen, dass JAVA ohne übermäßiges Experimentieren durch ActiveX ersetzt werden könnte, um die Erfindung zu umzusetzen.
EMOTIONSERKENNUNG
Ausführungsformen der vorliegenden Erfindung betreffen die Nutzung der Erkennung von Emotionen in Sprache zu geschäftlichen Zwecken. Einige Ausführungsformen können zur Erfassung einer Emotion einer Person auf der Grundlage einer Stimmanalyse und zur Ausgabe der erfassten Emotion der Person verwendet werden. Weitere Ausführungsformen der vorliegenden Erfindung können zur Erfassung des Gemütszustands bei Telefon-Callcenter-Gesprächen verwendet werden und einem Telefonisten oder einem Vorgesetzten zu Überwachungszwecken eine Rückmeldung liefern. Weitere Ausführungsformen der vorliegenden Erfindung können zum Sortieren von Sprachnachrichten nach Maßgabe der von einem Anrufer ausgedrückten Emotionen verwendet werden.
Sind die Zielobjekte bekannt, wird vorgeschlagen, eine Studie an einigen der Zielobjekte auszuführen, um zu bestimmen, welche Teile einer Stimme als Indikatoren für Emotionen am zuverlässigsten sind. Wenn keine Zielobjekte verfügbar sind, können andere Objekte verwendet werden. Diese Richtlinien gelten für die folgende Besprechung:

• Die Daten sollten von Leuten stammen, die keine professionellen Schauspieler bzw. Schauspielerinnen sind, um die Genauigkeit zu verbessern, da Schauspieler und Schauspielerinnen eine bestimmte Sprachkomponente überbetonen können, wodurch Fehler entstehen.
• Die Daten können von Testpersonen stammen, die aus einer Gruppe ausgewählt sind, die erwartet, analysiert zu werden. Dadurch würde die Genauigkeit erhöht.
• Sprache in Telefonqualität (< 3,4 kHz) kann als Messobjekt herangezogen werden, um die Genauigkeit für eine Verwendung mit einem Telefonsystem zu verbessern. Die Prüfung kann nur auf einem Stimmsignal beruhen. Dies bedeutet, dass die modernen Spracherkennungstechniken aus geschlossen würden, da sie eine erheblich bessere Qualität der Signal- und Rechnerleistung erfordern.

DAS SAMMELN UND BEWERTEN VON DATEN
Bei einer beispielhaften Untersuchung werden von dreißig Personen jeweils die folgenden vier kurzen Sätze aufgezeichnet:

• „Das ist nicht, was ich erwartet habe."
• „Ich bin gleich da. "
• „Morgen habe ich Geburtstag."
• „Ich heirate nächste Woche."

Jeder Satz sollte fünfmal aufgezeichnet werden, wobei der Proband jedes Mal jeweils einen der folgenden Gemütszustände darstellt: Freude, Zorn, Trauer, Furcht/Nervosität und neutral (emotionslos). Von fünf der Probanden können die Sätze auch zweimal mit unterschiedlichen Aufzeichnungsparametern aufgezeichnet werden. Damit werden von jedem Probanden 20 bzw. 40 Äußerungen aufgezeichnet, was einen Korpus ergibt, der 700 Äußerungen bzw. 140 Äußerungen pro Gemütszustand ergibt. Jede Äußerung kann unter Verwendung eines Nahsprechmikrofons aufgezeichnet werden; die ersten 100 Äußerungen mit 22 kHz/8 Bit und die restlichen 600 Äußerungen mit 22 kHz/16 Bit.
Nach der Erzeugung des Korpus kann ein Experiment ausgeführt werden, um Antworten auf die folgenden Fragen zu finden:

• Wie gut können Menschen ohne besondere Ausbildung Emotionen in der Sprache vorgeben und erkennen?
• Wie gut können Menschen ihre eigenen, 6–8 Wochen zuvor aufgenommenen Emotionen erkennen? Welche Arten von Emotionen sind leichter bzw. schwerer zu erkennen?

Ein wesentliches Ergebnis des Experiments ist die Auswahl eines Satzes der zuverlässigsten Äußerungen, d.h. der Äußerungen, die von den meisten Leuten erkannt werden. Dieser Satz kann als Übungs- und Untersuchungsdaten für von einem Computer ausgeführte Mustererkennungsalgorithmen verwendet werden.
Ein interaktives Programm eines in der Technik bekannten Typs kann verwendet werden, um Äußerungen auszuwählen und in einer zufälligen Reihenfolge wiederzugeben und einem Benutzer das Klassifizieren jeder Äußerung entsprechend ihrem emotionalen Inhalt zu ermöglichen. An der Bewertungsstufe können beispielsweise 23 Probanden und 20 weitere teilnehmen, die an der vorhergehenden Aufzeichnungsstufe teilgenommen haben.
Tabelle 1 zeigt eine Darstellungsverwechslungsmatrix, die aus der Darstellung bei der vorstehend besprochenen Untersuchung gesammelten Daten resultiert. Die Zeilen und Spalten repräsentieren jeweils tatsächliche und eingeschätzte Kategorien. Die zweite Zeile besagt beispielsweise, dass 11,9 % der Äußerungen, in denen Freude vorgegeben wurde, als neutral (emotionslos) eingestuft wurden, 61,4 % als tatsächlich fröhlich, 10,1 % als zornig, 4,1 % als traurig und 12,5 % als ängstlich. Es ist ebenso ersichtlich, dass die am leichtesten zu erkennende Kategorie Zorn (72,2 %) und die am wenigsten zu erkennende Furcht (49,5 %) ist. Sehr viele Verwechslungen gibt es zwischen Trauer und Furcht, Trauer und Emotionslosigkeit und Freude und Furcht. Die durchschnittliche Genauigkeit beträgt 63,5 %, was mit den Ergebnissen weiterer experimenteller Untersuchungen übereinstimmt. Tabelle 1 Darstellungsverwechslungsmatrix
Tabelle 2 zeigt eine Statistik der Bewerter für jede emotionale Kategorie und eine zusammengefasste Leistung, die als Summe der Leistungen in jeder Kategorie berechnet wurde. Es ist ersichtlich, dass die Streuung bei Ärger und Trauer wesentlich geringer als bei den anderen emotionalen Kategorien ist. Tabelle 2 Bewerterstatistik
Die nachstehende Tabelle 3 zeigt eine Statistik für die „Schauspieler", d.h. wie gut die Probanden Emotionen darstellen. Genauer ausgedrückt zeigen die Zahlen in der Tabelle, welcher Teil der dargestellten Emotionen einer bestimmten Kategorie von anderen Probanden als dieser Kategorie zugehörig erkannt wurde. Es ist interessant, dass bei einem Vergleich der Tabellen 2 und 3 festzustellen ist, dass die Fähigkeit, Emotionen darzustellen (der Gesamtdurchschnitt beträgt 62,9 %) im Wesentlichen auf dem gleichen Niveau wie die Fähigkeit bleibt, Emotionen zu erkennen (der Gesamtdurchschnitt beträgt 63,2 %); doch die Unstimmigkeit ist bei der Darstellung erheblich größer. Tabelle 3 Schauspielerstatistik
Tabelle 4 zeigt eine Eigenbezugsstatistik, d.h. wie gut die Probanden in der Lage waren, ihre eigenen Darstellungen zu erkennen. Es ist ersichtlich, dass Menschen bei der Erkennung ihrer eigenen Emotionen wesentlich besser abschneiden (der Durchschnittswert beträgt 80,0 %), insbesondere bei Zorn (98,1 %), Trauer (80,0 %) und Furcht (78,8 %). Interessanter Weise wurde Furcht besser als Freude erkannt. Einige Probanden scheiterten am Erkennen ihrer eigenen Darstellung von Freude und eines neutralen Zustands. Tabelle 4 Eigenbezugsstatistik
Anhand des Korpus von 700 Äußerungen können fünf verschachtelte Datengruppen ausgewählt werden, die Äußerungen enthalten, die von mindestens p % der Probanden (p = 70, 80, 90, 95, 100 %) als die gegebene Emotion repräsentierend erkannt wurden. Bei der vorliegenden Besprechung werden diese Datengruppen als s70, s80, s90 und s100 bezeichnet. Die nachstehende Tabelle 5 zeigt die Anzahl der Elemente in jeder Datengruppe. Es ist ersichtlich, dass nur 7,9 % der Äußerungen im Korpus von sämtlichen Probanden erkannt wurden. Diese Anzahl nimmt linear auf 52,7 % bei der Datengruppe s70 zu, die einem Niveau von 70 % der Übereinstimmung bei der Decodierung von Emotionen in Sprache entspricht. Tabelle 5 Datengruppen mit dem Übereinstimmungsniveau p
Diese Ergebnisse bieten wertvolle Einsichten in die menschliche Leistung und können als Richtlinie für einen Vergleich mit der Leistung von Computern dienen.
Merkmalsextraktion
Es wurde festgestellt, dass die Tonhöhe der stimmliche Haupthinweis für eine Erkennung von Emotionen ist. Streng genommen wird die Tonhöhe durch die Grundfrequenz (F0), d.h. die Hauptfrequenz (die niedrigste Frequenz) der Schwingung der Stimmbänder, repräsentiert. Weitere akustische Variablen, die zur vokalen Emotionssignalisierung beitragen, sind:

• Stimmenergie,
• Frequenzspektralmerkmale,
• Formanten (normalerweise werden nur ein oder zwei erste Formanten (F1, F2) berücksichtigt),
• Zeitbezogene Merkmale (Sprechgeschwindigkeit und Pausen).

Ein weiterer Ansatz zur Merkmalsextraktion ist die Bereicherung des Satzes von Merkmalen durch die Berücksichtigung von abgeleiteten Merkmalen, wie LPC-Parametern (LPC, linear predictive coding, lineare Vorhersagecodierung) von Signalen oder Merkmalen der geglätteten Tonhöhenkontur und ihren Ableitungen.
Die folgende Strategie kann angewendet werden. Zunächst werden die Grundfrequenz F0 (d.h. die Hauptfrequenz (die niedrigste Frequenz) der Schwingung der Stimmbänder), die Energie, die Sprechgeschwindigkeit, die ersten drei Formanten (F1, F2 und F3) und ihre Bandbreiten (BW1, BW2 und BW3) berücksichtigt und so viele Statistiken wie möglich für sie berechnet. Dann werden die Statistiken unter Verwendung von Merkmalsauswahltechniken eingeordnet und eine Gruppe der „wichtigsten" Merkmale ausgewählt.
Die Sprechgeschwindigkeit kann als Umkehrung der durchschnittlichen Länge des stimmhaften Teils der Äußerung berechnet werden. Bei sämtlichen anderen Parametern können die folgenden Statistiken berechnet werden: Durchschnittswert, Standardabweichung, Minimum, Maximum und Wertebereich. Zusätzlich kann für F0 die Steigung als lineare Regression für den stimmhaften Teil der Sprache, d.h. die Linie berechnet werden, die zu der Tonhöhenkontur passt. Als relative Stimmenergie kann auch der Anteil der Stimmenergie an der gesamten Energie der Äußerung berechnet werden. Insgesamt hat jede Äußerung ca. 40 Merkmale.
Zur Merkmalsauswahl kann der Algorithmus RELIEF-F verwendet werden. RELIEF-F kann beispielsweise für die Datengruppe s70 ausgeführt werden, wobei die Anzahl der nächsten Nachbarn von 1 auf 12 variiert wird und die Merkmale entsprechend der Summe ihrer Einstufungen geordnet werden. Folgendes sind die 14 am höchsten eingestuften Merkmale: das Maximum von F0, die Standardabweichung von F0, der Wertebereich von F0, der Durchschnittswert von F0, der Durchschnittswert von BW1, der Durchschnittswert von BW2, die Standardabweichung der Energie, die Sprechgeschwindigkeit, die Steigung von F0, das Maximum von F1, die maximale Energie, der Wertebereich der Energie, der Wertebereich von F2 und der Wertebereich von F1.
Um zu untersuchen, wie die Sätze von Merkmalen die Genauigkeit der Emotionserkennungsalgorithmen beeinflussen, können auf der Grundlage der Summe ihrer Einstufungen drei verschachtelte Sätze von Merkmalen gebildet werden. Der erste Satz umfasst die ersten acht Merkmale (vom Maximum von F0 bis zur Sprechgeschwindigkeit), der zweite Satz erweitert den ersten um die beiden nächsten Merkmale (die Steigung von F0 und das Maximum von F1) und der dritte umfasst sämtliche 14 am höchsten eingestuften Merkmale. Weitere Einzelheiten zum Algorithmus RELIEF-F sind in der Veröffentlichung Proc. European Conf. On Machine Learning (1994) in dem Artikel von I. Kononenko mit dem Titel „Estimating Attributes: Analysis and Extension of RELIEF" auf den Seiten 171–182 ausgeführt, der durch Bezugnahme zu allen Zwecken hierin aufgenommen ist.
2 zeigt eine Ausführungsform der vorliegenden Erfindung, die Emotionen unter Verwendung einer Stimmanalyse erfasst. In einem Arbeitsschritt 200 wird beispielsweise über ein Mikrofon oder in Form einer digitalisierten Probe ein Stimmsignal empfangen. Eine vorgegebene Anzahl an Merkmalen des Stimmsignals wird in einem Arbeitsschritt 202 extrahiert, wie vorstehend ausgeführt, und ausgewählt. Diese Merkmale umfassen einen maximalen Wert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Wer tebereich der Grundfrequenz, einen Durchschnittswert der Grundfrequenz, einen Durchschnittswert der Bandbreite eines ersten Formanten, einen Durchschnittswert einer Bandbreite eines zweiten Formanten, eine Standardabweichung der Energie, eine Sprechgeschwindigkeit, eine Steigung der Grundfrequenz, einen maximalen Wert des ersten Formanten, einen maximalen Wert der Energie, einen Wertebereich der Energie, einen Wertebereich des zweiten Formanten und einen Wertebereich des ersten Formanten, sind jedoch nicht darauf beschränkt. Unter Verwendung der im Arbeitsschritt 202 ausgewählten Merkmale wird in einem Arbeitsschritt 204 auf der Grundlage des extrahierten Merkmals eine dem Stimmsignal zugeordnete Emotion bestimmt. Schließlich wird in einem Arbeitsschritt 206 die bestimmte Emotion ausgegeben. Eine genauere Besprechung der erfindungsgemäßen Bestimmung einer Emotion auf der Grundlage eines Stimmsignals erfolgt nachstehend, insbesondere unter Bezugnahme auf die 8 und 9.
Vorzugsweise wird das Merkmal des Stimmsignals aus der aus dem maximalen Wert der Grundfrequenz, der Standardabweichung der Grundfrequenz, dem Wertebereich der Grundfrequenz, dem Durchschnittswert der Grundfrequenz, dem Durchschnittswert der Bandbreite des ersten Formanten, dem Durchschnittswert der Bandbreite des zweiten Formanten, der Standardabweichung der Energie und der Sprechgeschwindigkeit bestehenden Gruppe von Merkmalen ausgewählt. Idealer Weise umfasst das extrahierte Merkmal zumindest entweder die Steigung der Grundfrequenz oder den maximalen Wert des ersten Formanten.
Wahlweise werden mehrere Merkmale einschließlich des maximalen Werts der Grundfrequenz, der Standardabweichung der Grundfrequenz, des Wertebereichs der Grundfrequenz, des Durch schnittswerts der Grundfrequenz, des Durchschnittswerts der Bandbreite des ersten Formanten, des Durchschnittswerts der Bandbreite des zweiten Formanten, der Standardabweichung der Energie und der Sprechgeschwindigkeit extrahiert. Vorzugsweise umfassen die extrahierten Merkmale die Steigung der Grundfrequenz und den maximalen Wert des ersten Formanten.
Als weitere Option werden weitere Merkmale extrahiert, die den maximalen Wert der Grundfrequenz, die Standardabweichung der Grundfrequenz, den Wertebereich der Grundfrequenz, den Durchschnittswert der Grundfrequenz, den Durchschnittswert der Bandbreite des ersten Formanten, den Durchschnittswert der Bandbreite des zweiten Formanten, die Standardabweichung der Energie, die Sprechgeschwindigkeit, die Steigung der Grundfrequenz, den maximalen Wert des ersten Formanten, den maximalen Wert der Energie, den Wertebereich der Energie, den Wertebereich des zweiten Formanten und den Wertebereich des ersten Formanten einschließen.
Computerleistung
Zum Erkennen von Emotionen in Sprache können zwei beispielhafte Ansätze gewählt werden: neuronale Netzwerke und ein Satz Klassifiziereinrichtungen. Bei dem ersten Ansatz kann eine zweischichtige, rückwärts übertragende neuronale Netzwerkarchitektur mit einem Eingangsvektor mit 8, 10 oder 14 Elementen, 10 oder 20 Knoten in der versteckten Sigmoidschicht und fünf Knoten in der linearen Ausgangsschicht verwendet werden. Die Anzahl der Ausgängen entspricht der Anzahl der Gefühlskategorien. Zum Programmieren und Überprüfen der Algorithmen können die Datengruppen s70, s80 und s90 verwendet werden. Diese Gruppen können zufällig in Programmieruntergruppen (67 % der Äußerungen) und Prüfunter gruppen (33 %) unterteilt werden. Es können mehrere Klassifiziereinrichtungen des neuronalen Netzwerks erstellt werden, die mit unterschiedlichen anfänglichen Gewichtungsmatrices programmiert sind. Als dieser Ansatz auf die Datengruppe s70 und den vorstehend beschriebenen Satz aus 8 Merkmalen angewendet wurde, ergab sich eine durchschnittliche Genauigkeit von ca. 55 % mit der folgenden Verteilung auf die Gefühlskategorien: neutraler Zustand: 40–50 %, Freude: 55–65 %, Zorn: 60–80 %, Trauer: 60–70 % und Furcht: 20–40 %.
Bei dem zweiten Ansatz werden Sätze von Klassifiziereinrichtungen verwendet. Ein Satz besteht aus einer ungeraden Zahl von Klassifiziereinrichtungen eines neuronalen Netzwerks, die mittels unterschiedlicher Untergruppen der Prüfgruppe unter Verwendung der Techniken der Urladeprogrammaggregation und der gegenbestätigten Kommissionen programmiert wurden. Der Satz fällt auf der Grundlage des Mehrheitswahlprinzips Entscheidungen. Vorgeschlagene Satzgrößen variieren von 7 bis 15.
3 zeigt die durchschnittliche Genauigkeit der Erkennung bei einer Datengruppe s70, allen drei Merkmalsgruppen und beiden neuronalen Netzwerkarchitekturen (mit 10 und mit 20 Neuronen in der verborgenen Schicht). Es ist ersichtlich, dass die Genauigkeit bei Freude bei den unterschiedlichen Merkmalssätzen und Architekturen gleich (~68 %) bleibt. Die Genauigkeit bei Furcht ist ziemlich gering (15–25 %). Die Genauigkeit bei Zorn ist bei dem Satz mit 8 Merkmalen verhältnismäßig gering (40–45 %) und verbessert sich bei dem Satz mit 14 Merkmalen dramatisch (65 %). Die Genauigkeit ist bei Trauer jedoch bei dem Satz mit 8 Merkmalen höher als bei den anderen Sätzen. Die durchschnittliche Genauigkeit beträgt ca. 55 %. Die geringe Genauigkeit bei Furcht bestätigt das theoretische Ergebnis, das besagt, dass die Fehlerrate des gewählten Satzes zunimmt, wenn die einzelnen Klassifiziereinrichtungen mit einer 0,5 überscheitenden Rate (im vorliegenden Fall sind es 0,6–0,8) Fehler machen, die nicht in Wechselbeziehung zueinander stehen.
4 zeigt die Ergebnisse für eine Datengruppe s80. Es ist. ersichtlich, dass die Genauigkeit beim neutralen Zustand gering ist (20–30 %). Die Genauigkeit bei Furcht steigt von 11 % bei dem Satz mit 8 Merkmalen und der Architektur mit 10 Neuronen auf 53 % bei dem Satz mit 10 Merkmalen und der Architektur mit 10 Neuronen dramatisch an. Die Genauigkeit ist bei Freude, Zorn und Trauer verhältnismäßig hoch (68–83 %). Die durchschnittliche Genauigkeit (~61 %) ist höher als bei der Datengruppe s70.
5 zeigt die Ergebnisse für einen Datensatz s90. Es ist ersichtlich, dass die Genauigkeit bei Furcht höher ist (25–60 %), sie folgt jedoch dem gleichen Muster, wie dem im Zusammenhang mit dem Datensatz s80 gezeigten. Die Genauigkeit bei Trauer und Zorn ist sehr hoch: 75–100 % bei Zorn und 88–93 % bei Trauer. Die durchschnittliche Genauigkeit (62 %) stimmt in etwa mit der durchschnittlichen Genauigkeit bei der Datengruppe s80 überein.
6 zeigt eine Ausführungsform der vorliegenden Erfindung, die Emotionen unter Verwendung von Statistiken erfasst. Zunächst wird in einem Arbeitsschritt 600 eine Datenbank bereitgestellt. Die Datenbank enthält Statistiken, die eine Statistik der menschlichen Assoziation von Stimmparametern mit Emotionen, wie die vorstehend in den Tabellen und in den 3 bis 5 gezeigten, einschließen. Ferner kann die Datenbank eine Reihe von Stimmhöhen enthalten, die mit Furcht assoziiert werden, und eine weitere Folge von Stimmhöhen, die mit Freude assoziiert werden, sowie einen Wertebereich für Fehler bei bestimmten Tonhöhen. Als nächstes wird in einem Ar beitsschritt 602 ein Stimmsignal empfangen. In einem Arbeitsschritt 604 werden ein oder mehrere Merkmale aus dem Stimmsignal extrahiert. Weitere Details zur Extraktion von Merkmalen aus einem Stimmsignal sind in dem vorstehenden Abschnitt über die Merkmalsextraktion zu finden. Anschließend wird in einem Arbeitsschritt 606 das extrahierte Stimmmerkmal mit den Stimmparametern in der Datenbank verglichen. In einem Arbeitsschritt 608 wird auf der Grundlage des Vergleichs des extrahierten Stimmmerkmals mit den Stimmparametern eine Emotion aus der Datenbank ausgewählt. Dies kann beispielsweise den Vergleich digitalisierter Sprachproben aus der Datenbank mit einer digitalisierten Probe des aus dem Stimmsignal extrahierten Merkmals zur Erstellung einer Liste wahrscheinlicher Emotionen und das anschließende Verwenden von Algorithmen zur Einbeziehung von Statistiken der Genauigkeit von Menschen bei der Erkennung der Emotion zur Vornahme einer endgültigen Bestimmung der wahrscheinlichsten Emotion umfassen. Die ausgewählte Emotion wird schließlich in einem Arbeitsschritt 610 ausgegeben. Computerisierte Mechanismen zum Ausführen einer Emotionserkennung in Sprache sind nachstehend in dem Abschnitt mit dem Titel beispielhafte Vorrichtungen zur Erfassung von Emotionen in Stimmsignalen zu finden.
Gemäß einem Aspekt der Ausführungsform enthält die Datenbank Wahrscheinlichkeiten, dass bestimmte Stimmmerkmale zu einer Emotion gehören. Vorzugsweise umfasst die Auswahl der Emotion aus der Datenbank eine Analyse der Wahrscheinlichkeiten und die Auswahl der wahrscheinlichsten Emotion auf der Grundlage dieser Wahrscheinlichkeiten. Wahlweise können die Wahrscheinlichkeiten in der Datenbank Darstellungsverwechslungsstatistiken, wie die vorstehend in der Darstellungsverwechslungsmatrix gezeigten, umfassen. Ebenso können die Statistiken in der Datenbank wahlweise Selbsterkennungsstatistiken, wie die vorstehend in den Tabellen gezeigten, enthalten.
Gemäß einem weiteren Aspekt der Ausführungsform umfasst das extrahierte Merkmal einen maximalen Wert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Wertebereich der Grundfrequenz, einen Durchschnittswert der Grundfrequenz, einen Durchschnittswert einer Bandbreite eines ersten Formanten, einen Durchschnittswert einer Bandbreite eines zweiten Formanten, eine Standardabweichung einer Energie, eine Sprechgeschwindigkeit, eine Steigung der Grundfrequenz, einen maximalen Wert des ersten Formanten, einen maximalen Wert der Energie, einen Wertebereich der Energie, einen Wertebereich des zweiten Formanten und/oder einen Wertebereich des ersten Formanten.
7 ist ein Ablaufdiagramm, das ein Verfahren zur Erfassung von Nervosität in einer Stimme in einer Geschäftsumgebung zum Beitragen zu einem Verhindern von Betrug darstellt. Zunächst werden in einem Arbeitsschritt 700 während eines geschäftlichen Ereignisses Stimmsignale von einer Person empfangen. Die Stimmsignale können beispielsweise durch ein Mikrofon in der Nähe der Person erzeugt oder durch Anzapfen eines Telefons erfasst werden, etc. Die Stimmsignale werden in einem Arbeitsschritt 702 während des geschäftlichen Ereignisses analysiert, um den Grad der Nervosität der Person zu bestimmen. Die Stimmsignale können analysiert werden, wie vorstehend ausgeführt. In einem Arbeitsschritt 704 wird eine Indikation des Grads der Nervosität ausgegeben, vorzugsweise bevor das geschäftliche Ereignis beendet ist, so dass jemand, der versucht, einen Betrug zu verhindern, einschätzen kann, ob die Person zur Rede gestellt werden sollte, bevor sie geht. Jede Art von Ausgabe ist akzeptabel, einschließlich eines Ausdrucks auf Papier bzw. einer Anzei ge auf einem Computerbildschirm. Es wird darauf hingewiesen, dass diese Ausführungsform der Erfindung auch andere Emotionen als Nervosität erfassen kann. Derartige Emotionen umfassen Stress und jede andere Emotion, die bei einer Person normal ist, die einen Betrug begeht.
Diese Ausführungsform der vorliegenden Erfindung findet besondere Anwendung in Geschäftsbereichen, wie Vertragsverhandlungen, Versicherungsgeschäften, Kundendienst, etc. Betrug auf diesen Gebieten kostet Firmen jährlich Millionen. Glücklicher Weise liefert die vorliegende Erfindung ein Werkzeug, das bei der Bekämpfung derartigen Betrugs hilft. Es wird auch darauf hingewiesen, dass die vorliegende Erfindung auch auf dem Gebiet des Gesetzesvollzugs sowie im Umfeld von Gerichtssälen, etc. Anwendung findet.
Vorzugsweise wird ein Grad an Sicherheit bezüglich des Grads der Nervosität der Person ausgegeben, um jemanden, der auf der Suche nach einem Betrug ist, bei der Feststellung zu unterstützen, ob sich die Person betrügerisch geäußert hat. Dies kann auf Statistiken basieren, wie vorstehend im Zusammenhang mit der Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf 6 ausgeführt. Wahlweise kann die Angabe des Grads der Nervosität der Person in Echtzeit ausgegeben werden, um jemandem, der einen Betrug zu verhindern versucht, den äußerst raschen Erhalt von Ergebnissen zu ermöglichen, so dass er bzw. sie die Person bald zur Rede stellen kann, nachdem sie eine verdächtige Äußerung von sich gegeben hat.
Als weitere Option kann die Angabe des Grads der Nervosität ein Warnsignal umfassen, das ausgelöst wird, wenn der Grad der Nervosität ein vorgegebenes Niveau überschreitet. Das Warnsignal kann eine visuelle Benachrichtigung auf einer Computeranzeige, ei nen hörbaren Ton, etc. zum Alarmieren eines Vorgesetzten, des Zuhörers und oder eines nach einem Betrug Suchenden umfassen. Das Warnsignal könnte auch an eine Aufzeichnungsvorrichtung angeschlossen sein, die bei einer Auslösung des Warnsignals mit dem Aufzeichnen der Konversation beginnen würde, wenn die Konversation nicht bereits aufgezeichnet wird.
Die Warnoptionen wären in einer Situation besonders nützlich, in der mehrere Personen abwechselnd sprechen. Ein Beispiel wäre eine Kundendienstabteilung oder das Telefon eines Kundendienstmitarbeiters. Wenn jeder Kunde an der Reihe ist, mit einem Kundendienstmitarbeiter zu sprechen, würde die vorliegende Erfindung den Grad der Nervosität in der Sprache des Kunden erkennen. Würde das Warnsignal ausgelöst, weil der Grad der Nervosität eines Kunden das vorgegebene Niveau überschritte, könnte der Kundendienstmitarbeiter durch eine optische Anzeige auf seinem bzw. ihrem Computerbildschirm, ein Blinklicht, etc. darauf aufmerksam gemacht werden. Der Kundendienstmitarbeiter, der sich nun des möglichen Betrugs bewusst wäre, könnte dann versuchen, den Betrug, sofern er vorliegt, aufzudecken. Das Warnsignal könnte auch verwendet werden, um auch einen leitenden Angestellten zu benachrichtigen. Ferner könnte bei einer Aktivierung des Warnsignals eine Aufzeichnung des Gesprächs beginnen.
Bei einer Ausführungsform der vorliegenden Erfindung wird mindestens ein Merkmal der Stimmsignale extrahiert und zur Bestimmung des Grads der Nervosität einer Person verwendet. Merkmale, die extrahiert werden können, umfassen einen maximalen Wert einer Grundfrequenz, eine Standardabweichung der Grundfrequenz, einen Wertebereich der Grundfrequenz, einen Durchschnittswert der Grundfrequenz, einen Durchschnittswert der Bandbreite eines ersten Formanten, einen Durchschnittswert der Bandbreite eines zweiten Formanten, eine Standardabweichung der Energie, eine Sprechgeschwindigkeit, eine Steigung der Grundfrequenz, einen maximalen Wert des ersten Formanten, eine Sprechgeschwindigkeit, eine Steigung der Grundfrequenz, einen maximalen Wert des ersten Formanten, einen maximalen Wert der Energie, einen Wertebereich der Energie, einen Wertebereich des zweiten Formanten und einen Wertebereich des ersten Formanten. So kann beispielsweise ein anhand der Erfassung der Grundfrequenz bestimmter Grad des Schwankens des Tonfalls der Stimme zur Unterstützung der Bestimmung eines Grads an Nervosität verwendet werden. Je höher das Ausmaß der Schwankungen, desto höher der Grad der Nervosität. Pausen in der Sprachäußerung der Person können ebenfalls berücksichtigt werden.
Der folgende Abschnitt beschreibt Vorrichtungen, die zur Bestimmung von Emotionen einschließlich Nervosität in Stimmsignalen verwendet werden können.
BEISPIELHAFTE VORRICHTUNGEN ZUR ERFASSUNG VON EMOTIONEN IN STIMMSIGNALEN
In diesem Abschnitt sind mehrere erfindungsgemäße Vorrichtung zur Analyse von Sprache beschrieben.
Eine Ausführungsform der vorliegenden Erfindung umfasst eine Vorrichtung zur Analyse der Sprache einer Person zur Bestimmung ihres Gefühlszustands. Die Analyseeinrichtung arbeitet an Echtzeit-Frequenz- bzw. Tonhöhenkomponenten im ersten Formantenband menschlicher Sprache. Bei der Analyse von Sprache analysiert die Vorrichtung bestimmte Wertauftrittsmuster in Begriffen einer differentiellen Tonhöhe des ersten Formanten, einer Änderungsrate der Tonhöhe und von Dauer- und Zeitverteilungsmustern. Diese Fakto ren stehen in einer komplexen, aber sehr fundamentalen Art und Weise in Wechselbeziehung sowohl mit vorübergehenden als auch mit langfristigen Gemütszuständen.
Die menschliche Sprache wird von zwei grundlegenden Tonerzeugungsmechanismen initiiert. Die Stimmbänder, von Muskeln kontrollierte, dünne, gespannte Membranen, schwingen, wenn aus den Lungen ausgeatmete Luft durch sie hindurchströmt. Sie erzeugen ein charakteristisches „summendes" Geräusch mit einer Grundfrequenz zwischen 80 und 240 Hz. Diese Frequenz schwankt aufgrund sowohl einer bewussten als auch unbewussten Kontraktionen und Entspannung der Muskeln innerhalb eines moderaten Bereichs. Die Schwingungsform des „Grundsummens" enthält viele Harmonien, von denen einige eine Resonanz in zahlreichen festen und veränderlichen Hohlräumen des Stimmapparats auslösen. Der zweite beim Sprechen erzeugte Grundton ist ein pseudozufälliges Geräusch mit einer ziemlich breiten und gleichmäßigen Frequenzverteilung. Er wird durch Turbulenzen beim Strömen von ausgeatmeter Luft durch den Stimmapparat verursacht und wird als „Zischlaut" bezeichnet. Er wird hauptsächlich durch Bewegungen der Zunge moduliert und erregt ebenfalls die festen und veränderlichen Hohlräume. Diese komplexe Mischung aus von den Resonanzräumen geformten und artikulierten „Summ-„ und „Zischlauten" erzeugt Sprache.
Bei einer Energieverteilungsanalyse von Sprechlauten wird festgestellt, dass die Energie in charakteristische Frequenzbänder fällt, die als Formanten bezeichnet werden. Es gibt drei signifikante Formanten. Das hier beschriebene System nutzt das erste Formantenband, das sich von der Grundfrequenz des „Summens" bis ca. 1.000 Hz erstreckt. Dieses Band hat nicht nur den höchsten Energiegehalt, sondern reflektiert auch einen hohen Grad an Frequenzmodulation als Funktion von unterschiedlichsten Veränderungen der Anspannung des Stimmapparats und der Gesichtsmuskulatur.
Tatsächlich wird bei einer Analyse bestimmter Verteilungsmuster der Frequenz des ersten Formanten eine qualitative Messung von sprachbezogenen Veränderungen und Interaktionen der Muskelanspannung ausgeführt. Da diese Muskeln vorwiegend durch sekundäre, unbewusste Prozesse beeinflusst werden und artikulieren, die wiederum vom Gefühlszustand beeinflusst werden, kann unabhängig davon, ob sich eine Person dieses Zustands bewusst ist oder nicht, ein relativer Messwert emotionaler Aktivität bestimmt werden. Die Forschung legt auch die allgemeine Annahme nahe, dass nur sehr wenige Menschen in der Lage sind, bewusst einen fiktiven Gemütszustand zu „projizieren", da die Mechanismen der Sprache äußerst komplex und größtenteils autonom sind. Tatsächlich erzeugt ein Versuch, dies zu tun, normalerweise einen eigenen, unverwechselbaren, stressbedingten „Fingerabdruck" im Stimmmuster.
Aufgrund der Charakteristika der dem ersten Formanten entsprechenden Sprechlaute analysiert die vorliegende Erfindung ein frequenzdemoduliertes, einem ersten Formanten entsprechendes Sprachsignal und erzeugt einen Ausgang, der Nullen darin anzeigt.
Die Frequenz bzw. die Anzahl der Nullen bzw. „flachen" Punkte in dem frequenzdemodulierten Signal, die Länge der Nullen und das Verhältnis zwischen der gesamten Zeit, in der während der Dauer eines Worts Nullen vorliegen, und der Gesamtdauer eines Worts weisen zusammengenommen auf den Gefühlszustand eines Individuums hin. Durch die Betrachtung des Ausgangs der Vorrichtung kann der Benutzer das Auftreten der Nullen sehen bzw, spüren und so durch die Überwachung des Ausgangs die Anzahl bzw. die Häufigkeit der Nullen, die Länge der Nullen und das Verhältnis zwischen der gesam ten Zeitspanne, in der während der Dauer eines Worts Nullen vorliegen, und der Dauer einer Wortperiode den Gefühlszustand des Individuums bestimmen.
Bei einer Ausführungsform wird das Frequenzband des ersten Formanten eines Sprachsignals frequenzdemoduliert, und das frequenzdemodulierte Signal wird an eine Wortdetektorschaltung angelegt, die das Vorhandensein eines frequenzdemodulierten Signals erfasst. Das frequenzdemodulierte Signal wird auch an eine Nulldetektoreinrichtung angelegt, die die Nullen in dem frequenzdemodulierten Signal erfasst und einen sie anzeigenden Ausgang erzeugt. Mit dem Wortdetektor und dem Nulldetektor ist eine Ausgangsschaltung gekoppelt. Die Ausgangsschaltung wird von dem Wortdetektor aktiviert, wenn der Wortdetektor das Vorhandensein eines frequenzdemodulierten Signals erfasst, und die Ausgangsschaltung erzeugt einen Ausgang, der das Vorhandensein bzw. Fehlen einer Null in dem frequenzdemodulierten Signal anzeigt. Der Ausgang der Ausgangsschaltung wird auf eine Art und Weise angezeigt, in der er von einem Benutzer so wahrgenommen werden kann, dass dem Benutzer eine Anzeige des Vorhandenseins von Nullen in dem frequenzdemodulierten Signal geliefert wird. Der Benutzer der Vorrichtung überwacht so die Nullen und kann dadurch den Gemütszustand des Individuums feststellen, dessen Sprache analysiert wird.
Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung wird das Vibrato in der Stimme analysiert. Als das sogenannte Vibrato einer Stimme wurde eine halbwillentliche Reaktion definiert, die gemeinsam mit bestimmten anderen Reaktionen, wie dem Atemvolumen, dem Verhältnis zwischen dem Ein- und Ausatmen, dem Stoffwechselumsatz, der Regelmäßigkeit und Geschwindigkeit des Atems, der Assoziation von Worten mit Ideen, Gesichtsausdrücken, motorischen Reaktionen und Reaktionen auf bestimmte bewusstseinsverändernde Substanzen, bei der Untersuchung eines Betrugs von Wert sein könnte. Es wurde jedoch bisher keine nutzbare Technik entwickelt, die eine gültige und zuverlässige Analyse von Stimmveränderungen zur klinischen Bestimmung des Gemütszustands, der Ansichten oder der Täuschungsversuche einer Zielperson ermöglicht.
Frühe Experimente, die Versuche einschlossen, eine Wechselbeziehung zwischen Veränderungen der Stimmqualität und emotionalen Stimuli herzustellen, haben ergeben, dass die menschliche Sprache von starken Gefühlen beeinflusst wird. Erfassbare Veränderungen der Stimme treten nach einer Stressstimulation sehr viel rascher auf als die klassischen Indikatoren physiologischer Manifestationen, die aus den Funktionen des autonomen Nervensystems resultieren.
Zwei Typen von Stimmveränderung sind das Ergebnis von Stress. Der erste, der normalerweise nur als Resultat einer besonders belastenden Situation auftritt, wird als grobe Veränderung bezeichnet. Diese Veränderung manifestiert sich durch hörbare, wahrnehmbare Veränderungen der Sprechgeschwindigkeit, der Lautstärke, des Zitterns in der Stimme, eine Veränderung des Abstands zwischen Silben und einer Veränderung der Grundtonhöhe bzw. der Grundfrequenz der Stimme. Diese erhebliche Veränderung unterliegt zumindest bei einigen Probanden der bewussten Kontrolle, wenn der Grad der Belastung unterhalb eines völligen Verlusts der Kontrolle liegt.
Der zweite Typ von Stimmveränderung betrifft die Stimmqualität. Diese Art von Veränderung ist für das menschliche Ohr nicht wahrnehmbar, ist jedoch offensichtlich eine unbewusste Manifestation der leichten Anspannung der Stimmbänder selbst bei geringem Stress, die zu einer Dämpfung der ausgewählten Frequenzschwan kungen führt. Grafisch dargestellt ist der Unterschied zwischen einer stressfreien bzw. normalen stimmlichen Äußerung und einer stimmlichen Äußerung unter geringem Stress, bei Betrugsversuchen bzw. bei einer negativen Einstellung leicht feststellbar. Diese Muster haben sich bei einer breiten Vielfalt an menschlichen Stimmen beider Geschlechter, unterschiedlichen Alters und unter den unterschiedlichsten, situationsabhängigen Bedingungen als zutreffend erwiesen. Dieser zweite Typ von Veränderung unterliegt nicht der bewussten Kontrolle.
Es gibt zwei Typen von Klang, die durch den menschlichen Stimmapparat erzeugt werden. Der erste Typ von Klang ist ein Produkt der Schwingungen der Stimmbänder, die wiederum ein Produkt eines teilweisen Schließens der Glottis und eines Pressens von Luft durch die Glottis mittels einer Kontraktion des Lungenraums und der Lungen sind. Die Frequenzen dieser Schwingungen können im Allgemeinen abhängig vom Geschlecht und Alter des Sprechenden und von dem vom Sprechenden gewählten Tonfall zwischen 100 und 300 Hertz variieren. Dieser Klang hat eine kurze Verklingzeit.
Der zweite Typ von Klang betrifft die Formantenfrequenzen. Sie bilden einen Klang, der aus der Resonanz der Hohlräume im Kopf einschließlich des Rachens, des Munds, der Nase und der Sinushohlräume resultiert. Dieser Klang wird im Falle des durch die Stimmbänder erzeugten stimmlichen Klangs durch die Erregung der Resonanzräume durch eine Klangquelle mit niedrigeren Frequenzen oder durch die teilweise Begrenzung des Strömens der Luft aus den Lungen erzeugt, wie bei stimmlosen Reibelauten. Unabhängig von der Quelle der Erregung wird die Frequenz des Formanen durch die Resonanzfrequenz des beteiligten Hohlraums bestimmt. Die Formantenfrequenzen erscheinen im Allgemeinen bei ca. 800 Herz und in cha rakteristischen Frequenzbändern, die der Resonanzfrequenz der einzelnen Hohlräume entsprechen. Der erste bzw. tiefste Formant wird von den Mund- und Rachenhohlräumen erzeugt und ist durch seine Frequenzverschiebung bei einer Veränderung der Abmessungen und des Volumens des Munds bei der Erzeugung von unterschiedlichen Klängen, insbesondere von Vokalklängen, von Bedeutung. Die höchsten Formantenfrequenzen sind aufgrund des konstanteren Volumens der Hohlräume konstanter. Die Formantenschwingungsformen sind im Gegensatz zu den rasch verklingenden Signalen der Stimmbänder nachhallende Signale. Werden stimmhafte Klänge hervorgebracht, werden die Stimmschwingungsformen als Amplitudenmodulationen über die Formantenfrequenzen gelegt.
Es wurde entdeckt, dass es in der menschlichen Stimme eine dritte Signalkategorie gibt und dass diese dritte Signalkategorie mit dem vorstehend besprochenen zweiten Typ von Stimmveränderung in Zusammenhang steht. Hierbei kann es sich um eine Infraschall- bzw. subsonische Frequenzmodulation handeln, die in gewissem Grad sowohl im Klang der Stimmbänder als auch in den Formantenklängen vorhanden ist. Dieses Signal liegt typischerweise bei 8 bis 12 Hertz. Dementsprechend ist es für das menschliche Ohr nicht hörbar. Aufgrund der Tatsache, dass dieses Charakteristikum im Unterschied zu einer Amplitudenmodulation eine Frequenzmodulation darstellt, ist es in Zeitachsen-Amplitudenkurven-Aufzeichnungen nicht direkt feststellbar. Aufgrund der Tatsache, dass dieses Infraschallsignal einer der signifikanteren Stimmindikatoren für psychologischen Stress ist, wird es genauer behandelt.
Es existieren verschiedene Analogien, die zur Erstellung schematischer Darstellungen des gesamten Stimmprozesses verwendet werden. Sowohl mechanische als auch elektronische Analogien wer den beispielsweise bei der Konstruktion von Computerstimmen erfolgreich eingesetzt. Diese Analogien behandeln die Quelle des Stimmklangs (die Stimmbänder) und die Wände der Hohlräume als harte und konstante Merkmale. Sowohl die Stimmbänder als auch die Wände der formantenerzeugenden Haupträume bestehen in Wahrheit jedoch aus flexiblem Gewebe, das unmittelbar auf die komplexe Muskelgruppe reagiert, die das Gewebe kontrolliert. Die Muskeln, die die Stimmbänder durch die mechanische Verbindung von Knochen und Knorpel kontrollieren, ermöglichen sowohl die beabsichtigte als auch die automatische Erzeugung von Stimmklang und die Veränderung der Stimmhöhe durch ein Individuum. Ähnlich ermöglichen die Muskeln, die die Zunge, die Lippen und den Rachen kontrollieren, sowohl die beabsichtigte als auch die automatische Steuerung der ersten Formantenfrequenzen. Weitere Formanten können in eingeschränkterem Ausmaß ähnlich beeinflusst werden.
Es lohnt sich, darauf hinzuweisen, dass diese Muskeln beim normalen Sprechen mit einem geringen Prozentsatz ihrer vollständigen Arbeitskapazität arbeiten. Aus diesem Grund bleiben die Muskeln verhältnismäßig entspannt, obwohl sie zum Verändern der Position der Stimmbänder und der Positionen der Lippen, der Zunge und des inneren Rachenraums verwendet werden. Es wurde festgestellt, dass während dieses verhältnismäßig entspannten Zustands eine natürliche Muskelschwingung auftritt, typischer Weise mit der vorstehend erwähnten Frequenz von 8–12 Hertz. Diese Schwingung verursacht eine geringfügige Schwankung der Spannung der Stimmbänder und Verschiebungen der Grundtonhöhenfrequenz der Stimme. Ebenso werden durch die Schwingung das Volumen des Resonanzraums (insbesondere des dem ersten Formanten zugeordneten) und die Elastizität der Wände der Hohlräume verändert, wodurch Verschiebungen der Formantenfrequenzen verursacht werden. Diese Ver schiebungen um eine zentrale Frequenz stellen eine Frequenzmodulation der zentralen oder Trägerfrequenz dar.
Es ist wesentlich, darauf hinzuweisen, dass weder die Verschiebungen der Grundtonhöhenfrequenz der Stimme noch der Formantenfrequenzen von einem Zuhörer direkt wahrgenommen werden können, teilweise weil die Verschiebungen sehr gering sind und teilweise weil sie vorwiegend in dem vorstehend erwähnten, nicht hörbaren Frequenzbereich vorliegen.
Um diese Frequenzmodulation zu beobachten, kann eine beliebige von mehreren existierenden Techniken zur Demodulation der Frequenzmodulation verwendet werden, selbstverständlich ohne zu vergessen, dass die Modulationsfrequenz die Nennfrequenz von 8–12 Hertz ist und die Trägerfrequenz eines der Bänder innerhalb des Stimmspektrums ist.
Um die vorstehende Besprechung genauer zu verstehen, muss das Konzept eines „Schwerpunkts" dieser Schwingungsform klar sein. Es ist möglich, den Mittelpunkt zwischen den beiden Extremen eines beliebigen einzelnen Ausschlags des Aufzeichnungsstifts näherungsweise zu bestimmen. Wenn die Mittelpunkte zwischen den Extremen sämtlicher Ausschläge markiert werden und diese Mittelpunkte dann durch eine durchgehende Kurve näherungsweise verbunden werden, ist ersichtlich, dass eine Line herauskommt, die eine Annäherung an einen Durchschnittswert bzw. einen „Schwerpunkt" der gesamten Schwingungsform ist. Das Verbinden sämtlicher derartiger Markierungen mit einer gewissen Glättung ergibt eine gleichmäßige gekrümmte Linie. Die Linie repräsentiert die Infraschallfrequenzmodulation, die aus den vorstehend beschriebenen Schwingungen resultiert.
Wie vorstehend ausgeführt, wurde festgestellt, dass die für die Stimmbänder und die Wände der Hohlräume zuständigen Muskelgruppen einer geringen Muskelanspannung unterliegen, wenn bei der Untersuchung eines Individuums ein geringfügiger bis moderater psychologischer Stress hervorgerufen wird. Diese Anspannung, die für den Probanden und ähnlich für den Untersuchenden vermittels normaler, nicht unterstützter Überprüfungstechniken nicht wahrnehmbar ist, reicht aus, um die bei einem nicht unter Stress stehenden Probanden vorhandenen Muskelschwingungen zu verringern bzw. praktisch zu eliminieren, wodurch die Grundlage für die Schwankungen der Trägerfrequenz wegfällt, die die Infraschallfrequenzmodulationen erzeugen.
Obwohl die Verwendung der Infraschallschwingungsform für die Technik der Verwendung der Stimme als physiologisches Medium zur psychologischen Stressbewertung einmalig ist, liefert die Stimme zusätzliche instrumentalisierte Indikatoren in Form mit dem Gehör nicht wahrnehmbarer physiologischer Veränderungen aufgrund psychologischer Belastungen, wobei die physiologischen Veränderungen ähnlich mittels der Techniken und Vorrichtungen erfassbar sind, die gegenwärtig verwendet werden. Unter den vier vorstehend erwähnten, meistverwendeten physiologischen Veränderungen (Hirnwellenmuster, Herztätigkeit; Leitfähigkeit der Haut und Atemtätigkeit) beeinflussen zwei, nämlich die Atemtätigkeit und die Herztätigkeit, direkt und indirekt die Amplitude und die Details der Schwingungsform einer mündlichen Äußerung und liefern die Grundlage für eine umfassendere Bewertung von psychologischem Stress, insbesondere wenn die Überprüfung aufeinanderfolgende mündliche Antworten einschließt.
Eine weitere Vorrichtung ist in 8 gezeigt. Wie dargestellt, wandelt ein Messwandler 800 die Schallwellen der mündlichen Äußerungen der Zielperson in elektrische Signale um, die an den Eingang eines Tonverstärkers 802 angelegt werden, der einfach der Erhöhung der Leistung elektrischer Signale auf einen stabileren, brauchbaren Pegel dient. Der Ausgang des Verstärkers 802 ist an ein Filter 804 angeschlossen, das primär dem Eliminieren einiger unerwünschter niedriger Frequenzkomponenten und Rauschkomponenten dient.
Nach dem Filtern wird das Signal an einen FM-Diskriminator 806 angelegt, von dem die Frequenzabweichungen von der Mittenfrequenz in Signale mit variierender Amplitude umgewandelt werden. Die Signale mit variierender Amplitude werden dann in einer Detektorschaltung 808 zum Gleichrichten des Signals und zum Erzeugen eines Signals erfasst, das aus einer Folge von Halbwellenimpulsen besteht. Nach der Erfassung wird das Signal an eine Integratorschaltung 810 angelegt, von der das Signal in dem gewünschten Ausmaß integriert wird. In der Schaltung 810 wird das Signal entweder in einem sehr geringen Ausmaß integriert, wodurch eine Schwingungsform erzeugt wird, oder es wird in einem größeren Ausmaß integriert, wodurch ein Signal erzeugt wird. Nach der Integration wird das Signal von einem Verstärker 812 verstärkt und an einen Prozessor 814 angelegt, der die dem Stimmsignal zugeordnete Emotion bestimmt. Zur Ausgabe der erfassten Emotion wird eine Ausgabevorrichtung 816, wie ein Computerbildschirm oder ein Drucker, verwendet. Wahlweise können auch statistische Daten ausgegeben werden.
Eine etwas einfachere Ausführungsform einer erfindungsgemäßen Vorrichtung zur Erzeugung sichtbarer Protokolle ist in 9 gezeigt, gemäß der die akustischen Signale von einem Mikrofon 900 in elektrische Signale umgewandelt werden, die von einer Bandauf zeichnungsvorrichtung 902 magnetisch aufgezeichnet werden. Die Signale können dann mit unterschiedlichen Geschwindigkeiten und zu beliebigen Zeiten durch die restliche Anlage verarbeitet werden, wobei die Wiedergabe an eine herkömmliche Halbleiterdiode 904 angelegt wird, die die Signale gleichrichtet. Die gleichgerichteten Signale werden an den Eingang eines herkömmlichen Verstärkers 906 sowie den beweglichen Kontakt eines allgemein durch 908 bezeichneten Wählschalters angelegt. Der bewegliche Kontakt des Schalters 908 kann zu jedem von mehreren festen Kontakten bewegt werden, von denen jeder mit einem Kondensator verbunden ist. In 9 ist eine Auswahl von vier Kondensatoren 910, 912, 914 und 916 gezeigt, die jeweils einen mit einem festen Kontakt des Schalters verbundenen Anschluss und einen anderen, mit der Erde verbundenen Anschluss aufweisen. Der Ausgang des Verstärkers 906 ist mit einem Prozessor 918 verbunden.
Ein Bandaufnahmegerät, das bei dieser besonderen Baugruppe aus Vorrichtungen verwendet werden kann, war eine Uher Modell 4000 Bandeinheit mit vier Geschwindigkeiten und einem eigenen Internen Verstärker. Die Werte der Kondensatoren 910–916 betrugen jeweils 0, 5, 3, 10 und 50 Mikrofarad, und die Eingangsimpedanz des Verstärkers 906 betrug ca. 10.000 Ohm. Wie ersichtlich könnten verschiedene andere Komponenten für diese Vorrichtung verwendet werden oder hätten für sie verwendet werden können.
Beim Betrieb der Schaltung gemäß 9 wird die die Diode 904 passierende, gleichgerichtete Schwingungsform in dem gewünschten Ausmaß integriert, wobei die Zeitkonstante so gewählt ist, dass die Wirkung der frequenzmodulierten Infraschallwelle als langsam variierender Gleichstrompegel erscheint, der in etwa der Linie folgt, die den „Schwerpunkt" der Schwingungsform repräsentiert. Die in dem besonderen Diagramm gezeigten Ausschläge sind relativ schnell, was anzeigt, dass der Schalter mit einem der Kondensatoren mit niedrigerem Wert verbunden war. Bei dieser Ausführungsform wird von dem Kondensator 910, 912, 914 oder 916 und, bei einer Verringerung der Wiedergabegeschwindigkeit, dem Bandaufnahmegerät eine Wellenparameterfilterung durchgeführt.
TELEFONBETRIEB MIT RÜCKMELDUNG FÜR DEN TELEFONISTEN
10 zeigt eine Ausführungsform der vorliegenden Erfindung, die Emotionen in Stimmsignalen überwacht und einem Telefonisten auf der Grundlage der erfassten Emotionen eine Rückmeldung liefert. Zunächst wird in einem Arbeitsschritt 1000 ein Stimmsignal empfangen, das einen Teil einer Konversation zwischen mindestens zwei Zielobjekten repräsentiert. In einem Arbeitsschritt 1002 wird eine dem Stimmsignal zugeordnete Emotion bestimmt. Schließlich wird in einem Arbeitsschritt 1004 eine die bestimmte Emotion betreffende Rückmeldung an eine dritte Partei geleitet.
Die Konversation kann über ein Telekommunikationsnetz sowie über ein Weitbereichsnetzwerk, wie das Internet, stattfinden, wenn Internet-Telefonie verwendet wird. Als eine Option werden die Emotionen sortiert, und eine Rückmeldung erfolgt nur, wenn die bestimmte Emotion eine negative Emotion ist, die aus der aus Zorn, Trauer und Furcht bestehenden Gruppe negativer Emotionen ausgewählt wurde. Ebenso könnte mit den Gruppen der positiven bzw. neutralen Emotionen verfahren werden. Die Emotion kann durch Extrahieren eines Merkmals aus dem Stimmsignal bestimmt werden, wie vorstehend im Einzelnen ausgeführt.
Die vorliegende Erfindung ist besonders für einen Betrieb in Verbindung mit einem Notrufsystem, wie dem 911-System, geeignet.
Bei einem derartigen System könnten ankommende Anrufe durch die vorliegende Erfindung überwacht werden. Eine Emotion des Anrufers würde während des Gesprächs des Anrufers mit dem den Anruf annehmenden Techniker bestimmt. Die Emotion könnte dann beispielsweise über Funkwellen an das Notfallannahmeteam, beispielsweise die Polizei, die Feuerwehr und/oder die Krankenwagenbesatzung gesendet werden, damit diesen der Gemütszustand des Anrufers bekannt ist.
Bei einem weiteren Szenario ist eines der Zielobjekte ein Kunde und ein weiteres der Zielobjekte ein Angestellter, wie ein Angestellter eines Call-Center oder einer Kundendienstabteilung, und die dritte Partei ist ein leitender Angestellter. Das Gespräch zwischen dem Kunden und dem Angestellten würde von der vorliegenden Erfindung überwacht, um beispielsweise zu bestimmen, ob der Kunde und/oder der Angestellte frustriert reagieren. Werden negative Emotionen erfasst, wird eine Rückmeldung an den leitenden Angestellten gesendet, der die Situation beurteilen und nötigenfalls eingreifen kann.
VERBESSERUNG DER ERKENNUNG VON EMOTIONEN
11 zeigt eine Ausführungsform der vorliegenden Erfindung, die die Erfassung von Emotionen anhand von Stimmsignalen durch einen Benutzer und durch einen Computer vergleicht, um die Erkennung von Emotionen entweder durch die Erfindung oder einen Benutzer oder durch beide zu verbessern. Zunächst wird in einem Arbeitsschritt 1100 ein Stimmsignal und eine dem Stimmsignal zugeordnete Emotion bereitgestellt. Die dem Stimmsignal zugeordnete Emotion wird in einem Arbeitsschritt 1102 auf eine vorstehend ausgeführte Art und Weise automatisch bestimmt. Die automatisch bestimmte Emotion wird in einem Arbeitsschritt 1104 beispielsweise auf einem computerlesbaren Medium gespeichert. In einem Arbeitsschritt 1106 wird eine vom Benutzer bestimmte, benutzerbestimmte, dem Stimmsignal zugeordnete Emotion empfangen. Die automatisch bestimmte Emotion wird in einem Arbeitsschritt 1108 mit der benutzerbestimmten Emotion verglichen.
Das Stimmsignal kann von der vorliegenden Erfindung ausgegeben oder empfangen werden. Wahlweise wird die dem Stimmsignal zugeordnete Emotion bei der Bereitstellung der Emotion identifiziert. In diesem Fall sollte bestimmt werden, ob die automatisch bestimmte Emotion bzw. die benutzerbestimmte Emotion mit der identifizierten Emotion übereinstimmt. Der Benutzer kann einen Preis verliehen bekommen, wenn die benutzerbestimmte Emotion mit der identifizierten Emotion übereinstimmt. Ferner kann die Emotion automatisch bestimmt werden, indem beispielsweise auf die vorstehend besprochene Art und Weise mindestens ein Merkmal aus den Stimmsignalen extrahiert wird.
Um einen Benutzer bei der Erkennung von Emotionen zu unterstützen, kann gemäß einer Ausführungsform der vorliegenden Erfindung ein Emotionserkennungsspiel gespielt werden. Das Spiel sollte einem Benutzer den Wettstreit mit dem Computer oder einer weiteren Person ermöglichen, um festzustellen, wer Emotionen in aufgezeichneter Sprache am besten erkennen kann. Eine praktische Anwendung des Spiels ist die Unterstützung autistischer Menschen bei der Entwicklung verbesserter emotionaler Fähigkeiten bei der Erkennung von Emotionen in Sprache.
Gemäß einer Ausführungsform der vorliegenden Erfindung kann eine Vorrichtung zur Erzeugung Stimmsignale betreffender Daten verwendet werden, die zur Verbesserung der Erkennung von Emotionen verwendet werden können. Bei einer derartigen Ausfüh rungsform nimmt die Vorrichtung den Stimmklang über einen Wandler, wie ein Mikrofon oder eine Tonaufzeichnungsvorrichtung, auf. Die physische Schallwelle wird nach der Umwandlung in elektrische Signale parallel an eine typische, im Handel erhältliche Bank elektronischer Filter angelegt, die den hörbaren Frequenzbereich abdecken. Durch Einstellen der Mittenfrequenz des tiefsten Filters auf einen beliebigen Wert, der die Repräsentation der Amplitude des Stimmsignals einschließlich des die tiefste Stimmfrequenz repräsentierenden Signals durch elektrische Energie durchlässt, werden die Mittenwerte sämtlicher nachfolgender Filter bis zum letzten, das die Energie mit im Allgemeinen 8 bis 16 kHz oder 10 bis 20 kHz durchlässt, sowie die genaue Anzahl derartiger Filter festgelegt. Der spezifische Wert der Mittenfrequenz des ersten Filters ist nicht signifikant, solange die tiefsten Töne der menschlichen Stimme von ca. 70 Hz aufgenommen werden. Im Wesentlichen ist jede im Handel erhältliche Bank anwendbar, wenn sie an ein beliebiges Digitalisiergerät und anschließend einen Mikrocomputer angeschlossen werden kann. Im Spezifikationsabschnitt sind ein spezifischer Satz von Mittenfrequenzen und ein Mikroprozessor gemäß einer bevorzugten Ausführungsform beschrieben. Die Filterqualität ist ebenfalls nicht besonders signifikant, da ein in der Beschreibung offenbarter Verfeinerungsalgorithmus jeden Filtersatz von durchschnittlicher Qualität auf akzeptable Frequenz- und Amplitudenwerte bringt. Das Verhältnis 1:3 definiert selbstverständlich die Bandbreite sämtlicher Filter, nachdem die Mittenfrequenzen einmal berechnet sind.
Nach diesem Segmentierungsprozess mittels Filtern werden die Ausgangsspannungen der Filter durch einen im Handel erhältlichen Satz von Digitalisiergeräten oder vorzugsweise einem Multiplexer und einem Digitalisiergerät bzw. bei der offenbarten, bevorzugten Ausführungsform ein in die gleiche, identifizierte, im Handel erhältliche Fil terbank eingebautes Digitalisiergerät digitalisiert, um Schnittstellenlogik und Hardware zu eliminieren. Auch hier ist die Qualität des Digitalisiergeräts hinsichtlich der Geschwindigkeit der Umwandlung bzw. Unterscheidung nicht signifikant, da gegenwärtig im Handel erhältliche, durchschnittliche Einheiten die hier benötigten Anforderungen aufgrund eines Korrekturalgorithmus (siehe Spezifikationen) und der erforderlichen niedrigen Abtastrate übersteigen.
Jeder komplexe Klang, der sich ständig verändernde Informationen übermittelt, kann durch eine Verringerung der Bits mit Informationen mittels der Erfassung der Frequenz und Amplitude von Spitzen des Signals angenähert werden. Dies ist, wie das Ausführen einer derartigen Operation an Sprachsignalen, selbstverständlich keine neue Erkenntnis. In der Sprachforschung werden jedoch einige spezifische Bereiche, in denen derartige Spitzen häufig auftreten, als „Formantenbereiche" bezeichnet. Diese Bereichsannäherungen stimmen jedoch nicht immer und unter allen Umständen mit den Spitzen jedes Sprechers überein. Sprachforscher und frühere erfinderische Techniken tendieren dazu, große Anstrengungen zu unternehmen, um „legitime" Spitzen wie diejenigen zu messen und zu benennen, die in die typischen Formantenfrequenzbereiche fallen, als ob ihre Definition keine Schätzungen beinhalten würde, sondern absolut wäre. Dies hat dazu geführt, dass zahlreiche Forschungs- und Formantenmessvorrichtungen künstlich relevante Spitzen ausschließen, die zur adäquaten Darstellung einer komplexen, hoch variablen Schallwelle in Echtzeit benötigt werden. Da die vorliegende Offenbarung so konstruiert ist, dass sie für tierische Stimmklänge ebenso wie für sämtliche menschlichen Sprachen geeignet ist, sind künstliche Einschränkungen, wie Formanten, nicht von Interesse, und die Schallwelle wird als komplexe, variierende Schallwelle behandelt, anhand derer jeder derartige Klang analysiert werden kann.
Zur Normalisierung und Vereinfachung der Identifikation von Spitzen unabhängig von Filterbandbreiten, Qualität und Digitalisiergeräteunterscheidung sind die für Amplitude und Frequenz gespeicherten tatsächlichen Werte „repräsentative Werte". Es verhält sich so, dass die Breite der oberen Frequenzfilter numerisch der Bandbreite der Filter für dien niedrigeren Frequenzen ähnlich ist. Jedem Filter werden einfach aufeinanderfolgende Werte von 1 bis 25 zugeordnet, und ein leiser bis lauter Klang wird auf einer Skala von 1 bis 40 eingestuft, um eine Elektronenstrahlröhrenbildschirmanzeige zu erleichtern. Eine Korrektur der Werte der Frequenzrepräsentation erfolgt durch Einstellen der Anzahl der Filter auf einen höheren Dezimalwert zum nächsten ganzzahligen Wert, wenn der Filterausgang rechts des Spitzenfilters eine größere Amplitude als der Filterausgang links des Spitzenfilters aufweist. Die Einzelheiten einer bevorzugten Ausführungsform dieses Algorithmus ist in den Spezifikationen dieser Offenbarung beschrieben. Der Korrekturprozess muss vor dem Komprimierungsprozess erfolgen, während die Amplitudenwerte sämtlicher Filter verfügbar sind.
Statt die Abtastgeschwindigkeit zu verringern, werden bei der bevorzugten Ausführungsform vor dem Korrektur- und Komprimierungsprozess die Amplitudenwerte sämtlicher Filter für 10 bis 15 Abtastungen pro Sekunde bei einer Sprachprobe von ca. 10 bis 15 Sekunden gespeichert. Wenn der Speicherplatz des Computers kritischer als die Durchlaufgeschwindigkeit ist, sollten die Korrektur und das Komprimieren zwischen jedem Durchlauf erfolgen, wodurch sich ein großer Datenspeicher erübrigt. Da die üblichsten, im Handel erhältlichen, durchschnittlich teuren Minicomputer über einen ausreichenden Speicher verfügen, sichert die bevorzugte und hier offenbarte Ausführungsform sämtliche Daten und verarbeitet sie anschließend.
Die meisten tierischen Stimmsignale von Interesse einschließlich der menschlichen enthalten eine größte Amplitudenspitze, die an keinem Ende der Frequenzdomäne wahrscheinlich ist. Diese Spitze kann durch jeden einfachen und üblichen numerischen Sortieralgorithmus bestimmt werden, wie es bei der vorliegenden Erfindung der Fall ist. Die die Amplitude und die Frequenz repräsentierenden Werte werden dann in Nummer drei von sechs Speicherplatzgruppen zum Halten der Amplituden und Frequenzen von sechs Spitzen platziert.
Die höchste Frequenzspitze über 8 kHz wird im Speicherplatz Nummer sechs platziert und als Hochfrequenzspitze gekennzeichnet. Die tiefste Spitze wird in der ersten Gruppe von Speicherplätzen platziert. Die anderen drei werden aus Spitzen zwischen ihnen ausgewählt. Nach dieser Komprimierungsfunktion wird das Stimmsignal durch einen die Amplitude und die Frequenz repräsentierenden Wert jeder von sechs Spitzen sowie eine Gesamtenergieamplitude des gesamten, bei einer zehnsekündigen Probe beispielsweise zehnmal pro Sekunde ungefilterten Signals repräsentiert. Dies ergibt insgesamt 1.300 Werte.
Die Algorithmen lassen Schwankungen der Probenlänge zu, wenn der Bediener den Probenlängenschalter mit dem Überlagerungs-Ausschalter außer Kraft setzt, um eine Weiterführung während einer unerwarteten Unterbrechung durch ein Geräusch zu verhindern. Die Algorithmen bewerkstelligen dies unter Verwendung von Durchschnittswerten, die nicht besonders empfindlich auf Veränderungen der Anzahl der Proben jenseits von vier oder fünf Sekunden eines Klangsignals reagieren. Der Grund für eine größere Sprachprobe ist, soweit möglich, die Erfassung des durchschnittlichen „Sprachstils" des Sprechers, der typischer Weise innerhalb von 10 bis 15 Sekunden erkennbar ist.
Der Ausgang der Komprimierungsfunktion wird dem Elementbaugruppen- und Steueralgorithmus zugeführt, der (a) vier nachstehend beschriebene Stimmqualitätswerte, (b) eine „Klangpause" bzw. ein Ein-Aus-Verhältnis, (c) die „Variabilität" – die Differenz zwischen der Amplitude jeder Spitze beim aktuellen Durchlauf und beim letzten Durchlauf, die Differenzen zwischen den Frequenzzahlen jeder Spitze beim aktuellen Durchlauf und beim letzten Durchlauf und die Differenz zwischen den ungefilterten Gesamtenergien beim aktuellen Durchlauf und beim letzten Durchlauf, (d) eine „Silbenänderungsannäherung", die durch Ermitteln des Verhältnisses der Male, die die Veränderung der zweiten Spitze zwischen den Durchläufen größer als 0,4 ist, zu der Gesamtanzahl der Durchläufe mit Klang ermittelt wird, und (e) eine „Hochfrequenzanalyse" – das Verhältnis der Anzahl der Durchgänge mit Klang, die für die Spitzenamplitude Nummer sechs einen Wert, der nicht null ist, in dieser Spitze enthalten, zusammenfügt. Dadurch ergibt sich eine Summe von 20 Elementen, die pro Durchgang zur Verfügung stehen. Sie werden dann an den Dimensionszusammensetzungsalgorithmus weitergeleitet.
Die vier als Elemente verwendeten Stimmqualitätswerte sind (1) die „Streuung" – der Probendurchschnittswert der Differenzen zwischen den Durchschnittswerten der die Frequenz repräsentierenden Werte über der maximale Amplitudenspitze und den Durchschnittswerten von denen darunter in sämtlichen Durchläufen, (2) die „Ausgewogenheit" – der Probendurchschnittswert der durchschnittlichen Amplitudenwerte der Spitzen 4, 5 und 6 in sämtlichen Durchgängen dividiert durch den Durchschnittswert der Spitzen 1 und 2, (3) das „Hüllenflachheitshoch" – der Probendurchschnittswert der Durchschnittswerte der Amplituden über der größten Spitze in sämtlichen Durchläufen dividiert durch die größte Spitze und (4) das „Hüllenflachheitstief" – der Probendurchschnittswert der Durchschnittswerte der Amplituden unter der größten Spitze in sämtlichen Durchläufen dividiert durch die größte Spitze.
Die Stimmstildimensionen werden als „Resonanz" und „Qualität" bezeichnet und durch einen Algorithmus zusammengesetzt, an dem eine Koeffizientenmatrix beteiligt ist, die an ausgewählten Elementen arbeitet.
Die „Sprachstildimensionen" werden als „veränderlich – monoton", „abgehackt – gleichmäßig", „rasch – verhalten", „aggressiv – sanft" und „gefühlsbetont – kontrolliert" bezeichnet. Diese fünf Dimensionen, deren Bezeichnungen sich auf die beiden Enden jeder Dimension beziehen, werden von einem Algorithmus gemessen und zusammengesetzt, an dem eine Koeffizientenmatrix beteiligt ist, die an 15 der 20 Klangelemente arbeitet, die in Tabelle 6 und im Spezifikationsabschnitt im Einzelnen aufgeführt sind.
Die Wahrnehmungsstildimensionen werden als „ökonomisch – strukturiert", „unveränderlich – sensibel", „auf andere bezogen – selbstbezogen", „sensorisch – introvertiert", „Hass – Liebe", „Unabhängigkeit – Abhängigkeit" und „emotional – physisch" bezeichnet. Diese sieben wahrgenommenen Dimensionen mit Namen, die sich auf die Endbereiche der Dimension beziehen, werden von einem Algorithmus gemessen und zusammengesetzt, an dem eine Koeffizientenmatrix beteiligt ist und der an ausgewählten (in Tabelle 7 und im Spezifikationsabschnitt im Einzelnen aufgeführten) Klangelementen von Stimme und Sprache ansetzt.
Eine im Handel erhältliche, typische Computertastatur bzw. ein Tastenfeld ermöglicht dem Benutzer der vorliegenden Offenbarung das Verändern jedes bzw. aller Koeffizienten zur Neudefinition jeder zusammengesetzten Sprach-, Stimm- oder Wahrnehmungsdimension zu Forschungszwecken. Auswahlschalter ermöglichen eine Anzeige jedes bzw. sämtlicher Element- bzw. Dimensionswerte der Stimmprobe eines gegebenen Probanden. Der digitale Prozessor steuert die Analog-Digital-Umwandlung des Klangsignals und ebenso die Neuzusammensetzung der Stimmklangelemente zu numerischen Werten der Stimm-, Sprach- und Wahrnehmungsdimensionen.
Der Mikrocomputer koordiniert auch die Tastenfeldeingaben des Bedieners und die Anzeige ausgewählter Ausgabewerte sowie die Auswahl der Koeffizientenmatrix, die mit den Algorithmen interagieren soll, die die Stimm-, Sprach- und Wahrnehmungsdimensionen zusammensetzen. Der Ausgabewahlschalter leitet einfach den Ausgang zu einer oder sämtlichen Ausgangsbuchsen, die zur Zufuhr des Signals zu typischen, im Handel erhältlichen Monitoren, Modems, Druckern oder standardmäßig zu einer Licht emittierenden, eingebauten Leseanordnung geeignet sind.
Durch die Entwicklung von Gruppenprofilstandards unter Verwendung der vorliegenden Erfindung kann ein Forscher Erkenntnisse in Veröffentlichungen nach Berufen, Funktionsstörungen, Aufgaben, Freizeitinteressen, Kulturen, Sprachen, Geschlecht, Alter, Spezies des Tiers, etc. auflisten. Der Benutzer kann auch seine/ihre Werte mit den von anderen veröffentlichten oder den in der Maschine enthaltenen vergleichen.
Gemäß 12 der Zeichnungen wird eine stimmliche Äußerung über ein Mikrofon 1210 und einen Mikrofonverstärker 1211 zur Signalverstärkung oder als Bandeingabe über eine Bandeingangsbuchse 1212 zur Verwendung einer vorab aufgezeichneten Stimmäußerungseingabe in den Stimmklanganalysator eingegeben. Eine Eingangspegelsteuerung 1213 stellt den Pegel des Stimmsignals auf den Filteransteuerverstärker 1214 ein. Der Filteransteuerverstärker 1214 verstärkt das Signal und legt es zum Messen des korrekten Betriebssignalpegels an einen Stimmäußerungsmesser 1215 an.
Die Durchlaufrate pro Sekunde und die Anzahl der Durchläufe pro Probe wird vom Bediener über den Durchlaufraten- und Probenzeitschalter 1216 gesteuert. Der Bediener beginnt die Probenentnahme mit dem Probenstart- und Beendigungsüberbrückungsschalter 1217. Die Überbrückungsfunktion ermöglicht dem Bediener das manuelle Überbrücken der eingestellten Probenentnahmezeit und das Beenden der Probenentnahme zum Verhindern einer Kontamination einer Probe durch unerwartete Störgeräusche einschließlich gleichzeitig Sprechender. Der Schalter stellt auch die Verbindung mit der Stromversorgung des Mikroprozessors mit elektrischen Eingangsspitzen von standardmäßigen 110 Volt her und unterbricht sie.
Der Filteransteuerverstärker 1214 wird auch auf eine im Handel erhältliche, mikroprozessorgesteuerte Filterbank- und Digitalisiereinrichtung 1218 angewendet, die das elektrische Signal in Dritteloktavenbereiche über den Hörfrequenzbereich des untersuchten Organismus segmentiert und den Spannungsausgang jedes Filters digitalisiert. Bei einer spezifischen Arbeitsausführung der Erfindung sind 25 Dritteloktavfilter eines Eventide Spektralanalysators mit Filtermittenfrequenzen von 63 bis 16.000 Hz vorgesehen. Ebenso wurde ein AKAI Mikrofon und Bandaufnahmegerät mit einem eingebauten Verstärker als Eingang der Filterbank- und Digitalisiereinrichtung 1218 verwendet. Die Anzahl der Durchläufe pro Sekunde, die die Filterbank benutzt, beträgt ca. zehn Durchläufe pro Sekunde. Andere mikroprozessorgesteuerte Filterbank- und Digitalisiereinrichtungen können mit anderen Geschwindigkeiten arbeiten.
Jeder der mehreren im Handel erhältlichen Mikroprozessoren ist zum Steuern der vorstehend erwähnten Filterbank- und Digitalisiereinrichtung geeignet.
Wie bei jedem komplexen Klang ist die Amplitude über den Tonfrequenzbereich in einem „Zeitfenster" von 0,1 einer Sekunde nicht konstant oder flach, sondern es sind Spitzen und Täler vorhanden. Die die Frequenz repräsentierenden Werte der Spitzen 1219 des Signals werden durch Aufzeichnen der Amplitudenwerte auf beiden Seiten der Spitzen und Einstellen der Spitzenwerte zum danebenliegenden Filterwert mit der größeren Amplitude hin genauer eingestellt. Dies erfolgt, da die Energie bei einer gegebenen Frequenz, wie es für Dritteloktavfilter charakteristisch ist, abhängig von den Begrenzungsqualitäten der Filter in einem gewissen Maß in die danebenliegenden Filter überläuft. Zur Minimierung dieses Effekts wird davon ausgegangen, dass die Frequenz eines Spitzenfilters nur dann die Mittenfrequenz ist, wenn die beiden nebeneinander liegenden Filter Amplituden innerhalb von 10 % ihres Durchschnittswerts aufweisen. Zur Gewährleistung getrennter, gleichmäßig beabstandeter, kleiner Werte zur Linearisierung und Normalisierung der die ungleichmäßigen Frequenzintervalle repräsentierenden Werte ist jedem der 25 Filter ein numerischer Wert von 1 bis 25 zugeordnet, und diese Nummern werden während des Rests der Verarbeitung verwendet. Auf diese Weise nimmt die Differenz von 3.500 Hz zwischen den Filtern 24 und 25 den Wert 1 an, der wiederum auch mit der Differenz von 17 Hz zwischen dem ersten und dem zweiten Filter übereinstimmt.
Zum Verhindern von mehr als fünf Unterteilungen jeder Filternummer und zur Fortsetzung der Aufrechterhaltung gleichwertiger Schritte zwischen jeder Unterteilung der Filternummern 1 bis 25 sind sie in Schritte von 0,2 unterteilt und ferner wie folgt zugeordnet.
Wenn die Amplitudendifferenz zwischen den beiden neben einem Spitzenfilter liegenden Filtern größer als 30 % des Durchschnittwerts ist, wird davon ausgegangen, dass die Nummer des Spitzenfilters näher an dem Punkt auf halber Strecke zur nächsten Filternummer als an dem Spitzenfilter liegt. Dies würde dazu führen, dass die Filternummer eines Spitzenfilters, beispielsweise die Filternummer 6,0, auf 6,4 erhöht oder auf 5,6 verringert würde, wenn der größere danebenliegende Filter einen jeweils eine höhere bzw. eine niedrigere Frequenz repräsentiert. Sämtlichen anderen Filterwerten der Spitzenfilter wird automatisch der Wert ihrer Filternummer + 0,2 bzw. – 0,2 zugewiesen, wenn die größere der Amplituden der danebenliegenden Filter jeweils eine höhere oder niedrigere Frequenz repräsentiert.
Das segmentierte und digital repräsentierte Stimmäußerungssignal 1219 wird nach der vorstehend ausgeführten Frequenzkorrektur 1220 durch den Ausschluss von Allem mit Ausnahme von sechs Amplitudenspitzen komprimiert, um Speicherplatz zu sparen. Der Erfinder hat festgestellt, dass sechs Spitzen zur Erfassung der Stilcharakteristika ausreichten, solange die folgenden Charakteristika einbezogen wurden: mindestens eine Spitze liegt in der Nähe der Grundfrequenz; genau eine Spitze darf zwischen dem Bereich der Grundfrequenz und der Spitzenamplitudenfrequenz liegen, wobei die am nächsten an der maximalen Spitze liegende erhalten bleibt; und für insgesamt sechs gesicherte und im Speicher des Mikroprozessors gespeicherte Spitzen werden die ersten beiden Spitzen über der maximalen Spitze sowie die bei mehr als 8 kHz am nächsten an dem Ende des 25. Filters mit 16.000 Hz liegende Spitze gesichert. Dadurch wird gewährleistet, dass die maximale Spitze stets die dritte im Speicher gespeicherte Spitze ist, dass die sechste gespeicherte Spitze für eine Hochfrequenzanalyse verwendet werden kann und dass die erste die niedrigste und am nächsten an der Grundfrequenz liegende ist.
Nach dem derartigen Komprimieren des Signals, dass es einen Amplitudenwert mit der vollen Bandbreite, die Filternummer und den Amplitudenwert von sechs Spitzen sowie jeden dieser dreizehn Werte für 10 Abtastungen einer zehnsekündigen Probe (1.300 Werte) enthält, beginnt unter 1121 gemäß 12 die Zusammensetzung der Klangelemente.
Um zu den „Stimmstilqualitätselementen" zu gelangen, nutzt die vorliegende Erfindung die Beziehung zwischen dem unteren Satz und dem höheren Satz von Frequenzen der Stimmäußerung. Die Sprachstilelemente werden andererseits durch eine Kombination von das Muster des Auftretens stimmlicher Energie, wie Pausen und Verhallgeschwindigkeiten, betreffenden Messungen bestimmt. Die „Stimmstilqualitätselemente" gehen aus der Spektralanalyse gemäß 13, 1330, 1331 und 1332 hervor. Die Sprachstilelemente gehen aus den vier weiteren, in 12 unter 1233, 1234, 1235 und 1236 und in Tabelle 6 gezeigten Analysefunktionen hervor.
Die gespeicherten Stimmstilqualitätsanalyseelemente werden wie folgt benannt und abgeleitet: (1) die „Spektrenstreuung" – der Probendurchschnittswert des Abstands zwischen dem Durchschnittswert der vorstehend beschriebenen Spitzenfilternummern und dem Durchschnittswert der Spitzenfilternummern unter der maximalen Spitze in Filternummern für jeden Durchlauf, 13, 1330; (2) der „Energieausgleich" des Spektrums – der Durchschnittswert der Verhältnisse zwischen der Summe der Amplituden der über der maximalen Spitze liegenden Spitzen und der Summe der unter der maximalen Spitze liegenden Spitzen in sämtlichen Durchläufen für eine Probe, 1331; (3) die „Flachheit" der Hülle des Spektrums – das arithmetische Mittel für jeden von zwei Sätzen von Verhältnissen für jede Probe – die Verhältnisse zwischen der durchschnittlichen Amplitude der Spitzen über der maximalen Spitze (hoch) sowie der Spitzen unter der maximalen Spitze (tief) und der maximalen Spitze für jeden Durchlauf, 1332.
Die gespeicherten Sprachstilelemente werden jeweils wie folgt benannt und abgeleitet: (1) Spektrumsvariabilität – die sechs Durchschnittswerte der numerischen Differenzen zwischen der Filternummer jeder Spitze in einem Durchlauf und der Filternummer jeder entsprechenden Spitze im nächsten Durchlauf bei einer Sprachprobe und ebenso die Differenzen zwischen den sechs Amplitudenwerten für diese sechs Spitzen sowie die vollständigen Spektrumsamplitudendifferenzen für jeden Durchlauf, wodurch eine Abtastung von insgesamt 13 Durchschnittswerten erzeugt wird, 1333; (2) die Sprechpausenverhältnisanalyse – das Verhältnis zwischen der Anzahl der Durchläufe in der Probe, bei denen die gesamten Energieamplitudenwerte Pausen waren (unter zwei Einheiten des Amplitudenwerts lagen) und der Anzahl, die Klangenergie (mehr als eine Werteinheit) enthielten, 1334; (3) Annäherung der Silbenänderung – das Verhältnis zwischen der Anzahl der Durchläufe, in denen sich der numerische Wert der dritten Spitze um mehr als 0,4 geändert hat, und der Anzahl der Durchläufe, bei denen während der Abtastung Klang vorlag, 1335; und (4) die Hochfrequenzanalyse – das Verhältnis der Anzahl der Durchläufe für die Probe, in denen die sechste Spitze einen Amplitudenwert aufwies, zu der Gesamtzahl der Durchläufe, 1336.
Die Klangstile sind gemäß dem erfindungsgemäßen Verfahren und der erfindungsgemäßen Vorrichtung in sieben Dimensionen unterteilt, die in Tabelle 6 dargestellt sind. Sie wurden als die auf einen zugeordneten Satz von sieben in Tabelle 7 aufgelisteten Wahrnehmungs- bzw. Erkennungsstildimensionen empfindlichsten bestimmt.
Die Prozedur zur Zuordnung der Klangstilelemente zu Stimm-, Sprach- und Wahrnehmungsdimensionen zur Ausgabe (12, 1228) wird mittels Gleichungen ausgeführt, die jede Dimension als Funktion von ausgewählten Klangstilelementen bestimmen (13, 1330 bis 1336). Tabelle 6 ordnet die Sprachstilelemente (1333 bis 1336 gemäß 13) den Sprachstildimensionen zu.
Tabelle 7 zeigt die Beziehung zwischen sieben Wahrnehmungsstildimensionen und den Klangstilelementen (1330 bis 1336). Erneut ist es der Zweck einer optionalen Eingabekoeffizientengruppe, die Nullen enthält, dem Bediener der Vorrichtung das Umschalten oder Eingeben von Veränderungen dieser Koeffizienten zu Forschungszwecken zu ermöglichen (1222, 1223). Der fähige Benutzer kann unterschiedliche Wahrnehmungsdimensionen und sogar Persönlichkeits- oder Erkennungsdimensionen bzw. (wenn diese Terminologie bevorzugt wird) -faktoren entwickeln, die vollständig andere Koeffizienten erfordern. Dies erfolgt durch die Eingabe des gewünschten Koeffizientensatzes und die Aufzeichnung, welcher Dimension (1226) dieser zugeordnet wird. So kann beispielsweise die Dimension auf andere bezogen – selbstbezogen gemäß Tabelle 7 keine vom Forscher gewünschte Dimension sein, und er kann sie durch eine Benutzerwahrnehmungsdimension zu ersetzen wünschen, die er als introvertiert – extrovertiert bezeichnet. Durch Ersetzen des Koeffizientensatzes für den Satz „auf andere bezogen – selbstbezogen" durch Versuchssätze, bis eine akzeptierbar hohe Korrelation zwischen der gewählten Kombination gewichteter Klangstilelemente und der extern bestimmten Dimension „introvertiert – extrovertiert" vorliegt, kann der Forscher so dieses Fenster für die neue Dimension „introvertiert – extrovertiert" nutzen, indem er sie effektiv umbenennt. Dies kann in dem Ausmaß erfolgen, dass der erfindungsgemäße Satz von Klangelementen empfindlich auf eine Benutzerdimension „introvertiert – extrovertiert" reagiert und der Koeffizientensatz des Forschers die geeignete Beziehung wiedergibt. Dies ist mit zahlreichen benutzerdefinierten Dimensionen in einem brauchbaren Ausmaß möglich, wodurch die Erfindung produktiv in einer Forschungsumgebung eingesetzt werden kann, in der neue, Klangstilelementen zugeordnete Wahrnehmungsdimensionen erforscht, entwickelt oder bewertet werden. Tabelle 6

##STR1##
DS1 = lebhaft – monoton
DS2 = abgehackt – gleichmäßig
DS3 = schnell – verhalten
DS4 = aggressiv – sanft
DS5 = gefühlsbetont – kontrolliert
(2) Nr. 1 bis 6 = Spitzenfilterdifferenzen 1–6 und Amp. 1 bis 6 = Spitzenamplitudendifferenzen 1–6
Amp. 7 = volle Bandpassamplitudendifferenzen

##STR2##
DP1 = ökologische Struktur hoch – tief
DP2 = beständig – empfindlich hoch – niedrig
DP3 = auf andere bezogen – selbstbezogen
DP4 = sensorisch – intern
DP5 = Hass – Liebe
DP6 = Abhängigkeit – Unabhängigkeit
DP7 = emotional – physisch
(2) Nr. 1 bis 6 = Spitzenfilterdifferenzen 1–6 und Amp. 1 bis 6 = Spitzenamplitudendifferenzen 1–6 und Amp. 7 = volle Bandpassamplitudendifferenzen

Die dem Benutzer der vorliegenden Erfindung zur Verfügung gestellten primären Ergebnisse sind die selektiv über einen Schalter (1227) verfügbaren Dimensionswerte (1226) zur Anzeige auf einer Standardlichtanzeige und wahlweise auch auf einem Monitor, einem Drucker, einem Modem oder anderen Standardausgabevorrichtungen (1228). Sie können verwendet werden, um zu bestimmen, wie nahe die Stimme des Probanden bei einer oder sämtlichen der Klang- oder Wahrnehmungsdimensionen aus den eingebauten bzw. veröffentlich ten oder persönlich entwickelten Steuerungen oder Standards liegt, die dann als Hilfsmittel zur Verbesserung der Erkennung von Emotionen verwendet werden können.
Bei einer weiteren beispielhaften Ausführungsform der vorliegenden Erfindung werden von einem Benutzer empfangene Biosignale als Hilfsmittel zur Bestimmung der Emotionen in der Sprache des Benutzers verwendet. Die Erkennungsrate eines Spracherkennungssystems wird durch Kompensieren von Veränderungen in der Sprache des Benutzers verbessert, die aus Faktoren, wie Emotionen, Besorgnis oder Müdigkeit, resultieren. Ein aus einer Äußerung eines Benutzers abgeleitetes Sprachsignal wird zur Verbesserung der Erkennungsrate von einem Vorprozessor modifiziert und einem Spracherkennungssystem zugeführt. Das Sprachsignal wird auf der Basis eines Biosignals modifiziert, das den Gemütszustand des Benutzers anzeigt.
Genauer zeigt 14 ein Spracherkennungssystem, bei dem Sprachsignale von einem Mikrofon 1418 und Biosignale von einem Biomonitor 1430 von einem Vorprozessor 1432 empfangen werden. Das an den Vorprozessor 1432 angelegte Signal von dem Biomonitor 1430 ist ein Biosignal, das die Impedanz zwischen zwei Punkten auf der Oberfläche der Haut eines Benutzers anzeigt. Der Biomonitor 1430 misst die Impedanz unter Verwendung eines am Finger des Benutzers angebrachten Kontakts 1436 und eines an einem weiteren Finger des Benutzers angebrachten Kontakts 1438. Ein Biomonitor, wie ein von Radio Shack, einer Tochterfirma der Tandy Corporation, unter der Handelsbezeichnung (MICRONATA.RTM. BIOFEEDBACK MONITOR), Modell Nr. 63–664 vertriebener Biofeedbackmonitor kann verwendet werden. Die Kontakte können auch an anderen Stellen auf der Haut des Benutzers angebracht werden. Gerät der Benutzer in einen erregten oder besorgten Zustand, nimmt die Impedanz zwischen den Punkten 1436 und 1438 ab, und die Abnahme wird vom Monitor 1430 erfasst, der ein Biosignal erzeugt, das eine verringerte Impedanz anzeigt. Der Vorprozessor 1432 verwendet das Biosignal vom Biomonitor 1430 zum Modifizieren des vom Mikrofon 1418 empfangenen Sprachsignals, wobei das Sprachsignal modifiziert wird, um die Veränderungen der Sprache des Benutzers aufgrund der aus Faktoren, wie einer Ermüdung oder einer Veränderung des Gemütszustands, resultierenden Veränderungen zu kompensieren. Der Vorprozessor 1432 kann beispielsweise die Tonhöhe des Sprachsignals vom Mikrofon 1418 verringern, wenn das Biosignal vom Biomonitor 1430 anzeigt, dass der Benutzer erregt ist, und er kann die Tonhöhe des Sprachsignals vom Mikrofon 1418 erhöhen, wenn das Biosignal vom Biomonitor 1430 anzeigt, dass sich der Benutzer beispielsweise aufgrund seiner Müdigkeit in einem weniger erregten Zustand befindet. Der Vorprozessor 1432 leitet dann das modifizierte Sprachsignal auf herkömmliche Weise zu einer Soundkarte 1416. Der Vorprozessor 1432 kann beispielsweise zu Initialisierungs- oder Kalibrierungszwecken unter Verwendung einer Schnittstelle, wie einer RS232 Schnittstelle, mit einem PC 1410 kommunizieren. Der Benutzer 1434 kann durch Beobachten einer Anzeige 1412 und durch die Eingabe von Befehlen unter Verwendung einer Tastatur 1414, eines Tastenfelds 1439 oder einer Maus mit dem Vorprozessor 1432 kommunizieren.
Es ist auch möglich, das Biosignal zur Vorverarbeitung des Sprachsignals durch Steuern der Verstärkung und/oder der Frequenzantwort des Mikrofons 1418 zu verwenden. Die Verstärkung des Mikrofons kann als Reaktion auf das Biosignal erhöht oder verringert werden. Das Biosignal kann auch zum Verändern der Frequenzantwort des Mikrofons verwendet werden. Ist das Mikrofon 1418 beispielsweise das bei AUDIO-TECHNICA U.S., Inc. erhältliche Modell ATM71, kann das Biosignal zum Umschalten zwischen einer relativ flachen Antwort und einer abgerollten Antwort verwendet werden, wobei die abgerollte Antwort niederfrequente Sprachsignale weniger verstärkt.
Wenn der Biomonitor 1430 der vorstehend erwähnte, bei Radio Shack erhältliche Monitor ist, hat das Biosignal die Form einer Folge von rampenartigen Signalen, wobei jede Rampe eine Dauer von ca. 0,2 ms aufweist. 15 zeigt das Biosignal, wobei eine Folge rampenartiger Signale 1542 durch eine Zeitspanne T getrennt sind. Die Größe der Zeitspanne T zwischen den Rampen 1542 hängt mit der Impedanz zwischen den Punkten 1438 und 1436 zusammen. Wenn der Benutzer erregter ist, wird die Impedanz zwischen den Punkten 1438 und 1436 geringer und die Zeitspanne T wird kürzer. Wenn sich der Benutzer in einem weniger erregten Zustand befindet, wird die Impedanz zwischen den Punkten 1438 und 1436 größer, und die Zeitspanne T wird länger.
Die Form eines Biosignals von einem Biomonitor kann andere Formen als die einer Folge rampenartiger Signale annehmen. Das Biosignal kann beispielsweise ein analoges Signal sein, das hinsichtlich der Periodizität, Amplitude und/oder Frequenz variiert, die auf den vom Biomonitor 1430 vorgenommenen Messungen basieren, oder es kann ein digitaler Wert sein, der auf den vom Biomonitor gemessenen Bedingungen basiert.
Der Biomonitor 1430 enthält die Schaltung gemäß 16, die das Biosignal erzeugt, das die Impedanz zwischen den Punkten 1438 und 1436 anzeigt. Die Schaltung besteht aus zwei Abschnitten. Der erste Abschnitt wird zum Erfassen der Impedanz zwischen den Kontakten 1438 und 1436 verwendet, und der zweite Abschnitt fungiert als Oszillator zur Erzeugung einer Folge von Rampensignalen am Ausgangsverbindungselement 1648, wobei die Frequenz der Oszillation vom ersten Abschnitt gesteuert wird.
Der erste Abschnitt steuert auf der Grundlage der Impedanz zwischen den Punkten 1438 und 1436 einen Kollektorstrom I_cQ1 und eine Spannung V_c,Q1 des Transistors Q1. Bei dieser Ausführungsform besteht der Impedanzsensor 1650 einfach aus Kontakten 1438 und 1436, die auf der Haut des Sprechers angeordnet werden. Da sich die Impedanz zwischen den Kontakten 1438 und 1436 im Vergleich zu der Oszillationsfrequenz des Abschnitts 2 relativ langsam verändert, sind der Kollektorstrom I_c,Q1 und die Spannung V_c,Q1, soweit es den Abschnitt 2 betrifft, praktisch konstant. Der Kondensator C3 stabilisiert diese Ströme und Spannungen weiter.
Der Abschnitt 2 dient als Oszillator. Die reagierenden Komponenten L1 und C1 schalten einen Transistor Q3 ein und aus, um eine Schwingung zu erzeugen. Wird der Strom anfangs eingeschaltet, schaltet I_c,Q1 durch Ziehen eines Grundstroms I_b,Q2 Q2 ein. Ähnlich schaltet I_c,Q2 durch Liefern eines Grundstroms I_b,Q3 den Transistor Q3 ein. Ursprünglich fließt kein Strom durch den Induktor L1. Wird Q3 eingeschaltet, wird die Spannung Vcc minus einer kleinen gesättigten Transistorspannung V_c,Q3 an L1 angelegt. Dadurch wird der Strom I_L1 entsprechend der folgenden Gleichung erhöht:
Wird der Strom I_L1 erhöht, wird der durch den Kondensator C1 fließende Strom I_c1 erhöht. Durch eine Erhöhung des Stroms I_c1 wird der Grundstrom I_B,Q2 vom Transistor Q2 verringert, da der Strom I_c,Q1 praktisch konstant ist. Dadurch werden wiederum die Ströme I_c,Q2, I_b,Q3 und I_c,Q3 verringert. Dadurch fließt mehr von dem Strom I_L1 durch den Kondensator C1 und verringert den Strom I_c,Q3 weiter. Die se Rückkopplung veranlasst ein Ausschalten des Transistors Q3. Schließlich ist der Kondensator C1 vollständig aufgeladen, und die Ströme I_L1 und I_c1 fallen auf null, wodurch der Strom I_c,Q1 erneut den Grundstrom I_b,Q2 ziehen und die Transistoren Q2 und Q3 einschalten kann, wodurch der Oszillationszyklus erneut eingeleitet wird.
Der Strom I_c,Q1, der von der Impedanz zwischen den Kontakten 1438 und 1436 abhängt, steuert die Frequenz des Ausgangssignals in einem Arbeitszyklus. Wenn die Impedanz zwischen den Punkten 1438 und 1436 abnimmt, nimmt die Zeitspanne T zwischen den Rampensignalen ab, und wenn die Impedanz zwischen den Punkten 1438 und 1436 zunimmt, nimmt die Zeitspanne T zwischen den Rampensignalen zu.
Die Schaltung wird von einer Dreivoltbatteriequelle 1662 mit Strom versorgt, die über einen Schalter 1664 an die Schaltung angeschlossen ist. Ebenso ist ein Regelwiderstand 1666 enthalten, der zum Einstellen eines Betriebspunkts für die Schaltung verwendet wird. Es ist wünschenswert, den Regelwiderstand 1666 auf eine Position einzustellen, die in etwa in der Mitte seines Einstellbereichs liegt. Die Schaltung variiert dann von diesem Betriebspunkt aus, wie vorstehend beschrieben, auf der Grundlage der Impedanz zwischen den Punkten 1438 und 1436. Die Schaltung umfasst auch einen Schalter 1668 und einen Lautsprecher 1670. Wird kein passendes Verbindungselement in das Verbindungselement 1648 eingeführt, leitet der Schalter 1668 den Ausgang der Schaltung zum Lautsprecher 1670 statt zum Figur Verbindungselement 1648.
17 ist ein Blockdiagramm des Vorprozessors 1432. Ein Analog-Digitalwandler (A/D-Wandler) 1780 empfängt ein Sprach- bzw. Äußerungssignal vom Mikrofon 1418, und ein Analog-Digitalwandler (A/D-Wandler) 1782 empfängt ein Biosignal vom Bio monitor 1430. Das Signal von dem A/D-Wandler 1782 wird an den Mikroprozessor 1784 angelegt. Der Mikroprozessor 1784 überwacht das Signal von dem A/D-Wandler 1782, um zu bestimmen, welche Aktionen von der digitalen Signalprozessorvorrichtung (DSP-Vorrichtung) 1786 ausgeführt werden sollten. Der Mikroprozessor 1784 verwendet den Speicher 1788 zur Programmspeicherung und für Notizblockfunktionen. Der Mikroprozessor 1784 kommuniziert unter Verwendung einer RS232 Schnittstelle mit einem PC 1410. Die Software zur Steuerung der Schnittstelle zwischen dem PC 1410 und dem Mikroprozessor 1784 kann unter Verwendung eines Softwarepakets, wie dem von der Microsoft Corporation unter der Handelsbezeichnung WINDOWS vertriebenen, in einer Mehrfachanwendungsumgebung auf dem PC 1410 ausgeführt werden. Der Ausgang des DSP 1786 wird von einem Digital-Analogwandler 1790 in ein analoges Signal zurückgewandelt. Nach der vom Mikroprozessor 1784 befohlenen Modifikation des Signals von dem A/D-Wandler 1780 durch den DSP 1786 wird der Ausgang des D/A-Wandlers 1790 an die Soundkarte 1416 gesendet. Der Mikroprozessor 1784 kann einer der verbreitet erhältlichen Mikroprozessoren, beispielsweise der bei der Intel Corporation erhältlichen Mikroprozessoren sein, und der DSP 1786 kann einer der verbreiteten, von Firmen wie Texas Instruments erhältlichen digitalen Signalverarbeitungschips, beispielsweise aus der Vorrichtungsserie TMS320CXX, sein.
Der Biomonitor 1430 und der Vorprozessor 1432 können auf einer einzigen Karte angeordnet werden, die in einen leeren Kartenschlitz im PC 1410 eingesetzt wird. Ebenso können die Funktionen des Mikroprozessors 1784 und des digitalen Signalprozessors 1786 unter Verwendung des PC 1410 anstelle spezialisierter Hardware ausgeführt werden.
Der Mikroprozessor 1784 überwacht das Biosignal von dem A/D-Wandler 1782, um zu Bestimmen, welche Aktion von dem DSP 1786 ausgeführt werden soll. Wenn das Signal von dem A/D-Wandler 1782 anzeigt, dass sich der Benutzer in einem erregteren Zustand befindet, zeigt der Mikroprozessor 1784 dem DSP 1786 an, dass er das Signal von dem A/D-Wandler 1780 so verarbeiten soll, dass die Tonhöhe des Sprachsignals verringert wird. Wenn das Biosignal von dem A/D-Wandler 1782 anzeigt, dass sich der Benutzer in einem weniger erregten bzw. in einem ermüdeten Zustand befindet, weist der Mikroprozessor 1784 den DSP 1786 an, die Tonhöhe des Sprachsignals zu erhöhen.
Der DSP 1786 modifiziert die Tonhöhe des Sprachsignals durch die Erstellung eines Sprachmodells. Der DSP verwendet das Modell dann zur Neuerstellung des Sprachsignals mit einer modifizierten Tonhöhe. Das Sprachmodell wird unter Verwendung einer der in der Technik allgemein bekannten, linearen Vorhersagecodierungstechniken erzeugt. Eine derartige Technik ist in einer Anwendungsveröffentlichung der Analog Device, Inc. mit dem Titel „Digital Signal Processing Applications Using the ADSP 2100 Family", Seiten 355–372, veröffentlicht bei Prentice-Hall, Englewood Cliffs, N.J., 1992, offenbart. Diese Technik umfasst die Abbildung des Sprachsignals als FIR-Filter (rekursives Filter) mit zeitabhängig variierenden Koeffizienten, wobei das Filter durch eine Folge von Impulsen erregt wird. Die Zeitspanne T zwischen den Impulsen ist ein Messwert für die Tonhöhe bzw. die Grundfrequenz. Die zeitabhängig variierenden Koeffizienten können unter Verwendung einer Technik, wie der in der vorstehend erwähnten Veröffentlichung der Analog Device, Inc. offenbarten Levinson-Durbin-Rekursion berechnet werden. Eine Zeitspanne T zwischen den Impulsen, aus denen die Folge von Impulsen zusammengesetzt ist, durch die das Filter erregt wird, kann unter Verwen dung eines Algorithmus wie dem in „The SIFT Algorithm for Fundamental Frequency Estimation" von John D. Markel, IEEE Transactions on Audio and Electroacoustics, Bd. AU-20, Nr. 5, Dezember 1972 offenbarten SIFT-Algorithmus (SIFT: simplified inverse filter tracking, vereinfachte inverse Filterverfolgung) von John D. Markel berechnet werden. Der DSP 1786 modifiziert die Tonhöhe bzw. die Grundfrequenz des Sprachsignals durch Verändern der Zeitspanne T zwischen den Impulsen, wenn er das FIR-Filter erregt, um das Sprachsignal neu zu erzeugen. Die Tonhöhe kann beispielsweise durch Verringern der Zeitspanne T zwischen den Impulsen um 1 % um 1 % erhöht werden.
Es sollte festgehalten werden, dass das Sprachsignal auf andere Art als durch eine Veränderung der Tonhöhe modifiziert werden kann. So können beispielsweise Tonhöhe, Amplitude, Frequenz und/oder Signalspektrum modifiziert werden. Ein Teil des Signalspektrums bzw. das gesamte Spektrum kann gedämpft oder verstärkt werden.
Ebenso können andere Biosignale als ein die Impedanz zwischen zwei Punkten auf der Haut eines Benutzers anzeigendes Signal überwacht werden. Auch Signale, die eine autonome Aktivität anzeigen, können als Biosignale verwendet werden. Signale, die eine autonome Aktivität, wie den Blutdruck, die Pulsgeschwindigkeit, die Gehirnwellen oder eine andere elektrische Aktivität, die Pupillengröße, die Hauttemperatur, die Transparenz bzw. das Reflexionsvermögen bezüglich einer bestimmten elektromagnetische Wellenlänge, anzeigen oder andere Signale, die den Gemütszustand des Benutzers anzeigen, können verwendet werden.
18 zeigt Tonhöhenmodifikationskurven, die ein Mikroprozessor 1784 verwendet, um den DSP 1786 anzuweisen, die Tonhöhe des Sprachsignals auf der Grundlage der dem Biosignal zugeordneten Zeitspanne T zu verändern. Die horizontale Achse 1802 zeigt die Zeitspanne T zwischen den Rampen 1442 des Biosignals, und die vertikale Achse 1804 zeigt den Prozentsatz der vom DSP 1786 vorgenommenen Veränderung der Tonhöhe.
19 zeigt ein Ablaufdiagramm der vom Mikroprozessor 1784 zur Herstellung der in 18 dargestellten Betriebskurve ausgeführten Befehle. Nach der Initialisierung wird ein Schritt 1930 ausgeführt, um eine Linie herzustellen, die kolinear zur Achse 1802 ist. Diese Linie zeigt an, dass für sämtliche Werte von T aus dem Biosignal eine Tonhöhenänderung von null vorgenommen wird. Nach dem Schritt 1930 wird ein Entscheidungsschritt 1932 ausgeführt, in dem der Mikroprozessor 1784 bestimmt, ob von der Tastatur 1414 bzw. dem Tastenfeld 1439 ein Modifikationsbefehl empfangen wurde. Wurde kein Modifikationsbefehl empfangen, wartet der Mikroprozessor 1784 in einer Schleife auf einen Modifikationsbefehl. Wird ein Modifikationsbefehl empfangen, wird ein Schritt 1934 ausgeführt, um den Wert von T = T_ref1 zu bestimmen, der zur Einstellung eines neuen Bezugspunkts Ref1 verwendet wird. Der Wert T_ref1 entspricht dem aus dem Biosignal erhaltenen aktuellen Wert von T. Der Wert T_ref1 kann beispielsweise 0,6 ms betragen. Nach der Bestimmung des Werts T_ref1 führt der Mikroprozessor 1784 einen Schritt 1938 aus, in dem der Benutzer aufgefordert wird, eine Äußerung vorzubringen, damit in einem Schritt 1940 eine Tonhöhenprobe genommen werden kann. Es ist wünschenswert, eine Tonhöhenprobe zu erhalten, da die Tonhöhenprobe als Grundlage für den Prozentsatz der entlang der Achse 1804 angezeigten Änderungen der Tonhöhe verwendet wird. In einem Schritt 1942 weist der Mikroprozessor 1784 den DSP 1786 an, die Tonhöhe des Sprachsignals um einen mit der aktuellen, dem Punkt Ref1 zugeordneten Tonhöhenänderung plus einer Erhöhung um fünf Prozent übereinstimmenden Betrag zu erhöhen; es können jedoch auch kleinere oder größere Erhöhungen verwendet werden. (An diesem Punkt ist die dem Punkt Ref1 zugeordnete Tonhöhenänderung null. S. Schritt 1930) In einem Schritt 1944 fordert der Mikroprozessor 1784 den Benutzer zum Ausführen eines Erkennungstests durch Sprechen mehrerer Befehle in das Spracherkennungssystem auf, um zu bestimmen, ob eine akzeptable Erkennungsrate erzielt wurde. Hat der Benutzer den Test abgeschlossen, kann der Benutzer dem Mikroprozessor 1784 den Abschluss des Tests durch Eingeben eines Befehls, wie „beenden", unter Verwendung der Tastatur 1414 oder des Tastenfelds 1439 anzeigen.
Nach der Ausführung des Schritts 1944 führt der Mikroprozessor 1784 einen Schritt 1946 aus, in dem er den DSP 1786 anweist, die Tonhöhe des hereinkommenden Sprachsignals um die dem Punkt Ref1 zugeordnete Tonhöhenänderung minus einer Verringerung von fünf Prozent zu verringern; es können jedoch auch größere oder kleinere Beträge verwendet werden. (Es wird darauf hingewiesen, dass die dem Punkt Ref1 zugeordnete Tonhöhenänderung als Ergebnis des Schritts 1930 null ist.) In einem Schritt 1948 fordert den Mikroprozessor 1784 den Benutzer auf, einen weiteren Stimmerkennungstest auszuführen und den Befehl „beenden" einzugeben, wenn der Test abgeschlossen ist. In einem Schritt 1950 fordert der Mikroprozessor 1784 den Benutzer zur Wahl des ersten oder des zweiten Tests auf, um anzugeben, welcher Test eine überlegene Erkennungsfähigkeit aufwies. In einem Schritt 1952 werden die Ergebnisse der Wahl des Benutzers zur Wahl zwischen den Schritten 1954 und 1956 verwendet. Wurde der Test 1 als der beste ausgewählt, wird der Schritt 1956 ausgeführt, und die neue, dem Punkt Ref1 zugeordnete Prozentsatzänderung wird auf einen mit dem vorherigen Wert des Punkts Ref1 plus fünf Prozent bzw. der im Schritt 1942 verwendeten Erhöhung übereinstimmenden Wert eingestellt. Wird der Test 2 als der beste ausgewählt, wird der Schritt 1954 ausgeführt, und der neue, dem Punkt Ref1 zugeordnete Prozentsatzänderungswert wird auf den alten Wert von Ref1 minus fünf Prozent bzw. die Verringerung eingestellt, die im Schritt 1946 verwendet wurde. Durch die Bestimmung einer T = T_ref1 zugeordneten Prozentsatzänderung wird ein neuer Bezugspunkt Ref1 eingestellt. Wurde beispielsweise der Test 1 als der beste ausgewählt, wird der Punkt Ref1 am Punkt 1858 gemäß 18 angeordnet. Nach dem Einstellen der Position des Punkts 1858, der der neu eingestellte Punkt Ref1 ist, wird in einem Schritt 1962 die Linie 1860 eingestellt. Die Linie 1860 ist die anfängliche Tonhöhenmodifikationslinie, die zur Berechnung von Tonhöhenänderungen für unterschiedliche Werte von T aus dem Biosignal verwendet wird. Anfänglich kann diese Linie eine Steigung von beispielsweise plus fünf Prozent pro Millisekunde erhalten, es können jedoch auch andere Steigungen verwendet werden.
Nach der Einstellung dieser ursprünglichen Modifikationslinie begibt sich der Mikroprozessor 1784 in eine Warteschleife, in der die Schritte 1964 und 1966 ausgeführt werden. Im Schritt 1964 prüft der Mikroprozessor 1784 auf einen Modifikationsbefehl, und im Schritt 1966 prüft er auf einen Deaktivierungsbefehl. Wird im Schritt 1964 kein Modifikationsbefehl empfangen, prüft der Prozessor im Schritt 1966 auf einen Deaktivierungsbefehl. Wird kein Deaktivierungsbefehlempfangen, kehrt der Mikroprozessor zum Schritt 1964 zurück, und wenn ein Deaktivierungsbefehl empfangen wird, führt der Mikroprozessor einen Schritt 1930 aus, der die Veränderung der Tonhöhe für sämtliche Werte von T aus dem Biosignal auf null einstellt. Der Prozessor bleibt in dieser Schleife, in der auf Modifikations- und Deaktivierungsbefehle gewartet wird, bis der Benutzer mit der aus der Vorverarbeitung des Sprachsignals unter Verwendung der Kurve 1860 resultierenden Erkennungsrate unzufrieden wird.
Wenn im Schritt 1964 ein Modifikationsbefehl empfangen wird, wird ein Schritt 1968 ausgeführt. Im Schritt 1968 wird der Wert von T bestimmt, um zu überprüfen, ob der Wert von T mit dem Wert T_ref1 des Punkts Ref1 übereinstimmt oder nahezu übereinstimmt. Wenn der Wert von T Ref1 entspricht, wird der Schritt 1942 ausgeführt. Entspricht der Wert von T nicht Ref1, wird ein Schritt 1970 ausgeführt. Im Schritt 1970 wird der Wert T_ref2 für einen neuen Bezugspunkt Ref2 eingestellt. Um ein veranschaulichendes Beispiel zu geben, wird davon ausgegangen, dass T_ref2 = 1,1 ms gilt. Gemäß 18 wird dadurch der Punkt Ref2 als Punkt 1872 auf der Linie 1860 festgelegt. In einem Schritt 1974 weist der Mikroprozessor 1784 den DSP 1786 an, die dem Punkt Ref2 zugeordnete Tonhöhenänderung um plus 2,5 Prozent zu erhöhen (es können auch andere Prozentzahlen verwendet werden). In einem Schritt 1976 wird der Benutzer aufgefordert, einen Erkennungstest auszuführen und nach Abschluss den Befehl „beenden" einzugeben. In einem Schritt 1978 weist Mikroprozessor 1784 der den DSP 1786 an, die Tonhöhe des Sprachsignals um einen Betrag zu verringern, der der Ref2 zugeordneten Tonhöhenänderung minus 2,5 % entspricht. In einem Schritt 1980 wird der Benutzer erneut aufgefordert, einen Erkennungstest auszuführen und nach Abschluss den Befehl „beenden" einzugeben. In einem Schritt 1982 wird der Benutzer aufgefordert, anzugeben, ob der erste oder der zweite Test die erwünschtesten Ergebnisse aufwies. In einem Schritt 1984 entscheidet der Mikroprozessor 1784, den Schritt 1986 auszuführen, wenn der Test 1 als der beste ausgewählt wurde, und einen Schritt 1988, wenn der Test 2 als der beste ausgewählt wurde. Im Schritt 1986 stellt der Mikroprozessor 1784 die Prozentzahl der dem Punkt Ref2 zugeordneten Veränderung auf den vorherigen, Ref2 zugeordneten Wert plus 2,5 Prozent bzw. der im Schritt 1974 verwendeten Erhöhung ein. Im Schritt 1988 wird die Ref2 zugeordnete prozentuale Veränderung auf den vorherigen, Ref2 zugeordneten Wert minus 2,5 Prozent bzw. der im Schritt 1978 verwendeten Verringerung eingestellt. Nach Abschluss der Schritte 1986 bzw. 1988 wird ein Schritt 1990 ausgeführt. Im Schritt 1990 wird eine neue Tonhöhenmodifikationslinie festgelegt. Die neue Linie verwendet den Ref1 zugeordneten Punkt und den neuen, Ref2 zugeordneten Punkt. Wird beispielsweise davon ausgegangen, dass der Benutzer im Schritt 1984 den Test 1 ausgewählt hat, ist der neue, Ref2 zugeordnete Punkt gemäß 18 der Punkt 1892. Die neue Tonhöhenumwandlungslinie ist nun die Linie 1898, die die Punkte 1892 und 1858 schneidet. Nach der Ausführung des Schritts 1990 kehrt der Mikroprozessor 1784 zu dem den Schritten 1964 und 1966 zugeordneten Schleifenvorgang zurück.
Es sollte festgehalten werden, dass eine lineare Modifikationslinie verwendet wurde; es ist jedoch möglich, nicht lineare Modifikationslinien zu verwenden. Dies kann durch die Verwendung der Punkte 1858 und 196 zur Festlegung einer Steigung einer Linie zur Rechten des Punkts 1858 und durch die Verwendung eines anderen Bezugspunkts zur Linken des Punkts 1858 zur Festlegung einer Steigung einer Linie erfolgen, die sich links von dem Punkt 1858 erstreckt. Ebenso kann der maximale Prozentsatz der Tonhöhenänderung nach oben und unten begrenzt werden. Nähert sich die Tonhöhenmodifikationslinie diesen Grenzen, kann die Annäherung asymptotisch erfolgen oder sich einfach am Berührungspunkt mit der Grenze abrupt ändern.
Ebenso kann eine feste Modifikationskurve, wie die Kurve 1800, verwendet und anschließend der verstellbare Widerstand 1666 eingestellt werden, bis eine akzeptable Erkennungsrate erreicht ist.
SPRACHNACHRICHTENERZEUGUNGSSYSTEM
20 zeigt eine Ausführungsform der vorliegenden Erfindung, die Sprachnachrichten auf der Basis ihrer Gefühlsmerkmale der verwaltet. In einem Arbeitsschritt 2000 werden mehrere über ein Telekommunikationsnetz gesendete Nachrichten empfangen. In einem Arbeitsschritt 2002 werden die Sprachnachrichten auf einem Speichermedium, wie beispielsweise dem vorstehend erwähnten Bandaufnahmegerät oder einem Festplattenlaufwerk, gespeichert. In einem Arbeitsschritt 2004 wird eine den Stimmsignalen der Sprachnachrichten zugeordnete Emotion bestimmt. Die Emotion kann durch jedes der vorstehend ausgeführten Verfahren bestimmt werden.
Die Sprachnachrichten werden in einem Arbeitsschritt 2006 auf der Basis der bestimmten Gefühle geordnet. So können beispielsweise Nachrichten, bei denen die Stimme negative Emotionen, beispielsweise Trauer, Zorn oder Furcht, anzeigt, zusammen auf einer Mailbox und/oder in einer Datenbank gespeichert werden. Der Zugriff auf die geordneten Sprachnachrichten wird in einem Arbeitsschritt 2008 gewährt.
Die Sprachnachrichten können einem Telefonanruf folgen. Wahlweise können Sprachnachrichten mit ähnlichen Emotionen gemeinsam eingeordnet werden. Ebenso können die Sprachnachrichten wahlweise unmittelbar beim Empfang über das Telekommunikationsnetz in Echtzeit geordnet werden. Vorzugsweise wird die Art und Weise, in der die Sprachnachrichten geordnet werden, identifiziert, um den Zugriff auf die geordneten Sprachnachrichten zu erleichtern. Ebenso wird die Emotion vorzugsweise durch Extrahieren mindestens eines Merkmals aus den Stimmsignalen bestimmt, wie vorstehend besprochen.
Bei einer beispielhaften Ausführungsform eines erfindungsgemäßen Sprachnachrichtensystems werden Tonhöhen- und LPC-Parameter (und normalerweise auch andere Erregungsinformationen) zum Senden und/oder zur Speicherung codiert und zur Bereitstellung einer nahen Wiedergabe des ursprünglichen Spracheingangs decodiert.
Ausführungsformen betreffen insbesondere lineare Vorhersagecodiersysteme (LPC-Systeme) (sowie Verfahren) zum Analysieren und Codieren menschlicher Sprachsignale. Bei der LPC-Repräsentation wird (bei dem vereinfachten Modell) jede Probe in einer Folge von Proben als lineare Kombination vorhergehender Proben plus einer Erregungsfunktion abgebildet:
wobei u_k das LPC-Restsignal ist. Dies bedeutet, dass u_k die restlichen Informationen im eingegebenen Sprachsignal repräsentiert, die nicht von dem LPC-Modell vorhergesagt werden. Es wird darauf hingewiesen, dass nur N vorhergehende Signale für die Vorhersage verwendet werden. Die Modellreihenfolge (typischerweise ca. 10) kann zum Erhalt einer besseren Vorhersage vergrößert werden, doch bei jeder normalen Sprachmodellanwendung verbleiben immer einige Informationen im Restsignal u_k.
Im allgemeinen Rahmen der LPC-Modellerstellung können viele besondere Implementierungen einer Stimmanalyse ausgewählt werden. Bei vielen von ihnen muss die Tonhöhe des eingegebenen Sprachsignal bestimmt werden. Dies bedeutet, dass die menschliche Stimme zusätzlich zu den Formantenfrequenzen, die tatsächlich den Resonanzen des Stimmapparats entsprechen, auch eine vom Sprechenden modulierte Tonhöhe enthält, die der Frequenz entspricht, mit der der Kehlkopf den Luftstrom moduliert. Dies bedeutet, dass die menschliche Stimme als eine Anregungsfunktion betrachtet werden kann, die an ein passives akustisches Filter angelegt wird, und dass die Anregungsfunktion im Allgemeinen in der LPC-Restfunktion erscheint, während die Charakteristika des passiven akustischen Filters (d.h. die Resonanzcharakteristika des Mundes, der Nasenhöhle, der Brust, etc.) von den LPC-Parametern geformt werden. Es wird darauf hingewiesen, dass die Anregungsfunktion bei einem stimmlosen Sprechen keine klar definierte Tonhöhe aufweist, sondern stattdessen am besten durch weißes Breitbandrauschen oder rosa Rauschen dargestellt wird.
Eine Schätzung der Tonhöhenperiode ist nicht vollständig trivial. Eines der Probleme ist die Tatsache, dass der erste Formant häufig eine Frequenz aufweist, die nahe bei der der Tonhöhe liegt. Aus diesem Grund erfolgt die Schätzung der Tonhöhe häufig anhand des LPC-Restsignals, da der LPC-Schätzprozess anhand der Anregungsfunktion tatsächlich Resonanzen des Stimmtrakts entfaltet, so dass das Restsignal relativ weniger der Resonanzen des Stimmtrakts (der Formanten) und relativ mehr der Anregungsinformationen (der Tonhöhe) enthält. Eine derartige auf dem Rest basierende Techniken zur Einschätzung der Tonhöhe bergen jedoch ihre eigenen Schwierigkeiten. Das LPC-Modell selbst fügt normalerweise selbst ein Hochfrequenzrauschen in das Restsignal ein, und Teile dieses Hochfrequenzrauschens können eine höhere spektrale Dichte als die tatsächliche Tonhöhe aufweisen, die erfasst werden sollte. Eine Lösung für dieses Problem ist einfach eine Tiefpassfilterung des Restsignals mit ca.
1.000 Hz. Dadurch wird das Hochfrequenzrauschen entfernt, aber auch die legitime Hochfrequenzenergie, die in den stimmlosen Bereichen der Sprache vorhanden ist, wodurch das Restsignal für die Stimme betreffende Bestimmungen praktisch unbrauchbar wird.
Ein Hauptkriterium für Sprachnachrichtenanwendungen ist die Qualität der wiedergegebenen Sprache. Bei Systemen gemäß dem Stand der Technik traten in dieser Hinsicht viele Schwierigkeiten auf. Insbesondere betreffen viele dieser Schwierigkeiten Probleme hinsichtlich der Genauigkeit der Erfassung der Tonhöhe und der Stimmhaftigkeit des eingegebenen Sprachsignals.
Es ist typischerweise sehr leicht, die Tonhöhenperiode falsch einzuschätzen, und zwar auf das Doppelte oder die Hälfte ihres Werts. Werden beispielsweise Korrelationsverfahren verwendet, garantiert eine gute Korrelation in einer Periode P eine gute Korrelation in einer Periode von 2P, und es bedeutet auch, dass eine höhere Wahrscheinlichkeit besteht, dass das Signal bei einer Periode von P/2 eine gute Korrelation zeigt. Derartige Verdoppelungs- und Halbierungsfehler verursachen jedoch eine stark störende Verschlechterung der Stimmqualität. Bei einer fehlerhaften Halbierung der Tonhöhenperiode besteht beispielsweise eine Tendenz zur Erzeugung einer quietschenden Stimme, und bei einer fehlerhaften Verdoppelung der Tonhöhenperiode besteht eine Tendenz zur Erzeugung einer rauen Stimme. Überdies ist ein periodisches Auftreten einer Verdoppelung bzw. Halbierung der Tonhöhenperiode wahrscheinlich, so dass die synthetisierte Stimme dazu tendiert, periodisch zu knacken und zu schnarren.
Bei dem System kann ein adaptives Filter zum Filtern des Restsignals verwendet werden. Durch die Verwendung eines zeitabhängigen Filters mit einem einzigen Pol beim ersten Reflektionskoeffizien ten (k₁ des Spracheingangs) wird das Hochfrequenzrauschen aus den stimmhaften Perioden der Sprache entfernt, die Hochfrequenzinformationen in den stimmlosen Sprachperioden bleiben jedoch erhalten. Das adaptiv gefilterte Restsignal wird dann als Eingang für die Bestimmung der Tonhöhe verwendet.
Es ist erforderlich, die Hochfrequenzinformationen in den stimmlosen Sprachperioden zu erhalten, um eine bessere Feststellung von Stimmhaftigkeit und Stimmlosigkeit zu ermöglichen. Dies bedeutet, dass die Feststellung einer „stimmlosen" Äußerung normalerweise erfolgt, wenn keine starke Tonhöhe festgestellt wird, d.h. wenn keine Korrelationsverzögerung des Restsignals einen hohen normalisierten Korrelationswert ergibt. Wird jedoch nur ein tiefpassgefilterter Teil des Restsignals während stimmloser Sprachperioden überprüft, kann dieses Teilsegment des Restsignals störende Korrelationen enthalten. Dies bedeutet, dass die Gefahr besteht, dass das von dem festen Tiefpassfilter gemäß dem Stand der Technik erzeugte, abgeschnittene Restsignal nicht genügend Daten für einen zuverlässigen Nachweis enthält, dass während stimmloser Perioden keine Korrelation vorliegt, und dass die von der Hochfrequenzenergie stimmloser Perioden gelieferte zusätzliche Bandbreite zum zuverlässigen Ausschließen der störenden Korrelationsverzögerungen erforderlich ist, die anderenfalls auftreten könnten.
Eine Verbesserung der Bestimmung von Tonhöhe und Stimmhaftigkeit ist bei Stimmnachrichtenvermittlungssystemen besonders wichtig, bei anderen Anwendungen jedoch ebenfalls wünschenswert. Eine Worterkennungsvorrichtung, die Tonhöheninformationen nutzt, würde natürliche eine gute Tonhöhenschätzprozedur erfordern. Ähnlich werden Tonhöheninformationen gelegentlich zur Sprecherverifikation verwendet, insbesondere über eine Telefonleitung, bei der ins besondere Hochfrequenzinformationen teilweise verloren gehen. Überdies wäre in der langfristigen Zukunft bei Erkennungssystemen die Fähigkeit begrüßenswert, die syntaktischen Informationen zu berücksichtigen, die durch die Tonhöhe vermittelt werden. Ähnlich wäre bei einigen fortschrittlichen Spracherkennungssystemen, beispielsweise bei Systemen zur Übertragung von Sprache in Text, eine gute Analyse der Stimmhaftigkeit wünschenswert.
Der erste Reflektionskoeffizient k₁ betrifft in etwa das Verhältnis zwischen hohen und niedrigen Frequenzen und einem Signal, siehe R.J. McAulay, „Design of a Robust Maxium Likelihood Pitch Estimator for Speech and Additive Noise", Technical Note, 1979–28, Lincoln Labs, 11. Juni 1979, das durch Bezugnahme hierin aufgenommen ist. Liegt k₁ nahe bei –1, befindet sich mehr niederfrequente als hochfrequente Energie in dem Signal; und das Gegenteil gilt für einen nahe bei 1 liegenden Wert von k₁. Daher wird durch die Verwendung von k₁ zur Bestimmung des Pols eines einpoligen Rückentzerrungsfilters das Restsignal in den stimmhaften Sprachperioden tiefpassgefiltert und in den stimmlosen Sprachperioden hochpassgefiltert. Dies bedeutet, dass die Formantenfrequenzen während der stimmhaften Perioden aus der Berechnung der Tonhöhe ausgeschlossen werden, während die benötigten Informationen mit hoher Bandbreite in den stimmlosen Perioden zur genauen Erfassung der Tatsache gehalten werden, dass keine Tonhöhenkorrelation vorliegt.
Vorzugsweise wird eine dynamische Nachverarbeitungsprogrammiertechnik verwendet, um nicht nur einen optimalen Tonhöhenwert, sondern auch eine optimale Stimmhaftigkeitsbestimmung zu erhalten. Dies bedeutet, dass sowohl die Tonhöhe als auch die Stimmhaftigkeit von Rahmen zu Rahmen verfolgt werden und dass eine kumulativer Abzug für eine Folge von Rahmen betreffenden Ent scheidungen hinsichtlich der Tonhöhe und der Stimmhaftigkeit für unterschiedliche Spuren summiert wird, um die Spur zu finden, die die optimalen Entscheidungen bezüglich der Tonhöhe und der Stimmhaftigkeit gewährleistet. Der summierte Abzug wird unter der Annahme erhalten, dass ein Rahmenfehler von einem Rahmen an den nächsten übertragen wird. Der Rahmenfehler belegt vorzugsweise nicht nur die großen Abweichungen der Tonhöhenperiode von Rahmen zu Rahmen mit einem Abzug, sondern auch die Tonhöhenhypothesen, die einen verhältnismäßig mäßigen „Korrelationsgütewert" aufweisen, und ebenso Veränderungen der Bestimmung der Stimmhaftigkeit, wenn das Spektrum von Rahmen zu Rahmen relativ unverändert bleibt. Dieses letzte Merkmal des Rahmenübergangsfehlers zwingt daher Stimmhaftigkeitsübergänge zu den Punkten der maximalen spektralen Veränderung.
Das Stimmnachrichtenvermittlungssystem umfasst ein als zeitliche Abfolge s_i dargestelltes Spracheingangssignal, das einem LPC-Analyseblock zugeführt wird. Die LPC-Analyse kann mittels einer breiten Vielfalt herkömmlicher Techniken erfolgen, das Endprodukt sind jedoch ein Satz LPC-Parameter und ein Restsignal u_i. Der allgemeine Hintergrund zur LPC-Analyse sowie unterschiedliche Verfahren zur Extraktion von LPC-Parametern sind in zahlreichen, allgemein bekannten Quellen zu finden, einschließlich Markel und Gray, Linear Prediction of Speech (1976) und Rabiner und Schafer, Digital Processing of Speech Signals (1978) sowie den hierin angegebenen Quellen, die alle durch Bezugnahme hierin aufgenommen sind.
Bei der gegenwärtig bevorzugten Ausführungsform wird die analoge Sprachschwingungsform mit einer Frequenz von 8 kHz und einer Präzision von 16 Bit abgetastet, um die Eingangszeitfolge s_i zu erzeugen. Selbstverständlich hängt die vorliegende Erfindung in kei ner Weise von der Abtastgeschwindigkeit oder der verwendeten Präzision ab und ist auf mit jeder beliebigen Geschwindigkeit und mit jedem beliebigen Grad an Präzision abgetastete Sprache anwendbar.
Bei der gegenwärtig bevorzugten Ausführungsform umfasst der verwendete Satz von LPC-Parametern mehrere Reflektionskoeffizienten k_i, und es wird ein LPC-Modell 10. Ordnung verwendet (d.h. nur die Reflektionskoeffizienten k₁ bis k₁₀ werden extrahiert, während Koeffizienten höherer Ordnung nicht extrahiert werden). Es können jedoch auch Modelle anderer Ordnungen oder äquivalente Sätze von LPC-Parametern verwendet werden, wie Fachleuten allgemein bekannt. So können beispielsweise LPC-Vorhersagekoeffizienten a_k oder Impulsreaktionsschätzungen e_k verwendet werden. Die Reflektionskoeffizienten kt sind jedoch am zweckmäßigsten.
Bei der gegenwärtig bevorzugten Ausführungsform werden die Reflektionskoeffizienten gemäß der Leroux-Gueguen-Prozedur extrahiert, die beispielsweise in IEEE Transactions on Acoustics, Speech and Signal Processing, S. 257 (Juni 1977) aufgeführt ist.
Es können jedoch auch andere, Fachleuten bekannte Algorithmen, wie der nach Durbin, zur Berechnung der Koeffizienten verwendet werden.
Ein weiteres Nebenprodukt der Berechnung der LPC-Parameter ist typischerweise ein Restsignal u_k. Werden die Parameter jedoch mittels eines Verfahrens berechnet, bei dem u_k nicht automatisch als Nebenprodukt auftaucht, kann der Rest durch einfaches Verwenden der LPC-Parameter zur Konfiguration eines digitalen Filters für die Empfindlichkeit für finite Impulse gefunden werden, das die restliche Folge u_k anhand der eingegebenen Folge s_k berechnet.
Die Restsignalzeitfolge u_k wird nun einem sehr einfachen digitalen Filterungsvorgang unterzogen, der von den LPC-Parametern für den aktuellen Rahmen abhängt. Dies bedeutet, dass das Spracheingangssignal s_k eine zeitliche Abfolge ist, die einen Wert aufweist, der sich bei jeder einzelnen Abtastung mit einer Abtastrate von beispielsweise 8 kHz ändern kann. Die LPC-Parameter werden jedoch im Allgemeinen nur einmal pro Rahmendauer mit einer Rahmenfrequenz von beispielsweise 100 Hz neu berechnet. Das Restsignal u_k weist ebenfalls eine Periode auf, die mit der Abtastperiode übereinstimmt. Daher wird das digitale Filter, dessen Wert von den LPC-Parametern abhängt, vorzugsweise nicht bei jedem Restsignal u_k neu eingestellt. Bei der gegenwärtig bevorzugten Ausführungsform durchlaufen ca. 80 Werte der zeitlichen Abfolge u_k des Restsignals das Filter 14, bevor ein neuer Wert für die LPC-Parameter erzeugt und daher ein neues Charakteristikum des Filters 14 implementiert wird.
Genauer wird der erste Reflektionskoeffizient k₁ aus dem vom LPC-Analyseabschnitt 12 gelieferten LPC-Parametern extrahiert. Wenn die LPC-Parameter selbst die Reflektionskoeffizienten k₁ sind, ist es lediglich erforderlich, den ersten Reflektionskoeffizienten k₁ abzurufen. Werden jedoch andere LPC-Parameter verwendet, ist die Umwandlung der Parameter zur Erzeugung des Reflektionskoeffizienten erster Ordnung typischerweise extrem einfach, beispielsweise:
Obwohl die Ausführungsform den ersten Reflektionskoeffizienten zum Definieren eines einpoligen adaptiven Filters verwendet, muss das Filter nicht einpolig sein, sondern kann als komplexeres Filter mit einem oder mehreren Polen und einer oder mehreren Nullen konfiguriert sein, von denen einige oder alle erfindungsgemäß adaptiv variiert werden können.
Es sollte auch festgehalten werden, dass die adaptiven Filtercharakteristika nicht vom ersten Reflektionskoeffizient k₁ bestimmt werden müssen. Wie in der Technik allgemein bekannt, existieren zahlreiche äquivalente Sätze von LPC-Parametern, und die Parameter in anderen LPC-Parametersätzen können ebenfalls wünschenswerte Filtercharakteristika aufweisen. Genauer ist es bei jedem Satz von LPC-Parametern am wahrscheinlichsten, dass die Parameter niedrigster Ordnung Informationen über die Gesamtspektralform liefern. Daher könnte ein erfindungsgemäßes adaptives Filter a₁ oder e₁ zum Definieren eines Pols verwenden, ein- oder mehrpolig sein und einzeln oder in Kombination mit anderen Nullen oder Polen verwendet werden. Überdies muss der von einem LPC-Parameter adaptiv definierte Pol (bzw. die Null) nicht genau mit dem Parameter übereinstimmen, wie bei der gegenwärtig bevorzugten Ausführungsform, sondern seine Größe oder Phase können verschoben sein.
Daher filtert das einpolige adaptive Filter die Restsignalzeitfolge u_k, um eine gefilterte Zeitfolge u'_k zu erzeugen. Wie vorstehend besprochen, wird die Hochfrequenzenergie der gefilterten Zeitfolge u'_k während der stimmhaften Sprachanteile stark verringert, behält jedoch während der stimmlosen Sprachanteile beinahe die volle Frequenzbandbreite bei. Das gefilterte Restsignal u'_k wird dann einer weiteren Verarbeitung unterzogen, um die möglichen Tonhöhen und die Feststellung der Stimmhaftigkeit zu extrahieren.
Es existiert eine breite Vielfalt an Verfahren zur Extraktion von Tonhöheninformationen aus einem Restsignal, und jedes von ihnen kann verwendet werden. Viele von ihnen sind in dem durch Bezugnahme hierin aufgenommenen Buch von Markel und Gray allgemein besprochen.
Bei der gegenwärtig bevorzugten Ausführungsform werden die möglichen Tonhöhenwerte durch Finden der Spitzen in der wie folgt definierten, normalisierten Korrelationsfunktion des gefilterten Restsignals ermittelt:
wobei u'j das gefilterte Restsignal ist, k_min und k_max die Grenzen für die Korrelationsverzögerung k definieren und m die Anzahl der Proben in einer Rahmenperiode (bei der bevorzugten Ausführungsform 80) ist und daher die Anzahl der zu korrelierenden Proben definiert. Die möglichen Tonhöhenwerte werden durch die Verzögerungen k* definiert, wobei der Wert C(k*) ein lokales Maximum bildet und der Skalenwert C(k) zur Definition des „Gütewerts" für jeden möglichen Wert k* verwendet wird.
Wahlweise wird ein Schwellenwert C_min in die Gütemessung C(k) einbezogen, und die lokalen Maxima von C(k), die den Schwellenwert C_min nicht übersteigen, werden ignoriert. Existiert kein Wert k*, bei dem C(k*) größer als C_min ist, ist der Rahmen notwendiger Weise stimmlos.
Alternativ kann auf den Güteschwellenwert C_min verzichtet werden, und die normalisierte Autokorrelationsfunktion 1112 kann einfach so gesteuert werden, dass sie eine gegebene Anzahl an Möglichkeiten mit den besten Gütewerten meldet, beispielsweise 16 mögliche Tonhöhenperioden k mit den größten Werten von C(k).
Bei einer Ausführungsform wird überhaupt kein Schwellenwert in den Gütewert C(k) einbezogen, und es erfolgt in diesem Stadium keine Entscheidung hinsichtlich der Stimmhaftigkeit. Statt dessen werden die 16 möglichen Tonhöhenperioden k*₁, k*₂, etc. zusammen mit dem entsprechenden Gütewert (C(k*_i)) für jede von ihnen gemeldet. Bei der gegenwärtig bevorzugten Ausführungsform erfolgt die Feststellung der Stimmhaftigkeit selbst dann nicht in diesem Stadium, wenn sämtliche Werte von C(k) extrem niedrig sind, sondern die Feststellung der Stimmhaftigkeit erfolgt in dem nachstehend beschriebenen, nachfolgenden, dynamischen Programmierschritt.
Bei der gegenwärtig bevorzugten Ausführungsform wird entsprechend einem Spitzensuchalgorithmus eine veränderliche Anzahl an möglichen Tonhöhen identifiziert. Dies bedeutet, dass der Graph der „Gütewerte" C(k) bezogen auf die mögliche Tonhöhenperiode k verfolgt wird. Jedes lokale Maximum wird als mögliche Spitze identifiziert. Das Vorhandensein einer Spitze bei diesem identifizierten lokalen Maximum wird jedoch nicht bestätigt, bis die Funktion anschließend um einen konstanten Betrag gefallen ist. Das bestätigte lokale Maximum bildet dann eine der möglichen Tonhöhenperioden. Nach der Identifikation jeder möglichen Spitze auf diese Weise sucht der Algorithmus dann nach einem Tal. Dies bedeutet, dass jedes lokale Minimum als mögliches Tal identifiziert, jedoch nicht bestätigt wird, bis die Funktion anschließend um einen vorgegebenen konstanten Wert angestiegen ist. Die Täler werden nicht separat gemeldet, doch es ist ein auf eine bestätigte Spitze folgendes bestätigtes Tal erforderlich, bevor eine neue Spitze identifiziert wird. Bei der gegenwärtig bevorzugten Ausführungsform, bei der die Gütewerte so definiert sind, dass sie durch + 1 bzw. –1 begrenzt werden, wurde der zur Bestätigung einer Spitze oder eines Tals erforderliche konstante Wert auf 0,2 eingestellt, doch dies kann erheblich variiert werden. Daher liefert diese Stufe eine veränderliche Anzahl von null bis 15 möglichen Tonhöhen als Ausgang.
Bei der gegenwärtig bevorzugten Ausführungsform wird der in den vorhergehenden Schritten gelieferte Satz von möglichen Tonhöhenperioden dann einem dynamischen Programmieralgorithmus zugeführt. Dieser dynamische Programmieralgorithmus verfolgt sowohl Bestimmungen der Tonhöhe als auch der Stimmhaftigkeit, um für jeden Rahmen eine Bestimmung von Tonhöhe und Stimmhaftigkeit zu liefern, die im Kontext mit ihren Nachbarn optimal ist.
Sind die möglichen Tonhöhenwerte und ihre Gütewerte C(k) gegeben, wird nun eine dynamische Programmierung verwendet, um eine optimale Tonhöhenkontur zu erhalten, die eine optimale Stimmhaftigkeitsbestimmung für jeden Rahmen einschließt. Die dynamische Programmierung erfordert, dass mehrere Sprachrahmen in einem Sprachsegment analysiert werden müssen, bevor die Tonhöhe und die Stimmhaftigkeit für den ersten Rahmen des Segments bestimmt werden können. Für jeden Rahmen des Sprachsegments wird jede mögliche Tonhöhe mit den gehaltenen möglichen Tonhöhen aus dem vorhergehenden Rahmen verglichen. Jede gehaltene mögliche Tonhöhe aus dem vorhergehenden Rahmen bringt einen kumulativen Abzug mit sich, und jeder Vergleich zwischen jeder neuen möglichen Tonhöhe und jeder gehaltenen möglichen Tonhöhe umfasst auch eine neue Distanzmessung. Daher existiert für jede mögliche Tonhöhe im neuen Rahmen ein kleinster Abzug, der die beste Übereinstimmung mit einer der gehaltenen möglichen Tonhöhen des vorherigen Rahmens repräsentiert. Wenn der kleinste kumulative Abzug für jede neue Möglichkeit berechnet wurde, wird die Möglichkeit zusammen mit ihrem kumulativen Abzug und einem rückwärtsgerichteten Zeiger auf die beste Übereinstimmung im vorherigen Rahmen gehalten. Dadurch definieren die rückwärtsgerichteten Zeiger eine Bahnkurve mit einem kumulativen Abzug, wie im kumulativen Abzugswert des letzten Rahmens in der Vorausplanungsrate aufgelistet. Die optimale Bahnkurve für jeden gegebenen Rahmen wird durch Wählen der Bahnkurve mit dem minimalen kumulativen Abzug ermittelt. Der stimmlose Zustand wird als mögliche Tonhöhe in jedem Rahmen definiert. Die Straffunktion umfasst vorzugsweise Stimmhaftigkeitsinformationen, so dass die Stimmhaftigkeitsbestimmung ein natürliches Ergebnis der dynamischen Programmierstrategie ist.
Bei der gegenwärtig bevorzugten Ausführungsform ist die dynamische Programmierstrategie 16 breit und 6 tief. Dies bedeutet, dass 15 (oder weniger) Möglichkeiten plus die Bestimmung „stimmlos" (die zweckmäßiger Weise als Tonhöhenperiode von null festgelegt wird) in jedem Rahmen als mögliche Tonhöhenperioden identifiziert werden und dass sämtliche 16 Möglichkeiten zusammen mit ihren Gütewerten über die sechs vorhergehenden Rahmen gehalten werden.
Die Bestimmungen von Tonhöhe und Stimmhaftigkeit erfolgen nur für den ältesten im dynamischen Programmieralgorithmus enthaltenen Rahmen endgültig. Dies bedeutet, dass die Bestimmung von Tonhöhe und Stimmhaftigkeit die mögliche Tonhöhe im Rahmen F_K – 5 akzeptiert, deren gegenwärtige Bahnkurvenkosten minimal waren. Dies bedeutet, dass von den 16 (oder weniger) Bahnkurven, die am jüngsten Rahmen F_K enden, die mögliche Tonhöhe im Rahmen F_K, die die geringsten kumulativen Bahnkurvenkosten aufweist, die optimale Bahnkurve identifiziert. Die optimale Bahnkurve wird dann zurückverfolgt und zur Bestimmung von Tonhöhe und Stimmhaftigkeit für den Rahmen F_K – 5 verwendet. Es wird darauf hingewiesen, dass für die nachfolgenden Rahmen (F_K – 4, etc.) keine endgültige Bestimmung der möglichen Tonhöhe erfolgt, da die optimale Bahnkurve nach der Bewertung von mehr Rahmen nicht mehr optimal erscheinen muss. Selbstverständlich ist Fachleuten auf dem Gebiet der numerischen Optimierung allgemein bekannt, dass eine endgültige Bestimmung bei einem derartigen dynamischen Programmieralgorithmus zu anderen Zeitpunkten erfolgen kann, beispielsweise beim vorletzten im Puffer gehaltenen Rahmen. Zudem können die Breite und Tiefe des Puffers erheblich variiert werden. Wie für Fachleute erkennbar, könnten beispielsweise bis zu 64 mögliche Tonhöhen oder nur zwei bewertet werden, der Puffer kann nur einen vorhergehenden Rahmen oder bis zu 16 vorhergehende Rahmen halten, und weitere Modifikationen und Variationen können eingerichtet werden. Der dynamische Programmieralgorithmus wird von dem Übergangsfehler zwischen einer möglichen Tonhöhenperiode in einem Rahmen und einer möglichen Tonhöhenperiode in dem darauf folgenden Rahmen definiert. Bei der gegenwärtig bevorzugten Ausführungsform wird dieser Übergangsfehler als die Summe aus drei Teilen definiert: einem Fehler E_p aufgrund von Tonhöhenabweichungen, einem Fehler E_s aufgrund von möglichen Tonhöhen mit einem niedrigen „Gütewert" und einem Fehler E_t aufgrund eines Stimmhaftigkeitsübergangs.
Der Tonhöhenabweichungsfehler E_p ist eine Funktion der aktuellen Tonhöhenperiode und der vorhergehenden Tonhöhenperiode und durch
gegeben, wenn beide Rahmen stimmhaft sind und E_P = B_P·D_N gilt, anderenfalls, wenn tau die mögliche Tonhöhenperiode des aktuellen Rahmens ist, ist tau_p eine gehaltene Tonhöhenperiode des vorherge henden Rahmens, in Bezug auf die der Übergangsfehler berechnet wird, und B_P, A_D und D_N sind Konstanten. Es wird darauf hingewiesen, dass die Minimumfunktion Vorkehrungen für eine Tonhöhenperiodenverdoppelung und eine Tonhöhenperiodenhalbierung enthält. Diese Vorkehrungen sind bei der vorliegenden Erfindung streng genommen nicht erforderlich, werden jedoch für vorteilhaft gehalten. Selbstverständlich könnten wahlweise ähnliche Vorkehrungen für eine Tonhöhenperiodenverdreifachung, etc. getroffen werden.
Der Stimmhaftigkeitszustandsfehler Es ist eine Funktion des „Gütewerts" C(k) der betrachteten möglichen Tonhöhe des aktuellen Rahmens. Bei einer stimmlosen Möglichkeit, die stets in den 16 oder weniger für jeden Rahmen zu untersuchenden möglichen Tonhöhenperioden enthalten ist, wird der Gütewert C(k) auf das Maximum von C(k) für sämtliche anderen 15 möglichen Tonhöhenperioden im gleichen Rahmen eingestellt. Der Stimmhaftigkeitszustandsfehler Es ist durch E_s = B_S (R_V – C(tau)) gegeben, wenn die aktuelle Möglichkeit stimmhaft ist, und anderenfalls durch E_S = B_S(C(tau) – R_U), wobei C(tau) der der aktuellen möglichten Tonhöhe tau entsprechende „Gütewert" ist und B_S, R_V und R_U Konstanten sind.
Der Stimmhaftigkeitsübergangsfehler Er ist in Begriffen einer Spektraldifferenzmessung T definiert. Die Spektraldifferenzmessung T definiert für jeden Rahmen allgemein, wie unterschiedlich sein Spektrum in Bezug auf das Spektrum des Empfangsrahmens ist. Offensichtlich kann eine Reihe von Definitionen für eine derartige Spektraldifferenzmessung verwendet werden, die bei der gegenwärtig bevorzugten Ausführungsform wie folgt definiert ist:
wobei E die RMS-Energie des aktuellen Rahmens, E_P die Energie des vorhergehenden Rahmens, L(N) das N-te log-Bereichsverhältnis des aktuellen Rahmens und L_P(N) das N-te log-Bereichsverhältnis des vorhergehenden Rahmens ist. Das log-Bereichsverhältnis L(N) wird anhand des N-ten Reflektionskoeffizienten k_N wie folgt direkt berechnet:
Der Stimmhaftigkeitsübergangsfehler Er wird dann als Funktion der Spektraldifferenzmessung T wie folgt definiert: Wenn sowohl der aktuelle als auch der vorhergehende Rahmen stimmlos sind bzw. wenn beide stimmhaft sind, wird Er auf 0 eingestellt; anderenfalls gilt E_T = G_T + A_T/T, wobei T die Spektraldifferenzmessung des aktuellen Rahmens ist. Erneut könnte die Definition des Stimmhaftigkeitsübergangsfehlers erheblich variiert werden. Das Kernmerkmal des Stimmhaftigkeitsübergangsfehlers, wie er hier definiert ist, ist, dass, wann immer eine Veränderung des Stimmhaftigkeitszustands (von stimmhaft zu stimmlos bzw. von stimmlos zu stimmhaft) auftritt, ein Abzug bewertet wird, der eine abnehmende Funktion der spektralen Differenz zwischen den beiden Rahmen ist. Dies bedeutet, dass eine Veränderung des Stimmhaftigkeitszustands hintangesetzt wird, wenn nicht auch eine signifikante spektrale Veränderung auftritt.
Eine derartige Definition eines Stimmhaftigkeitsübergangsfehlers bietet bei der vorliegenden Erfindung erhebliche Vorteile, da dadurch die zum Erhalt ausgezeichneter Stimmhaftigkeitszustandsbestimmungen erforderliche Verarbeitungszeit verringert wird.
Die übrigen Fehler E_S und E_P, die bei der gegenwärtig bevorzugten Ausführungsform den Übergangsfehler ausmachen, können e benfalls verschieden definiert werden. Dies bedeutet, dass der Stimmhaftigkeitszustandsfehler auf jede Art und Weise definiert werden kann, die allgemein Tonhöhenperiodenhypothesen, die zu den Daten im aktuellen Rahmen zu passen scheinen, gegenüber denen bevorzugt, die weniger gut zu den Daten passen. Ähnlich kann der Tonhöhenabweichungsfehler E_P auf jede Art und Weise definiert werden, die allgemein Änderungen der Tonhöhenperiode entspricht. Der Tonhöhenabweichungsfehler muss keine Vorkehrungen für eine Verdoppelung oder Halbierung enthalten, wie hier ausgeführt, obwohl derartige Vorkehrungen wünschenswert sind.
Ein weiteres wahlweise vorgesehenes Merkmal der Erfindung ist, dass es, wenn der Tonhöhenabweichungsfehler Vorkehrungen enthält, die Tonhöhe über Verdoppelungen und Halbierungen zu verfolgen, wünschenswert sein kann, die Tonhöhenperiodenwerte nach der Identifikation der optimalen Bahnkurve entlang der optimalen Bahnkurve zu verdoppeln (bzw. zu halbieren), um sie so weit wie möglich konsistent zu halten.
Es sollte auch festgehalten werden, dass es nicht erforderlich ist, alle drei identifizierten Komponenten des Übergangsfehlers zu verwenden. Auf den Stimmhaftigkeitszustandsfehler kann beispielsweise verzichtet werden, wenn eine vorangehende Stufe Tonhöhenhypothesen mit niedrigem „Gütewert" aussondern würde oder wenn die Tonhöhenperioden auf irgendeine Weise einer Rangordnung entsprechend so nach dem „Gütewert" geordnet würden, dass die Tonhöhenperioden mit höherem Gütewert vorgezogen würden, oder durch andere Mittel. Ähnlich können, wenn gewünscht, weitere Komponenten in die Definition des Übergangsfehlers einbezogen werden.
Es sollte auch festgehalten werden, dass das von der vorliegenden Erfindung gelehrte, dynamische Programmierverfahren nicht notwendigerweise auf aus einem adaptiv gefilterten Restsignal extrahierte, mögliche Tonhöhenperioden angewendet werden muss, nicht einmal auf mögliche Tonhöhenperioden, die aus dem LPC-Restsignal abgeleitet wurden, sondern dass es auf jeden Satz möglicher Tonhöhenperioden angewendet werden kann, einschließlich direkt aus dem ursprünglich eingegebenen Sprachsignal extrahierter, möglicher Tonhöhenperioden.
Die drei Fehler werden dann summiert, um den Gesamtfehler zwischen einer der möglichen Tonhöhen im aktuellen Rahmen und einer möglichen Tonhöhe im vorangegangenen Rahmen zu ermitteln. Wie vorstehend ausgeführt, werden diese Übergangsfehler dann kumulativ summiert, um kumulative Abzüge für jede Bahnkurve in dem dynamischen Programmieralgorithmus zu erhalten.
Dieses dynamische Programmierverfahren zum gleichzeitigen Feststellen sowohl der Tonhöhe als auch der Stimmhaftigkeit ist in sich selbst neuartig und muss nicht nur in Kombination mit dem gegenwärtig bevorzugten Verfahren zum Feststellen der möglichen Tonhöhenperioden verwendet werden. Jedes Verfahren zum Feststellen möglicher Tonhöhenperioden kann in Kombination mit diesem neuartigen, dynamischen Programmieralgorithmus verwendet werden. Unabhängig davon, welches Verfahren zum Feststellen der möglichen Tonhöhenperioden verwendet wird, werden die Möglichkeiten einfach als Eingang für den dynamischen Programmieralgorithmus bereitgestellt.
Genauer ist dieses System, obwohl gegenwärtig die Ausführungsform der vorliegenden Erfindung bevorzugt wird, bei der ein Minicomputer und eine hoch präzise Abtastung verwendet werden, für Anwendungen im großen Stil nicht wirtschaftlich. Daher wird erwartet, dass der bevorzugte Modus für die praktische Anwendung der Erfindung in der Zukunft eine Ausführungsform ist, die ein auf einem Mikrocomputer basierendes System, wie den TI Professional Computer, verwendet. Dieser professionelle Computer ist, wenn er so aufgebaut ist, dass er ein Mikrofon, einen Lautsprecher und eine Sprachverarbeitungsplatine mit einem TMS 320 Mikroprozessor für eine numerische Verarbeitung und Datenumwandler umfasst, eine zur Umsetzung der vorliegenden Erfindung in die Praxis ausreichende Hardware.
AUF DER STIMME BASIERENDE IDENTITÄTSAUTHENTIFIZIERUNG FÜR DEN ZUGRIFF AUF DATEN
21 zeigt eine Ausführungsform der vorliegenden Erfindung, die einen Benutzer über eine Stimmverifikation identifiziert, um dem Benutzer den Zugriff auf Daten in einem Netzwerk zu gestatten. Fordert ein Benutzer einen Zugriff auf Daten, wie eine Website, an, wird der Benutzer in einem Arbeitsschritt 2100 zur Abgabe einer Stimmprobe aufgefordert. In einem Arbeitsschritt 2102 wird die Stimmprobe des Benutzers über das Netzwerk empfangen. Die einen Benutzer betreffenden Anmeldungsinformationen werden in einem Arbeitsschritt 2104 abgerufen. Es wird darauf hingewiesen, dass die Informationen aus einer lokalen Speichervorrichtung oder über das Netzwerk abgerufen werden können. In den Anmeldungsinformationen ist eine Stimmabtastung der Stimme des Benutzers enthalten. Die Stimmprobe des Benutzers wird in einem Arbeitsschritt 2106 mit der Stimmabtastung aus den Anmeldungsinformationen verglichen, um die Identität des Benutzers zu verifizieren. Der Arbeitsschritt 2106 wird nachstehend genauer besprochen. Wird die Identität des Benutzers im Arbeitsschritt 2106 verifiziert, wird dem Benutzer in einem Arbeitsschritt 2108 der Zugriff auf die Daten gewährt. Wird die Identität des Benutzers im Arbeitsschritt 2106 nicht verifiziert, wird der Zugriff auf die Daten in einem Arbeitsschritt 2110 verweigert. Diese Ausführungsform ist insbesondere im Bereich des eCommerce (des elektronischen Handels) dadurch nützlich, dass sie die Notwendigkeit von Authentifizierungsbestätigungen und der zu ihrer Ausstellung benötigten, vertrauenswürdigen dritten Parteien eliminiert. Eine genauere Beschreibung der Prozesse und Vorrichtungen zum Ausführen dieser Operationen ist nachstehend zu finden, wobei insbesondere auf die 22–27 und 29–34 Bezug genommen wird.
Bei einer Ausführungsform der vorliegenden Erfindung wird die Stimme des Benutzers aufgenommen, um die Stimmabtastung zu erzeugen, die dann gespeichert wird. Dies kann einen Teil eines Anmeldungsprozesses ausmachen. Der Benutzer könnte beispielsweise in ein mit seinem bzw. ihrem Computer verbundenes Mikrofon sprechen, wenn er bzw. sie während eines Anmeldungsprozesses dazu aufgefordert wird. Die resultierenden Stimmdaten würden über das Netzwerk, beispielsweise das Internet, an eine Website gesendet, wo sie für einen späteren Abruf während eines Verifikationsprozesses gespeichert würden. Dann würde der Benutzer, wenn er auf die Website bzw. einen bestimmten Teil der Website zugreifen wollte, aufgefordert, eine Stimmprobe abzugeben, die empfangen und mit den in der Website gespeicherten Stimmdaten verglichen würde. Als Option könnte die Stimmabtastung ein Passwort des Benutzers enthalten.
Vorzugsweise umfasst die Stimmabtastung aus Gründen der zusätzlichen Sicherheit mehr als einen vom Benutzer gesprochenen Satz. Bei einer derartigen Ausführungsform könnten als Teil der Stimmabtastung beispielsweise mehrere Passwörter gespeichert sein, und der Benutzer müsste eine Stimmprobe sämtlicher Passwörter abgeben. Alternativ könnten für unterschiedliche Zugriffsniveaus oder unterschiedliche Teile der Daten unterschiedliche Sätze erforderlich sein. Die unterschiedlichen Sätze könnten auch als Navigationssteuerung verwendet werden, wie bei einer Zuordnung von Sätzen zu bestimmten Seiten auf einer Website. Der Benutzer würde aufgefordert, ein Passwort auszusprechen. Abhängig von dem empfangenen Passwort würde die diesem Passwort zugeordnete Website angezeigt.
Durch das Zuzulassen, dass die Stimmabtastung mehr als einen Satz enthält, ermöglicht auch eine Verifikation der Identität durch das Vergleichen alternativer Sätze, beispielsweise durch Auffordern des Benutzers, einen zusätzlichen Satz zu sprechen, wenn seine Identität durch einen ersten Satz nicht verifiziert werden kann. Stimmt die Stimmprobe des Benutzers beispielsweise beinahe mit der Stimmabtastung überein, während die Diskrepanzen zwischen beiden über einem vorgegebenen Schwellewert liegen, kann der Benutzer aufgefordert werden, einen zweiten Satz auszusprechen, der ebenfalls zur Verifikation der Identität des Benutzers verwendet würde. Dies würde dem Benutzer mehr als eine Möglichkeit einräumen, zu versuchen, auf die Daten zuzugreifen, und könnte besonders für einen Benutzer nützlich sein, der unter einer Krankheit, wie einer Erkältung, leidet, die seine Stimme leicht verändert. Wahlweise können die Stimmprobe des Benutzers und/oder der Zeitpunkt und das Datum des Empfangs der Stimmprobe vom Benutzer aufgezeichnet werden.
Unter Bezugnahme auf den Arbeitsschritt 2106 gemäß 21 betrifft eine beispielhafte Ausführungsform der vorliegenden Erfindung ein System und ein Verfahren zur Bestimmung einer positiven oder negativen Identität eines Sprechers, bei denen mindestens zwei unterschiedliche Stimmauthentifizierungsvorrichtungen verwendet werden und die bei einem gesicherten System zur Überwachung eines kontrollierten Zugriffs verwendet werden können. Insbesondere kann diese Ausführungsform der vorliegenden Erfindung zur Schaffung einer Stimmauthentifizierung verwendet werden, die durch eine außergewöhnlich niedrige fehlerhafte Akzeptanz- und eine extrem niedrige fälschliche Zurückweisungsrate gekennzeichnet ist.
Der Begriff „gesichertes System" bezeichnet im hier verwendeten Sinne jede Website, jedes System, jede Vorrichtung, etc., die nur autorisierten Personen Zugriff gewähren, die jedes Mal positiv authentifiziert bzw. identifiziert werden müssen, wenn eine von ihnen Zugriff auf das System bzw. die Vorrichtung erhalten oder es benutzen möchte.
Die Prinzipien und die Funktionsweise des Systems und des Verfahrens zur Stimmauthentifizierung sind unter Bezugnahme auf die Zeichnungen und die sie begleitenden Beschreibungen leichter zu verstehen.
Bezug nehmend auf die Zeichnungen, stellt 22 das Grundkonzept eines zur Steuerung des Zugriffs auf ein gesichertes System verwendeten Stimmauthentifizierungssystems dar.
Ein Sprecher 2220 kommuniziert entweder gleichzeitig oder nacheinander mit einem gesicherten System 2222 und einem Sicherheitszentrum 2224. Die Stimme des Sprechers 2220 wird zur Authentifizierung von dem Sicherheitszentrum 2224 analysiert, wenn die Authentifizierung von dem Sicherheitszentrum 2224 positiv festgestellt wurde, wird ein Kommunikationsbefehl von diesem an das gesicherte System 2222 gesendet, eine durch 2226 bezeichnete, positive Identifikation (ID) des Sprechers 2220 wird bestätigt, wie durch 2226 bezeichnet, und dem Sprecher 2220 wird Zugriff auf das gesicherte System 2222 gewährt.
Das in 22 gezeigte System gemäß dem Stand der Technik verwendet einen einzigen Stimmauthentifizierungsalgorithmus. Als solches leidet dieses System an dem vorstehend beschriebenen Konflikt zwischen fehlerhaften Akzeptanzraten und fehlerhaften Zurückweisungsraten, was zu übermäßig hohen fehlerhaften Akzeptanzraten und/oder übermäßig hohen fehlerhaften Zurückweisungsraten führt, die das System jeweils ungesichert hinterlassen und/oder ineffizient machen.
Durch Ausführungsformen werden ein System und ein Verfahren zum Nachweis der Identität eines Sprechers durch mindestens zwei unterschiedliche Stimmauthentifizierungsalgorithmen geschaffen. Durch die Auswahl von Stimmauthentifizierungsalgorithmen, die sich erheblich voneinander unterscheiden (beispielsweise von textabhängigen und textunabhängigen Algorithmen), wird sichergestellt, dass die Algorithmen hinsichtlich des Auftretens einer fehlerhaften Akzeptanz bzw. einer fehlerhaften Zurückweisung statistisch nicht vollständig in Wechselbeziehung zueinander stehen, d.h. dass r < 1,0 gilt, wobei r ein statistischer Korrelationskoeffizient ist.
Wird davon ausgegangen, dass zwei unterschiedliche Stimmauthentifizierungsalgorithmen überhaupt nicht in Wechselbeziehung stehen (d.h. dass r = 0 gilt) und dass der Schwellenwert für die fehlerhafte Zurückweisung bei jedem der Algorithmen auf einen niedrigen Wert von beispielsweise 0,5 % eingestellt ist, so ist gemäß dem Ausgleichsgesetz und wie durch 1 von J. Guavain, L. Lamel und B. Prouts (März 1995), LIMSI 1995 Scientific Report vorhergesagt bei jedem der Algorithmen eine außergewöhnlich hohe fehlerhafte Akzeptanzrate zu erwarten, in diesem Fall in der Größenordnung von 8 %.
Wird eine positive Identität jedoch nur nachgewiesen, wenn beide Algorithmen den Sprecher positiv authentifizieren, ist eine kombinierte fehlerhafte Akzeptanz von (8 % – 2) oder 0,6 % zu erwarten, wogegen eine kombinierte fehlerhafte Zurückweisung von 0,5 %·2 bzw. 1 % zu erwarten ist.
Es ist zu erwarten, dass der erwartete Wert der kombinierten fehlerhaften Akzeptanz zunimmt und der erwartete Wert der fehlerhaften Zurückweisung abnimmt, wenn der Grad der Korrelation zwischen den Algorithmen zunimmt, so dass bei einem Vorliegen einer vollständigen Korrelation (d.h. bei r = 1) die kombinierten Werte des gegebenen Beispiels auf 0,5 % und 8 % zurückgesetzt werden.
Es wird darauf hingewiesen, dass der beste EER-Wert der von B. Prouts verwendeten Algorithmen 3,5 % betrug. Bei einer Extrapolation der Aufzeichnungen von B. Prouts, um ähnlich einen Algorithmus mit einem EER-Wert von 2 % (was der gegenwärtige Stand der Technik ist) darzustellen, kann eine Einstellung der fehlerhaften Zurückweisung auf 0,3 % gewählt werden, dann liegt die fehlerhafte Akzeptanz bei einer Größenordnung von 4,6 %, wodurch eine kombinierte fehlerhafte Akzeptanz von 0,2 % und eine kombinierte fehlerhafte Zurückweisung von 0,6 % erzielt wird.
Daher bezieht sich das hier in der Beschreibung und in den nachfolgenden Ansprüchen verwendete Konzept der „unterschiedlichen Algorithmen" auf Algorithmen mit einer Korrelation von r < 1,0.
23 zeigt ein erfindungsgemäßes System zum Nachweis der Identität eines Sprechers, das nachstehend als System 2350 bezeichnet wird.
Das System 2350 umfasst ein computerisiertes System 2352, das mindestens zwei Stimmauthentifizierungsalgorithmen 2354 um fasst, von denen zwei dargestellt und durch 2354a und 2354b bezeichnet sind.
Die Algorithmen 2354 werden so ausgewählt, dass sie sich voneinander unterscheiden, und jeder dient einer unabhängigen Analyse der Stimme eines Sprechers zum Erhalt einer unabhängigen positiven bzw. negativen Authentifizierung der Stimme durch jeden von ihnen. Wenn jeder der Algorithmen 2354 eine positive Authentifizierung liefert, ist der Sprechende positiv identifiziert, wogegen der Sprecher negativ identifiziert (d.h, als Eindringling identifiziert) ist, wenn mindestens einer der Algorithmen 2354 eine negative Authentifizierung liefert.
Es können sowohl textabhängige als auch textunabhängige Stimmauthentifizierungsalgorithmen verwendet werden. Beispiele umfassen eine Merkmalsextraktion gefolgt von einem Musterabgleichsalgorithmus, wie beispielsweise in dem US-Patent Nr.
5,666,466, Neural Network Voice Authentication Algorithms, dem US-Patent Nr. 5,461,697, Dynamic Time Warping (DTW) Algorithm, dem US-Patent Nr. 5,625,747, Hidden Markov Model (HMM) Algorithm, dem US-Patent Nr. 5,526,465, Vector Quantization (VQ) Algorithm, und dem US-Patent Nr. 5,640,490 beschrieben. Sämtliche genannten Patente sind durch Bezugnahme aufgenommen, wie hier vollständig aufgeführt.
Bei einer bevorzugten Ausführungsform der vorliegenden Erfindung ist ein Schwellenwert für eine fehlerhafte Zurückweisung bei jedem der Algorithmen 2354 auf ein Niveau von 0,5 % oder weniger, vorzugsweise von 0,4 % oder weniger, noch bevorzugter von 0,3 % oder weniger und am bevorzugtesten von 0,2 % oder weniger bzw. von ca. 0,1 % eingestellt.
Abhängig von der Anwendung kann die Stimme des Sprechenden von dem System 2352 direkt angenommen werden, alternativ kann die Stimme des Sprechenden von dem System 2352 über einen Fernkommunikationsmodus angenommen werden.
So wird bei einer bevorzugten Ausführungsform die Stimme des Sprechenden von dem computerisierten System 2352 über einen Fernkommunikationsmodus 2356 zur Analyse angenommen. Der Fernkommunikationsmodus 2356 kann beispielsweise ein Festnetz- oder Mobiltelefonkommunikationsmodus, ein Computertelefonkommunikationsmodus (beispielsweise Internet oder Intranet) oder ein Funkkommunikationsmodus sein. Diese Kommunikationsmodi sind in 23 durch ein universelles Telefonsymbol symbolisiert, das, wie durch die gestrichelten Linien dargestellt, mit mindestens einem in dem computerisierten System 2352 implementierten Empfänger 2358 kommuniziert (wobei zwei dargestellt und durch 2358a und 2358b bezeichnet sind).
Bei einer weiteren bevorzugten Ausführungsform der vorliegenden Erfindung umfasst das computerisierte System 2352 mindestens zwei Hardwareinstallationen 2360 (von denen zwei, nämlich 2360a und 2360b, dargestellt sind), die jeweils der Aktivierung eines Stimmauthentifizierungsalgorithmus 2354 dienen. Die Hardwareinstallationen 2360 können jedem beliebigen Typ angehören, einschließlich einer Personal Computer Plattform (einer PC-Plattform) oder eines Äquivalents, einer zugeordneten Platine in einem Computer, etc., jedoch nicht darauf beschränkt. Die Hardwareinstallationen 2360 können voneinander entfernt sein. Im hier verwendeten Sinne bezeichnet „entfernt" eine Situation, in der die Installationen 2360 über ein Fernkommunikationsmedium miteinander kommunizieren.
Bei einer Anwendung der vorliegenden Erfindung ist mindestens eine der Hardwareinstallationen 2360, beispielsweise 2360a, in einem gesicherten System 2362 implementiert, wogegen mindestens eine andere der Hardwareinstallationen 2360, beispielsweise 2360b, in einem Sicherheitszentrum 2364 implementiert ist. Bei einer bevorzugten Ausführungsform kommuniziert die im Sicherheitszentrum 2364 implementierte Hardwareinstallation 2360b so mit der in dem gesicherten System 2362 implementierten Hardwareinstallation 2360a, dass sämtliche positiven bzw. negativen Identifikationsdaten des Sprechers schließlich in dem gesicherten System 2362 nachgewiesen sind.
Der hier in der Beschreibung und in den nachfolgenden Ansprüchen verwendete Begriff „Sicherheitszentrum" bezeichnet ein Computersystem, das der Aktivierung mindestens eines Stimmauthentifizierungsalgorithmus dient und damit einen Teil des Prozesses zur positiven bzw. negativen Identifikation des Sprechers ausführt.
Bei einer bevorzugten Ausführungsform der Erfindung umfasst das computerisierte System 2352 ferner einen Stimmerkennungsalgorithmus 2366. Der Algorithmus 2366 dient der Erkennung von durch den Sprecher ausgesprochenen Wortdaten (im Gegensatz zur Identifikation des Sprechenden anhand einer stimmlichen Äußerung) und damit der Betätigung des gesicherten Systems 2362. Der Algorithmus 2366 dient ferner vorzugsweise der positiven bzw. negativen Erkennung der Wortdaten, und bei einem positiven Nachweis der Identität über die Algorithmen 2354, wie vorstehend beschrieben, erhält der Sprechende nur dann durch das Herstellen einer positiven oder negativen Korrelation zwischen zumindest einigen der Wortda ten und dem authentifizierten Sprecher Zugriff auf das gesicherte System 2362, wenn eine derartige Korrelation positiv ist.
Die von dem Sprechenden ausgesprochenen Wortdaten können jeden gesprochenen Satz (mindestens ein Wort) umfassen, beispielsweise einen Namen, eine Identifikationsnummer und eine Anforderung, sind jedoch nicht darauf beschränkt.
Bei einer bevorzugten Ausführungsform der Erfindung kommuniziert ein einziges Sicherheitszentrum 2364, in dem ein Stimmauthentifizierungsalgorithmus 2354 implementier ist, mit mehreren gesicherten Systemen 2362, von denen jedes einen anderen (zweiten) Stimmauthentifizierungsalgorithmus 2354 aufweist, so dass ein Sprecher, sofern authentifiziert, wahlweise auf eines bzw. eine Untergruppe der gesicherten Systeme 2362 zugreifen kann.
BEISPIEL
Nachstehend wird auf das folgende Beispiel Bezug genommen, das zusammen mit den vorstehenden Beschreibungen auf nicht einschränkende Weise Ausführungsformen der vorliegenden Erfindung veranschaulicht.
Die 24–27 beschreiben eine bevorzugte Ausführungsform des erfindungsgemäßen Systems und des erfindungsgemäßen Verfahrens.
So kommuniziert ein Sprecher 2420, wie in 24 gezeigt, unter Verwendung nur seiner Stimme oder dieser in Kombination mit einer Kommunikationsvorrichtung, wie einem mit einem Netzwerk verbundenen Computer, einem Festnetztelefon, einem drahtlosen Mobiltelefon, einem Computertelefon, einem Sender (beispielsweise einem Funksender) oder jedem anderen Fernkommunikationsmedi um, aber nicht auf diese beschränkt, mit einem Sicherheitszentrum 2424 und einem oder mehreren gesicherten Systemen 2422, wie beispielsweise einem Computernetzwerk (einem gesicherten System Nr. 1), einem Sprachnachrichtensystem (einem gesicherten System Nr. 2) und/oder dem Computersystem einer Bank (einem gesicherten System Nr. N), aber nicht auf diese beschränkt.
Bei einer Ausführungsform nutzt der Sprechende einen Telefonkommunikationsmodus, wogegen sämtliche gesicherten Systeme 2422 sowie das Sicherheitszentrum 2424 eine identische Telefonnummer bzw., falls ein Funkkommunikationsmodus verwendet wird, die gleiche Frequenz und Modulation aufweisen. Auf jeden Fall kommuniziert der Benutzer vorzugsweise gleichzeitig mit den gesicherten Systemen 2422 und dem Sicherheitszentrum 2424. Bei einer bevorzugten Ausführungsform der Erfindung enthält jedes der gesicherten Systeme 2422 nur einen Empfänger zur Stimmverifikation bzw. für den Authentifizierungsprozess, verfügt jedoch über keinen Sender.
25 beschreibt den nächsten Schritt des Prozesses. Das Sicherheitszentrum 2424 führt an der hereinkommenden Stimme beispielsweise unter Verwendung (i) eines beliebigen Algorithmus 2530 zur Stimmauthentifizierung gemäß dem Stand der Technik und (ii) eines herkömmlichen Worterkennungsalgorithmus 2532, der beispielsweise eine verbale Identifikation des Zugriffscodes (der auch eine Anforderung darstellt) des benötigten gesicherten Systems 2422 (Nr. 1, 2, ..., N), ein Passwort und die Sozialversicherungsnummer des Sprechenden 2420 umfasst, eine Stimmanalyse aus. Der Schwellenwert für eine fehlerhafte Zurückweisung ist auf ein niedriges Niveau von beispielsweise weniger als 0,5 %, vorzugsweise ca. 0,3 % eingestellt, wodurch sich für die fehlerhafte Akzeptanz ein Niveau in der Größenordung von 4,6 % ergibt.
Nach dem Nachweis der positiven Identifikation der hereinkommenden Stimme bestätigt das Sicherheitszentrum 2424 die Sprecheridentifikation 2534, indem es beispielsweise eine akustische Tonhöhe 2536 sendet. Die akustische Tonhöhe 2536 wird sowohl von dem Sprechenden 2420 als auch von dem (beispielsweise entsprechend dem von dem Sprechenden 2420 verwendeten Systemzugriffscode) bestimmten gesicherten System 2422 empfangen.
26 beschreibt, was darauf folgt. Das Sicherheitszentrum 2424 bzw. vorzugsweise das gesicherte System 2422 führt unter Verwendung eines zweiten Stimmauthentifizierungsalgorithmus 2638, der sich, wie vorstehend unter Bezugnahme auf 25 beschrieben, von dem vom Sicherheitszentrum 2424 verwendeten Stimmauthentifizierungsalgorithmus 2530 unterscheidet, eine Stimmauthentifizierung an der hereinkommenden Stimme aus.
Der Stimmauthentifizierungsalgorithmus kann beispielsweise ein Stimmauthentifizierungsalgorithmus eines neuronalen Netzwerks sein, wie beispielsweise in dem US-Patent Nr. 5,461,697 beschrieben.
Wieder ist der Schwellenwert für eine fehlerhafte Zurückweisung auf ein niedriges Niveau von beispielsweise weniger als 0,5 %, vorzugsweise 0,3 oder 0,1 % eingestellt. Nach den vorstehenden Überlegungen und Berechnungen liegt bei Algorithmen mit einem EER-Wert von ca. 2 % das Niveau für die fehlerhafte Akzeptanz als Ergebnis (bei beispielsweise 0,3 %) in der Größenordnung von 4,6 %.
Bei einer bevorzugten Ausführungsform der Erfindung sind das Sicherheitszentrum 2424 und das gesicherte System 2422 physisch voneinander entfernt. Da der Prozess der Identifikation im Sicherheitszentrum 2424 ein vorab ausgewähltes Zeitintervall verlängert, erfolgt die Aktivierung der simultanen Stimmverifikation in dem gesicherten System 2422 bei t = ΔT nach dem Empfang der Hörtonhöhe 2536 durch das gesicherte System 2422. Durch diese zeitliche Verzögerung wird sichergestellt, dass keine Identifikation erfolgt, bevor die Bestätigung vom Sicherheitszentrum 2424 empfangen wurde.
Wie in 27 gezeigt, ist eine endgültige Sprecheridentifikation 2740 erst nachgewiesen, wenn sowohl von dem Sicherheitssystem 2424 als auch von dem gesicherten System 2422 die Identifikation 2742a bzw. 2742b sichergestellt ist, was zur Folge hat, dass der Sprecher auf das gesicherte System 2422 zugreifen kann.
Daher werden nur, wenn sowohl das Sicherheitszentrum 2424 als auch das gesicherte System 2422 eine positive Stimmverifikation vorgenommen haben, der Sprecher positiv identifiziert, der Prozess positiv abgeschlossen und der Zugriff auf das gesicherte System 2422 daher gestattet, wie durch 2744 dargestellt.
Kann eines der Systeme 2422 und 2424 die Stimme des Sprechenden nicht bestätigen, ist der Prozess nicht positiv abgeschlossen, und der Zugriff auf das gesicherte System 2422 wird daher verweigert.
STIMMBASIERENDES SYSTEM ZUR REGELUNG ETNER GRENZÜBERQUERUNG
28 zeigt ein Verfahren zur Bestimmung des passiven Wahlrechts einer Person an einem Grenzübergang für eine Grenzüberquerung auf der Grundalge von Stimmsignalen. Zunächst werden in einem Arbeitsschritt 2800 Stimmsignale von einer Person empfangen, die versucht, eine Grenze zu überqueren. Die Stimmsignale der Person werden in einem Arbeitsschritt 2802 analysiert, um zu bestimmen, ob die Person vorgegebene Kriterien für eine Grenzüberquerung erfüllt. Dann wird in einem Arbeitsschritt 2804 eine Angabe ausgegeben, ob die Person die vorgegebenen Kriterien für eine Grenzüberquerung erfüllt. Eine genauere Beschreibung der Prozesse und Vorrichtungen zum Ausführen dieser Arbeitsgänge ist nachstehend zu finden.
Bei einer in 28 beschriebenen Ausführungsform der vorliegenden Erfindung wird die Identität der Person anhand von Stimmsignalen bestimmt. Diese Ausführungsform der vorliegenden Erfindung könnte verwendet werden, um Personen mit einer Genehmigung zur Grenzüberschreitung das Überqueren der Grenze in ein anderes Land zu gestatten, ohne dass sie eine Identifikation in Form eines Dokuments vorweisen müssen. Bei einer derartigen Ausführungsform können die vorgegebenen Kriterien den Besitz einer in einer Liste von zur Grenzüberquerung berechtigten Personen enthaltenen Identität umfassen. In dem vorstehenden Abschnitt mit dem Titel „AUF DER STIMME BASIERENDE IDENTITÄTSAUTHENTIFIZIERUNG FÜR DEN ZUGRIFF AUF DATEN" sind weitere Einzelheiten zu den Prozessen und Vorrichtungen zur Identifikation einer Person anhand ihrer Stimme sowie zu den vorstehend unter Bezugnahme auf die 22–27 und nachstehend unter Bezugnahme auf die 29–34 besprochenen Verfahren und Vorrichtungen zu finden.
Die Stimmsignale der Person werden mit mehreren gespeicherten Stimmproben verglichen, um die Identität der Person zu bestimmen. Jede der mehreren Stimmproben ist einer Identität einer Person zugeordnet. Die Identität der Person wird ausgegeben, wenn die Identität der Person anhand des Vergleichs des Stimmsignals mit den Stimmproben festgestellt wird. Alternativ oder in Kombination mit der Identität der Person könnte der Ausgang eine Anzeige für einen Grenzer umfassen, die angibt, dass die Person passieren darf. Alternativ könnte der Ausgang ein Tor oder Drehkreuz entriegeln, das die Per son am Überqueren der Grenze hindert oder ihren Übergang in ein Land anderweitig verhindert.
Bei einer weiteren, in 28 dargestellten Ausführungsform der vorliegenden Erfindung werden Emotionen in dem Stimmsignal der Person erfasst. Hierbei könnten die vorgegebenen Kriterien emotionsbasierende Kriterien umfassen, die bei der Aufdeckung von Schmuggel oder anderen illegalen Aktivitäten sowie der Ergreifung von Personen mit gefälschten Dokumenten helfen könnten. So könnten beispielsweise Furcht und Besorgnis in der Stimme einer Person erfasst werden, wenn er bzw. sie beispielsweise von einem Zollbeamten gestellte Fragen beantwortet. Eine weitere der Emotionen, die erfasst werden könnten, ist der Grad der Nervosität der Person. Weitere Einzelheiten zur Funktionsweise einer derartigen Ausführungsform sind in den vorstehenden Abschnitten über die Erfassung von Emotionen in Stimmsignalen zu finden.
29 zeigt ein Verfahren zur Sprechererkennung gemäß einem Aspekt der aktuellen Erfindung. In einem Arbeitsschritt 2900 werden an einer ersten Stelle vorgegebene, erste, endgültige, Stimmcharakteristika betreffende Informationen gespeichert. In einem Arbeitsschritt 2902 werden Stimmdaten an einer zweiten Stelle eingegeben. Die Stimmdaten werden in einem Arbeitsschritt 2904 an der zweiten Stelle verarbeitet, um die Stimmcharakteristika betreffende Zwischeninformationen zu erzeugen. In einem Arbeitsschritt 2906 werden die die Stimmcharakteristika betreffenden Zwischeninformationen von der zweiten Stelle an die erste Stelle gesendet. In einem Arbeitsschritt 2908 erfolgt an der ersten Stelle eine weitere Verarbeitung der von der zweiten Stelle gesendeten, die Stimmcharakteristika betreffendem Zwischeninformationen zur Erzeugung von zweiten, endgültigen, die Stimmcharakteristika betreffenden Informationen. In einem Arbeitsschritt 2910 wird an der ersten Stelle bestimmt, ob die zweiten, endgültigen, die Stimmcharakteristika betreffenden Informationen im Wesentlichen mit den ersten, endgültigen, die Stimmcharakteristika betreffenden Informationen übereinstimmen, und ein Bestimmungssignal wird erzeugt, das die Bestimmung anzeigt.
Gemäß einem zweiten Aspekt der aktuellen Erfindung zeigt 30 ein Verfahren zur Sprechererkennung. In einem Arbeitsschritt 3000 werden mehrere Paare aus ersten, endgültigen, die Stimmcharakteristika betreffenden Informationen und entsprechenden Identifikationsinformationen an einer ersten Stelle gespeichert. In einem Arbeitsschritt 3002 werden Stimmdaten und eine der Identifikationsinformationen an einer zweiten Stelle eingegeben. Die einen Identifikationsinformationen werden in einem Arbeitsschritt 3004 an die erste Stelle gesendet. In einem Arbeitsschritt 3006 werden die einen der ersten, endgültigen, die Stimmcharakteristika betreffenden Informationen, die den einen Identifikationsinformationen entsprechen, sowie ein Bestimmungsfaktor an die zweite Stelle gesendet. Die Stimmdaten werden in einem Arbeitsschritt 3008 an der zweiten Stelle verarbeitet, um zweite, endgültige, die Stimmcharakteristika betreffende Informationen zu erzeugen. In einem Arbeitsschritt 3010 wird an der zweiten Stelle auf der Grundlage des Bestimmungsfaktors bestimmt, ob die zweiten, endgültigen, die Stimmcharakteristika betreffenden Informationen im Wesentlichen mit den ersten, endgültigen, die Stimmcharakteristika betreffenden Informationen übereinstimmen, und ein Bestimmungssignal, das die Bestimmung anzeigt, wird erzeugt.
Gemäß einem dritten Aspekt der aktuellen Erfindung umfasst ein Sprechererkennungssystem eine Anmeldungseinheit zur Verarbeitung von Stimmdaten zur Erzeugung von den Stimmdaten entsprechenden Standardstimmkennzeicheninformationen und zum Speichern der Standardstimmkennzeicheninformationen, eine erste Verarbeitungseinheit zur Eingabe von Teststimmdaten und zum Verarbeiten der Teststimmdaten zur Erzeugung von Zwischenteststimmkennzeicheninformationen und eine kommunizierend mit der ersten Verarbeitungseinheit verbundene zweite Verarbeitungseinheit zum Empfangen der Zwischenteststimmkennzeicheninformationen und zum weiteren Verarbeiten der Zwischenteststimmkennzeicheninformationen zur Erzeugung von Teststimmkennzeicheninformationen, wobei die Verarbeitungseinheit mit der Anmeldungsverarbeitungseinheit zum Bestimmen verbunden ist, ob die Teststimmkennzeicheninformationen im wesentlichen mit den Standardstimmkennzeicheninformationen übereinstimmen.
Gemäß einem vierten Aspekt der aktuellen Erfindung umfasst ein Sprechererkennungssystem eine erste Verarbeitungseinheit zum Verarbeiten von Stimmdaten zur Erzeugung von den Stimmdaten entsprechenden Standardstimmkennzeicheninformationen und zum Speichern der Standardstimmkennzeicheninformationen mit zugeordneten Identitätsinformationen, eine operativ mit der ersten Verarbeitungseinheit verbundene zweite Verarbeitungseinheit zur Eingabe der zugeordneten Identitätsinformationen und Teststimmdaten, wobei die zweite Verarbeitungseinheit die zugeordneten Identitätsinformationen an die erste Verarbeitungseinheit sendet, die zweite Verarbeitungseinheit die Standardstimmkennzeicheninformationen abruft, die zweite Verarbeitungseinheit auf der Basis der Teststimmdaten Teststimmkennzeicheninformationen erzeugt und bestimmt, dass die Standardstimmkennzeicheninformationen im wesentlichen mit den Teststimmkennzeicheninformationen übereinstimmen.
Nachstehend wird auf die Zeichnungen und insbesondere auf 31 Bezug genommen, um die Grundkomponenten der Spre chererkennung zu beschreiben. Ein Benutzer spricht in ein Mikrofon 3101, um seine bzw. ihre Stimme einzugeben. Eine Einheit 3103 zur periodischen Stimmprobenentnahme tastet die eingegebenen Stimmdaten mit einer vorgegebenen Frequenz ab, und eine Einheit 3104 zur Extraktion von Stimmkennzeicheninformationen extrahiert aus jedem abgetasteten Stimmdatensatz vorgegebene Stimmkennzeicheninformationen bzw. ein endgültiges Stimmkennzeichenmuster. Wenn die vorstehend aufgeführten Eingabe- und Extraktionsprozesse bei einem Anmeldungs- oder Initiierungsprozess ausgeführt werden, wird ein Modusauswahlschalter 3108 geschlossen, um eine Anmeldungseinheit 3106 so zu anzuschließen, dass die Stimmkennzeicheninformationen als Standardstimmkennzeicheninformationen des Sprechers zusammen mit Sprecheridentifikationsinformationen in einer Speichereinheit 3105 für Sprechererkennungsinformationen gespeichert werden.
In 32 ist ein Beispiel der in der Speichereinheit 3105 für Sprechererkennungsinformationen gespeicherten Informationen dargestellt. Die Sprechererkennungsinformationen enthalten den Namen eines Sprechers, eine Identifikationsnummer, das Geburtsdatum, eine Sozialversicherungsnummer, etc. In den gespeicherten Informationen befinden sich, jeder der vorstehend erwähnten Sprecheridentifikationsinformationen entsprechend, die Standardstimmkennzeicheninformationen des Sprechers. Wie vorstehend beschrieben, werden die Standardstimmkennzeicheninformationen von den Stimmverarbeitungseinheiten 3103 und 3104 erzeugt, die das Stimmkennzeichenmuster aus den vorgegebenen, vom Sprecher während des Anmeldungsprozesses eingegebenen Stimmdaten extrahieren. Die endgültigen Stimmkennzeicheninformationen bzw. das Stimmkennzeichenmuster enthalten bzw. enthält eine Folge der vorstehend beschriebenen Stimmparameter.
Gemäß 31 wird ein Sprechererkennungsprozess ausgeführt, wenn der Modusauswahlschalter geschlossen wird, um eine Sprechererkennungseinheit 3107 anzuschließen. Um als angemeldeter Sprecher erkannt zu werden, gibt ein Benutzer erst über eine Identifikationseingabevorrichtung 3102 seine bzw. ihre Sprecheridentifikationsinformationen, beispielsweise eine Nummer, ein. Auf der Grundlage der Identifikationsinformationen spezifiziert die Anmeldungseinheit 3106 die entsprechenden Standardstimmkennzeicheninformationen bzw. ein in der Speichereinheit 3105 für Sprechererkennungsinformationen gespeichertes endgültiges Stimmkennzeichenmuster und sendet sie bzw. es an die Sprechererkennungseinheit 3107. Der Benutzer gibt seine bzw. ihre Stimmdaten auch durch Sprechen eines vorgegebenen Worts bzw. vorgegebener Wörter in das Mikrofon 3101 ein. Die eingegebenen Stimmdaten werden von der Einheit 3103 zur periodischen Stimmprobenentnahme und der Einheit 3104 zur Extraktion von Stimmkennzeichenparametern verarbeitet, um Teststimmkennzeicheninformationen zu erzeugen. Die Sprechererkennungseinheit 3107 vergleicht die Teststimmkennzeicheninformationen mit den vorstehend aufgeführten Standardstimmkennzeicheninformationen, um festzustellen, ob sie im Wesentlichen übereinstimmen. Auf der Grundlage des vorstehend beschriebenen Vergleichs erzeugt die Sprechererkennungseinheit 3107 ein Bestimmungssignal, das den vorstehend aufgeführten Status der grundsätzlichen Übereinstimmung angibt.
Die vorstehend beschriebenen und weitere Elemente des Sprechererkennungskonzepts werden erfindungsgemäß für ein Computer- oder Telefonnetzwerk implementiert. Bei den computernetzwerkbasierenden Sprechererkennungssystemen wird davon ausgegangen, dass sie eine große Anzahl an lokalen Verarbeitungseinheiten und mindestens eine administrative Verarbeitungseinheit umfassen. Ebenso wird davon ausgegangen, dass das Netzwerk eine gemeinsame Datenbank teilt, die sich typischerweise auf einer zentralen, administrativen Verarbeitungseinheit befindet. Im Allgemeinen umfassen die computernetzwerkbasierenden Sprechererkennungssysteme zwei Enden eines Spektrums. Ein Ende des Spektrums ist durch eine schwere lokale Verarbeitung des Stimmeingangs gekennzeichnet, während sich das andere Ende des Spektrums durch eine schwere zentrale Verarbeitung des Stimmeingangs auszeichnet. Anders ausgedrückt wird der Stimmeingang zur Realisierung der Sprechererkennung primär von der lokalen Verarbeitungseinheit, der zentralen Verarbeitungseinheit oder einer Kombination aus beiden verarbeitet, um zu bestimmen, ob er im Wesentlichen mit vorab registrierten Stimmdaten übereinstimmt. Die erfindungsgemäß verwendeten Computernetzwerke sind jedoch nicht notwendigerweise auf die vorstehend beschriebenen Einschränkungen bei zentralen Einheiten und Terminals begrenzt und schließen andere Systeme, wie verteilte Systeme, ein.
In 33 ist eine bevorzugte Ausführungsform des erfindungsgemäßen Sprechererkennungssystems dargestellt. Lokale Verarbeitungseinheiten 3331-1 bis 3331-n sind jeweils über Netzwerkleitungen 3333-1 bis 3333-n mit einer administrativen Zentraleinheit 3332 verbunden. Die lokalen Verarbeitungseinheiten 3331-1 bis 3331-n umfassen jeweils ein Mikrofon 3101, eine Einheit 3103 zur periodischen Stimmprobenentnahme, eine Einheit 3104 zur Extraktion von Stimmkennzeicheninformationen und eine Sprechererkennungseinheit 3107. Jede der lokalen Verarbeitungseinheiten 3331-1 bis 3331-n ist zur Eingabe von Stimmdaten und zur Verarbeitung des Stimmeingangs zur Bestimmung geeignet, ob sein charakteristisches Muster im Wesentlichen mit einem entsprechenden Standardstimmkennzeichenmuster übereinstimmt. Die administrative Zentraleinheit 3332 umfasst eine Einheit 3310 zur Verwaltung von Spre chererkennungsdaten zum Ausführen von Verwaltungsfunktionen, die die Anmeldung und Aktualisierung der Standardstimmkennzeicheninformationen einschließen.
In 34 ist die vorstehend beschriebene, bevorzugte Ausführungsform des Sprechererkennungssystems im Einzelnen dargestellt. Aus Gründen der Vereinfachung ist nur eine lokale Verarbeitungseinheit 3331-1 mit zusätzlichen Komponenten weiter dargestellt. Damit die lokale Verarbeitungseinheit 3331-1 über die Kommunikationsleitung 3333-1 mit der administrativen Verarbeitungseinheit 3332 kommunizieren kann, stellt die lokale Verarbeitungseinheit 3331-1 eine erste Kommunikations-Eingabe- und Ausgabeschnittstelleneinheit (Kommunikations-E/A-Schnittstelleneinheit) 3334-1 bereit. Ähnlich enthält die administrative Verarbeitungseinheit 3332 eine zweite Kommunikations-E/A-Schnittstelleneinheit 3435 am anderen Ende der Kommunikationsleitung 3333-1. Im Folgenden werden der Registrierungs- und der Erkennungsprozess unter Verwendung der vorstehend beschriebenen, bevorzugten Ausführungsform allgemein beschrieben.
Zur Anmeldung von Standardstimmkennzeicheninformationen gibt der Benutzer durch Sprechen einer vorgegebenen Gruppe von Worten in ein Mikrofon 3101 Stimmdaten und über die ID-Eingabevorrichtung 3102 eine Benutzeridentifikationsnummer ein. Der Modusschalter 3108 wird in einen Registriermodus geschaltet, um die verarbeiteten Stimmkennzeicheninformationen über die Schnittstellen 3334-1, 3435 und die Kommunikationsleitung 3333-1 an die Anmeldungseinheit 3106 zu senden. Die Anmeldungseinheit 3106 steuert die Speichereinheit 3105 für die Sprechererkennungsinformationen zum Speichern der Stimmkennzeicheninformationen zusammen mit der Sprecheridentifikationsnummer.
Zum späteren Ausführen eines Sprechererkennungsprozesses gibt ein Benutzer seine bzw. ihre Benutzer-ID-Informationen über die Benutzer-ID-Eingabevorrichtung 3102 ein. Die eingegebenen Informationen werden über die Schnittstellen 3334-1, 3435 und die Kommunikationsleitung 3333-1 an die administrative Verarbeitungseinheit 3332 gesendet. Als Reaktion sendet die administrative Verarbeitungseinheit 3332 die der spezifizierten Benutzer-ID entsprechenden Standardstimmkennzeicheninformationen an die Sprechererkennungseinheit 3107. Der Auswahlmodusschalter wird zum Anschließen der Sprechererkennungseinheit 3107 in den Sprechererkennungsmodus geschaltet. Der Benutzer gibt auch seine bzw. ihre Spracheingabe über das Mikrofon 3101 ein, und die Einheit 3103 zur periodischen Stimmprobenentnahme und die Einheit 3104 zur Extraktion von Stimmkennzeicheninformationen verarbeiten den Stimmeingang zur Erzeugung der Teststimmkennzeicheninformationen zur Ausgabe an die Sprechererkennungseinheit 3107. Schließlich bestimmt die Sprechererkennungseinheit 3107, ob die Teststimmkennzeicheninformationen im Wesentlichen mit den ausgewählten Standardstimmkennzeicheninformationen übereinstimmen. Die Bestimmung wird durch ein Ausgangsbestimmungssignal zur Autorisation der lokalen Verarbeitungseinheit 3331-1 zur Fortsetzung mit einer weiteren Transaktion angezeigt, an der die administrative Verarbeitungseinheit 3332 beteiligt ist. Zusammenfassend verarbeitet die vorstehend beschriebene, bevorzugte Ausführungsform die eingegebenen Stimmdaten im Wesentlichen in der lokalen Verarbeitungseinheit.
STIMMAKTIVIERTE STEUERUNG UND NAVIGATION IM INTERNET
35 zeigt ein Verfahren zur Erkennung von Stimmbefehlen zur Manipulation von Daten im Internet. Zunächst werden in einem Arbeitsschritt 3500 Daten auf einer Website bereitgestellt. In einem Arbeitsschritt 3502 werden Stimmsignale von einem Benutzer empfangen, der auf die Website zugreift. Die Stimmsignale werden in einem Arbeitsschritt 3504 interpretiert, um Navigationsbefehle zu bestimmen. Auf der Basis der Navigationsbefehle werden in einem Arbeitsschritt 3506 ausgewählte Daten der Website ausgegeben.
Bei einer Ausführungsform der vorliegenden Erfindung umfassen die Daten eine stimmaktivierte Anwendung. Bei einer derartigen Ausführungsform können die Navigationsbefehle die Ausführung der Anwendung steuern. Bei einem Beispiel einer erfindungsgemäßen Anwendung kann Internet-Banking über Stimmsignale zulässig sein.
Dem Benutzer kann entweder über einen Computer oder über ein Telefon oder beides Zugriff auf die Website gewährt werden. Wahlweise können die ausgewählten Daten an ein Telefon ausgegeben werden. Eine derartige Ausführungsform könnte für Nachrichtenübermittlungsdienste verwendet werden. So könnte beispielsweise eine Technologie zur Umwandlung von Sprache in Text zum „Schreiben" von eMails über ein Telefon verwendet werden, ohne dass eine Anzeige nötig wäre. Ebenso könnte die Technologie zum Umwandeln von Text in Sprache zum „Lesen" einer eMail über ein Telefon verwendet werden.
Anhand von Stimmsignalen kann eine Sprache bestimmt werden. Dann würden die Stimmsignale in die vom Benutzer gesprochenen Sprache übersetzt, um die Befehle zu bestimmen. Dies wäre bei einem internationalen Kundendienstsystem im Internet besonders nützlich. Wahlweise kann künstliche Intelligenz einschließlich ge sprochener Antworten und dergleichen zum Interagieren mit dem Benutzer verwendet werden.
Stimmgesteuerte Inhalte und Anwendungen
36 ist ein verallgemeinertes Blockdiagramm eines Informationssystems 3610 gemäß einer Ausführungsform der Erfindung zur Steuerung von Inhalten und Anwendungen mittels Stimmsignalen über ein Netzwerk. Das Informationssystem 3610 umfasst ein Informationsverteilungszentrum 3612, das Informationen von einem oder mehreren entfernt angeordneten Informationsanbietern 3614-1, ..., 3614-n empfängt und die Informationen einer Anschlusseinheit 3616 zuführt bzw. sie an diese sendet. „Informationen" im hier verwendeten Sinne umfassen analoge Video-, analoge Audio-, digitale Video- und digitale Audiodaten, Textdienste, wie Nachrichtenartikel, Sportergebnisse, Börsennotierungen, Wetterberichte, elektronische Nachrichten, elektronische Programmführer, Datenbankinformationen, Software einschließlich Spielprogramme und Weitbereichsnetzwerkdaten, sind aber nicht darauf beschränkt. Alternativ oder zusätzlich kann das Informationsverteilungszentrum 3612 lokal Informationen erzeugen und diese lokal erzeugten Informationen an die Anschlusseinheit 3616 weiterleiten.
Die vom Informationsverteilungszentrum 3612 an die Anschlusseinheit 3616 gesendeten Informationen umfassen Wortschatzdaten, die ein Vokabular an gesprochenen Klängen oder Wörtern („Äußerungen") repräsentieren. Dieses Vokabular ermöglicht beispielsweise eine Sprachsteuerung einer Vorrichtung 3618 und eine Sprachsteuerung des Zugriffs auf die vom Informationsverteilungszentrum 3612 gesendeten Informationen. Genauer empfängt die Anschlusseinheit 3616 Wortschatzdaten vom Informationsverteilungs zentrum 3612 und Sprachdaten („Äußerungen") von einem Benutzer. Die Anschlusseinheit 3616 umfasst einen Prozessor zum Ausführen eines Spracherkennungsalgorithmus zum Vergleichen der Wortschatzdaten mit dem gesprochenen Befehl zum Erkennen beispielsweise von Befehlen zur Steuerung der Vorrichtung 3618 oder von Befehlen zum Zugreifen auf vom Informationsverteilungszentrum 3612 gesendete Informationen. Die Anschlusseinheit 3616 erzeugt dann einen zur Steuerung der Vorrichtung 3618 oder zum Zugreifen auf die vom Informationsverteilungszentrum 3612 gesendeten Informationen geeigneten Befehl. Der Begriff Spracherkennungsalgorithmus bezeichnet im hier verwendeten Sinne einen Algorithmus, der einen gesprochenen akustischen Eingang in Text oder entsprechende Befehle umwandelt. Ein Sprecherverifikationsalgorithmus bezeichnet einen Algorithmus, der die beanspruchte Identität eines Sprechers anhand einer Probe der Sprache des den Anspruch Stellenden verifiziert. Ein Sprecheridentifikationsalgorithmus bezieht sich auf einen Algorithmus, der einen Sprecher auf der Grundlage einer akustischen Eingabe von einem Sprecher anhand einer Liste vorab aufgenommener Alternativen identifiziert. Ein Sprecheridentifikationsalgorithmus kann beispielsweise verwendet werden, um die Möglichkeit, die Vorrichtung zu steuern und/oder auf Informationen zuzugreifen, auf bestimmte Sprecher zu begrenzen.
Die vom Informationsverteilungszentrum 3612 an die Anschlusseinheit 3616 gesendeten Wortschatzdaten können beispielsweise Phonemdaten sein. Ein Phonem ist ein Element aus der Gruppe der kleinsten Einheiten von Sprache, die in einer Sprache oder einem Dialekt der Unterscheidung einer Äußerung von einer anderen dienen. Jeder Klang bzw. jedes gesprochene Wort im Vokabular kann so durch eine Kombination von Phonemen repräsentiert werden. Alternativ können die Wortschatzdaten Templatdaten sein, die erzeugt werden, indem eine Person bzw. Personen veranlasst werden, jeden Klang bzw. jedes Wort auszusprechen. Jeder gesprochene Klang bzw. jedes gesprochene Wort im Wortschatz kann so durch ein jeweils entsprechendes Templat repräsentiert werden. Obwohl das System gemäß 36 ein System darstellt, bei dem die Informationen von den Informationsanbietern 3614-1, ..., 3614-n und die Wortschatzdaten über die gleiche Kommunikationsverbindung gesendet werden, wird darauf hingewiesen, dass die Erfindung in dieser Hinsicht nicht eingeschränkt ist. So können Informationen von Informationsdienstanbietern 3614-1, ..., 3614-n und Wortschatzdaten über unterschiedliche Kommunikationsverbindungen gesendet werden.
Es können viele verschiedene Anordnungen zum Liefern der Sprachdaten an die Anschlusseinheit 3616 verwendet werden. Bei einem ersten, veranschaulichenden, jedoch nicht einschränkenden Aufbau ist eine Fernsteuerung vorgesehen, die ein drahtloses Mikrofon oder einen zugehörigen Sender- und Empfänger zum Senden von von einem Benutzer ausgesprochenen Klängen oder Wörtern über elektrische, optische oder Funkfrequenzsignale an die Anschlusseinheit 3616 umfasst. Die Anschlusseinheit 3616 umfasst weiterhin einen Empfänger, ein analoges Endgerät zur Aufbereitung des empfangenen Signals, einen Codec zum Ausführen einer Analog-Digital-Umwandlung des aufbereiteten Signals und eine Schnittstellenschaltung zum Herstellen einer Schnittstelle zum Prozessor. Mit Aufbereitung sind eine Rauschunterdrückung, eine Rauschminderung, ein Filtern und weitere bekannte Techniken beispielsweise zum Verändern eines von einem Stimmsender und -empfänger empfangenen elektrischen Signals gemeint. Bei einem zweiten veranschaulichenden Aufbau ist eine Fernsteuerung mit einem Mikrofon, einem analogen Empfänger zur Aufbereitung des Klangsignals von dem Mikrofon, einem Codec zum Ausführen einer Analog-Digital-Umwandlung des aufbereiteten Signals und einem Sender zum Senden des digitalisierten Klangdatensignals an die Anschlusseinheit 3616 beispielsweise unter Verwendung von Infrarot- oder Funkfrequenzsignalen versehen. Die Anschlusseinheit 3616 umfasst dann einen Empfänger zum Empfangen des digitalisierten Klangdatensignals und eine Schnittstellenschaltung zum Herstellen einer Schnittstelle zum Prozessor. Das digitalisierte Klangdatensignal erfordert typischerweise eine Datenübertragungsrate von mindestens 64 kBit pro Sekunde. Bei einem dritten veranschaulichenden Aufbau weist eine Fernsteuerung ein Mikrofon, einen analogen Empfänger zur Aufbereitung des Klangsignals vom Mikrofon, einen Codec zum Ausführen einer Analog-Digital-Umwandlung an dem aufbereiteten Signal, einen Datensignalprozessor zum Analysieren des digitalisierten Klangsignals zum Extrahieren von Spektraldaten und einen Sender zum Senden der Spektraldaten an die Anschlusseinheit 3616 beispielsweise unter Verwendung von Infrarotsignalen auf. Die Anschlusseinheit 3616 umfasst dann einen Empfänger zum Empfangen der Spektraldaten und eine Schnittstellenschaltung zum Herstellen einer Schnittstelle zum Prozessor. Da im Gegensatz zu den digitalisierten Klangdaten bei der zweiten Ausführungsform bei dieser dritten Anordnung die Spektraldaten gesendet werden, ist die Datenrate erheblich niedriger, d.h. geringer als 3610 kBit pro Sekunde. Da die Spektralanalyse in der Fernsteuerung erfolgt, wird die Auslastung des Prozessors der Anschlusseinheit 3616 beim Erkennungsvorgang im Vergleich zu dem zweiten Aufbau um 30–50 % verringert. Bei einem vierten veranschaulichenden Aufbau umfasst die Anschlusseinheit 3616 ein Mikrofon, ein analoges Endgerät zur Aufbereitung des Klangsignals von dem Mikrofon, einen Codec zum Ausführen einer Analog-Digital-Umwandlung des aufbereiteten Signals und eine Schnittstellenschaltung zum Herstellen einer Schnittstelle zum Prozessor. Bei einem fünften veranschauli chenden Aufbau umfasst die Anschlusseinheit 3616 ein Mikrofon, ein analoges Endgerät zur Aufbereitung des Klangsignals von dem Mikrofon, einen Codec zum Ausführen einer Analog-Digital-Umwandlung des aufbereiteten Signals, einen digitalen Signalprozessor zum Analysieren des digitalisierten Klangsignals zur Extraktion von Spektraldaten und eine Schnittstellenschaltung zum Herstellen einer Schnittstelle zum Prozessorbus. Der digitale Signalprozessor wird bei dem fünften Aufbau im Vergleich zur vierten Ausführungsform zum Entlasten des Prozessors der Anschlusseinheit 3616 verwendet. Diese unterschiedlichen Konstruktionen sind lediglich veranschaulichend, und zum Liefern von Sprachdaten an eine Anschlusseinheit 3616 können im Rahmen der vorliegenden Erfindung andere Konstruktionen verwendet werden.
Die vom Informationsverteilungszentrum 3612 gesendeten Wortschatzdaten können Befehle definieren, die ein Benutzer in eine Steuervorrichtung 3618 sprechen kann. Die Vorrichtung 3618 kann eine beliebige Vorrichtung sein, die als Reaktion auf vom Benutzer zugeführte Befehle betätigt werden kann, und die vorliegende Erfindung ist in dieser Hinsicht nicht beschränkt. So kann die Vorrichtung 3618 beispielsweise ein Fernsehgerät, ein Stereoempfänger, ein Videokassettenrekorder, ein Tonbandgerät, ein Compact-Disk-Abspielgerät (ein CD-Player), ein Video-Disc-Abspielgerät, ein Videospielgerät oder ein Computer sein. Veranschaulichend wird davon ausgegangen, dass die Vorrichtung 3618 ein Computer ist, der in einen geschalteten Stromausgang der Anschlusseinheit 3616 eingesteckt ist und der einem Benutzer das Steuern eines Ein- und Ausschaltens des Computers durch das jeweilige Aussprechen der Befehle „STROM EINSCHALTEN" und „STROM AUSSCHALTEN" ermöglichen soll. Das Informationsverteilungszentrum 3612 würde dann ein Befehlsvokabular aus den Worten STROM, EINSCHALTEN und AUS SCHALTEN definierende Phonem- oder Templatwortschatzdaten an die Anschlusseinheit 3616 senden. Wenn der Benutzer entweder „STROM EINSCHALTEN" oder „STROM AUSSCHALTEN" sagt und der Anschlusseinheit 3616 die dem Befehl entsprechenden Sprachdaten unter Verwendung einer der vorstehend beschriebenen Anordnungen zugeführt wurden, führt der Prozessor der Anschlusseinheit 3616 den Spracherkennungsalgorithmus aus, um den gesprochenen Befehl mit den das Befehlsvokabular repräsentierenden Phonem- oder Templatdaten zu vergleichen, um den gesprochenen Befehl zu erkennen. Die Anschlusseinheit 3616 steuert dann die Vorrichtung 3618 in geeigneter Weise, d.h. entweder durch Ein- oder durch Ausschalten des Computers. Da der Computer an einen geschalteten Stromausgang der Anschlusseinheit 3616 angeschlossen ist, wie vorstehend beschrieben, wird das Ein- und Ausschalten des Computers intern in der Anschlusseinheit 3616 implementiert. Die vorliegende Erfindung ist jedoch auch auf Situationen anwendbar, in denen der erkannte Befehl zur Ausführung über eine Kommunikationsverbindung an die Vorrichtung 3618 weitergeleitet wird. Eine derartige Kommunikationsverbindung kann beispielsweise das Internet, eine Infrarotverbindung, eine Funkfrequenzverbindung, ein Koaxialkabel, ein Telefonnetz, ein Satellitensystem oder eine optische Faser sein, wobei die Erfindung in dieser Hinsicht keinen Einschränkungen unterliegt.
Die Wortschatzdaten können alternativ oder zusätzlich Wörter und Befehle definieren, die ein Benutzer aussprechen kann, um auf vom Informationsverteilungszentrum 3612 gesendete Informationen zuzugreifen. Dieses Merkmal ermöglicht einem Benutzer das Ausführen von Aufgaben, die mit einer menügesteuerten Benutzerschnittstelle sehr schwierig auszuführen wären. Dieses Merkmal kann beispielsweise zum Ausführen einer Suche nach einem Schlüsselwort in den Titeln der vom Informationsverteilungszentrum 3612 gesendeten Nachrichtenartikel unter Verwendung eines Befehls „SCHLÜSSEL-WÖRTER SUCHEN" verwendet werden. Genauer bestimmt das Informationsverteilungszentrum 3612, welche einzelnen Wörter als Schlüsselwörter dienen sollen, und erzeugt ein „Phonem- oder Templatwörterbuch", das die Schlüsselwörter durch Phoneme bzw. Template darstellt. Das Informationsverteilungszentrum 3612 sendet die neuen Artikel und das Wörterbuch an die Anschlusseinheit 3616, wo sie in einem Speicher gespeichert werden. Für jedes Schlüsselwort erzeugt die Anschlusseinheit 3616 unter Verwendung des Wörterbuchs die entsprechende Phonem- oder Templatfolge. Die Folge wird dann als einzelne, erkennbare Äußerung im Spracherkennungsalgorithmus „angemeldet", d.h. sie wird ein Grundbestandteil des Vokabulars des Spracherkennungsalgorithmus. Die Anmeldung umfasst die Spezifikation einer Identifikation für die Phonem- bzw. Templatfolge, die ein numerischer Wert oder das Schlüsselwort selbst sein kann. Spricht der Benutzer den Befehl „SCHLÜSSELWÖRTER SUCHEN" aus, wird beispielsweise auf einer der Anschlusseinheit 3616 zugeordneten Anzeigevorrichtung oder auf einem mit der Anschlusseinheit 3616 verbundenen Computer eine diesem Befehl zugeordnete Anzeige bereitgestellt. Der Benutzer kann dann einen Befehl „NUR SCHLÜSSELWORT" aussprechen, um die Suche durch die Anschlusseinheit 3616 auf vom Informationsverteilungszentrum 3612 gesendete Nachrichtenartikel zu begrenzen, in deren Titel das ausgesprochene SCHLÜSSELWORT enthalten ist. Der Benutzer kann dann zusätzliche Schlüsselwörter aussprechen, um die Suche zu verfeinern, oder die Nachrichtenartikel mit dem ausgesprochenen Schlüsselwort im Titel ansehen. Es ist leicht zu erkennen, dass das Ausführen einer derartigen Aufgabe unter Verwendung einer herkömmlichen, menügesteuerten Benutzerschnittstelle extrem schwierig wäre.
Die 37A, 37B und 37C sind ein Blockdiagramm eines Bezahlfernsehsystems, in das die vorliegende Erfindung integriert ist. Es ist natürlich offensichtlich, dass die vorliegende Erfindung auch auf andere Informationssysteme als Bezahlfernsehsysteme angewendet werden kann und dass die Erfindung in dieser Hinsicht nicht beschränkt ist. Ein Bezahlfernsehsystem liefert mehreren Abonnentenstellen, beispielsweise 3720-1, ..., 3720-n (siehe 37C), Informationen. Die Informationen können analoge Video-, analoge Audio-, digitale Video- und digitale Audiodaten, Textdienste, wie Nachrichtenartikel, Sportergebnisse, Börsennotierungen, und Wetterberichte, elektronische Nachrichten, elektronische Programmführer, Datenbankinformationen, Software einschließlich Spielprogramme sowie Weitbereichsnetzwerkdaten umfassen, sind aber nicht darauf beschränkt. Gemäß 37A umfasst ein Bezahlfernsehsystem mehrere Informationsanbieter 3714-1, ..., 3714-n, die jeweils einen oder mehrere der oben aufgelisteten Informationstypen anbieten können. Der Informationsanbieter 3714-2 umfasst beispielsweise eine Informationsquelle 3715 zum Liefern eines analogen Fernsehsignals an einen Sender 3718. Der Sender ist mit einer Internet-Aufwärtsverbindung 3721 gekoppelt, die ein analoges Fernsehsignal 3722-2 sendet. Die Informationsanbieter 3714-1 und 3714-3 liefern jeweils digitale Informationen von einer Informationsquelle 3715 an eine jeweilige Codiervorrichtung 3716, die einen codierten Datenstrom für eine Übertragung erzeugt. Die Informationsquelle 3715 der Informationsanbieter 3714-1 und 3714-3 kann ein Speicher, wie ein optischer Speicher, zum Speichern von Informationen sein. Wenn einer der Informationsanbieter 3714-1 und 3714-3 eine Vielzahl von Informationen anbietet, beispielsweise mehrere unterschiedliche Spielprogramme oder unterschiedliche Typen von Textdiensten oder mehrere digitale Fernseh- oder Hörfunkprogramme, kann die Codier vorrichtung 3716 die Informationen multiplexen, um zum Senden einen gemultiplexten Datenstrom zu erzeugen. Der Datenstrom von der Codiervorrichtung 3716 wird einem Sender 3718 und anschließend einer Internet-Aufwärtsverbindung 3721 zugeführt. Gemäß 37A erzeugt die vom Informationsanbieter 3714-1 betriebene Codiervorrichtung 3716 beispielhaft ein digitales Datensignal 3722-1, und die vom Informationsanbieter 3714-3 betriebene Codiervorrichtung 3716 erzeugt ein digitales Datensignal 3722-3. Jedes der Signale 3722-1, 3722-2 und 3722-3 wird über das Internet 3723 zu einer Headend-Installation 3725 (siehe 37B) gesendet. Es wird darauf hingewiesen, dass in dem erfindungsgemäßen System viele Informationsanbieter existieren können und dass daher mehrere Signale über das Internet 3723 an Stellen wie die Headend-Installation 3725 gesendet werden können. Obwohl dies nicht gezeigt ist, können Signale an anderen Stellen als einer Headend-Installation empfangen werden, beispielsweise am Standort eines Direktrundfunkdienstabonnenten (eines DBS-Abonnenten). Obwohl die Verbindung zwischen den Informationsanbietern und der Headend-Installation als Netzwerkverbindung dargestellt ist, unterliegt die Erfindung zudem in dieser Hinsicht keinen Einschränkungen. Dementsprechend kann die Verbindung beispielsweise ein Koaxialkabel, ein Telefonnetz, ein Satellitensystem, das Internet, eine Funkfrequenzverbindung (eine RF-Verbindung) oder eine optische Faser oder jede Kombination aus diesen sein. Obwohl die Informationsanbieter gemäß 37A von der Headend-Installation 3725 entfernt angeordnet sind, können sich ferner ein oder mehrere Informationsanbieter physisch an der gleichen Stelle wie die Headend-Installation 3725 befinden.
Gemäß 37B liefert eine Internet-Abwärtsverbindung 3724 an der Headend-Installation 3725 empfangene Signale 3722-1, 3722-2 und 3722-3. Die Headend-Installation 3725 dient als Kommunika tionsnabe, die eine Schnittstelle zu den verschiedenen Informationsanbietern herstellt und sie auf einer an Bedingungen geknüpften Basis mit den Standorten 3720-1, ..., 3720-n der Teilnehmer verbindet. Das empfangene digitale Datensignal 3722-1 wird beispielsweise einem Empfänger 3726-1 und dann einem Modulator 3728-1 zugeführt, von dem es auf einen eigenen Kabelkanal moduliert wird. Der Modulator 3728-1 kann jede geeignete Modulationstechnik, wie eine Quadraturteilreaktionsmodulation (QPR-Modulation), verwenden. Ein empfangenes analoges Fernsehsignal 3722-2 wird einem Empfänger 3726-2, anschließend zum Zerhacken einem Scrambler 3730 und daraufhin einem Modulator 3728-2 zugeführt, von dem er auf einen eigenen Kabelkanal moduliert wird. Wie nachstehend im Einzelnen besprochen, fügt der Scrambler 3730 auch bandinterne Daten in das analoge Fernsehsignal 3722-2 ein. Es ist offensichtlich, dass ähnlich zusätzliche Empfänger, Modulatoren und wahlweise Scrambler für von anderen, entweder lokalen oder entfernten (nicht dargestellten) Informationsanbietern empfangene, digitale und analoge Informationssignale vorgesehen sein können.
Das empfangene digitale Datensignal 3722-3 wird einem Informationssignalprozessor (ISP) 3742 zugeführt, so dass es unter Verwendung so genannter bandinterner oder Außerbandübertragungen gesendet werden kann. Weitere (nicht gezeigte) Datenströme von anderen Informationsanbietern können ebenfalls dem ISP 3742 zugeführt werden. Der ISP 3742 ist für den Empfang des einen bzw. der mehreren Datensignale und das anschließende Senden der Daten an die Teilnehmeranschlussstellen verantwortlich, wie nachstehend beschrieben. Der ISP 3742 liefert dem Scrambler 3730 Daten. Der ISP 3742 kann abhängig von Faktoren, wie der Menge der zu sendenden Daten und der Geschwindigkeit, mit der die Daten zugeführt und aktualisiert werden müssen, weiteren Scramblern Daten liefern. Vom Scrambler 3730 werden wiederholt Daten gesendet. Ist nur ein Scrambler vorhanden und es müssen große Datenmengen gesendet werden, ist die Wiederholungsrate langsam. Die Verwendung von mehr als einem Scrambler ermöglicht eine Steigerung der Wiederholungsrate.
Genauer platziert der Scrambler 3730 Daten zur Übertragung an Abonnenten bandintern und zerhackt das zugehörige analoge Fernsehsignal 3722-2. Bei einer Konstruktion werden die Daten in der vertikalen Austastlücke des Fernsehsignals platziert, doch die Daten können an anderer Stelle in dem Signal platziert werden, und die Erfindung unterliegt in dieser Hinsicht keinen Einschränkungen. Daten können beispielsweise auf einen Klangträger amplitudenmoduliert werden, wie allgemein bekannt. Im hier verwendeten Sine bedeutet bandinternes Senden das Senden von Daten in einem Videofernsehkanal, der sowohl Audio- als auch Videoträger enthält. Daher können von dem ISP 3742 die nachstehend als bandinterne Audiodaten bezeichneten Daten mittels einer Amplitudenmodulation auf dem Tonträger bzw. die nachstehend als bandinterne Videodaten bezeichneten in den vertikalen oder horizontalen Austastlücken eines analogen Fernsehsignals gesendet werden. Der ISP 3742 kann auch so beschaffen sein, dass der die zu sendenden Daten während nicht genutzter Abschnitte eines digitalen Datenstroms, wie eines komprimierten MPEG-Videodatenstroms, zuführt. Der ISP 3742 kann Informationen auch lokal empfangen und/oder erzeugen. Der ISP 3742 kann beispielsweise bevorstehende Ereignisse, Dienstunterbrechungen oder Veränderungen betreffende Nachrichten erzeugen, die an Teilnehmer gesendet werden sollen. Werden sie von einem Informationsdienstanbieter empfangen, können die Informationen. entweder unverändert oder vom ISP 3742 neu formatiert gesendet und dann zur Übertragung an die Teilnehmer einem Scrambler 3730 zugeführt werden.
Der ISP 3742 leitet auch Informationen an eine Steuereinheit 3732 am vorderen Ende (einen „HEC" 3732, head end controller) weiter, die mit dem Scrambler 3730 und einem Außerbandsender 3734 verbunden ist. Obwohl der HEC 3732 gemäß der Darstellung mit dem gleichen Scrambler 3730 verbunden ist, wie der ISP 3742, kann der HEC 3732 tatsächlich mit einem anderen Scrambler bzw. mit anderen Scramblern verbunden sein. Der HEC 3732 kann zweckmäßigerweise ein Scientific-Atlanta Modell 8658 zur Steuerung der Übertragung der Daten an den Scrambler 3730 und den Außerbandsender 3734 sein. Wie vorstehend ausgeführt, platziert der Scrambler 3730 Daten zum Senden an Abonnenten neben dem Zerhacken eines zugehörigen Fernsehsignals bandintern. Ein Außerbandsender 3734 sendet Informationen auf einem separaten Träger, d.h. nicht innerhalb eines Kanals. Bei einer Implementierung liegt der Außerbandträger bei 108 MHz, es können jedoch auch andere Außerbandträger verwendet werden. Die unter der Steuerung des HEC 3732 gesendeten Informationen können beispielsweise dechiffrierte Daten sein. Bei einer Anordnung werden Informationen in jede vertikale Austastlücke eingefügt, um den im nächsten Videofeld verwendeten Typ der Zerhackung anzuzeigen. Zerhackersysteme sind in der Technik allgemein bekannt. So können beispielsweise eine Synchronisationsunterdrückungszerhackung, eine Videoinversionszerhackung und dergleichen oder eine Kombination von Zerhackungstechniken verwendet werden. Fernern können Autorisationsinformationen gesendet werden. Autorisationsinformationen autorisieren Teilnehmer zum Empfangen bestimmter Kanäle bzw. Programme. Informationen vom ISP 3742 und/oder vom HEC 3732 können auch über nicht zerhackte Kanäle als bandinterne Audio- oder Videodaten über (nicht gezeigte) Date nentzerrer, wie einen Datenentzerrer Modell 8556-100 von Scientific-Atlanta, gesendet werden.
Einige der gesendeten Informationen sind global, d.h, sie werden an jeden Teilnehmer gesendet. So können beispielsweise die Enthackerdaten global gesendet werden. Es wird darauf hingewiesen, dass, nur weil jeder Teilnehmer die Enthackerdaten empfängt, dies nicht bedeutet, dass jede Teilnehmeranschlusseinheit ein empfangenes Signal enthacken kann. Vielmehr können nur autorisierte Teilnehmeranschlusseinheiten das empfangene Signal enthacken. Andererseits können einige Informationsübertragungen adressierte Übertragungen sein. Autorisierungsinformationen werden beispielsweise normalerweise an einzelne Teilnehmer adressiert. Dies bedeutet, dass die Daten eine ihnen zugeordnete Adresse (beispielsweise die Seriennummer einer Teilnehmeranschlusseinheit) enthalten. Die adressierte Teilnehmeranschlusseinheit empfängt die Informationen und antwortet entsprechend. Andere Teilnehmeranschlusseinheiten ignorieren die Daten. Ferner können an Gruppen adressierte Daten vorgesehen sein, die Gruppen von Teilnehmeranschlusseinheiten beeinflussen.
Die Ausgänge der Modulatoren 3728-1, 3728-2, jedweder weiterer Modulatoren und des Außerbandsenders 3734 werden einem Kombinator 3736 zugeführt, der die einzelnen Kanäle zu einem einzigen Breitbandsignal kombiniert, das dann über ein Verteilernetz 3738 an mehrere Teilnehmerstandorte 3720-1, ..., 3720-n gesendet wird (siehe 37C). Das Verteilernetz 3738 kann beispielsweise einen oder mehrere optische Sender 3740, einen oder mehrere optische Empfänger 3742 und ein Koaxialkabel 3744 umfassen.
Wie in 37B gezeigt, kann ein Bezahlfernsehsystem mehrere Headend-Installationen umfassen, die jeweils Stellen in einer be stimmten Stadt oder geographischen Region Informationen liefern. Eine zentrale Steuerung 3746 kann zur Koordinierung der Funktionen der verschiedenen Headend-Installationen eines Bezahlfernsehsystems vorgesehen sein. Die zentrale Steuerung 3746 ist häufig der Zentrale eines Anbieters mehrerer Dienste zugeordnet und kann mit Headend-Installationen in vielen Städten kommunizieren und diese steuern. Die zentrale Steuerung 3746 umfasst einen Systemsteuerungscomputer 3748, der die übrigen Komponenten der zentralen Steuerung 3746 anweist. Ein Beispiel eines Systemsteuerungscomputers 3748 ist ein Scientific-Atlanta System Manager 3610 Network Controller. Die zentrale Steuerung 3746 kann beispielsweise Rechnungsstellungsdienste einschließlich der Rechnungsstellung für die Inanspruchnahme gebührenpflichtigen Fernsehens für den Dienstanbieter anbieten. Ein Rechnungsstellungscomputer 3750 speichert Rechnungsdaten und kann Rechnungen auch formatieren und ausdrucken. Die Kommunikation zwischen dem Systemsteuerungscomputer 3748 und dem HEC 3732 kann über en Modem erfolgen, obwohl die Erfindung in dieser Hinsicht keinen Einschränkungen unterliegt. Die Autorisationsdaten können von dem Systemsteuerungscomputer 3748 an den HEC 3732 gesendet werden. Der HEC 3732 formatiert die Autorisationsdaten dann in geeigneter Weise und sendet die formatierten Autorisationsdaten entweder bandintern über den Scrambler 3730 oder außerhalb des Bands über einen Außerbanddatensender 3734 an die Teilnehmeranschlusseinheiten, wie vorstehend besprochen.
Die Headend-Installation 3725 umfasst auch einen Funkfrequenzprozessor 3752 zum Empfangen einer Rückwärtspfaddatenkommunikation von den Teilnehmerstandorten 3720-1, ..., 3720-n. Diese Datenkommunikation kann Rechnungsstellungsinformationen für Impulskäufe beim zahlungspflichtigem Fernsehen, die an einen Systemsteuerungscomputer 3748 weitergeleitet werden, und ebenso Teilnehmeranforderungen von in Headend-Installationen 3725 gehaltenen Datenbankinformationen umfassen. Ein Datenbankserver 3754, wie ein Oracle RTM Datenbankserver kann beispielsweise Zugriff auf Nachschlagewerke, wie Enzyklopädien, Atlasse, Wörterbücher und dergleichen gewähren. Die Teilnehmeranfrage wird von dem Funkfrequenzprozessor 3752 an einen Informationsanforderungsprozessor 3756 weitergeleitet, der auf die angeforderten Informationen in der Datenbank 3754 zugreift und die angeforderten Informationen beispielsweise über eine adressierte bandinterne bzw. Außerbandtransaktion an den anfordernden Teilnehmer weiterleitet, wie vorstehend beschrieben. Zudem kann der Informationsanforderungsprozessor 3756 auch auf ein Kommunikationsnetzwerk 3758 zugreifen, um einem Benutzer Zugriff auf andere Dienste, wie Bankdienste, zu gewähren.
Wenn die Menge der zwischen der Headend-Installation und den Teilnehmerstandorten übertragenen Daten zunimmt, wird wahrscheinlich vermehrt von Außerband- und digitalen Übertragungen Gebrauch gemacht. So kann dem Senden von digitalen (nicht Video-) Daten sowohl auf dem vorwärts gerichteten Kanal (zur Teilnehmeranschlusseinheit) als auch auf dem rückwärts gerichteten Kanal (von der Teilnehmeranschlusseinheit) beispielsweise eine Bandbreite von 50 MHz zugeordnet werden. Ebenso können digitalem Video 200 MHz oder mehr und analogem Video 300 bis 500 MHz zugeordnet werden. Obwohl vorstehend verschiedene veranschaulichende Sendetechniken besprochen wurden, ist die vorliegende Erfindung dementsprechend in keinerlei Hinsicht durch die Art und Weise eingeschränkt, in der Informationen zwischen der Headend-Installation und den Teilnehmerstandorten ausgetauscht werden.
Gemäß 37C umfasst jeder Teilnehmerstandort 3720-1, ..., 3720-n eine mit einem Verteilernetzwerk 3738 verbundene Teilnehmeranschlusseinheit 3760. Teilnehmerstandort bezeichnet im hier verwendeten Sinne jede in Bezug auf die Headend-Installation 3725 entfernt angeordnete Stelle. Erfindungsgemäß kann ein Teilnehmeranschluss beispielsweise in einem Privathaushalt, einem Klassenzimmer, einem Hotelzimmer, einem Krankenhauszimmer oder einem Büro angeordnet sein. Jede Teilnehmeranschlusseinheit 3760 kann mit einer oder mehreren Vorrichtungen 3762-1, ..., 3762-n verbunden sein. Die Vorrichtungen 3762-1, ..., 3762-n können zum Betrieb als Reaktion auf vom Benutzer zugeführte Befehle geeignete Vorrichtungen umfassen, wobei die vorliegende Erfindung in dieser Hinsicht keiner Einschränkung unterliegt. So können die Vorrichtungen Fernsehgeräte, Stereoempfänger, Videokassettenrekorder (VCRs), Tonbandgeräte, Compact-Disk-Abspielgeräte (CD-Player) Video-Disk-Abspielgeräte, Videospielgeräte, Computer und dergleichen umfassen. Bestimmte von diesen Vorrichtungen können operativ untereinander verbunden sein. So ist die Vorrichtung 3762-1 gemäß 37C mit der Vorrichtung 3762-2 verbunden. Die Vorrichtung 3762-2 kann beispielsweise ein Fernseher und die Vorrichtung 3762-1 ein Videokassettenrekorder sein. Zum Zwecke der Besprechung wird davon ausgegangen, dass die Vorrichtung 3762-1 ein Videokassettenrekorder und die Vorrichtung 3762-2 ein Fernsehgerät ist. Eine oder mehrere der Vorrichtungen 3762-1, ..., 3762-n kann bzw. können mit geschalteten Stromausgängen der Teilnehmeranschlusseinheit 3760 verbunden sein, wodurch die Teilnehmeranschlusseinheit 3760 intern das Ein- und Ausschalten dieser Vorrichtungen veranlassen kann. Eine Fernsteuereinheit 3766 übermittelt über eine Kommunikationsverbindung 3768 Informationen an die Teilnehmeranschluss einheit 3760. Die Kommunikationsverbindung 3768 kann beispielsweise eine Infrarotverbindung sein.
Sprachübersetzung
Das System nutzt ein Lexikon und einen beschränkten Satz grammatikalischer Regeln zur Übersetzung von Sprachen. Das Lexikon umfasst linguistische Einheiten, die in vier Klassen unterteilt sind. Jede linguistische Einheit ist (1) ein einziges Wort, wie „Hund" oder „Regierung", (2) eine Kombination von Wörtern, wie „Parkplatz" oder „Premierminister", (3) ein Eigenname, (4) ein Wort mit einer für die Erfindung einzigartigen Definition oder (5) eine Form eines Worts mit mehreren Bedeutungen. In dem zuletzt genannten Fall repräsentiert jede der Definitionen des Worts eine andere linguistische Einheit, wobei die verschiedenen Definitionen als Einträge in unterschiedlichen Formklassen erscheinen können. Zum Zwecke der Automatisierung wird jede Definition beispielsweise durch die Anzahl der am Ende des Worts erscheinenden Punkte unterschieden. Der Eintrag für die erste (beliebig zugewiesene) Definition ist ohne Punkt aufgelistet, der die zweite Definition repräsentierende Eintrag ist mit einem Punkt an seinem Ende aufgelistet, etc. Alternativ können unterschiedliche Wortbedeutungen beispielsweise unter Verwendung von tiefgestellten Zeichen numerisch identifiziert werden.
Für die Erfindung einmalige Wörter können einen geringen Anteil des gesamten Lexikons ausmachen, und keines dieser Wörter ist für die Erfindung spezifisch oder fremd für die natürliche Sprache, auf der es basiert. Stattdessen wird die Bedeutung erfindungsspezifischer Wörter erweitert, um die Gesamtanzahl der Begriffe im Lexikon zu begrenzen. Bei einer bevorzugten Implementierung wird das Wort „verwenden" beispielsweise so erweitert, dass es die Verwendung je des Objekts für seinen primär beabsichtigten Zweck bezeichnet, so dass der Begriff in dem Satz „Johannes verwenden Buch" der Begriff lesen bedeutet. Das Wort „am" kann zur Bezeichnung eines Zeitpunkts (beispielsweise (ich-gehe-zum-Ballspiel) am gestern) verwendet werden. Wird dies zur Vereinfachung der Verwendung gewünscht, kann auf erfindungsspezifische Wörter jedoch vollständig verzichtet und das Lexikon dementsprechend erweitert werden.
Das System unterteilt das globale Lexikon der zulässigen Begriffe in vier Klassen: „Dinge" oder nominale Begriffe, die beispielsweise Menschen, Orte, Gegenstände, Aktivitäten oder Ideen bezeichnen und hier durch den Code T bezeichnet sind, „Verbindungen", die Beziehungen zwischen zwei (oder mehr) nominalen Begriffen (einschließlich typischerweise als Präpositionen und Konjugationen beschriebenen Wörtern und Begriffen, die Beziehungen in Begriffen von Tätigkeiten, Befindlichkeiten und Daseinszuständen beschreiben) aufzeigen und hier durch C bezeichnet sind, „Deskriptoren", die den Zustand eines oder mehrerer nominaler Begriffe (einschließlich Wörtern, die typischerweise als Adjektive, Adverbien und intransitive Verben beschrieben werden) verändern und hier durch D identifiziert sind, sowie „logische Verbindungen", die Gruppen hier durch C identifizierter nominaler Begriffe festlegen. Die bevorzugten logischen Verbindungen sind „und" und „oder".
Natürlich kann das Lexikon keine Liste möglicher Eigennamen enthalten und tut dies auch nicht, stattdessen werden Eigennamen, wie andere von der Erfindung nicht erkannte Wörter, in eckige Klammern gesetzt zurückgemeldet, um anzuzeigen, dass keine Übersetzung vorgenommen wurde. Das System erkennt auch keine Verbformen, Verbindungen werden im Präsens ausgedrückt, da die Zeit leicht aus dem Kontext ersichtlich ist. Die Konjugation kann nichts destotrotz angegeben werden, allerdings durch die Angabe einer Zeit, eines Tags und/oder eines Datums.
Erfindungsgemäße Sätze werden nach Maßgabe von vier Erweiterungsregeln aus Begriffen aus dem Lexikon konstruiert. Die grundlegendsten Sätze gehen von einer der folgenden drei Konstruktionen aus (von denen jede nach Maßgabe der nachstehend ausgeführten Erweiterungsregeln aus einem Begriff T erzeugt werden kann). Diese Strukturen, die die kleinsten möglichen Wortgruppen repräsentieren, von denen angenommen wird, dass sie Informationen übermitteln, sind die Bausteine komplexerer Sätze. Ihre strukturelle Einfachheit erleichtert eine prompte Übersetzung in umgangssprachliche Sätze in einer natürlichen Sprache; daher werden erfindungsgemäß selbst komplexe Sätze durch eine modulare Analyse der grundlegenderen Satzbestandteile leicht in Äquivalente in einer natürlichen Sprache übertragen (ein Prozess, der durch die später beschriebenen, bevorzugten Repräsentationen vereinfacht wird).
Die Grundstruktur 1 (BS1) wird durch Anordnen eines Deskriptors hinter einem nominalen Begriff zur Bildung der Struktur TC erzeugt. BS1-Sätze, wie „Hund braun" oder „Hans schwimmen" lassen sich leicht in die deutschen Sätze „Der Hund ist braun." (bzw. die Phrase „der braune Hund" bzw. „Hans schwimmt." übertragen.
BS2 wird durch Anordnen einer Verbindung zwischen zwei nominalen Begriffen zur Erzeugung der Struktur TCT gebildet. BS2-Sätze, wie „Hund essen Nahrung" lassen sich leicht in ihre deutschen Äquivalente übertragen.
BS3 wird durch Anordnen einer logischen Verbindung zwischen zwei nominalen Begriffen zur Bildung einer durch die Struktur TCT repräsentierten Folge gebildet. Die Folge kann eine einzelne Verbindung, wie „Hans und Franz" oder eine zusammengesetzte Struktur, wie „Hans und Franz und Fred und Julia" oder „rot oder blau oder grün", sein.
Ein Satz, der eine oder mehrere der vorstehend beschriebenen Grundstrukturen umfasst, kann unter Verwendung der folgenden Regeln erweitert werden.
Regel I: Zu einem nominalen Begriff wird ein Deskriptor hinzugefügt (T → TD).
Gemäß Regel I kann jede linguistische Einheit der nominalen Klasse zu dem ursprünglichen Objekt gefolgt von einem neuen Objekt aus der Klasse der Deskriptoren erweitert werden, wodurch das ursprüngliche Objekt verändert wird. Aus „Hund" wird beispielsweise „Hund groß". Wie sämtliche erfindungsgemäßen Regeln ist die Regel I bei dieser Anwendung nicht auf einen isolierten nominalen Begriff beschränkt (obwohl dies ist, wie BS1-Sätze gebildet werden), stattdessen kann sie unabhängig von der Position innerhalb eines größeren Satzes auf jeden nominalen Begriff angewendet werden. Daher gilt nach Regel 1 TD1 → (TD2)D1. So wird aus „Hund groß" beispielsweise „(Hund braun) groß" (was dem deutschen Satz „Der braune Hund ist groß." entspricht).
Bei aufeinander folgenden Adjektiven kann die Reihenfolge des Hinzufügens wesentlich sein, muss es aber nicht, da sie T unabhängig verändern; bei „(Hund groß) braun" unterscheidet das Adjektiv „groß" beispielsweise diesen Hund von anderen Hunden, und „braun" beschreibt ein Merkmal, von dem angenommen wird, dass es dem Zuhörer ansonsten unbekannt ist. Die Reihenfolge des Hinzufügens ist fast immer wesentlich, wenn ein Begriff D ein intransitives Verb ist. So wird beispielsweise durch eine Erweiterung des Satzes TD „Hund rennen" (was „der Hund rennt" oder „der rennende Hund" ent spricht) durch Hinzufügen des Deskriptors „schnell" nach Regel I „(Hund schnell) rennen" gebildet (was „der schnelle Hund rennt" entspricht). Um „der Hund rennt schnell" auszudrücken, muss der TD-Satz „Hund schnell" mit dem Deskriptor „rennen" zu „(Hund rennen) schnell" erweitert werden.
Durch eine Anwendung der Erweiterungsregel I auf die Struktur BS2 ergibt sich TCT → (TD)CT. So wird aus „Hund essen Nahrung" beispielsweise „(Hund groß) essen Nahrung". Die Regel I kann auch auf zusammengesetzte nominale Begriffe in der Form TCT angewendet werden, so dass eine BS3-Struktur TCT → (TCT)D wird. So wird aus „Mutter und Vater" beispielsweise „(Mutter und Vater) fahren". Auf diese Weise können mehrere nominale Begriffe zu Modifikationszwecken entweder verbindend oder alternativ kombiniert werden. Es wird darauf hingewiesen, dass Verben mit transitiven Bedeutungen, wie „fahren" sowohl als Verbindungen als auch als Deskriptoren in der Datenbank enthalten sind. Ein weiteres Beispiel ist das Verb „kentern", das sowohl intransitiv („Boot kentern") als auch transitiv („Kapitän kentern Boot") sein kann.
Regel IIa: Zu einem nominalen Begriff werden eine Verbindung und ein weiterer nominaler Begriff hinzugefügt (T → TCT) Nach Regel IIa kann jede linguistische Einheit der nominalen Klasse durch eine von zwei nominalen Einträgen umgebene Verbindung ersetzt werden, von denen einer die ursprüngliche linguistische Einheit ist. So wird beispielsweise aus „Haus" „Haus auf Hügel". Die Anwendung der Erweiterungsregel IIa auf BS1 ergibt TD → (TCT)D; so wird aus „düster Haus" beispielsweise „(Haus auf Hügel) düster" bzw. „das Haus auf dem Hügel ist düster".
Die Regel IIa kann zum Hinzufügen eines transitiven Verbs und seines Objekts verwendet werden. Der zusammengesetzte Begriff „Mutter und Vater" kann beispielsweise zu „(Mutter und Vater) fahren Auto" erweitert werden.
Regel IIb: Zu einem nominalen Begriff werden eine logische Verbindung und ein weiterer nominaler Begriff hinzugefügt (T → TCT) Nach Regel IIb kann jede linguistische Einheit aus der nominalen Klasse durch eine von zwei nominalen Einträgen umgebene Verbindung ersetzt werden, von denen einer die ursprüngliche linguistische Einheit ist. Aus „Hund" wird beispielsweise „Hund und Katze".
Erneut kann für die Zwecke der Regeln IIa und IIb ein nominaler Begriff eine Zusammensetzung sein, die aus zwei oder mehr durch eine Verbindung verbundenen nominalen Begriffen besteht. Die Erweiterung „(Hans und Franz) gehen Markt" erfüllt beispielsweise die Regel IIa. Bei einer anschließenden Anwendung der Regel I kann dieser Satz weiter auf „((Hans und Franz) gehen Markt) zusammen" erweitert werden.
Regel III: Zu einem Deskriptor werden eine logische Verbindung und ein weiterer Deskriptor hinzugefügt (D → DCD) Nach Regel III kann ein Deskriptor durch eine von zwei Deskriptoren umgebene logische Verbindung ersetzt werden, von denen einer der ursprüngliche ist. So wird aus „groß" beispielsweise „groß und braun". Die Anwendung der Erweiterungsregel III auf BS1 ergibt TD → T(DCD); so wird aus „Hund groß" (dem Äquivalent von „der Hund ist groß" oder „der große Hund") beispielsweise „Hund (groß und braun)" (dem Äquivalent von „der Hund ist groß und braun" oder „der große braune Hund").
Die Art und Weise, in der diese Regeln erfindungsgemäß zur Bildung akzeptabler Sätze angewendet werden, ist in 38 gezeigt. Ausgehend von einem unter 3810 gezeigten nominalen Begriff, wie Katze, kann nach jeder der Erweiterungsregeln I, IIa und IIb jede der drei Grundstrukturen gebildet werden, wie jeweils unter 3812, 3814, 3816 gezeigt, um „Katze gestreift" (BS1), „Katze auf Sofa" (BS2) oder „Katze und Susi" (BS3) zu erzeugen. Durch die unter 3818 und 3820 gezeigte wiederholte Anwendung der Erweiterungsregel IIa werden Strukturen mit den Formen TC1 T1 → (TC1 T1) C2 T2 bzw. „((Katze auf Sofa) essen Maus)" und (TC1 T1) C2 T2 → ((TC1 T1) C2 T2) C3 T3 bzw. „(((Katze auf Sofa) essen Maus) mit Schwanz)" erzeugt. Die Erweiterungsregel I kann an jedem Punkt auf eine linguistische Einheit T angewendet werden, wie unter 3822 (zur Modifikation der ursprünglichen Einheit T, Katze, zur Erzeugung von „(glücklich Katze) auf Sofa") und 3824 (zur Modifikation durch „essen Maus") gezeigt. Die Regel III kann ebenfalls angewendet werden, wie unter 3826 (zur weiteren Modifikation von Katze zur Erzeugung von (((glücklich und gestreift) Katze) auf Sofa) und 3828 (zur weiteren Modifikation durch „essen Maus") gezeigt.
Die Erweiterungsregel I kann wiederholt angewendet werden, wie unter 3812, 3830 gezeigt, um die ursprüngliche Einheit T weiter zu modifizieren (obwohl, wie unter 3830 hervorgehoben, ein Deskriptor kein Adjektiv sein muss). Die Erweiterungsregel IIa ist verfügbar, um eine Tätigkeit der modifizierten Einheit T zu zeigen (wie unter 3832 dargestellt); und die Regel I kann verwendet werden, eine neu eingefügte Einheit T zu modifizieren (wie unter 3834 dargestellt). Die Regel I kann auch zur Modifikation (im weiteren Sinne der Erfindung) eines mittels der Regel IIb gebildeten, zusammengesetzten Subjekts verwendet werden, wie unter 3836 dargestellt.
Die Reihenfolge, in der linguistische Einheiten zusammengesetzt werden, kann die Bedeutung stark beeinflussen. So kann die Erweiterung TC1 T1 → (TC1 T1) C2 T2 beispielsweise mehrere Formen annehmen. Das Konstrukt „Katze schlagen (Ball auf Sofa)" übermittelt eine andere Bedeutung als „Katze schlagen Ball (auf Sofa)". In ersteren Fall befindet sich der Ball definitiv auf dem Sofa, in letzterem findet der Vorgang auf dem Sofa statt. Der Satz „(Frank wollen Auto) schnell" zeigt an, dass der Vorgang rasch erfolgen sollte, während „(Frank wollen (Auto schnell)" bedeutet, dass sich das Auto schnell fortbewegen sollte.
Ein komplexeres Beispiel der vorstehend ausgeführten Erweiterungsregeln, das die Verwendung des Systems zur Repräsentation einer Diskussion in einer natürlichen Sprache darstellt, ist in der folgenden Tabelle aufgeführt. TABELLE 8
Eine repräsentative Hardwareimplementierung der Erfindung ist in 39 gezeigt. Wie dort dargestellt, umfasst das System einen bidirektionalen Hauptbus 3900, über den sämtliche Systemkomponenten kommunizieren. Die Hauptfolge der die Erfindung ausführenden Befehle sowie die nachstehend besprochenen Datenbanken befinden sich auf einer Massenspeichervorrichtung (wie einer Festplatte oder einer optischen Speichereinheit) 3902 sowie während des Betriebs in einem Hauptsystemspeicher 3904. Die Ausführung dieser Instruktionen und die Erfüllung der Funktionen der Erfindung erfolgen durch eine Zentraleinheit („CPU") 3906.
Der Benutzer interagiert unter Verwendung einer Tastatur 3910 und einer Positionserfassungsvorrichtung (beispielsweise einer Maus) 3912 mit dem System. Der Ausgang beider Vorrichtungen kann zur Bezeichnung von Informationen oder zur Auswahl bestimmter Bereiche einer Bildschirmanzeige 3914 zur Vorgabe von durch das System auszuführenden Funktionen verwendet werden.
Der Hauptspeicher 3904 enthält eine Gruppe von Modulen, die den Betrieb der CPU 3906 und ihre Interaktion mit den anderen Hardwarekomponenten steuern. Ein Betriebssystem 3920 leitet die Ausführung grundlegender Systemfunktionen auf der untersten Ebene, wie der Speicherzuweisung, der Dateienverwaltung und des Be triebs von Massenspeichervorrichtungen 3902. Auf einer höheren Ebene steuert ein als Folge gespeicherter Anweisungen implementiertes Analysemodul 3925 das Ausführen der von der Erfindung ausgeführten primären Funktionen, wie nachstehend beschrieben; und eine Benutzerschnittstelle 3930 definierende Anweisungen ermöglichen eine direkte Interaktion über die Bildschirmanzeige 3914. Die Benutzerschnittstelle 3930 erzeugt Wörter oder grafische Darstellungen auf der Anzeige 3914, um eine Aktion des Benutzers zu veranlassen, und nimmt Benutzerbefehle von der Tastatur 3910 und/oder der Positionserfassungsvorrichtung 3912 an.
Der Hauptspeicher 3904 enthält auch einen Speicherbereich, der eine Reihe von Datenbanken definiert, in denen die erfindungsgemäßen linguistischen Einheiten gespeichert werden können und die jeweils durch die Bezugszeichen 3935₁ , 3935₂ , 3935₃ , 3935₄ bezeichnet sind. Die Datenbanken 3935, die physisch getrennt (d.h. in unterschiedlichen Speicherbereichen und als separate Dateien in der Speichervorrichtung 3902 gespeichert) oder logisch getrennt (d.h. als strukturierte Liste, die als mehrere Datenbanken aufgerufen werden kann, in einem einzigen Speicherbereich gespeichert) sein können, enthalten jeweils sämtliche linguistischen Einheiten, die einer bestimmten Klasse entsprechen, in mindestens zwei Sprachen. Anders ausgedrückt ist jede Datenbank als Tabelle organisiert, in deren beiden Spalten sämtliche linguistischen Einheiten der jeweiligen Klasse in einer einzigen Sprache aufgelistet sind, so dass jede Zeile die gleiche linguistische Einheit in unterschiedlichen Sprachen ausgedrückt enthält, in die das System übersetzen kann. Bei der dargestellten Implementierung sind in der Datenbank 3935₁ nominale Begriffe enthalten, und ein repräsentatives Beispiel der Inhalte dieser Datenbank in einer einzigen Sprache (Englisch) – d.h. die Inhalte einer Spalte einer mehrspaltigen Arbeitsdatenbank – sind in Tabelle 9 auf gelistet; die Verbindungen sind in der Datenbank 3935₂ enthalten, wobei eine beispielhafte Spalte dieser Datenbank in Tabelle 10 wiedergegeben ist; die Deskriptoren sind in der Datenbank 3935₃ enthalten, wobei eine beispielhafte Spalte dieser Datenbank in Tabelle 11 wiedergegeben ist; und die logischen Verbindungen (am einfachsten, „und" und „oder") sind in der Datenbank 3935₄ enthalten. TABELLE 9

TABELLE 10

TABELLE 11
Ein Eingangspuffer 3940 empfängt vom Benutzer über die Tastatur 3910 einen eingegebenen Satz, der vorzugsweise erfindungsgemäß strukturiert und wie nachstehend beschrieben formatiert ist. In diesem Fall untersucht das Analysemodul 3925 anfangs den eingegebenen Satz auf eine Konformität mit der Struktur. Anschließend verarbeitet das Modul 3925 die einzelnen linguistischen Einheiten des eingegebenen Satzes auf sich wiederholende Weise, wobei es auf die Datenbanken zugreift, um die jeder linguistischen Einheit in der gegebenen Sprache entsprechenden Einträge sowie die entsprechenden Einträge in der Zielsprache zu lokalisieren. Das Analysemodul 3925 übersetzt den Satz durch Ersetzen der eingegebenen Einträge durch die einträge in der Zielsprache und gibt die Übersetzung in einen Ausgabepuffer 3945 ein, dessen Inhalt auf der Bildschirmanzeige 3914 erscheint.
Es muss festgehalten werden, dass, obwohl die Module des Hauptspeichers 3904 separat beschrieben wurden, dies nur der Deutlichkeit der Darstellung diente; solange das System sämtliche erforderlichen Funktionen erfüllt, ist es unwesentlich, wie sie im System und seiner Programmierarchitektur verteilt sind.
Zur Erleichterung einer zweckmäßigen Analyse durch das Modul 3925 sind eingegebenen Sätze vorzugsweise in einem charakteristischen, leicht zu verarbeitenden Format strukturiert, das sowohl die direkte Identifikation einzelner linguistischer Einheiten als auch eine einfache Verifikation erleichtert, dass die Folge von Einheiten nach Maßgabe der erfindungsgemäßen Erweiterungsregeln als legitimer Satz in Frage kommt. Bei einem Ansatz (der „Portraitform") erscheint jede linguistische Einheit eines Satzes in einer separaten Zeile. Wurde eine Erweiterung angewendet, wird ein Stern (*) verwendet, um zu markieren, wo die Erweiterung vorgenommen wurde, d.h. der * wird verwendet, um die Grundsatzstrukturen zur Bildung größerer Sätze miteinander zu verbinden. Gemäß den Einträgen in 1 repräsentiert
Katze gestreift
*schlagen*
Ball rot
die Ergebnisse der Schritte 132 und 134.
Alternativ kann der Satz in einem algebraischen Format (einem „Landschaftsformat") ausgedrückt werden, in dem Erweiterungen durch Einschließen der Erweiterungsbegriffe in Klammern identifiziert werden:
(Katze gestreift) schlagen (Ball rot)
In beiden Fällen wird die Eingabe des Benutzers als Zeichenfolge behandelt, und das Modul 3925 identifiziert unter Verwendung von Standardroutinen zur Analyse von Zeichenfolgen die einzelnen linguistischen Einheiten und die Erweiterungspunkte. Dann vergleicht es diese mit Templaten, die den zulässigen Erweiterungsregeln entsprechen, um den Satz zu bewerten, worauf ein Datenbankabruf folgt und eine Übersetzung angefertigt wird. Ist der Satz nicht mit den erfindungsgemäßen Regeln konform, alarmiert das Modul 3925 den Benutzer über eine Bildschirmanzeige 3914.
Entsprechend einem der Repräsentationsformate wird im Englischen durch Hinzufügen eines „/s" am Ende eines Substantivs im Singular auf einen Plural hingewiesen (beispielsweise „nation/s"). In anderen Sprachen wird das allgemeingültigste Verfahren zur Bildung des Plurals verwendet; so wird beispielsweise im Französischen, wie im Englischen, ein „/s" hinzugefügt, im Italienischen wird jedoch ein „/i" hinzugefügt. Zahlen werden numerisch ausgedrückt.
Alternativ kann das Analysemodul 3925 so aufgebaut sein, dass es nicht formatierte eingegebene Sätze verarbeitet. Um dies zu erreichen, schlägt das Modul 3925 jedes eingegebene Wort (oder, wenn dies zweckmäßig ist, Gruppen von Wörtern) in den Datenbanken 3935 nach und erzeugt eine Repräsentation des Satzes in Begriffen der in ihm enthaltenen linguistischen Klassen – d.h. durch Ersetzen jeder Einheit durch das Symbol ihrer linguistischen Klasse. Das Modul 3925 überprüft dann, ob die resultierende Folge von Klassen entsprechend den zulässigen Erweiterungsregeln erzeugt worden sein könnte, und wenn dies der Fall ist, gruppiert es die linguistischen Einheiten so, dass das Nachschlagen und Übersetzen erleichtert werden. Der Ausgang wird entweder in einem der Eingabe entsprechenden, unstrukturierten Format oder in einem der vorstehend aufge führten Formate bereitgestellt. Letztere Form von Ausgang wird bevorzugt, da Wortfolgen in einer Sprache selten sinnvoll einfach durch Ersetzen erzeugten Wortfolgen in einer anderen Sprache entsprechen; es ist im Allgemeinen leichter, den Ausgang in einer Form zu verstehen, die die linguistischen Einheiten isoliert und Erweiterungen kennzeichnet.
Das System kann zusätzliche Eigenschaften zur Vereinfachung des Betriebs aufweisen. Wie vorstehend ausgeführt, werden Wörter mit mehreren Bedeutungen durch Punkte am Ende unterschieden; natürlich stellt die Anzahl der einer bestimmten Bedeutung des Worts folgenden Punkte eine willkürliche Wahl dar. Dementsprechend kann eine zusätzliche Datenbank 3935 ein Wörterbuch der Wörter mit mehreren Bedeutungen umfassen, wobei das erkannte Format jeder Bedeutung des Worts neben unterschiedlichen Definitionen steht. Die Benutzerschnittstelle 3930 interpretiert das Anklicken einer der Definitionen durch den Benutzer als Wahl derselben und gibt die geeignete Codierung des Worts in den Eingangspuffer 3940 ein.
Nachdem Überlegungen hinsichtlich der Wirtschaftlichkeit und der Betriebsgeschwindigkeit die wünschenswerte Gesamtgröße der Datenbanken begrenzen, kann ähnlich eine der Datenbanken 3935 als Thesaurus ausgebildet sein, der einem nicht erkannten Wort die zunächstliegende erkannte linguistische Einheit zuordnet. Beim Betrieb kann das Analysemodul 3925 nach einem erfolglosen Versuch des Moduls 3925, ein Wort in den Datenbanken zu lokalisieren, so programmiert werden, dass es die Thesaurusdatenbank 3935 konsultiert und eine Liste von Wörtern zurücksendet, die tatsächlich in den Datenbanken der linguistischen Einheiten vorhanden sind.
Das Modul 3925 kann auch bestimmte Dienstprogramme enthalten, die (beispielsweise nach einer Genehmigung durch den Benutzer) häufig auftretende Fehler in einer Satzkonstruktion erkennen und korrigieren. Das System zeigt beispielsweise normalerweise den Besitz einer genannten Person unter Verwendung des Verbs „haben" an; daher wird der Satz „Pauls Computer ist schnell" (im algebraischen Format) durch „paul haben (computer schnell)" oder „(computer von paul) schnell" repräsentiert. Wird die Person nicht namentlich genannt, können die normalen Possessivpronomen verwendet werden (beispielsweise „(computer mein) schnell"). Daher kann das Modul 3925 so konfiguriert sein, dass es Konstruktionen, wie „Pauls", erkennt und die geeignete Konstruktion liefert.
Es ist daher ersichtlich, dass Vorstehendes einen zweckmäßigen und raschen Ansatz für Übersetzungen zwischen mehreren Sprachen repräsentiert. Die hier verwendeten Begriffe und Ausdrücke werden als Begriffe zur Beschreibung und nicht zur Einschränkung verwendet, und es ist nicht beabsichtigt, durch die Verwendung derartiger Begriffe und Ausdrücke Äquivalente der gezeigten und beschriebenen Eigenschaften oder Teile davon auszuschließen, sondern es ist zu erkennen, dass im Rahmen der beanspruchten Erfindung unterschiedliche Modifikationen möglich sind. So können beispielsweise die unterschiedlichen erfindungsgemäßen Module unter Verwendung geeigneter Softwareanweisungen oder als Hardwareschaltungen oder als gemischte Kombination aus Hardware und Software auf einem Mehrzweckcomputer implementiert werden.
Obwohl vorstehend verschiedene Ausführungsformen beschrieben wurden, ist festzuhalten, dass sie lediglich beispielhaft angeführt wurden und keine Einschränkung darstellen.

Claims

Verfahren zur Erfassung von Emotionen unter Verwendung einer Stimmanalyse mit den Schritten: (a) Empfangen eines Stimmsignals, (b1) Extrahieren einer Steigung einer Grundfrequenz aus dem Stimmsignal sowie mindestens eines zusätzlichen Merkmals des Stimmsignals, das aus der Gruppe bestehend aus einem maximalen Wert eines ersten Formanten, einem maximalen Wert einer Energie, einem Bereich der Energie, einem Bereich eines zweiten Formanten und einem Bereich des ersten Formanten ausgewählt ist, (b2) Extrahieren eines maximalen Werts eines ersten Formanten des Stimmsignals sowie mindestens eines aus der aus einem Bereich der Grundfrequenz und einer Steigung der Grundfrequenz bestehenden Gruppe ausgewählten zusätzlichen Merkmals des Stimmsignals, (c) Bestimmen einer dem Stimmsignal zugeordneten Emotion anhand der extrahierten Merkmale und (d) Ausgeben der bestimmten Emotion.
Verfahren nach Anspruch 1, das ferner das Empfangen mehrerer über ein Telekommunikationsnetz gesendeter Sprachnachrichten, die mindestens ein Stimmsignal enthalten, das Speichern der Sprachnachrichten auf einem Speichermedium, das Bestimmen der den Stimmsignalen der Sprachnachrichten zugeordneten Emotionen, das Ordnen der Sprachnachrichten auf der Grundlage der bestimmten Emotionen und das Gewähren eines Zugriffs auf die geordneten Sprachnachrichten umfasst.
Verfahren nach Anspruch 2, bei dem die Sprachnachrichten einem Telefonanruf folgen.
Verfahren nach Anspruch 2, bei dem Sprachnachrichten mit ähnlichen Emotionen zusammen gespeichert werden.
Verfahren nach Anspruch 2, bei dem die Sprachnachrichten beim Empfang über das Telekommunikationsnetz in Echtzeit geordnet werden.
Verfahren nach Anspruch 2, das ferner den Schritt des Identifizierens der Art und Weise umfasst, in der die Sprachnachrichten zur Erleichterung des Zugriffs auf die geordneten Sprachnachrichten geordnet werden.
Verfahren nach Anspruch 2, bei dem eine Tonhöhe des Stimmsignals und lineare Vorhersagecodierungsparameter zur Übertragung oder Speicherung codiert werden.
Verfahren nach Anspruch 1, bei dem vor dem Extraktionsschritt mindestens ein Segment der Tonfrequenz aus dem Stimmsignal ausgewählt wird.
Verfahren nach Anspruch 1, bei dem die besagte Emotion unter Verwendung mindestens eines akustischen Merkmals als Eingang für ein neuronales Netzwerk bestimmt wird, das mindestens einen zur Bestimmung von Emotionen verwendeten Algorithmus enthält.
Verfahren nach Anspruch 1, bei dem die besagte Emotion unter Verwendung mindestens eines akustischen Merkmals als Eingang für einen Satz von Klassifiziereinrichtungen bestimmt wird, die zur Bestimmung von Emotionen verwendet werden.
Verfahren nach Anspruch 2, das ferner den Schritt der Benachrichtigung einer dritten Partei auf der Grundlage der Erfassung einer vorgegebenen Emotion in der Sprachnachricht umfasst.
Computerlesbares Medium, auf dem von einem Computer ausführbare Anweisungen gespeichert sind, die, wenn sie von einem Prozessor ausgeführt werden, den Computer dazu veranlassen: (a) ein Stimmsignal zu empfangen, (b1) eine Steigung einer Grundfrequenz aus dem Stimmsignal sowie mindestens ein zusätzliches Merkmal des Stimmsignals, das aus der Gruppe bestehend aus einem maxi malen Wert eines ersten Formanten, einem maximalen Wert einer Energie, einem Bereich der Energie, einem Bereich eines zweiten Formanten und einem Bereich des ersten Formanten ausgewählt ist, zu extrahieren, (b2) einen maximalen Wert eines ersten Formanten aus dem Stimmsignal sowie mindestens ein aus der aus einem Bereich der Grundfrequenz und einer Steigung der Grundfrequenz bestehenden Gruppe ausgewähltes zusätzliches Merkmal des Stimmsignals zu extrahieren, (c) auf der Grundlage der extrahierten Merkmale eine dem Stimmsignal zugeordnete Emotion zu bestimmen und (d) die bestimmte Emotion auszugeben.
Computerlesbares Medium nach Anspruch 12, bei dem die von einem Computer ausführbaren Anweisungen bei ihrer Ausführung durch den Prozessor den Computer ferner veranlassen mehrere über ein Telekommunikationsnetz gesendete Sprachnachrichten zu empfangen, die mindestens ein Stimmsignal enthalten, die Sprachnachrichten auf einem Speichermedium zu speichern, die den Stimmsignalen der Sprachnachrichten zugeordneten Emotionen zu bestimmen, die Sprachnachrichten auf der Grundlage der bestimmten Emotion zu ordnen und den Zugriff auf die geordneten Sprachnachrichten zu gewähren.
Computerlesbares Medium nach Anspruch 13, bei dem die Sprachnachrichten einem Telefonanruf folgen.
Computerlesbares Medium nach Anspruch 13, bei dem die Sprachnachrichten mit ähnlichen Emotionen zusammen gespeichert werden.
Computerlesbares Medium nach Anspruch 13, bei dem die Sprachnachrichten bei ihrem Empfang über das Telekommunikationsnetz in Echtzeit geordnet werden.
Computerlesbares Medium nach Anspruch 13, das ferner den Schritt des Identifizierens der Art und Weise umfasst, in der die Sprachnachrichten zur Erleichterung des Zugriffs auf die geordneten Sprachnachrichten geordnet werden.
Computerlesbares Medium nach Anspruch 13, bei dem eine Tonhöhe des Stimmsignals und lineare Vorhersagecodierungsparameter zur Übertragung oder Speicherung codiert werden.
System zur Erfassung von Emotionen unter Verwendung einer Stimmanalyse mit (a) einem Prozessor zum Empfangen eines Stimmsignals, (a1) Extrahieren einer Steigung einer Grundfrequenz aus einem Stimmsignal sowie mindestens eines zusätzli chen Merkmals des Stimmsignals, das aus der Gruppe bestehend aus einem maximalen Wert eines ersten Formanten, einem maximalen Wert einer Energie, einem Bereich der Energie, einem Bereich eines zweiten Formanten und einem Bereich des ersten Formanten ausgewählt ist, oder (a2) Extrahieren eines maximalen Werts eines ersten Formanten aus dem Stimmsignal sowie mindestens eines aus der aus einem Bereich der Grundfrequenz und einer Steigung der Grundfrequenz bestehenden Gruppe ausgewählten zusätzlichen Merkmals des Stimmsignals und (b) einer Ausgabevorrichtung zum Ausgeben der bestimmten Emotion.
System nach Anspruch 19, das ferner ein Speichermedium zum Speichern mehrerer über ein Telekommunikationsnetz empfangener, mindestens ein Stimmsignal enthaltender Sprachnachrichten umfasst und bei dem der Prozessor ferner der Bestimmung von den Stimmsignalen der Sprachnachrichten zugeordneten Emotionen und dem Gewähren eines Zugriffs auf die geordneten Sprachnachrichten dient,
System nach Anspruch 20, bei dem die Sprachnachrichten einem Telefonanruf folgen.
System nach Anspruch 20, bei dem Sprachnachrichten mit ähnlichen Emotionen zusammen gespeichert werden.
System nach Anspruch 20, bei dem die Sprachnachrichten beim Empfang über das Telekommunikationsnetz in Echtzeit geordnet werden.
System nach Anspruch 20, bei dem die Sprachnachrichten auf eine Art und Weise geordnet werden, durch die der Zugriff auf die geordneten Sprachnachrichten erleichtert wird.
System nach Anspruch 20, bei dem die Tonhöhe des Stimmsignals und lineare Vorhersagecodierungsparameter zur Übertragung oder Speicherung codiert werden.