-
BEREICH DER
ERFINDUNG
-
Die
vorliegende Erfindung betrifft die Spracherkennung und insbesondere
die Erfassung von Emotionen unter Verwendung einer Stimmanalyse.
-
HINTERGRUND
DER ERFINDUNG
-
Obwohl
die erste Monographie über
den Ausdruck von Gefühlen
bei Tieren und Menschen im letzten Jahrhundert von Charles Darwin
geschrieben wurde und Psychologen allmählich Kenntnisse im Bereich
der Emotionserfassung und Stimmerkennung gewonnen haben, hat dies
in jüngster
Zeit sowohl bei Psychologen als auch bei Experten für künstliche
Intelligenz eine neue Welle des Interesses ausgelöst. Für dieses
wiedererwachte Interesse gibt es mehrere Gründe: den technologischen Fortschritt
bei der Aufzeichnung, Speicherung und Verarbeitung akustischer und
optischer Informationen, die Entwicklung berührungsfreier Sensoren, das Aufkommen
tragbarer Computer und der Drang, die Schnittstelle zwischen Mensch
und Computer von einem Zeigen und Anklicken um ein Spüren und
Fühlen
zu bereichern. Ferner wurde im Bereich der künstlichen Intelligenz (AI,
artificial intelligence) kürzlich
ein neues, als affektive Datenverarbeitung bezeichnetes Forschungsgebiet
etabliert.
-
Hinsichtlich
der die Erkennung von Emotionen in Sprache betreffenden Forschung
haben Psychologen einerseits zahlreiche Experimente ausgeführt und
Theorien vorgeschlagen. Andererseits haben AI-Forscher auf den folgenden
Gebieten Beiträge
geleistet: emotionale Sprachsynthese, Erkennung von Emotionen und
die Verwendung von Mitteln zur Decodierung und zum Ausdrücken von
Emotionen. Ähnliche
Fortschritte wurden bei der Stimmerkennung erzielt.
-
In
der WIPO-Veröffentlichung
WO 99/22364 „System
and Method for Automatically Classifying the Affective Content of
Speech" ist die
Klassifikation des emotionalen Inhalts von Sprache unter Verwendung
akustischer Messungen zusätzlich
zur Tonhöhe
als Klassifikationseingang beschrieben.
-
Ein
Artikel gemäß dem Stand
der Technik auf diesem Gebiet betrifft die Unterscheidung von Emotionen
anhand der Stimme eines Menschen. Der Artikel mit dem Titel „SCREAM:
SCREen-based NavigAtion in voice Messages" wurde von H.W. Lie et al. in 1993 Proceedings
IEEE Symposium on Visual Languages (Kat.Nr. 93TH0562-9), 24.–27. August
1993, Bergen, Norwegen, Seiten 401–405 veröffentlicht. Dieser Artikel führt aus,
dass bei einer Analyse von Stimmnachrichten statistische Charakteristika,
wie die Grundfrequenz des Tonsignals (die Tonhöhe), der Bereich der Tonhöhe, die
Wahrscheinlichkeit des Vorliegens einer Grundfrequenz und die Energie
des Tonsignals, verwendet werden. Die Analyse kann dann zur Bestimmung
des Geschlechts, des Alters und des Gemütszustands des Sprechenden
verwendet werden. Dann können
unter Verwendung einer vereinbarten Symbolik auf den Stimmcharakteristika
basierende Bilder angezeigt werden. Es kann unter mehreren derartigen
Bildern navigiert werden, wie bei einem Sprachnachrichtensystem.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Durch
die vorliegende Erfindung werden ein Verfahren und ein System zur
Erfassung von Emotionen unter Verwendung einer Stimmanalyse geschaffen,
wie jeweils in den Ansprüchen
1 und 19 beschrieben. Durch die vorliegende Erfindung wird auch
ein computerlesbares Medium gemäß Anspruch
12 geschaffen. Zunächst
wird ein Stimmsignal empfangen und gespeichert, worauf bestimmte Merkmale
aus dem Stimmsignal extrahiert werden. Als nächstes wird auf der Grundlage
der extrahierten Merkmale eine dem Stimmsignal zugeordnete Emotion
bestimmt. Bei einer bevorzugten Ausführungsform wird eine derartige
erfasste Emotion dann zum Ordnen von Sprachnachrichten verwendet.
-
BESCHREIBUNG
DER ZEICHNUNGEN
-
Die
Erfindung ist unter Berücksichtigung
ihrer nachstehenden detaillierten Beschreibung besser verständlich.
In der Beschreibung wird auf die beiliegenden Zeichnungen Bezug
genommen, wobei
-
1 ein
schematisches Diagramm einer Hardwareimplementierung einer Ausführungsform
der vorliegenden Erfindung ist;
-
2 ein
Ablaufdiagramm ist, das eine Ausführungsform der vorliegenden
Erfindung zeigt, die Emotionen unter Verwendung einer Stimmanalyse
erfasst;
-
3 ein
Diagramm ist, das die durchschnittliche Genauigkeit der Erkennung
bei einem s70-Datensatz zeigt;
-
4 eine Übersicht
ist, die die durchschnittliche Genauigkeit der Erkennung bei einem
s80-Datensatz darstellt;
-
5 ein
Diagramm ist, das die durchschnittliche Genauigkeit der Erkennung
bei einem s90-Datensatz zeigt;
-
6 ein
Ablaufdiagramm ist, das eine Ausführungsform der vorliegenden
Erfindung darstellt, die Emotionen unter Verwendung von Statistiken
erfasst;
-
7 ein
Ablaufdiagramm ist, das ein Verfahren zur Erfassung von Nervosität in einer
Stimme in einer Geschäftsumgebung
zur Unterstützung
einer Verhinderung von Betrug darstellt;
-
8 ein
Ablaufdiagramm ist, das eine Vorrichtung zur Erfassung von Emotionen
anhand einer Stimmprobe gemäß einer
Ausführungsform
der vorliegenden Erfindung darstellt.
-
9 ein
Ablaufdiagramm ist, das eine Vorrichtung zur Erzeugung sichtbarer
Protokolle anhand von Klang gemäß einer
Ausführungsform
der vorliegenden Erfindung darstellt;
-
10 ein Ablaufdiagramm ist, das eine Ausführungsform
der vorliegenden Erfindung darstellt, die Emotionen in Stimmsignalen überwacht
und auf der Grundlage der erfassten Emotionen eine Rückmeldung liefert;
-
11 ein. Ablaufdiagramm ist, das eine Ausführungsform
der vorliegenden Erfindung darstellt, die die Erfassung von Emotionen
anhand von Stimmsignalen durch einen Benutzer mit der durch einen
Computer vorgenommenen vergleicht, um die Erfassung von Emotionen
entweder durch die Erfindung oder durch den Benutzer oder beides
zu verbessern;
-
12 ein schematisches Diagramm einer Spracherkennungsvorrichtung
gemäß einer
Ausführungsform
der vorliegenden Erfindung in Blockform ist;
-
13 ein schematisches Diagramm der Elementbaugruppe
und des Speicherblocks gemäß 12 in Blockform ist;
-
14 ein Spracherkennungssystem mit einem Biomonitor
und einem Vorprozessor gemäß einer Ausführungsform
der vorliegenden Erfindung darstellt;
-
15 ein von dem Biomonitor gemäß 14 erzeugtes
Biosignal darstellt;
-
16 eine Schaltung in dem Biomonitor darstellt;
-
17 ein Blockdiagramm des Vorprozessors ist;
-
18 eine Beziehung zwischen einer Tonhöhenänderung
und dem Biosignal darstellt;
-
19 ein Ablaufdiagramm eines Kalibrierungsprogramms
ist;
-
20 allgemein den Aufbau des Teils des erfindungsgemäßen Systems
zeigt, indem eine verbesserte Auswahl eines Satzes von möglichen
Tonhöhenperioden
realisiert wird;
-
21 ein Ablaufdiagramm ist, das eine Ausführungsform
der vorliegenden Erfindung darstellt, die einen Benutzer durch eine
Stimmverifikation identifiziert, um dem Benutzer Zugriff auf Daten
in einem Netzwerk zu gewähren;
-
22 das Grundkonzept eines zur Steuerung des Zugriffs
auf ein gesichertes System verwendeten Stimmauthentifizierungssystems
zeigt;
-
23 ein erfindungsgemäßes System zum Nachweis der
Identität
eines Sprechers darstellt;
-
24 den ersten Schritt zur Identifikation eines
Sprechers bei einem beispielhaften System gemäß der vorliegenden Erfindung
zeigt;
-
25 einen zweiten Schritt bei dem in 24 gezeigten System darstellt;
-
26 einen dritten Schritt bei dem in 24 gezeigten System darstellt;
-
27 einen vierten Schritt bei dem in 24 gezeigten System zur Identifikation eines Sprechers darstellt;
-
28 ein Ablaufdiagramm ist, das ein Verfahren zur
Feststellung des passiven Wahlrechts einer Person an einem Grenzüber gang,
die die Grenze überqueren
will, anhand von Stimmsignalen darstellt;
-
29 ein Verfahren zur Sprechererkennung gemäß einem
Aspekt der vorliegenden Erfindung darstellt;
-
30 ein weiteres Verfahren zur Sprechererkennung
gemäß einem
Aspekt der vorliegenden Erfindung darstellt;
-
31 die Grundbauteile eines Sprechererkennungssystems
darstellt;
-
32 ein Beispiel der in der Speichereinheit für die Sprechererkennung
betreffende Informationen gemäß 31 gespeicherten Informationen darstellt;
-
33 eine bevorzugte Ausführungsform eines Sprechererkennungssystems
gemäß einer
Ausführungsform
der vorliegenden Erfindung darstellt;
-
34 die Ausführungsform
des Sprechererkennungssystems gemäß 33 genauer
beschreibt;
-
35 ein Ablaufdiagramm ist, das ein Verfahren zur
Erkennung von Stimmbefehlen zur Manipulation von Daten im Internet
darstellt;
-
36 ein verallgemeinertes Blockdiagramm eines Informationssystems
gemäß einer
Ausführungsform
der Erfindung zur Steuerung von Inhalten und Anwendungen über ein
Netzwerk mittels Stimmsignalen ist;
-
die 37A, 37B und 37C zusammen ein Blockdiagramm eines beispielhaften
Unterhaltungssystems bilden, in dem eine Ausführungsform der vorliegenden
Erfindung enthalten ist;
-
38 die Art und Weise darstellt, in der gemäß einer
Ausführungsform
der vorliegenden Erfindung, die eine Sprachübersetzungsfunktion umfasst,
Regeln angewendet werden, um akzeptable Sätze zu bilden; und
-
39 eine repräsentative
Hardwareimplementierung einer Ausführungsform der Erfindung mit
einer Sprachübersetzungsfunktion
darstellt.
-
GENAUE BESCHREIBUNG
-
Gemäß mindestens
einer Ausführungsform
der vorliegenden Erfindung wird ein System zum Ausführen verschiedener
Funktionen und Aktivitäten
durch Stimmanalyse und Stimmerkennung geschaffen. Das System kann
unter Verwendung einer Hardwareimplementierung, wie der in 1 gezeigten,
aktiviert werden. Ferner können
unter Verwendung einer Softwareprogrammierung, d.h. einer objektorientierten
Programmierung (OOP), verschiedenste funktionale und Benutzerschnittstellenmerkmale
einer Ausführungsform
der vorliegenden Erfindung aktiviert werden.
-
UBERSICHT ÜBER DIE
HARDWARE
-
Eine
repräsentative
Hardwareumgebung gemäß einer
bevorzugten Ausführungsform
der vorliegenden Erfindung ist in 1 dargestellt,
die eine typische Hardwarekonfiguration eines Arbeitsplatzes mit
einer Zentraleinheit 110, wie einem Mikroprozessor, und
einer Reihe weiterer, über
einen Systembus 112 verbundener Einheiten zeigt. Der in 1 gezeigte
Arbeitsplatz umfasst einen Direktzugriffsspeicher (RAM) 114,
einen Festspeicher (ROM) 116, einen Eingabe-/Ausgabeadapter 118 zum
Anschließen
von Peripheriegerä ten,
wie Plattenspeichereinheiten 120, an den Bus 112,
einen Benutzerschnittstellenadapter 122 zum Anschließen einer
Tastatur 124, einer Maus 126, eines Lautsprechers 128,
eines Mikrophons 132 und/oder weiterer Benutzerschnittstellenvorrichtungen,
wie eines (nicht gezeigten) berührungsempfindlichen
Bildschirms, an den Bus 112, einen Kommunikationsadapter 134 zum
Anschließen
des Arbeitsplatzes an ein Kommunikationsnetzwerk (beispielsweise
ein Datenverarbeitungsnetzwerk) und einen Anzeigeadapter 136 zum
Anschließen
des Busses 112 an eine Anzeigevorrichtung 138.
Auf dem Arbeitsplatz ist typischer Weise ein Betriebssystem, wie
Microsoft Windows NT oder das Betriebssystem (OS) Windows 95, das
IBM Betriebssystem OS/2, das MAC OS oder das Betriebssystem UNIX,
installiert.
-
UBERSICHT ÜBER DIE
SOFTWARE
-
Die
objektorientierten Programmierung (OOP) wird zunehmend zur Entwicklung
komplexer Anwendungen verwendet. Da sich die OOP auf die Hauptrichtung
der Softwareerstellung und -entwicklung zu bewegt, ist eine Anpassung
unterschiedlicher Softwarelösungen
erforderlich, um die Vorteile der OOP nutzen zu können. Es
besteht ein Bedarf an einer derartigen Anwendung der Prinzipien
der OOP auf eine Nachrichtenübertragungsschnittstelle
eines elektronischen Nachrichtenübertragungssystems,
dass ein Satz von OOP-Klassen und Objekten für die Nachrichtenübertragungsschnittstelle
bereitgestellt werden kann.
-
Die
OOP ist ein Prozess zur Entwicklung von Computersoftware unter Verwendung
von Objekten, der die Schritte der Analyse des Problems, der Gestaltung
des Systems und der Konstruktion des Programms umfasst. Ein Objekt
ist ein Softwarepaket, das sowohl Daten als auch eine Sammlung zugehöriger Strukturen
und Prozeduren enthält.
Da es sowohl Daten als auch eine Sammlung von Strukturen und Prozeduren
enthält, kann
man es sich als autarke Komponente vorstellen, die keine zusätzlichen
Strukturen, Prozeduren oder Daten benötigt, um ihre bestimmte Aufgabe
auszuführen.
Die OOP betrachtet daher ein Computerprogramm als eine Sammlung
zum größten Teil
autonomer, als Objekte bezeichneter Komponenten, von denen jede
für eine bestimmte
Aufgabe zuständig
ist. Dieses Konzept des Zusammenpackens von Daten, Strukturen und
Prozeduren in eine Komponente bzw. ein Modul wird als Verkapseln
bezeichnet.
-
Im
Allgemeinen sind OOP-Komponenten wiederverwendbare Softwaremodule,
die eine Schnittstelle darstellen, die einem Objektmodell entspricht,
und auf die bei der Ausführung über eine
Komponentenintegrationsarchitektur zugegriffen wird. Eine Komponentenintegrationsarchitektur
ist ein Satz von Architekturmechanismen, die Softwaremodulen an
unterschiedlichen Prozessstellen die gegenseitige Nutzung ihrer
Kapazitäten bzw.
Funktionen ermöglichen.
Dies erfolgt im Allgemeinen durch die Annahme eines Objektmodells
mit gemeinsamen Komponenten, auf dem die Architektur aufgebaut werden
kann. Es lohnt sich, an diesem Punkt zwischen einem Objekt und einer
Klasse von Objekten zu unterscheiden. Ein Objekt ist ein einziges
Element der Klasse von Objekten, die häufig nur als Klasse bezeichnet
wird. Eine Klasse von Objekten kann als Blaupause betrachtet werden,
anhand derer viele Objekte erzeugt werden können.
-
Die
OOP ermöglicht
dem Programmierer die Erstellung eines Objekts, das Teil eines anderen
Objekts ist. Zu dem einen Kolbenmotor repräsentierenden Objekt kann beispielsweise
ausgesagt werden, dass es eine die Zusammensetzung betreffende Beziehung
mit dem einen Kolben repräsentierenden
Objekt hat. In der Realität
umfasst ein Kolbenmotor einen Kolben, Ventile und viele andere Bauteile;
die Tatsache, dass ein Kolben ein Element eines Kolbenmotors ist,
kann bei der OOP logisch und semantisch durch zwei Objekte repräsentiert
werden.
-
Die
OOP lässt
auch die Erzeugung eines Objekts zu, das von einem anderen Objekt „abhängt". Sind zwei Objekte
vorhanden, von denen das eine einen Kolbenmotor und das andere einen
aus Keramik gefertigten Kolben repräsentiert, ist die Beziehung
zwischen den beiden Objekten nicht die eines zusammengesetzten Aufbaus.
Ein Keramikkolbenmotor macht keinen Kolbenmotor aus. Vielmehr ist
er lediglich eine Art von Kolbenmotor, der eine Einschränkung mehr
als der Kolbenmotor aufweist, nämlich
dass sein Kolben aus Keramik gefertigt ist. In diesem Fall wird
das den Keramikkolbenmotor repräsentierende
Objekt als abgeleitetes Objekt bezeichnet, für das sämtliche Aspekte des einen Kolbenmotor
repräsentierenden
Objekts übernommen
und eine weitere Einschränkung
bzw. ein weiteres Detail hinzugefügt werden. Das den Keramikkolbenmotor
repräsentierende
Objekt „hängt" von dem Objekt ab,
das den Kolbenmotor repräsentiert.
Die Beziehung zwischen diesen Objekten wird als Übernahme bezeichnet.
-
Wenn
das Objekt oder die Klasse, das bzw. die den Keramikkolbenmotor
repräsentiert,
sämtliche
Aspekte der Objekte übernimmt,
die den Kolbenmotor repräsentieren, übernimmt
es bzw. sie die in der Klasse der Kolbenmotoren definierten Wärmecharakteristika
eines Standardkolbens. Das Objekt Keramikkolbenmotor ersetzt sie
jedoch durch keramikspezifische Wärmecharakteristika, die sich
typischer Weise von den einem Metallkolben zugeordneten unterscheiden.
Es überspringt
das Original und verwendet neue Funktionen, die Keramikkolben betreffen.
Unterschiedliche Arten von Kolbenmotoren ha ben unterschiedliche
Eigenschaften, können
jedoch die gleichen, ihnen zugrunde liegenden Funktionen aufweisen
(beispielsweise die Anzahl der Kolben des Motors, die Zündfolgen,
die Schmierung, etc.). Um in jedem Kolbenmotorobjekt auf diese Funktionen
zuzugreifen, würde
ein Programmierer die gleichen Funktionen durch die gleichen Namen
bezeichnen, doch jeder Typ von Kolbenmotor kann unter dem gleichen
Namen unterschiedliche/aufhebende Implementierungen von Funktionen
aufweisen. Diese Fähigkeit,
unterschiedliche Implementierungen einer Funktion hinter dem gleichen
Namen zu verbergen, wird als Polymorphie bezeichnet und vereinfacht
die Kommunikation unter den Objekten erheblich.
-
Durch
die Konzepte der die Zusammensetzung betreffenden Beziehung, der
Verkapselung, der Übernahme
und der Polymorphie kann ein Objekt so gut wie alles in der wirklichen
Welt repräsentieren.
Tatsächlich ist
die logische Wahrnehmung der Realität die einzige Einschränkung bei
der Bestimmung der Arten von Dingen, die Objekte der objektorientierten
Software werden können.
Folgendes sind einige typische Kategorien:
- • Objekte
können
physische Objekte, wie Kraftfahrzeuge in einer Verkehrsflusssimulation,
elektrische Bauteile in einem Schaltungskonstruktionsprogramm, Länder in
einem Wirtschaftsmodell oder Flugzeuge in einem Luftverkehrssteuersystem,
repräsentieren.
- • Objekte
können
Elemente der Computerbenutzerumgebung, wie Fenster, Menüs oder grafische
Objekte, repräsentieren.
- • Ein
Objekt kann Inventar repräsentieren,
wie eine Personalakte oder eine Tabelle der Längen- und Breitengrade von
Städten.
- • Ein
Objekt kann benutzerdefinierte Datentypen, wie die Zeit, Winkel
und komplexe Zahlen oder Punkte auf einer Ebene, repräsentieren.
-
Durch
diese enorme Kapazität
eines Objekts, so gut wie jeden logisch unterscheidbaren Inhalt
zu repräsentieren,
ermöglicht
die OOP dem Softwareentwickler das Erstellen und Implementieren
eines Computerprogramms, das ein Modell einiger Aspekte der Realität darstellt,
ob diese Realität
nun eine physische Entität, ein
Prozess, ein System oder eine Struktur aus Materie ist. Da das Objekt
alles repräsentieren
kann, kann der Softwareentwickler ein Objekt erzeugen, das als eine
Komponente in einem größeren zukünftigen
Softwareprojekt verwendet werden kann.
-
Wenn
90 % eines neuen OOP-Softwareprogramms aus erprobten, vorhandenen
Objekten bestehen, die aus bereits vorhandenen, wiederverwendbaren
Objekten erstellt wurden, müssen
nur die übrigen
10 % des Softwareprojekts neu geschrieben und ohne Vorgabe erprobt
werden. Da 90 % bereits aus einem Inventar umfassend erprobter,
wiederverwendbarer Objekte stammen, sind die potentielle Domäne, aus
der ein Fehler stammen könnte,
10 % des Programms. Dadurch ermöglicht
die OOP Softwareentwicklern das Konstruieren von Objekten aus anderen,
vorher konstruierten Objekten.
-
Dieser
Prozess ähnelt
stark dem Bau komplexer Maschinen aus Baugruppen und Unterbaugruppen. Die
OOP-Technologie rückt
daher die Softwaretechnik näher
an die Hardwaretechnik, indem die Software aus vorhandenen Komponenten
aufgebaut wird, die dem Entwickler als Objekte zur Verfügung stehen.
All dies trägt
zu einer verbesserten Qualität
der Software sowie zu einer Erhöhung
der Geschwindigkeit ihrer Entwicklung bei.
-
Die
Programmiersprachen beginnen, die OOP-Prinzipien, wie die Verkapselung,
die Übernahme,
die Polymorphie und die Zusammensetzungsbeziehung, voll zu unterstützen. Mit
dem Aufkommen der Programmiersprache C++ haben viele kommerzielle
Softwareentwickler die OOP aufgegriffen. C++ ist eine OOP-Sprache,
die einen schnellen, durch eine Maschine ausführbaren Code bereitstellt. Überdies
ist C++ sowohl für kommerzielle
Anwendungen als auch für
Systemprogrammierungsprojekte geeignet. Gegenwärtig scheint C++ bei vielen
OOP-Programmierern die verbreitetste Wahl zu sein, doch es existieren
zahlreiche weitere OOP-Sprachen, wie Smalltalk, Common Lisp Object
System (CLOS) und Eiffel. Zudem werden zu verbreiteten traditionelleren
Computerprogrammiersprachen, wie Pascal, OOP-Funktionen hinzugefügt.
-
Die
Vorteile der Objektklassen können
wie folgt zusammengefasst werden:
- • Objekte
und die ihnen entsprechenden Klassen unterteilen komplexe Programmieraufgaben
in zahlreiche kleinere, einfachere Aufgaben.
- • Die
Verkapselung erzwingt eine Datenabstraktion durch die Organisation
von Daten in kleinen, unabhängigen
Objekten, die miteinander kommunizieren können. Die Verkapselung schützt die
Daten in einem Objekt vor einer versehentlichen Beschädigung,
ermöglicht
anderen Objekten jedoch das Interagieren mit diesen Daten durch
Aufrufen der zu dem Objekt gehörigen
Funktionen und Strukturen.
- • Eine
Unterklassierung und Übernahme
ermöglichen
eine Erweiterung und Modifikation von Objekten durch Ableiten neuer
Arten von Objekten anhand der im System vorhandenen Stan dardklassen.
So werden neue Kapazitäten
erzeugt, ohne von Grund auf neu beginnen zu müssen.
- • Polymorphie
und Mehrfachübernahme
ermöglichen
unterschiedlichen Programmierern das Mischen und Anpassen der Charakteristika
vieler unterschiedlicher Klassen und das erstellen spezialisierter
Objekte, die nach wie vor in vorhersehbarer Weise mit zugeordneten
Objekten zusammenarbeiten können.
- • Klassenhierarchien
und Einschlusshierarchien bieten einen flexiblen Mechanismus zur
Abbildung realer Objekte und ihrer Beziehungen untereinander.
- • Bibliotheken
wieder verwendbarer Klassen sind in vielen Situationen nützlich,
sie unterliegen jedoch einigen Einschränkungen, beispielsweise:
- • Komplexität. In einem
komplexen System können
die Klassenhierarchien zusammengehöriger Klassen bei Duzenden
oder sogar Hunderten von Klassen extrem verwirrend werden.
- • Steuerfluss.
Ein mit der Hilfe von Klassenbibliotheken geschriebenes Programm
ist nach wie vor für
den Steuerfluss verantwortlich (d.h. es muss die Interaktionen zwischen
sämtlichen
anhand einer bestimmten Bibliothek erstellten Objekten steuern).
Der Programmierer muss entscheiden, welche Funktionen er zu welchen
Zeitpunkten für
welche Arten von Objekten aufrufen soll.
- • Verdoppelung
des Aufwands. Obwohl Klassenbibliotheken Programmierern das Verwenden
und Wiederverwenden vieler kleiner Codefragmente ermöglichen,
setzt jeder Programmierer diese Fragmente auf unterschiedliche Art
und Weise zusammen. Zwei verschiedene Programmierer können den
gleichen Satz von Klassenbibliotheken zum Schreiben von zwei Programmen
verwenden, die genau das Gleiche tun, deren innerer Aufbau (d.h.
deren Konstruktion) abhängig
von hunderten kleiner Entscheidungen, die jeder Programmierer bei
seiner Arbeit trifft, jedoch ziemlich unterschiedlich sein kann.
Es ist unvermeidlich, dass ähnliche
Codefragmente schließlich
auf geringfügig
unterschiedliche Art Ähnliches
ausführen
und nicht so gut zusammenarbeiten, wie sie sollten.
-
Klassenbibliotheken
sind sehr flexibel. Wenn die Programme komplexer werden, sehen sich
mehr Programmierer gezwungen, grundlegende Lösungen für grundlegende Probleme immer
wieder neu zu erfinden. Eine relativ neue Erweiterung des Konzepts
der Klassenbibliotheken ist die Erstellung einer Grundstruktur von Klassenbibliotheken.
Diese Grundstruktur ist komplexer und besteht aus erheblichen Sammlungen
zusammenarbeitender Klassen, die sowohl die Muster im kleinen Maßstab als
auch die größeren Mechanismen
erfassen, die die gemeinsamen Anforderungen und Gestaltungen in
einer bestimmten Anwendungsdomäne
implementieren. Sie wurden zunächst
entwickelt, um Anwendungsprogrammierer von den lästigen, mit der Anzeige von
Menüs,
Fenstern, Dialogfeldern und weiteren Standardbenutzerschnittstellenelementen
für Personal
Computer verbundenen Aufgaben zu befreien.
-
Grundstrukturen
repräsentieren
auch eine Änderung
der Art und Weise, in der Programmierer die Interaktion zwischen
dem Code, den sie schreiben, und von Anderen geschriebenem Code
sehen. In den Anfängen
der verfahrensorientierten Programmierung rief der Programmierer
zum Ausführen
bestimmter Aufgaben vom Betriebssystem bereitgestellte Bibliotheken
auf, doch grundsätzlich
wurde das Programm in der vorgegebenen Reihenfolge vom Anfang bis
zum Ende ausgeführt,
und allein der Programmierer war für den Ablauf der Steuerung
verantwortlich. Das war für
das Ausdrucken von Gehaltsschecks, das Berechnen einer mathematischen
Tabelle oder zur Lösung
weiterer Probleme durch ein Programm angemessen, das in genau einer
Weise ablief.
-
Die
Entwicklung grafischer Benutzerschnittstellen begann den verfahrensorientierten
Aufbau der Programmierung völlig
umzukrempeln. Diese Schnittstellen ermöglichen statt der Programmlogik
dem Benutzer das Programm anzusteuern und zu entscheiden, wann bestimmte
Aktionen ausgeführt
werden sollen. Heute wird dies beim größten Teil der Software für Personal
Computer mittels einer Ereignisschleife realisiert, die die Maus,
die Tastatur und weitere Quellen externer Ereignisse überwacht
und entsprechend den vom Benutzer ausgeführten Aktionen geeignete Teile
des Codes des Programmierers aufruft. Der Programmierer bestimmt die
Reihenfolge nicht mehr, in der die Ereignisse stattfinden. Stattdessen
ist ein Programm in separate Teile unterteilt, die zu unvorhersehbaren
Zeitpunkten und in einer nicht vorhersehbaren Reihenfolge aufgerufen
werden. Indem er die Steuerung auf diese Weise auf den Benutter überträgt, erstellt
der Entwickler ein Programm, das erheblich leichter zu benutzen
ist. Nichtsdestotrotz rufen einzelne Teile des vom Entwickler geschriebenen Programms
nach wie vor vom Betriebssystem zum Ausführen bestimmter Aufgaben bereitgestellte
Bibliotheken auf, und der Programmierer muss nach wie vor den Ablauf
der Steuerung in jedem Teil bestimmen, nachdem es von der Ereignisschleife
aufgerufen wurde. Der Anwendungscode sitzt noch immer „obenauf" auf dem System.
-
Selbst
bei Ereignisschleifenprogqammen müssen Programmierer viel Code
schreiben, der nicht für jede
Anwendung eigens geschrieben werden müsste. Das Konzept einer Anwendungsgrundstruktur
entwickelt das Konzept der Ereignisschleifen weiter. Statt sich
mit sämtlichen
Einzelteilen zur Konstruktion von Grundmenüs, Fenstern und Dialogfenstern
zu befassen und dann dafür
zu sorgen, dass all diese Dinge zusammenarbeiten, beginnen Programmierer,
die Anwendungsgrundstrukturen verwenden, damit, einen Anwendungscode und
grundlegende Benutzerschnittstellenelemente zusammenzustellen. Anschließend fahren
sie von dort aus mit dem Ersetzen einiger der gattungsmäßigen Leistungsmerkmale
der Grundstruktur durch die spezifischen Merkmale der geplanten
Anwendung fort.
-
Anwendungsgrundstrukturen
verringern die Gesamtmenge des Codes, den ein Programmierer ohne Vorgabe
schreiben muss. Da die Grundstruktur jedoch tatsächlich eine allgemeine Anwendung
ist, die Fenster anzeigt und ein Kopieren und Einfügen, etc.
unterstützt,
kann der Programmierer die Steuerung in höherem Maße abtreten, als Ereignisschleifenprogramme
dies zulassen. Der Grundstrukturcode übernimmt fast die gesamte Ereignisverarbeitung
und den Steuerungsablauf, und der Code des Programmierers wird nur
aufgerufen, wenn die Grundstruktur ihn benötigt (beispielsweise zur Erstellung
oder Manipulation einer geschützten Datenstruktur).
-
Ein
Programmierer, der ein Grundstrukturprogramm schreibt, überlässt dem
Benutzer nicht nur die Steuerung (was auch für Ereignisschleifenprogramme
zutrifft), sondern tritt auch den genauen Ablauf der Steuerung innerhalb
des Programms an die Grundstruktur ab. Dieser Ansatz ermöglicht,
anders als isolierte Programme mit einem eigens erstellten Code,
die wieder und wieder für ähnliche
Aufgabenstellungen erstellt werden, die Erstellung komplexerer Systeme,
die auf interessante Art und Weise zusammenarbeiten.
-
Wie
vorstehend ausgeführt,
ist eine Grundstruktur daher grundsätzlich eine Ansammlung kooperierender
Klassen, die eine Lösung
mit einem wiederverwendbaren Aufbau für eine gegebene Problemdomäne bilden.
Sie umfasst typischer Weise Objekte, die ein Standardverhalten aufweisen
(beispielsweise für
Menüs und Fenster),
und Programmierer nutzen sie, indem sie Einiges von diesem Standardverhalten übernehmen
und das übrige
Verhalten so außer
Kraft setzen, dass die Grundstruktur zu den geeigneten Zeitpunkten
den Anwendungscode aufruft.
-
Zwischen
Grundstrukturen und Klassenbibliotheken bestehen drei Hauptunterschiede:
- • Verhalten
versus Protokoll: Klassenbibliotheken sind im Wesentlichen Sammlungen
von Verhalten, die aufgerufen werden können, wenn die einzelnen Verhalten
in einem Programm gewünscht
werden. Eine Grundstruktur bietet andererseits nicht nur Verhalten,
sondern auch das Protokoll bzw. den Satz von Regeln, die die Art
und Weise regeln, in denen Verhalten kombiniert werden können, einschließlich Regeln, die
festlegen, was ein Programmierer liefern soll und was die Grundstruktur
bereitstellt.
- • Aufruf
versus überlagernde
Abänderung:
Bei einer Klassenbibliothek konkretisiert der Programmierer Objekte
und ruft ihre zugehörigen
Funktionen auf. Objekte können
auf die gleiche Weise wie bei einer Grundstruktur konkretisiert
und aufgerufen werden (d.h. die Grundstruktur kann wie eine Klassenbibliothek
verwendet werden), um die Vorteile des wiederverwendbaren Aufbaus
der Grundstruktur jedoch vollständig
zu nutzen, schreibt ein Programmierer typischer Weise einen überlagernden
Code, der von der Grundstruktur aufgerufen wird. Die Grundstruktur
verwaltet den Ablauf der Steuerung zwischen ihren Objekten. Das Schreiben
eines Programms umfasst die Aufteilung der Verantwortung unter den
verschiedenen Softwareelementen, die von der Grundstruktur aufgerufen
werden, statt der Spezifikation, wie die unterschiedlichen Elemente
zusammenarbeiten sollen.
- • Implementierung
versus Aufbau: Bei Klassenbibliotheken verwenden Programmierer nur
Implementierungen wieder, wogegen sie bei Grundstrukturen den Aufbau
wiederverwenden. Eine Grundstruktur verkörpert die Art und Weise, in
der eine Familie zusammengehöriger
Programme bzw. Softwareelemente arbeiten. Sie repräsentiert
eine allgemeine Lösung
für den
Aufbau, die an eine Vielzahl spezifischer Probleme in einer gegebenen
Domäne
angepasst werden kann. Eine einzige Grundstruktur kann beispielsweise
die Art und Weise repräsentieren,
in der eine Benutzerschnittstelle arbeitet, obwohl zwei verschiedene,
mit der gleichen Grundstruktur erstellte Benutzerschnittstellen
völlig
unterschiedliche Schnittstellenaufgaben lösen können.
-
Daher
können
durch die Entwicklung von Grundstrukturen für Lösungen zu unterschiedlichen
Aufgabenstellungen und Programmieraufgaben erhebliche Verringerungen
des Erstellungs- und Entwicklungsaufwands für Software erzielt werden.
Bei einer bevorzugten Ausführungsform
der Erfindung wird die HyperText Markup Language (HTML) zum Implementieren
von Dokumenten im Internet zusammen mit einem sicheren Mehrzweckkommunikationsprotokoll
für ein
Beförderungsmedium
zwischen dem Kunden und einer Firma genutzt. HTML kann ohne übermäßiges Experimentieren
leicht durch HTTP oder andere Protokolle ersetzt werden. Informationen
zu diesen Produkten sind in T. Berners-Lee, D. Connoly, „RFC 1866:
Hypertext Markup Language – 2.0" (Nov. 1995) und
R. Fielding, H. Frystyk, T. Berners-Lee, J. Gettys und J.C. Mogul, „Hypertext Transfer
Protocol – HTTP/1.1:
HTTP Working Group Internet Draft" (2. Mai 1996) zu finden. HTML ist ein
einfaches Datenformat, das zur Erstellung von Hypertextdokumenten
verwendet wird, die von einer Plattform zur anderen übertragen
werden können.
HTML-Dokumente sind SGML-Dokumente
mit einer gattungsmäßigen Semantik,
die zur Repräsentation
von Informationen aus vielfältigen
Domänen
geeignet sind. HTML wird von der World-Wide Web Global Information
Initiative seit 1990 verwendet. HTML ist eine Anwendung gemäß dem ISO-Standard 8879, 1996,
Information Processing Text and Office System; Standard Generalized
Markup Language (SGML).
-
Bisher
waren die Möglichkeiten,
mit Web-Entwicklungsdientsprogrammen
dynamische Web-Anwendungen zu erstellen, die von einem Client zu
einem Server reichen und mit vorhandenen Datenverarbeitungsressourcen
zusammenarbeiten, begrenzt. Bis vor kurzem war HTML die dominante
Technologie, die bei der Entwicklung Web-basierender Lösungen verwendet
wurde. HTML hat sich jedoch in den folgenden Bereichen als inadäquat erwiesen:
- • Unzureichende
Leistung,
- • Begrenzte
Benutzerschnittstellenkapazitäten,
- • Kann
nur statische Web-Seiten erzeugen,
- • Mangelnde
Interoperabilität
mit vorhandenen Anwendungen und Daten und
- • Unfähigkeit,
abzuwägen.
-
Die
Sprache Java von Sun Microsystems löst viele der Probleme auf der
Seite des Kunden durch:
- • Verbesserung der Leistung
auf der Kundenseite,
- • Ermöglichen
der Erstellung dynamischer Echtzeit-Web-Anwendungen und
- • Bereitstellen
der Möglichkeit
der Erstellung einer breiten Vielfalt von Benutzerschnittstellenkomponenten.
-
Mit
Java können
Entwickler robuste Benutzerschnittstellenkomponenten (UI-Komponenten)
erstellen. Es können
benutzerdefinierte „Widgets" (beispielsweise
Echtzeitbörsenschreiber,
animierte Piktogramme, etc.) erstellt werden, und die Leistung seitens
des Client wird verbessert. Anders als HTML unterstützt Java die
Idee der Validierung seitens des Client, wobei zugunsten einer verbesserten
Leistung geeignete Verarbeitungen an den Client übertragen werden. Es können dynamische
Echtzeit-Web-Seiten erstellt werden. Auch können unter Verwendung der vorstehend
erwähnten
benutzerdefinierten UI-Komponenten dynamische Web-Seiten erstellt
werden.
-
Die
Sprache Java von Sun ist als von der Industrie anerkannte Sprache
zum „Programmieren
des Internet" entstanden.
Sun definiert Java als „eine
einfache, objektorientierte, verbreitete, übersetzte, robuste, sichere,
architekturneutrale, mobile, dynamische, schlagwortkonforme Mehrpfad-Mehrzweck-Hochleistungs-Programmiersprache.
Java unterstützt
eine Programmierung für
das Internet in Form von plattformunabhängigen Java-Applets." Java-Applets sind
kleine, spezialisierte Anwendungen, die mit der Java Application Programming
Interface (API) konform sind und Entwicklern das Hinzufügen „interaktiver
Inhalte" (beispielsweise
einfacher Animationen, Seitenverzierungen, Basisspielen, etc.) zu
Web-Dokumenten ermöglichen.
Applets arbeiten innerhalb einer Java-kompatiblen Suchmaschine (beispielsweise
dem Netscape Navigator), indem sie Code vom Server auf einen Client
kopieren. Unter dem Gesichtspunkt der Sprache basiert der Satz der Kernfunktionen
von Java auf C++, Die Java betreffende Lite ratur von Sun führt aus,
dass Java grundsätzlich „C++ mit
Erweiterungen durch Objective C für eine dynamischere Verfahrensauflösung" ist.
-
Eine
weitere Technologie, die ähnliche
Funktionen wie JAVA bietet, wird von Microsoft und ActiveX Technologies
angeboten, um Entwicklern und Web-Designern ein Werkzeug zur Erstellung
dynamischer Inhalte für
das Internet und Personal Computer zu liefern. ActiveX umfasst Dienstprogramme
zur Entwicklung von Animationen, dreidimensionaler virtueller Realität, Video
und weiteren Multimedia-Inhalten. Die Dienstprogramme verwenden
Internetstandards, arbeiten auf vielen Plattformen und werden von
mehr als 100 Firmen unterstützt.
Die Bausteine der Gruppe werden als ActiveX Controls bezeichnet
und sind schnelle Komponenten, die Entwicklern das Einbetten von
Softwareelementen in Hypertext Markup Language Seiten (HTML-Seiten)
ermöglichen.
ActiveX Controls arbeiten mit einer Vielzahl von Programmiersprachen,
einschließlich
Microsoft Visual C++, Borland Delphi, dem Microsoft Visual Basic
Programmiersystem und zukünftig
mit dem Entwicklungstool für
Java von Microsoft mit dem Codenamen „Jakarta". ActiveX Technologien umfassen auch
das ActiveX Server Framework, das Entwicklern die Erstellung von
Serveranwendungen ermöglicht.
Für Personen mit
normalen Fachkenntnissen ist leicht zu erkennen, dass JAVA ohne übermäßiges Experimentieren
durch ActiveX ersetzt werden könnte,
um die Erfindung zu umzusetzen.
-
EMOTIONSERKENNUNG
-
Ausführungsformen
der vorliegenden Erfindung betreffen die Nutzung der Erkennung von
Emotionen in Sprache zu geschäftlichen
Zwecken. Einige Ausführungsformen
können
zur Erfassung einer Emotion einer Person auf der Grundlage einer
Stimmanalyse und zur Ausgabe der erfassten Emotion der Person verwendet werden.
Weitere Ausführungsformen
der vorliegenden Erfindung können
zur Erfassung des Gemütszustands bei
Telefon-Callcenter-Gesprächen
verwendet werden und einem Telefonisten oder einem Vorgesetzten
zu Überwachungszwecken
eine Rückmeldung
liefern. Weitere Ausführungsformen
der vorliegenden Erfindung können
zum Sortieren von Sprachnachrichten nach Maßgabe der von einem Anrufer
ausgedrückten
Emotionen verwendet werden.
-
Sind
die Zielobjekte bekannt, wird vorgeschlagen, eine Studie an einigen
der Zielobjekte auszuführen, um
zu bestimmen, welche Teile einer Stimme als Indikatoren für Emotionen
am zuverlässigsten
sind. Wenn keine Zielobjekte verfügbar sind, können andere
Objekte verwendet werden. Diese Richtlinien gelten für die folgende
Besprechung:
- • Die Daten sollten von Leuten
stammen, die keine professionellen Schauspieler bzw. Schauspielerinnen sind,
um die Genauigkeit zu verbessern, da Schauspieler und Schauspielerinnen
eine bestimmte Sprachkomponente überbetonen
können,
wodurch Fehler entstehen.
- • Die
Daten können
von Testpersonen stammen, die aus einer Gruppe ausgewählt sind,
die erwartet, analysiert zu werden. Dadurch würde die Genauigkeit erhöht.
- • Sprache
in Telefonqualität
(< 3,4 kHz) kann
als Messobjekt herangezogen werden, um die Genauigkeit für eine Verwendung
mit einem Telefonsystem zu verbessern. Die Prüfung kann nur auf einem Stimmsignal beruhen.
Dies bedeutet, dass die modernen Spracherkennungstechniken aus geschlossen
würden,
da sie eine erheblich bessere Qualität der Signal- und Rechnerleistung
erfordern.
-
DAS SAMMELN
UND BEWERTEN VON DATEN
-
Bei
einer beispielhaften Untersuchung werden von dreißig Personen
jeweils die folgenden vier kurzen Sätze aufgezeichnet:
-
- • „Das ist
nicht, was ich erwartet habe."
- • „Ich bin
gleich da. "
- • „Morgen
habe ich Geburtstag."
- • „Ich heirate
nächste
Woche."
-
Jeder
Satz sollte fünfmal
aufgezeichnet werden, wobei der Proband jedes Mal jeweils einen
der folgenden Gemütszustände darstellt:
Freude, Zorn, Trauer, Furcht/Nervosität und neutral (emotionslos).
Von fünf der
Probanden können
die Sätze
auch zweimal mit unterschiedlichen Aufzeichnungsparametern aufgezeichnet
werden. Damit werden von jedem Probanden 20 bzw. 40 Äußerungen
aufgezeichnet, was einen Korpus ergibt, der 700 Äußerungen bzw. 140 Äußerungen
pro Gemütszustand
ergibt. Jede Äußerung kann
unter Verwendung eines Nahsprechmikrofons aufgezeichnet werden;
die ersten 100 Äußerungen
mit 22 kHz/8 Bit und die restlichen 600 Äußerungen mit 22 kHz/16 Bit.
-
Nach
der Erzeugung des Korpus kann ein Experiment ausgeführt werden,
um Antworten auf die folgenden Fragen zu finden:
- • Wie gut
können
Menschen ohne besondere Ausbildung Emotionen in der Sprache vorgeben
und erkennen?
- • Wie
gut können
Menschen ihre eigenen, 6–8
Wochen zuvor aufgenommenen Emotionen erkennen? Welche Arten von
Emotionen sind leichter bzw. schwerer zu erkennen?
-
Ein
wesentliches Ergebnis des Experiments ist die Auswahl eines Satzes
der zuverlässigsten Äußerungen,
d.h. der Äußerungen,
die von den meisten Leuten erkannt werden. Dieser Satz kann als Übungs- und Untersuchungsdaten
für von
einem Computer ausgeführte
Mustererkennungsalgorithmen verwendet werden.
-
Ein
interaktives Programm eines in der Technik bekannten Typs kann verwendet
werden, um Äußerungen
auszuwählen
und in einer zufälligen
Reihenfolge wiederzugeben und einem Benutzer das Klassifizieren
jeder Äußerung entsprechend
ihrem emotionalen Inhalt zu ermöglichen.
An der Bewertungsstufe können beispielsweise
23 Probanden und 20 weitere teilnehmen, die an der vorhergehenden
Aufzeichnungsstufe teilgenommen haben.
-
Tabelle
1 zeigt eine Darstellungsverwechslungsmatrix, die aus der Darstellung
bei der vorstehend besprochenen Untersuchung gesammelten Daten resultiert.
Die Zeilen und Spalten repräsentieren
jeweils tatsächliche
und eingeschätzte
Kategorien. Die zweite Zeile besagt beispielsweise, dass 11,9 %
der Äußerungen, in
denen Freude vorgegeben wurde, als neutral (emotionslos) eingestuft
wurden, 61,4 % als tatsächlich
fröhlich,
10,1 % als zornig, 4,1 % als traurig und 12,5 % als ängstlich.
Es ist ebenso ersichtlich, dass die am leichtesten zu erkennende
Kategorie Zorn (72,2 %) und die am wenigsten zu erkennende Furcht
(49,5 %) ist. Sehr viele Verwechslungen gibt es zwischen Trauer
und Furcht, Trauer und Emotionslosigkeit und Freude und Furcht.
Die durchschnittliche Genauigkeit beträgt 63,5 %, was mit den Ergebnissen
weiterer experimenteller Untersuchungen übereinstimmt. Tabelle
1 Darstellungsverwechslungsmatrix
-
Tabelle
2 zeigt eine Statistik der Bewerter für jede emotionale Kategorie
und eine zusammengefasste Leistung, die als Summe der Leistungen
in jeder Kategorie berechnet wurde. Es ist ersichtlich, dass die
Streuung bei Ärger
und Trauer wesentlich geringer als bei den anderen emotionalen Kategorien
ist. Tabelle
2 Bewerterstatistik
-
Die
nachstehende Tabelle 3 zeigt eine Statistik für die „Schauspieler", d.h. wie gut die
Probanden Emotionen darstellen. Genauer ausgedrückt zeigen die Zahlen in der
Tabelle, welcher Teil der dargestellten Emotionen einer bestimmten
Kategorie von anderen Probanden als dieser Kategorie zugehörig erkannt
wurde. Es ist interessant, dass bei einem Vergleich der Tabellen
2 und 3 festzustellen ist, dass die Fähigkeit, Emotionen darzustellen
(der Gesamtdurchschnitt beträgt
62,9 %) im Wesentlichen auf dem gleichen Niveau wie die Fähigkeit
bleibt, Emotionen zu erkennen (der Gesamtdurchschnitt beträgt 63,2
%); doch die Unstimmigkeit ist bei der Darstellung erheblich größer. Tabelle
3 Schauspielerstatistik
-
Tabelle
4 zeigt eine Eigenbezugsstatistik, d.h. wie gut die Probanden in
der Lage waren, ihre eigenen Darstellungen zu erkennen. Es ist ersichtlich,
dass Menschen bei der Erkennung ihrer eigenen Emotionen wesentlich
besser abschneiden (der Durchschnittswert beträgt 80,0 %), insbesondere bei
Zorn (98,1 %), Trauer (80,0 %) und Furcht (78,8 %). Interessanter
Weise wurde Furcht besser als Freude erkannt. Einige Probanden scheiterten
am Erkennen ihrer eigenen Darstellung von Freude und eines neutralen
Zustands. Tabelle
4 Eigenbezugsstatistik
-
Anhand
des Korpus von 700 Äußerungen
können
fünf verschachtelte
Datengruppen ausgewählt
werden, die Äußerungen
enthalten, die von mindestens p % der Probanden (p = 70, 80, 90,
95, 100 %) als die gegebene Emotion repräsentierend erkannt wurden.
Bei der vorliegenden Besprechung werden diese Datengruppen als s70,
s80, s90 und s100 bezeichnet. Die nachstehende Tabelle 5 zeigt die
Anzahl der Elemente in jeder Datengruppe. Es ist ersichtlich, dass
nur 7,9 % der Äußerungen
im Korpus von sämtlichen
Probanden erkannt wurden. Diese Anzahl nimmt linear auf 52,7 % bei
der Datengruppe s70 zu, die einem Niveau von 70 % der Übereinstimmung
bei der Decodierung von Emotionen in Sprache entspricht. Tabelle
5 Datengruppen
mit dem Übereinstimmungsniveau
p
-
Diese
Ergebnisse bieten wertvolle Einsichten in die menschliche Leistung
und können
als Richtlinie für
einen Vergleich mit der Leistung von Computern dienen.
-
Merkmalsextraktion
-
Es
wurde festgestellt, dass die Tonhöhe der stimmliche Haupthinweis
für eine
Erkennung von Emotionen ist. Streng genommen wird die Tonhöhe durch
die Grundfrequenz (F0), d.h. die Hauptfrequenz (die niedrigste Frequenz)
der Schwingung der Stimmbänder,
repräsentiert.
Weitere akustische Variablen, die zur vokalen Emotionssignalisierung
beitragen, sind:
- • Stimmenergie,
- • Frequenzspektralmerkmale,
- • Formanten
(normalerweise werden nur ein oder zwei erste Formanten (F1, F2)
berücksichtigt),
- • Zeitbezogene
Merkmale (Sprechgeschwindigkeit und Pausen).
-
Ein
weiterer Ansatz zur Merkmalsextraktion ist die Bereicherung des
Satzes von Merkmalen durch die Berücksichtigung von abgeleiteten
Merkmalen, wie LPC-Parametern (LPC, linear predictive coding, lineare Vorhersagecodierung)
von Signalen oder Merkmalen der geglätteten Tonhöhenkontur und ihren Ableitungen.
-
Die
folgende Strategie kann angewendet werden. Zunächst werden die Grundfrequenz
F0 (d.h. die Hauptfrequenz (die niedrigste Frequenz) der Schwingung
der Stimmbänder),
die Energie, die Sprechgeschwindigkeit, die ersten drei Formanten
(F1, F2 und F3) und ihre Bandbreiten (BW1, BW2 und BW3) berücksichtigt
und so viele Statistiken wie möglich
für sie
berechnet. Dann werden die Statistiken unter Verwendung von Merkmalsauswahltechniken
eingeordnet und eine Gruppe der „wichtigsten" Merkmale ausgewählt.
-
Die
Sprechgeschwindigkeit kann als Umkehrung der durchschnittlichen
Länge des
stimmhaften Teils der Äußerung berechnet
werden. Bei sämtlichen
anderen Parametern können
die folgenden Statistiken berechnet werden: Durchschnittswert, Standardabweichung,
Minimum, Maximum und Wertebereich. Zusätzlich kann für F0 die
Steigung als lineare Regression für den stimmhaften Teil der
Sprache, d.h. die Linie berechnet werden, die zu der Tonhöhenkontur
passt. Als relative Stimmenergie kann auch der Anteil der Stimmenergie an
der gesamten Energie der Äußerung berechnet
werden. Insgesamt hat jede Äußerung ca.
40 Merkmale.
-
Zur
Merkmalsauswahl kann der Algorithmus RELIEF-F verwendet werden.
RELIEF-F kann beispielsweise für
die Datengruppe s70 ausgeführt
werden, wobei die Anzahl der nächsten
Nachbarn von 1 auf 12 variiert wird und die Merkmale entsprechend
der Summe ihrer Einstufungen geordnet werden. Folgendes sind die
14 am höchsten
eingestuften Merkmale: das Maximum von F0, die Standardabweichung
von F0, der Wertebereich von F0, der Durchschnittswert von F0, der
Durchschnittswert von BW1, der Durchschnittswert von BW2, die Standardabweichung
der Energie, die Sprechgeschwindigkeit, die Steigung von F0, das
Maximum von F1, die maximale Energie, der Wertebereich der Energie,
der Wertebereich von F2 und der Wertebereich von F1.
-
Um
zu untersuchen, wie die Sätze
von Merkmalen die Genauigkeit der Emotionserkennungsalgorithmen
beeinflussen, können
auf der Grundlage der Summe ihrer Einstufungen drei verschachtelte
Sätze von Merkmalen
gebildet werden. Der erste Satz umfasst die ersten acht Merkmale
(vom Maximum von F0 bis zur Sprechgeschwindigkeit), der zweite Satz
erweitert den ersten um die beiden nächsten Merkmale (die Steigung von
F0 und das Maximum von F1) und der dritte umfasst sämtliche
14 am höchsten
eingestuften Merkmale. Weitere Einzelheiten zum Algorithmus RELIEF-F
sind in der Veröffentlichung
Proc. European Conf. On Machine Learning (1994) in dem Artikel von
I. Kononenko mit dem Titel „Estimating
Attributes: Analysis and Extension of RELIEF" auf den Seiten 171–182 ausgeführt, der durch Bezugnahme zu
allen Zwecken hierin aufgenommen ist.
-
2 zeigt
eine Ausführungsform
der vorliegenden Erfindung, die Emotionen unter Verwendung einer Stimmanalyse
erfasst. In einem Arbeitsschritt 200 wird beispielsweise über ein
Mikrofon oder in Form einer digitalisierten Probe ein Stimmsignal
empfangen. Eine vorgegebene Anzahl an Merkmalen des Stimmsignals wird
in einem Arbeitsschritt 202 extrahiert, wie vorstehend
ausgeführt,
und ausgewählt.
Diese Merkmale umfassen einen maximalen Wert einer Grundfrequenz,
eine Standardabweichung der Grundfrequenz, einen Wer tebereich der
Grundfrequenz, einen Durchschnittswert der Grundfrequenz, einen
Durchschnittswert der Bandbreite eines ersten Formanten, einen Durchschnittswert
einer Bandbreite eines zweiten Formanten, eine Standardabweichung
der Energie, eine Sprechgeschwindigkeit, eine Steigung der Grundfrequenz,
einen maximalen Wert des ersten Formanten, einen maximalen Wert
der Energie, einen Wertebereich der Energie, einen Wertebereich
des zweiten Formanten und einen Wertebereich des ersten Formanten,
sind jedoch nicht darauf beschränkt.
Unter Verwendung der im Arbeitsschritt 202 ausgewählten Merkmale
wird in einem Arbeitsschritt 204 auf der Grundlage des
extrahierten Merkmals eine dem Stimmsignal zugeordnete Emotion bestimmt. Schließlich wird
in einem Arbeitsschritt 206 die bestimmte Emotion ausgegeben.
Eine genauere Besprechung der erfindungsgemäßen Bestimmung einer Emotion
auf der Grundlage eines Stimmsignals erfolgt nachstehend, insbesondere
unter Bezugnahme auf die 8 und 9.
-
Vorzugsweise
wird das Merkmal des Stimmsignals aus der aus dem maximalen Wert
der Grundfrequenz, der Standardabweichung der Grundfrequenz, dem
Wertebereich der Grundfrequenz, dem Durchschnittswert der Grundfrequenz,
dem Durchschnittswert der Bandbreite des ersten Formanten, dem Durchschnittswert
der Bandbreite des zweiten Formanten, der Standardabweichung der
Energie und der Sprechgeschwindigkeit bestehenden Gruppe von Merkmalen
ausgewählt.
Idealer Weise umfasst das extrahierte Merkmal zumindest entweder
die Steigung der Grundfrequenz oder den maximalen Wert des ersten
Formanten.
-
Wahlweise
werden mehrere Merkmale einschließlich des maximalen Werts der
Grundfrequenz, der Standardabweichung der Grundfrequenz, des Wertebereichs
der Grundfrequenz, des Durch schnittswerts der Grundfrequenz, des
Durchschnittswerts der Bandbreite des ersten Formanten, des Durchschnittswerts
der Bandbreite des zweiten Formanten, der Standardabweichung der
Energie und der Sprechgeschwindigkeit extrahiert. Vorzugsweise umfassen
die extrahierten Merkmale die Steigung der Grundfrequenz und den
maximalen Wert des ersten Formanten.
-
Als
weitere Option werden weitere Merkmale extrahiert, die den maximalen
Wert der Grundfrequenz, die Standardabweichung der Grundfrequenz,
den Wertebereich der Grundfrequenz, den Durchschnittswert der Grundfrequenz,
den Durchschnittswert der Bandbreite des ersten Formanten, den Durchschnittswert
der Bandbreite des zweiten Formanten, die Standardabweichung der
Energie, die Sprechgeschwindigkeit, die Steigung der Grundfrequenz,
den maximalen Wert des ersten Formanten, den maximalen Wert der
Energie, den Wertebereich der Energie, den Wertebereich des zweiten
Formanten und den Wertebereich des ersten Formanten einschließen.
-
Computerleistung
-
Zum
Erkennen von Emotionen in Sprache können zwei beispielhafte Ansätze gewählt werden:
neuronale Netzwerke und ein Satz Klassifiziereinrichtungen. Bei
dem ersten Ansatz kann eine zweischichtige, rückwärts übertragende neuronale Netzwerkarchitektur
mit einem Eingangsvektor mit 8, 10 oder 14 Elementen, 10 oder 20
Knoten in der versteckten Sigmoidschicht und fünf Knoten in der linearen Ausgangsschicht
verwendet werden. Die Anzahl der Ausgängen entspricht der Anzahl
der Gefühlskategorien.
Zum Programmieren und Überprüfen der
Algorithmen können
die Datengruppen s70, s80 und s90 verwendet werden. Diese Gruppen können zufällig in
Programmieruntergruppen (67 % der Äußerungen) und Prüfunter gruppen
(33 %) unterteilt werden. Es können
mehrere Klassifiziereinrichtungen des neuronalen Netzwerks erstellt
werden, die mit unterschiedlichen anfänglichen Gewichtungsmatrices
programmiert sind. Als dieser Ansatz auf die Datengruppe s70 und
den vorstehend beschriebenen Satz aus 8 Merkmalen angewendet wurde,
ergab sich eine durchschnittliche Genauigkeit von ca. 55 % mit der
folgenden Verteilung auf die Gefühlskategorien:
neutraler Zustand: 40–50
%, Freude: 55–65
%, Zorn: 60–80
%, Trauer: 60–70
% und Furcht: 20–40
%.
-
Bei
dem zweiten Ansatz werden Sätze
von Klassifiziereinrichtungen verwendet. Ein Satz besteht aus einer
ungeraden Zahl von Klassifiziereinrichtungen eines neuronalen Netzwerks,
die mittels unterschiedlicher Untergruppen der Prüfgruppe
unter Verwendung der Techniken der Urladeprogrammaggregation und
der gegenbestätigten
Kommissionen programmiert wurden. Der Satz fällt auf der Grundlage des Mehrheitswahlprinzips
Entscheidungen. Vorgeschlagene Satzgrößen variieren von 7 bis 15.
-
3 zeigt
die durchschnittliche Genauigkeit der Erkennung bei einer Datengruppe
s70, allen drei Merkmalsgruppen und beiden neuronalen Netzwerkarchitekturen
(mit 10 und mit 20 Neuronen in der verborgenen Schicht). Es ist
ersichtlich, dass die Genauigkeit bei Freude bei den unterschiedlichen
Merkmalssätzen und
Architekturen gleich (~68 %) bleibt. Die Genauigkeit bei Furcht
ist ziemlich gering (15–25
%). Die Genauigkeit bei Zorn ist bei dem Satz mit 8 Merkmalen verhältnismäßig gering
(40–45
%) und verbessert sich bei dem Satz mit 14 Merkmalen dramatisch
(65 %). Die Genauigkeit ist bei Trauer jedoch bei dem Satz mit 8
Merkmalen höher
als bei den anderen Sätzen.
Die durchschnittliche Genauigkeit beträgt ca. 55 %. Die geringe Genauigkeit
bei Furcht bestätigt
das theoretische Ergebnis, das besagt, dass die Fehlerrate des gewählten Satzes
zunimmt, wenn die einzelnen Klassifiziereinrichtungen mit einer
0,5 überscheitenden
Rate (im vorliegenden Fall sind es 0,6–0,8) Fehler machen, die nicht
in Wechselbeziehung zueinander stehen.
-
4 zeigt
die Ergebnisse für
eine Datengruppe s80. Es ist. ersichtlich, dass die Genauigkeit
beim neutralen Zustand gering ist (20–30 %). Die Genauigkeit bei
Furcht steigt von 11 % bei dem Satz mit 8 Merkmalen und der Architektur
mit 10 Neuronen auf 53 % bei dem Satz mit 10 Merkmalen und der Architektur
mit 10 Neuronen dramatisch an. Die Genauigkeit ist bei Freude, Zorn
und Trauer verhältnismäßig hoch
(68–83
%). Die durchschnittliche Genauigkeit (~61 %) ist höher als
bei der Datengruppe s70.
-
5 zeigt
die Ergebnisse für
einen Datensatz s90. Es ist ersichtlich, dass die Genauigkeit bei
Furcht höher
ist (25–60
%), sie folgt jedoch dem gleichen Muster, wie dem im Zusammenhang
mit dem Datensatz s80 gezeigten. Die Genauigkeit bei Trauer und
Zorn ist sehr hoch: 75–100
% bei Zorn und 88–93
% bei Trauer. Die durchschnittliche Genauigkeit (62 %) stimmt in
etwa mit der durchschnittlichen Genauigkeit bei der Datengruppe
s80 überein.
-
6 zeigt
eine Ausführungsform
der vorliegenden Erfindung, die Emotionen unter Verwendung von Statistiken
erfasst. Zunächst
wird in einem Arbeitsschritt 600 eine Datenbank bereitgestellt.
Die Datenbank enthält
Statistiken, die eine Statistik der menschlichen Assoziation von
Stimmparametern mit Emotionen, wie die vorstehend in den Tabellen
und in den 3 bis 5 gezeigten,
einschließen.
Ferner kann die Datenbank eine Reihe von Stimmhöhen enthalten, die mit Furcht
assoziiert werden, und eine weitere Folge von Stimmhöhen, die
mit Freude assoziiert werden, sowie einen Wertebereich für Fehler
bei bestimmten Tonhöhen.
Als nächstes
wird in einem Ar beitsschritt 602 ein Stimmsignal empfangen.
In einem Arbeitsschritt 604 werden ein oder mehrere Merkmale
aus dem Stimmsignal extrahiert. Weitere Details zur Extraktion von
Merkmalen aus einem Stimmsignal sind in dem vorstehenden Abschnitt über die
Merkmalsextraktion zu finden. Anschließend wird in einem Arbeitsschritt 606 das
extrahierte Stimmmerkmal mit den Stimmparametern in der Datenbank verglichen.
In einem Arbeitsschritt 608 wird auf der Grundlage des
Vergleichs des extrahierten Stimmmerkmals mit den Stimmparametern
eine Emotion aus der Datenbank ausgewählt. Dies kann beispielsweise
den Vergleich digitalisierter Sprachproben aus der Datenbank mit
einer digitalisierten Probe des aus dem Stimmsignal extrahierten
Merkmals zur Erstellung einer Liste wahrscheinlicher Emotionen und
das anschließende
Verwenden von Algorithmen zur Einbeziehung von Statistiken der Genauigkeit
von Menschen bei der Erkennung der Emotion zur Vornahme einer endgültigen Bestimmung
der wahrscheinlichsten Emotion umfassen. Die ausgewählte Emotion
wird schließlich
in einem Arbeitsschritt 610 ausgegeben. Computerisierte
Mechanismen zum Ausführen
einer Emotionserkennung in Sprache sind nachstehend in dem Abschnitt
mit dem Titel beispielhafte Vorrichtungen zur Erfassung von Emotionen
in Stimmsignalen zu finden.
-
Gemäß einem
Aspekt der Ausführungsform
enthält
die Datenbank Wahrscheinlichkeiten, dass bestimmte Stimmmerkmale
zu einer Emotion gehören.
Vorzugsweise umfasst die Auswahl der Emotion aus der Datenbank eine
Analyse der Wahrscheinlichkeiten und die Auswahl der wahrscheinlichsten
Emotion auf der Grundlage dieser Wahrscheinlichkeiten. Wahlweise
können
die Wahrscheinlichkeiten in der Datenbank Darstellungsverwechslungsstatistiken,
wie die vorstehend in der Darstellungsverwechslungsmatrix gezeigten,
umfassen. Ebenso können
die Statistiken in der Datenbank wahlweise Selbsterkennungsstatistiken,
wie die vorstehend in den Tabellen gezeigten, enthalten.
-
Gemäß einem
weiteren Aspekt der Ausführungsform
umfasst das extrahierte Merkmal einen maximalen Wert einer Grundfrequenz,
eine Standardabweichung der Grundfrequenz, einen Wertebereich der
Grundfrequenz, einen Durchschnittswert der Grundfrequenz, einen
Durchschnittswert einer Bandbreite eines ersten Formanten, einen
Durchschnittswert einer Bandbreite eines zweiten Formanten, eine
Standardabweichung einer Energie, eine Sprechgeschwindigkeit, eine
Steigung der Grundfrequenz, einen maximalen Wert des ersten Formanten,
einen maximalen Wert der Energie, einen Wertebereich der Energie,
einen Wertebereich des zweiten Formanten und/oder einen Wertebereich
des ersten Formanten.
-
7 ist
ein Ablaufdiagramm, das ein Verfahren zur Erfassung von Nervosität in einer
Stimme in einer Geschäftsumgebung
zum Beitragen zu einem Verhindern von Betrug darstellt. Zunächst werden
in einem Arbeitsschritt 700 während eines geschäftlichen
Ereignisses Stimmsignale von einer Person empfangen. Die Stimmsignale
können
beispielsweise durch ein Mikrofon in der Nähe der Person erzeugt oder
durch Anzapfen eines Telefons erfasst werden, etc. Die Stimmsignale
werden in einem Arbeitsschritt 702 während des geschäftlichen
Ereignisses analysiert, um den Grad der Nervosität der Person zu bestimmen.
Die Stimmsignale können
analysiert werden, wie vorstehend ausgeführt. In einem Arbeitsschritt 704 wird
eine Indikation des Grads der Nervosität ausgegeben, vorzugsweise
bevor das geschäftliche
Ereignis beendet ist, so dass jemand, der versucht, einen Betrug
zu verhindern, einschätzen
kann, ob die Person zur Rede gestellt werden sollte, bevor sie geht.
Jede Art von Ausgabe ist akzeptabel, einschließlich eines Ausdrucks auf Papier
bzw. einer Anzei ge auf einem Computerbildschirm. Es wird darauf
hingewiesen, dass diese Ausführungsform
der Erfindung auch andere Emotionen als Nervosität erfassen kann. Derartige
Emotionen umfassen Stress und jede andere Emotion, die bei einer
Person normal ist, die einen Betrug begeht.
-
Diese
Ausführungsform
der vorliegenden Erfindung findet besondere Anwendung in Geschäftsbereichen,
wie Vertragsverhandlungen, Versicherungsgeschäften, Kundendienst, etc. Betrug
auf diesen Gebieten kostet Firmen jährlich Millionen. Glücklicher
Weise liefert die vorliegende Erfindung ein Werkzeug, das bei der Bekämpfung derartigen
Betrugs hilft. Es wird auch darauf hingewiesen, dass die vorliegende
Erfindung auch auf dem Gebiet des Gesetzesvollzugs sowie im Umfeld
von Gerichtssälen,
etc. Anwendung findet.
-
Vorzugsweise
wird ein Grad an Sicherheit bezüglich
des Grads der Nervosität
der Person ausgegeben, um jemanden, der auf der Suche nach einem
Betrug ist, bei der Feststellung zu unterstützen, ob sich die Person betrügerisch
geäußert hat.
Dies kann auf Statistiken basieren, wie vorstehend im Zusammenhang
mit der Ausführungsform
der vorliegenden Erfindung unter Bezugnahme auf 6 ausgeführt. Wahlweise
kann die Angabe des Grads der Nervosität der Person in Echtzeit ausgegeben
werden, um jemandem, der einen Betrug zu verhindern versucht, den äußerst raschen
Erhalt von Ergebnissen zu ermöglichen,
so dass er bzw. sie die Person bald zur Rede stellen kann, nachdem
sie eine verdächtige Äußerung von
sich gegeben hat.
-
Als
weitere Option kann die Angabe des Grads der Nervosität ein Warnsignal
umfassen, das ausgelöst wird,
wenn der Grad der Nervosität
ein vorgegebenes Niveau überschreitet.
Das Warnsignal kann eine visuelle Benachrichtigung auf einer Computeranzeige,
ei nen hörbaren
Ton, etc. zum Alarmieren eines Vorgesetzten, des Zuhörers und
oder eines nach einem Betrug Suchenden umfassen. Das Warnsignal
könnte
auch an eine Aufzeichnungsvorrichtung angeschlossen sein, die bei
einer Auslösung
des Warnsignals mit dem Aufzeichnen der Konversation beginnen würde, wenn
die Konversation nicht bereits aufgezeichnet wird.
-
Die
Warnoptionen wären
in einer Situation besonders nützlich,
in der mehrere Personen abwechselnd sprechen. Ein Beispiel wäre eine
Kundendienstabteilung oder das Telefon eines Kundendienstmitarbeiters. Wenn
jeder Kunde an der Reihe ist, mit einem Kundendienstmitarbeiter
zu sprechen, würde
die vorliegende Erfindung den Grad der Nervosität in der Sprache des Kunden
erkennen. Würde
das Warnsignal ausgelöst, weil
der Grad der Nervosität
eines Kunden das vorgegebene Niveau überschritte, könnte der
Kundendienstmitarbeiter durch eine optische Anzeige auf seinem bzw.
ihrem Computerbildschirm, ein Blinklicht, etc. darauf aufmerksam
gemacht werden. Der Kundendienstmitarbeiter, der sich nun des möglichen
Betrugs bewusst wäre,
könnte
dann versuchen, den Betrug, sofern er vorliegt, aufzudecken. Das
Warnsignal könnte
auch verwendet werden, um auch einen leitenden Angestellten zu benachrichtigen.
Ferner könnte
bei einer Aktivierung des Warnsignals eine Aufzeichnung des Gesprächs beginnen.
-
Bei
einer Ausführungsform
der vorliegenden Erfindung wird mindestens ein Merkmal der Stimmsignale extrahiert
und zur Bestimmung des Grads der Nervosität einer Person verwendet. Merkmale,
die extrahiert werden können,
umfassen einen maximalen Wert einer Grundfrequenz, eine Standardabweichung
der Grundfrequenz, einen Wertebereich der Grundfrequenz, einen Durchschnittswert
der Grundfrequenz, einen Durchschnittswert der Bandbreite eines
ersten Formanten, einen Durchschnittswert der Bandbreite eines zweiten Formanten,
eine Standardabweichung der Energie, eine Sprechgeschwindigkeit,
eine Steigung der Grundfrequenz, einen maximalen Wert des ersten
Formanten, eine Sprechgeschwindigkeit, eine Steigung der Grundfrequenz,
einen maximalen Wert des ersten Formanten, einen maximalen Wert
der Energie, einen Wertebereich der Energie, einen Wertebereich
des zweiten Formanten und einen Wertebereich des ersten Formanten. So
kann beispielsweise ein anhand der Erfassung der Grundfrequenz bestimmter
Grad des Schwankens des Tonfalls der Stimme zur Unterstützung der
Bestimmung eines Grads an Nervosität verwendet werden. Je höher das
Ausmaß der
Schwankungen, desto höher
der Grad der Nervosität.
Pausen in der Sprachäußerung der Person
können
ebenfalls berücksichtigt
werden.
-
Der
folgende Abschnitt beschreibt Vorrichtungen, die zur Bestimmung
von Emotionen einschließlich Nervosität in Stimmsignalen
verwendet werden können.
-
BEISPIELHAFTE
VORRICHTUNGEN ZUR ERFASSUNG VON EMOTIONEN IN STIMMSIGNALEN
-
In
diesem Abschnitt sind mehrere erfindungsgemäße Vorrichtung zur Analyse
von Sprache beschrieben.
-
Eine
Ausführungsform
der vorliegenden Erfindung umfasst eine Vorrichtung zur Analyse
der Sprache einer Person zur Bestimmung ihres Gefühlszustands.
Die Analyseeinrichtung arbeitet an Echtzeit-Frequenz- bzw. Tonhöhenkomponenten im ersten Formantenband
menschlicher Sprache. Bei der Analyse von Sprache analysiert die
Vorrichtung bestimmte Wertauftrittsmuster in Begriffen einer differentiellen
Tonhöhe
des ersten Formanten, einer Änderungsrate
der Tonhöhe
und von Dauer- und Zeitverteilungsmustern. Diese Fakto ren stehen
in einer komplexen, aber sehr fundamentalen Art und Weise in Wechselbeziehung
sowohl mit vorübergehenden
als auch mit langfristigen Gemütszuständen.
-
Die
menschliche Sprache wird von zwei grundlegenden Tonerzeugungsmechanismen
initiiert. Die Stimmbänder,
von Muskeln kontrollierte, dünne,
gespannte Membranen, schwingen, wenn aus den Lungen ausgeatmete
Luft durch sie hindurchströmt.
Sie erzeugen ein charakteristisches „summendes" Geräusch
mit einer Grundfrequenz zwischen 80 und 240 Hz. Diese Frequenz schwankt
aufgrund sowohl einer bewussten als auch unbewussten Kontraktionen
und Entspannung der Muskeln innerhalb eines moderaten Bereichs.
Die Schwingungsform des „Grundsummens" enthält viele
Harmonien, von denen einige eine Resonanz in zahlreichen festen
und veränderlichen
Hohlräumen
des Stimmapparats auslösen.
Der zweite beim Sprechen erzeugte Grundton ist ein pseudozufälliges Geräusch mit
einer ziemlich breiten und gleichmäßigen Frequenzverteilung. Er
wird durch Turbulenzen beim Strömen
von ausgeatmeter Luft durch den Stimmapparat verursacht und wird
als „Zischlaut" bezeichnet. Er wird
hauptsächlich
durch Bewegungen der Zunge moduliert und erregt ebenfalls die festen
und veränderlichen
Hohlräume.
Diese komplexe Mischung aus von den Resonanzräumen geformten und artikulierten „Summ-„ und „Zischlauten" erzeugt Sprache.
-
Bei
einer Energieverteilungsanalyse von Sprechlauten wird festgestellt,
dass die Energie in charakteristische Frequenzbänder fällt, die als Formanten bezeichnet
werden. Es gibt drei signifikante Formanten. Das hier beschriebene
System nutzt das erste Formantenband, das sich von der Grundfrequenz
des „Summens" bis ca. 1.000 Hz
erstreckt. Dieses Band hat nicht nur den höchsten Energiegehalt, sondern
reflektiert auch einen hohen Grad an Frequenzmodulation als Funktion
von unterschiedlichsten Veränderungen
der Anspannung des Stimmapparats und der Gesichtsmuskulatur.
-
Tatsächlich wird
bei einer Analyse bestimmter Verteilungsmuster der Frequenz des
ersten Formanten eine qualitative Messung von sprachbezogenen Veränderungen
und Interaktionen der Muskelanspannung ausgeführt. Da diese Muskeln vorwiegend
durch sekundäre,
unbewusste Prozesse beeinflusst werden und artikulieren, die wiederum
vom Gefühlszustand
beeinflusst werden, kann unabhängig
davon, ob sich eine Person dieses Zustands bewusst ist oder nicht,
ein relativer Messwert emotionaler Aktivität bestimmt werden. Die Forschung
legt auch die allgemeine Annahme nahe, dass nur sehr wenige Menschen
in der Lage sind, bewusst einen fiktiven Gemütszustand zu „projizieren", da die Mechanismen
der Sprache äußerst komplex
und größtenteils
autonom sind. Tatsächlich
erzeugt ein Versuch, dies zu tun, normalerweise einen eigenen, unverwechselbaren,
stressbedingten „Fingerabdruck" im Stimmmuster.
-
Aufgrund
der Charakteristika der dem ersten Formanten entsprechenden Sprechlaute
analysiert die vorliegende Erfindung ein frequenzdemoduliertes,
einem ersten Formanten entsprechendes Sprachsignal und erzeugt einen
Ausgang, der Nullen darin anzeigt.
-
Die
Frequenz bzw. die Anzahl der Nullen bzw. „flachen" Punkte in dem frequenzdemodulierten
Signal, die Länge
der Nullen und das Verhältnis
zwischen der gesamten Zeit, in der während der Dauer eines Worts Nullen
vorliegen, und der Gesamtdauer eines Worts weisen zusammengenommen
auf den Gefühlszustand
eines Individuums hin. Durch die Betrachtung des Ausgangs der Vorrichtung
kann der Benutzer das Auftreten der Nullen sehen bzw, spüren und
so durch die Überwachung
des Ausgangs die Anzahl bzw. die Häufigkeit der Nullen, die Länge der
Nullen und das Verhältnis
zwischen der gesam ten Zeitspanne, in der während der Dauer eines Worts
Nullen vorliegen, und der Dauer einer Wortperiode den Gefühlszustand
des Individuums bestimmen.
-
Bei
einer Ausführungsform
wird das Frequenzband des ersten Formanten eines Sprachsignals frequenzdemoduliert,
und das frequenzdemodulierte Signal wird an eine Wortdetektorschaltung
angelegt, die das Vorhandensein eines frequenzdemodulierten Signals
erfasst. Das frequenzdemodulierte Signal wird auch an eine Nulldetektoreinrichtung
angelegt, die die Nullen in dem frequenzdemodulierten Signal erfasst
und einen sie anzeigenden Ausgang erzeugt. Mit dem Wortdetektor
und dem Nulldetektor ist eine Ausgangsschaltung gekoppelt. Die Ausgangsschaltung
wird von dem Wortdetektor aktiviert, wenn der Wortdetektor das Vorhandensein
eines frequenzdemodulierten Signals erfasst, und die Ausgangsschaltung
erzeugt einen Ausgang, der das Vorhandensein bzw. Fehlen einer Null
in dem frequenzdemodulierten Signal anzeigt. Der Ausgang der Ausgangsschaltung
wird auf eine Art und Weise angezeigt, in der er von einem Benutzer
so wahrgenommen werden kann, dass dem Benutzer eine Anzeige des
Vorhandenseins von Nullen in dem frequenzdemodulierten Signal geliefert
wird. Der Benutzer der Vorrichtung überwacht so die Nullen und
kann dadurch den Gemütszustand
des Individuums feststellen, dessen Sprache analysiert wird.
-
Gemäß einer
weiteren Ausführungsform
der vorliegenden Erfindung wird das Vibrato in der Stimme analysiert.
Als das sogenannte Vibrato einer Stimme wurde eine halbwillentliche
Reaktion definiert, die gemeinsam mit bestimmten anderen Reaktionen,
wie dem Atemvolumen, dem Verhältnis
zwischen dem Ein- und Ausatmen, dem Stoffwechselumsatz, der Regelmäßigkeit
und Geschwindigkeit des Atems, der Assoziation von Worten mit Ideen,
Gesichtsausdrücken, motorischen
Reaktionen und Reaktionen auf bestimmte bewusstseinsverändernde
Substanzen, bei der Untersuchung eines Betrugs von Wert sein könnte. Es
wurde jedoch bisher keine nutzbare Technik entwickelt, die eine
gültige
und zuverlässige
Analyse von Stimmveränderungen zur
klinischen Bestimmung des Gemütszustands,
der Ansichten oder der Täuschungsversuche
einer Zielperson ermöglicht.
-
Frühe Experimente,
die Versuche einschlossen, eine Wechselbeziehung zwischen Veränderungen der
Stimmqualität
und emotionalen Stimuli herzustellen, haben ergeben, dass die menschliche
Sprache von starken Gefühlen
beeinflusst wird. Erfassbare Veränderungen
der Stimme treten nach einer Stressstimulation sehr viel rascher
auf als die klassischen Indikatoren physiologischer Manifestationen,
die aus den Funktionen des autonomen Nervensystems resultieren.
-
Zwei
Typen von Stimmveränderung
sind das Ergebnis von Stress. Der erste, der normalerweise nur als
Resultat einer besonders belastenden Situation auftritt, wird als
grobe Veränderung
bezeichnet. Diese Veränderung
manifestiert sich durch hörbare,
wahrnehmbare Veränderungen
der Sprechgeschwindigkeit, der Lautstärke, des Zitterns in der Stimme,
eine Veränderung
des Abstands zwischen Silben und einer Veränderung der Grundtonhöhe bzw.
der Grundfrequenz der Stimme. Diese erhebliche Veränderung
unterliegt zumindest bei einigen Probanden der bewussten Kontrolle,
wenn der Grad der Belastung unterhalb eines völligen Verlusts der Kontrolle
liegt.
-
Der
zweite Typ von Stimmveränderung
betrifft die Stimmqualität.
Diese Art von Veränderung
ist für
das menschliche Ohr nicht wahrnehmbar, ist jedoch offensichtlich
eine unbewusste Manifestation der leichten Anspannung der Stimmbänder selbst
bei geringem Stress, die zu einer Dämpfung der ausgewählten Frequenzschwan kungen
führt.
Grafisch dargestellt ist der Unterschied zwischen einer stressfreien
bzw. normalen stimmlichen Äußerung und
einer stimmlichen Äußerung unter
geringem Stress, bei Betrugsversuchen bzw. bei einer negativen Einstellung
leicht feststellbar. Diese Muster haben sich bei einer breiten Vielfalt
an menschlichen Stimmen beider Geschlechter, unterschiedlichen Alters
und unter den unterschiedlichsten, situationsabhängigen Bedingungen als zutreffend
erwiesen. Dieser zweite Typ von Veränderung unterliegt nicht der
bewussten Kontrolle.
-
Es
gibt zwei Typen von Klang, die durch den menschlichen Stimmapparat
erzeugt werden. Der erste Typ von Klang ist ein Produkt der Schwingungen
der Stimmbänder,
die wiederum ein Produkt eines teilweisen Schließens der Glottis und eines
Pressens von Luft durch die Glottis mittels einer Kontraktion des
Lungenraums und der Lungen sind. Die Frequenzen dieser Schwingungen
können
im Allgemeinen abhängig
vom Geschlecht und Alter des Sprechenden und von dem vom Sprechenden
gewählten
Tonfall zwischen 100 und 300 Hertz variieren. Dieser Klang hat eine
kurze Verklingzeit.
-
Der
zweite Typ von Klang betrifft die Formantenfrequenzen. Sie bilden
einen Klang, der aus der Resonanz der Hohlräume im Kopf einschließlich des
Rachens, des Munds, der Nase und der Sinushohlräume resultiert. Dieser Klang
wird im Falle des durch die Stimmbänder erzeugten stimmlichen
Klangs durch die Erregung der Resonanzräume durch eine Klangquelle
mit niedrigeren Frequenzen oder durch die teilweise Begrenzung des
Strömens
der Luft aus den Lungen erzeugt, wie bei stimmlosen Reibelauten.
Unabhängig
von der Quelle der Erregung wird die Frequenz des Formanen durch
die Resonanzfrequenz des beteiligten Hohlraums bestimmt. Die Formantenfrequenzen
erscheinen im Allgemeinen bei ca. 800 Herz und in cha rakteristischen
Frequenzbändern,
die der Resonanzfrequenz der einzelnen Hohlräume entsprechen. Der erste
bzw. tiefste Formant wird von den Mund- und Rachenhohlräumen erzeugt
und ist durch seine Frequenzverschiebung bei einer Veränderung
der Abmessungen und des Volumens des Munds bei der Erzeugung von
unterschiedlichen Klängen,
insbesondere von Vokalklängen,
von Bedeutung. Die höchsten
Formantenfrequenzen sind aufgrund des konstanteren Volumens der
Hohlräume
konstanter. Die Formantenschwingungsformen sind im Gegensatz zu
den rasch verklingenden Signalen der Stimmbänder nachhallende Signale.
Werden stimmhafte Klänge
hervorgebracht, werden die Stimmschwingungsformen als Amplitudenmodulationen über die
Formantenfrequenzen gelegt.
-
Es
wurde entdeckt, dass es in der menschlichen Stimme eine dritte Signalkategorie
gibt und dass diese dritte Signalkategorie mit dem vorstehend besprochenen
zweiten Typ von Stimmveränderung
in Zusammenhang steht. Hierbei kann es sich um eine Infraschall-
bzw. subsonische Frequenzmodulation handeln, die in gewissem Grad
sowohl im Klang der Stimmbänder
als auch in den Formantenklängen
vorhanden ist. Dieses Signal liegt typischerweise bei 8 bis 12 Hertz.
Dementsprechend ist es für
das menschliche Ohr nicht hörbar. Aufgrund
der Tatsache, dass dieses Charakteristikum im Unterschied zu einer
Amplitudenmodulation eine Frequenzmodulation darstellt, ist es in
Zeitachsen-Amplitudenkurven-Aufzeichnungen nicht direkt feststellbar. Aufgrund
der Tatsache, dass dieses Infraschallsignal einer der signifikanteren
Stimmindikatoren für
psychologischen Stress ist, wird es genauer behandelt.
-
Es
existieren verschiedene Analogien, die zur Erstellung schematischer
Darstellungen des gesamten Stimmprozesses verwendet werden. Sowohl
mechanische als auch elektronische Analogien wer den beispielsweise
bei der Konstruktion von Computerstimmen erfolgreich eingesetzt.
Diese Analogien behandeln die Quelle des Stimmklangs (die Stimmbänder) und
die Wände
der Hohlräume
als harte und konstante Merkmale. Sowohl die Stimmbänder als
auch die Wände
der formantenerzeugenden Haupträume
bestehen in Wahrheit jedoch aus flexiblem Gewebe, das unmittelbar
auf die komplexe Muskelgruppe reagiert, die das Gewebe kontrolliert.
Die Muskeln, die die Stimmbänder
durch die mechanische Verbindung von Knochen und Knorpel kontrollieren,
ermöglichen
sowohl die beabsichtigte als auch die automatische Erzeugung von
Stimmklang und die Veränderung
der Stimmhöhe
durch ein Individuum. Ähnlich
ermöglichen
die Muskeln, die die Zunge, die Lippen und den Rachen kontrollieren,
sowohl die beabsichtigte als auch die automatische Steuerung der
ersten Formantenfrequenzen. Weitere Formanten können in eingeschränkterem
Ausmaß ähnlich beeinflusst
werden.
-
Es
lohnt sich, darauf hinzuweisen, dass diese Muskeln beim normalen
Sprechen mit einem geringen Prozentsatz ihrer vollständigen Arbeitskapazität arbeiten.
Aus diesem Grund bleiben die Muskeln verhältnismäßig entspannt, obwohl sie zum
Verändern
der Position der Stimmbänder
und der Positionen der Lippen, der Zunge und des inneren Rachenraums
verwendet werden. Es wurde festgestellt, dass während dieses verhältnismäßig entspannten
Zustands eine natürliche
Muskelschwingung auftritt, typischer Weise mit der vorstehend erwähnten Frequenz
von 8–12
Hertz. Diese Schwingung verursacht eine geringfügige Schwankung der Spannung
der Stimmbänder
und Verschiebungen der Grundtonhöhenfrequenz
der Stimme. Ebenso werden durch die Schwingung das Volumen des Resonanzraums
(insbesondere des dem ersten Formanten zugeordneten) und die Elastizität der Wände der
Hohlräume
verändert,
wodurch Verschiebungen der Formantenfrequenzen verursacht werden.
Diese Ver schiebungen um eine zentrale Frequenz stellen eine Frequenzmodulation
der zentralen oder Trägerfrequenz
dar.
-
Es
ist wesentlich, darauf hinzuweisen, dass weder die Verschiebungen
der Grundtonhöhenfrequenz der
Stimme noch der Formantenfrequenzen von einem Zuhörer direkt
wahrgenommen werden können,
teilweise weil die Verschiebungen sehr gering sind und teilweise
weil sie vorwiegend in dem vorstehend erwähnten, nicht hörbaren Frequenzbereich
vorliegen.
-
Um
diese Frequenzmodulation zu beobachten, kann eine beliebige von
mehreren existierenden Techniken zur Demodulation der Frequenzmodulation
verwendet werden, selbstverständlich
ohne zu vergessen, dass die Modulationsfrequenz die Nennfrequenz
von 8–12
Hertz ist und die Trägerfrequenz
eines der Bänder innerhalb
des Stimmspektrums ist.
-
Um
die vorstehende Besprechung genauer zu verstehen, muss das Konzept
eines „Schwerpunkts" dieser Schwingungsform
klar sein. Es ist möglich,
den Mittelpunkt zwischen den beiden Extremen eines beliebigen einzelnen
Ausschlags des Aufzeichnungsstifts näherungsweise zu bestimmen.
Wenn die Mittelpunkte zwischen den Extremen sämtlicher Ausschläge markiert
werden und diese Mittelpunkte dann durch eine durchgehende Kurve
näherungsweise
verbunden werden, ist ersichtlich, dass eine Line herauskommt, die eine
Annäherung
an einen Durchschnittswert bzw. einen „Schwerpunkt" der gesamten Schwingungsform
ist. Das Verbinden sämtlicher
derartiger Markierungen mit einer gewissen Glättung ergibt eine gleichmäßige gekrümmte Linie.
Die Linie repräsentiert
die Infraschallfrequenzmodulation, die aus den vorstehend beschriebenen
Schwingungen resultiert.
-
Wie
vorstehend ausgeführt,
wurde festgestellt, dass die für
die Stimmbänder
und die Wände
der Hohlräume
zuständigen
Muskelgruppen einer geringen Muskelanspannung unterliegen, wenn
bei der Untersuchung eines Individuums ein geringfügiger bis
moderater psychologischer Stress hervorgerufen wird. Diese Anspannung,
die für
den Probanden und ähnlich
für den
Untersuchenden vermittels normaler, nicht unterstützter Überprüfungstechniken
nicht wahrnehmbar ist, reicht aus, um die bei einem nicht unter
Stress stehenden Probanden vorhandenen Muskelschwingungen zu verringern
bzw. praktisch zu eliminieren, wodurch die Grundlage für die Schwankungen
der Trägerfrequenz
wegfällt,
die die Infraschallfrequenzmodulationen erzeugen.
-
Obwohl
die Verwendung der Infraschallschwingungsform für die Technik der Verwendung
der Stimme als physiologisches Medium zur psychologischen Stressbewertung
einmalig ist, liefert die Stimme zusätzliche instrumentalisierte
Indikatoren in Form mit dem Gehör
nicht wahrnehmbarer physiologischer Veränderungen aufgrund psychologischer
Belastungen, wobei die physiologischen Veränderungen ähnlich mittels der Techniken
und Vorrichtungen erfassbar sind, die gegenwärtig verwendet werden. Unter
den vier vorstehend erwähnten,
meistverwendeten physiologischen Veränderungen (Hirnwellenmuster,
Herztätigkeit;
Leitfähigkeit
der Haut und Atemtätigkeit)
beeinflussen zwei, nämlich
die Atemtätigkeit
und die Herztätigkeit,
direkt und indirekt die Amplitude und die Details der Schwingungsform
einer mündlichen Äußerung und
liefern die Grundlage für eine
umfassendere Bewertung von psychologischem Stress, insbesondere
wenn die Überprüfung aufeinanderfolgende
mündliche
Antworten einschließt.
-
Eine
weitere Vorrichtung ist in 8 gezeigt.
Wie dargestellt, wandelt ein Messwandler 800 die Schallwellen
der mündlichen Äußerungen
der Zielperson in elektrische Signale um, die an den Eingang eines
Tonverstärkers 802 angelegt
werden, der einfach der Erhöhung
der Leistung elektrischer Signale auf einen stabileren, brauchbaren
Pegel dient. Der Ausgang des Verstärkers 802 ist an ein
Filter 804 angeschlossen, das primär dem Eliminieren einiger unerwünschter
niedriger Frequenzkomponenten und Rauschkomponenten dient.
-
Nach
dem Filtern wird das Signal an einen FM-Diskriminator 806 angelegt,
von dem die Frequenzabweichungen von der Mittenfrequenz in Signale
mit variierender Amplitude umgewandelt werden. Die Signale mit variierender
Amplitude werden dann in einer Detektorschaltung 808 zum
Gleichrichten des Signals und zum Erzeugen eines Signals erfasst,
das aus einer Folge von Halbwellenimpulsen besteht. Nach der Erfassung
wird das Signal an eine Integratorschaltung 810 angelegt,
von der das Signal in dem gewünschten
Ausmaß integriert
wird. In der Schaltung 810 wird das Signal entweder in
einem sehr geringen Ausmaß integriert, wodurch
eine Schwingungsform erzeugt wird, oder es wird in einem größeren Ausmaß integriert,
wodurch ein Signal erzeugt wird. Nach der Integration wird das Signal
von einem Verstärker 812 verstärkt und
an einen Prozessor 814 angelegt, der die dem Stimmsignal
zugeordnete Emotion bestimmt. Zur Ausgabe der erfassten Emotion
wird eine Ausgabevorrichtung 816, wie ein Computerbildschirm
oder ein Drucker, verwendet. Wahlweise können auch statistische Daten
ausgegeben werden.
-
Eine
etwas einfachere Ausführungsform
einer erfindungsgemäßen Vorrichtung
zur Erzeugung sichtbarer Protokolle ist in 9 gezeigt,
gemäß der die
akustischen Signale von einem Mikrofon 900 in elektrische Signale
umgewandelt werden, die von einer Bandauf zeichnungsvorrichtung 902 magnetisch
aufgezeichnet werden. Die Signale können dann mit unterschiedlichen
Geschwindigkeiten und zu beliebigen Zeiten durch die restliche Anlage
verarbeitet werden, wobei die Wiedergabe an eine herkömmliche
Halbleiterdiode 904 angelegt wird, die die Signale gleichrichtet.
Die gleichgerichteten Signale werden an den Eingang eines herkömmlichen
Verstärkers 906 sowie
den beweglichen Kontakt eines allgemein durch 908 bezeichneten
Wählschalters angelegt.
Der bewegliche Kontakt des Schalters 908 kann zu jedem
von mehreren festen Kontakten bewegt werden, von denen jeder mit
einem Kondensator verbunden ist. In 9 ist
eine Auswahl von vier Kondensatoren 910, 912, 914 und 916 gezeigt,
die jeweils einen mit einem festen Kontakt des Schalters verbundenen Anschluss
und einen anderen, mit der Erde verbundenen Anschluss aufweisen.
Der Ausgang des Verstärkers 906 ist
mit einem Prozessor 918 verbunden.
-
Ein
Bandaufnahmegerät,
das bei dieser besonderen Baugruppe aus Vorrichtungen verwendet
werden kann, war eine Uher Modell 4000 Bandeinheit mit vier Geschwindigkeiten
und einem eigenen Internen Verstärker.
Die Werte der Kondensatoren 910–916 betrugen jeweils
0, 5, 3, 10 und 50 Mikrofarad, und die Eingangsimpedanz des Verstärkers 906 betrug
ca. 10.000 Ohm. Wie ersichtlich könnten verschiedene andere Komponenten
für diese
Vorrichtung verwendet werden oder hätten für sie verwendet werden können.
-
Beim
Betrieb der Schaltung gemäß 9 wird
die die Diode 904 passierende, gleichgerichtete Schwingungsform
in dem gewünschten
Ausmaß integriert,
wobei die Zeitkonstante so gewählt
ist, dass die Wirkung der frequenzmodulierten Infraschallwelle als
langsam variierender Gleichstrompegel erscheint, der in etwa der
Linie folgt, die den „Schwerpunkt" der Schwingungsform
repräsentiert.
Die in dem besonderen Diagramm gezeigten Ausschläge sind relativ schnell, was
anzeigt, dass der Schalter mit einem der Kondensatoren mit niedrigerem
Wert verbunden war. Bei dieser Ausführungsform wird von dem Kondensator 910, 912, 914 oder 916 und,
bei einer Verringerung der Wiedergabegeschwindigkeit, dem Bandaufnahmegerät eine Wellenparameterfilterung
durchgeführt.
-
TELEFONBETRIEB
MIT RÜCKMELDUNG
FÜR DEN
TELEFONISTEN
-
10 zeigt eine Ausführungsform der vorliegenden
Erfindung, die Emotionen in Stimmsignalen überwacht und einem Telefonisten
auf der Grundlage der erfassten Emotionen eine Rückmeldung liefert. Zunächst wird
in einem Arbeitsschritt 1000 ein Stimmsignal empfangen,
das einen Teil einer Konversation zwischen mindestens zwei Zielobjekten
repräsentiert.
In einem Arbeitsschritt 1002 wird eine dem Stimmsignal
zugeordnete Emotion bestimmt. Schließlich wird in einem Arbeitsschritt 1004 eine
die bestimmte Emotion betreffende Rückmeldung an eine dritte Partei
geleitet.
-
Die
Konversation kann über
ein Telekommunikationsnetz sowie über ein Weitbereichsnetzwerk,
wie das Internet, stattfinden, wenn Internet-Telefonie verwendet
wird. Als eine Option werden die Emotionen sortiert, und eine Rückmeldung
erfolgt nur, wenn die bestimmte Emotion eine negative Emotion ist,
die aus der aus Zorn, Trauer und Furcht bestehenden Gruppe negativer
Emotionen ausgewählt
wurde. Ebenso könnte
mit den Gruppen der positiven bzw. neutralen Emotionen verfahren
werden. Die Emotion kann durch Extrahieren eines Merkmals aus dem
Stimmsignal bestimmt werden, wie vorstehend im Einzelnen ausgeführt.
-
Die
vorliegende Erfindung ist besonders für einen Betrieb in Verbindung
mit einem Notrufsystem, wie dem 911-System, geeignet.
-
Bei
einem derartigen System könnten
ankommende Anrufe durch die vorliegende Erfindung überwacht
werden. Eine Emotion des Anrufers würde während des Gesprächs des
Anrufers mit dem den Anruf annehmenden Techniker bestimmt. Die Emotion
könnte
dann beispielsweise über
Funkwellen an das Notfallannahmeteam, beispielsweise die Polizei,
die Feuerwehr und/oder die Krankenwagenbesatzung gesendet werden,
damit diesen der Gemütszustand
des Anrufers bekannt ist.
-
Bei
einem weiteren Szenario ist eines der Zielobjekte ein Kunde und
ein weiteres der Zielobjekte ein Angestellter, wie ein Angestellter
eines Call-Center oder einer Kundendienstabteilung, und die dritte
Partei ist ein leitender Angestellter. Das Gespräch zwischen dem Kunden und
dem Angestellten würde
von der vorliegenden Erfindung überwacht,
um beispielsweise zu bestimmen, ob der Kunde und/oder der Angestellte
frustriert reagieren. Werden negative Emotionen erfasst, wird eine
Rückmeldung
an den leitenden Angestellten gesendet, der die Situation beurteilen
und nötigenfalls
eingreifen kann.
-
VERBESSERUNG
DER ERKENNUNG VON EMOTIONEN
-
11 zeigt eine Ausführungsform der vorliegenden
Erfindung, die die Erfassung von Emotionen anhand von Stimmsignalen
durch einen Benutzer und durch einen Computer vergleicht, um die
Erkennung von Emotionen entweder durch die Erfindung oder einen
Benutzer oder durch beide zu verbessern. Zunächst wird in einem Arbeitsschritt 1100 ein
Stimmsignal und eine dem Stimmsignal zugeordnete Emotion bereitgestellt. Die
dem Stimmsignal zugeordnete Emotion wird in einem Arbeitsschritt 1102 auf
eine vorstehend ausgeführte Art
und Weise automatisch bestimmt. Die automatisch bestimmte Emotion
wird in einem Arbeitsschritt 1104 beispielsweise auf einem
computerlesbaren Medium gespeichert. In einem Arbeitsschritt 1106 wird
eine vom Benutzer bestimmte, benutzerbestimmte, dem Stimmsignal
zugeordnete Emotion empfangen. Die automatisch bestimmte Emotion
wird in einem Arbeitsschritt 1108 mit der benutzerbestimmten
Emotion verglichen.
-
Das
Stimmsignal kann von der vorliegenden Erfindung ausgegeben oder
empfangen werden. Wahlweise wird die dem Stimmsignal zugeordnete
Emotion bei der Bereitstellung der Emotion identifiziert. In diesem
Fall sollte bestimmt werden, ob die automatisch bestimmte Emotion
bzw. die benutzerbestimmte Emotion mit der identifizierten Emotion übereinstimmt.
Der Benutzer kann einen Preis verliehen bekommen, wenn die benutzerbestimmte
Emotion mit der identifizierten Emotion übereinstimmt. Ferner kann die
Emotion automatisch bestimmt werden, indem beispielsweise auf die
vorstehend besprochene Art und Weise mindestens ein Merkmal aus
den Stimmsignalen extrahiert wird.
-
Um
einen Benutzer bei der Erkennung von Emotionen zu unterstützen, kann
gemäß einer
Ausführungsform
der vorliegenden Erfindung ein Emotionserkennungsspiel gespielt
werden. Das Spiel sollte einem Benutzer den Wettstreit mit dem Computer
oder einer weiteren Person ermöglichen,
um festzustellen, wer Emotionen in aufgezeichneter Sprache am besten
erkennen kann. Eine praktische Anwendung des Spiels ist die Unterstützung autistischer
Menschen bei der Entwicklung verbesserter emotionaler Fähigkeiten
bei der Erkennung von Emotionen in Sprache.
-
Gemäß einer
Ausführungsform
der vorliegenden Erfindung kann eine Vorrichtung zur Erzeugung Stimmsignale
betreffender Daten verwendet werden, die zur Verbesserung der Erkennung
von Emotionen verwendet werden können.
Bei einer derartigen Ausfüh rungsform
nimmt die Vorrichtung den Stimmklang über einen Wandler, wie ein
Mikrofon oder eine Tonaufzeichnungsvorrichtung, auf. Die physische
Schallwelle wird nach der Umwandlung in elektrische Signale parallel
an eine typische, im Handel erhältliche
Bank elektronischer Filter angelegt, die den hörbaren Frequenzbereich abdecken.
Durch Einstellen der Mittenfrequenz des tiefsten Filters auf einen
beliebigen Wert, der die Repräsentation
der Amplitude des Stimmsignals einschließlich des die tiefste Stimmfrequenz
repräsentierenden
Signals durch elektrische Energie durchlässt, werden die Mittenwerte
sämtlicher
nachfolgender Filter bis zum letzten, das die Energie mit im Allgemeinen
8 bis 16 kHz oder 10 bis 20 kHz durchlässt, sowie die genaue Anzahl
derartiger Filter festgelegt. Der spezifische Wert der Mittenfrequenz
des ersten Filters ist nicht signifikant, solange die tiefsten Töne der menschlichen
Stimme von ca. 70 Hz aufgenommen werden. Im Wesentlichen ist jede
im Handel erhältliche
Bank anwendbar, wenn sie an ein beliebiges Digitalisiergerät und anschließend einen
Mikrocomputer angeschlossen werden kann. Im Spezifikationsabschnitt
sind ein spezifischer Satz von Mittenfrequenzen und ein Mikroprozessor
gemäß einer bevorzugten
Ausführungsform
beschrieben. Die Filterqualität
ist ebenfalls nicht besonders signifikant, da ein in der Beschreibung
offenbarter Verfeinerungsalgorithmus jeden Filtersatz von durchschnittlicher
Qualität
auf akzeptable Frequenz- und Amplitudenwerte bringt. Das Verhältnis 1:3
definiert selbstverständlich
die Bandbreite sämtlicher
Filter, nachdem die Mittenfrequenzen einmal berechnet sind.
-
Nach
diesem Segmentierungsprozess mittels Filtern werden die Ausgangsspannungen
der Filter durch einen im Handel erhältlichen Satz von Digitalisiergeräten oder
vorzugsweise einem Multiplexer und einem Digitalisiergerät bzw. bei
der offenbarten, bevorzugten Ausführungsform ein in die gleiche,
identifizierte, im Handel erhältliche
Fil terbank eingebautes Digitalisiergerät digitalisiert, um Schnittstellenlogik
und Hardware zu eliminieren. Auch hier ist die Qualität des Digitalisiergeräts hinsichtlich
der Geschwindigkeit der Umwandlung bzw. Unterscheidung nicht signifikant,
da gegenwärtig
im Handel erhältliche,
durchschnittliche Einheiten die hier benötigten Anforderungen aufgrund
eines Korrekturalgorithmus (siehe Spezifikationen) und der erforderlichen
niedrigen Abtastrate übersteigen.
-
Jeder
komplexe Klang, der sich ständig
verändernde
Informationen übermittelt,
kann durch eine Verringerung der Bits mit Informationen mittels
der Erfassung der Frequenz und Amplitude von Spitzen des Signals
angenähert
werden. Dies ist, wie das Ausführen
einer derartigen Operation an Sprachsignalen, selbstverständlich keine
neue Erkenntnis. In der Sprachforschung werden jedoch einige spezifische
Bereiche, in denen derartige Spitzen häufig auftreten, als „Formantenbereiche" bezeichnet. Diese
Bereichsannäherungen
stimmen jedoch nicht immer und unter allen Umständen mit den Spitzen jedes
Sprechers überein.
Sprachforscher und frühere
erfinderische Techniken tendieren dazu, große Anstrengungen zu unternehmen,
um „legitime" Spitzen wie diejenigen
zu messen und zu benennen, die in die typischen Formantenfrequenzbereiche
fallen, als ob ihre Definition keine Schätzungen beinhalten würde, sondern
absolut wäre.
Dies hat dazu geführt,
dass zahlreiche Forschungs- und Formantenmessvorrichtungen künstlich
relevante Spitzen ausschließen,
die zur adäquaten
Darstellung einer komplexen, hoch variablen Schallwelle in Echtzeit
benötigt
werden. Da die vorliegende Offenbarung so konstruiert ist, dass
sie für
tierische Stimmklänge
ebenso wie für
sämtliche
menschlichen Sprachen geeignet ist, sind künstliche Einschränkungen,
wie Formanten, nicht von Interesse, und die Schallwelle wird als
komplexe, variierende Schallwelle behandelt, anhand derer jeder
derartige Klang analysiert werden kann.
-
Zur
Normalisierung und Vereinfachung der Identifikation von Spitzen
unabhängig
von Filterbandbreiten, Qualität
und Digitalisiergeräteunterscheidung
sind die für
Amplitude und Frequenz gespeicherten tatsächlichen Werte „repräsentative
Werte". Es verhält sich
so, dass die Breite der oberen Frequenzfilter numerisch der Bandbreite
der Filter für
dien niedrigeren Frequenzen ähnlich
ist. Jedem Filter werden einfach aufeinanderfolgende Werte von 1
bis 25 zugeordnet, und ein leiser bis lauter Klang wird auf einer
Skala von 1 bis 40 eingestuft, um eine Elektronenstrahlröhrenbildschirmanzeige
zu erleichtern. Eine Korrektur der Werte der Frequenzrepräsentation
erfolgt durch Einstellen der Anzahl der Filter auf einen höheren Dezimalwert
zum nächsten
ganzzahligen Wert, wenn der Filterausgang rechts des Spitzenfilters
eine größere Amplitude
als der Filterausgang links des Spitzenfilters aufweist. Die Einzelheiten
einer bevorzugten Ausführungsform
dieses Algorithmus ist in den Spezifikationen dieser Offenbarung
beschrieben. Der Korrekturprozess muss vor dem Komprimierungsprozess
erfolgen, während
die Amplitudenwerte sämtlicher
Filter verfügbar
sind.
-
Statt
die Abtastgeschwindigkeit zu verringern, werden bei der bevorzugten
Ausführungsform
vor dem Korrektur- und Komprimierungsprozess die Amplitudenwerte
sämtlicher
Filter für
10 bis 15 Abtastungen pro Sekunde bei einer Sprachprobe von ca.
10 bis 15 Sekunden gespeichert. Wenn der Speicherplatz des Computers
kritischer als die Durchlaufgeschwindigkeit ist, sollten die Korrektur
und das Komprimieren zwischen jedem Durchlauf erfolgen, wodurch
sich ein großer
Datenspeicher erübrigt.
Da die üblichsten,
im Handel erhältlichen,
durchschnittlich teuren Minicomputer über einen ausreichenden Speicher
verfügen,
sichert die bevorzugte und hier offenbarte Ausführungsform sämtliche
Daten und verarbeitet sie anschließend.
-
Die
meisten tierischen Stimmsignale von Interesse einschließlich der
menschlichen enthalten eine größte Amplitudenspitze,
die an keinem Ende der Frequenzdomäne wahrscheinlich ist. Diese
Spitze kann durch jeden einfachen und üblichen numerischen Sortieralgorithmus
bestimmt werden, wie es bei der vorliegenden Erfindung der Fall
ist. Die die Amplitude und die Frequenz repräsentierenden Werte werden dann
in Nummer drei von sechs Speicherplatzgruppen zum Halten der Amplituden
und Frequenzen von sechs Spitzen platziert.
-
Die
höchste
Frequenzspitze über
8 kHz wird im Speicherplatz Nummer sechs platziert und als Hochfrequenzspitze
gekennzeichnet. Die tiefste Spitze wird in der ersten Gruppe von
Speicherplätzen
platziert. Die anderen drei werden aus Spitzen zwischen ihnen ausgewählt. Nach
dieser Komprimierungsfunktion wird das Stimmsignal durch einen die
Amplitude und die Frequenz repräsentierenden
Wert jeder von sechs Spitzen sowie eine Gesamtenergieamplitude des
gesamten, bei einer zehnsekündigen
Probe beispielsweise zehnmal pro Sekunde ungefilterten Signals repräsentiert.
Dies ergibt insgesamt 1.300 Werte.
-
Die
Algorithmen lassen Schwankungen der Probenlänge zu, wenn der Bediener den
Probenlängenschalter
mit dem Überlagerungs-Ausschalter
außer
Kraft setzt, um eine Weiterführung
während
einer unerwarteten Unterbrechung durch ein Geräusch zu verhindern. Die Algorithmen
bewerkstelligen dies unter Verwendung von Durchschnittswerten, die
nicht besonders empfindlich auf Veränderungen der Anzahl der Proben
jenseits von vier oder fünf
Sekunden eines Klangsignals reagieren. Der Grund für eine größere Sprachprobe
ist, soweit möglich,
die Erfassung des durchschnittlichen „Sprachstils" des Sprechers, der
typischer Weise innerhalb von 10 bis 15 Sekunden erkennbar ist.
-
Der
Ausgang der Komprimierungsfunktion wird dem Elementbaugruppen- und
Steueralgorithmus zugeführt,
der (a) vier nachstehend beschriebene Stimmqualitätswerte,
(b) eine „Klangpause" bzw. ein Ein-Aus-Verhältnis, (c)
die „Variabilität" – die Differenz zwischen der
Amplitude jeder Spitze beim aktuellen Durchlauf und beim letzten
Durchlauf, die Differenzen zwischen den Frequenzzahlen jeder Spitze
beim aktuellen Durchlauf und beim letzten Durchlauf und die Differenz
zwischen den ungefilterten Gesamtenergien beim aktuellen Durchlauf
und beim letzten Durchlauf, (d) eine „Silbenänderungsannäherung", die durch Ermitteln des Verhältnisses
der Male, die die Veränderung
der zweiten Spitze zwischen den Durchläufen größer als 0,4 ist, zu der Gesamtanzahl
der Durchläufe
mit Klang ermittelt wird, und (e) eine „Hochfrequenzanalyse" – das Verhältnis der Anzahl der Durchgänge mit
Klang, die für
die Spitzenamplitude Nummer sechs einen Wert, der nicht null ist,
in dieser Spitze enthalten, zusammenfügt. Dadurch ergibt sich eine
Summe von 20 Elementen, die pro Durchgang zur Verfügung stehen.
Sie werden dann an den Dimensionszusammensetzungsalgorithmus weitergeleitet.
-
Die
vier als Elemente verwendeten Stimmqualitätswerte sind (1) die „Streuung" – der Probendurchschnittswert
der Differenzen zwischen den Durchschnittswerten der die Frequenz
repräsentierenden
Werte über
der maximale Amplitudenspitze und den Durchschnittswerten von denen
darunter in sämtlichen
Durchläufen,
(2) die „Ausgewogenheit" – der Probendurchschnittswert
der durchschnittlichen Amplitudenwerte der Spitzen 4, 5 und 6 in
sämtlichen
Durchgängen
dividiert durch den Durchschnittswert der Spitzen 1 und 2, (3) das „Hüllenflachheitshoch" – der Probendurchschnittswert
der Durchschnittswerte der Amplituden über der größten Spitze in sämtlichen
Durchläufen
dividiert durch die größte Spitze
und (4) das „Hüllenflachheitstief" – der Probendurchschnittswert
der Durchschnittswerte der Amplituden unter der größten Spitze
in sämtlichen Durchläufen dividiert
durch die größte Spitze.
-
Die
Stimmstildimensionen werden als „Resonanz" und „Qualität" bezeichnet und durch einen Algorithmus
zusammengesetzt, an dem eine Koeffizientenmatrix beteiligt ist,
die an ausgewählten
Elementen arbeitet.
-
Die „Sprachstildimensionen" werden als „veränderlich – monoton", „abgehackt – gleichmäßig", „rasch – verhalten", „aggressiv – sanft" und „gefühlsbetont – kontrolliert" bezeichnet. Diese
fünf Dimensionen,
deren Bezeichnungen sich auf die beiden Enden jeder Dimension beziehen,
werden von einem Algorithmus gemessen und zusammengesetzt, an dem
eine Koeffizientenmatrix beteiligt ist, die an 15 der 20 Klangelemente
arbeitet, die in Tabelle 6 und im Spezifikationsabschnitt im Einzelnen
aufgeführt
sind.
-
Die
Wahrnehmungsstildimensionen werden als „ökonomisch – strukturiert", „unveränderlich – sensibel", „auf andere
bezogen – selbstbezogen", „sensorisch – introvertiert", „Hass – Liebe", „Unabhängigkeit – Abhängigkeit" und „emotional – physisch" bezeichnet. Diese
sieben wahrgenommenen Dimensionen mit Namen, die sich auf die Endbereiche
der Dimension beziehen, werden von einem Algorithmus gemessen und
zusammengesetzt, an dem eine Koeffizientenmatrix beteiligt ist und
der an ausgewählten
(in Tabelle 7 und im Spezifikationsabschnitt im Einzelnen aufgeführten) Klangelementen
von Stimme und Sprache ansetzt.
-
Eine
im Handel erhältliche,
typische Computertastatur bzw. ein Tastenfeld ermöglicht dem
Benutzer der vorliegenden Offenbarung das Verändern jedes bzw. aller Koeffizienten
zur Neudefinition jeder zusammengesetzten Sprach-, Stimm- oder Wahrnehmungsdimension
zu Forschungszwecken. Auswahlschalter ermöglichen eine Anzeige jedes
bzw. sämtlicher
Element- bzw. Dimensionswerte der Stimmprobe eines gegebenen Probanden.
Der digitale Prozessor steuert die Analog-Digital-Umwandlung des
Klangsignals und ebenso die Neuzusammensetzung der Stimmklangelemente
zu numerischen Werten der Stimm-, Sprach- und Wahrnehmungsdimensionen.
-
Der
Mikrocomputer koordiniert auch die Tastenfeldeingaben des Bedieners
und die Anzeige ausgewählter
Ausgabewerte sowie die Auswahl der Koeffizientenmatrix, die mit
den Algorithmen interagieren soll, die die Stimm-, Sprach- und Wahrnehmungsdimensionen
zusammensetzen. Der Ausgabewahlschalter leitet einfach den Ausgang
zu einer oder sämtlichen
Ausgangsbuchsen, die zur Zufuhr des Signals zu typischen, im Handel
erhältlichen
Monitoren, Modems, Druckern oder standardmäßig zu einer Licht emittierenden,
eingebauten Leseanordnung geeignet sind.
-
Durch
die Entwicklung von Gruppenprofilstandards unter Verwendung der
vorliegenden Erfindung kann ein Forscher Erkenntnisse in Veröffentlichungen
nach Berufen, Funktionsstörungen,
Aufgaben, Freizeitinteressen, Kulturen, Sprachen, Geschlecht, Alter,
Spezies des Tiers, etc. auflisten. Der Benutzer kann auch seine/ihre
Werte mit den von anderen veröffentlichten
oder den in der Maschine enthaltenen vergleichen.
-
Gemäß 12 der Zeichnungen wird eine stimmliche Äußerung über ein
Mikrofon 1210 und einen Mikrofonverstärker 1211 zur Signalverstärkung oder
als Bandeingabe über
eine Bandeingangsbuchse 1212 zur Verwendung einer vorab
aufgezeichneten Stimmäußerungseingabe
in den Stimmklanganalysator eingegeben. Eine Eingangspegelsteuerung 1213 stellt
den Pegel des Stimmsignals auf den Filteransteuerverstärker 1214 ein.
Der Filteransteuerverstärker 1214 verstärkt das
Signal und legt es zum Messen des korrekten Betriebssignalpegels
an einen Stimmäußerungsmesser 1215 an.
-
Die
Durchlaufrate pro Sekunde und die Anzahl der Durchläufe pro
Probe wird vom Bediener über
den Durchlaufraten- und Probenzeitschalter 1216 gesteuert.
Der Bediener beginnt die Probenentnahme mit dem Probenstart- und
Beendigungsüberbrückungsschalter 1217.
Die Überbrückungsfunktion
ermöglicht
dem Bediener das manuelle Überbrücken der
eingestellten Probenentnahmezeit und das Beenden der Probenentnahme
zum Verhindern einer Kontamination einer Probe durch unerwartete
Störgeräusche einschließlich gleichzeitig
Sprechender. Der Schalter stellt auch die Verbindung mit der Stromversorgung
des Mikroprozessors mit elektrischen Eingangsspitzen von standardmäßigen 110
Volt her und unterbricht sie.
-
Der
Filteransteuerverstärker 1214 wird
auch auf eine im Handel erhältliche,
mikroprozessorgesteuerte Filterbank- und Digitalisiereinrichtung 1218 angewendet,
die das elektrische Signal in Dritteloktavenbereiche über den
Hörfrequenzbereich
des untersuchten Organismus segmentiert und den Spannungsausgang
jedes Filters digitalisiert. Bei einer spezifischen Arbeitsausführung der
Erfindung sind 25 Dritteloktavfilter eines Eventide Spektralanalysators
mit Filtermittenfrequenzen von 63 bis 16.000 Hz vorgesehen. Ebenso
wurde ein AKAI Mikrofon und Bandaufnahmegerät mit einem eingebauten Verstärker als
Eingang der Filterbank- und Digitalisiereinrichtung 1218 verwendet.
Die Anzahl der Durchläufe
pro Sekunde, die die Filterbank benutzt, beträgt ca. zehn Durchläufe pro
Sekunde. Andere mikroprozessorgesteuerte Filterbank- und Digitalisiereinrichtungen
können
mit anderen Geschwindigkeiten arbeiten.
-
Jeder
der mehreren im Handel erhältlichen
Mikroprozessoren ist zum Steuern der vorstehend erwähnten Filterbank-
und Digitalisiereinrichtung geeignet.
-
Wie
bei jedem komplexen Klang ist die Amplitude über den Tonfrequenzbereich
in einem „Zeitfenster" von 0,1 einer Sekunde
nicht konstant oder flach, sondern es sind Spitzen und Täler vorhanden.
Die die Frequenz repräsentierenden
Werte der Spitzen 1219 des Signals werden durch Aufzeichnen
der Amplitudenwerte auf beiden Seiten der Spitzen und Einstellen
der Spitzenwerte zum danebenliegenden Filterwert mit der größeren Amplitude
hin genauer eingestellt. Dies erfolgt, da die Energie bei einer
gegebenen Frequenz, wie es für
Dritteloktavfilter charakteristisch ist, abhängig von den Begrenzungsqualitäten der
Filter in einem gewissen Maß in
die danebenliegenden Filter überläuft. Zur
Minimierung dieses Effekts wird davon ausgegangen, dass die Frequenz
eines Spitzenfilters nur dann die Mittenfrequenz ist, wenn die beiden
nebeneinander liegenden Filter Amplituden innerhalb von 10 % ihres
Durchschnittswerts aufweisen. Zur Gewährleistung getrennter, gleichmäßig beabstandeter,
kleiner Werte zur Linearisierung und Normalisierung der die ungleichmäßigen Frequenzintervalle
repräsentierenden
Werte ist jedem der 25 Filter ein numerischer Wert von 1 bis 25
zugeordnet, und diese Nummern werden während des Rests der Verarbeitung
verwendet. Auf diese Weise nimmt die Differenz von 3.500 Hz zwischen
den Filtern 24 und 25 den Wert 1 an, der wiederum auch mit der Differenz
von 17 Hz zwischen dem ersten und dem zweiten Filter übereinstimmt.
-
Zum
Verhindern von mehr als fünf
Unterteilungen jeder Filternummer und zur Fortsetzung der Aufrechterhaltung
gleichwertiger Schritte zwischen jeder Unterteilung der Filternummern
1 bis 25 sind sie in Schritte von 0,2 unterteilt und ferner wie
folgt zugeordnet.
-
Wenn
die Amplitudendifferenz zwischen den beiden neben einem Spitzenfilter
liegenden Filtern größer als
30 % des Durchschnittwerts ist, wird davon ausgegangen, dass die
Nummer des Spitzenfilters näher
an dem Punkt auf halber Strecke zur nächsten Filternummer als an
dem Spitzenfilter liegt. Dies würde
dazu führen,
dass die Filternummer eines Spitzenfilters, beispielsweise die Filternummer
6,0, auf 6,4 erhöht
oder auf 5,6 verringert würde,
wenn der größere danebenliegende
Filter einen jeweils eine höhere
bzw. eine niedrigere Frequenz repräsentiert. Sämtlichen anderen Filterwerten
der Spitzenfilter wird automatisch der Wert ihrer Filternummer +
0,2 bzw. – 0,2
zugewiesen, wenn die größere der
Amplituden der danebenliegenden Filter jeweils eine höhere oder
niedrigere Frequenz repräsentiert.
-
Das
segmentierte und digital repräsentierte
Stimmäußerungssignal 1219 wird
nach der vorstehend ausgeführten
Frequenzkorrektur 1220 durch den Ausschluss von Allem mit
Ausnahme von sechs Amplitudenspitzen komprimiert, um Speicherplatz
zu sparen. Der Erfinder hat festgestellt, dass sechs Spitzen zur
Erfassung der Stilcharakteristika ausreichten, solange die folgenden
Charakteristika einbezogen wurden: mindestens eine Spitze liegt
in der Nähe
der Grundfrequenz; genau eine Spitze darf zwischen dem Bereich der
Grundfrequenz und der Spitzenamplitudenfrequenz liegen, wobei die
am nächsten
an der maximalen Spitze liegende erhalten bleibt; und für insgesamt
sechs gesicherte und im Speicher des Mikroprozessors gespeicherte
Spitzen werden die ersten beiden Spitzen über der maximalen Spitze sowie
die bei mehr als 8 kHz am nächsten an
dem Ende des 25. Filters mit 16.000 Hz liegende Spitze gesichert.
Dadurch wird gewährleistet,
dass die maximale Spitze stets die dritte im Speicher gespeicherte
Spitze ist, dass die sechste gespeicherte Spitze für eine Hochfrequenzanalyse
verwendet werden kann und dass die erste die niedrigste und am nächsten an
der Grundfrequenz liegende ist.
-
Nach
dem derartigen Komprimieren des Signals, dass es einen Amplitudenwert
mit der vollen Bandbreite, die Filternummer und den Amplitudenwert
von sechs Spitzen sowie jeden dieser dreizehn Werte für 10 Abtastungen
einer zehnsekündigen
Probe (1.300 Werte) enthält,
beginnt unter 1121 gemäß 12 die Zusammensetzung der Klangelemente.
-
Um
zu den „Stimmstilqualitätselementen" zu gelangen, nutzt
die vorliegende Erfindung die Beziehung zwischen dem unteren Satz
und dem höheren
Satz von Frequenzen der Stimmäußerung.
Die Sprachstilelemente werden andererseits durch eine Kombination
von das Muster des Auftretens stimmlicher Energie, wie Pausen und
Verhallgeschwindigkeiten, betreffenden Messungen bestimmt. Die „Stimmstilqualitätselemente" gehen aus der Spektralanalyse
gemäß 13, 1330, 1331 und 1332 hervor.
Die Sprachstilelemente gehen aus den vier weiteren, in 12 unter 1233, 1234, 1235 und 1236 und
in Tabelle 6 gezeigten Analysefunktionen hervor.
-
Die
gespeicherten Stimmstilqualitätsanalyseelemente
werden wie folgt benannt und abgeleitet: (1) die „Spektrenstreuung" – der Probendurchschnittswert
des Abstands zwischen dem Durchschnittswert der vorstehend beschriebenen
Spitzenfilternummern und dem Durchschnittswert der Spitzenfilternummern
unter der maximalen Spitze in Filternummern für jeden Durchlauf, 13, 1330; (2) der „Energieausgleich" des Spektrums – der Durchschnittswert
der Verhältnisse
zwischen der Summe der Amplituden der über der maximalen Spitze liegenden
Spitzen und der Summe der unter der maximalen Spitze liegenden Spitzen
in sämtlichen
Durchläufen
für eine
Probe, 1331; (3) die „Flachheit" der Hülle des
Spektrums – das
arithmetische Mittel für
jeden von zwei Sätzen
von Verhältnissen
für jede
Probe – die
Verhältnisse
zwischen der durchschnittlichen Amplitude der Spitzen über der
maximalen Spitze (hoch) sowie der Spitzen unter der maximalen Spitze
(tief) und der maximalen Spitze für jeden Durchlauf, 1332.
-
Die
gespeicherten Sprachstilelemente werden jeweils wie folgt benannt
und abgeleitet: (1) Spektrumsvariabilität – die sechs Durchschnittswerte
der numerischen Differenzen zwischen der Filternummer jeder Spitze
in einem Durchlauf und der Filternummer jeder entsprechenden Spitze
im nächsten
Durchlauf bei einer Sprachprobe und ebenso die Differenzen zwischen
den sechs Amplitudenwerten für
diese sechs Spitzen sowie die vollständigen Spektrumsamplitudendifferenzen
für jeden
Durchlauf, wodurch eine Abtastung von insgesamt 13 Durchschnittswerten
erzeugt wird, 1333; (2) die Sprechpausenverhältnisanalyse – das Verhältnis zwischen
der Anzahl der Durchläufe
in der Probe, bei denen die gesamten Energieamplitudenwerte Pausen waren
(unter zwei Einheiten des Amplitudenwerts lagen) und der Anzahl,
die Klangenergie (mehr als eine Werteinheit) enthielten, 1334;
(3) Annäherung
der Silbenänderung – das Verhältnis zwischen
der Anzahl der Durchläufe,
in denen sich der numerische Wert der dritten Spitze um mehr als
0,4 geändert
hat, und der Anzahl der Durchläufe,
bei denen während
der Abtastung Klang vorlag, 1335; und (4) die Hochfrequenzanalyse – das Verhältnis der
Anzahl der Durchläufe
für die
Probe, in denen die sechste Spitze einen Amplitudenwert aufwies, zu
der Gesamtzahl der Durchläufe, 1336.
-
Die
Klangstile sind gemäß dem erfindungsgemäßen Verfahren
und der erfindungsgemäßen Vorrichtung
in sieben Dimensionen unterteilt, die in Tabelle 6 dargestellt sind.
Sie wurden als die auf einen zugeordneten Satz von sieben in Tabelle
7 aufgelisteten Wahrnehmungs- bzw. Erkennungsstildimensionen empfindlichsten
bestimmt.
-
Die
Prozedur zur Zuordnung der Klangstilelemente zu Stimm-, Sprach-
und Wahrnehmungsdimensionen zur Ausgabe (12, 1228)
wird mittels Gleichungen ausgeführt,
die jede Dimension als Funktion von ausgewählten Klangstilelementen bestimmen
(13, 1330 bis 1336). Tabelle
6 ordnet die Sprachstilelemente (1333 bis 1336 gemäß 13) den Sprachstildimensionen zu.
-
Tabelle
7 zeigt die Beziehung zwischen sieben Wahrnehmungsstildimensionen
und den Klangstilelementen (
1330 bis
1336). Erneut
ist es der Zweck einer optionalen Eingabekoeffizientengruppe, die
Nullen enthält,
dem Bediener der Vorrichtung das Umschalten oder Eingeben von Veränderungen
dieser Koeffizienten zu Forschungszwecken zu ermöglichen (
1222,
1223).
Der fähige
Benutzer kann unterschiedliche Wahrnehmungsdimensionen und sogar
Persönlichkeits- oder Erkennungsdimensionen
bzw. (wenn diese Terminologie bevorzugt wird) -faktoren entwickeln,
die vollständig
andere Koeffizienten erfordern. Dies erfolgt durch die Eingabe des
gewünschten
Koeffizientensatzes und die Aufzeichnung, welcher Dimension (
1226)
dieser zugeordnet wird. So kann beispielsweise die Dimension auf
andere bezogen – selbstbezogen
gemäß Tabelle
7 keine vom Forscher gewünschte
Dimension sein, und er kann sie durch eine Benutzerwahrnehmungsdimension
zu ersetzen wünschen,
die er als introvertiert – extrovertiert
bezeichnet. Durch Ersetzen des Koeffizientensatzes für den Satz „auf andere
bezogen – selbstbezogen" durch Versuchssätze, bis
eine akzeptierbar hohe Korrelation zwischen der gewählten Kombination
gewichteter Klangstilelemente und der extern bestimmten Dimension „introvertiert – extrovertiert" vorliegt, kann der
Forscher so dieses Fenster für
die neue Dimension „introvertiert – extrovertiert" nutzen, indem er
sie effektiv umbenennt. Dies kann in dem Ausmaß erfolgen, dass der erfindungsgemäße Satz
von Klangelementen empfindlich auf eine Benutzerdimension „introvertiert – extrovertiert" reagiert und der
Koeffizientensatz des Forschers die geeignete Beziehung wiedergibt.
Dies ist mit zahlreichen benutzerdefinierten Dimensionen in einem
brauchbaren Ausmaß möglich, wodurch
die Erfindung produktiv in einer Forschungsumgebung eingesetzt werden
kann, in der neue, Klangstilelementen zugeordnete Wahrnehmungsdimensionen
erforscht, entwickelt oder bewertet werden. Tabelle
6
- ##STR1##
- DS1 = lebhaft – monoton
- DS2 = abgehackt – gleichmäßig
- DS3 = schnell – verhalten
- DS4 = aggressiv – sanft
- DS5 = gefühlsbetont – kontrolliert
- (2) Nr. 1 bis 6 = Spitzenfilterdifferenzen 1–6 und Amp. 1 bis 6 = Spitzenamplitudendifferenzen
1–6
- Amp. 7 = volle Bandpassamplitudendifferenzen
Tabelle
7 - ##STR2##
- DP1 = ökologische
Struktur hoch – tief
- DP2 = beständig – empfindlich
hoch – niedrig
- DP3 = auf andere bezogen – selbstbezogen
- DP4 = sensorisch – intern
- DP5 = Hass – Liebe
- DP6 = Abhängigkeit – Unabhängigkeit
- DP7 = emotional – physisch
- (2) Nr. 1 bis 6 = Spitzenfilterdifferenzen 1–6 und Amp. 1 bis 6 = Spitzenamplitudendifferenzen
1–6 und
Amp. 7 = volle Bandpassamplitudendifferenzen
-
Die
dem Benutzer der vorliegenden Erfindung zur Verfügung gestellten primären Ergebnisse
sind die selektiv über
einen Schalter (1227) verfügbaren Dimensionswerte (1226)
zur Anzeige auf einer Standardlichtanzeige und wahlweise auch auf
einem Monitor, einem Drucker, einem Modem oder anderen Standardausgabevorrichtungen
(1228). Sie können
verwendet werden, um zu bestimmen, wie nahe die Stimme des Probanden
bei einer oder sämtlichen
der Klang- oder Wahrnehmungsdimensionen aus den eingebauten bzw.
veröffentlich ten
oder persönlich
entwickelten Steuerungen oder Standards liegt, die dann als Hilfsmittel
zur Verbesserung der Erkennung von Emotionen verwendet werden können.
-
Bei
einer weiteren beispielhaften Ausführungsform der vorliegenden
Erfindung werden von einem Benutzer empfangene Biosignale als Hilfsmittel
zur Bestimmung der Emotionen in der Sprache des Benutzers verwendet.
Die Erkennungsrate eines Spracherkennungssystems wird durch Kompensieren
von Veränderungen
in der Sprache des Benutzers verbessert, die aus Faktoren, wie Emotionen,
Besorgnis oder Müdigkeit, resultieren.
Ein aus einer Äußerung eines
Benutzers abgeleitetes Sprachsignal wird zur Verbesserung der Erkennungsrate
von einem Vorprozessor modifiziert und einem Spracherkennungssystem
zugeführt.
Das Sprachsignal wird auf der Basis eines Biosignals modifiziert,
das den Gemütszustand
des Benutzers anzeigt.
-
Genauer
zeigt 14 ein Spracherkennungssystem,
bei dem Sprachsignale von einem Mikrofon 1418 und Biosignale
von einem Biomonitor 1430 von einem Vorprozessor 1432 empfangen
werden. Das an den Vorprozessor 1432 angelegte Signal von
dem Biomonitor 1430 ist ein Biosignal, das die Impedanz
zwischen zwei Punkten auf der Oberfläche der Haut eines Benutzers
anzeigt. Der Biomonitor 1430 misst die Impedanz unter Verwendung
eines am Finger des Benutzers angebrachten Kontakts 1436 und
eines an einem weiteren Finger des Benutzers angebrachten Kontakts 1438.
Ein Biomonitor, wie ein von Radio Shack, einer Tochterfirma der
Tandy Corporation, unter der Handelsbezeichnung (MICRONATA.RTM.
BIOFEEDBACK MONITOR), Modell Nr. 63–664 vertriebener Biofeedbackmonitor
kann verwendet werden. Die Kontakte können auch an anderen Stellen
auf der Haut des Benutzers angebracht werden. Gerät der Benutzer
in einen erregten oder besorgten Zustand, nimmt die Impedanz zwischen
den Punkten 1436 und 1438 ab, und die Abnahme wird
vom Monitor 1430 erfasst, der ein Biosignal erzeugt, das
eine verringerte Impedanz anzeigt. Der Vorprozessor 1432 verwendet
das Biosignal vom Biomonitor 1430 zum Modifizieren des
vom Mikrofon 1418 empfangenen Sprachsignals, wobei das
Sprachsignal modifiziert wird, um die Veränderungen der Sprache des Benutzers
aufgrund der aus Faktoren, wie einer Ermüdung oder einer Veränderung
des Gemütszustands,
resultierenden Veränderungen
zu kompensieren. Der Vorprozessor 1432 kann beispielsweise
die Tonhöhe
des Sprachsignals vom Mikrofon 1418 verringern, wenn das
Biosignal vom Biomonitor 1430 anzeigt, dass der Benutzer
erregt ist, und er kann die Tonhöhe
des Sprachsignals vom Mikrofon 1418 erhöhen, wenn das Biosignal vom
Biomonitor 1430 anzeigt, dass sich der Benutzer beispielsweise
aufgrund seiner Müdigkeit
in einem weniger erregten Zustand befindet. Der Vorprozessor 1432 leitet
dann das modifizierte Sprachsignal auf herkömmliche Weise zu einer Soundkarte 1416.
Der Vorprozessor 1432 kann beispielsweise zu Initialisierungs- oder
Kalibrierungszwecken unter Verwendung einer Schnittstelle, wie einer
RS232 Schnittstelle, mit einem PC 1410 kommunizieren. Der
Benutzer 1434 kann durch Beobachten einer Anzeige 1412 und
durch die Eingabe von Befehlen unter Verwendung einer Tastatur 1414,
eines Tastenfelds 1439 oder einer Maus mit dem Vorprozessor 1432 kommunizieren.
-
Es
ist auch möglich,
das Biosignal zur Vorverarbeitung des Sprachsignals durch Steuern
der Verstärkung
und/oder der Frequenzantwort des Mikrofons 1418 zu verwenden.
Die Verstärkung
des Mikrofons kann als Reaktion auf das Biosignal erhöht oder
verringert werden. Das Biosignal kann auch zum Verändern der Frequenzantwort
des Mikrofons verwendet werden. Ist das Mikrofon 1418 beispielsweise
das bei AUDIO-TECHNICA U.S., Inc. erhältliche Modell ATM71, kann
das Biosignal zum Umschalten zwischen einer relativ flachen Antwort
und einer abgerollten Antwort verwendet werden, wobei die abgerollte
Antwort niederfrequente Sprachsignale weniger verstärkt.
-
Wenn
der Biomonitor 1430 der vorstehend erwähnte, bei Radio Shack erhältliche
Monitor ist, hat das Biosignal die Form einer Folge von rampenartigen
Signalen, wobei jede Rampe eine Dauer von ca. 0,2 ms aufweist. 15 zeigt das Biosignal, wobei eine Folge rampenartiger
Signale 1542 durch eine Zeitspanne T getrennt sind. Die
Größe der Zeitspanne
T zwischen den Rampen 1542 hängt mit der Impedanz zwischen
den Punkten 1438 und 1436 zusammen. Wenn der Benutzer
erregter ist, wird die Impedanz zwischen den Punkten 1438 und 1436 geringer
und die Zeitspanne T wird kürzer.
Wenn sich der Benutzer in einem weniger erregten Zustand befindet,
wird die Impedanz zwischen den Punkten 1438 und 1436 größer, und
die Zeitspanne T wird länger.
-
Die
Form eines Biosignals von einem Biomonitor kann andere Formen als
die einer Folge rampenartiger Signale annehmen. Das Biosignal kann
beispielsweise ein analoges Signal sein, das hinsichtlich der Periodizität, Amplitude
und/oder Frequenz variiert, die auf den vom Biomonitor 1430 vorgenommenen
Messungen basieren, oder es kann ein digitaler Wert sein, der auf
den vom Biomonitor gemessenen Bedingungen basiert.
-
Der
Biomonitor 1430 enthält
die Schaltung gemäß 16, die das Biosignal erzeugt, das die Impedanz
zwischen den Punkten 1438 und 1436 anzeigt. Die
Schaltung besteht aus zwei Abschnitten. Der erste Abschnitt wird
zum Erfassen der Impedanz zwischen den Kontakten 1438 und 1436 verwendet,
und der zweite Abschnitt fungiert als Oszillator zur Erzeugung einer
Folge von Rampensignalen am Ausgangsverbindungselement 1648,
wobei die Frequenz der Oszillation vom ersten Abschnitt gesteuert
wird.
-
Der
erste Abschnitt steuert auf der Grundlage der Impedanz zwischen
den Punkten 1438 und 1436 einen Kollektorstrom
IcQ1 und eine Spannung Vc,Q1 des
Transistors Q1. Bei dieser Ausführungsform
besteht der Impedanzsensor 1650 einfach aus Kontakten 1438 und 1436,
die auf der Haut des Sprechers angeordnet werden. Da sich die Impedanz
zwischen den Kontakten 1438 und 1436 im Vergleich
zu der Oszillationsfrequenz des Abschnitts 2 relativ langsam verändert, sind
der Kollektorstrom Ic,Q1 und die Spannung
Vc,Q1, soweit es den Abschnitt 2 betrifft,
praktisch konstant. Der Kondensator C3 stabilisiert diese Ströme und Spannungen
weiter.
-
Der
Abschnitt 2 dient als Oszillator. Die reagierenden Komponenten L1
und C1 schalten einen Transistor Q3 ein und aus, um eine Schwingung
zu erzeugen. Wird der Strom anfangs eingeschaltet, schaltet I
c,Q1 durch Ziehen eines Grundstroms I
b,Q2 Q2 ein. Ähnlich schaltet I
c,Q2 durch
Liefern eines Grundstroms I
b,Q3 den Transistor
Q3 ein. Ursprünglich
fließt
kein Strom durch den Induktor L1. Wird Q3 eingeschaltet, wird die
Spannung Vcc minus einer kleinen gesättigten Transistorspannung
V
c,Q3 an L1 angelegt. Dadurch wird der Strom
I
L1 entsprechend der folgenden Gleichung
erhöht:
-
Wird
der Strom IL1 erhöht, wird der durch den Kondensator
C1 fließende
Strom Ic1 erhöht. Durch eine Erhöhung des
Stroms Ic1 wird der Grundstrom IB,Q2 vom Transistor Q2 verringert, da der
Strom Ic,Q1 praktisch konstant ist. Dadurch
werden wiederum die Ströme
Ic,Q2, Ib,Q3 und
Ic,Q3 verringert. Dadurch fließt mehr
von dem Strom IL1 durch den Kondensator
C1 und verringert den Strom Ic,Q3 weiter.
Die se Rückkopplung
veranlasst ein Ausschalten des Transistors Q3. Schließlich ist
der Kondensator C1 vollständig
aufgeladen, und die Ströme
IL1 und Ic1 fallen
auf null, wodurch der Strom Ic,Q1 erneut
den Grundstrom Ib,Q2 ziehen und die Transistoren
Q2 und Q3 einschalten kann, wodurch der Oszillationszyklus erneut
eingeleitet wird.
-
Der
Strom Ic,Q1, der von der Impedanz zwischen
den Kontakten 1438 und 1436 abhängt, steuert
die Frequenz des Ausgangssignals in einem Arbeitszyklus. Wenn die
Impedanz zwischen den Punkten 1438 und 1436 abnimmt,
nimmt die Zeitspanne T zwischen den Rampensignalen ab, und wenn
die Impedanz zwischen den Punkten 1438 und 1436 zunimmt,
nimmt die Zeitspanne T zwischen den Rampensignalen zu.
-
Die
Schaltung wird von einer Dreivoltbatteriequelle 1662 mit
Strom versorgt, die über
einen Schalter 1664 an die Schaltung angeschlossen ist.
Ebenso ist ein Regelwiderstand 1666 enthalten, der zum
Einstellen eines Betriebspunkts für die Schaltung verwendet wird.
Es ist wünschenswert,
den Regelwiderstand 1666 auf eine Position einzustellen,
die in etwa in der Mitte seines Einstellbereichs liegt. Die Schaltung
variiert dann von diesem Betriebspunkt aus, wie vorstehend beschrieben,
auf der Grundlage der Impedanz zwischen den Punkten 1438 und 1436.
Die Schaltung umfasst auch einen Schalter 1668 und einen
Lautsprecher 1670. Wird kein passendes Verbindungselement
in das Verbindungselement 1648 eingeführt, leitet der Schalter 1668 den
Ausgang der Schaltung zum Lautsprecher 1670 statt zum Figur
Verbindungselement 1648.
-
17 ist ein Blockdiagramm des Vorprozessors 1432.
Ein Analog-Digitalwandler (A/D-Wandler) 1780 empfängt ein
Sprach- bzw. Äußerungssignal
vom Mikrofon 1418, und ein Analog-Digitalwandler (A/D-Wandler) 1782 empfängt ein
Biosignal vom Bio monitor 1430. Das Signal von dem A/D-Wandler 1782 wird an
den Mikroprozessor 1784 angelegt. Der Mikroprozessor 1784 überwacht
das Signal von dem A/D-Wandler 1782, um zu bestimmen, welche
Aktionen von der digitalen Signalprozessorvorrichtung (DSP-Vorrichtung) 1786 ausgeführt werden
sollten. Der Mikroprozessor 1784 verwendet den Speicher 1788 zur
Programmspeicherung und für
Notizblockfunktionen. Der Mikroprozessor 1784 kommuniziert
unter Verwendung einer RS232 Schnittstelle mit einem PC 1410.
Die Software zur Steuerung der Schnittstelle zwischen dem PC 1410 und dem
Mikroprozessor 1784 kann unter Verwendung eines Softwarepakets,
wie dem von der Microsoft Corporation unter der Handelsbezeichnung
WINDOWS vertriebenen, in einer Mehrfachanwendungsumgebung auf dem
PC 1410 ausgeführt
werden. Der Ausgang des DSP 1786 wird von einem Digital-Analogwandler 1790 in ein
analoges Signal zurückgewandelt.
Nach der vom Mikroprozessor 1784 befohlenen Modifikation
des Signals von dem A/D-Wandler 1780 durch den DSP 1786 wird
der Ausgang des D/A-Wandlers 1790 an die Soundkarte 1416 gesendet.
Der Mikroprozessor 1784 kann einer der verbreitet erhältlichen
Mikroprozessoren, beispielsweise der bei der Intel Corporation erhältlichen
Mikroprozessoren sein, und der DSP 1786 kann einer der verbreiteten,
von Firmen wie Texas Instruments erhältlichen digitalen Signalverarbeitungschips,
beispielsweise aus der Vorrichtungsserie TMS320CXX, sein.
-
Der
Biomonitor 1430 und der Vorprozessor 1432 können auf
einer einzigen Karte angeordnet werden, die in einen leeren Kartenschlitz
im PC 1410 eingesetzt wird. Ebenso können die Funktionen des Mikroprozessors 1784 und
des digitalen Signalprozessors 1786 unter Verwendung des
PC 1410 anstelle spezialisierter Hardware ausgeführt werden.
-
Der
Mikroprozessor 1784 überwacht
das Biosignal von dem A/D-Wandler 1782, um zu Bestimmen, welche
Aktion von dem DSP 1786 ausgeführt werden soll. Wenn das Signal
von dem A/D-Wandler 1782 anzeigt, dass sich der Benutzer
in einem erregteren Zustand befindet, zeigt der Mikroprozessor 1784 dem
DSP 1786 an, dass er das Signal von dem A/D-Wandler 1780 so
verarbeiten soll, dass die Tonhöhe
des Sprachsignals verringert wird. Wenn das Biosignal von dem A/D-Wandler 1782 anzeigt,
dass sich der Benutzer in einem weniger erregten bzw. in einem ermüdeten Zustand
befindet, weist der Mikroprozessor 1784 den DSP 1786 an,
die Tonhöhe
des Sprachsignals zu erhöhen.
-
Der
DSP 1786 modifiziert die Tonhöhe des Sprachsignals durch
die Erstellung eines Sprachmodells. Der DSP verwendet das Modell
dann zur Neuerstellung des Sprachsignals mit einer modifizierten
Tonhöhe. Das
Sprachmodell wird unter Verwendung einer der in der Technik allgemein
bekannten, linearen Vorhersagecodierungstechniken erzeugt. Eine
derartige Technik ist in einer Anwendungsveröffentlichung der Analog Device,
Inc. mit dem Titel „Digital
Signal Processing Applications Using the ADSP 2100 Family", Seiten 355–372, veröffentlicht
bei Prentice-Hall, Englewood Cliffs, N.J., 1992, offenbart. Diese
Technik umfasst die Abbildung des Sprachsignals als FIR-Filter (rekursives
Filter) mit zeitabhängig
variierenden Koeffizienten, wobei das Filter durch eine Folge von
Impulsen erregt wird. Die Zeitspanne T zwischen den Impulsen ist
ein Messwert für die
Tonhöhe
bzw. die Grundfrequenz. Die zeitabhängig variierenden Koeffizienten
können
unter Verwendung einer Technik, wie der in der vorstehend erwähnten Veröffentlichung
der Analog Device, Inc. offenbarten Levinson-Durbin-Rekursion berechnet
werden. Eine Zeitspanne T zwischen den Impulsen, aus denen die Folge von
Impulsen zusammengesetzt ist, durch die das Filter erregt wird,
kann unter Verwen dung eines Algorithmus wie dem in „The SIFT
Algorithm for Fundamental Frequency Estimation" von John D. Markel, IEEE Transactions
on Audio and Electroacoustics, Bd. AU-20, Nr. 5, Dezember 1972 offenbarten
SIFT-Algorithmus (SIFT: simplified inverse filter tracking, vereinfachte
inverse Filterverfolgung) von John D. Markel berechnet werden. Der
DSP 1786 modifiziert die Tonhöhe bzw. die Grundfrequenz des
Sprachsignals durch Verändern
der Zeitspanne T zwischen den Impulsen, wenn er das FIR-Filter erregt,
um das Sprachsignal neu zu erzeugen. Die Tonhöhe kann beispielsweise durch
Verringern der Zeitspanne T zwischen den Impulsen um 1 % um 1 %
erhöht
werden.
-
Es
sollte festgehalten werden, dass das Sprachsignal auf andere Art
als durch eine Veränderung
der Tonhöhe
modifiziert werden kann. So können
beispielsweise Tonhöhe,
Amplitude, Frequenz und/oder Signalspektrum modifiziert werden.
Ein Teil des Signalspektrums bzw. das gesamte Spektrum kann gedämpft oder verstärkt werden.
-
Ebenso
können
andere Biosignale als ein die Impedanz zwischen zwei Punkten auf
der Haut eines Benutzers anzeigendes Signal überwacht werden. Auch Signale,
die eine autonome Aktivität
anzeigen, können
als Biosignale verwendet werden. Signale, die eine autonome Aktivität, wie den
Blutdruck, die Pulsgeschwindigkeit, die Gehirnwellen oder eine andere
elektrische Aktivität,
die Pupillengröße, die
Hauttemperatur, die Transparenz bzw. das Reflexionsvermögen bezüglich einer
bestimmten elektromagnetische Wellenlänge, anzeigen oder andere Signale,
die den Gemütszustand
des Benutzers anzeigen, können
verwendet werden.
-
18 zeigt Tonhöhenmodifikationskurven,
die ein Mikroprozessor 1784 verwendet, um den DSP 1786 anzuweisen,
die Tonhöhe des
Sprachsignals auf der Grundlage der dem Biosignal zugeordneten Zeitspanne
T zu verändern.
Die horizontale Achse 1802 zeigt die Zeitspanne T zwischen
den Rampen 1442 des Biosignals, und die vertikale Achse 1804 zeigt
den Prozentsatz der vom DSP 1786 vorgenommenen Veränderung
der Tonhöhe.
-
19 zeigt ein Ablaufdiagramm der vom Mikroprozessor 1784 zur
Herstellung der in 18 dargestellten Betriebskurve
ausgeführten
Befehle. Nach der Initialisierung wird ein Schritt 1930 ausgeführt, um
eine Linie herzustellen, die kolinear zur Achse 1802 ist.
Diese Linie zeigt an, dass für
sämtliche
Werte von T aus dem Biosignal eine Tonhöhenänderung von null vorgenommen
wird. Nach dem Schritt 1930 wird ein Entscheidungsschritt 1932 ausgeführt, in
dem der Mikroprozessor 1784 bestimmt, ob von der Tastatur 1414 bzw.
dem Tastenfeld 1439 ein Modifikationsbefehl empfangen wurde.
Wurde kein Modifikationsbefehl empfangen, wartet der Mikroprozessor 1784 in
einer Schleife auf einen Modifikationsbefehl. Wird ein Modifikationsbefehl
empfangen, wird ein Schritt 1934 ausgeführt, um den Wert von T = Tref1 zu bestimmen, der zur Einstellung eines
neuen Bezugspunkts Ref1 verwendet wird. Der Wert Tref1 entspricht
dem aus dem Biosignal erhaltenen aktuellen Wert von T. Der Wert
Tref1 kann beispielsweise 0,6 ms betragen.
Nach der Bestimmung des Werts Tref1 führt der
Mikroprozessor 1784 einen Schritt 1938 aus, in
dem der Benutzer aufgefordert wird, eine Äußerung vorzubringen, damit
in einem Schritt 1940 eine Tonhöhenprobe genommen werden kann.
Es ist wünschenswert,
eine Tonhöhenprobe
zu erhalten, da die Tonhöhenprobe
als Grundlage für
den Prozentsatz der entlang der Achse 1804 angezeigten Änderungen
der Tonhöhe
verwendet wird. In einem Schritt 1942 weist der Mikroprozessor 1784 den
DSP 1786 an, die Tonhöhe
des Sprachsignals um einen mit der aktuellen, dem Punkt Ref1 zugeordneten
Tonhöhenänderung
plus einer Erhöhung
um fünf Prozent übereinstimmenden
Betrag zu erhöhen;
es können
jedoch auch kleinere oder größere Erhöhungen verwendet
werden. (An diesem Punkt ist die dem Punkt Ref1 zugeordnete Tonhöhenänderung
null. S. Schritt 1930) In einem Schritt 1944 fordert
der Mikroprozessor 1784 den Benutzer zum Ausführen eines
Erkennungstests durch Sprechen mehrerer Befehle in das Spracherkennungssystem
auf, um zu bestimmen, ob eine akzeptable Erkennungsrate erzielt
wurde. Hat der Benutzer den Test abgeschlossen, kann der Benutzer
dem Mikroprozessor 1784 den Abschluss des Tests durch Eingeben
eines Befehls, wie „beenden", unter Verwendung
der Tastatur 1414 oder des Tastenfelds 1439 anzeigen.
-
Nach
der Ausführung
des Schritts 1944 führt
der Mikroprozessor 1784 einen Schritt 1946 aus,
in dem er den DSP 1786 anweist, die Tonhöhe des hereinkommenden
Sprachsignals um die dem Punkt Ref1 zugeordnete Tonhöhenänderung
minus einer Verringerung von fünf
Prozent zu verringern; es können
jedoch auch größere oder
kleinere Beträge
verwendet werden. (Es wird darauf hingewiesen, dass die dem Punkt
Ref1 zugeordnete Tonhöhenänderung
als Ergebnis des Schritts 1930 null ist.) In einem Schritt 1948 fordert
den Mikroprozessor 1784 den Benutzer auf, einen weiteren
Stimmerkennungstest auszuführen
und den Befehl „beenden" einzugeben, wenn
der Test abgeschlossen ist. In einem Schritt 1950 fordert
der Mikroprozessor 1784 den Benutzer zur Wahl des ersten
oder des zweiten Tests auf, um anzugeben, welcher Test eine überlegene
Erkennungsfähigkeit
aufwies. In einem Schritt 1952 werden die Ergebnisse der
Wahl des Benutzers zur Wahl zwischen den Schritten 1954 und 1956 verwendet.
Wurde der Test 1 als der beste ausgewählt, wird der Schritt 1956 ausgeführt, und
die neue, dem Punkt Ref1 zugeordnete Prozentsatzänderung wird auf einen mit
dem vorherigen Wert des Punkts Ref1 plus fünf Prozent bzw. der im Schritt 1942 verwendeten
Erhöhung übereinstimmenden
Wert eingestellt. Wird der Test 2 als der beste ausgewählt, wird
der Schritt 1954 ausgeführt,
und der neue, dem Punkt Ref1 zugeordnete Prozentsatzänderungswert
wird auf den alten Wert von Ref1 minus fünf Prozent bzw. die Verringerung
eingestellt, die im Schritt 1946 verwendet wurde. Durch
die Bestimmung einer T = Tref1 zugeordneten
Prozentsatzänderung
wird ein neuer Bezugspunkt Ref1 eingestellt. Wurde beispielsweise
der Test 1 als der beste ausgewählt,
wird der Punkt Ref1 am Punkt 1858 gemäß 18 angeordnet.
Nach dem Einstellen der Position des Punkts 1858, der der
neu eingestellte Punkt Ref1 ist, wird in einem Schritt 1962 die
Linie 1860 eingestellt. Die Linie 1860 ist die
anfängliche
Tonhöhenmodifikationslinie,
die zur Berechnung von Tonhöhenänderungen
für unterschiedliche
Werte von T aus dem Biosignal verwendet wird. Anfänglich kann
diese Linie eine Steigung von beispielsweise plus fünf Prozent
pro Millisekunde erhalten, es können
jedoch auch andere Steigungen verwendet werden.
-
Nach
der Einstellung dieser ursprünglichen
Modifikationslinie begibt sich der Mikroprozessor 1784 in eine
Warteschleife, in der die Schritte 1964 und 1966 ausgeführt werden.
Im Schritt 1964 prüft
der Mikroprozessor 1784 auf einen Modifikationsbefehl,
und im Schritt 1966 prüft
er auf einen Deaktivierungsbefehl. Wird im Schritt 1964 kein
Modifikationsbefehl empfangen, prüft der Prozessor im Schritt 1966 auf
einen Deaktivierungsbefehl. Wird kein Deaktivierungsbefehlempfangen,
kehrt der Mikroprozessor zum Schritt 1964 zurück, und
wenn ein Deaktivierungsbefehl empfangen wird, führt der Mikroprozessor einen
Schritt 1930 aus, der die Veränderung der Tonhöhe für sämtliche
Werte von T aus dem Biosignal auf null einstellt. Der Prozessor
bleibt in dieser Schleife, in der auf Modifikations- und Deaktivierungsbefehle
gewartet wird, bis der Benutzer mit der aus der Vorverarbeitung
des Sprachsignals unter Verwendung der Kurve 1860 resultierenden
Erkennungsrate unzufrieden wird.
-
Wenn
im Schritt 1964 ein Modifikationsbefehl empfangen wird,
wird ein Schritt 1968 ausgeführt. Im Schritt 1968 wird
der Wert von T bestimmt, um zu überprüfen, ob
der Wert von T mit dem Wert Tref1 des Punkts Ref1 übereinstimmt
oder nahezu übereinstimmt.
Wenn der Wert von T Ref1 entspricht, wird der Schritt 1942 ausgeführt. Entspricht
der Wert von T nicht Ref1, wird ein Schritt 1970 ausgeführt. Im
Schritt 1970 wird der Wert Tref2 für einen
neuen Bezugspunkt Ref2 eingestellt. Um ein veranschaulichendes Beispiel
zu geben, wird davon ausgegangen, dass Tref2 =
1,1 ms gilt. Gemäß 18 wird dadurch der Punkt Ref2 als Punkt 1872 auf der
Linie 1860 festgelegt. In einem Schritt 1974 weist
der Mikroprozessor 1784 den DSP 1786 an, die dem Punkt
Ref2 zugeordnete Tonhöhenänderung
um plus 2,5 Prozent zu erhöhen
(es können
auch andere Prozentzahlen verwendet werden). In einem Schritt 1976 wird
der Benutzer aufgefordert, einen Erkennungstest auszuführen und
nach Abschluss den Befehl „beenden" einzugeben. In einem
Schritt 1978 weist Mikroprozessor 1784 der den
DSP 1786 an, die Tonhöhe
des Sprachsignals um einen Betrag zu verringern, der der Ref2 zugeordneten
Tonhöhenänderung
minus 2,5 % entspricht. In einem Schritt 1980 wird der
Benutzer erneut aufgefordert, einen Erkennungstest auszuführen und
nach Abschluss den Befehl „beenden" einzugeben. In einem Schritt 1982 wird
der Benutzer aufgefordert, anzugeben, ob der erste oder der zweite
Test die erwünschtesten Ergebnisse
aufwies. In einem Schritt 1984 entscheidet der Mikroprozessor 1784,
den Schritt 1986 auszuführen,
wenn der Test 1 als der beste ausgewählt wurde, und einen Schritt 1988,
wenn der Test 2 als der beste ausgewählt wurde. Im Schritt 1986 stellt
der Mikroprozessor 1784 die Prozentzahl der dem Punkt Ref2
zugeordneten Veränderung
auf den vorherigen, Ref2 zugeordneten Wert plus 2,5 Prozent bzw.
der im Schritt 1974 verwendeten Erhöhung ein. Im Schritt 1988 wird
die Ref2 zugeordnete prozentuale Veränderung auf den vorherigen,
Ref2 zugeordneten Wert minus 2,5 Prozent bzw. der im Schritt 1978 verwendeten
Verringerung eingestellt. Nach Abschluss der Schritte 1986 bzw. 1988 wird
ein Schritt 1990 ausgeführt.
Im Schritt 1990 wird eine neue Tonhöhenmodifikationslinie festgelegt.
Die neue Linie verwendet den Ref1 zugeordneten Punkt und den neuen,
Ref2 zugeordneten Punkt. Wird beispielsweise davon ausgegangen,
dass der Benutzer im Schritt 1984 den Test 1 ausgewählt hat,
ist der neue, Ref2 zugeordnete Punkt gemäß 18 der
Punkt 1892. Die neue Tonhöhenumwandlungslinie ist nun
die Linie 1898, die die Punkte 1892 und 1858 schneidet.
Nach der Ausführung
des Schritts 1990 kehrt der Mikroprozessor 1784 zu
dem den Schritten 1964 und 1966 zugeordneten Schleifenvorgang
zurück.
-
Es
sollte festgehalten werden, dass eine lineare Modifikationslinie
verwendet wurde; es ist jedoch möglich,
nicht lineare Modifikationslinien zu verwenden. Dies kann durch
die Verwendung der Punkte 1858 und 196 zur Festlegung
einer Steigung einer Linie zur Rechten des Punkts 1858 und
durch die Verwendung eines anderen Bezugspunkts zur Linken des Punkts 1858 zur
Festlegung einer Steigung einer Linie erfolgen, die sich links von
dem Punkt 1858 erstreckt. Ebenso kann der maximale Prozentsatz
der Tonhöhenänderung
nach oben und unten begrenzt werden. Nähert sich die Tonhöhenmodifikationslinie
diesen Grenzen, kann die Annäherung
asymptotisch erfolgen oder sich einfach am Berührungspunkt mit der Grenze
abrupt ändern.
-
Ebenso
kann eine feste Modifikationskurve, wie die Kurve 1800,
verwendet und anschließend
der verstellbare Widerstand 1666 eingestellt werden, bis
eine akzeptable Erkennungsrate erreicht ist.
-
SPRACHNACHRICHTENERZEUGUNGSSYSTEM
-
20 zeigt eine Ausführungsform der vorliegenden
Erfindung, die Sprachnachrichten auf der Basis ihrer Gefühlsmerkmale
der verwaltet. In einem Arbeitsschritt 2000 werden mehrere über ein
Telekommunikationsnetz gesendete Nachrichten empfangen. In einem
Arbeitsschritt 2002 werden die Sprachnachrichten auf einem
Speichermedium, wie beispielsweise dem vorstehend erwähnten Bandaufnahmegerät oder einem
Festplattenlaufwerk, gespeichert. In einem Arbeitsschritt 2004 wird
eine den Stimmsignalen der Sprachnachrichten zugeordnete Emotion
bestimmt. Die Emotion kann durch jedes der vorstehend ausgeführten Verfahren
bestimmt werden.
-
Die
Sprachnachrichten werden in einem Arbeitsschritt 2006 auf
der Basis der bestimmten Gefühle
geordnet. So können
beispielsweise Nachrichten, bei denen die Stimme negative Emotionen,
beispielsweise Trauer, Zorn oder Furcht, anzeigt, zusammen auf einer
Mailbox und/oder in einer Datenbank gespeichert werden. Der Zugriff
auf die geordneten Sprachnachrichten wird in einem Arbeitsschritt 2008 gewährt.
-
Die
Sprachnachrichten können
einem Telefonanruf folgen. Wahlweise können Sprachnachrichten mit ähnlichen
Emotionen gemeinsam eingeordnet werden. Ebenso können die Sprachnachrichten
wahlweise unmittelbar beim Empfang über das Telekommunikationsnetz
in Echtzeit geordnet werden. Vorzugsweise wird die Art und Weise,
in der die Sprachnachrichten geordnet werden, identifiziert, um
den Zugriff auf die geordneten Sprachnachrichten zu erleichtern.
Ebenso wird die Emotion vorzugsweise durch Extrahieren mindestens eines
Merkmals aus den Stimmsignalen bestimmt, wie vorstehend besprochen.
-
Bei
einer beispielhaften Ausführungsform
eines erfindungsgemäßen Sprachnachrichtensystems
werden Tonhöhen-
und LPC-Parameter
(und normalerweise auch andere Erregungsinformationen) zum Senden und/oder
zur Speicherung codiert und zur Bereitstellung einer nahen Wiedergabe
des ursprünglichen
Spracheingangs decodiert.
-
Ausführungsformen
betreffen insbesondere lineare Vorhersagecodiersysteme (LPC-Systeme)
(sowie Verfahren) zum Analysieren und Codieren menschlicher Sprachsignale.
Bei der LPC-Repräsentation
wird (bei dem vereinfachten Modell) jede Probe in einer Folge von
Proben als lineare Kombination vorhergehender Proben plus einer
Erregungsfunktion abgebildet:
wobei u
k das
LPC-Restsignal ist. Dies bedeutet, dass u
k die
restlichen Informationen im eingegebenen Sprachsignal repräsentiert,
die nicht von dem LPC-Modell vorhergesagt werden. Es wird darauf
hingewiesen, dass nur N vorhergehende Signale für die Vorhersage verwendet
werden. Die Modellreihenfolge (typischerweise ca. 10) kann zum Erhalt
einer besseren Vorhersage vergrößert werden,
doch bei jeder normalen Sprachmodellanwendung verbleiben immer einige
Informationen im Restsignal u
k.
-
Im
allgemeinen Rahmen der LPC-Modellerstellung können viele besondere Implementierungen
einer Stimmanalyse ausgewählt
werden. Bei vielen von ihnen muss die Tonhöhe des eingegebenen Sprachsignal bestimmt
werden. Dies bedeutet, dass die menschliche Stimme zusätzlich zu
den Formantenfrequenzen, die tatsächlich den Resonanzen des Stimmapparats
entsprechen, auch eine vom Sprechenden modulierte Tonhöhe enthält, die
der Frequenz entspricht, mit der der Kehlkopf den Luftstrom moduliert.
Dies bedeutet, dass die menschliche Stimme als eine Anregungsfunktion
betrachtet werden kann, die an ein passives akustisches Filter angelegt
wird, und dass die Anregungsfunktion im Allgemeinen in der LPC-Restfunktion
erscheint, während
die Charakteristika des passiven akustischen Filters (d.h. die Resonanzcharakteristika
des Mundes, der Nasenhöhle,
der Brust, etc.) von den LPC-Parametern geformt werden. Es wird
darauf hingewiesen, dass die Anregungsfunktion bei einem stimmlosen
Sprechen keine klar definierte Tonhöhe aufweist, sondern stattdessen
am besten durch weißes
Breitbandrauschen oder rosa Rauschen dargestellt wird.
-
Eine
Schätzung
der Tonhöhenperiode
ist nicht vollständig
trivial. Eines der Probleme ist die Tatsache, dass der erste Formant
häufig
eine Frequenz aufweist, die nahe bei der der Tonhöhe liegt.
Aus diesem Grund erfolgt die Schätzung
der Tonhöhe
häufig
anhand des LPC-Restsignals, da der LPC-Schätzprozess anhand der Anregungsfunktion
tatsächlich
Resonanzen des Stimmtrakts entfaltet, so dass das Restsignal relativ
weniger der Resonanzen des Stimmtrakts (der Formanten) und relativ
mehr der Anregungsinformationen (der Tonhöhe) enthält. Eine derartige auf dem
Rest basierende Techniken zur Einschätzung der Tonhöhe bergen jedoch
ihre eigenen Schwierigkeiten. Das LPC-Modell selbst fügt normalerweise
selbst ein Hochfrequenzrauschen in das Restsignal ein, und Teile
dieses Hochfrequenzrauschens können
eine höhere
spektrale Dichte als die tatsächliche
Tonhöhe
aufweisen, die erfasst werden sollte. Eine Lösung für dieses Problem ist einfach eine
Tiefpassfilterung des Restsignals mit ca.
-
1.000
Hz. Dadurch wird das Hochfrequenzrauschen entfernt, aber auch die
legitime Hochfrequenzenergie, die in den stimmlosen Bereichen der
Sprache vorhanden ist, wodurch das Restsignal für die Stimme betreffende Bestimmungen
praktisch unbrauchbar wird.
-
Ein
Hauptkriterium für
Sprachnachrichtenanwendungen ist die Qualität der wiedergegebenen Sprache.
Bei Systemen gemäß dem Stand
der Technik traten in dieser Hinsicht viele Schwierigkeiten auf.
Insbesondere betreffen viele dieser Schwierigkeiten Probleme hinsichtlich
der Genauigkeit der Erfassung der Tonhöhe und der Stimmhaftigkeit
des eingegebenen Sprachsignals.
-
Es
ist typischerweise sehr leicht, die Tonhöhenperiode falsch einzuschätzen, und
zwar auf das Doppelte oder die Hälfte
ihres Werts. Werden beispielsweise Korrelationsverfahren verwendet,
garantiert eine gute Korrelation in einer Periode P eine gute Korrelation
in einer Periode von 2P, und es bedeutet auch, dass eine höhere Wahrscheinlichkeit
besteht, dass das Signal bei einer Periode von P/2 eine gute Korrelation
zeigt. Derartige Verdoppelungs- und Halbierungsfehler verursachen
jedoch eine stark störende
Verschlechterung der Stimmqualität.
Bei einer fehlerhaften Halbierung der Tonhöhenperiode besteht beispielsweise
eine Tendenz zur Erzeugung einer quietschenden Stimme, und bei einer
fehlerhaften Verdoppelung der Tonhöhenperiode besteht eine Tendenz
zur Erzeugung einer rauen Stimme. Überdies ist ein periodisches
Auftreten einer Verdoppelung bzw. Halbierung der Tonhöhenperiode
wahrscheinlich, so dass die synthetisierte Stimme dazu tendiert,
periodisch zu knacken und zu schnarren.
-
Bei
dem System kann ein adaptives Filter zum Filtern des Restsignals
verwendet werden. Durch die Verwendung eines zeitabhängigen Filters
mit einem einzigen Pol beim ersten Reflektionskoeffizien ten (k1 des Spracheingangs) wird das Hochfrequenzrauschen
aus den stimmhaften Perioden der Sprache entfernt, die Hochfrequenzinformationen
in den stimmlosen Sprachperioden bleiben jedoch erhalten. Das adaptiv
gefilterte Restsignal wird dann als Eingang für die Bestimmung der Tonhöhe verwendet.
-
Es
ist erforderlich, die Hochfrequenzinformationen in den stimmlosen
Sprachperioden zu erhalten, um eine bessere Feststellung von Stimmhaftigkeit
und Stimmlosigkeit zu ermöglichen.
Dies bedeutet, dass die Feststellung einer „stimmlosen" Äußerung normalerweise erfolgt,
wenn keine starke Tonhöhe
festgestellt wird, d.h. wenn keine Korrelationsverzögerung des
Restsignals einen hohen normalisierten Korrelationswert ergibt. Wird
jedoch nur ein tiefpassgefilterter Teil des Restsignals während stimmloser
Sprachperioden überprüft, kann
dieses Teilsegment des Restsignals störende Korrelationen enthalten.
Dies bedeutet, dass die Gefahr besteht, dass das von dem festen
Tiefpassfilter gemäß dem Stand
der Technik erzeugte, abgeschnittene Restsignal nicht genügend Daten
für einen
zuverlässigen
Nachweis enthält,
dass während
stimmloser Perioden keine Korrelation vorliegt, und dass die von
der Hochfrequenzenergie stimmloser Perioden gelieferte zusätzliche
Bandbreite zum zuverlässigen
Ausschließen
der störenden
Korrelationsverzögerungen
erforderlich ist, die anderenfalls auftreten könnten.
-
Eine
Verbesserung der Bestimmung von Tonhöhe und Stimmhaftigkeit ist
bei Stimmnachrichtenvermittlungssystemen besonders wichtig, bei
anderen Anwendungen jedoch ebenfalls wünschenswert. Eine Worterkennungsvorrichtung,
die Tonhöheninformationen
nutzt, würde
natürliche
eine gute Tonhöhenschätzprozedur
erfordern. Ähnlich
werden Tonhöheninformationen
gelegentlich zur Sprecherverifikation verwendet, insbesondere über eine
Telefonleitung, bei der ins besondere Hochfrequenzinformationen teilweise
verloren gehen. Überdies
wäre in
der langfristigen Zukunft bei Erkennungssystemen die Fähigkeit
begrüßenswert,
die syntaktischen Informationen zu berücksichtigen, die durch die
Tonhöhe
vermittelt werden. Ähnlich
wäre bei
einigen fortschrittlichen Spracherkennungssystemen, beispielsweise
bei Systemen zur Übertragung
von Sprache in Text, eine gute Analyse der Stimmhaftigkeit wünschenswert.
-
Der
erste Reflektionskoeffizient k1 betrifft
in etwa das Verhältnis
zwischen hohen und niedrigen Frequenzen und einem Signal, siehe
R.J. McAulay, „Design
of a Robust Maxium Likelihood Pitch Estimator for Speech and Additive
Noise", Technical
Note, 1979–28,
Lincoln Labs, 11. Juni 1979, das durch Bezugnahme hierin aufgenommen
ist. Liegt k1 nahe bei –1, befindet sich mehr niederfrequente
als hochfrequente Energie in dem Signal; und das Gegenteil gilt
für einen
nahe bei 1 liegenden Wert von k1. Daher
wird durch die Verwendung von k1 zur Bestimmung
des Pols eines einpoligen Rückentzerrungsfilters
das Restsignal in den stimmhaften Sprachperioden tiefpassgefiltert
und in den stimmlosen Sprachperioden hochpassgefiltert. Dies bedeutet,
dass die Formantenfrequenzen während
der stimmhaften Perioden aus der Berechnung der Tonhöhe ausgeschlossen
werden, während
die benötigten
Informationen mit hoher Bandbreite in den stimmlosen Perioden zur
genauen Erfassung der Tatsache gehalten werden, dass keine Tonhöhenkorrelation
vorliegt.
-
Vorzugsweise
wird eine dynamische Nachverarbeitungsprogrammiertechnik verwendet,
um nicht nur einen optimalen Tonhöhenwert, sondern auch eine
optimale Stimmhaftigkeitsbestimmung zu erhalten. Dies bedeutet,
dass sowohl die Tonhöhe
als auch die Stimmhaftigkeit von Rahmen zu Rahmen verfolgt werden
und dass eine kumulativer Abzug für eine Folge von Rahmen betreffenden
Ent scheidungen hinsichtlich der Tonhöhe und der Stimmhaftigkeit
für unterschiedliche
Spuren summiert wird, um die Spur zu finden, die die optimalen Entscheidungen
bezüglich
der Tonhöhe
und der Stimmhaftigkeit gewährleistet.
Der summierte Abzug wird unter der Annahme erhalten, dass ein Rahmenfehler
von einem Rahmen an den nächsten übertragen
wird. Der Rahmenfehler belegt vorzugsweise nicht nur die großen Abweichungen
der Tonhöhenperiode
von Rahmen zu Rahmen mit einem Abzug, sondern auch die Tonhöhenhypothesen,
die einen verhältnismäßig mäßigen „Korrelationsgütewert" aufweisen, und ebenso
Veränderungen
der Bestimmung der Stimmhaftigkeit, wenn das Spektrum von Rahmen
zu Rahmen relativ unverändert
bleibt. Dieses letzte Merkmal des Rahmenübergangsfehlers zwingt daher
Stimmhaftigkeitsübergänge zu den
Punkten der maximalen spektralen Veränderung.
-
Das
Stimmnachrichtenvermittlungssystem umfasst ein als zeitliche Abfolge
si dargestelltes Spracheingangssignal, das
einem LPC-Analyseblock
zugeführt
wird. Die LPC-Analyse kann mittels einer breiten Vielfalt herkömmlicher
Techniken erfolgen, das Endprodukt sind jedoch ein Satz LPC-Parameter
und ein Restsignal ui. Der allgemeine Hintergrund
zur LPC-Analyse sowie unterschiedliche Verfahren zur Extraktion
von LPC-Parametern sind in zahlreichen, allgemein bekannten Quellen
zu finden, einschließlich
Markel und Gray, Linear Prediction of Speech (1976) und
Rabiner und Schafer, Digital Processing of Speech Signals (1978)
sowie den hierin angegebenen Quellen, die alle durch Bezugnahme
hierin aufgenommen sind.
-
Bei
der gegenwärtig
bevorzugten Ausführungsform
wird die analoge Sprachschwingungsform mit einer Frequenz von 8
kHz und einer Präzision
von 16 Bit abgetastet, um die Eingangszeitfolge si zu
erzeugen. Selbstverständlich
hängt die
vorliegende Erfindung in kei ner Weise von der Abtastgeschwindigkeit
oder der verwendeten Präzision
ab und ist auf mit jeder beliebigen Geschwindigkeit und mit jedem
beliebigen Grad an Präzision
abgetastete Sprache anwendbar.
-
Bei
der gegenwärtig
bevorzugten Ausführungsform
umfasst der verwendete Satz von LPC-Parametern mehrere Reflektionskoeffizienten
ki, und es wird ein LPC-Modell 10. Ordnung
verwendet (d.h. nur die Reflektionskoeffizienten k1 bis
k10 werden extrahiert, während Koeffizienten höherer Ordnung
nicht extrahiert werden). Es können
jedoch auch Modelle anderer Ordnungen oder äquivalente Sätze von
LPC-Parametern verwendet werden, wie Fachleuten allgemein bekannt.
So können
beispielsweise LPC-Vorhersagekoeffizienten ak oder
Impulsreaktionsschätzungen
ek verwendet werden. Die Reflektionskoeffizienten
kt sind jedoch am zweckmäßigsten.
-
Bei
der gegenwärtig
bevorzugten Ausführungsform
werden die Reflektionskoeffizienten gemäß der Leroux-Gueguen-Prozedur
extrahiert, die beispielsweise in IEEE Transactions on Acoustics,
Speech and Signal Processing, S. 257 (Juni 1977) aufgeführt ist.
-
Es
können
jedoch auch andere, Fachleuten bekannte Algorithmen, wie der nach
Durbin, zur Berechnung der Koeffizienten verwendet werden.
-
Ein
weiteres Nebenprodukt der Berechnung der LPC-Parameter ist typischerweise
ein Restsignal uk. Werden die Parameter
jedoch mittels eines Verfahrens berechnet, bei dem uk nicht
automatisch als Nebenprodukt auftaucht, kann der Rest durch einfaches
Verwenden der LPC-Parameter zur Konfiguration eines digitalen Filters
für die
Empfindlichkeit für
finite Impulse gefunden werden, das die restliche Folge uk anhand der eingegebenen Folge sk berechnet.
-
Die
Restsignalzeitfolge uk wird nun einem sehr
einfachen digitalen Filterungsvorgang unterzogen, der von den LPC-Parametern
für den
aktuellen Rahmen abhängt.
Dies bedeutet, dass das Spracheingangssignal sk eine
zeitliche Abfolge ist, die einen Wert aufweist, der sich bei jeder
einzelnen Abtastung mit einer Abtastrate von beispielsweise 8 kHz ändern kann.
Die LPC-Parameter werden jedoch im Allgemeinen nur einmal pro Rahmendauer
mit einer Rahmenfrequenz von beispielsweise 100 Hz neu berechnet.
Das Restsignal uk weist ebenfalls eine Periode
auf, die mit der Abtastperiode übereinstimmt.
Daher wird das digitale Filter, dessen Wert von den LPC-Parametern
abhängt,
vorzugsweise nicht bei jedem Restsignal uk neu
eingestellt. Bei der gegenwärtig
bevorzugten Ausführungsform
durchlaufen ca. 80 Werte der zeitlichen Abfolge uk des
Restsignals das Filter 14, bevor ein neuer Wert für die LPC-Parameter
erzeugt und daher ein neues Charakteristikum des Filters 14 implementiert
wird.
-
Genauer
wird der erste Reflektionskoeffizient k
1 aus
dem vom LPC-Analyseabschnitt 12 gelieferten LPC-Parametern extrahiert.
Wenn die LPC-Parameter selbst die Reflektionskoeffizienten k
1 sind, ist es lediglich erforderlich, den
ersten Reflektionskoeffizienten k
1 abzurufen.
Werden jedoch andere LPC-Parameter verwendet, ist die Umwandlung
der Parameter zur Erzeugung des Reflektionskoeffizienten erster
Ordnung typischerweise extrem einfach, beispielsweise:
-
Obwohl
die Ausführungsform
den ersten Reflektionskoeffizienten zum Definieren eines einpoligen
adaptiven Filters verwendet, muss das Filter nicht einpolig sein,
sondern kann als komplexeres Filter mit einem oder mehreren Polen
und einer oder mehreren Nullen konfiguriert sein, von denen einige
oder alle erfindungsgemäß adaptiv
variiert werden können.
-
Es
sollte auch festgehalten werden, dass die adaptiven Filtercharakteristika
nicht vom ersten Reflektionskoeffizient k1 bestimmt
werden müssen.
Wie in der Technik allgemein bekannt, existieren zahlreiche äquivalente
Sätze von
LPC-Parametern, und die Parameter in anderen LPC-Parametersätzen können ebenfalls wünschenswerte
Filtercharakteristika aufweisen. Genauer ist es bei jedem Satz von
LPC-Parametern am wahrscheinlichsten, dass die Parameter niedrigster
Ordnung Informationen über
die Gesamtspektralform liefern. Daher könnte ein erfindungsgemäßes adaptives
Filter a1 oder e1 zum
Definieren eines Pols verwenden, ein- oder mehrpolig sein und einzeln
oder in Kombination mit anderen Nullen oder Polen verwendet werden. Überdies
muss der von einem LPC-Parameter adaptiv definierte Pol (bzw. die
Null) nicht genau mit dem Parameter übereinstimmen, wie bei der
gegenwärtig
bevorzugten Ausführungsform,
sondern seine Größe oder Phase
können
verschoben sein.
-
Daher
filtert das einpolige adaptive Filter die Restsignalzeitfolge uk, um eine gefilterte Zeitfolge u'k zu erzeugen.
Wie vorstehend besprochen, wird die Hochfrequenzenergie der gefilterten
Zeitfolge u'k während
der stimmhaften Sprachanteile stark verringert, behält jedoch
während
der stimmlosen Sprachanteile beinahe die volle Frequenzbandbreite
bei. Das gefilterte Restsignal u'k wird dann einer weiteren Verarbeitung unterzogen, um
die möglichen
Tonhöhen
und die Feststellung der Stimmhaftigkeit zu extrahieren.
-
Es
existiert eine breite Vielfalt an Verfahren zur Extraktion von Tonhöheninformationen
aus einem Restsignal, und jedes von ihnen kann verwendet werden.
Viele von ihnen sind in dem durch Bezugnahme hierin aufgenommenen
Buch von Markel und Gray allgemein besprochen.
-
Bei
der gegenwärtig
bevorzugten Ausführungsform
werden die möglichen
Tonhöhenwerte
durch Finden der Spitzen in der wie folgt definierten, normalisierten
Korrelationsfunktion des gefilterten Restsignals ermittelt:
wobei u'j das gefilterte Restsignal ist, k
min und k
max die
Grenzen für
die Korrelationsverzögerung
k definieren und m die Anzahl der Proben in einer Rahmenperiode
(bei der bevorzugten Ausführungsform
80) ist und daher die Anzahl der zu korrelierenden Proben definiert.
Die möglichen
Tonhöhenwerte
werden durch die Verzögerungen
k* definiert, wobei der Wert C(k*) ein lokales Maximum bildet und
der Skalenwert C(k) zur Definition des „Gütewerts" für
jeden möglichen
Wert k* verwendet wird.
-
Wahlweise
wird ein Schwellenwert Cmin in die Gütemessung
C(k) einbezogen, und die lokalen Maxima von C(k), die den Schwellenwert
Cmin nicht übersteigen, werden ignoriert.
Existiert kein Wert k*, bei dem C(k*) größer als Cmin ist,
ist der Rahmen notwendiger Weise stimmlos.
-
Alternativ
kann auf den Güteschwellenwert
Cmin verzichtet werden, und die normalisierte
Autokorrelationsfunktion 1112 kann einfach so gesteuert
werden, dass sie eine gegebene Anzahl an Möglichkeiten mit den besten
Gütewerten
meldet, beispielsweise 16 mögliche
Tonhöhenperioden
k mit den größten Werten
von C(k).
-
Bei
einer Ausführungsform
wird überhaupt
kein Schwellenwert in den Gütewert
C(k) einbezogen, und es erfolgt in diesem Stadium keine Entscheidung
hinsichtlich der Stimmhaftigkeit. Statt dessen werden die 16 möglichen
Tonhöhenperioden
k*1, k*2, etc. zusammen
mit dem entsprechenden Gütewert
(C(k*i)) für jede von ihnen gemeldet.
Bei der gegenwärtig
bevorzugten Ausführungsform
erfolgt die Feststellung der Stimmhaftigkeit selbst dann nicht in
diesem Stadium, wenn sämtliche
Werte von C(k) extrem niedrig sind, sondern die Feststellung der
Stimmhaftigkeit erfolgt in dem nachstehend beschriebenen, nachfolgenden,
dynamischen Programmierschritt.
-
Bei
der gegenwärtig
bevorzugten Ausführungsform
wird entsprechend einem Spitzensuchalgorithmus eine veränderliche
Anzahl an möglichen
Tonhöhen
identifiziert. Dies bedeutet, dass der Graph der „Gütewerte" C(k) bezogen auf
die mögliche
Tonhöhenperiode
k verfolgt wird. Jedes lokale Maximum wird als mögliche Spitze identifiziert.
Das Vorhandensein einer Spitze bei diesem identifizierten lokalen
Maximum wird jedoch nicht bestätigt,
bis die Funktion anschließend
um einen konstanten Betrag gefallen ist. Das bestätigte lokale
Maximum bildet dann eine der möglichen
Tonhöhenperioden.
Nach der Identifikation jeder möglichen
Spitze auf diese Weise sucht der Algorithmus dann nach einem Tal.
Dies bedeutet, dass jedes lokale Minimum als mögliches Tal identifiziert,
jedoch nicht bestätigt
wird, bis die Funktion anschließend
um einen vorgegebenen konstanten Wert angestiegen ist. Die Täler werden
nicht separat gemeldet, doch es ist ein auf eine bestätigte Spitze
folgendes bestätigtes
Tal erforderlich, bevor eine neue Spitze identifiziert wird. Bei
der gegenwärtig
bevorzugten Ausführungsform,
bei der die Gütewerte
so definiert sind, dass sie durch + 1 bzw. –1 begrenzt werden, wurde der
zur Bestätigung
einer Spitze oder eines Tals erforderliche konstante Wert auf 0,2
eingestellt, doch dies kann erheblich variiert werden. Daher liefert
diese Stufe eine veränderliche
Anzahl von null bis 15 möglichen
Tonhöhen
als Ausgang.
-
Bei
der gegenwärtig
bevorzugten Ausführungsform
wird der in den vorhergehenden Schritten gelieferte Satz von möglichen
Tonhöhenperioden
dann einem dynamischen Programmieralgorithmus zugeführt. Dieser
dynamische Programmieralgorithmus verfolgt sowohl Bestimmungen der
Tonhöhe
als auch der Stimmhaftigkeit, um für jeden Rahmen eine Bestimmung
von Tonhöhe
und Stimmhaftigkeit zu liefern, die im Kontext mit ihren Nachbarn
optimal ist.
-
Sind
die möglichen
Tonhöhenwerte
und ihre Gütewerte
C(k) gegeben, wird nun eine dynamische Programmierung verwendet,
um eine optimale Tonhöhenkontur
zu erhalten, die eine optimale Stimmhaftigkeitsbestimmung für jeden
Rahmen einschließt.
Die dynamische Programmierung erfordert, dass mehrere Sprachrahmen
in einem Sprachsegment analysiert werden müssen, bevor die Tonhöhe und die
Stimmhaftigkeit für den
ersten Rahmen des Segments bestimmt werden können. Für jeden Rahmen des Sprachsegments
wird jede mögliche
Tonhöhe
mit den gehaltenen möglichen
Tonhöhen
aus dem vorhergehenden Rahmen verglichen. Jede gehaltene mögliche Tonhöhe aus dem
vorhergehenden Rahmen bringt einen kumulativen Abzug mit sich, und
jeder Vergleich zwischen jeder neuen möglichen Tonhöhe und jeder
gehaltenen möglichen
Tonhöhe
umfasst auch eine neue Distanzmessung. Daher existiert für jede mögliche Tonhöhe im neuen
Rahmen ein kleinster Abzug, der die beste Übereinstimmung mit einer der
gehaltenen möglichen
Tonhöhen
des vorherigen Rahmens repräsentiert.
Wenn der kleinste kumulative Abzug für jede neue Möglichkeit
berechnet wurde, wird die Möglichkeit
zusammen mit ihrem kumulativen Abzug und einem rückwärtsgerichteten Zeiger auf die beste Übereinstimmung
im vorherigen Rahmen gehalten. Dadurch definieren die rückwärtsgerichteten
Zeiger eine Bahnkurve mit einem kumulativen Abzug, wie im kumulativen
Abzugswert des letzten Rahmens in der Vorausplanungsrate aufgelistet.
Die optimale Bahnkurve für
jeden gegebenen Rahmen wird durch Wählen der Bahnkurve mit dem
minimalen kumulativen Abzug ermittelt. Der stimmlose Zustand wird
als mögliche
Tonhöhe in
jedem Rahmen definiert. Die Straffunktion umfasst vorzugsweise Stimmhaftigkeitsinformationen,
so dass die Stimmhaftigkeitsbestimmung ein natürliches Ergebnis der dynamischen
Programmierstrategie ist.
-
Bei
der gegenwärtig
bevorzugten Ausführungsform
ist die dynamische Programmierstrategie 16 breit und 6 tief. Dies
bedeutet, dass 15 (oder weniger) Möglichkeiten plus die Bestimmung „stimmlos" (die zweckmäßiger Weise
als Tonhöhenperiode
von null festgelegt wird) in jedem Rahmen als mögliche Tonhöhenperioden identifiziert werden
und dass sämtliche
16 Möglichkeiten
zusammen mit ihren Gütewerten über die
sechs vorhergehenden Rahmen gehalten werden.
-
Die
Bestimmungen von Tonhöhe
und Stimmhaftigkeit erfolgen nur für den ältesten im dynamischen Programmieralgorithmus
enthaltenen Rahmen endgültig.
Dies bedeutet, dass die Bestimmung von Tonhöhe und Stimmhaftigkeit die
mögliche
Tonhöhe
im Rahmen FK – 5 akzeptiert, deren gegenwärtige Bahnkurvenkosten
minimal waren. Dies bedeutet, dass von den 16 (oder weniger) Bahnkurven,
die am jüngsten
Rahmen FK enden, die mögliche Tonhöhe im Rahmen FK,
die die geringsten kumulativen Bahnkurvenkosten aufweist, die optimale
Bahnkurve identifiziert. Die optimale Bahnkurve wird dann zurückverfolgt
und zur Bestimmung von Tonhöhe
und Stimmhaftigkeit für
den Rahmen FK – 5 verwendet. Es wird darauf
hingewiesen, dass für
die nachfolgenden Rahmen (FK – 4, etc.)
keine endgültige
Bestimmung der möglichen
Tonhöhe
erfolgt, da die optimale Bahnkurve nach der Bewertung von mehr Rahmen
nicht mehr optimal erscheinen muss. Selbstverständlich ist Fachleuten auf dem
Gebiet der numerischen Optimierung allgemein bekannt, dass eine
endgültige
Bestimmung bei einem derartigen dynamischen Programmieralgorithmus
zu anderen Zeitpunkten erfolgen kann, beispielsweise beim vorletzten
im Puffer gehaltenen Rahmen. Zudem können die Breite und Tiefe des Puffers
erheblich variiert werden. Wie für
Fachleute erkennbar, könnten
beispielsweise bis zu 64 mögliche
Tonhöhen
oder nur zwei bewertet werden, der Puffer kann nur einen vorhergehenden
Rahmen oder bis zu 16 vorhergehende Rahmen halten, und weitere Modifikationen
und Variationen können
eingerichtet werden. Der dynamische Programmieralgorithmus wird
von dem Übergangsfehler
zwischen einer möglichen
Tonhöhenperiode
in einem Rahmen und einer möglichen
Tonhöhenperiode
in dem darauf folgenden Rahmen definiert. Bei der gegenwärtig bevorzugten
Ausführungsform
wird dieser Übergangsfehler
als die Summe aus drei Teilen definiert: einem Fehler Ep aufgrund
von Tonhöhenabweichungen,
einem Fehler Es aufgrund von möglichen
Tonhöhen
mit einem niedrigen „Gütewert" und einem Fehler
Et aufgrund eines Stimmhaftigkeitsübergangs.
-
Der
Tonhöhenabweichungsfehler
E
p ist eine Funktion der aktuellen Tonhöhenperiode
und der vorhergehenden Tonhöhenperiode
und durch
gegeben, wenn beide Rahmen
stimmhaft sind und E
P = B
P·D
N gilt, anderenfalls, wenn tau die mögliche Tonhöhenperiode
des aktuellen Rahmens ist, ist tau
p eine
gehaltene Tonhöhenperiode
des vorherge henden Rahmens, in Bezug auf die der Übergangsfehler
berechnet wird, und B
P, A
D und
D
N sind Konstanten. Es wird darauf hingewiesen,
dass die Minimumfunktion Vorkehrungen für eine Tonhöhenperiodenverdoppelung und
eine Tonhöhenperiodenhalbierung
enthält.
Diese Vorkehrungen sind bei der vorliegenden Erfindung streng genommen nicht
erforderlich, werden jedoch für
vorteilhaft gehalten. Selbstverständlich könnten wahlweise ähnliche
Vorkehrungen für
eine Tonhöhenperiodenverdreifachung,
etc. getroffen werden.
-
Der
Stimmhaftigkeitszustandsfehler Es ist eine Funktion des „Gütewerts" C(k) der betrachteten
möglichen
Tonhöhe
des aktuellen Rahmens. Bei einer stimmlosen Möglichkeit, die stets in den
16 oder weniger für jeden
Rahmen zu untersuchenden möglichen
Tonhöhenperioden
enthalten ist, wird der Gütewert
C(k) auf das Maximum von C(k) für
sämtliche
anderen 15 möglichen
Tonhöhenperioden
im gleichen Rahmen eingestellt. Der Stimmhaftigkeitszustandsfehler
Es ist durch Es = BS (RV – C(tau))
gegeben, wenn die aktuelle Möglichkeit stimmhaft
ist, und anderenfalls durch ES = BS(C(tau) – RU),
wobei C(tau) der der aktuellen möglichten
Tonhöhe tau
entsprechende „Gütewert" ist und BS, RV und RU Konstanten sind.
-
Der
Stimmhaftigkeitsübergangsfehler
Er ist in Begriffen einer Spektraldifferenzmessung T definiert. Die
Spektraldifferenzmessung T definiert für jeden Rahmen allgemein, wie
unterschiedlich sein Spektrum in Bezug auf das Spektrum des Empfangsrahmens
ist. Offensichtlich kann eine Reihe von Definitionen für eine derartige
Spektraldifferenzmessung verwendet werden, die bei der gegenwärtig bevorzugten
Ausführungsform wie
folgt definiert ist:
wobei E die RMS-Energie des
aktuellen Rahmens, E
P die Energie des vorhergehenden
Rahmens, L(N) das N-te log-Bereichsverhältnis des aktuellen Rahmens
und L
P(N) das N-te log-Bereichsverhältnis des
vorhergehenden Rahmens ist. Das log-Bereichsverhältnis L(N) wird anhand des
N-ten Reflektionskoeffizienten k
N wie folgt
direkt berechnet:
-
Der
Stimmhaftigkeitsübergangsfehler
Er wird dann als Funktion der Spektraldifferenzmessung T wie folgt
definiert: Wenn sowohl der aktuelle als auch der vorhergehende Rahmen
stimmlos sind bzw. wenn beide stimmhaft sind, wird Er auf 0 eingestellt;
anderenfalls gilt ET = GT +
AT/T, wobei T die Spektraldifferenzmessung des
aktuellen Rahmens ist. Erneut könnte
die Definition des Stimmhaftigkeitsübergangsfehlers erheblich variiert
werden. Das Kernmerkmal des Stimmhaftigkeitsübergangsfehlers, wie er hier
definiert ist, ist, dass, wann immer eine Veränderung des Stimmhaftigkeitszustands
(von stimmhaft zu stimmlos bzw. von stimmlos zu stimmhaft) auftritt,
ein Abzug bewertet wird, der eine abnehmende Funktion der spektralen
Differenz zwischen den beiden Rahmen ist. Dies bedeutet, dass eine
Veränderung
des Stimmhaftigkeitszustands hintangesetzt wird, wenn nicht auch
eine signifikante spektrale Veränderung
auftritt.
-
Eine
derartige Definition eines Stimmhaftigkeitsübergangsfehlers bietet bei
der vorliegenden Erfindung erhebliche Vorteile, da dadurch die zum
Erhalt ausgezeichneter Stimmhaftigkeitszustandsbestimmungen erforderliche
Verarbeitungszeit verringert wird.
-
Die übrigen Fehler
ES und EP, die bei
der gegenwärtig
bevorzugten Ausführungsform
den Übergangsfehler
ausmachen, können
e benfalls verschieden definiert werden. Dies bedeutet, dass der
Stimmhaftigkeitszustandsfehler auf jede Art und Weise definiert
werden kann, die allgemein Tonhöhenperiodenhypothesen,
die zu den Daten im aktuellen Rahmen zu passen scheinen, gegenüber denen
bevorzugt, die weniger gut zu den Daten passen. Ähnlich kann der Tonhöhenabweichungsfehler
EP auf jede Art und Weise definiert werden,
die allgemein Änderungen
der Tonhöhenperiode
entspricht. Der Tonhöhenabweichungsfehler
muss keine Vorkehrungen für
eine Verdoppelung oder Halbierung enthalten, wie hier ausgeführt, obwohl
derartige Vorkehrungen wünschenswert
sind.
-
Ein
weiteres wahlweise vorgesehenes Merkmal der Erfindung ist, dass
es, wenn der Tonhöhenabweichungsfehler
Vorkehrungen enthält,
die Tonhöhe über Verdoppelungen
und Halbierungen zu verfolgen, wünschenswert
sein kann, die Tonhöhenperiodenwerte
nach der Identifikation der optimalen Bahnkurve entlang der optimalen
Bahnkurve zu verdoppeln (bzw. zu halbieren), um sie so weit wie
möglich
konsistent zu halten.
-
Es
sollte auch festgehalten werden, dass es nicht erforderlich ist,
alle drei identifizierten Komponenten des Übergangsfehlers zu verwenden.
Auf den Stimmhaftigkeitszustandsfehler kann beispielsweise verzichtet werden,
wenn eine vorangehende Stufe Tonhöhenhypothesen mit niedrigem „Gütewert" aussondern würde oder
wenn die Tonhöhenperioden
auf irgendeine Weise einer Rangordnung entsprechend so nach dem „Gütewert" geordnet würden, dass
die Tonhöhenperioden
mit höherem
Gütewert
vorgezogen würden,
oder durch andere Mittel. Ähnlich
können,
wenn gewünscht,
weitere Komponenten in die Definition des Übergangsfehlers einbezogen
werden.
-
Es
sollte auch festgehalten werden, dass das von der vorliegenden Erfindung
gelehrte, dynamische Programmierverfahren nicht notwendigerweise
auf aus einem adaptiv gefilterten Restsignal extrahierte, mögliche Tonhöhenperioden
angewendet werden muss, nicht einmal auf mögliche Tonhöhenperioden, die aus dem LPC-Restsignal
abgeleitet wurden, sondern dass es auf jeden Satz möglicher
Tonhöhenperioden
angewendet werden kann, einschließlich direkt aus dem ursprünglich eingegebenen
Sprachsignal extrahierter, möglicher Tonhöhenperioden.
-
Die
drei Fehler werden dann summiert, um den Gesamtfehler zwischen einer
der möglichen
Tonhöhen im
aktuellen Rahmen und einer möglichen
Tonhöhe
im vorangegangenen Rahmen zu ermitteln. Wie vorstehend ausgeführt, werden
diese Übergangsfehler
dann kumulativ summiert, um kumulative Abzüge für jede Bahnkurve in dem dynamischen
Programmieralgorithmus zu erhalten.
-
Dieses
dynamische Programmierverfahren zum gleichzeitigen Feststellen sowohl
der Tonhöhe
als auch der Stimmhaftigkeit ist in sich selbst neuartig und muss
nicht nur in Kombination mit dem gegenwärtig bevorzugten Verfahren
zum Feststellen der möglichen
Tonhöhenperioden
verwendet werden. Jedes Verfahren zum Feststellen möglicher
Tonhöhenperioden
kann in Kombination mit diesem neuartigen, dynamischen Programmieralgorithmus
verwendet werden. Unabhängig
davon, welches Verfahren zum Feststellen der möglichen Tonhöhenperioden
verwendet wird, werden die Möglichkeiten
einfach als Eingang für
den dynamischen Programmieralgorithmus bereitgestellt.
-
Genauer
ist dieses System, obwohl gegenwärtig
die Ausführungsform
der vorliegenden Erfindung bevorzugt wird, bei der ein Minicomputer
und eine hoch präzise
Abtastung verwendet werden, für
Anwendungen im großen
Stil nicht wirtschaftlich. Daher wird erwartet, dass der bevorzugte
Modus für
die praktische Anwendung der Erfindung in der Zukunft eine Ausführungsform
ist, die ein auf einem Mikrocomputer basierendes System, wie den
TI Professional Computer, verwendet. Dieser professionelle Computer
ist, wenn er so aufgebaut ist, dass er ein Mikrofon, einen Lautsprecher
und eine Sprachverarbeitungsplatine mit einem TMS 320 Mikroprozessor
für eine
numerische Verarbeitung und Datenumwandler umfasst, eine zur Umsetzung
der vorliegenden Erfindung in die Praxis ausreichende Hardware.
-
AUF DER STIMME BASIERENDE
IDENTITÄTSAUTHENTIFIZIERUNG
FÜR DEN
ZUGRIFF AUF DATEN
-
21 zeigt eine Ausführungsform der vorliegenden
Erfindung, die einen Benutzer über
eine Stimmverifikation identifiziert, um dem Benutzer den Zugriff
auf Daten in einem Netzwerk zu gestatten. Fordert ein Benutzer einen
Zugriff auf Daten, wie eine Website, an, wird der Benutzer in einem
Arbeitsschritt 2100 zur Abgabe einer Stimmprobe aufgefordert.
In einem Arbeitsschritt 2102 wird die Stimmprobe des Benutzers über das
Netzwerk empfangen. Die einen Benutzer betreffenden Anmeldungsinformationen
werden in einem Arbeitsschritt 2104 abgerufen. Es wird
darauf hingewiesen, dass die Informationen aus einer lokalen Speichervorrichtung
oder über
das Netzwerk abgerufen werden können.
In den Anmeldungsinformationen ist eine Stimmabtastung der Stimme
des Benutzers enthalten. Die Stimmprobe des Benutzers wird in einem
Arbeitsschritt 2106 mit der Stimmabtastung aus den Anmeldungsinformationen
verglichen, um die Identität
des Benutzers zu verifizieren. Der Arbeitsschritt 2106 wird
nachstehend genauer besprochen. Wird die Identität des Benutzers im Arbeitsschritt 2106 verifiziert,
wird dem Benutzer in einem Arbeitsschritt 2108 der Zugriff
auf die Daten gewährt.
Wird die Identität
des Benutzers im Arbeitsschritt 2106 nicht verifiziert,
wird der Zugriff auf die Daten in einem Arbeitsschritt 2110 verweigert.
Diese Ausführungsform
ist insbesondere im Bereich des eCommerce (des elektronischen Handels)
dadurch nützlich,
dass sie die Notwendigkeit von Authentifizierungsbestätigungen
und der zu ihrer Ausstellung benötigten,
vertrauenswürdigen
dritten Parteien eliminiert. Eine genauere Beschreibung der Prozesse
und Vorrichtungen zum Ausführen
dieser Operationen ist nachstehend zu finden, wobei insbesondere
auf die 22–27 und 29–34 Bezug
genommen wird.
-
Bei
einer Ausführungsform
der vorliegenden Erfindung wird die Stimme des Benutzers aufgenommen, um
die Stimmabtastung zu erzeugen, die dann gespeichert wird. Dies
kann einen Teil eines Anmeldungsprozesses ausmachen. Der Benutzer
könnte
beispielsweise in ein mit seinem bzw. ihrem Computer verbundenes Mikrofon
sprechen, wenn er bzw. sie während
eines Anmeldungsprozesses dazu aufgefordert wird. Die resultierenden
Stimmdaten würden über das
Netzwerk, beispielsweise das Internet, an eine Website gesendet,
wo sie für
einen späteren
Abruf während
eines Verifikationsprozesses gespeichert würden. Dann würde der
Benutzer, wenn er auf die Website bzw. einen bestimmten Teil der
Website zugreifen wollte, aufgefordert, eine Stimmprobe abzugeben,
die empfangen und mit den in der Website gespeicherten Stimmdaten
verglichen würde.
Als Option könnte
die Stimmabtastung ein Passwort des Benutzers enthalten.
-
Vorzugsweise
umfasst die Stimmabtastung aus Gründen der zusätzlichen
Sicherheit mehr als einen vom Benutzer gesprochenen Satz. Bei einer
derartigen Ausführungsform
könnten
als Teil der Stimmabtastung beispielsweise mehrere Passwörter gespeichert
sein, und der Benutzer müsste
eine Stimmprobe sämtlicher Passwörter abgeben.
Alternativ könnten
für unterschiedliche
Zugriffsniveaus oder unterschiedliche Teile der Daten unterschiedliche
Sätze erforderlich
sein. Die unterschiedlichen Sätze
könnten
auch als Navigationssteuerung verwendet werden, wie bei einer Zuordnung
von Sätzen
zu bestimmten Seiten auf einer Website. Der Benutzer würde aufgefordert,
ein Passwort auszusprechen. Abhängig
von dem empfangenen Passwort würde die
diesem Passwort zugeordnete Website angezeigt.
-
Durch
das Zuzulassen, dass die Stimmabtastung mehr als einen Satz enthält, ermöglicht auch
eine Verifikation der Identität
durch das Vergleichen alternativer Sätze, beispielsweise durch Auffordern
des Benutzers, einen zusätzlichen
Satz zu sprechen, wenn seine Identität durch einen ersten Satz nicht
verifiziert werden kann. Stimmt die Stimmprobe des Benutzers beispielsweise
beinahe mit der Stimmabtastung überein,
während
die Diskrepanzen zwischen beiden über einem vorgegebenen Schwellewert
liegen, kann der Benutzer aufgefordert werden, einen zweiten Satz
auszusprechen, der ebenfalls zur Verifikation der Identität des Benutzers
verwendet würde.
Dies würde
dem Benutzer mehr als eine Möglichkeit
einräumen,
zu versuchen, auf die Daten zuzugreifen, und könnte besonders für einen
Benutzer nützlich
sein, der unter einer Krankheit, wie einer Erkältung, leidet, die seine Stimme
leicht verändert.
Wahlweise können
die Stimmprobe des Benutzers und/oder der Zeitpunkt und das Datum
des Empfangs der Stimmprobe vom Benutzer aufgezeichnet werden.
-
Unter
Bezugnahme auf den Arbeitsschritt 2106 gemäß 21 betrifft eine beispielhafte Ausführungsform
der vorliegenden Erfindung ein System und ein Verfahren zur Bestimmung
einer positiven oder negativen Identität eines Sprechers, bei denen
mindestens zwei unterschiedliche Stimmauthentifizierungsvorrichtungen verwendet werden
und die bei einem gesicherten System zur Überwachung eines kontrollierten
Zugriffs verwendet werden können.
Insbesondere kann diese Ausführungsform
der vorliegenden Erfindung zur Schaffung einer Stimmauthentifizierung
verwendet werden, die durch eine außergewöhnlich niedrige fehlerhafte
Akzeptanz- und eine extrem niedrige fälschliche Zurückweisungsrate
gekennzeichnet ist.
-
Der
Begriff „gesichertes
System" bezeichnet
im hier verwendeten Sinne jede Website, jedes System, jede Vorrichtung,
etc., die nur autorisierten Personen Zugriff gewähren, die jedes Mal positiv
authentifiziert bzw. identifiziert werden müssen, wenn eine von ihnen Zugriff
auf das System bzw. die Vorrichtung erhalten oder es benutzen möchte.
-
Die
Prinzipien und die Funktionsweise des Systems und des Verfahrens
zur Stimmauthentifizierung sind unter Bezugnahme auf die Zeichnungen
und die sie begleitenden Beschreibungen leichter zu verstehen.
-
Bezug
nehmend auf die Zeichnungen, stellt 22 das
Grundkonzept eines zur Steuerung des Zugriffs auf ein gesichertes
System verwendeten Stimmauthentifizierungssystems dar.
-
Ein
Sprecher 2220 kommuniziert entweder gleichzeitig oder nacheinander
mit einem gesicherten System 2222 und einem Sicherheitszentrum 2224.
Die Stimme des Sprechers 2220 wird zur Authentifizierung
von dem Sicherheitszentrum 2224 analysiert, wenn die Authentifizierung
von dem Sicherheitszentrum 2224 positiv festgestellt wurde,
wird ein Kommunikationsbefehl von diesem an das gesicherte System 2222 gesendet,
eine durch 2226 bezeichnete, positive Identifikation (ID)
des Sprechers 2220 wird bestätigt, wie durch 2226 bezeichnet,
und dem Sprecher 2220 wird Zugriff auf das gesicherte System 2222 gewährt.
-
Das
in 22 gezeigte System gemäß dem Stand der Technik verwendet
einen einzigen Stimmauthentifizierungsalgorithmus. Als solches leidet
dieses System an dem vorstehend beschriebenen Konflikt zwischen
fehlerhaften Akzeptanzraten und fehlerhaften Zurückweisungsraten, was zu übermäßig hohen
fehlerhaften Akzeptanzraten und/oder übermäßig hohen fehlerhaften Zurückweisungsraten
führt,
die das System jeweils ungesichert hinterlassen und/oder ineffizient
machen.
-
Durch
Ausführungsformen
werden ein System und ein Verfahren zum Nachweis der Identität eines Sprechers
durch mindestens zwei unterschiedliche Stimmauthentifizierungsalgorithmen
geschaffen. Durch die Auswahl von Stimmauthentifizierungsalgorithmen,
die sich erheblich voneinander unterscheiden (beispielsweise von
textabhängigen
und textunabhängigen
Algorithmen), wird sichergestellt, dass die Algorithmen hinsichtlich
des Auftretens einer fehlerhaften Akzeptanz bzw. einer fehlerhaften
Zurückweisung
statistisch nicht vollständig
in Wechselbeziehung zueinander stehen, d.h. dass r < 1,0 gilt, wobei
r ein statistischer Korrelationskoeffizient ist.
-
Wird
davon ausgegangen, dass zwei unterschiedliche Stimmauthentifizierungsalgorithmen überhaupt nicht
in Wechselbeziehung stehen (d.h. dass r = 0 gilt) und dass der Schwellenwert
für die
fehlerhafte Zurückweisung
bei jedem der Algorithmen auf einen niedrigen Wert von beispielsweise
0,5 % eingestellt ist, so ist gemäß dem Ausgleichsgesetz und
wie durch 1 von J. Guavain, L. Lamel
und B. Prouts (März
1995), LIMSI 1995 Scientific Report vorhergesagt bei jedem der Algorithmen
eine außergewöhnlich hohe
fehlerhafte Akzeptanzrate zu erwarten, in diesem Fall in der Größenordnung
von 8 %.
-
Wird
eine positive Identität
jedoch nur nachgewiesen, wenn beide Algorithmen den Sprecher positiv authentifizieren,
ist eine kombinierte fehlerhafte Akzeptanz von (8 % – 2) oder
0,6 % zu erwarten, wogegen eine kombinierte fehlerhafte Zurückweisung
von 0,5 %·2
bzw. 1 % zu erwarten ist.
-
Es
ist zu erwarten, dass der erwartete Wert der kombinierten fehlerhaften
Akzeptanz zunimmt und der erwartete Wert der fehlerhaften Zurückweisung
abnimmt, wenn der Grad der Korrelation zwischen den Algorithmen
zunimmt, so dass bei einem Vorliegen einer vollständigen Korrelation
(d.h. bei r = 1) die kombinierten Werte des gegebenen Beispiels
auf 0,5 % und 8 % zurückgesetzt
werden.
-
Es
wird darauf hingewiesen, dass der beste EER-Wert der von B. Prouts
verwendeten Algorithmen 3,5 % betrug. Bei einer Extrapolation der
Aufzeichnungen von B. Prouts, um ähnlich einen Algorithmus mit
einem EER-Wert von 2 % (was der gegenwärtige Stand der Technik ist)
darzustellen, kann eine Einstellung der fehlerhaften Zurückweisung
auf 0,3 % gewählt
werden, dann liegt die fehlerhafte Akzeptanz bei einer Größenordnung
von 4,6 %, wodurch eine kombinierte fehlerhafte Akzeptanz von 0,2
% und eine kombinierte fehlerhafte Zurückweisung von 0,6 % erzielt
wird.
-
Daher
bezieht sich das hier in der Beschreibung und in den nachfolgenden
Ansprüchen
verwendete Konzept der „unterschiedlichen
Algorithmen" auf
Algorithmen mit einer Korrelation von r < 1,0.
-
23 zeigt ein erfindungsgemäßes System zum Nachweis der
Identität
eines Sprechers, das nachstehend als System 2350 bezeichnet
wird.
-
Das
System 2350 umfasst ein computerisiertes System 2352,
das mindestens zwei Stimmauthentifizierungsalgorithmen 2354 um fasst,
von denen zwei dargestellt und durch 2354a und 2354b bezeichnet
sind.
-
Die
Algorithmen 2354 werden so ausgewählt, dass sie sich voneinander
unterscheiden, und jeder dient einer unabhängigen Analyse der Stimme eines
Sprechers zum Erhalt einer unabhängigen
positiven bzw. negativen Authentifizierung der Stimme durch jeden
von ihnen. Wenn jeder der Algorithmen 2354 eine positive Authentifizierung
liefert, ist der Sprechende positiv identifiziert, wogegen der Sprecher
negativ identifiziert (d.h, als Eindringling identifiziert) ist,
wenn mindestens einer der Algorithmen 2354 eine negative
Authentifizierung liefert.
-
Es
können
sowohl textabhängige
als auch textunabhängige
Stimmauthentifizierungsalgorithmen verwendet werden. Beispiele umfassen
eine Merkmalsextraktion gefolgt von einem Musterabgleichsalgorithmus, wie
beispielsweise in dem US-Patent Nr.
-
5,666,466,
Neural Network Voice Authentication Algorithms, dem US-Patent Nr.
5,461,697, Dynamic Time Warping (DTW) Algorithm, dem US-Patent Nr.
5,625,747, Hidden Markov Model (HMM) Algorithm, dem US-Patent Nr.
5,526,465, Vector Quantization (VQ) Algorithm, und dem US-Patent
Nr. 5,640,490 beschrieben. Sämtliche
genannten Patente sind durch Bezugnahme aufgenommen, wie hier vollständig aufgeführt.
-
Bei
einer bevorzugten Ausführungsform
der vorliegenden Erfindung ist ein Schwellenwert für eine fehlerhafte
Zurückweisung
bei jedem der Algorithmen 2354 auf ein Niveau von 0,5 %
oder weniger, vorzugsweise von 0,4 % oder weniger, noch bevorzugter
von 0,3 % oder weniger und am bevorzugtesten von 0,2 % oder weniger
bzw. von ca. 0,1 % eingestellt.
-
Abhängig von
der Anwendung kann die Stimme des Sprechenden von dem System 2352 direkt
angenommen werden, alternativ kann die Stimme des Sprechenden von
dem System 2352 über
einen Fernkommunikationsmodus angenommen werden.
-
So
wird bei einer bevorzugten Ausführungsform
die Stimme des Sprechenden von dem computerisierten System 2352 über einen
Fernkommunikationsmodus 2356 zur Analyse angenommen. Der
Fernkommunikationsmodus 2356 kann beispielsweise ein Festnetz- oder Mobiltelefonkommunikationsmodus,
ein Computertelefonkommunikationsmodus (beispielsweise Internet
oder Intranet) oder ein Funkkommunikationsmodus sein. Diese Kommunikationsmodi
sind in 23 durch ein universelles Telefonsymbol
symbolisiert, das, wie durch die gestrichelten Linien dargestellt,
mit mindestens einem in dem computerisierten System 2352 implementierten
Empfänger 2358 kommuniziert
(wobei zwei dargestellt und durch 2358a und 2358b bezeichnet sind).
-
Bei
einer weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung umfasst das computerisierte System 2352 mindestens
zwei Hardwareinstallationen 2360 (von denen zwei, nämlich 2360a und 2360b,
dargestellt sind), die jeweils der Aktivierung eines Stimmauthentifizierungsalgorithmus 2354 dienen. Die
Hardwareinstallationen 2360 können jedem beliebigen Typ angehören, einschließlich einer
Personal Computer Plattform (einer PC-Plattform) oder eines Äquivalents,
einer zugeordneten Platine in einem Computer, etc., jedoch nicht
darauf beschränkt.
Die Hardwareinstallationen 2360 können voneinander entfernt sein.
Im hier verwendeten Sinne bezeichnet „entfernt" eine Situation, in der die Installationen 2360 über ein
Fernkommunikationsmedium miteinander kommunizieren.
-
Bei
einer Anwendung der vorliegenden Erfindung ist mindestens eine der
Hardwareinstallationen 2360, beispielsweise 2360a,
in einem gesicherten System 2362 implementiert, wogegen
mindestens eine andere der Hardwareinstallationen 2360,
beispielsweise 2360b, in einem Sicherheitszentrum 2364 implementiert ist.
Bei einer bevorzugten Ausführungsform
kommuniziert die im Sicherheitszentrum 2364 implementierte Hardwareinstallation 2360b so
mit der in dem gesicherten System 2362 implementierten
Hardwareinstallation 2360a, dass sämtliche positiven bzw. negativen
Identifikationsdaten des Sprechers schließlich in dem gesicherten System 2362 nachgewiesen
sind.
-
Der
hier in der Beschreibung und in den nachfolgenden Ansprüchen verwendete
Begriff „Sicherheitszentrum" bezeichnet ein Computersystem,
das der Aktivierung mindestens eines Stimmauthentifizierungsalgorithmus
dient und damit einen Teil des Prozesses zur positiven bzw. negativen
Identifikation des Sprechers ausführt.
-
Bei
einer bevorzugten Ausführungsform
der Erfindung umfasst das computerisierte System 2352 ferner
einen Stimmerkennungsalgorithmus 2366. Der Algorithmus 2366 dient
der Erkennung von durch den Sprecher ausgesprochenen Wortdaten (im
Gegensatz zur Identifikation des Sprechenden anhand einer stimmlichen Äußerung)
und damit der Betätigung
des gesicherten Systems 2362. Der Algorithmus 2366 dient
ferner vorzugsweise der positiven bzw. negativen Erkennung der Wortdaten,
und bei einem positiven Nachweis der Identität über die Algorithmen 2354,
wie vorstehend beschrieben, erhält
der Sprechende nur dann durch das Herstellen einer positiven oder
negativen Korrelation zwischen zumindest einigen der Wortda ten und
dem authentifizierten Sprecher Zugriff auf das gesicherte System 2362,
wenn eine derartige Korrelation positiv ist.
-
Die
von dem Sprechenden ausgesprochenen Wortdaten können jeden gesprochenen Satz
(mindestens ein Wort) umfassen, beispielsweise einen Namen, eine
Identifikationsnummer und eine Anforderung, sind jedoch nicht darauf
beschränkt.
-
Bei
einer bevorzugten Ausführungsform
der Erfindung kommuniziert ein einziges Sicherheitszentrum 2364,
in dem ein Stimmauthentifizierungsalgorithmus 2354 implementier
ist, mit mehreren gesicherten Systemen 2362, von denen
jedes einen anderen (zweiten) Stimmauthentifizierungsalgorithmus 2354 aufweist,
so dass ein Sprecher, sofern authentifiziert, wahlweise auf eines
bzw. eine Untergruppe der gesicherten Systeme 2362 zugreifen
kann.
-
BEISPIEL
-
Nachstehend
wird auf das folgende Beispiel Bezug genommen, das zusammen mit
den vorstehenden Beschreibungen auf nicht einschränkende Weise
Ausführungsformen
der vorliegenden Erfindung veranschaulicht.
-
Die 24–27 beschreiben
eine bevorzugte Ausführungsform
des erfindungsgemäßen Systems und
des erfindungsgemäßen Verfahrens.
-
So
kommuniziert ein Sprecher 2420, wie in 24 gezeigt, unter Verwendung nur seiner Stimme
oder dieser in Kombination mit einer Kommunikationsvorrichtung,
wie einem mit einem Netzwerk verbundenen Computer, einem Festnetztelefon,
einem drahtlosen Mobiltelefon, einem Computertelefon, einem Sender
(beispielsweise einem Funksender) oder jedem anderen Fernkommunikationsmedi um,
aber nicht auf diese beschränkt,
mit einem Sicherheitszentrum 2424 und einem oder mehreren
gesicherten Systemen 2422, wie beispielsweise einem Computernetzwerk
(einem gesicherten System Nr. 1), einem Sprachnachrichtensystem
(einem gesicherten System Nr. 2) und/oder dem Computersystem einer
Bank (einem gesicherten System Nr. N), aber nicht auf diese beschränkt.
-
Bei
einer Ausführungsform
nutzt der Sprechende einen Telefonkommunikationsmodus, wogegen sämtliche
gesicherten Systeme 2422 sowie das Sicherheitszentrum 2424 eine
identische Telefonnummer bzw., falls ein Funkkommunikationsmodus
verwendet wird, die gleiche Frequenz und Modulation aufweisen. Auf
jeden Fall kommuniziert der Benutzer vorzugsweise gleichzeitig mit
den gesicherten Systemen 2422 und dem Sicherheitszentrum 2424.
Bei einer bevorzugten Ausführungsform
der Erfindung enthält
jedes der gesicherten Systeme 2422 nur einen Empfänger zur
Stimmverifikation bzw. für
den Authentifizierungsprozess, verfügt jedoch über keinen Sender.
-
25 beschreibt den nächsten Schritt des Prozesses.
Das Sicherheitszentrum 2424 führt an der hereinkommenden
Stimme beispielsweise unter Verwendung (i) eines beliebigen Algorithmus 2530 zur
Stimmauthentifizierung gemäß dem Stand
der Technik und (ii) eines herkömmlichen
Worterkennungsalgorithmus 2532, der beispielsweise eine
verbale Identifikation des Zugriffscodes (der auch eine Anforderung
darstellt) des benötigten
gesicherten Systems 2422 (Nr. 1, 2, ..., N), ein Passwort
und die Sozialversicherungsnummer des Sprechenden 2420 umfasst,
eine Stimmanalyse aus. Der Schwellenwert für eine fehlerhafte Zurückweisung ist
auf ein niedriges Niveau von beispielsweise weniger als 0,5 %, vorzugsweise
ca. 0,3 % eingestellt, wodurch sich für die fehlerhafte Akzeptanz
ein Niveau in der Größenordung
von 4,6 % ergibt.
-
Nach
dem Nachweis der positiven Identifikation der hereinkommenden Stimme
bestätigt
das Sicherheitszentrum 2424 die Sprecheridentifikation 2534,
indem es beispielsweise eine akustische Tonhöhe 2536 sendet. Die
akustische Tonhöhe 2536 wird
sowohl von dem Sprechenden 2420 als auch von dem (beispielsweise
entsprechend dem von dem Sprechenden 2420 verwendeten Systemzugriffscode)
bestimmten gesicherten System 2422 empfangen.
-
26 beschreibt, was darauf folgt. Das Sicherheitszentrum 2424 bzw.
vorzugsweise das gesicherte System 2422 führt unter
Verwendung eines zweiten Stimmauthentifizierungsalgorithmus 2638,
der sich, wie vorstehend unter Bezugnahme auf 25 beschrieben, von dem vom Sicherheitszentrum 2424 verwendeten Stimmauthentifizierungsalgorithmus 2530 unterscheidet,
eine Stimmauthentifizierung an der hereinkommenden Stimme aus.
-
Der
Stimmauthentifizierungsalgorithmus kann beispielsweise ein Stimmauthentifizierungsalgorithmus eines
neuronalen Netzwerks sein, wie beispielsweise in dem US-Patent Nr.
5,461,697 beschrieben.
-
Wieder
ist der Schwellenwert für
eine fehlerhafte Zurückweisung
auf ein niedriges Niveau von beispielsweise weniger als 0,5 %, vorzugsweise
0,3 oder 0,1 % eingestellt. Nach den vorstehenden Überlegungen
und Berechnungen liegt bei Algorithmen mit einem EER-Wert von ca. 2 %
das Niveau für
die fehlerhafte Akzeptanz als Ergebnis (bei beispielsweise 0,3 %)
in der Größenordnung
von 4,6 %.
-
Bei
einer bevorzugten Ausführungsform
der Erfindung sind das Sicherheitszentrum 2424 und das
gesicherte System 2422 physisch voneinander entfernt. Da
der Prozess der Identifikation im Sicherheitszentrum 2424 ein
vorab ausgewähltes
Zeitintervall verlängert,
erfolgt die Aktivierung der simultanen Stimmverifikation in dem
gesicherten System 2422 bei t = ΔT nach dem Empfang der Hörtonhöhe 2536 durch
das gesicherte System 2422. Durch diese zeitliche Verzögerung wird
sichergestellt, dass keine Identifikation erfolgt, bevor die Bestätigung vom
Sicherheitszentrum 2424 empfangen wurde.
-
Wie
in 27 gezeigt, ist eine endgültige Sprecheridentifikation 2740 erst
nachgewiesen, wenn sowohl von dem Sicherheitssystem 2424 als
auch von dem gesicherten System 2422 die Identifikation 2742a bzw. 2742b sichergestellt
ist, was zur Folge hat, dass der Sprecher auf das gesicherte System 2422 zugreifen kann.
-
Daher
werden nur, wenn sowohl das Sicherheitszentrum 2424 als
auch das gesicherte System 2422 eine positive Stimmverifikation
vorgenommen haben, der Sprecher positiv identifiziert, der Prozess
positiv abgeschlossen und der Zugriff auf das gesicherte System 2422 daher
gestattet, wie durch 2744 dargestellt.
-
Kann
eines der Systeme 2422 und 2424 die Stimme des
Sprechenden nicht bestätigen,
ist der Prozess nicht positiv abgeschlossen, und der Zugriff auf
das gesicherte System 2422 wird daher verweigert.
-
STIMMBASIERENDES
SYSTEM ZUR REGELUNG ETNER GRENZÜBERQUERUNG
-
28 zeigt ein Verfahren zur Bestimmung des passiven
Wahlrechts einer Person an einem Grenzübergang für eine Grenzüberquerung
auf der Grundalge von Stimmsignalen. Zunächst werden in einem Arbeitsschritt 2800 Stimmsignale
von einer Person empfangen, die versucht, eine Grenze zu überqueren.
Die Stimmsignale der Person werden in einem Arbeitsschritt 2802 analysiert,
um zu bestimmen, ob die Person vorgegebene Kriterien für eine Grenzüberquerung
erfüllt.
Dann wird in einem Arbeitsschritt 2804 eine Angabe ausgegeben,
ob die Person die vorgegebenen Kriterien für eine Grenzüberquerung
erfüllt.
Eine genauere Beschreibung der Prozesse und Vorrichtungen zum Ausführen dieser
Arbeitsgänge
ist nachstehend zu finden.
-
Bei
einer in 28 beschriebenen Ausführungsform
der vorliegenden Erfindung wird die Identität der Person anhand von Stimmsignalen
bestimmt. Diese Ausführungsform
der vorliegenden Erfindung könnte
verwendet werden, um Personen mit einer Genehmigung zur Grenzüberschreitung
das Überqueren
der Grenze in ein anderes Land zu gestatten, ohne dass sie eine
Identifikation in Form eines Dokuments vorweisen müssen. Bei
einer derartigen Ausführungsform
können
die vorgegebenen Kriterien den Besitz einer in einer Liste von zur
Grenzüberquerung
berechtigten Personen enthaltenen Identität umfassen. In dem vorstehenden
Abschnitt mit dem Titel „AUF
DER STIMME BASIERENDE IDENTITÄTSAUTHENTIFIZIERUNG
FÜR DEN
ZUGRIFF AUF DATEN" sind
weitere Einzelheiten zu den Prozessen und Vorrichtungen zur Identifikation
einer Person anhand ihrer Stimme sowie zu den vorstehend unter Bezugnahme
auf die 22–27 und
nachstehend unter Bezugnahme auf die 29–34 besprochenen
Verfahren und Vorrichtungen zu finden.
-
Die
Stimmsignale der Person werden mit mehreren gespeicherten Stimmproben
verglichen, um die Identität
der Person zu bestimmen. Jede der mehreren Stimmproben ist einer
Identität
einer Person zugeordnet. Die Identität der Person wird ausgegeben,
wenn die Identität
der Person anhand des Vergleichs des Stimmsignals mit den Stimmproben
festgestellt wird. Alternativ oder in Kombination mit der Identität der Person könnte der
Ausgang eine Anzeige für
einen Grenzer umfassen, die angibt, dass die Person passieren darf. Alternativ
könnte
der Ausgang ein Tor oder Drehkreuz entriegeln, das die Per son am Überqueren
der Grenze hindert oder ihren Übergang
in ein Land anderweitig verhindert.
-
Bei
einer weiteren, in 28 dargestellten Ausführungsform
der vorliegenden Erfindung werden Emotionen in dem Stimmsignal der
Person erfasst. Hierbei könnten
die vorgegebenen Kriterien emotionsbasierende Kriterien umfassen,
die bei der Aufdeckung von Schmuggel oder anderen illegalen Aktivitäten sowie
der Ergreifung von Personen mit gefälschten Dokumenten helfen könnten. So
könnten
beispielsweise Furcht und Besorgnis in der Stimme einer Person erfasst
werden, wenn er bzw. sie beispielsweise von einem Zollbeamten gestellte
Fragen beantwortet. Eine weitere der Emotionen, die erfasst werden
könnten,
ist der Grad der Nervosität
der Person. Weitere Einzelheiten zur Funktionsweise einer derartigen
Ausführungsform
sind in den vorstehenden Abschnitten über die Erfassung von Emotionen
in Stimmsignalen zu finden.
-
29 zeigt ein Verfahren zur Sprechererkennung gemäß einem
Aspekt der aktuellen Erfindung. In einem Arbeitsschritt 2900 werden
an einer ersten Stelle vorgegebene, erste, endgültige, Stimmcharakteristika betreffende
Informationen gespeichert. In einem Arbeitsschritt 2902 werden
Stimmdaten an einer zweiten Stelle eingegeben. Die Stimmdaten werden
in einem Arbeitsschritt 2904 an der zweiten Stelle verarbeitet,
um die Stimmcharakteristika betreffende Zwischeninformationen zu
erzeugen. In einem Arbeitsschritt 2906 werden die die Stimmcharakteristika
betreffenden Zwischeninformationen von der zweiten Stelle an die
erste Stelle gesendet. In einem Arbeitsschritt 2908 erfolgt
an der ersten Stelle eine weitere Verarbeitung der von der zweiten Stelle
gesendeten, die Stimmcharakteristika betreffendem Zwischeninformationen
zur Erzeugung von zweiten, endgültigen,
die Stimmcharakteristika betreffenden Informationen. In einem Arbeitsschritt 2910 wird
an der ersten Stelle bestimmt, ob die zweiten, endgültigen,
die Stimmcharakteristika betreffenden Informationen im Wesentlichen
mit den ersten, endgültigen,
die Stimmcharakteristika betreffenden Informationen übereinstimmen,
und ein Bestimmungssignal wird erzeugt, das die Bestimmung anzeigt.
-
Gemäß einem
zweiten Aspekt der aktuellen Erfindung zeigt 30 ein
Verfahren zur Sprechererkennung. In einem Arbeitsschritt 3000 werden
mehrere Paare aus ersten, endgültigen,
die Stimmcharakteristika betreffenden Informationen und entsprechenden
Identifikationsinformationen an einer ersten Stelle gespeichert.
In einem Arbeitsschritt 3002 werden Stimmdaten und eine
der Identifikationsinformationen an einer zweiten Stelle eingegeben.
Die einen Identifikationsinformationen werden in einem Arbeitsschritt 3004 an
die erste Stelle gesendet. In einem Arbeitsschritt 3006 werden
die einen der ersten, endgültigen,
die Stimmcharakteristika betreffenden Informationen, die den einen
Identifikationsinformationen entsprechen, sowie ein Bestimmungsfaktor
an die zweite Stelle gesendet. Die Stimmdaten werden in einem Arbeitsschritt 3008 an
der zweiten Stelle verarbeitet, um zweite, endgültige, die Stimmcharakteristika
betreffende Informationen zu erzeugen. In einem Arbeitsschritt 3010 wird
an der zweiten Stelle auf der Grundlage des Bestimmungsfaktors bestimmt,
ob die zweiten, endgültigen,
die Stimmcharakteristika betreffenden Informationen im Wesentlichen mit
den ersten, endgültigen,
die Stimmcharakteristika betreffenden Informationen übereinstimmen,
und ein Bestimmungssignal, das die Bestimmung anzeigt, wird erzeugt.
-
Gemäß einem
dritten Aspekt der aktuellen Erfindung umfasst ein Sprechererkennungssystem
eine Anmeldungseinheit zur Verarbeitung von Stimmdaten zur Erzeugung
von den Stimmdaten entsprechenden Standardstimmkennzeicheninformationen
und zum Speichern der Standardstimmkennzeicheninformationen, eine
erste Verarbeitungseinheit zur Eingabe von Teststimmdaten und zum
Verarbeiten der Teststimmdaten zur Erzeugung von Zwischenteststimmkennzeicheninformationen
und eine kommunizierend mit der ersten Verarbeitungseinheit verbundene
zweite Verarbeitungseinheit zum Empfangen der Zwischenteststimmkennzeicheninformationen
und zum weiteren Verarbeiten der Zwischenteststimmkennzeicheninformationen
zur Erzeugung von Teststimmkennzeicheninformationen, wobei die Verarbeitungseinheit
mit der Anmeldungsverarbeitungseinheit zum Bestimmen verbunden ist,
ob die Teststimmkennzeicheninformationen im wesentlichen mit den
Standardstimmkennzeicheninformationen übereinstimmen.
-
Gemäß einem
vierten Aspekt der aktuellen Erfindung umfasst ein Sprechererkennungssystem
eine erste Verarbeitungseinheit zum Verarbeiten von Stimmdaten zur
Erzeugung von den Stimmdaten entsprechenden Standardstimmkennzeicheninformationen
und zum Speichern der Standardstimmkennzeicheninformationen mit
zugeordneten Identitätsinformationen,
eine operativ mit der ersten Verarbeitungseinheit verbundene zweite
Verarbeitungseinheit zur Eingabe der zugeordneten Identitätsinformationen
und Teststimmdaten, wobei die zweite Verarbeitungseinheit die zugeordneten
Identitätsinformationen
an die erste Verarbeitungseinheit sendet, die zweite Verarbeitungseinheit
die Standardstimmkennzeicheninformationen abruft, die zweite Verarbeitungseinheit
auf der Basis der Teststimmdaten Teststimmkennzeicheninformationen
erzeugt und bestimmt, dass die Standardstimmkennzeicheninformationen
im wesentlichen mit den Teststimmkennzeicheninformationen übereinstimmen.
-
Nachstehend
wird auf die Zeichnungen und insbesondere auf 31 Bezug genommen, um die Grundkomponenten der
Spre chererkennung zu beschreiben. Ein Benutzer spricht in ein Mikrofon 3101,
um seine bzw. ihre Stimme einzugeben. Eine Einheit 3103 zur
periodischen Stimmprobenentnahme tastet die eingegebenen Stimmdaten
mit einer vorgegebenen Frequenz ab, und eine Einheit 3104 zur
Extraktion von Stimmkennzeicheninformationen extrahiert aus jedem
abgetasteten Stimmdatensatz vorgegebene Stimmkennzeicheninformationen
bzw. ein endgültiges
Stimmkennzeichenmuster. Wenn die vorstehend aufgeführten Eingabe-
und Extraktionsprozesse bei einem Anmeldungs- oder Initiierungsprozess
ausgeführt
werden, wird ein Modusauswahlschalter 3108 geschlossen,
um eine Anmeldungseinheit 3106 so zu anzuschließen, dass die
Stimmkennzeicheninformationen als Standardstimmkennzeicheninformationen
des Sprechers zusammen mit Sprecheridentifikationsinformationen
in einer Speichereinheit 3105 für Sprechererkennungsinformationen gespeichert
werden.
-
In 32 ist ein Beispiel der in der Speichereinheit 3105 für Sprechererkennungsinformationen
gespeicherten Informationen dargestellt. Die Sprechererkennungsinformationen
enthalten den Namen eines Sprechers, eine Identifikationsnummer,
das Geburtsdatum, eine Sozialversicherungsnummer, etc. In den gespeicherten
Informationen befinden sich, jeder der vorstehend erwähnten Sprecheridentifikationsinformationen
entsprechend, die Standardstimmkennzeicheninformationen des Sprechers.
Wie vorstehend beschrieben, werden die Standardstimmkennzeicheninformationen
von den Stimmverarbeitungseinheiten 3103 und 3104 erzeugt,
die das Stimmkennzeichenmuster aus den vorgegebenen, vom Sprecher
während
des Anmeldungsprozesses eingegebenen Stimmdaten extrahieren. Die
endgültigen
Stimmkennzeicheninformationen bzw. das Stimmkennzeichenmuster enthalten
bzw. enthält
eine Folge der vorstehend beschriebenen Stimmparameter.
-
Gemäß 31 wird ein Sprechererkennungsprozess ausgeführt, wenn
der Modusauswahlschalter geschlossen wird, um eine Sprechererkennungseinheit 3107 anzuschließen. Um
als angemeldeter Sprecher erkannt zu werden, gibt ein Benutzer erst über eine
Identifikationseingabevorrichtung 3102 seine bzw. ihre Sprecheridentifikationsinformationen,
beispielsweise eine Nummer, ein. Auf der Grundlage der Identifikationsinformationen
spezifiziert die Anmeldungseinheit 3106 die entsprechenden
Standardstimmkennzeicheninformationen bzw. ein in der Speichereinheit 3105 für Sprechererkennungsinformationen
gespeichertes endgültiges
Stimmkennzeichenmuster und sendet sie bzw. es an die Sprechererkennungseinheit 3107.
Der Benutzer gibt seine bzw. ihre Stimmdaten auch durch Sprechen
eines vorgegebenen Worts bzw. vorgegebener Wörter in das Mikrofon 3101 ein.
Die eingegebenen Stimmdaten werden von der Einheit 3103 zur
periodischen Stimmprobenentnahme und der Einheit 3104 zur
Extraktion von Stimmkennzeichenparametern verarbeitet, um Teststimmkennzeicheninformationen
zu erzeugen. Die Sprechererkennungseinheit 3107 vergleicht
die Teststimmkennzeicheninformationen mit den vorstehend aufgeführten Standardstimmkennzeicheninformationen,
um festzustellen, ob sie im Wesentlichen übereinstimmen. Auf der Grundlage
des vorstehend beschriebenen Vergleichs erzeugt die Sprechererkennungseinheit 3107 ein
Bestimmungssignal, das den vorstehend aufgeführten Status der grundsätzlichen Übereinstimmung
angibt.
-
Die
vorstehend beschriebenen und weitere Elemente des Sprechererkennungskonzepts
werden erfindungsgemäß für ein Computer- oder Telefonnetzwerk
implementiert. Bei den computernetzwerkbasierenden Sprechererkennungssystemen
wird davon ausgegangen, dass sie eine große Anzahl an lokalen Verarbeitungseinheiten
und mindestens eine administrative Verarbeitungseinheit umfassen.
Ebenso wird davon ausgegangen, dass das Netzwerk eine gemeinsame
Datenbank teilt, die sich typischerweise auf einer zentralen, administrativen
Verarbeitungseinheit befindet. Im Allgemeinen umfassen die computernetzwerkbasierenden Sprechererkennungssysteme
zwei Enden eines Spektrums. Ein Ende des Spektrums ist durch eine
schwere lokale Verarbeitung des Stimmeingangs gekennzeichnet, während sich
das andere Ende des Spektrums durch eine schwere zentrale Verarbeitung
des Stimmeingangs auszeichnet. Anders ausgedrückt wird der Stimmeingang zur
Realisierung der Sprechererkennung primär von der lokalen Verarbeitungseinheit,
der zentralen Verarbeitungseinheit oder einer Kombination aus beiden
verarbeitet, um zu bestimmen, ob er im Wesentlichen mit vorab registrierten
Stimmdaten übereinstimmt.
Die erfindungsgemäß verwendeten
Computernetzwerke sind jedoch nicht notwendigerweise auf die vorstehend
beschriebenen Einschränkungen
bei zentralen Einheiten und Terminals begrenzt und schließen andere
Systeme, wie verteilte Systeme, ein.
-
In 33 ist eine bevorzugte Ausführungsform des erfindungsgemäßen Sprechererkennungssystems dargestellt.
Lokale Verarbeitungseinheiten 3331-1 bis 3331-n sind
jeweils über
Netzwerkleitungen 3333-1 bis 3333-n mit einer
administrativen Zentraleinheit 3332 verbunden. Die lokalen
Verarbeitungseinheiten 3331-1 bis 3331-n umfassen
jeweils ein Mikrofon 3101, eine Einheit 3103 zur
periodischen Stimmprobenentnahme, eine Einheit 3104 zur
Extraktion von Stimmkennzeicheninformationen und eine Sprechererkennungseinheit 3107.
Jede der lokalen Verarbeitungseinheiten 3331-1 bis 3331-n ist
zur Eingabe von Stimmdaten und zur Verarbeitung des Stimmeingangs
zur Bestimmung geeignet, ob sein charakteristisches Muster im Wesentlichen mit
einem entsprechenden Standardstimmkennzeichenmuster übereinstimmt.
Die administrative Zentraleinheit 3332 umfasst eine Einheit 3310 zur
Verwaltung von Spre chererkennungsdaten zum Ausführen von Verwaltungsfunktionen,
die die Anmeldung und Aktualisierung der Standardstimmkennzeicheninformationen
einschließen.
-
In 34 ist die vorstehend beschriebene, bevorzugte
Ausführungsform
des Sprechererkennungssystems im Einzelnen dargestellt. Aus Gründen der
Vereinfachung ist nur eine lokale Verarbeitungseinheit 3331-1 mit
zusätzlichen
Komponenten weiter dargestellt. Damit die lokale Verarbeitungseinheit 3331-1 über die
Kommunikationsleitung 3333-1 mit der administrativen Verarbeitungseinheit 3332 kommunizieren
kann, stellt die lokale Verarbeitungseinheit 3331-1 eine
erste Kommunikations-Eingabe- und Ausgabeschnittstelleneinheit (Kommunikations-E/A-Schnittstelleneinheit) 3334-1 bereit. Ähnlich enthält die administrative
Verarbeitungseinheit 3332 eine zweite Kommunikations-E/A-Schnittstelleneinheit 3435 am
anderen Ende der Kommunikationsleitung 3333-1. Im Folgenden
werden der Registrierungs- und der Erkennungsprozess unter Verwendung
der vorstehend beschriebenen, bevorzugten Ausführungsform allgemein beschrieben.
-
Zur
Anmeldung von Standardstimmkennzeicheninformationen gibt der Benutzer
durch Sprechen einer vorgegebenen Gruppe von Worten in ein Mikrofon 3101 Stimmdaten
und über
die ID-Eingabevorrichtung 3102 eine
Benutzeridentifikationsnummer ein. Der Modusschalter 3108 wird
in einen Registriermodus geschaltet, um die verarbeiteten Stimmkennzeicheninformationen über die
Schnittstellen 3334-1, 3435 und die Kommunikationsleitung 3333-1 an
die Anmeldungseinheit 3106 zu senden. Die Anmeldungseinheit 3106 steuert
die Speichereinheit 3105 für die Sprechererkennungsinformationen
zum Speichern der Stimmkennzeicheninformationen zusammen mit der
Sprecheridentifikationsnummer.
-
Zum
späteren
Ausführen
eines Sprechererkennungsprozesses gibt ein Benutzer seine bzw. ihre
Benutzer-ID-Informationen über
die Benutzer-ID-Eingabevorrichtung 3102 ein. Die eingegebenen
Informationen werden über
die Schnittstellen 3334-1, 3435 und die Kommunikationsleitung 3333-1 an
die administrative Verarbeitungseinheit 3332 gesendet.
Als Reaktion sendet die administrative Verarbeitungseinheit 3332 die
der spezifizierten Benutzer-ID entsprechenden Standardstimmkennzeicheninformationen
an die Sprechererkennungseinheit 3107. Der Auswahlmodusschalter
wird zum Anschließen
der Sprechererkennungseinheit 3107 in den Sprechererkennungsmodus
geschaltet. Der Benutzer gibt auch seine bzw. ihre Spracheingabe über das Mikrofon 3101 ein,
und die Einheit 3103 zur periodischen Stimmprobenentnahme
und die Einheit 3104 zur Extraktion von Stimmkennzeicheninformationen
verarbeiten den Stimmeingang zur Erzeugung der Teststimmkennzeicheninformationen
zur Ausgabe an die Sprechererkennungseinheit 3107. Schließlich bestimmt
die Sprechererkennungseinheit 3107, ob die Teststimmkennzeicheninformationen
im Wesentlichen mit den ausgewählten
Standardstimmkennzeicheninformationen übereinstimmen. Die Bestimmung
wird durch ein Ausgangsbestimmungssignal zur Autorisation der lokalen
Verarbeitungseinheit 3331-1 zur Fortsetzung mit einer weiteren
Transaktion angezeigt, an der die administrative Verarbeitungseinheit 3332 beteiligt
ist. Zusammenfassend verarbeitet die vorstehend beschriebene, bevorzugte
Ausführungsform
die eingegebenen Stimmdaten im Wesentlichen in der lokalen Verarbeitungseinheit.
-
STIMMAKTIVIERTE
STEUERUNG UND NAVIGATION IM INTERNET
-
35 zeigt ein Verfahren zur Erkennung von Stimmbefehlen
zur Manipulation von Daten im Internet. Zunächst werden in einem Arbeitsschritt 3500 Daten
auf einer Website bereitgestellt. In einem Arbeitsschritt 3502 werden
Stimmsignale von einem Benutzer empfangen, der auf die Website zugreift.
Die Stimmsignale werden in einem Arbeitsschritt 3504 interpretiert,
um Navigationsbefehle zu bestimmen. Auf der Basis der Navigationsbefehle
werden in einem Arbeitsschritt 3506 ausgewählte Daten
der Website ausgegeben.
-
Bei
einer Ausführungsform
der vorliegenden Erfindung umfassen die Daten eine stimmaktivierte
Anwendung. Bei einer derartigen Ausführungsform können die
Navigationsbefehle die Ausführung
der Anwendung steuern. Bei einem Beispiel einer erfindungsgemäßen Anwendung
kann Internet-Banking über
Stimmsignale zulässig
sein.
-
Dem
Benutzer kann entweder über
einen Computer oder über
ein Telefon oder beides Zugriff auf die Website gewährt werden.
Wahlweise können
die ausgewählten
Daten an ein Telefon ausgegeben werden. Eine derartige Ausführungsform
könnte
für Nachrichtenübermittlungsdienste
verwendet werden. So könnte beispielsweise
eine Technologie zur Umwandlung von Sprache in Text zum „Schreiben" von eMails über ein Telefon
verwendet werden, ohne dass eine Anzeige nötig wäre. Ebenso könnte die
Technologie zum Umwandeln von Text in Sprache zum „Lesen" einer eMail über ein
Telefon verwendet werden.
-
Anhand
von Stimmsignalen kann eine Sprache bestimmt werden. Dann würden die
Stimmsignale in die vom Benutzer gesprochenen Sprache übersetzt,
um die Befehle zu bestimmen. Dies wäre bei einem internationalen
Kundendienstsystem im Internet besonders nützlich. Wahlweise kann künstliche
Intelligenz einschließlich
ge sprochener Antworten und dergleichen zum Interagieren mit dem
Benutzer verwendet werden.
-
Stimmgesteuerte
Inhalte und Anwendungen
-
36 ist ein verallgemeinertes Blockdiagramm eines
Informationssystems 3610 gemäß einer Ausführungsform
der Erfindung zur Steuerung von Inhalten und Anwendungen mittels
Stimmsignalen über
ein Netzwerk. Das Informationssystem 3610 umfasst ein Informationsverteilungszentrum 3612,
das Informationen von einem oder mehreren entfernt angeordneten
Informationsanbietern 3614-1, ..., 3614-n empfängt und
die Informationen einer Anschlusseinheit 3616 zuführt bzw.
sie an diese sendet. „Informationen" im hier verwendeten
Sinne umfassen analoge Video-, analoge Audio-, digitale Video- und
digitale Audiodaten, Textdienste, wie Nachrichtenartikel, Sportergebnisse,
Börsennotierungen,
Wetterberichte, elektronische Nachrichten, elektronische Programmführer, Datenbankinformationen,
Software einschließlich
Spielprogramme und Weitbereichsnetzwerkdaten, sind aber nicht darauf
beschränkt.
Alternativ oder zusätzlich
kann das Informationsverteilungszentrum 3612 lokal Informationen
erzeugen und diese lokal erzeugten Informationen an die Anschlusseinheit 3616 weiterleiten.
-
Die
vom Informationsverteilungszentrum 3612 an die Anschlusseinheit 3616 gesendeten
Informationen umfassen Wortschatzdaten, die ein Vokabular an gesprochenen
Klängen
oder Wörtern
(„Äußerungen") repräsentieren.
Dieses Vokabular ermöglicht
beispielsweise eine Sprachsteuerung einer Vorrichtung 3618 und eine
Sprachsteuerung des Zugriffs auf die vom Informationsverteilungszentrum 3612 gesendeten
Informationen. Genauer empfängt
die Anschlusseinheit 3616 Wortschatzdaten vom Informationsverteilungs zentrum 3612 und
Sprachdaten („Äußerungen") von einem Benutzer.
Die Anschlusseinheit 3616 umfasst einen Prozessor zum Ausführen eines
Spracherkennungsalgorithmus zum Vergleichen der Wortschatzdaten
mit dem gesprochenen Befehl zum Erkennen beispielsweise von Befehlen
zur Steuerung der Vorrichtung 3618 oder von Befehlen zum
Zugreifen auf vom Informationsverteilungszentrum 3612 gesendete
Informationen. Die Anschlusseinheit 3616 erzeugt dann einen
zur Steuerung der Vorrichtung 3618 oder zum Zugreifen auf
die vom Informationsverteilungszentrum 3612 gesendeten
Informationen geeigneten Befehl. Der Begriff Spracherkennungsalgorithmus
bezeichnet im hier verwendeten Sinne einen Algorithmus, der einen
gesprochenen akustischen Eingang in Text oder entsprechende Befehle
umwandelt. Ein Sprecherverifikationsalgorithmus bezeichnet einen
Algorithmus, der die beanspruchte Identität eines Sprechers anhand einer
Probe der Sprache des den Anspruch Stellenden verifiziert. Ein Sprecheridentifikationsalgorithmus
bezieht sich auf einen Algorithmus, der einen Sprecher auf der Grundlage
einer akustischen Eingabe von einem Sprecher anhand einer Liste
vorab aufgenommener Alternativen identifiziert. Ein Sprecheridentifikationsalgorithmus
kann beispielsweise verwendet werden, um die Möglichkeit, die Vorrichtung
zu steuern und/oder auf Informationen zuzugreifen, auf bestimmte
Sprecher zu begrenzen.
-
Die
vom Informationsverteilungszentrum 3612 an die Anschlusseinheit 3616 gesendeten
Wortschatzdaten können
beispielsweise Phonemdaten sein. Ein Phonem ist ein Element aus
der Gruppe der kleinsten Einheiten von Sprache, die in einer Sprache
oder einem Dialekt der Unterscheidung einer Äußerung von einer anderen dienen.
Jeder Klang bzw. jedes gesprochene Wort im Vokabular kann so durch
eine Kombination von Phonemen repräsentiert werden. Alternativ
können
die Wortschatzdaten Templatdaten sein, die erzeugt werden, indem
eine Person bzw. Personen veranlasst werden, jeden Klang bzw. jedes
Wort auszusprechen. Jeder gesprochene Klang bzw. jedes gesprochene
Wort im Wortschatz kann so durch ein jeweils entsprechendes Templat
repräsentiert
werden. Obwohl das System gemäß 36 ein System darstellt, bei dem die Informationen
von den Informationsanbietern 3614-1, ..., 3614-n und
die Wortschatzdaten über
die gleiche Kommunikationsverbindung gesendet werden, wird darauf
hingewiesen, dass die Erfindung in dieser Hinsicht nicht eingeschränkt ist.
So können
Informationen von Informationsdienstanbietern 3614-1, ..., 3614-n und
Wortschatzdaten über
unterschiedliche Kommunikationsverbindungen gesendet werden.
-
Es
können
viele verschiedene Anordnungen zum Liefern der Sprachdaten an die
Anschlusseinheit 3616 verwendet werden. Bei einem ersten,
veranschaulichenden, jedoch nicht einschränkenden Aufbau ist eine Fernsteuerung
vorgesehen, die ein drahtloses Mikrofon oder einen zugehörigen Sender-
und Empfänger zum
Senden von von einem Benutzer ausgesprochenen Klängen oder Wörtern über elektrische, optische oder Funkfrequenzsignale
an die Anschlusseinheit 3616 umfasst. Die Anschlusseinheit 3616 umfasst
weiterhin einen Empfänger,
ein analoges Endgerät
zur Aufbereitung des empfangenen Signals, einen Codec zum Ausführen einer
Analog-Digital-Umwandlung
des aufbereiteten Signals und eine Schnittstellenschaltung zum Herstellen
einer Schnittstelle zum Prozessor. Mit Aufbereitung sind eine Rauschunterdrückung, eine
Rauschminderung, ein Filtern und weitere bekannte Techniken beispielsweise
zum Verändern
eines von einem Stimmsender und -empfänger empfangenen elektrischen
Signals gemeint. Bei einem zweiten veranschaulichenden Aufbau ist
eine Fernsteuerung mit einem Mikrofon, einem analogen Empfänger zur
Aufbereitung des Klangsignals von dem Mikrofon, einem Codec zum
Ausführen
einer Analog-Digital-Umwandlung des aufbereiteten Signals und einem
Sender zum Senden des digitalisierten Klangdatensignals an die Anschlusseinheit 3616 beispielsweise unter
Verwendung von Infrarot- oder Funkfrequenzsignalen versehen. Die
Anschlusseinheit 3616 umfasst dann einen Empfänger zum
Empfangen des digitalisierten Klangdatensignals und eine Schnittstellenschaltung zum
Herstellen einer Schnittstelle zum Prozessor. Das digitalisierte
Klangdatensignal erfordert typischerweise eine Datenübertragungsrate
von mindestens 64 kBit pro Sekunde. Bei einem dritten veranschaulichenden
Aufbau weist eine Fernsteuerung ein Mikrofon, einen analogen Empfänger zur
Aufbereitung des Klangsignals vom Mikrofon, einen Codec zum Ausführen einer
Analog-Digital-Umwandlung
an dem aufbereiteten Signal, einen Datensignalprozessor zum Analysieren
des digitalisierten Klangsignals zum Extrahieren von Spektraldaten und
einen Sender zum Senden der Spektraldaten an die Anschlusseinheit 3616 beispielsweise
unter Verwendung von Infrarotsignalen auf. Die Anschlusseinheit 3616 umfasst
dann einen Empfänger
zum Empfangen der Spektraldaten und eine Schnittstellenschaltung
zum Herstellen einer Schnittstelle zum Prozessor. Da im Gegensatz
zu den digitalisierten Klangdaten bei der zweiten Ausführungsform
bei dieser dritten Anordnung die Spektraldaten gesendet werden,
ist die Datenrate erheblich niedriger, d.h. geringer als 3610 kBit
pro Sekunde. Da die Spektralanalyse in der Fernsteuerung erfolgt,
wird die Auslastung des Prozessors der Anschlusseinheit 3616 beim
Erkennungsvorgang im Vergleich zu dem zweiten Aufbau um 30–50 % verringert.
Bei einem vierten veranschaulichenden Aufbau umfasst die Anschlusseinheit 3616 ein
Mikrofon, ein analoges Endgerät
zur Aufbereitung des Klangsignals von dem Mikrofon, einen Codec
zum Ausführen
einer Analog-Digital-Umwandlung des aufbereiteten Signals und eine
Schnittstellenschaltung zum Herstellen einer Schnittstelle zum Prozessor. Bei
einem fünften
veranschauli chenden Aufbau umfasst die Anschlusseinheit 3616 ein
Mikrofon, ein analoges Endgerät
zur Aufbereitung des Klangsignals von dem Mikrofon, einen Codec
zum Ausführen
einer Analog-Digital-Umwandlung des aufbereiteten Signals, einen
digitalen Signalprozessor zum Analysieren des digitalisierten Klangsignals
zur Extraktion von Spektraldaten und eine Schnittstellenschaltung
zum Herstellen einer Schnittstelle zum Prozessorbus. Der digitale
Signalprozessor wird bei dem fünften
Aufbau im Vergleich zur vierten Ausführungsform zum Entlasten des
Prozessors der Anschlusseinheit 3616 verwendet. Diese unterschiedlichen
Konstruktionen sind lediglich veranschaulichend, und zum Liefern
von Sprachdaten an eine Anschlusseinheit 3616 können im
Rahmen der vorliegenden Erfindung andere Konstruktionen verwendet
werden.
-
Die
vom Informationsverteilungszentrum 3612 gesendeten Wortschatzdaten
können
Befehle definieren, die ein Benutzer in eine Steuervorrichtung 3618 sprechen
kann. Die Vorrichtung 3618 kann eine beliebige Vorrichtung
sein, die als Reaktion auf vom Benutzer zugeführte Befehle betätigt werden
kann, und die vorliegende Erfindung ist in dieser Hinsicht nicht
beschränkt.
So kann die Vorrichtung 3618 beispielsweise ein Fernsehgerät, ein Stereoempfänger, ein
Videokassettenrekorder, ein Tonbandgerät, ein Compact-Disk-Abspielgerät (ein CD-Player),
ein Video-Disc-Abspielgerät,
ein Videospielgerät
oder ein Computer sein. Veranschaulichend wird davon ausgegangen,
dass die Vorrichtung 3618 ein Computer ist, der in einen
geschalteten Stromausgang der Anschlusseinheit 3616 eingesteckt
ist und der einem Benutzer das Steuern eines Ein- und Ausschaltens
des Computers durch das jeweilige Aussprechen der Befehle „STROM
EINSCHALTEN" und „STROM
AUSSCHALTEN" ermöglichen
soll. Das Informationsverteilungszentrum 3612 würde dann
ein Befehlsvokabular aus den Worten STROM, EINSCHALTEN und AUS SCHALTEN
definierende Phonem- oder Templatwortschatzdaten an die Anschlusseinheit 3616 senden.
Wenn der Benutzer entweder „STROM
EINSCHALTEN" oder „STROM
AUSSCHALTEN" sagt
und der Anschlusseinheit 3616 die dem Befehl entsprechenden
Sprachdaten unter Verwendung einer der vorstehend beschriebenen
Anordnungen zugeführt
wurden, führt
der Prozessor der Anschlusseinheit 3616 den Spracherkennungsalgorithmus
aus, um den gesprochenen Befehl mit den das Befehlsvokabular repräsentierenden
Phonem- oder Templatdaten zu vergleichen, um den gesprochenen Befehl
zu erkennen. Die Anschlusseinheit 3616 steuert dann die
Vorrichtung 3618 in geeigneter Weise, d.h. entweder durch
Ein- oder durch Ausschalten des Computers. Da der Computer an einen
geschalteten Stromausgang der Anschlusseinheit 3616 angeschlossen
ist, wie vorstehend beschrieben, wird das Ein- und Ausschalten des
Computers intern in der Anschlusseinheit 3616 implementiert.
Die vorliegende Erfindung ist jedoch auch auf Situationen anwendbar,
in denen der erkannte Befehl zur Ausführung über eine Kommunikationsverbindung
an die Vorrichtung 3618 weitergeleitet wird. Eine derartige
Kommunikationsverbindung kann beispielsweise das Internet, eine
Infrarotverbindung, eine Funkfrequenzverbindung, ein Koaxialkabel,
ein Telefonnetz, ein Satellitensystem oder eine optische Faser sein,
wobei die Erfindung in dieser Hinsicht keinen Einschränkungen
unterliegt.
-
Die
Wortschatzdaten können
alternativ oder zusätzlich
Wörter
und Befehle definieren, die ein Benutzer aussprechen kann, um auf
vom Informationsverteilungszentrum 3612 gesendete Informationen
zuzugreifen. Dieses Merkmal ermöglicht
einem Benutzer das Ausführen
von Aufgaben, die mit einer menügesteuerten
Benutzerschnittstelle sehr schwierig auszuführen wären. Dieses Merkmal kann beispielsweise
zum Ausführen
einer Suche nach einem Schlüsselwort
in den Titeln der vom Informationsverteilungszentrum 3612 gesendeten Nachrichtenartikel
unter Verwendung eines Befehls „SCHLÜSSEL-WÖRTER
SUCHEN" verwendet
werden. Genauer bestimmt das Informationsverteilungszentrum 3612,
welche einzelnen Wörter
als Schlüsselwörter dienen
sollen, und erzeugt ein „Phonem-
oder Templatwörterbuch", das die Schlüsselwörter durch
Phoneme bzw. Template darstellt. Das Informationsverteilungszentrum 3612 sendet
die neuen Artikel und das Wörterbuch
an die Anschlusseinheit 3616, wo sie in einem Speicher
gespeichert werden. Für
jedes Schlüsselwort erzeugt
die Anschlusseinheit 3616 unter Verwendung des Wörterbuchs
die entsprechende Phonem- oder Templatfolge. Die Folge wird dann
als einzelne, erkennbare Äußerung im
Spracherkennungsalgorithmus „angemeldet", d.h. sie wird ein
Grundbestandteil des Vokabulars des Spracherkennungsalgorithmus.
Die Anmeldung umfasst die Spezifikation einer Identifikation für die Phonem-
bzw. Templatfolge, die ein numerischer Wert oder das Schlüsselwort
selbst sein kann. Spricht der Benutzer den Befehl „SCHLÜSSELWÖRTER SUCHEN" aus, wird beispielsweise
auf einer der Anschlusseinheit 3616 zugeordneten Anzeigevorrichtung
oder auf einem mit der Anschlusseinheit 3616 verbundenen
Computer eine diesem Befehl zugeordnete Anzeige bereitgestellt.
Der Benutzer kann dann einen Befehl „NUR SCHLÜSSELWORT" aussprechen, um die Suche durch die
Anschlusseinheit 3616 auf vom Informationsverteilungszentrum 3612 gesendete
Nachrichtenartikel zu begrenzen, in deren Titel das ausgesprochene
SCHLÜSSELWORT
enthalten ist. Der Benutzer kann dann zusätzliche Schlüsselwörter aussprechen,
um die Suche zu verfeinern, oder die Nachrichtenartikel mit dem ausgesprochenen
Schlüsselwort
im Titel ansehen. Es ist leicht zu erkennen, dass das Ausführen einer
derartigen Aufgabe unter Verwendung einer herkömmlichen, menügesteuerten
Benutzerschnittstelle extrem schwierig wäre.
-
Die 37A, 37B und 37C sind ein Blockdiagramm eines Bezahlfernsehsystems,
in das die vorliegende Erfindung integriert ist. Es ist natürlich offensichtlich,
dass die vorliegende Erfindung auch auf andere Informationssysteme
als Bezahlfernsehsysteme angewendet werden kann und dass die Erfindung
in dieser Hinsicht nicht beschränkt
ist. Ein Bezahlfernsehsystem liefert mehreren Abonnentenstellen,
beispielsweise 3720-1, ..., 3720-n (siehe 37C), Informationen. Die Informationen können analoge
Video-, analoge Audio-, digitale Video- und digitale Audiodaten,
Textdienste, wie Nachrichtenartikel, Sportergebnisse, Börsennotierungen,
und Wetterberichte, elektronische Nachrichten, elektronische Programmführer, Datenbankinformationen, Software
einschließlich
Spielprogramme sowie Weitbereichsnetzwerkdaten umfassen, sind aber
nicht darauf beschränkt.
Gemäß 37A umfasst ein Bezahlfernsehsystem mehrere Informationsanbieter 3714-1,
..., 3714-n, die jeweils einen oder mehrere der oben aufgelisteten
Informationstypen anbieten können.
Der Informationsanbieter 3714-2 umfasst beispielsweise
eine Informationsquelle 3715 zum Liefern eines analogen Fernsehsignals
an einen Sender 3718. Der Sender ist mit einer Internet-Aufwärtsverbindung 3721 gekoppelt, die
ein analoges Fernsehsignal 3722-2 sendet. Die Informationsanbieter 3714-1 und 3714-3 liefern
jeweils digitale Informationen von einer Informationsquelle 3715 an
eine jeweilige Codiervorrichtung 3716, die einen codierten
Datenstrom für
eine Übertragung
erzeugt. Die Informationsquelle 3715 der Informationsanbieter 3714-1 und 3714-3 kann
ein Speicher, wie ein optischer Speicher, zum Speichern von Informationen
sein. Wenn einer der Informationsanbieter 3714-1 und 3714-3 eine
Vielzahl von Informationen anbietet, beispielsweise mehrere unterschiedliche
Spielprogramme oder unterschiedliche Typen von Textdiensten oder
mehrere digitale Fernseh- oder Hörfunkprogramme,
kann die Codier vorrichtung 3716 die Informationen multiplexen,
um zum Senden einen gemultiplexten Datenstrom zu erzeugen. Der Datenstrom
von der Codiervorrichtung 3716 wird einem Sender 3718 und
anschließend
einer Internet-Aufwärtsverbindung 3721 zugeführt. Gemäß 37A erzeugt die vom Informationsanbieter 3714-1 betriebene
Codiervorrichtung 3716 beispielhaft ein digitales Datensignal 3722-1,
und die vom Informationsanbieter 3714-3 betriebene Codiervorrichtung 3716 erzeugt
ein digitales Datensignal 3722-3. Jedes der Signale 3722-1, 3722-2 und 3722-3 wird über das
Internet 3723 zu einer Headend-Installation 3725 (siehe 37B) gesendet. Es wird darauf hingewiesen, dass
in dem erfindungsgemäßen System
viele Informationsanbieter existieren können und dass daher mehrere
Signale über
das Internet 3723 an Stellen wie die Headend-Installation 3725 gesendet
werden können.
Obwohl dies nicht gezeigt ist, können
Signale an anderen Stellen als einer Headend-Installation empfangen
werden, beispielsweise am Standort eines Direktrundfunkdienstabonnenten
(eines DBS-Abonnenten). Obwohl die Verbindung zwischen den Informationsanbietern
und der Headend-Installation als Netzwerkverbindung dargestellt ist,
unterliegt die Erfindung zudem in dieser Hinsicht keinen Einschränkungen.
Dementsprechend kann die Verbindung beispielsweise ein Koaxialkabel,
ein Telefonnetz, ein Satellitensystem, das Internet, eine Funkfrequenzverbindung
(eine RF-Verbindung)
oder eine optische Faser oder jede Kombination aus diesen sein.
Obwohl die Informationsanbieter gemäß 37A von
der Headend-Installation 3725 entfernt angeordnet sind, können sich
ferner ein oder mehrere Informationsanbieter physisch an der gleichen
Stelle wie die Headend-Installation 3725 befinden.
-
Gemäß 37B liefert eine Internet-Abwärtsverbindung 3724 an
der Headend-Installation 3725 empfangene Signale 3722-1, 3722-2 und 3722-3.
Die Headend-Installation 3725 dient als Kommunika tionsnabe, die
eine Schnittstelle zu den verschiedenen Informationsanbietern herstellt
und sie auf einer an Bedingungen geknüpften Basis mit den Standorten 3720-1,
..., 3720-n der Teilnehmer verbindet. Das empfangene digitale Datensignal 3722-1 wird
beispielsweise einem Empfänger 3726-1 und
dann einem Modulator 3728-1 zugeführt, von dem es auf einen eigenen
Kabelkanal moduliert wird. Der Modulator 3728-1 kann jede
geeignete Modulationstechnik, wie eine Quadraturteilreaktionsmodulation
(QPR-Modulation), verwenden. Ein empfangenes analoges Fernsehsignal 3722-2 wird
einem Empfänger 3726-2,
anschließend
zum Zerhacken einem Scrambler 3730 und daraufhin einem
Modulator 3728-2 zugeführt,
von dem er auf einen eigenen Kabelkanal moduliert wird. Wie nachstehend
im Einzelnen besprochen, fügt
der Scrambler 3730 auch bandinterne Daten in das analoge
Fernsehsignal 3722-2 ein. Es ist offensichtlich, dass ähnlich zusätzliche
Empfänger,
Modulatoren und wahlweise Scrambler für von anderen, entweder lokalen
oder entfernten (nicht dargestellten) Informationsanbietern empfangene,
digitale und analoge Informationssignale vorgesehen sein können.
-
Das
empfangene digitale Datensignal 3722-3 wird einem Informationssignalprozessor
(ISP) 3742 zugeführt,
so dass es unter Verwendung so genannter bandinterner oder Außerbandübertragungen
gesendet werden kann. Weitere (nicht gezeigte) Datenströme von anderen
Informationsanbietern können
ebenfalls dem ISP 3742 zugeführt werden. Der ISP 3742 ist
für den
Empfang des einen bzw. der mehreren Datensignale und das anschließende Senden
der Daten an die Teilnehmeranschlussstellen verantwortlich, wie
nachstehend beschrieben. Der ISP 3742 liefert dem Scrambler 3730 Daten.
Der ISP 3742 kann abhängig
von Faktoren, wie der Menge der zu sendenden Daten und der Geschwindigkeit,
mit der die Daten zugeführt
und aktualisiert werden müssen,
weiteren Scramblern Daten liefern. Vom Scrambler 3730 werden
wiederholt Daten gesendet. Ist nur ein Scrambler vorhanden und es
müssen
große
Datenmengen gesendet werden, ist die Wiederholungsrate langsam.
Die Verwendung von mehr als einem Scrambler ermöglicht eine Steigerung der
Wiederholungsrate.
-
Genauer
platziert der Scrambler 3730 Daten zur Übertragung an Abonnenten bandintern
und zerhackt das zugehörige
analoge Fernsehsignal 3722-2. Bei einer Konstruktion werden
die Daten in der vertikalen Austastlücke des Fernsehsignals platziert,
doch die Daten können
an anderer Stelle in dem Signal platziert werden, und die Erfindung
unterliegt in dieser Hinsicht keinen Einschränkungen. Daten können beispielsweise
auf einen Klangträger
amplitudenmoduliert werden, wie allgemein bekannt. Im hier verwendeten
Sine bedeutet bandinternes Senden das Senden von Daten in einem
Videofernsehkanal, der sowohl Audio- als auch Videoträger enthält. Daher
können
von dem ISP 3742 die nachstehend als bandinterne Audiodaten
bezeichneten Daten mittels einer Amplitudenmodulation auf dem Tonträger bzw.
die nachstehend als bandinterne Videodaten bezeichneten in den vertikalen
oder horizontalen Austastlücken
eines analogen Fernsehsignals gesendet werden. Der ISP 3742 kann
auch so beschaffen sein, dass der die zu sendenden Daten während nicht
genutzter Abschnitte eines digitalen Datenstroms, wie eines komprimierten
MPEG-Videodatenstroms, zuführt.
Der ISP 3742 kann Informationen auch lokal empfangen und/oder
erzeugen. Der ISP 3742 kann beispielsweise bevorstehende
Ereignisse, Dienstunterbrechungen oder Veränderungen betreffende Nachrichten
erzeugen, die an Teilnehmer gesendet werden sollen. Werden sie von
einem Informationsdienstanbieter empfangen, können die Informationen. entweder
unverändert
oder vom ISP 3742 neu formatiert gesendet und dann zur Übertragung
an die Teilnehmer einem Scrambler 3730 zugeführt werden.
-
Der
ISP 3742 leitet auch Informationen an eine Steuereinheit
3732 am vorderen Ende (einen „HEC" 3732, head
end controller) weiter, die mit dem Scrambler 3730 und
einem Außerbandsender 3734 verbunden ist.
Obwohl der HEC 3732 gemäß der Darstellung
mit dem gleichen Scrambler 3730 verbunden ist, wie der
ISP 3742, kann der HEC 3732 tatsächlich mit
einem anderen Scrambler bzw. mit anderen Scramblern verbunden sein.
Der HEC 3732 kann zweckmäßigerweise ein Scientific-Atlanta
Modell 8658 zur Steuerung der Übertragung der Daten an den
Scrambler 3730 und den Außerbandsender 3734 sein.
Wie vorstehend ausgeführt, platziert
der Scrambler 3730 Daten zum Senden an Abonnenten neben
dem Zerhacken eines zugehörigen Fernsehsignals
bandintern. Ein Außerbandsender 3734 sendet
Informationen auf einem separaten Träger, d.h. nicht innerhalb eines
Kanals. Bei einer Implementierung liegt der Außerbandträger bei 108 MHz, es können jedoch
auch andere Außerbandträger verwendet
werden. Die unter der Steuerung des HEC 3732 gesendeten
Informationen können
beispielsweise dechiffrierte Daten sein. Bei einer Anordnung werden
Informationen in jede vertikale Austastlücke eingefügt, um den im nächsten Videofeld
verwendeten Typ der Zerhackung anzuzeigen. Zerhackersysteme sind
in der Technik allgemein bekannt. So können beispielsweise eine Synchronisationsunterdrückungszerhackung,
eine Videoinversionszerhackung und dergleichen oder eine Kombination
von Zerhackungstechniken verwendet werden. Fernern können Autorisationsinformationen
gesendet werden. Autorisationsinformationen autorisieren Teilnehmer
zum Empfangen bestimmter Kanäle
bzw. Programme. Informationen vom ISP 3742 und/oder vom
HEC 3732 können
auch über
nicht zerhackte Kanäle
als bandinterne Audio- oder Videodaten über (nicht gezeigte) Date nentzerrer,
wie einen Datenentzerrer Modell 8556-100 von Scientific-Atlanta, gesendet
werden.
-
Einige
der gesendeten Informationen sind global, d.h, sie werden an jeden
Teilnehmer gesendet. So können
beispielsweise die Enthackerdaten global gesendet werden. Es wird
darauf hingewiesen, dass, nur weil jeder Teilnehmer die Enthackerdaten
empfängt,
dies nicht bedeutet, dass jede Teilnehmeranschlusseinheit ein empfangenes
Signal enthacken kann. Vielmehr können nur autorisierte Teilnehmeranschlusseinheiten das
empfangene Signal enthacken. Andererseits können einige Informationsübertragungen
adressierte Übertragungen
sein. Autorisierungsinformationen werden beispielsweise normalerweise
an einzelne Teilnehmer adressiert. Dies bedeutet, dass die Daten
eine ihnen zugeordnete Adresse (beispielsweise die Seriennummer einer
Teilnehmeranschlusseinheit) enthalten. Die adressierte Teilnehmeranschlusseinheit
empfängt
die Informationen und antwortet entsprechend. Andere Teilnehmeranschlusseinheiten
ignorieren die Daten. Ferner können
an Gruppen adressierte Daten vorgesehen sein, die Gruppen von Teilnehmeranschlusseinheiten
beeinflussen.
-
Die
Ausgänge
der Modulatoren 3728-1, 3728-2, jedweder weiterer
Modulatoren und des Außerbandsenders 3734 werden
einem Kombinator 3736 zugeführt, der die einzelnen Kanäle zu einem
einzigen Breitbandsignal kombiniert, das dann über ein Verteilernetz 3738 an
mehrere Teilnehmerstandorte 3720-1, ..., 3720-n gesendet
wird (siehe 37C). Das Verteilernetz 3738 kann
beispielsweise einen oder mehrere optische Sender 3740,
einen oder mehrere optische Empfänger 3742 und
ein Koaxialkabel 3744 umfassen.
-
Wie
in 37B gezeigt, kann ein Bezahlfernsehsystem
mehrere Headend-Installationen umfassen, die jeweils Stellen in
einer be stimmten Stadt oder geographischen Region Informationen
liefern. Eine zentrale Steuerung 3746 kann zur Koordinierung
der Funktionen der verschiedenen Headend-Installationen eines Bezahlfernsehsystems
vorgesehen sein. Die zentrale Steuerung 3746 ist häufig der
Zentrale eines Anbieters mehrerer Dienste zugeordnet und kann mit
Headend-Installationen in vielen Städten kommunizieren und diese steuern.
Die zentrale Steuerung 3746 umfasst einen Systemsteuerungscomputer 3748,
der die übrigen
Komponenten der zentralen Steuerung 3746 anweist. Ein Beispiel
eines Systemsteuerungscomputers 3748 ist ein Scientific-Atlanta
System Manager 3610 Network Controller. Die zentrale Steuerung 3746 kann
beispielsweise Rechnungsstellungsdienste einschließlich der
Rechnungsstellung für
die Inanspruchnahme gebührenpflichtigen
Fernsehens für
den Dienstanbieter anbieten. Ein Rechnungsstellungscomputer 3750 speichert
Rechnungsdaten und kann Rechnungen auch formatieren und ausdrucken.
Die Kommunikation zwischen dem Systemsteuerungscomputer 3748 und
dem HEC 3732 kann über
en Modem erfolgen, obwohl die Erfindung in dieser Hinsicht keinen
Einschränkungen
unterliegt. Die Autorisationsdaten können von dem Systemsteuerungscomputer 3748 an
den HEC 3732 gesendet werden. Der HEC 3732 formatiert
die Autorisationsdaten dann in geeigneter Weise und sendet die formatierten
Autorisationsdaten entweder bandintern über den Scrambler 3730 oder
außerhalb
des Bands über
einen Außerbanddatensender 3734 an
die Teilnehmeranschlusseinheiten, wie vorstehend besprochen.
-
Die
Headend-Installation 3725 umfasst auch einen Funkfrequenzprozessor 3752 zum
Empfangen einer Rückwärtspfaddatenkommunikation
von den Teilnehmerstandorten 3720-1, ..., 3720-n.
Diese Datenkommunikation kann Rechnungsstellungsinformationen für Impulskäufe beim
zahlungspflichtigem Fernsehen, die an einen Systemsteuerungscomputer 3748 weitergeleitet
werden, und ebenso Teilnehmeranforderungen von in Headend-Installationen 3725 gehaltenen
Datenbankinformationen umfassen. Ein Datenbankserver 3754, wie
ein Oracle RTM Datenbankserver kann beispielsweise Zugriff auf Nachschlagewerke,
wie Enzyklopädien, Atlasse,
Wörterbücher und
dergleichen gewähren.
Die Teilnehmeranfrage wird von dem Funkfrequenzprozessor 3752 an
einen Informationsanforderungsprozessor 3756 weitergeleitet,
der auf die angeforderten Informationen in der Datenbank 3754 zugreift
und die angeforderten Informationen beispielsweise über eine
adressierte bandinterne bzw. Außerbandtransaktion
an den anfordernden Teilnehmer weiterleitet, wie vorstehend beschrieben.
Zudem kann der Informationsanforderungsprozessor 3756 auch
auf ein Kommunikationsnetzwerk 3758 zugreifen, um einem
Benutzer Zugriff auf andere Dienste, wie Bankdienste, zu gewähren.
-
Wenn
die Menge der zwischen der Headend-Installation und den Teilnehmerstandorten übertragenen Daten
zunimmt, wird wahrscheinlich vermehrt von Außerband- und digitalen Übertragungen
Gebrauch gemacht. So kann dem Senden von digitalen (nicht Video-)
Daten sowohl auf dem vorwärts
gerichteten Kanal (zur Teilnehmeranschlusseinheit) als auch auf
dem rückwärts gerichteten
Kanal (von der Teilnehmeranschlusseinheit) beispielsweise eine Bandbreite
von 50 MHz zugeordnet werden. Ebenso können digitalem Video 200 MHz
oder mehr und analogem Video 300 bis 500 MHz zugeordnet werden.
Obwohl vorstehend verschiedene veranschaulichende Sendetechniken
besprochen wurden, ist die vorliegende Erfindung dementsprechend
in keinerlei Hinsicht durch die Art und Weise eingeschränkt, in
der Informationen zwischen der Headend-Installation und den Teilnehmerstandorten
ausgetauscht werden.
-
Gemäß 37C umfasst jeder Teilnehmerstandort 3720-1,
..., 3720-n eine mit einem Verteilernetzwerk 3738 verbundene
Teilnehmeranschlusseinheit 3760. Teilnehmerstandort bezeichnet
im hier verwendeten Sinne jede in Bezug auf die Headend-Installation 3725 entfernt
angeordnete Stelle. Erfindungsgemäß kann ein Teilnehmeranschluss
beispielsweise in einem Privathaushalt, einem Klassenzimmer, einem
Hotelzimmer, einem Krankenhauszimmer oder einem Büro angeordnet
sein. Jede Teilnehmeranschlusseinheit 3760 kann mit einer
oder mehreren Vorrichtungen 3762-1, ..., 3762-n verbunden
sein. Die Vorrichtungen 3762-1, ..., 3762-n können zum
Betrieb als Reaktion auf vom Benutzer zugeführte Befehle geeignete Vorrichtungen
umfassen, wobei die vorliegende Erfindung in dieser Hinsicht keiner
Einschränkung
unterliegt. So können
die Vorrichtungen Fernsehgeräte,
Stereoempfänger,
Videokassettenrekorder (VCRs), Tonbandgeräte, Compact-Disk-Abspielgeräte (CD-Player)
Video-Disk-Abspielgeräte, Videospielgeräte, Computer
und dergleichen umfassen. Bestimmte von diesen Vorrichtungen können operativ
untereinander verbunden sein. So ist die Vorrichtung 3762-1 gemäß 37C mit der Vorrichtung 3762-2 verbunden.
Die Vorrichtung 3762-2 kann beispielsweise ein Fernseher
und die Vorrichtung 3762-1 ein Videokassettenrekorder sein.
Zum Zwecke der Besprechung wird davon ausgegangen, dass die Vorrichtung 3762-1 ein
Videokassettenrekorder und die Vorrichtung 3762-2 ein Fernsehgerät ist. Eine
oder mehrere der Vorrichtungen 3762-1, ..., 3762-n kann
bzw. können
mit geschalteten Stromausgängen
der Teilnehmeranschlusseinheit 3760 verbunden sein, wodurch
die Teilnehmeranschlusseinheit 3760 intern das Ein- und
Ausschalten dieser Vorrichtungen veranlassen kann. Eine Fernsteuereinheit 3766 übermittelt über eine
Kommunikationsverbindung 3768 Informationen an die Teilnehmeranschluss einheit 3760.
Die Kommunikationsverbindung 3768 kann beispielsweise eine
Infrarotverbindung sein.
-
Sprachübersetzung
-
Das
System nutzt ein Lexikon und einen beschränkten Satz grammatikalischer
Regeln zur Übersetzung
von Sprachen. Das Lexikon umfasst linguistische Einheiten, die in
vier Klassen unterteilt sind. Jede linguistische Einheit ist (1)
ein einziges Wort, wie „Hund" oder „Regierung", (2) eine Kombination
von Wörtern, wie „Parkplatz" oder „Premierminister", (3) ein Eigenname,
(4) ein Wort mit einer für
die Erfindung einzigartigen Definition oder (5) eine Form eines
Worts mit mehreren Bedeutungen. In dem zuletzt genannten Fall repräsentiert
jede der Definitionen des Worts eine andere linguistische Einheit,
wobei die verschiedenen Definitionen als Einträge in unterschiedlichen Formklassen
erscheinen können.
Zum Zwecke der Automatisierung wird jede Definition beispielsweise
durch die Anzahl der am Ende des Worts erscheinenden Punkte unterschieden.
Der Eintrag für
die erste (beliebig zugewiesene) Definition ist ohne Punkt aufgelistet,
der die zweite Definition repräsentierende
Eintrag ist mit einem Punkt an seinem Ende aufgelistet, etc. Alternativ
können
unterschiedliche Wortbedeutungen beispielsweise unter Verwendung
von tiefgestellten Zeichen numerisch identifiziert werden.
-
Für die Erfindung
einmalige Wörter
können
einen geringen Anteil des gesamten Lexikons ausmachen, und keines
dieser Wörter
ist für
die Erfindung spezifisch oder fremd für die natürliche Sprache, auf der es
basiert. Stattdessen wird die Bedeutung erfindungsspezifischer Wörter erweitert,
um die Gesamtanzahl der Begriffe im Lexikon zu begrenzen. Bei einer
bevorzugten Implementierung wird das Wort „verwenden" beispielsweise so erweitert, dass es
die Verwendung je des Objekts für
seinen primär
beabsichtigten Zweck bezeichnet, so dass der Begriff in dem Satz „Johannes
verwenden Buch" der
Begriff lesen bedeutet. Das Wort „am" kann zur Bezeichnung eines Zeitpunkts
(beispielsweise (ich-gehe-zum-Ballspiel) am gestern) verwendet werden. Wird
dies zur Vereinfachung der Verwendung gewünscht, kann auf erfindungsspezifische
Wörter
jedoch vollständig
verzichtet und das Lexikon dementsprechend erweitert werden.
-
Das
System unterteilt das globale Lexikon der zulässigen Begriffe in vier Klassen: „Dinge" oder nominale Begriffe,
die beispielsweise Menschen, Orte, Gegenstände, Aktivitäten oder
Ideen bezeichnen und hier durch den Code T bezeichnet sind, „Verbindungen", die Beziehungen
zwischen zwei (oder mehr) nominalen Begriffen (einschließlich typischerweise
als Präpositionen
und Konjugationen beschriebenen Wörtern und Begriffen, die Beziehungen
in Begriffen von Tätigkeiten,
Befindlichkeiten und Daseinszuständen
beschreiben) aufzeigen und hier durch C bezeichnet sind, „Deskriptoren", die den Zustand
eines oder mehrerer nominaler Begriffe (einschließlich Wörtern, die
typischerweise als Adjektive, Adverbien und intransitive Verben
beschrieben werden) verändern
und hier durch D identifiziert sind, sowie „logische Verbindungen", die Gruppen hier durch
C identifizierter nominaler Begriffe festlegen. Die bevorzugten
logischen Verbindungen sind „und" und „oder".
-
Natürlich kann
das Lexikon keine Liste möglicher
Eigennamen enthalten und tut dies auch nicht, stattdessen werden
Eigennamen, wie andere von der Erfindung nicht erkannte Wörter, in
eckige Klammern gesetzt zurückgemeldet,
um anzuzeigen, dass keine Übersetzung
vorgenommen wurde. Das System erkennt auch keine Verbformen, Verbindungen
werden im Präsens
ausgedrückt,
da die Zeit leicht aus dem Kontext ersichtlich ist. Die Konjugation
kann nichts destotrotz angegeben werden, allerdings durch die Angabe
einer Zeit, eines Tags und/oder eines Datums.
-
Erfindungsgemäße Sätze werden
nach Maßgabe
von vier Erweiterungsregeln aus Begriffen aus dem Lexikon konstruiert.
Die grundlegendsten Sätze
gehen von einer der folgenden drei Konstruktionen aus (von denen
jede nach Maßgabe
der nachstehend ausgeführten
Erweiterungsregeln aus einem Begriff T erzeugt werden kann). Diese
Strukturen, die die kleinsten möglichen
Wortgruppen repräsentieren,
von denen angenommen wird, dass sie Informationen übermitteln,
sind die Bausteine komplexerer Sätze.
Ihre strukturelle Einfachheit erleichtert eine prompte Übersetzung
in umgangssprachliche Sätze
in einer natürlichen
Sprache; daher werden erfindungsgemäß selbst komplexe Sätze durch
eine modulare Analyse der grundlegenderen Satzbestandteile leicht
in Äquivalente
in einer natürlichen
Sprache übertragen
(ein Prozess, der durch die später beschriebenen,
bevorzugten Repräsentationen
vereinfacht wird).
-
Die
Grundstruktur 1 (BS1) wird durch Anordnen eines Deskriptors hinter
einem nominalen Begriff zur Bildung der Struktur TC erzeugt. BS1-Sätze, wie „Hund braun" oder „Hans schwimmen" lassen sich leicht
in die deutschen Sätze „Der Hund
ist braun." (bzw.
die Phrase „der
braune Hund" bzw. „Hans schwimmt." übertragen.
-
BS2
wird durch Anordnen einer Verbindung zwischen zwei nominalen Begriffen
zur Erzeugung der Struktur TCT gebildet. BS2-Sätze,
wie „Hund
essen Nahrung" lassen
sich leicht in ihre deutschen Äquivalente übertragen.
-
BS3
wird durch Anordnen einer logischen Verbindung zwischen zwei nominalen
Begriffen zur Bildung einer durch die Struktur TCT repräsentierten
Folge gebildet. Die Folge kann eine einzelne Verbindung, wie „Hans und
Franz" oder eine
zusammengesetzte Struktur, wie „Hans und Franz und Fred und
Julia" oder „rot oder
blau oder grün", sein.
-
Ein
Satz, der eine oder mehrere der vorstehend beschriebenen Grundstrukturen
umfasst, kann unter Verwendung der folgenden Regeln erweitert werden.
-
Regel
I: Zu einem nominalen Begriff wird ein Deskriptor hinzugefügt (T → TD).
-
Gemäß Regel
I kann jede linguistische Einheit der nominalen Klasse zu dem ursprünglichen
Objekt gefolgt von einem neuen Objekt aus der Klasse der Deskriptoren
erweitert werden, wodurch das ursprüngliche Objekt verändert wird.
Aus „Hund" wird beispielsweise „Hund groß". Wie sämtliche
erfindungsgemäßen Regeln
ist die Regel I bei dieser Anwendung nicht auf einen isolierten
nominalen Begriff beschränkt
(obwohl dies ist, wie BS1-Sätze
gebildet werden), stattdessen kann sie unabhängig von der Position innerhalb
eines größeren Satzes
auf jeden nominalen Begriff angewendet werden. Daher gilt nach Regel
1 TD1 → (TD2)D1.
So wird aus „Hund
groß" beispielsweise „(Hund
braun) groß" (was dem deutschen
Satz „Der
braune Hund ist groß." entspricht).
-
Bei
aufeinander folgenden Adjektiven kann die Reihenfolge des Hinzufügens wesentlich
sein, muss es aber nicht, da sie T unabhängig verändern; bei „(Hund groß) braun" unterscheidet das Adjektiv „groß" beispielsweise diesen
Hund von anderen Hunden, und „braun" beschreibt ein Merkmal,
von dem angenommen wird, dass es dem Zuhörer ansonsten unbekannt ist.
Die Reihenfolge des Hinzufügens
ist fast immer wesentlich, wenn ein Begriff D ein intransitives
Verb ist. So wird beispielsweise durch eine Erweiterung des Satzes
TD „Hund
rennen" (was „der Hund
rennt" oder „der rennende
Hund" ent spricht)
durch Hinzufügen
des Deskriptors „schnell" nach Regel I „(Hund
schnell) rennen" gebildet
(was „der
schnelle Hund rennt" entspricht).
Um „der Hund
rennt schnell" auszudrücken, muss
der TD-Satz „Hund schnell" mit dem Deskriptor „rennen" zu „(Hund rennen)
schnell" erweitert
werden.
-
Durch
eine Anwendung der Erweiterungsregel I auf die Struktur BS2 ergibt
sich TCT → (TD)CT.
So wird aus „Hund
essen Nahrung" beispielsweise „(Hund
groß)
essen Nahrung".
Die Regel I kann auch auf zusammengesetzte nominale Begriffe in
der Form TCT angewendet werden, so dass eine BS3-Struktur TCT → (TCT)D
wird. So wird aus „Mutter
und Vater" beispielsweise „(Mutter
und Vater) fahren".
Auf diese Weise können
mehrere nominale Begriffe zu Modifikationszwecken entweder verbindend
oder alternativ kombiniert werden. Es wird darauf hingewiesen, dass
Verben mit transitiven Bedeutungen, wie „fahren" sowohl als Verbindungen als auch als
Deskriptoren in der Datenbank enthalten sind. Ein weiteres Beispiel
ist das Verb „kentern", das sowohl intransitiv
(„Boot
kentern") als auch
transitiv („Kapitän kentern
Boot") sein kann.
-
Regel
IIa: Zu einem nominalen Begriff werden eine Verbindung und ein weiterer
nominaler Begriff hinzugefügt
(T → TCT)
Nach Regel IIa kann jede linguistische Einheit der nominalen Klasse
durch eine von zwei nominalen Einträgen umgebene Verbindung ersetzt
werden, von denen einer die ursprüngliche linguistische Einheit
ist. So wird beispielsweise aus „Haus" „Haus
auf Hügel". Die Anwendung der
Erweiterungsregel IIa auf BS1 ergibt TD → (TCT)D; so wird aus „düster Haus" beispielsweise „(Haus
auf Hügel)
düster" bzw. „das Haus auf
dem Hügel
ist düster".
-
Die
Regel IIa kann zum Hinzufügen
eines transitiven Verbs und seines Objekts verwendet werden. Der zusammengesetzte
Begriff „Mutter
und Vater" kann
beispielsweise zu „(Mutter
und Vater) fahren Auto" erweitert
werden.
-
Regel
IIb: Zu einem nominalen Begriff werden eine logische Verbindung
und ein weiterer nominaler Begriff hinzugefügt (T → TCT) Nach Regel IIb kann jede
linguistische Einheit aus der nominalen Klasse durch eine von zwei
nominalen Einträgen
umgebene Verbindung ersetzt werden, von denen einer die ursprüngliche linguistische
Einheit ist. Aus „Hund" wird beispielsweise „Hund und
Katze".
-
Erneut
kann für
die Zwecke der Regeln IIa und IIb ein nominaler Begriff eine Zusammensetzung
sein, die aus zwei oder mehr durch eine Verbindung verbundenen nominalen
Begriffen besteht. Die Erweiterung „(Hans und Franz) gehen Markt" erfüllt beispielsweise
die Regel IIa. Bei einer anschließenden Anwendung der Regel
I kann dieser Satz weiter auf „((Hans
und Franz) gehen Markt) zusammen" erweitert
werden.
-
Regel
III: Zu einem Deskriptor werden eine logische Verbindung und ein
weiterer Deskriptor hinzugefügt
(D → DCD)
Nach Regel III kann ein Deskriptor durch eine von zwei Deskriptoren
umgebene logische Verbindung ersetzt werden, von denen einer der
ursprüngliche
ist. So wird aus „groß" beispielsweise „groß und braun". Die Anwendung der
Erweiterungsregel III auf BS1 ergibt TD → T(DCD); so wird aus „Hund groß" (dem Äquivalent
von „der
Hund ist groß" oder „der große Hund") beispielsweise „Hund (groß und braun)" (dem Äquivalent
von „der
Hund ist groß und
braun" oder „der große braune
Hund").
-
Die
Art und Weise, in der diese Regeln erfindungsgemäß zur Bildung akzeptabler Sätze angewendet werden,
ist in 38 gezeigt. Ausgehend von einem
unter 3810 gezeigten nominalen Begriff, wie Katze, kann nach
jeder der Erweiterungsregeln I, IIa und IIb jede der drei Grundstrukturen
gebildet werden, wie jeweils unter 3812, 3814, 3816 gezeigt,
um „Katze
gestreift" (BS1), „Katze
auf Sofa" (BS2)
oder „Katze
und Susi" (BS3) zu
erzeugen. Durch die unter 3818 und 3820 gezeigte
wiederholte Anwendung der Erweiterungsregel IIa werden Strukturen
mit den Formen TC1 T1 → (TC1
T1) C2 T2 bzw. „((Katze
auf Sofa) essen Maus)" und
(TC1 T1) C2 T2 → ((TC1
T1) C2 T2) C3 T3 bzw. „(((Katze
auf Sofa) essen Maus) mit Schwanz)" erzeugt. Die Erweiterungsregel I kann
an jedem Punkt auf eine linguistische Einheit T angewendet werden,
wie unter 3822 (zur Modifikation der ursprünglichen
Einheit T, Katze, zur Erzeugung von „(glücklich Katze) auf Sofa") und 3824 (zur Modifikation
durch „essen
Maus") gezeigt.
Die Regel III kann ebenfalls angewendet werden, wie unter 3826 (zur
weiteren Modifikation von Katze zur Erzeugung von (((glücklich und
gestreift) Katze) auf Sofa) und 3828 (zur weiteren Modifikation
durch „essen
Maus") gezeigt.
-
Die
Erweiterungsregel I kann wiederholt angewendet werden, wie unter 3812, 3830 gezeigt,
um die ursprüngliche
Einheit T weiter zu modifizieren (obwohl, wie unter 3830 hervorgehoben,
ein Deskriptor kein Adjektiv sein muss). Die Erweiterungsregel IIa
ist verfügbar,
um eine Tätigkeit
der modifizierten Einheit T zu zeigen (wie unter 3832 dargestellt);
und die Regel I kann verwendet werden, eine neu eingefügte Einheit
T zu modifizieren (wie unter 3834 dargestellt). Die Regel
I kann auch zur Modifikation (im weiteren Sinne der Erfindung) eines
mittels der Regel IIb gebildeten, zusammengesetzten Subjekts verwendet
werden, wie unter 3836 dargestellt.
-
Die
Reihenfolge, in der linguistische Einheiten zusammengesetzt werden,
kann die Bedeutung stark beeinflussen. So kann die Erweiterung TC1
T1 → (TC1
T1) C2 T2 beispielsweise mehrere Formen annehmen. Das Konstrukt „Katze
schlagen (Ball auf Sofa)" übermittelt
eine andere Bedeutung als „Katze
schlagen Ball (auf Sofa)".
In ersteren Fall befindet sich der Ball definitiv auf dem Sofa,
in letzterem findet der Vorgang auf dem Sofa statt. Der Satz „(Frank
wollen Auto) schnell" zeigt
an, dass der Vorgang rasch erfolgen sollte, während „(Frank wollen (Auto schnell)" bedeutet, dass sich
das Auto schnell fortbewegen sollte.
-
Ein
komplexeres Beispiel der vorstehend ausgeführten Erweiterungsregeln, das
die Verwendung des Systems zur Repräsentation einer Diskussion
in einer natürlichen
Sprache darstellt, ist in der folgenden Tabelle aufgeführt. TABELLE
8
-
Eine
repräsentative
Hardwareimplementierung der Erfindung ist in 39 gezeigt.
Wie dort dargestellt, umfasst das System einen bidirektionalen Hauptbus 3900, über den
sämtliche
Systemkomponenten kommunizieren. Die Hauptfolge der die Erfindung
ausführenden
Befehle sowie die nachstehend besprochenen Datenbanken befinden
sich auf einer Massenspeichervorrichtung (wie einer Festplatte oder
einer optischen Speichereinheit) 3902 sowie während des
Betriebs in einem Hauptsystemspeicher 3904. Die Ausführung dieser
Instruktionen und die Erfüllung
der Funktionen der Erfindung erfolgen durch eine Zentraleinheit
(„CPU") 3906.
-
Der
Benutzer interagiert unter Verwendung einer Tastatur 3910 und
einer Positionserfassungsvorrichtung (beispielsweise einer Maus) 3912 mit
dem System. Der Ausgang beider Vorrichtungen kann zur Bezeichnung
von Informationen oder zur Auswahl bestimmter Bereiche einer Bildschirmanzeige 3914 zur
Vorgabe von durch das System auszuführenden Funktionen verwendet
werden.
-
Der
Hauptspeicher 3904 enthält
eine Gruppe von Modulen, die den Betrieb der CPU 3906 und
ihre Interaktion mit den anderen Hardwarekomponenten steuern. Ein
Betriebssystem 3920 leitet die Ausführung grundlegender Systemfunktionen
auf der untersten Ebene, wie der Speicherzuweisung, der Dateienverwaltung
und des Be triebs von Massenspeichervorrichtungen 3902.
Auf einer höheren
Ebene steuert ein als Folge gespeicherter Anweisungen implementiertes
Analysemodul 3925 das Ausführen der von der Erfindung
ausgeführten
primären
Funktionen, wie nachstehend beschrieben; und eine Benutzerschnittstelle 3930 definierende Anweisungen
ermöglichen
eine direkte Interaktion über
die Bildschirmanzeige 3914. Die Benutzerschnittstelle 3930 erzeugt
Wörter
oder grafische Darstellungen auf der Anzeige 3914, um eine
Aktion des Benutzers zu veranlassen, und nimmt Benutzerbefehle von
der Tastatur 3910 und/oder der Positionserfassungsvorrichtung 3912 an.
-
Der
Hauptspeicher
3904 enthält
auch einen Speicherbereich, der eine Reihe von Datenbanken definiert,
in denen die erfindungsgemäßen linguistischen
Einheiten gespeichert werden können
und die jeweils durch die Bezugszeichen
39351 ,
39352 ,
39353 ,
39354 bezeichnet sind. Die Datenbanken
3935,
die physisch getrennt (d.h. in unterschiedlichen Speicherbereichen
und als separate Dateien in der Speichervorrichtung
3902 gespeichert)
oder logisch getrennt (d.h. als strukturierte Liste, die als mehrere
Datenbanken aufgerufen werden kann, in einem einzigen Speicherbereich
gespeichert) sein können,
enthalten jeweils sämtliche
linguistischen Einheiten, die einer bestimmten Klasse entsprechen,
in mindestens zwei Sprachen. Anders ausgedrückt ist jede Datenbank als
Tabelle organisiert, in deren beiden Spalten sämtliche linguistischen Einheiten der
jeweiligen Klasse in einer einzigen Sprache aufgelistet sind, so
dass jede Zeile die gleiche linguistische Einheit in unterschiedlichen
Sprachen ausgedrückt
enthält,
in die das System übersetzen
kann. Bei der dargestellten Implementierung sind in der Datenbank
39351 nominale Begriffe enthalten, und ein
repräsentatives Beispiel
der Inhalte dieser Datenbank in einer einzigen Sprache (Englisch) – d.h. die
Inhalte einer Spalte einer mehrspaltigen Arbeitsdatenbank – sind in
Tabelle 9 auf gelistet; die Verbindungen sind in der Datenbank
39352 enthalten, wobei eine beispielhafte
Spalte dieser Datenbank in Tabelle 10 wiedergegeben ist; die Deskriptoren sind
in der Datenbank
39353 enthalten,
wobei eine beispielhafte Spalte dieser Datenbank in Tabelle 11 wiedergegeben
ist; und die logischen Verbindungen (am einfachsten, „und" und „oder") sind in der Datenbank
39354 enthalten. TABELLE
9
TABELLE
10
TABELLE
11
-
Ein
Eingangspuffer 3940 empfängt vom Benutzer über die
Tastatur 3910 einen eingegebenen Satz, der vorzugsweise
erfindungsgemäß strukturiert
und wie nachstehend beschrieben formatiert ist. In diesem Fall untersucht
das Analysemodul 3925 anfangs den eingegebenen Satz auf
eine Konformität
mit der Struktur. Anschließend
verarbeitet das Modul 3925 die einzelnen linguistischen
Einheiten des eingegebenen Satzes auf sich wiederholende Weise,
wobei es auf die Datenbanken zugreift, um die jeder linguistischen
Einheit in der gegebenen Sprache entsprechenden Einträge sowie
die entsprechenden Einträge
in der Zielsprache zu lokalisieren. Das Analysemodul 3925 übersetzt
den Satz durch Ersetzen der eingegebenen Einträge durch die einträge in der
Zielsprache und gibt die Übersetzung
in einen Ausgabepuffer 3945 ein, dessen Inhalt auf der
Bildschirmanzeige 3914 erscheint.
-
Es
muss festgehalten werden, dass, obwohl die Module des Hauptspeichers 3904 separat
beschrieben wurden, dies nur der Deutlichkeit der Darstellung diente;
solange das System sämtliche
erforderlichen Funktionen erfüllt,
ist es unwesentlich, wie sie im System und seiner Programmierarchitektur
verteilt sind.
-
Zur
Erleichterung einer zweckmäßigen Analyse
durch das Modul 3925 sind eingegebenen Sätze vorzugsweise
in einem charakteristischen, leicht zu verarbeitenden Format strukturiert,
das sowohl die direkte Identifikation einzelner linguistischer Einheiten
als auch eine einfache Verifikation erleichtert, dass die Folge von
Einheiten nach Maßgabe
der erfindungsgemäßen Erweiterungsregeln
als legitimer Satz in Frage kommt. Bei einem Ansatz (der „Portraitform") erscheint jede
linguistische Einheit eines Satzes in einer separaten Zeile. Wurde
eine Erweiterung angewendet, wird ein Stern (*) verwendet, um zu
markieren, wo die Erweiterung vorgenommen wurde, d.h. der * wird
verwendet, um die Grundsatzstrukturen zur Bildung größerer Sätze miteinander
zu verbinden. Gemäß den Einträgen in 1 repräsentiert
Katze
gestreift
*schlagen*
Ball rot
die Ergebnisse der
Schritte 132 und 134.
-
Alternativ
kann der Satz in einem algebraischen Format (einem „Landschaftsformat") ausgedrückt werden,
in dem Erweiterungen durch Einschließen der Erweiterungsbegriffe
in Klammern identifiziert werden:
(Katze gestreift) schlagen
(Ball rot)
-
In
beiden Fällen
wird die Eingabe des Benutzers als Zeichenfolge behandelt, und das
Modul 3925 identifiziert unter Verwendung von Standardroutinen
zur Analyse von Zeichenfolgen die einzelnen linguistischen Einheiten
und die Erweiterungspunkte. Dann vergleicht es diese mit Templaten,
die den zulässigen
Erweiterungsregeln entsprechen, um den Satz zu bewerten, worauf
ein Datenbankabruf folgt und eine Übersetzung angefertigt wird.
Ist der Satz nicht mit den erfindungsgemäßen Regeln konform, alarmiert
das Modul 3925 den Benutzer über eine Bildschirmanzeige 3914.
-
Entsprechend
einem der Repräsentationsformate
wird im Englischen durch Hinzufügen
eines „/s" am Ende eines Substantivs
im Singular auf einen Plural hingewiesen (beispielsweise „nation/s"). In anderen Sprachen
wird das allgemeingültigste
Verfahren zur Bildung des Plurals verwendet; so wird beispielsweise
im Französischen,
wie im Englischen, ein „/s" hinzugefügt, im Italienischen
wird jedoch ein „/i" hinzugefügt. Zahlen
werden numerisch ausgedrückt.
-
Alternativ
kann das Analysemodul 3925 so aufgebaut sein, dass es nicht
formatierte eingegebene Sätze
verarbeitet. Um dies zu erreichen, schlägt das Modul 3925 jedes
eingegebene Wort (oder, wenn dies zweckmäßig ist, Gruppen von Wörtern) in
den Datenbanken 3935 nach und erzeugt eine Repräsentation
des Satzes in Begriffen der in ihm enthaltenen linguistischen Klassen – d.h. durch
Ersetzen jeder Einheit durch das Symbol ihrer linguistischen Klasse.
Das Modul 3925 überprüft dann,
ob die resultierende Folge von Klassen entsprechend den zulässigen Erweiterungsregeln
erzeugt worden sein könnte,
und wenn dies der Fall ist, gruppiert es die linguistischen Einheiten
so, dass das Nachschlagen und Übersetzen
erleichtert werden. Der Ausgang wird entweder in einem der Eingabe
entsprechenden, unstrukturierten Format oder in einem der vorstehend
aufge führten
Formate bereitgestellt. Letztere Form von Ausgang wird bevorzugt,
da Wortfolgen in einer Sprache selten sinnvoll einfach durch Ersetzen
erzeugten Wortfolgen in einer anderen Sprache entsprechen; es ist
im Allgemeinen leichter, den Ausgang in einer Form zu verstehen,
die die linguistischen Einheiten isoliert und Erweiterungen kennzeichnet.
-
Das
System kann zusätzliche
Eigenschaften zur Vereinfachung des Betriebs aufweisen. Wie vorstehend
ausgeführt,
werden Wörter
mit mehreren Bedeutungen durch Punkte am Ende unterschieden; natürlich stellt
die Anzahl der einer bestimmten Bedeutung des Worts folgenden Punkte
eine willkürliche
Wahl dar. Dementsprechend kann eine zusätzliche Datenbank 3935 ein
Wörterbuch
der Wörter
mit mehreren Bedeutungen umfassen, wobei das erkannte Format jeder
Bedeutung des Worts neben unterschiedlichen Definitionen steht. Die
Benutzerschnittstelle 3930 interpretiert das Anklicken
einer der Definitionen durch den Benutzer als Wahl derselben und
gibt die geeignete Codierung des Worts in den Eingangspuffer 3940 ein.
-
Nachdem Überlegungen
hinsichtlich der Wirtschaftlichkeit und der Betriebsgeschwindigkeit
die wünschenswerte
Gesamtgröße der Datenbanken
begrenzen, kann ähnlich
eine der Datenbanken 3935 als Thesaurus ausgebildet sein,
der einem nicht erkannten Wort die zunächstliegende erkannte linguistische
Einheit zuordnet. Beim Betrieb kann das Analysemodul 3925 nach
einem erfolglosen Versuch des Moduls 3925, ein Wort in
den Datenbanken zu lokalisieren, so programmiert werden, dass es
die Thesaurusdatenbank 3935 konsultiert und eine Liste
von Wörtern
zurücksendet,
die tatsächlich
in den Datenbanken der linguistischen Einheiten vorhanden sind.
-
Das
Modul 3925 kann auch bestimmte Dienstprogramme enthalten,
die (beispielsweise nach einer Genehmigung durch den Benutzer) häufig auftretende
Fehler in einer Satzkonstruktion erkennen und korrigieren. Das System
zeigt beispielsweise normalerweise den Besitz einer genannten Person
unter Verwendung des Verbs „haben" an; daher wird der
Satz „Pauls
Computer ist schnell" (im
algebraischen Format) durch „paul haben
(computer schnell)" oder „(computer
von paul) schnell" repräsentiert.
Wird die Person nicht namentlich genannt, können die normalen Possessivpronomen
verwendet werden (beispielsweise „(computer mein) schnell"). Daher kann das
Modul 3925 so konfiguriert sein, dass es Konstruktionen,
wie „Pauls", erkennt und die
geeignete Konstruktion liefert.
-
Es
ist daher ersichtlich, dass Vorstehendes einen zweckmäßigen und
raschen Ansatz für Übersetzungen
zwischen mehreren Sprachen repräsentiert.
Die hier verwendeten Begriffe und Ausdrücke werden als Begriffe zur
Beschreibung und nicht zur Einschränkung verwendet, und es ist
nicht beabsichtigt, durch die Verwendung derartiger Begriffe und
Ausdrücke Äquivalente
der gezeigten und beschriebenen Eigenschaften oder Teile davon auszuschließen, sondern
es ist zu erkennen, dass im Rahmen der beanspruchten Erfindung unterschiedliche
Modifikationen möglich
sind. So können
beispielsweise die unterschiedlichen erfindungsgemäßen Module
unter Verwendung geeigneter Softwareanweisungen oder als Hardwareschaltungen
oder als gemischte Kombination aus Hardware und Software auf einem
Mehrzweckcomputer implementiert werden.
-
Obwohl
vorstehend verschiedene Ausführungsformen
beschrieben wurden, ist festzuhalten, dass sie lediglich beispielhaft
angeführt
wurden und keine Einschränkung
darstellen.