-
Gebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich allgemein auf ein Verfahren und
System zur Verbesserung der Genauigkeit in einem Spracherkennungssystem und
insbesondere auf ein Verfahren und System zur gleichzeitigen Aufzeichnung
von Antwort-Sätzen,
die einen Spracherkennungsprozess durchlaufen, für eine spätere Überprüfung.
-
Hintergrund der Erfindung
-
In
der neuen verbundenen Wirtschaft ist es zunehmend für Firmen
oder Diensteanbieter wichtig geworden, sich auf ihre Abnehmer und
Kunden einzustellen. Ein derartiger Kontakt kann mit automatisierten
Telefon-Transaktionssystemen erleichtert werden, bei denen interaktiv
erzeugte Aufforderungen in dem Kontext einer Telefon-Transaktion
abgespielt werden und die Antworten einer Person durch ein automatisches
Spracherkennungssystem erkannt werden. Die von der antwortenden
Person gegebenen Antworten werden von dem System verarbeitet, um
die gesprochenen Worte in eine Bedeutung umzuwandeln, die dann interaktiv
verwendet oder in einer Datenbank gespeichert werden kann.
-
Damit
ein Computersystem die gesprochenen Worte erkennen und diese Worte
in Text umwandeln kann, muss das System so programmiert sein, dass
es phonetisch die Worte unterteilt und Teile der Worte in ihre Text-Äquivalente
umwandelt. Eine derartige Umwandlung erfordert ein Verständnis der Komponenten
der Sprache und der Bildung des gesprochenen Wortes. Die Erzeugung
der Sprache erzeugt eine komplexe Serie von sich schnell ändernden
Schallldruck-Schwingungsformen. Diese Schwingungsformen bilden die
grundlegenden Bausteine der Sprache, die als Phoneme bekannt sind. Vokal-
und Konsonant-Klänge
bestehen aus Phonemen und haben viele unterschiedliche Charakteristiken,
in Abhängigkeit
davon, welche Komponenten der menschlichen Sprache verwendet werden.
Die Position eines Phonems in einem Wort hat eine wichtige Bedeutung
auf den abschließenden
Klang.
-
Ein
gesprochenes Wort kann mehrere Bedeutungen haben, in Abhängigkeit
davon, wie es gesprochen wird. Sprachwissenschaftler haben Allophone
als akustische Varianten von Phonemen identifiziert und verwenden
sie, um in expliziterer Weise zu definieren, wie ein bestimmtes
Wort gebildet wird.
-
Obwohl
es verschiedene unterschiedliche Verfahren zur Analyse des gesprochenen
Wortes und zur Ableitung der erforderlichen Information gibt, um
es dem Erkennungssystem zu ermöglichen,
die Sprache in Wort-Ketten umzuwandeln, unter Einschluss der verdeckten
Markov-Modellierung und neuronaler Netzwerke, führen diese Verfahren im Allgemeinen ähnliche
Operationen aus. Die Unterschiede zwischen diesen Verfahren sind
typischerweise die Art und Weise, wie das System bestimmt, wie das phonetische
Signal in Teile zu unterteilen ist, die Phoneme definieren. Allgemein
wandelt ein Spracherkennungssystem zunächst ein ankommendes Sprachsignal
in ein digitales Signal um. Der zweite Schritt wird als Merkmal-Ableitung
bezeichnet, wobei das System das digitale Signal analysiert, um
die akustischen Eigenschaften des digitalisierten Signals zu identifizieren.
Die Merkmal-Ableitung unterteilt im Allgemeinen die Sprache in ihre
einzelnen Klangkomponenten. Konventionelle Techniken zur Durchführung einer
Merkmal-Ableitung
schließen
die Teilband-Codierung, schnelle Fourier-Transformationen und die
lineare prädiktive
Codierung ein. Sobald das Signal analysiert wurde, bestimmt das
System dann, wo deutlich voneinander verschiedene akustische Bereiche
auftreten. Das Ziel dieses Schrittes besteht in der Unterteilung
des akustischen Signals in Bereiche, die als Phoneme identifiziert
werden, die in ein Textformat umgewandelt werden können. In
isolierten Wortsystemen wird dieser Prozess vereinfacht, weil es
eine Pause nach jedem Wort gibt. In kontinuierlichen Sprachsystemen
ist dieses Verfahren jedoch wesentlich schwieriger, weil es typischerweise keine
Unterbrechungen zwischen Worten in dem akustischen Strom gibt. Entsprechend
muss das System in der Lage sein, nicht nur die Worte selbst in unterschiedliche
akustische Bereiche zu unterteilen, sondern es muss auch in der
Lage sein, aufeinanderfolgende Worte in dem Strom voneinander zu
trennen. Bei diesem Schritt werden die konventionellen Verfahren,
wie z.B. die verdeckte Markov-Modellierung
und neuronale Netzwerke verwendet. Der abschließende Schritt beinhaltet den
Vergleich eines spezifischen akustischen Bereiches, wie er in dem vorhergehenden
Schritt bestimmt wurde, mit einem bekannten Satz von Schablonen
in einer Datenbank, um das Wort oder den Wort-Teil zu bestimmen,
der durch den akustischen Signalbereich dargestellt ist. Wenn eine Übereinstimmung
gefunden wird, wird das resultierende Text-Wort von dem System abgegeben.
Wenn dies nicht der Fall ist, so kann das System entweder dynamisch
manipuliert werden, um die Chancen zum Auffinden einer Übereinstimmung
zu vergrößern, oder
die Daten können
verworfen werden, und das System kann aufgefordert werden, die Frage
an die antwortende Person zu wiederholen, wenn die zugeordnete Antwort
aufgrund des Datenverlustes nicht bestimmt werden kann.
-
Viele
Faktoren können
in nachteiliger Weise die Genauigkeit eines Spracherkennungssystems beeinflussen,
unter Einschluss der Verwendung eines Dialektes, regionaler Dialekte
und Akzente, Sprachbehinderungen, schlechter Telefonverbindungen
und Hintergrundstörungen.
In vielen Fällen
kann selbst das höchstentwickelte
Spracherkennungssystem nicht in der Lage sein, derartige Sprache
zu verarbeiten, so dass der Verlust an Daten unvermeidbar ist. Eine
Lösung
für dieses
Problem bestand in einer Beschränkung
der Funktionalität
der Spracherkennungs-Anwendung. In diesem Fall müssen die Benutzer des Systems
trainiert werden, um sich selbst an die Beschränkungen anzupassen, die von
dem System auferlegt werden (beispielsweise nur einen beschränkten Satz
von Wort-Antworten
angeben). Ein extremes Beispiels eines derartigen beschränkten Systems
ist ein System, bei dem die einzige von dem System erkannte Antwort
ein einfaches Wort oder ein Tastendruck an dem Telefon ist, beispielsweise
die Aufforderung „drücke oder
sage 1". Am anderen
Ende befindet sich ein System, in dem ein Mensch die automatische
Spracherkennungs-Transaktion auf ihre Richtigkeit überwacht.
Ein derartiges System widerspricht jedoch dem gesamten Zweck eines
automatisierten Systems, das allgemein auf die Verringerung von
Kosten gerichtet ist.
-
Das
Patent
US-A-5 033 088 beschreibt
die Verarbeitung von Sprachinformation, die ein Erkennungssystem
beinhaltet, das eine Audio-Antwort empfängt und eine Transkription
der Audio-Antwort vornimmt, um eine entsprechende Text-Antwort zu erzeugen.
Wenn diese Text-Antwort nicht mit den erwarteten Antworten des Anrufers übereinstimmt,
so wird ein Fehler angenommen, und die gesprochene Information wird
an eine Bedienungsperson gesandt, die sich mit der Identifikation
der Information durch erneutes Abspielen der gespeicherten Information befasst.
-
Zusammenfassung der Erfindung
-
Die
vorliegende Erfindung ist auf ein Verfahren und System zur Verbesserung
der Genauigkeit von Spracherkennungssystemen gerichtet.
-
Gemäß einem
Gesichtspunkt der Erfindung wird ein Spracherkennungssystem gemäß Anspruch 1
geschaffen.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung wird ein Verfahren zur Transkription
einer Audio-Antwort geschaffen, wie es im Anspruch 8 beansprucht
ist.
-
Das
Spracherkennungssystem gemäß einem
Gesichtspunkt der Erfindung schließt eine Abfrageeinrichtung
zum Stellen, vorzugsweise in Form einer Audio-Aufforderung, von zumindest einer Frage an
eine antwortende Person, und eine Spracherkennungseinrichtung ein,
die eine Audio-Antwort von der antwortenden Person empfängt und
eine Transkription der Audio-Antwort ausführt, um eine entsprechende
Text-basierte Antwort zu erzeugen.
-
Bei
der vorliegenden Erfindung wird die Genauigkeit des Spracherkennungssystem
durch gleichzeitiges Aufzeichnen von Audio-Antwort-Sätzen verbessert,
während
die Sätze
von dem Spracherkennungssystem verarbeitet werden. Eine Genauigkeits-Feststellungs-Einrichtung
vergleicht die von dem Spracherkennungssystem erzeugte Text-Antwort
mit einem Text-Satz von erwarteten Antworten und stellt fest, ob
die Text-Antwort einer der erwarteten Antworten entspricht. Wenn
ein vorgegebener Vertrauens-Parameter in der Erkennung erreicht
wird, was bedeutet, dass das bestimmte Wort oder der Satz durch
das System richtig erkannt wurde, so wird der aufgezeichnete Satz
nicht benötigt. Wenn
die Audio-Antwort jedoch nicht richtig erkannt wird, wird der aufgezeichnete
Satz für
die genauere Betrachtung durch einen Menschen zu einer späteren Zeit
gespeichert. Dieses System vergrößert die Genauigkeit
des Spracherkennungssystems, ohne dass die Kosten des Systems aufgrund
der Notwendigkeit für
eine Überprüfung durch
einen Menschen vergrößert werden,
weil lediglich die Worte, die nicht richtig erkannt wurden, selektiv überprüft werden müssen.
-
Wenn
die Genauigkeits-Feststellungs-Einrichtung feststellt, dass die
Text-Antwort nicht einer der erwarteten Antworten mit einem vorgegebenen Genauigkeits-Vertrauens-Parameter
entspricht, so kann die Genauigkeits-Feststellungs-Einrichtung die Audio-Antwort
für eine
spätere Überprüfung markieren.
Das Spracherkennungssystem kann weiterhin eine Schnittstelleneinrichtung
einschließen,
um es einer Bedienungsperson zu ermöglichen, die zumindest eine
Frage zu betrachten und die Audio-Antwort zu hören, die der zumindest einen
Frage entspricht. Die Schnittstelleneinrichtung zum Menschen (Benutzer-Schnittstelle)
kann einen Personalcomputer einschließen, der einen Monitor, der
es der Bedienungsperson ermöglicht,
die zumindest eine Frage zu betrachten, und ein Audio-Lautsprecher-Gerät einschließt, um es
der Bedienungsperson zu ermöglichen,
die Audio-Antwort anzuhören.
Die Abfrageeinrichtung kann ein Programm einschließen, das
eine Anwendungs-Datei hat, die Code, einschließt, der bewirkt, dass die zumindest
eine Frage, die der antwortenden Person zu stellen ist, eine Liste
von erwarteten Antworten und eine Adresse, an der eine Datei, die
die empfangende Audio-Antwort enthält, in der Speichereinrichtung
gespeichert wird. Die Benutzer-Schnittstelleneinrichtung
kann eine grafische Benutzer-Schnittstelle einschließen, auf
der die Bedienungsperson die zumindest eine Frage und den Text-Satz
von erwarteten Antworten sieht, wobei die Bedienungsperson nach
dem Hören
der Audio-Antwort
in der Lage ist, eine der erwarteten Antworten aus dem Text-Satz
von erwarteten Antworten auszuwählen.
Die grafische Benutzer-Schnittstelle kann ein Anwendungs-Navigations-Fenster,
das es der Bedienungsperson ermöglicht,
durch die zumindest eine Frage zu navigieren, ein Audio-Navigationsfenster,
um es der Bedienungsperson zu ermöglichen, die Wiedergabe der
Audio-Antwort zu steuern, und ein Texteingabe-Fenster einschließen, das
es der Bedienungsperson ermöglicht,
eine Text-Antwort einzugeben, wenn keine der erwarteten Antworten
von dem Text-Satz
von erwarteten Antworten der Audio-Antwort entspricht.
-
Gemäß einer
weiteren Ausführungsform
der Erfindung schließt
ein Spracherkennungssystem eine Abfrageeinrichtung zum Stellen von
zumindest einer Frage an eine antwortende Person, eine Spracherkennungseinrichtung,
die eine Audio-Antwort von der antwortenden Person empfängt und
eine Transkription der Audio-Antwort ausführt, um eine entsprechende
Text-Antwort zu erzeugen, eine Speichereinrichtung zum Speichern
der Audio-Antwort, wie sie an der Spracherkennungseinrichtung empfangen
wird, und eine Genauigkeits-Feststellungs-Einrichtung zum Vergleichen
der Text-Antwort mit einem Text-Satz von erwarteten Antworten und zur
Feststellung ein, ob die Text-Antwort einer der erwarteten Antworten
entspricht.
-
Wenn
die Genauigkeits-Feststellungs-Einrichtung feststellt, dass die
Text-Antwort nicht einer der erwarteten Antworten innerhalb eines
vorgegebenen Genauigkeits-Vertrauens-Parameters
entspricht, so kann die Genauigkeits-Feststellungs-Einrichtung die Audio-Antwort
für eine
weitere Überprüfung markieren.
Das Spracherkennungssystem kann weiterhin eine Benutzer-Schnittstelleneinrichtung einschließen, um
es einer Bedienungsperson zu ermöglichen,
die zumindest eine Frage zu sehen und die Audio-Antwort zu hören, die
der zumindest einen Frage entspricht. Die Benutzer-Schnittstelleneinrichtung
kann einen Personalcomputer einschließen, der einen Monitor, der
es der Bedienungsperson ermöglicht,
die zumindest eine Frage zu sehen, und eine Audio-Lautsprecher-Einrichtung
einschließt,
um es der Bedienungsperson zu ermöglichen, die Audio-Antwort
zu hören.
Die Abfrageeinrichtung kann ein Programm einschließen, das
eine Anwendungsdatei aufweist, wobei die Anwendungsdatei Code einschließt, der
bewirkt, dass die zumindest eine der antwortenden Person zu stellende
Frage, eine Liste von erwarteten Antworten und eine Adresse einer Datei,
die die empfangende Audio-Antwort enthält, in der Speichereinrichtung
gespeichert wird. Die Benutzer-Schnittstelleneinrichtung
kann eine grafische Benutzerschnittstelle einschließen, auf
der die Bedienungsperson die zumindest eine Frage und den Text-Satz
an erwarteten Antworten sieht, wobei nach dem Hören der Audio-Antwort die Bedienungsperson in
der Lage ist, eine der erwarteten Antworten aus dem Text-Satz von
erwarteten Antworten auszuwählen.
Die grafische Benutzerschnittstelle kann ein Anwendungs-Navigations-Fenster,
das es der Bedienungsperson ermöglicht,
durch die zumindest eine Frage zu navigieren, ein Audio-Navigations-Fenster, das
es der Bedienungsperson ermöglicht,
die Wiedergabe der Audio-Antwort zu steuern, und ein Texteingabe-Fenster
einschließen,
das es der Bedienungsperson ermöglicht,
eine Text-Antwort einzugeben, wenn keine der erwarteten Antworten
von dem Text-Satz von erwarteten Antworten der Audio-Antwort entspricht.
-
Gemäß einer
weiteren Ausführungsform
der Erfindung schließt
ein Verfahren zur Transkription einer Audio-Antwort Folgendes ein:
- A. Stellen einer Frage an eine antwortende
Person;
- B. Empfangen einer Audio-Antwort von der antwortenden Person;
- C. Ausführen
einer Spracherkennungsfunktion an der Audio-Antwort zur Transkription
der Audio-Antwort in eine Text-Antwort;
- D. Aufzeichnen der Audio-Antwort;
- E. Vergleichen der Text-Antwort mit einem Satz von erwarteten
Antworten auf die Frage, wobei der Satz eine Anzahl von erwarteten
Antworten auf die Frage in Text-Form einschließt; und
- F. Markieren der Audio-Antwort, wenn die entsprechende Text-Antwort
keiner der erwarteten Antworten in dem Satz von erwarteten Antworten entspricht.
-
Das
Verfahren kann weiterhin die folgenden Schritte einschließen:
- G. Hören
der Audio-Antwort; und
- H. Auswahl, aus dem Satz von erwarteten Antworten, einer Text-Antwort,
die der Audio-Antwort entspricht.
-
Das
Verfahren kann weiterhin die folgenden Schritte einschließen:
- G. Hören
der Audio-Antwort; und
- H. Manuelle Transkription einer Text-Antwort, die der Audio-Antwort
-
Gemäß einer
weiteren Ausführungsform
der Erfindung schließt
ein Verfahren zur Transkription einer Audio-Antwort Folgendes ein:
- A. Konstruieren einer Anwendung, die eine Anzahl
von Fragen und einen Satz von erwarteten Antworten auf jede Frage
einschließt,
wobei der Satz eine Anzahl von erwarteten Antworten auf jede Frage
in einer Text-Form einschließt;
- B. Stellen jeder der Fragen an eine antwortende Person;
- C. Empfangen einer Audio-Antwort auf jede Frage von der antwortenden
Person;
- D. Durchführung
einer Spracherkennungs-Funktion an jeder Audio-Antwort zur Transkription
jeder Audio-Antwort auf eine Text-Antwort auf jede Frage;
- E. Aufzeichnen jeder Audio-Antwort; und
- F. Vergleichen jeder Text-Antwort mit dem Satz von erwarteten
Antworten für
jede entsprechende Frage, um festzustellen, ob jede Text-Antwort
einer der erwarteten Antworten in dem Satz von erwarteten Antworten
für die
entsprechende Frage entspricht.
-
Das
Verfahren kann weiterhin die Markierung jeder Audio-Antwort einschließen, die
einer Text-Antwort entspricht, die keiner der erwarteten Antworten
in dem Satz von erwarteten Antworten auf die entsprechende Frage
entspricht. Das Verfahren kann weiterhin die Überprüfung jeder markierten Audio-Antwort
einschließen,
um festzustellen, ob eine entsprechende erwartete Antwort in dem
Satz von erwarteten Antworten für
die Frage enthalten ist, die jeder Audio-Antwort zugeordnet ist.
Das Verfahren kann weiterhin die Auswahl, aus einem zugehörigen Satz
von erwarteten Antworten für
jede Frage, einer Antwort, die der markierten Audio-Antwort entspricht, sowie
die manuelle Transkription einer Antwort einschließen, die
jeder markierten Audio-Antwort entspricht.
-
Gemäß einem
weiteren Gesichtspunkt der Erfindung umfasst ein Verfahren zur Transkription
einer Audio-Antwort Folgendes:
- A. Konstruieren
einer Spracherkennungs-Anwendung, die eine Anzahl von Fragen und
einen Satz von erwarteten Antworten auf jede Frage einschließt, wobei
der Satz eine Anzahl von erwarteten Antworten auf jede Frage in
Text-Form einschließt;
- B. Stellen jeder der Fragen an eine antwortende Person mit einer
Abfrage-Einrichtung;
- C. Empfangen einer Audio-Antwort auf jede Frage von der antwortenden
Person;
- D. Ausführen
einer Spracherkennungs-Funktion an jeder Audio-Antwort mit einer
automatischen Spracherkennungseinrichtung zur Transkription jeder
Audio-Antwort in
eine Text-Antwort auf jede Frage;
- E. Aufzeichnen der Audio-Antwort mit einer Aufzeichnungseinrichtung;
und
- F. Vergleichen, mit der automatischen Spracherkennungseinrichtung,
jeder Text-Antwort mit dem Satz von erwarteten Antworten für jede entsprechende
Frage, um festzustellen, ob jede Text-Antwort einer der erwarteten
Antworten in dem Satz von erwarteten Antworten für die entsprechende Frage entspricht.
-
Kurze Beschreibung der Zeichnungen
-
Die
vorstehenden und andere Ziele dieser Erfindung, deren verschiedene
Merkmale sowie die Erfindung selbst werden weiter aus der folgenden Beschreibung
verständlich,
wenn diese zusammen mit den beigefügten Zeichnungen gelesen wird, in denen:
-
1 ein
schematisches Blockschaltbild des Systems zur Verbesserung der Genauigkeit
eines Spracherkennungssystems gemäß der vorliegenden Erfindung
ist;
-
2 ein
Ablaufdiagramm des Verfahrens zur Verbesserung der Genauigkeit eines
Spracherkennungssystems gemäß der vorliegenden
Erfindung ist; und
-
3 ein
Diagramm einer grafischen Benutzerschnittstellen-Anzeige ist, die
mit der Benutzer-Schnittstelleneinrichtung des Systems zur Verbesserung
der Genauigkeit eines Spracherkennungssystems gemäß der vorliegenden
Erfindung verbunden ist.
-
Ausführliche Beschreibung
-
Die
vorliegende Erfindung ist auf ein Spracherkennungssystem gerichtet,
das gleichzeitig einen Spracherkennungsprozess an empfangenen Antworten
auf Fragen ausführt
und die Antworten aufzeichnet. Während
die Antworten verarbeitet und von Audio-Form auf Text umgewandelt
werden, werden sie analysiert, um festzustellen, ob sie einen vorgegebenen
Erkennungs-Vertrauens-Parameter erfüllen. Wenn die Text-Form der
Antwort den Vertrauens-Parameter erfüllt, was bedeutet, dass das
System die Audio-Antwort richtig erkannt und in die entsprechende
Text-Antwort umgewandelt hat, so geht das System auf die nächste Frage über. Wenn
das System feststellt, dass der umgewandelte Text-Satz nicht den
Vertrauens-Parameter erfüllt,
so werden die Frage und die aufgezeichnete Audio-Antwort für die Überprüfung durch
einen Menschen zu einer späteren
Zeit markiert.
-
1 ist
ein schematisches Blockschaltbild des Systems 10 zur Verbesserung
der Genauigkeit eines Spracherkennungssystems, gemäß der vorliegenden
Erfindung. Das System 10 schließt eine Abfrageeinrichtung 12,
eine Spracherkennungseinrichtung 14, eine Genauigkeits-Feststellungs-Einrichtung 16,
eine Speichereinrichtung 18 und eine Benutzer-Schnittstelleneinrichtung 20 ein.
Vorzugsweise ist das System 10 ein persönlicher Computer, wie z.B.
ein IBM-PC oder IBM-PC-kompatibles System oder ein APPLE-MacINTOSH-System
oder ein höher entwickeltes
Computersystem, wie z.B. ein Alpha-basiertes Computersystem, das
von der Compaq Computer Corporation erhältlich ist, oder ein SPARC-Station Computersystem,
das von SUN Microsystems Corporation erhältlich ist, obwohl ein Main-Frame-Computersystem
ebenfalls verwendet werden kann. In einem derartigen System befinden
sich alle Komponenten des Systems auf dem Computersystem, so dass
es dem System ermöglicht
wird, von einer antwortenden Person empfangene Daten in der nachstehend
beschriebenen Weise zu verarbeiten. Alternativ können die Komponenten in unterschiedlichen
Systemen enthalten sein, die einen Zugriff aufeinander über ein
LAN oder ein ähnliches
Netzwerk haben. Beispielsweise kann das System eine Anzahl von Benutzer-Schnittstelleneinrichtungen 20 haben, die
jeweils einen persönlichen
Computer mit einem Zugang an einen Speicher umfassen, der einer
oder mehreren Speichereinrichtungen 18 zugeordnet ist. Die
Abfrageeinrichtung 12 kann sich auf einem Serversystem
befinden, das die Audio-Antwort
von der antwortenden Person empfängt
und die Antwort an die Spracherkennungseinrichtung 14 und
an einen Speicher sendet, der der Speichereinrichtung 18 zugeordnet
ist.
-
Das
System kann weiterhin eine Netzwerkschnittstelle einschließen, die
den Empfang der Audio-Information über irgendeines einer Anzahl
von Netzwerken erleichtert, wie z.B. Telefon-Netzwerke, Zellulartelefon-Netzwerke,
das weltweite Datennetz, Internet, lokale Netzwerke (LANs), Weitbereichs-Netzwerke
(WANs), private Netzwerke, virtuelle private Netzwerke (VPNs), Intra-Netzwerke,
Extra-Netzwerke,
drahtlose Netzwerke und dergleichen oder irgendeine Kombination
hiervon. Das System 10 kann für irgendeines oder mehrere
einer Anzahl von Eingabeeinrichtungen 22 zugänglich sein,
die in der Lage sind, Audio-Information zu übertragen. Derartige Geräte 22 können ohne
Beschränkung
beispielsweise ein Standard-Telefon (unter Einschluss von Zellulartelefonen)
einen Laptop-Computer oder einen Desktop-Computer sowie andere Audio-fähige Geräte einschließen (beispielsweise
persönliche
digitale Assistenten, Audio-Empfänger
und Anwendungs-Server).
-
Die
Abfrageeinrichtung 12 ist ein automatisiertes System, auf
dem eine Spracherkennungs-Anwendung unter Einschluss einer Serie
von akustischen Ausgangssignalen, die als Aufforderungen bezeichnet
werden und die Fragen über
einen bestimmten Gesichtspunkt umfassen, programmiert ist, so dass
sie einer antwortenden Person dargeboten werden können, vorzugsweise
mit Hilfe einer Telefon-Interaktion zwischen dem fragenden Teilnehmer
und der antwortenden Person. Eine Spracherkennungs-Anwendung kann
jedoch irgendeine interaktive Anwendung sein, die Informationen
sammelt, liefert und/oder gemeinsam nutzt. Als Beispiele kann bei
der vorliegenden Erfindung eine Sprachanwendung irgendeine einer
Gruppe von interaktiven Anwendungen sein, unter Einschluss von Kunden-Umfrage-Anwendungen,
Zugangs-Anwendungen auf das weltweite Datennetz, Erziehungs-Anwendungen unter
Einschluss von Computer-basierten Lern- und Unterrichts-Anwendungen
und Prüfungs-Anwendungen;
Sortier-Anwendungen, Kundenwunsch-Überwachungs-Anwendungen, Einverständnis-Anwendungen
unter Einschluss von Anwendungen, die Benachrichtigungen über auf
das Einverständnis
bezogene Aktivitäten
erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich einer
Produkt-Wartung; Testergebnis-Anwendungen, unter Einschluss von Anwendungen,
die zumindest eines von genormten Testergebnissen, Verbraucher-Produkttestergebnissen
und Wartungsergebnissen liefern; und Verknüpfungs-Anwendungen, die Anwendungen einschließen, die
zwei oder mehr der vorstehenden Anwendungen miteinander verknüpfen.
-
Bei
der bevorzugten Ausführungsform schließt jede
Spracherkennungs-Anwendung eine Anwendungs-Datei ein, die in die
Abfrageeinrichtung einprogrammiert ist. Jede Anwendungs-Datei schließt Code
ein, der das Abspielen der Audio-Aufforderung an die antwortende
Person bewirkt, wobei eine Liste von erwarteten Antworten und eine
Adresse, an der eine Datei, die die empfangene Audio-Antwort enthält, in der
Speichereinrichtung 18 gespeichert werden.
-
Vorzugsweise
ist die Serie von Fragen, die die Anwendung bilden, so ausgelegt,
dass spezifische Information von den antwortenden Personen gewonnen
wird, um Kunden oder den Kundendienst, die Erziehung und Forschung
und die Entwicklung bestimmter Produkte oder Dienste oder anderer Funktionen
zu unterstützen.
Beispielsweise könnte eine
spezielle Sprachanwendung so ausgelegt sein, dass sie antwortenden
Personen bestimmte Fragen über
ein bestimmtes Produkt oder einen Dienst stellt. Die Einheit, die
diese Anwendung liefert, kann dann diese Information zur Weiterentwicklung
des speziellen Produktes oder Dienstes verwenden.
-
Die
Betriebsweise des Systems wird unter Bezugnahme auf das Ablaufdiagramm 30 nach 2 beschrieben,
das die an der Betriebsweise des Systems 10 beteiligten
Schritte zeigt. Nachdem jede Aufforderung von der Abfrageeinrichtung
abgegeben wurde, Schritt 32, empfängt die Spracherkennungseinrichtung 14 die
gesprochene Audio-Antwort von der antwortenden Person über die
Eingabeeinrichtung 22, wie z.B. ein Telefon, und verarbeitet
die Audio-Antwort mit einem Spracherkennungs-Algorithmus, um die gesprochene Audio-Antwort
in eine Text-Antwort umzuwandeln, Schritt 34.
-
Obwohl
irgendeine Art von Spracherkennungs-Algorithmus bei der vorliegenden
Erfindung verwendet werden kann, führt die Spracherkennungseinrichtung 14 vorzugsweise
eine syntaktische und semantische Verarbeitung unter Verwendung
einer reichen semantischen Grammatik-(RSG-)Datenbank (DB) aus, die
eine Quelle für
Wort- und Grammatik-Kenntnis bereitstellt, die zur Interpretation
der phonetischen Daten verwendet wird. Die Grammatik, die auf einen
bestimmten phonetischen Strom angewandt wird, ändert sich in Abhängigkeit
von der erwarteten Antwort, die typischerweise eine Funktion einer
vorhergehenden Aufforderung ist. Die RSG DB schließt eine
Datenbank von Worten und Grammatik-Regeln ein, die auf die Worte
bezogen sind, das heißt
sie schließt
sowohl syntaktische als auch semantische Daten ein. Die Beziehungen
schließen
Algorithmen zur Kombination von Worten in aussagekräftige Sätze entsprechend
einem vorgegebenen Kontext ein. Die RSG dient als eine gemeinsame Ausgangs-Grammatik
für die
syntaktische und semantische Verarbeitung, die ihre eigene Darstellung der
RSG für
ihre jeweiligen Verarbeitungsaufgaben verwenden kann. Als Ergebnis
wird eine Kompatibilität
sichergestellt, weil die semantischen Stufen der Verarbeitung niemals
eine illegale Wortfolge empfangen werden, beispielsweise von der
syntaktischen Verarbeitungsstufe. Zusätzlich kann zur Erzielung einer
größeren Effizienz,
wenn mehrfache semantische Sätze
die gleiche Syntax haben, eine gefaltete Darstellung der RSG für die Suche
verwendet werden.
-
Die
Grammatiken der RSG DB sind als ein Baum von Klassen, und Knoten,
die Worte und Satz-Strukturen darstellen, organisiert. Ein Grammatik-Baum
kann eine Vielzahl von Bäumen
(oder Teil-Bäumen)
einschließen.
Allgemein ist die RSG DB Kontext-frei, weil die auf jedem Teil-Baum
angewandten Regeln unabhängig
von den anderen Teilen des Baumes arbeiten. Das heißt, dass
jede Klasse (oder Knoten) eine reiche semantische Information (beispielsweise
eine semantische Beschreibung) und eine syntaktische Beschreibung
einschließt.
Für die Zwecke
der syntaktischen Suche und Analyse ist die RSG DB als eine optimierte
Kontext-freie Grammatik (CFG) DB dargestellt, bei der die Grammatiken
keine semantische Information einschließen, sondern vielmehr lediglich
Syntax-Information einschließen,
die zur Erzeugung von Wort-Listen verwendet wird. Diese vereinfachte
Version der RSG DB ermöglicht
eine effizientere syntaktische Analyse.
-
Das
System 10 zeichnet zusätzlich
zu der Verarbeitung der empfangenen Audio-Antwort die Antwort auf und speichert
sie in der Aufzeichnungseinrichtung 18, Schritt 36.
Im Schritt 38 analysiert die Genauigkeits-Feststellungs-Einrichtung 16 die Text-Antwort. Dies erfolgt
vorzugsweise durch Vergleichen der umgewandelten Text-Antwort mit einer Anzahl
von erwarteten Antworten auf die bestimmte Frage. Wie dies weiter
oben angegeben wurde, ist die Anwendung typischerweise für einen
bestimmten Gesichtspunkt spezifisch, so dass jede Frage einen erwarteten
Bereich von richtigen Antworten haben wird. Wenn beispielsweise
eine Frage darauf gerichtet sein würde, welches Merkmal eines
bestimmten Produktes für
einen Verbraucher interessant sein würde, so würde erwartet, dass die Antwort
eine einer Anzahl von üblichen
Merkmalen für
dieses Produkt ist. Wenn das System 10 feststellt, dass
die umgewandelte Text-Antwort mit einer der erwarteten Antworten übereinstimmt
und damit einen Vertrauens-Parameter für diese Frage erfüllt, Schritt 40,
so stellt das System fest, ob weitere Fragen in der Anwendung verbleiben,
Schritt 42. Wenn dies der Fall ist, so kehrt das Verfahren
zum Schritt 32 zurück
und stellt die nächste
Frage an die antwortende Person.
-
Wenn
im Schritt 40 die Genauigkeits-Feststellungs-Einrichtung 16 feststellt,
dass die Genauigkeit der umgewandelten Text-Antwort den Vertrauens-Parameter
nicht erfüllt,
so werden die Antwort und die zugehörige Frage für eine Überprüfung durch einen
Menschen zu irgendeiner zukünftigen
Zeit markiert, Schritt 44. Der Grad der erforderlichen
Genauigkeit hängt
von der Art der gestellten Fragen ab. Fragen, auf die eine einfache „Ja"- oder „Nein"-Antwort erwartet
werden, erfordern nicht das gleiche Ausmaß an Genauigkeit, wie sie für komplexere
Antworten erforderlich ist. Daher erfordern Antworten, von denen erwartet
wird, dass sie komplizierter sind, beispielsweise Service-Erfahrungen
eines bestimmten Kunden, Wahrnehmungen der antwortenden Person über ein
bestimmtes Produkt, usw., eine höhere
Genauigkeit bei der Umwandlung von der Audio-Form in die Text-Form
und müssen
daher höhere
Vertrauens-Parameter erfüllen,
damit sie nicht im Schritt 44 markiert werden. Wenn weitere
Fragen in der Anwendung verbleiben, Schritt 42, kehrt das
Verfahren zum Schritt 32 zurück und stellt die nächste Frage
an die antwortende Person. Wenn es keine weiteren Fragen gibt, beginnt
die Überprüfung der
während
der Anwendung aufgezeichneten Antworten durch einen Menschen, Schritt 46.
-
3 ist
ein Diagramm einer grafischen Schnittstellen-Anzeige 50,
die der Benutzer-Schnittstelleneinrichtung 20 des Systems 10 zugeordnet
ist und die von der Bedienungsperson verwendet wird, um die Fragen
und Antworten in einer Anwendung zu überprüfen. Wie dies weiter oben erwähnt wurde, wird,
während
jede Anwendung ausgeführt
wird, sie in der Speichereinrichtung 18 des Systems gespeichert.
Eine Bedienungsperson ist dann in der Lage, jede Anwendung zu überprüfen, um
sicherzustellen, dass die Spracherkennungseinrichtung 14 in
richtiger Weise jede empfangene Audio-Antwort verarbeitet und die
Audio-Antwort in eine entsprechende Text-Antwort umgewandelt hat.
Wie dies weiter oben erwähnt
wurde, schließt
die Benutzer-Schnittstelleneinrichtung 20 typischerweise
einen persönlichen Computer
ein, der einen Zugriff auf die Speichereinrichtung 18 hat.
Die Benutzer-Schnittstelleneinrichtung 20 schließt weiterhin
Audio-Lautsprecher ein, die es der Bedienungsperson ermöglichen,
die empfangenen Audio-Antworten zu hören, während die Anwendung überprüft wird.
Wie dies in der Figur gezeigt ist, liefert die Anzeige Informationen
an die Bedienungsperson hinsichtlich der Anwendung, die es der Bedienungsperson
ermöglichen,
jede Frage in einer Anwendung und die entsprechende Antwort zu überprüfen.
-
Die
Anzeige 50 schließt
ein Anwendungs-Informations-Fenster 52 ein, das Informationen über einen
Antwort-Satz der überprüften Anwendung
liefert. Eine derartige Information schließt die Nummer eines Antwort-Satzes
als Teil der Gesamtzahl von Antwort-Sätzen für die spezielle überprüfte Anwendung ein.
In diesem Beispiel ist der überprüfte Antwort-Satz
der Antwort-Satz Nummer 2 von insgesamt vier Antwort-Sätzen einer
bestimmten Anwendung. Das Fenster 52 schließt das Datum
und die Zeit ein, an der die Anwendung fertiggestellt wurde, sowie
einen Navigations-Balken 54, der es der Bedienungsperson
ermöglicht,
durch die Antwort-Sätze
der Anwendung zu navigieren. Das Fenster 52 schließt weiterhin
einen Bemerkungs-Abschnitt 56 ein, der es der Bedienungsperson
ermöglicht,
irgendwelche Bemerkungen über
den Anwendungs-Antwort-Satz und/oder die antwortende Person einzugeben.
Ein Frage-Navigations-Fenster 58 zeigt an, welche Frage überprüft wird,
deren Text bei 60 gezeigt ist. Das Frage-Navigations-Fenster 58 ermöglicht es
der Bedienungsperson, durch die Fragen in der Anwendung vorwärts und
rückwärts zu navigieren.
Ein Audio-Navigationsfenster 62 ermöglicht es der Bedienungsperson,
die Wiedergabe der Antworten zu steuern.
-
Im
Schritt 46, 2, der vorliegenden Erfindung
verbindet die Bedienungsperson die Speichereinrichtung 18 mit
der Benutzer-Schnittstelleneinrichtung 20 über das
Netzwerk, wie dies weiter oben beschrieben wurde. Die Bedienungsperson
kann dann die Anwendungs-Antwort-Datei von der Speichereinrichtung 18 zur Überprüfung herunterladen.
Wie dies weiter oben angegeben wurde, schließt jede Anwendung eine Anzahl
von Fragen und eine jeder Frage zugeordnete Audio-Antwort ein. Die
Antwort-Datei, die auf die Benutzer-Schnittstelleneinrichtung heruntergeladen
wird, enthält
sowohl die Textversion jeder Frage in der Anwendung als auch eine
Audio-Datei, die die Antwort der antwortenden Person auf jede Frage
einschließt.
Die Antwort-Datei schließt
weiterhin den Satz von erwarteten Antworten ein, die jeder Frage
zugeordnet sind. Die Bedienungsperson kann dann durch die Fragen
navigieren, jede Frage betrachten und die der Frage zugeordnete
Audio-Antwort anhören. Wie
dies weiter oben angegeben wurde, werden, wenn die Text-Form der Audio-Antwort, wie
sie von der Spracherkennungseinrichtung 14 verarbeitet
wurde, nicht den vorgegebenen Genauigkeits-Vertrauens-Parameter
erfüllt,
die Frage und ihre Antwort für
eine spätere Überprüfung markiert.
-
In
dem in 3 gezeigten Beispiel ist die Frage 4 eines
Anwendungsbeispiels wie folgt „Bitte teilen
Sie uns mit, über
welches Produkt sie Informationen wünschen?", wie dies bei 60 angezeigt
ist. Zusammen mit der Frage 60 wird der Bedienungsperson
ein Satz von erwarteten Antworten im Fenster 66 dargeboten.
Das Fenster 66 schließt
weiterhin einen Kasten 68 ein, in dem die richtige Antwort
von Hand von der Bedienungsperson eingegeben werden kann. Nach dem
Lesen der Frage klickt die Bedienungsperson auf den „Abspielen"-Knopf 64,
um die von der antwortenden Person gegebene Audio-Antwort zu hören. Beim
Hören und
Feststellen der von der antwortenden Person gesprochenen Antwort kann
die Bedienungsperson entweder eine der erwarteten Antworten mit
einem Mausklick auswählen, oder
die Bedienungsperson kann die Antwort in den Kasten 68 eingeben,
Schritt 48, 2. Wenn die Bedienungsperson
die Audio-Antwort wiederholen möchte,
kann das Audio-Navigationsfenster 62 verwendet werden,
um die gesamte oder einen Teil der Antwort erneut abzuspielen. Typischerweise
weist die von der antwortenden Person gelieferte Antwort nicht die
exakte Form einer der erwarteten Antworten. Beispielsweise könnte als
Antwort auf die in 3 gezeigte Frage die antwortende
Person sagen: „Gut,
ich bin an Kühlschränken interessiert". Selbst wenn die
Spracherkennungseinrichtung 14 in richtiger Weise eine
Transkription der Antwort ausführt,
ist es unwahrscheinlich, dass die Genauigkeits-Feststellungseinrichtung 16 in
der Lage ist, die umgewandelte Text-Antwort auf Übereinstimmung mit einer der
erwarteten Antworten zu bringen. In einem derartigen Szenarium wird
die Bedienungsperson nach dem Hören
der Antwort „Haushaltsgeräte" in dem Kasten 66 für die erwarteten
Antworten auswählen.
Wenn die Bedienungsperson feststellt, dass die von der antwortenden
Person gegebene Antwort nicht in dem Fenster 66 für die erwarteten
Antworten enthalten ist, kann er oder sie von Hand die Antwort in
den Kasten 68 eingeben, wenn die Antwort verständlich und
relevant ist. Die Bedienungsperson würde dann die nächste Rage über das
Navigationsfenster 58 auswählen.
-
Wenn
die Genauigkeits-Bestimmungs-Einrichtung für eine bestimmte Frage festgestellt
hat, dass die umgewandelte Text-Antwort mit einer der erwarteten
Antworten übereinstimmt,
und daher der Genauigkeits-Vertrauens-Parameter erfüllt war, Schritt 40, 2,
so wurde die Frage nicht im Schritt 44 markiert. Entsprechend
erscheint die Frage bei 60 in der Anzeige 50,
doch ist das Fenster 66 für die erwartete Antwort inaktiv,
wodurch die Bedienungsperson daran gehindert wird, eine andere Antwort
als die auszuwählen,
die von der Spracherkennungseinrichtung 14 empfangen und
umgewandelt wurde. Alternativ kann das System so konfiguriert werden,
dass irgendwelche nicht markierten Fragen der Bedienungsperson nicht
zur Überprüfung dargeboten
werden.
-
In
einer alternativen Ausführungsform
kann das System anstelle der Speicherung jeder empfangenen Audio-Antwort
in der Speichereinrichtung 18 und der Markierung der Antworten,
die eine Überprüfung erfordern,
nach der Feststellung, dass eine umgewandelte Text-Antwort den Genauigkeits-Vertrauens-Parameter
erfüllt,
die entsprechende Audio-Antwort aus der Speichereinrichtung 18 entfernen.
Während
des Überprüfungsvorganges
werden der Bedienungsperson lediglich die Antworten dargeboten,
die eine weitere Überprüfung erfordern,
wie dies durch die Genauigkeits-Feststellungs-Einrichtung 16 festgestellt
wird. Weiterhin kann das System so programmiert werden, dass es
lediglich einige der empfangenen Antworten aufzeichnet. Wenn die
erwartete Antwort auf eine Frage entweder „Ja" oder „Nein" oder irgendeine andere Antwort ist,
die die Spracherkennungseinrichtung einfach und korrekt transkribieren kann,
so kann das System so programmiert werden, dass die Antwort verarbeitet
und durch die Spracherkennungseinrichtung 14 transkribiert
wird, jedoch nicht aufgezeichnet und in der Speichereinrichtung 18 gespeichert
wird. Dies ermöglicht
es dem System, die Größe des Speichers
zu verringern, der zur Ausführung
der Anwendung erforderlich ist.
-
In
einer weiteren Ausführungsform
kann das System die Audio-Antwort mit der Spracherkennungseinrichtung 14 bearbeiten,
bevor sie aufgezeichnet wird, und wenn die Genauigkeits-Feststellungs-Einrichtung 16 feststellt,
dass die transkribierte Text-Antwort,
die von der Spracherkennungseinrichtung 14 abgegeben wird,
nicht den Genauigkeits-Vertrauens-Parameter erfüllt, so kann die Abfrageeinrichtung 12 aufgefordert
werden, die Frage zu wiederholen. Wenn die antwortende Person seine
oder ihre Antwort wiederholt, so wird die Antwort aufgezeichnet
und in der Speichereinrichtung 18 gespeichert. Die Antwort
wird erneut von der Spracherkennungseinrichtung 14 verarbeitet,
und wenn die Genauigkeits-Feststellungs-Einrichtung
feststellt, dass die Antwort immer noch nicht den Genauigkeits-Vertrauens-Parameter
erfüllt,
oder überschreitet,
so wird die Antwort für
eine weitere Überprüfung markiert. Diese
Ausführungsform
verringert die Größe des erforderlichen
Speichers weiter dadurch, dass lediglich Antworten aufgezeichnet
werden, die eine weitere Überprüfung durch
die Bedienungsperson erfordern.
-
Obwohl
die bevorzugte Ausführungsform
als ein Telefonsystem beschrieben wurde, ist es verständlich,
dass die Erfindung nicht auf Telefonanwendungen beschränkt ist
und in irgendeiner Situation verwendet werden kann, bei der die
Genauigkeit des Spracherkennungssystem kritisch ist. Beispielsweise kann
das System 10 für
Diktierzwecke verwendet werden, bei denen ein Benutzer in die Eingabeeinrichtung 22 spricht,
die in diesem Beispiel ein Mikrofon sein kann. Wenn der Benutzer
in das Mikrofon spricht und das Audio-Signal in die Spracherkennungseinrichtung
zur Verarbeitung und Transkription eingegeben wird, so wird das
Audio-Signal gleichzeitig in der Speichereinrichtung 18 für eine zukünftige Überprüfung gespeichert.
Nachdem das Diktieren abgeschlossen ist, überprüft der Benutzer den transkribierten
Text, der von der Spracherkennungseinrichtung erzeugt wurde. Wenn
irgendein Teil des Diktats von der Spracherkennungseinrichtung 14 nicht richtig transkribiert
wurde, kann der Benutzer das gespeicherte Audio-Signal überprüfen, das
dem nicht fehlerfreien Teil entspricht, und die erforderlichen Korrekturen
durchführen.
-
Entsprechend
ergibt die vorliegende Erfindung ein System, das die Genauigkeit
der Spracherkennungsanwendungen vergrößert. Weil jede Audio-Antwort,
die von einer antwortenden Person empfangen wird, gleichzeitig verarbeitet
wird, um die Antwort von einer Audio-Form auf eine Textform umzuwandeln,
und aufgezeichnet wird, wird, wenn das System feststellt, dass eine
bestimmte Antwort nicht einen vorgegebenen Genauigkeits-Vertrauens-Schwellenwert
erfüllt,
die Antwort für
eine Überprüfung durch
eine Bedienungsperson zu einer späteren Zeit markiert. Während der Überprüfung ist
die Bedienungsperson mit Hilfe der Benutzer-Schnittstelleneinrichtung
in der Lage, die Fragen der Anwendung zu betrachten und die Audio-Form
der entsprechenden Antworten zu hören. Die Bedienungsperson kann
dann aus einer Gruppe von erwarteten Antworten auswählen oder
von Hand eine Antwort in das System eingeben, das der von der antwortenden
Person gegebenen Antwort entspricht.
-
Die
beschriebenen Ausführungsformen
sind daher als erläuternd
und nicht beschränkend
anzusehen, und der Schutzumfang der Erfindung ist durch die beigefügten Ansprüche und
nicht durch die vorstehende Beschreibung angegeben, und alle Änderungen,
die unter die Bedeutung und den Äquivalenzbereich
der Ansprüche
fallen, sollen daher hier mit umfasst sein.