DE60128372T2

DE60128372T2 - Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem

Info

Publication number: DE60128372T2
Application number: DE60128372T
Authority: DE
Inventors: John Hamilton KROEKER; Oleg Boulanov
Original assignee: Eliza Corp
Current assignee: Eliza Corp
Priority date: 2000-07-31
Filing date: 2001-07-31
Publication date: 2008-01-10
Anticipated expiration: 2021-08-01
Also published as: US8812314B2; DE60128372D1; EP1317749A1; WO2002011121A8; AU2001279101A1; CA2417926C; EP1317749A4; US20100100378A1; CA2417926A1; WO2002011121A1; US7624010B1; EP1317749B1; ATE362271T1

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich allgemein auf ein Verfahren und System zur Verbesserung der Genauigkeit in einem Spracherkennungssystem und insbesondere auf ein Verfahren und System zur gleichzeitigen Aufzeichnung von Antwort-Sätzen, die einen Spracherkennungsprozess durchlaufen, für eine spätere Überprüfung.
Hintergrund der Erfindung
In der neuen verbundenen Wirtschaft ist es zunehmend für Firmen oder Diensteanbieter wichtig geworden, sich auf ihre Abnehmer und Kunden einzustellen. Ein derartiger Kontakt kann mit automatisierten Telefon-Transaktionssystemen erleichtert werden, bei denen interaktiv erzeugte Aufforderungen in dem Kontext einer Telefon-Transaktion abgespielt werden und die Antworten einer Person durch ein automatisches Spracherkennungssystem erkannt werden. Die von der antwortenden Person gegebenen Antworten werden von dem System verarbeitet, um die gesprochenen Worte in eine Bedeutung umzuwandeln, die dann interaktiv verwendet oder in einer Datenbank gespeichert werden kann.
Damit ein Computersystem die gesprochenen Worte erkennen und diese Worte in Text umwandeln kann, muss das System so programmiert sein, dass es phonetisch die Worte unterteilt und Teile der Worte in ihre Text-Äquivalente umwandelt. Eine derartige Umwandlung erfordert ein Verständnis der Komponenten der Sprache und der Bildung des gesprochenen Wortes. Die Erzeugung der Sprache erzeugt eine komplexe Serie von sich schnell ändernden Schallldruck-Schwingungsformen. Diese Schwingungsformen bilden die grundlegenden Bausteine der Sprache, die als Phoneme bekannt sind. Vokal- und Konsonant-Klänge bestehen aus Phonemen und haben viele unterschiedliche Charakteristiken, in Abhängigkeit davon, welche Komponenten der menschlichen Sprache verwendet werden. Die Position eines Phonems in einem Wort hat eine wichtige Bedeutung auf den abschließenden Klang.
Ein gesprochenes Wort kann mehrere Bedeutungen haben, in Abhängigkeit davon, wie es gesprochen wird. Sprachwissenschaftler haben Allophone als akustische Varianten von Phonemen identifiziert und verwenden sie, um in expliziterer Weise zu definieren, wie ein bestimmtes Wort gebildet wird.
Obwohl es verschiedene unterschiedliche Verfahren zur Analyse des gesprochenen Wortes und zur Ableitung der erforderlichen Information gibt, um es dem Erkennungssystem zu ermöglichen, die Sprache in Wort-Ketten umzuwandeln, unter Einschluss der verdeckten Markov-Modellierung und neuronaler Netzwerke, führen diese Verfahren im Allgemeinen ähnliche Operationen aus. Die Unterschiede zwischen diesen Verfahren sind typischerweise die Art und Weise, wie das System bestimmt, wie das phonetische Signal in Teile zu unterteilen ist, die Phoneme definieren. Allgemein wandelt ein Spracherkennungssystem zunächst ein ankommendes Sprachsignal in ein digitales Signal um. Der zweite Schritt wird als Merkmal-Ableitung bezeichnet, wobei das System das digitale Signal analysiert, um die akustischen Eigenschaften des digitalisierten Signals zu identifizieren. Die Merkmal-Ableitung unterteilt im Allgemeinen die Sprache in ihre einzelnen Klangkomponenten. Konventionelle Techniken zur Durchführung einer Merkmal-Ableitung schließen die Teilband-Codierung, schnelle Fourier-Transformationen und die lineare prädiktive Codierung ein. Sobald das Signal analysiert wurde, bestimmt das System dann, wo deutlich voneinander verschiedene akustische Bereiche auftreten. Das Ziel dieses Schrittes besteht in der Unterteilung des akustischen Signals in Bereiche, die als Phoneme identifiziert werden, die in ein Textformat umgewandelt werden können. In isolierten Wortsystemen wird dieser Prozess vereinfacht, weil es eine Pause nach jedem Wort gibt. In kontinuierlichen Sprachsystemen ist dieses Verfahren jedoch wesentlich schwieriger, weil es typischerweise keine Unterbrechungen zwischen Worten in dem akustischen Strom gibt. Entsprechend muss das System in der Lage sein, nicht nur die Worte selbst in unterschiedliche akustische Bereiche zu unterteilen, sondern es muss auch in der Lage sein, aufeinanderfolgende Worte in dem Strom voneinander zu trennen. Bei diesem Schritt werden die konventionellen Verfahren, wie z.B. die verdeckte Markov-Modellierung und neuronale Netzwerke verwendet. Der abschließende Schritt beinhaltet den Vergleich eines spezifischen akustischen Bereiches, wie er in dem vorhergehenden Schritt bestimmt wurde, mit einem bekannten Satz von Schablonen in einer Datenbank, um das Wort oder den Wort-Teil zu bestimmen, der durch den akustischen Signalbereich dargestellt ist. Wenn eine Übereinstimmung gefunden wird, wird das resultierende Text-Wort von dem System abgegeben. Wenn dies nicht der Fall ist, so kann das System entweder dynamisch manipuliert werden, um die Chancen zum Auffinden einer Übereinstimmung zu vergrößern, oder die Daten können verworfen werden, und das System kann aufgefordert werden, die Frage an die antwortende Person zu wiederholen, wenn die zugeordnete Antwort aufgrund des Datenverlustes nicht bestimmt werden kann.
Viele Faktoren können in nachteiliger Weise die Genauigkeit eines Spracherkennungssystems beeinflussen, unter Einschluss der Verwendung eines Dialektes, regionaler Dialekte und Akzente, Sprachbehinderungen, schlechter Telefonverbindungen und Hintergrundstörungen. In vielen Fällen kann selbst das höchstentwickelte Spracherkennungssystem nicht in der Lage sein, derartige Sprache zu verarbeiten, so dass der Verlust an Daten unvermeidbar ist. Eine Lösung für dieses Problem bestand in einer Beschränkung der Funktionalität der Spracherkennungs-Anwendung. In diesem Fall müssen die Benutzer des Systems trainiert werden, um sich selbst an die Beschränkungen anzupassen, die von dem System auferlegt werden (beispielsweise nur einen beschränkten Satz von Wort-Antworten angeben). Ein extremes Beispiels eines derartigen beschränkten Systems ist ein System, bei dem die einzige von dem System erkannte Antwort ein einfaches Wort oder ein Tastendruck an dem Telefon ist, beispielsweise die Aufforderung „drücke oder sage 1". Am anderen Ende befindet sich ein System, in dem ein Mensch die automatische Spracherkennungs-Transaktion auf ihre Richtigkeit überwacht. Ein derartiges System widerspricht jedoch dem gesamten Zweck eines automatisierten Systems, das allgemein auf die Verringerung von Kosten gerichtet ist.
Das Patent US-A-5 033 088 beschreibt die Verarbeitung von Sprachinformation, die ein Erkennungssystem beinhaltet, das eine Audio-Antwort empfängt und eine Transkription der Audio-Antwort vornimmt, um eine entsprechende Text-Antwort zu erzeugen. Wenn diese Text-Antwort nicht mit den erwarteten Antworten des Anrufers übereinstimmt, so wird ein Fehler angenommen, und die gesprochene Information wird an eine Bedienungsperson gesandt, die sich mit der Identifikation der Information durch erneutes Abspielen der gespeicherten Information befasst.
Zusammenfassung der Erfindung
Die vorliegende Erfindung ist auf ein Verfahren und System zur Verbesserung der Genauigkeit von Spracherkennungssystemen gerichtet.
Gemäß einem Gesichtspunkt der Erfindung wird ein Spracherkennungssystem gemäß Anspruch 1 geschaffen.
Gemäß einem weiteren Gesichtspunkt der Erfindung wird ein Verfahren zur Transkription einer Audio-Antwort geschaffen, wie es im Anspruch 8 beansprucht ist.
Das Spracherkennungssystem gemäß einem Gesichtspunkt der Erfindung schließt eine Abfrageeinrichtung zum Stellen, vorzugsweise in Form einer Audio-Aufforderung, von zumindest einer Frage an eine antwortende Person, und eine Spracherkennungseinrichtung ein, die eine Audio-Antwort von der antwortenden Person empfängt und eine Transkription der Audio-Antwort ausführt, um eine entsprechende Text-basierte Antwort zu erzeugen.
Bei der vorliegenden Erfindung wird die Genauigkeit des Spracherkennungssystem durch gleichzeitiges Aufzeichnen von Audio-Antwort-Sätzen verbessert, während die Sätze von dem Spracherkennungssystem verarbeitet werden. Eine Genauigkeits-Feststellungs-Einrichtung vergleicht die von dem Spracherkennungssystem erzeugte Text-Antwort mit einem Text-Satz von erwarteten Antworten und stellt fest, ob die Text-Antwort einer der erwarteten Antworten entspricht. Wenn ein vorgegebener Vertrauens-Parameter in der Erkennung erreicht wird, was bedeutet, dass das bestimmte Wort oder der Satz durch das System richtig erkannt wurde, so wird der aufgezeichnete Satz nicht benötigt. Wenn die Audio-Antwort jedoch nicht richtig erkannt wird, wird der aufgezeichnete Satz für die genauere Betrachtung durch einen Menschen zu einer späteren Zeit gespeichert. Dieses System vergrößert die Genauigkeit des Spracherkennungssystems, ohne dass die Kosten des Systems aufgrund der Notwendigkeit für eine Überprüfung durch einen Menschen vergrößert werden, weil lediglich die Worte, die nicht richtig erkannt wurden, selektiv überprüft werden müssen.
Wenn die Genauigkeits-Feststellungs-Einrichtung feststellt, dass die Text-Antwort nicht einer der erwarteten Antworten mit einem vorgegebenen Genauigkeits-Vertrauens-Parameter entspricht, so kann die Genauigkeits-Feststellungs-Einrichtung die Audio-Antwort für eine spätere Überprüfung markieren. Das Spracherkennungssystem kann weiterhin eine Schnittstelleneinrichtung einschließen, um es einer Bedienungsperson zu ermöglichen, die zumindest eine Frage zu betrachten und die Audio-Antwort zu hören, die der zumindest einen Frage entspricht. Die Schnittstelleneinrichtung zum Menschen (Benutzer-Schnittstelle) kann einen Personalcomputer einschließen, der einen Monitor, der es der Bedienungsperson ermöglicht, die zumindest eine Frage zu betrachten, und ein Audio-Lautsprecher-Gerät einschließt, um es der Bedienungsperson zu ermöglichen, die Audio-Antwort anzuhören. Die Abfrageeinrichtung kann ein Programm einschließen, das eine Anwendungs-Datei hat, die Code, einschließt, der bewirkt, dass die zumindest eine Frage, die der antwortenden Person zu stellen ist, eine Liste von erwarteten Antworten und eine Adresse, an der eine Datei, die die empfangende Audio-Antwort enthält, in der Speichereinrichtung gespeichert wird. Die Benutzer-Schnittstelleneinrichtung kann eine grafische Benutzer-Schnittstelle einschließen, auf der die Bedienungsperson die zumindest eine Frage und den Text-Satz von erwarteten Antworten sieht, wobei die Bedienungsperson nach dem Hören der Audio-Antwort in der Lage ist, eine der erwarteten Antworten aus dem Text-Satz von erwarteten Antworten auszuwählen. Die grafische Benutzer-Schnittstelle kann ein Anwendungs-Navigations-Fenster, das es der Bedienungsperson ermöglicht, durch die zumindest eine Frage zu navigieren, ein Audio-Navigationsfenster, um es der Bedienungsperson zu ermöglichen, die Wiedergabe der Audio-Antwort zu steuern, und ein Texteingabe-Fenster einschließen, das es der Bedienungsperson ermöglicht, eine Text-Antwort einzugeben, wenn keine der erwarteten Antworten von dem Text-Satz von erwarteten Antworten der Audio-Antwort entspricht.
Gemäß einer weiteren Ausführungsform der Erfindung schließt ein Spracherkennungssystem eine Abfrageeinrichtung zum Stellen von zumindest einer Frage an eine antwortende Person, eine Spracherkennungseinrichtung, die eine Audio-Antwort von der antwortenden Person empfängt und eine Transkription der Audio-Antwort ausführt, um eine entsprechende Text-Antwort zu erzeugen, eine Speichereinrichtung zum Speichern der Audio-Antwort, wie sie an der Spracherkennungseinrichtung empfangen wird, und eine Genauigkeits-Feststellungs-Einrichtung zum Vergleichen der Text-Antwort mit einem Text-Satz von erwarteten Antworten und zur Feststellung ein, ob die Text-Antwort einer der erwarteten Antworten entspricht.
Wenn die Genauigkeits-Feststellungs-Einrichtung feststellt, dass die Text-Antwort nicht einer der erwarteten Antworten innerhalb eines vorgegebenen Genauigkeits-Vertrauens-Parameters entspricht, so kann die Genauigkeits-Feststellungs-Einrichtung die Audio-Antwort für eine weitere Überprüfung markieren. Das Spracherkennungssystem kann weiterhin eine Benutzer-Schnittstelleneinrichtung einschließen, um es einer Bedienungsperson zu ermöglichen, die zumindest eine Frage zu sehen und die Audio-Antwort zu hören, die der zumindest einen Frage entspricht. Die Benutzer-Schnittstelleneinrichtung kann einen Personalcomputer einschließen, der einen Monitor, der es der Bedienungsperson ermöglicht, die zumindest eine Frage zu sehen, und eine Audio-Lautsprecher-Einrichtung einschließt, um es der Bedienungsperson zu ermöglichen, die Audio-Antwort zu hören. Die Abfrageeinrichtung kann ein Programm einschließen, das eine Anwendungsdatei aufweist, wobei die Anwendungsdatei Code einschließt, der bewirkt, dass die zumindest eine der antwortenden Person zu stellende Frage, eine Liste von erwarteten Antworten und eine Adresse einer Datei, die die empfangende Audio-Antwort enthält, in der Speichereinrichtung gespeichert wird. Die Benutzer-Schnittstelleneinrichtung kann eine grafische Benutzerschnittstelle einschließen, auf der die Bedienungsperson die zumindest eine Frage und den Text-Satz an erwarteten Antworten sieht, wobei nach dem Hören der Audio-Antwort die Bedienungsperson in der Lage ist, eine der erwarteten Antworten aus dem Text-Satz von erwarteten Antworten auszuwählen. Die grafische Benutzerschnittstelle kann ein Anwendungs-Navigations-Fenster, das es der Bedienungsperson ermöglicht, durch die zumindest eine Frage zu navigieren, ein Audio-Navigations-Fenster, das es der Bedienungsperson ermöglicht, die Wiedergabe der Audio-Antwort zu steuern, und ein Texteingabe-Fenster einschließen, das es der Bedienungsperson ermöglicht, eine Text-Antwort einzugeben, wenn keine der erwarteten Antworten von dem Text-Satz von erwarteten Antworten der Audio-Antwort entspricht.
Gemäß einer weiteren Ausführungsform der Erfindung schließt ein Verfahren zur Transkription einer Audio-Antwort Folgendes ein:

A. Stellen einer Frage an eine antwortende Person;
B. Empfangen einer Audio-Antwort von der antwortenden Person;
C. Ausführen einer Spracherkennungsfunktion an der Audio-Antwort zur Transkription der Audio-Antwort in eine Text-Antwort;
D. Aufzeichnen der Audio-Antwort;
E. Vergleichen der Text-Antwort mit einem Satz von erwarteten Antworten auf die Frage, wobei der Satz eine Anzahl von erwarteten Antworten auf die Frage in Text-Form einschließt; und
F. Markieren der Audio-Antwort, wenn die entsprechende Text-Antwort keiner der erwarteten Antworten in dem Satz von erwarteten Antworten entspricht.

Das Verfahren kann weiterhin die folgenden Schritte einschließen:

G. Hören der Audio-Antwort; und
H. Auswahl, aus dem Satz von erwarteten Antworten, einer Text-Antwort, die der Audio-Antwort entspricht.

Das Verfahren kann weiterhin die folgenden Schritte einschließen:

G. Hören der Audio-Antwort; und
H. Manuelle Transkription einer Text-Antwort, die der Audio-Antwort

Gemäß einer weiteren Ausführungsform der Erfindung schließt ein Verfahren zur Transkription einer Audio-Antwort Folgendes ein:

A. Konstruieren einer Anwendung, die eine Anzahl von Fragen und einen Satz von erwarteten Antworten auf jede Frage einschließt, wobei der Satz eine Anzahl von erwarteten Antworten auf jede Frage in einer Text-Form einschließt;
B. Stellen jeder der Fragen an eine antwortende Person;
C. Empfangen einer Audio-Antwort auf jede Frage von der antwortenden Person;
D. Durchführung einer Spracherkennungs-Funktion an jeder Audio-Antwort zur Transkription jeder Audio-Antwort auf eine Text-Antwort auf jede Frage;
E. Aufzeichnen jeder Audio-Antwort; und
F. Vergleichen jeder Text-Antwort mit dem Satz von erwarteten Antworten für jede entsprechende Frage, um festzustellen, ob jede Text-Antwort einer der erwarteten Antworten in dem Satz von erwarteten Antworten für die entsprechende Frage entspricht.

Das Verfahren kann weiterhin die Markierung jeder Audio-Antwort einschließen, die einer Text-Antwort entspricht, die keiner der erwarteten Antworten in dem Satz von erwarteten Antworten auf die entsprechende Frage entspricht. Das Verfahren kann weiterhin die Überprüfung jeder markierten Audio-Antwort einschließen, um festzustellen, ob eine entsprechende erwartete Antwort in dem Satz von erwarteten Antworten für die Frage enthalten ist, die jeder Audio-Antwort zugeordnet ist. Das Verfahren kann weiterhin die Auswahl, aus einem zugehörigen Satz von erwarteten Antworten für jede Frage, einer Antwort, die der markierten Audio-Antwort entspricht, sowie die manuelle Transkription einer Antwort einschließen, die jeder markierten Audio-Antwort entspricht.
Gemäß einem weiteren Gesichtspunkt der Erfindung umfasst ein Verfahren zur Transkription einer Audio-Antwort Folgendes:

A. Konstruieren einer Spracherkennungs-Anwendung, die eine Anzahl von Fragen und einen Satz von erwarteten Antworten auf jede Frage einschließt, wobei der Satz eine Anzahl von erwarteten Antworten auf jede Frage in Text-Form einschließt;
B. Stellen jeder der Fragen an eine antwortende Person mit einer Abfrage-Einrichtung;
C. Empfangen einer Audio-Antwort auf jede Frage von der antwortenden Person;
D. Ausführen einer Spracherkennungs-Funktion an jeder Audio-Antwort mit einer automatischen Spracherkennungseinrichtung zur Transkription jeder Audio-Antwort in eine Text-Antwort auf jede Frage;
E. Aufzeichnen der Audio-Antwort mit einer Aufzeichnungseinrichtung; und
F. Vergleichen, mit der automatischen Spracherkennungseinrichtung, jeder Text-Antwort mit dem Satz von erwarteten Antworten für jede entsprechende Frage, um festzustellen, ob jede Text-Antwort einer der erwarteten Antworten in dem Satz von erwarteten Antworten für die entsprechende Frage entspricht.

Kurze Beschreibung der Zeichnungen
Die vorstehenden und andere Ziele dieser Erfindung, deren verschiedene Merkmale sowie die Erfindung selbst werden weiter aus der folgenden Beschreibung verständlich, wenn diese zusammen mit den beigefügten Zeichnungen gelesen wird, in denen:
1 ein schematisches Blockschaltbild des Systems zur Verbesserung der Genauigkeit eines Spracherkennungssystems gemäß der vorliegenden Erfindung ist;
2 ein Ablaufdiagramm des Verfahrens zur Verbesserung der Genauigkeit eines Spracherkennungssystems gemäß der vorliegenden Erfindung ist; und
3 ein Diagramm einer grafischen Benutzerschnittstellen-Anzeige ist, die mit der Benutzer-Schnittstelleneinrichtung des Systems zur Verbesserung der Genauigkeit eines Spracherkennungssystems gemäß der vorliegenden Erfindung verbunden ist.
Ausführliche Beschreibung
Die vorliegende Erfindung ist auf ein Spracherkennungssystem gerichtet, das gleichzeitig einen Spracherkennungsprozess an empfangenen Antworten auf Fragen ausführt und die Antworten aufzeichnet. Während die Antworten verarbeitet und von Audio-Form auf Text umgewandelt werden, werden sie analysiert, um festzustellen, ob sie einen vorgegebenen Erkennungs-Vertrauens-Parameter erfüllen. Wenn die Text-Form der Antwort den Vertrauens-Parameter erfüllt, was bedeutet, dass das System die Audio-Antwort richtig erkannt und in die entsprechende Text-Antwort umgewandelt hat, so geht das System auf die nächste Frage über. Wenn das System feststellt, dass der umgewandelte Text-Satz nicht den Vertrauens-Parameter erfüllt, so werden die Frage und die aufgezeichnete Audio-Antwort für die Überprüfung durch einen Menschen zu einer späteren Zeit markiert.
1 ist ein schematisches Blockschaltbild des Systems 10 zur Verbesserung der Genauigkeit eines Spracherkennungssystems, gemäß der vorliegenden Erfindung. Das System 10 schließt eine Abfrageeinrichtung 12, eine Spracherkennungseinrichtung 14, eine Genauigkeits-Feststellungs-Einrichtung 16, eine Speichereinrichtung 18 und eine Benutzer-Schnittstelleneinrichtung 20 ein. Vorzugsweise ist das System 10 ein persönlicher Computer, wie z.B. ein IBM-PC oder IBM-PC-kompatibles System oder ein APPLE-MacINTOSH-System oder ein höher entwickeltes Computersystem, wie z.B. ein Alpha-basiertes Computersystem, das von der Compaq Computer Corporation erhältlich ist, oder ein SPARC-Station Computersystem, das von SUN Microsystems Corporation erhältlich ist, obwohl ein Main-Frame-Computersystem ebenfalls verwendet werden kann. In einem derartigen System befinden sich alle Komponenten des Systems auf dem Computersystem, so dass es dem System ermöglicht wird, von einer antwortenden Person empfangene Daten in der nachstehend beschriebenen Weise zu verarbeiten. Alternativ können die Komponenten in unterschiedlichen Systemen enthalten sein, die einen Zugriff aufeinander über ein LAN oder ein ähnliches Netzwerk haben. Beispielsweise kann das System eine Anzahl von Benutzer-Schnittstelleneinrichtungen 20 haben, die jeweils einen persönlichen Computer mit einem Zugang an einen Speicher umfassen, der einer oder mehreren Speichereinrichtungen 18 zugeordnet ist. Die Abfrageeinrichtung 12 kann sich auf einem Serversystem befinden, das die Audio-Antwort von der antwortenden Person empfängt und die Antwort an die Spracherkennungseinrichtung 14 und an einen Speicher sendet, der der Speichereinrichtung 18 zugeordnet ist.
Das System kann weiterhin eine Netzwerkschnittstelle einschließen, die den Empfang der Audio-Information über irgendeines einer Anzahl von Netzwerken erleichtert, wie z.B. Telefon-Netzwerke, Zellulartelefon-Netzwerke, das weltweite Datennetz, Internet, lokale Netzwerke (LANs), Weitbereichs-Netzwerke (WANs), private Netzwerke, virtuelle private Netzwerke (VPNs), Intra-Netzwerke, Extra-Netzwerke, drahtlose Netzwerke und dergleichen oder irgendeine Kombination hiervon. Das System 10 kann für irgendeines oder mehrere einer Anzahl von Eingabeeinrichtungen 22 zugänglich sein, die in der Lage sind, Audio-Information zu übertragen. Derartige Geräte 22 können ohne Beschränkung beispielsweise ein Standard-Telefon (unter Einschluss von Zellulartelefonen) einen Laptop-Computer oder einen Desktop-Computer sowie andere Audio-fähige Geräte einschließen (beispielsweise persönliche digitale Assistenten, Audio-Empfänger und Anwendungs-Server).
Die Abfrageeinrichtung 12 ist ein automatisiertes System, auf dem eine Spracherkennungs-Anwendung unter Einschluss einer Serie von akustischen Ausgangssignalen, die als Aufforderungen bezeichnet werden und die Fragen über einen bestimmten Gesichtspunkt umfassen, programmiert ist, so dass sie einer antwortenden Person dargeboten werden können, vorzugsweise mit Hilfe einer Telefon-Interaktion zwischen dem fragenden Teilnehmer und der antwortenden Person. Eine Spracherkennungs-Anwendung kann jedoch irgendeine interaktive Anwendung sein, die Informationen sammelt, liefert und/oder gemeinsam nutzt. Als Beispiele kann bei der vorliegenden Erfindung eine Sprachanwendung irgendeine einer Gruppe von interaktiven Anwendungen sein, unter Einschluss von Kunden-Umfrage-Anwendungen, Zugangs-Anwendungen auf das weltweite Datennetz, Erziehungs-Anwendungen unter Einschluss von Computer-basierten Lern- und Unterrichts-Anwendungen und Prüfungs-Anwendungen; Sortier-Anwendungen, Kundenwunsch-Überwachungs-Anwendungen, Einverständnis-Anwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über auf das Einverständnis bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich einer Produkt-Wartung; Testergebnis-Anwendungen, unter Einschluss von Anwendungen, die zumindest eines von genormten Testergebnissen, Verbraucher-Produkttestergebnissen und Wartungsergebnissen liefern; und Verknüpfungs-Anwendungen, die Anwendungen einschließen, die zwei oder mehr der vorstehenden Anwendungen miteinander verknüpfen.
Bei der bevorzugten Ausführungsform schließt jede Spracherkennungs-Anwendung eine Anwendungs-Datei ein, die in die Abfrageeinrichtung einprogrammiert ist. Jede Anwendungs-Datei schließt Code ein, der das Abspielen der Audio-Aufforderung an die antwortende Person bewirkt, wobei eine Liste von erwarteten Antworten und eine Adresse, an der eine Datei, die die empfangene Audio-Antwort enthält, in der Speichereinrichtung 18 gespeichert werden.
Vorzugsweise ist die Serie von Fragen, die die Anwendung bilden, so ausgelegt, dass spezifische Information von den antwortenden Personen gewonnen wird, um Kunden oder den Kundendienst, die Erziehung und Forschung und die Entwicklung bestimmter Produkte oder Dienste oder anderer Funktionen zu unterstützen. Beispielsweise könnte eine spezielle Sprachanwendung so ausgelegt sein, dass sie antwortenden Personen bestimmte Fragen über ein bestimmtes Produkt oder einen Dienst stellt. Die Einheit, die diese Anwendung liefert, kann dann diese Information zur Weiterentwicklung des speziellen Produktes oder Dienstes verwenden.
Die Betriebsweise des Systems wird unter Bezugnahme auf das Ablaufdiagramm 30 nach 2 beschrieben, das die an der Betriebsweise des Systems 10 beteiligten Schritte zeigt. Nachdem jede Aufforderung von der Abfrageeinrichtung abgegeben wurde, Schritt 32, empfängt die Spracherkennungseinrichtung 14 die gesprochene Audio-Antwort von der antwortenden Person über die Eingabeeinrichtung 22, wie z.B. ein Telefon, und verarbeitet die Audio-Antwort mit einem Spracherkennungs-Algorithmus, um die gesprochene Audio-Antwort in eine Text-Antwort umzuwandeln, Schritt 34.
Obwohl irgendeine Art von Spracherkennungs-Algorithmus bei der vorliegenden Erfindung verwendet werden kann, führt die Spracherkennungseinrichtung 14 vorzugsweise eine syntaktische und semantische Verarbeitung unter Verwendung einer reichen semantischen Grammatik-(RSG-)Datenbank (DB) aus, die eine Quelle für Wort- und Grammatik-Kenntnis bereitstellt, die zur Interpretation der phonetischen Daten verwendet wird. Die Grammatik, die auf einen bestimmten phonetischen Strom angewandt wird, ändert sich in Abhängigkeit von der erwarteten Antwort, die typischerweise eine Funktion einer vorhergehenden Aufforderung ist. Die RSG DB schließt eine Datenbank von Worten und Grammatik-Regeln ein, die auf die Worte bezogen sind, das heißt sie schließt sowohl syntaktische als auch semantische Daten ein. Die Beziehungen schließen Algorithmen zur Kombination von Worten in aussagekräftige Sätze entsprechend einem vorgegebenen Kontext ein. Die RSG dient als eine gemeinsame Ausgangs-Grammatik für die syntaktische und semantische Verarbeitung, die ihre eigene Darstellung der RSG für ihre jeweiligen Verarbeitungsaufgaben verwenden kann. Als Ergebnis wird eine Kompatibilität sichergestellt, weil die semantischen Stufen der Verarbeitung niemals eine illegale Wortfolge empfangen werden, beispielsweise von der syntaktischen Verarbeitungsstufe. Zusätzlich kann zur Erzielung einer größeren Effizienz, wenn mehrfache semantische Sätze die gleiche Syntax haben, eine gefaltete Darstellung der RSG für die Suche verwendet werden.
Die Grammatiken der RSG DB sind als ein Baum von Klassen, und Knoten, die Worte und Satz-Strukturen darstellen, organisiert. Ein Grammatik-Baum kann eine Vielzahl von Bäumen (oder Teil-Bäumen) einschließen. Allgemein ist die RSG DB Kontext-frei, weil die auf jedem Teil-Baum angewandten Regeln unabhängig von den anderen Teilen des Baumes arbeiten. Das heißt, dass jede Klasse (oder Knoten) eine reiche semantische Information (beispielsweise eine semantische Beschreibung) und eine syntaktische Beschreibung einschließt. Für die Zwecke der syntaktischen Suche und Analyse ist die RSG DB als eine optimierte Kontext-freie Grammatik (CFG) DB dargestellt, bei der die Grammatiken keine semantische Information einschließen, sondern vielmehr lediglich Syntax-Information einschließen, die zur Erzeugung von Wort-Listen verwendet wird. Diese vereinfachte Version der RSG DB ermöglicht eine effizientere syntaktische Analyse.
Das System 10 zeichnet zusätzlich zu der Verarbeitung der empfangenen Audio-Antwort die Antwort auf und speichert sie in der Aufzeichnungseinrichtung 18, Schritt 36. Im Schritt 38 analysiert die Genauigkeits-Feststellungs-Einrichtung 16 die Text-Antwort. Dies erfolgt vorzugsweise durch Vergleichen der umgewandelten Text-Antwort mit einer Anzahl von erwarteten Antworten auf die bestimmte Frage. Wie dies weiter oben angegeben wurde, ist die Anwendung typischerweise für einen bestimmten Gesichtspunkt spezifisch, so dass jede Frage einen erwarteten Bereich von richtigen Antworten haben wird. Wenn beispielsweise eine Frage darauf gerichtet sein würde, welches Merkmal eines bestimmten Produktes für einen Verbraucher interessant sein würde, so würde erwartet, dass die Antwort eine einer Anzahl von üblichen Merkmalen für dieses Produkt ist. Wenn das System 10 feststellt, dass die umgewandelte Text-Antwort mit einer der erwarteten Antworten übereinstimmt und damit einen Vertrauens-Parameter für diese Frage erfüllt, Schritt 40, so stellt das System fest, ob weitere Fragen in der Anwendung verbleiben, Schritt 42. Wenn dies der Fall ist, so kehrt das Verfahren zum Schritt 32 zurück und stellt die nächste Frage an die antwortende Person.
Wenn im Schritt 40 die Genauigkeits-Feststellungs-Einrichtung 16 feststellt, dass die Genauigkeit der umgewandelten Text-Antwort den Vertrauens-Parameter nicht erfüllt, so werden die Antwort und die zugehörige Frage für eine Überprüfung durch einen Menschen zu irgendeiner zukünftigen Zeit markiert, Schritt 44. Der Grad der erforderlichen Genauigkeit hängt von der Art der gestellten Fragen ab. Fragen, auf die eine einfache „Ja"- oder „Nein"-Antwort erwartet werden, erfordern nicht das gleiche Ausmaß an Genauigkeit, wie sie für komplexere Antworten erforderlich ist. Daher erfordern Antworten, von denen erwartet wird, dass sie komplizierter sind, beispielsweise Service-Erfahrungen eines bestimmten Kunden, Wahrnehmungen der antwortenden Person über ein bestimmtes Produkt, usw., eine höhere Genauigkeit bei der Umwandlung von der Audio-Form in die Text-Form und müssen daher höhere Vertrauens-Parameter erfüllen, damit sie nicht im Schritt 44 markiert werden. Wenn weitere Fragen in der Anwendung verbleiben, Schritt 42, kehrt das Verfahren zum Schritt 32 zurück und stellt die nächste Frage an die antwortende Person. Wenn es keine weiteren Fragen gibt, beginnt die Überprüfung der während der Anwendung aufgezeichneten Antworten durch einen Menschen, Schritt 46.
3 ist ein Diagramm einer grafischen Schnittstellen-Anzeige 50, die der Benutzer-Schnittstelleneinrichtung 20 des Systems 10 zugeordnet ist und die von der Bedienungsperson verwendet wird, um die Fragen und Antworten in einer Anwendung zu überprüfen. Wie dies weiter oben erwähnt wurde, wird, während jede Anwendung ausgeführt wird, sie in der Speichereinrichtung 18 des Systems gespeichert. Eine Bedienungsperson ist dann in der Lage, jede Anwendung zu überprüfen, um sicherzustellen, dass die Spracherkennungseinrichtung 14 in richtiger Weise jede empfangene Audio-Antwort verarbeitet und die Audio-Antwort in eine entsprechende Text-Antwort umgewandelt hat. Wie dies weiter oben erwähnt wurde, schließt die Benutzer-Schnittstelleneinrichtung 20 typischerweise einen persönlichen Computer ein, der einen Zugriff auf die Speichereinrichtung 18 hat. Die Benutzer-Schnittstelleneinrichtung 20 schließt weiterhin Audio-Lautsprecher ein, die es der Bedienungsperson ermöglichen, die empfangenen Audio-Antworten zu hören, während die Anwendung überprüft wird. Wie dies in der Figur gezeigt ist, liefert die Anzeige Informationen an die Bedienungsperson hinsichtlich der Anwendung, die es der Bedienungsperson ermöglichen, jede Frage in einer Anwendung und die entsprechende Antwort zu überprüfen.
Die Anzeige 50 schließt ein Anwendungs-Informations-Fenster 52 ein, das Informationen über einen Antwort-Satz der überprüften Anwendung liefert. Eine derartige Information schließt die Nummer eines Antwort-Satzes als Teil der Gesamtzahl von Antwort-Sätzen für die spezielle überprüfte Anwendung ein. In diesem Beispiel ist der überprüfte Antwort-Satz der Antwort-Satz Nummer 2 von insgesamt vier Antwort-Sätzen einer bestimmten Anwendung. Das Fenster 52 schließt das Datum und die Zeit ein, an der die Anwendung fertiggestellt wurde, sowie einen Navigations-Balken 54, der es der Bedienungsperson ermöglicht, durch die Antwort-Sätze der Anwendung zu navigieren. Das Fenster 52 schließt weiterhin einen Bemerkungs-Abschnitt 56 ein, der es der Bedienungsperson ermöglicht, irgendwelche Bemerkungen über den Anwendungs-Antwort-Satz und/oder die antwortende Person einzugeben. Ein Frage-Navigations-Fenster 58 zeigt an, welche Frage überprüft wird, deren Text bei 60 gezeigt ist. Das Frage-Navigations-Fenster 58 ermöglicht es der Bedienungsperson, durch die Fragen in der Anwendung vorwärts und rückwärts zu navigieren. Ein Audio-Navigationsfenster 62 ermöglicht es der Bedienungsperson, die Wiedergabe der Antworten zu steuern.
Im Schritt 46, 2, der vorliegenden Erfindung verbindet die Bedienungsperson die Speichereinrichtung 18 mit der Benutzer-Schnittstelleneinrichtung 20 über das Netzwerk, wie dies weiter oben beschrieben wurde. Die Bedienungsperson kann dann die Anwendungs-Antwort-Datei von der Speichereinrichtung 18 zur Überprüfung herunterladen. Wie dies weiter oben angegeben wurde, schließt jede Anwendung eine Anzahl von Fragen und eine jeder Frage zugeordnete Audio-Antwort ein. Die Antwort-Datei, die auf die Benutzer-Schnittstelleneinrichtung heruntergeladen wird, enthält sowohl die Textversion jeder Frage in der Anwendung als auch eine Audio-Datei, die die Antwort der antwortenden Person auf jede Frage einschließt. Die Antwort-Datei schließt weiterhin den Satz von erwarteten Antworten ein, die jeder Frage zugeordnet sind. Die Bedienungsperson kann dann durch die Fragen navigieren, jede Frage betrachten und die der Frage zugeordnete Audio-Antwort anhören. Wie dies weiter oben angegeben wurde, werden, wenn die Text-Form der Audio-Antwort, wie sie von der Spracherkennungseinrichtung 14 verarbeitet wurde, nicht den vorgegebenen Genauigkeits-Vertrauens-Parameter erfüllt, die Frage und ihre Antwort für eine spätere Überprüfung markiert.
In dem in 3 gezeigten Beispiel ist die Frage 4 eines Anwendungsbeispiels wie folgt „Bitte teilen Sie uns mit, über welches Produkt sie Informationen wünschen?", wie dies bei 60 angezeigt ist. Zusammen mit der Frage 60 wird der Bedienungsperson ein Satz von erwarteten Antworten im Fenster 66 dargeboten. Das Fenster 66 schließt weiterhin einen Kasten 68 ein, in dem die richtige Antwort von Hand von der Bedienungsperson eingegeben werden kann. Nach dem Lesen der Frage klickt die Bedienungsperson auf den „Abspielen"-Knopf 64, um die von der antwortenden Person gegebene Audio-Antwort zu hören. Beim Hören und Feststellen der von der antwortenden Person gesprochenen Antwort kann die Bedienungsperson entweder eine der erwarteten Antworten mit einem Mausklick auswählen, oder die Bedienungsperson kann die Antwort in den Kasten 68 eingeben, Schritt 48, 2. Wenn die Bedienungsperson die Audio-Antwort wiederholen möchte, kann das Audio-Navigationsfenster 62 verwendet werden, um die gesamte oder einen Teil der Antwort erneut abzuspielen. Typischerweise weist die von der antwortenden Person gelieferte Antwort nicht die exakte Form einer der erwarteten Antworten. Beispielsweise könnte als Antwort auf die in 3 gezeigte Frage die antwortende Person sagen: „Gut, ich bin an Kühlschränken interessiert". Selbst wenn die Spracherkennungseinrichtung 14 in richtiger Weise eine Transkription der Antwort ausführt, ist es unwahrscheinlich, dass die Genauigkeits-Feststellungseinrichtung 16 in der Lage ist, die umgewandelte Text-Antwort auf Übereinstimmung mit einer der erwarteten Antworten zu bringen. In einem derartigen Szenarium wird die Bedienungsperson nach dem Hören der Antwort „Haushaltsgeräte" in dem Kasten 66 für die erwarteten Antworten auswählen. Wenn die Bedienungsperson feststellt, dass die von der antwortenden Person gegebene Antwort nicht in dem Fenster 66 für die erwarteten Antworten enthalten ist, kann er oder sie von Hand die Antwort in den Kasten 68 eingeben, wenn die Antwort verständlich und relevant ist. Die Bedienungsperson würde dann die nächste Rage über das Navigationsfenster 58 auswählen.
Wenn die Genauigkeits-Bestimmungs-Einrichtung für eine bestimmte Frage festgestellt hat, dass die umgewandelte Text-Antwort mit einer der erwarteten Antworten übereinstimmt, und daher der Genauigkeits-Vertrauens-Parameter erfüllt war, Schritt 40, 2, so wurde die Frage nicht im Schritt 44 markiert. Entsprechend erscheint die Frage bei 60 in der Anzeige 50, doch ist das Fenster 66 für die erwartete Antwort inaktiv, wodurch die Bedienungsperson daran gehindert wird, eine andere Antwort als die auszuwählen, die von der Spracherkennungseinrichtung 14 empfangen und umgewandelt wurde. Alternativ kann das System so konfiguriert werden, dass irgendwelche nicht markierten Fragen der Bedienungsperson nicht zur Überprüfung dargeboten werden.
In einer alternativen Ausführungsform kann das System anstelle der Speicherung jeder empfangenen Audio-Antwort in der Speichereinrichtung 18 und der Markierung der Antworten, die eine Überprüfung erfordern, nach der Feststellung, dass eine umgewandelte Text-Antwort den Genauigkeits-Vertrauens-Parameter erfüllt, die entsprechende Audio-Antwort aus der Speichereinrichtung 18 entfernen. Während des Überprüfungsvorganges werden der Bedienungsperson lediglich die Antworten dargeboten, die eine weitere Überprüfung erfordern, wie dies durch die Genauigkeits-Feststellungs-Einrichtung 16 festgestellt wird. Weiterhin kann das System so programmiert werden, dass es lediglich einige der empfangenen Antworten aufzeichnet. Wenn die erwartete Antwort auf eine Frage entweder „Ja" oder „Nein" oder irgendeine andere Antwort ist, die die Spracherkennungseinrichtung einfach und korrekt transkribieren kann, so kann das System so programmiert werden, dass die Antwort verarbeitet und durch die Spracherkennungseinrichtung 14 transkribiert wird, jedoch nicht aufgezeichnet und in der Speichereinrichtung 18 gespeichert wird. Dies ermöglicht es dem System, die Größe des Speichers zu verringern, der zur Ausführung der Anwendung erforderlich ist.
In einer weiteren Ausführungsform kann das System die Audio-Antwort mit der Spracherkennungseinrichtung 14 bearbeiten, bevor sie aufgezeichnet wird, und wenn die Genauigkeits-Feststellungs-Einrichtung 16 feststellt, dass die transkribierte Text-Antwort, die von der Spracherkennungseinrichtung 14 abgegeben wird, nicht den Genauigkeits-Vertrauens-Parameter erfüllt, so kann die Abfrageeinrichtung 12 aufgefordert werden, die Frage zu wiederholen. Wenn die antwortende Person seine oder ihre Antwort wiederholt, so wird die Antwort aufgezeichnet und in der Speichereinrichtung 18 gespeichert. Die Antwort wird erneut von der Spracherkennungseinrichtung 14 verarbeitet, und wenn die Genauigkeits-Feststellungs-Einrichtung feststellt, dass die Antwort immer noch nicht den Genauigkeits-Vertrauens-Parameter erfüllt, oder überschreitet, so wird die Antwort für eine weitere Überprüfung markiert. Diese Ausführungsform verringert die Größe des erforderlichen Speichers weiter dadurch, dass lediglich Antworten aufgezeichnet werden, die eine weitere Überprüfung durch die Bedienungsperson erfordern.
Obwohl die bevorzugte Ausführungsform als ein Telefonsystem beschrieben wurde, ist es verständlich, dass die Erfindung nicht auf Telefonanwendungen beschränkt ist und in irgendeiner Situation verwendet werden kann, bei der die Genauigkeit des Spracherkennungssystem kritisch ist. Beispielsweise kann das System 10 für Diktierzwecke verwendet werden, bei denen ein Benutzer in die Eingabeeinrichtung 22 spricht, die in diesem Beispiel ein Mikrofon sein kann. Wenn der Benutzer in das Mikrofon spricht und das Audio-Signal in die Spracherkennungseinrichtung zur Verarbeitung und Transkription eingegeben wird, so wird das Audio-Signal gleichzeitig in der Speichereinrichtung 18 für eine zukünftige Überprüfung gespeichert. Nachdem das Diktieren abgeschlossen ist, überprüft der Benutzer den transkribierten Text, der von der Spracherkennungseinrichtung erzeugt wurde. Wenn irgendein Teil des Diktats von der Spracherkennungseinrichtung 14 nicht richtig transkribiert wurde, kann der Benutzer das gespeicherte Audio-Signal überprüfen, das dem nicht fehlerfreien Teil entspricht, und die erforderlichen Korrekturen durchführen.
Entsprechend ergibt die vorliegende Erfindung ein System, das die Genauigkeit der Spracherkennungsanwendungen vergrößert. Weil jede Audio-Antwort, die von einer antwortenden Person empfangen wird, gleichzeitig verarbeitet wird, um die Antwort von einer Audio-Form auf eine Textform umzuwandeln, und aufgezeichnet wird, wird, wenn das System feststellt, dass eine bestimmte Antwort nicht einen vorgegebenen Genauigkeits-Vertrauens-Schwellenwert erfüllt, die Antwort für eine Überprüfung durch eine Bedienungsperson zu einer späteren Zeit markiert. Während der Überprüfung ist die Bedienungsperson mit Hilfe der Benutzer-Schnittstelleneinrichtung in der Lage, die Fragen der Anwendung zu betrachten und die Audio-Form der entsprechenden Antworten zu hören. Die Bedienungsperson kann dann aus einer Gruppe von erwarteten Antworten auswählen oder von Hand eine Antwort in das System eingeben, das der von der antwortenden Person gegebenen Antwort entspricht.
Die beschriebenen Ausführungsformen sind daher als erläuternd und nicht beschränkend anzusehen, und der Schutzumfang der Erfindung ist durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung angegeben, und alle Änderungen, die unter die Bedeutung und den Äquivalenzbereich der Ansprüche fallen, sollen daher hier mit umfasst sein.

Claims

Spracherkennungssystem mit: einer Abfrageeinrichtung (12) zum Stellen zumindest einer Frage an eine antwortende Person; einer Spracherkennungseinrichtung (14), die eine Audio-Antwort von der antwortenden Person empfängt und eine Transkription der Audio-Antwort ausführt, um eine entsprechende Text-Antwort zu erzeugen; einer Speichereinrichtung (18) zum Speichern der Audio-Antwort, während sie von der Spracherkennungseinrichtung (14) empfangen wird; und dadurch gekennzeichnet, dass sie weiterhin Folgendes umfasst: eine Genauigkeits-Feststellungs-Einrichtung (16) zum Vergleichen der Text-Antwort mit einem Text-Satz von erwarteten Antworten und zum Feststellen, ob die Text-Antwort einer der erwarteten Antworten entspricht, wobei die Genauigkeits-Feststellungs-Einrichtung (16) so konfiguriert und angeordnet ist, dass sie feststellt, ob die Text-Antwort einer der erwarteten Antworten mit einem vorgegebenen Genauigkeits-Vertrauens-Parameter entspricht, und dass sie die Audio-Antwort für eine weitere Überprüfung markiert, wenn die Text-Antwort nicht einer der erwarteten Antworten innerhalb des vorgegebenen Genauigkeits-Vertrauens-Parameters entspricht.
Spracherkennungssystem nach Anspruch 3, das weiterhin eine Benutzer-Schnittstelleneinrichtung (20) umfasst, um es einer Bedienungsperson zu ermöglichen, die zumindest eine Frage zu betrachten und die Audio-Antwort zu hören, die der zumindest einen Frage entspricht.
Spracherkennungssystem nach Anspruch 1 oder 2, bei dem die Benutzer-Schnittstelleneinrichtung (20) einen Personalcomputer umfasst, der einen Monitor, der es der Bedienungsperson ermöglicht, die zumindest eine Frage zu betrachten, und ein Audio-Lautsprecher-Gerät einschließt, das es der Bedienungsperson ermöglicht, die Audio-Antwort zu hören.
Spracherkennungssystem nach einem der Ansprüche 1–3, bei dem die Frageeinrichtung ein Programm einschließt, das eine Anwendungs-Datei, wobei die Anwendungs-Datei Code einschließt, der bewirkt, dass die zumindest eine Frage der antwortenden Person gestellt wird, eine Liste von erwarteten Antworten und eine Adresse aufweist, an der eine Datei, die die empfangene Audio-Antwort enthält, in der Speichereinrichtung (18) gespeichert wird.
Spracherkennungssystem nach einem der Ansprüche 2–4, bei dem die Benutzer-Schnittstelleneinrichtung (20) eine grafische Benutzerschnittstelle einschließt, auf der die Bedienungsperson die zumindest eine Frage und den Text-Satz von erwarteteten Antworten betrachtet, wobei die Bedienungsperson nach dem Hören der Audio-Antwort in der Lage ist, eine der erwarteteten Antworten von dem Text-Satz von erwarteteten Antworten auszuwählen.
Spracherkennungssystem nach Anspruch 5, bei dem die grafische Benutzerschnittstelle ein Anwendungs-Navigationsfenster, das es der Bedienungsperson ermöglicht, durch die zumindest eine Frage zu navigieren, und ein Audio-Navigationsfenster umfasst, das es der Bedienungsperson ermöglicht, die Wiedergabe der Audio-Antwort zu steuern.
Spracherkennungssystem nach Anspruch 5 oder 6, bei dem die grafische Benutzerschnittstelle ein Text-Eingabefenster einschließt, das es der Bedienungsperson ermöglicht, eine Text-Antwort einzugeben, wenn keine der erwarteteten Antworten von dem Text-Satz von erwarteteten Antworten der Audio-Antwort entspricht.
Verfahren zum Transkribieren einer Audio-Antwort mit den folgenden Schritten: A. Stellen (32) einer Frage an eine antwortende Person; B. Empfangen einer Audio-Antwort von der antwortenden Person; C. Ausführen (34) einer Spracherkennungsfunktion an der Audio-Antwort, um eine Transkription der Audio-Antwort auf eine Text-Antwort durchzuführen; D. Aufzeichnen (36) der Audio-Antwort, gekennzeichnet durch die folgenden Schritte: E. Vergleichen (38, 40) der Text-Antwort mit einem Text-Satz von erwarteten Antworten auf die Frage, wobei der Satz eine Vielzahl von erwarteten Antworten auf die Frage in einer Text-Form einschließt, und Feststellen, ob die Text-Antwort einer der Vielzahl von erwarteten Antworten innerhalb eines vorgegebenen Genauigkeits-Vertrauens-Parameters entspricht; und F. Markieren (44) der Audio-Antwort, wenn die entsprechende Text-Antwort nicht einer der erwarteten Antworten in dem Satz von erwarteten Antworten entspricht.
Verfahren nach Anspruch 8, das weiterhin Folgendes umfasst: G. Hören (46) der Audio-Antwort; und H. Auswählen (48) einer Text-Antwort aus dem Satz von erwarteten Antworten, die der Audio-Antwort entspricht.
Verfahren nach Anspruch 8, das weiterhin Folgendes umfasst: G. Hören (46) der Audio-Antwort; und H. Manuelles Transkribieren (48) einer Text-Antwort, die der Audio-Antwort entspricht.