DE60128372T2 - Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem - Google Patents

Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem Download PDF

Info

Publication number
DE60128372T2
DE60128372T2 DE60128372T DE60128372T DE60128372T2 DE 60128372 T2 DE60128372 T2 DE 60128372T2 DE 60128372 T DE60128372 T DE 60128372T DE 60128372 T DE60128372 T DE 60128372T DE 60128372 T2 DE60128372 T2 DE 60128372T2
Authority
DE
Germany
Prior art keywords
response
audio
text
question
expected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60128372T
Other languages
English (en)
Other versions
DE60128372D1 (de
Inventor
John Hamilton KROEKER
Oleg Boulanov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eliza Corp
Original Assignee
Eliza Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eliza Corp filed Critical Eliza Corp
Publication of DE60128372D1 publication Critical patent/DE60128372D1/de
Application granted granted Critical
Publication of DE60128372T2 publication Critical patent/DE60128372T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf ein Verfahren und System zur Verbesserung der Genauigkeit in einem Spracherkennungssystem und insbesondere auf ein Verfahren und System zur gleichzeitigen Aufzeichnung von Antwort-Sätzen, die einen Spracherkennungsprozess durchlaufen, für eine spätere Überprüfung.
  • Hintergrund der Erfindung
  • In der neuen verbundenen Wirtschaft ist es zunehmend für Firmen oder Diensteanbieter wichtig geworden, sich auf ihre Abnehmer und Kunden einzustellen. Ein derartiger Kontakt kann mit automatisierten Telefon-Transaktionssystemen erleichtert werden, bei denen interaktiv erzeugte Aufforderungen in dem Kontext einer Telefon-Transaktion abgespielt werden und die Antworten einer Person durch ein automatisches Spracherkennungssystem erkannt werden. Die von der antwortenden Person gegebenen Antworten werden von dem System verarbeitet, um die gesprochenen Worte in eine Bedeutung umzuwandeln, die dann interaktiv verwendet oder in einer Datenbank gespeichert werden kann.
  • Damit ein Computersystem die gesprochenen Worte erkennen und diese Worte in Text umwandeln kann, muss das System so programmiert sein, dass es phonetisch die Worte unterteilt und Teile der Worte in ihre Text-Äquivalente umwandelt. Eine derartige Umwandlung erfordert ein Verständnis der Komponenten der Sprache und der Bildung des gesprochenen Wortes. Die Erzeugung der Sprache erzeugt eine komplexe Serie von sich schnell ändernden Schallldruck-Schwingungsformen. Diese Schwingungsformen bilden die grundlegenden Bausteine der Sprache, die als Phoneme bekannt sind. Vokal- und Konsonant-Klänge bestehen aus Phonemen und haben viele unterschiedliche Charakteristiken, in Abhängigkeit davon, welche Komponenten der menschlichen Sprache verwendet werden. Die Position eines Phonems in einem Wort hat eine wichtige Bedeutung auf den abschließenden Klang.
  • Ein gesprochenes Wort kann mehrere Bedeutungen haben, in Abhängigkeit davon, wie es gesprochen wird. Sprachwissenschaftler haben Allophone als akustische Varianten von Phonemen identifiziert und verwenden sie, um in expliziterer Weise zu definieren, wie ein bestimmtes Wort gebildet wird.
  • Obwohl es verschiedene unterschiedliche Verfahren zur Analyse des gesprochenen Wortes und zur Ableitung der erforderlichen Information gibt, um es dem Erkennungssystem zu ermöglichen, die Sprache in Wort-Ketten umzuwandeln, unter Einschluss der verdeckten Markov-Modellierung und neuronaler Netzwerke, führen diese Verfahren im Allgemeinen ähnliche Operationen aus. Die Unterschiede zwischen diesen Verfahren sind typischerweise die Art und Weise, wie das System bestimmt, wie das phonetische Signal in Teile zu unterteilen ist, die Phoneme definieren. Allgemein wandelt ein Spracherkennungssystem zunächst ein ankommendes Sprachsignal in ein digitales Signal um. Der zweite Schritt wird als Merkmal-Ableitung bezeichnet, wobei das System das digitale Signal analysiert, um die akustischen Eigenschaften des digitalisierten Signals zu identifizieren. Die Merkmal-Ableitung unterteilt im Allgemeinen die Sprache in ihre einzelnen Klangkomponenten. Konventionelle Techniken zur Durchführung einer Merkmal-Ableitung schließen die Teilband-Codierung, schnelle Fourier-Transformationen und die lineare prädiktive Codierung ein. Sobald das Signal analysiert wurde, bestimmt das System dann, wo deutlich voneinander verschiedene akustische Bereiche auftreten. Das Ziel dieses Schrittes besteht in der Unterteilung des akustischen Signals in Bereiche, die als Phoneme identifiziert werden, die in ein Textformat umgewandelt werden können. In isolierten Wortsystemen wird dieser Prozess vereinfacht, weil es eine Pause nach jedem Wort gibt. In kontinuierlichen Sprachsystemen ist dieses Verfahren jedoch wesentlich schwieriger, weil es typischerweise keine Unterbrechungen zwischen Worten in dem akustischen Strom gibt. Entsprechend muss das System in der Lage sein, nicht nur die Worte selbst in unterschiedliche akustische Bereiche zu unterteilen, sondern es muss auch in der Lage sein, aufeinanderfolgende Worte in dem Strom voneinander zu trennen. Bei diesem Schritt werden die konventionellen Verfahren, wie z.B. die verdeckte Markov-Modellierung und neuronale Netzwerke verwendet. Der abschließende Schritt beinhaltet den Vergleich eines spezifischen akustischen Bereiches, wie er in dem vorhergehenden Schritt bestimmt wurde, mit einem bekannten Satz von Schablonen in einer Datenbank, um das Wort oder den Wort-Teil zu bestimmen, der durch den akustischen Signalbereich dargestellt ist. Wenn eine Übereinstimmung gefunden wird, wird das resultierende Text-Wort von dem System abgegeben. Wenn dies nicht der Fall ist, so kann das System entweder dynamisch manipuliert werden, um die Chancen zum Auffinden einer Übereinstimmung zu vergrößern, oder die Daten können verworfen werden, und das System kann aufgefordert werden, die Frage an die antwortende Person zu wiederholen, wenn die zugeordnete Antwort aufgrund des Datenverlustes nicht bestimmt werden kann.
  • Viele Faktoren können in nachteiliger Weise die Genauigkeit eines Spracherkennungssystems beeinflussen, unter Einschluss der Verwendung eines Dialektes, regionaler Dialekte und Akzente, Sprachbehinderungen, schlechter Telefonverbindungen und Hintergrundstörungen. In vielen Fällen kann selbst das höchstentwickelte Spracherkennungssystem nicht in der Lage sein, derartige Sprache zu verarbeiten, so dass der Verlust an Daten unvermeidbar ist. Eine Lösung für dieses Problem bestand in einer Beschränkung der Funktionalität der Spracherkennungs-Anwendung. In diesem Fall müssen die Benutzer des Systems trainiert werden, um sich selbst an die Beschränkungen anzupassen, die von dem System auferlegt werden (beispielsweise nur einen beschränkten Satz von Wort-Antworten angeben). Ein extremes Beispiels eines derartigen beschränkten Systems ist ein System, bei dem die einzige von dem System erkannte Antwort ein einfaches Wort oder ein Tastendruck an dem Telefon ist, beispielsweise die Aufforderung „drücke oder sage 1". Am anderen Ende befindet sich ein System, in dem ein Mensch die automatische Spracherkennungs-Transaktion auf ihre Richtigkeit überwacht. Ein derartiges System widerspricht jedoch dem gesamten Zweck eines automatisierten Systems, das allgemein auf die Verringerung von Kosten gerichtet ist.
  • Das Patent US-A-5 033 088 beschreibt die Verarbeitung von Sprachinformation, die ein Erkennungssystem beinhaltet, das eine Audio-Antwort empfängt und eine Transkription der Audio-Antwort vornimmt, um eine entsprechende Text-Antwort zu erzeugen. Wenn diese Text-Antwort nicht mit den erwarteten Antworten des Anrufers übereinstimmt, so wird ein Fehler angenommen, und die gesprochene Information wird an eine Bedienungsperson gesandt, die sich mit der Identifikation der Information durch erneutes Abspielen der gespeicherten Information befasst.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung ist auf ein Verfahren und System zur Verbesserung der Genauigkeit von Spracherkennungssystemen gerichtet.
  • Gemäß einem Gesichtspunkt der Erfindung wird ein Spracherkennungssystem gemäß Anspruch 1 geschaffen.
  • Gemäß einem weiteren Gesichtspunkt der Erfindung wird ein Verfahren zur Transkription einer Audio-Antwort geschaffen, wie es im Anspruch 8 beansprucht ist.
  • Das Spracherkennungssystem gemäß einem Gesichtspunkt der Erfindung schließt eine Abfrageeinrichtung zum Stellen, vorzugsweise in Form einer Audio-Aufforderung, von zumindest einer Frage an eine antwortende Person, und eine Spracherkennungseinrichtung ein, die eine Audio-Antwort von der antwortenden Person empfängt und eine Transkription der Audio-Antwort ausführt, um eine entsprechende Text-basierte Antwort zu erzeugen.
  • Bei der vorliegenden Erfindung wird die Genauigkeit des Spracherkennungssystem durch gleichzeitiges Aufzeichnen von Audio-Antwort-Sätzen verbessert, während die Sätze von dem Spracherkennungssystem verarbeitet werden. Eine Genauigkeits-Feststellungs-Einrichtung vergleicht die von dem Spracherkennungssystem erzeugte Text-Antwort mit einem Text-Satz von erwarteten Antworten und stellt fest, ob die Text-Antwort einer der erwarteten Antworten entspricht. Wenn ein vorgegebener Vertrauens-Parameter in der Erkennung erreicht wird, was bedeutet, dass das bestimmte Wort oder der Satz durch das System richtig erkannt wurde, so wird der aufgezeichnete Satz nicht benötigt. Wenn die Audio-Antwort jedoch nicht richtig erkannt wird, wird der aufgezeichnete Satz für die genauere Betrachtung durch einen Menschen zu einer späteren Zeit gespeichert. Dieses System vergrößert die Genauigkeit des Spracherkennungssystems, ohne dass die Kosten des Systems aufgrund der Notwendigkeit für eine Überprüfung durch einen Menschen vergrößert werden, weil lediglich die Worte, die nicht richtig erkannt wurden, selektiv überprüft werden müssen.
  • Wenn die Genauigkeits-Feststellungs-Einrichtung feststellt, dass die Text-Antwort nicht einer der erwarteten Antworten mit einem vorgegebenen Genauigkeits-Vertrauens-Parameter entspricht, so kann die Genauigkeits-Feststellungs-Einrichtung die Audio-Antwort für eine spätere Überprüfung markieren. Das Spracherkennungssystem kann weiterhin eine Schnittstelleneinrichtung einschließen, um es einer Bedienungsperson zu ermöglichen, die zumindest eine Frage zu betrachten und die Audio-Antwort zu hören, die der zumindest einen Frage entspricht. Die Schnittstelleneinrichtung zum Menschen (Benutzer-Schnittstelle) kann einen Personalcomputer einschließen, der einen Monitor, der es der Bedienungsperson ermöglicht, die zumindest eine Frage zu betrachten, und ein Audio-Lautsprecher-Gerät einschließt, um es der Bedienungsperson zu ermöglichen, die Audio-Antwort anzuhören. Die Abfrageeinrichtung kann ein Programm einschließen, das eine Anwendungs-Datei hat, die Code, einschließt, der bewirkt, dass die zumindest eine Frage, die der antwortenden Person zu stellen ist, eine Liste von erwarteten Antworten und eine Adresse, an der eine Datei, die die empfangende Audio-Antwort enthält, in der Speichereinrichtung gespeichert wird. Die Benutzer-Schnittstelleneinrichtung kann eine grafische Benutzer-Schnittstelle einschließen, auf der die Bedienungsperson die zumindest eine Frage und den Text-Satz von erwarteten Antworten sieht, wobei die Bedienungsperson nach dem Hören der Audio-Antwort in der Lage ist, eine der erwarteten Antworten aus dem Text-Satz von erwarteten Antworten auszuwählen. Die grafische Benutzer-Schnittstelle kann ein Anwendungs-Navigations-Fenster, das es der Bedienungsperson ermöglicht, durch die zumindest eine Frage zu navigieren, ein Audio-Navigationsfenster, um es der Bedienungsperson zu ermöglichen, die Wiedergabe der Audio-Antwort zu steuern, und ein Texteingabe-Fenster einschließen, das es der Bedienungsperson ermöglicht, eine Text-Antwort einzugeben, wenn keine der erwarteten Antworten von dem Text-Satz von erwarteten Antworten der Audio-Antwort entspricht.
  • Gemäß einer weiteren Ausführungsform der Erfindung schließt ein Spracherkennungssystem eine Abfrageeinrichtung zum Stellen von zumindest einer Frage an eine antwortende Person, eine Spracherkennungseinrichtung, die eine Audio-Antwort von der antwortenden Person empfängt und eine Transkription der Audio-Antwort ausführt, um eine entsprechende Text-Antwort zu erzeugen, eine Speichereinrichtung zum Speichern der Audio-Antwort, wie sie an der Spracherkennungseinrichtung empfangen wird, und eine Genauigkeits-Feststellungs-Einrichtung zum Vergleichen der Text-Antwort mit einem Text-Satz von erwarteten Antworten und zur Feststellung ein, ob die Text-Antwort einer der erwarteten Antworten entspricht.
  • Wenn die Genauigkeits-Feststellungs-Einrichtung feststellt, dass die Text-Antwort nicht einer der erwarteten Antworten innerhalb eines vorgegebenen Genauigkeits-Vertrauens-Parameters entspricht, so kann die Genauigkeits-Feststellungs-Einrichtung die Audio-Antwort für eine weitere Überprüfung markieren. Das Spracherkennungssystem kann weiterhin eine Benutzer-Schnittstelleneinrichtung einschließen, um es einer Bedienungsperson zu ermöglichen, die zumindest eine Frage zu sehen und die Audio-Antwort zu hören, die der zumindest einen Frage entspricht. Die Benutzer-Schnittstelleneinrichtung kann einen Personalcomputer einschließen, der einen Monitor, der es der Bedienungsperson ermöglicht, die zumindest eine Frage zu sehen, und eine Audio-Lautsprecher-Einrichtung einschließt, um es der Bedienungsperson zu ermöglichen, die Audio-Antwort zu hören. Die Abfrageeinrichtung kann ein Programm einschließen, das eine Anwendungsdatei aufweist, wobei die Anwendungsdatei Code einschließt, der bewirkt, dass die zumindest eine der antwortenden Person zu stellende Frage, eine Liste von erwarteten Antworten und eine Adresse einer Datei, die die empfangende Audio-Antwort enthält, in der Speichereinrichtung gespeichert wird. Die Benutzer-Schnittstelleneinrichtung kann eine grafische Benutzerschnittstelle einschließen, auf der die Bedienungsperson die zumindest eine Frage und den Text-Satz an erwarteten Antworten sieht, wobei nach dem Hören der Audio-Antwort die Bedienungsperson in der Lage ist, eine der erwarteten Antworten aus dem Text-Satz von erwarteten Antworten auszuwählen. Die grafische Benutzerschnittstelle kann ein Anwendungs-Navigations-Fenster, das es der Bedienungsperson ermöglicht, durch die zumindest eine Frage zu navigieren, ein Audio-Navigations-Fenster, das es der Bedienungsperson ermöglicht, die Wiedergabe der Audio-Antwort zu steuern, und ein Texteingabe-Fenster einschließen, das es der Bedienungsperson ermöglicht, eine Text-Antwort einzugeben, wenn keine der erwarteten Antworten von dem Text-Satz von erwarteten Antworten der Audio-Antwort entspricht.
  • Gemäß einer weiteren Ausführungsform der Erfindung schließt ein Verfahren zur Transkription einer Audio-Antwort Folgendes ein:
    • A. Stellen einer Frage an eine antwortende Person;
    • B. Empfangen einer Audio-Antwort von der antwortenden Person;
    • C. Ausführen einer Spracherkennungsfunktion an der Audio-Antwort zur Transkription der Audio-Antwort in eine Text-Antwort;
    • D. Aufzeichnen der Audio-Antwort;
    • E. Vergleichen der Text-Antwort mit einem Satz von erwarteten Antworten auf die Frage, wobei der Satz eine Anzahl von erwarteten Antworten auf die Frage in Text-Form einschließt; und
    • F. Markieren der Audio-Antwort, wenn die entsprechende Text-Antwort keiner der erwarteten Antworten in dem Satz von erwarteten Antworten entspricht.
  • Das Verfahren kann weiterhin die folgenden Schritte einschließen:
    • G. Hören der Audio-Antwort; und
    • H. Auswahl, aus dem Satz von erwarteten Antworten, einer Text-Antwort, die der Audio-Antwort entspricht.
  • Das Verfahren kann weiterhin die folgenden Schritte einschließen:
    • G. Hören der Audio-Antwort; und
    • H. Manuelle Transkription einer Text-Antwort, die der Audio-Antwort
  • Gemäß einer weiteren Ausführungsform der Erfindung schließt ein Verfahren zur Transkription einer Audio-Antwort Folgendes ein:
    • A. Konstruieren einer Anwendung, die eine Anzahl von Fragen und einen Satz von erwarteten Antworten auf jede Frage einschließt, wobei der Satz eine Anzahl von erwarteten Antworten auf jede Frage in einer Text-Form einschließt;
    • B. Stellen jeder der Fragen an eine antwortende Person;
    • C. Empfangen einer Audio-Antwort auf jede Frage von der antwortenden Person;
    • D. Durchführung einer Spracherkennungs-Funktion an jeder Audio-Antwort zur Transkription jeder Audio-Antwort auf eine Text-Antwort auf jede Frage;
    • E. Aufzeichnen jeder Audio-Antwort; und
    • F. Vergleichen jeder Text-Antwort mit dem Satz von erwarteten Antworten für jede entsprechende Frage, um festzustellen, ob jede Text-Antwort einer der erwarteten Antworten in dem Satz von erwarteten Antworten für die entsprechende Frage entspricht.
  • Das Verfahren kann weiterhin die Markierung jeder Audio-Antwort einschließen, die einer Text-Antwort entspricht, die keiner der erwarteten Antworten in dem Satz von erwarteten Antworten auf die entsprechende Frage entspricht. Das Verfahren kann weiterhin die Überprüfung jeder markierten Audio-Antwort einschließen, um festzustellen, ob eine entsprechende erwartete Antwort in dem Satz von erwarteten Antworten für die Frage enthalten ist, die jeder Audio-Antwort zugeordnet ist. Das Verfahren kann weiterhin die Auswahl, aus einem zugehörigen Satz von erwarteten Antworten für jede Frage, einer Antwort, die der markierten Audio-Antwort entspricht, sowie die manuelle Transkription einer Antwort einschließen, die jeder markierten Audio-Antwort entspricht.
  • Gemäß einem weiteren Gesichtspunkt der Erfindung umfasst ein Verfahren zur Transkription einer Audio-Antwort Folgendes:
    • A. Konstruieren einer Spracherkennungs-Anwendung, die eine Anzahl von Fragen und einen Satz von erwarteten Antworten auf jede Frage einschließt, wobei der Satz eine Anzahl von erwarteten Antworten auf jede Frage in Text-Form einschließt;
    • B. Stellen jeder der Fragen an eine antwortende Person mit einer Abfrage-Einrichtung;
    • C. Empfangen einer Audio-Antwort auf jede Frage von der antwortenden Person;
    • D. Ausführen einer Spracherkennungs-Funktion an jeder Audio-Antwort mit einer automatischen Spracherkennungseinrichtung zur Transkription jeder Audio-Antwort in eine Text-Antwort auf jede Frage;
    • E. Aufzeichnen der Audio-Antwort mit einer Aufzeichnungseinrichtung; und
    • F. Vergleichen, mit der automatischen Spracherkennungseinrichtung, jeder Text-Antwort mit dem Satz von erwarteten Antworten für jede entsprechende Frage, um festzustellen, ob jede Text-Antwort einer der erwarteten Antworten in dem Satz von erwarteten Antworten für die entsprechende Frage entspricht.
  • Kurze Beschreibung der Zeichnungen
  • Die vorstehenden und andere Ziele dieser Erfindung, deren verschiedene Merkmale sowie die Erfindung selbst werden weiter aus der folgenden Beschreibung verständlich, wenn diese zusammen mit den beigefügten Zeichnungen gelesen wird, in denen:
  • 1 ein schematisches Blockschaltbild des Systems zur Verbesserung der Genauigkeit eines Spracherkennungssystems gemäß der vorliegenden Erfindung ist;
  • 2 ein Ablaufdiagramm des Verfahrens zur Verbesserung der Genauigkeit eines Spracherkennungssystems gemäß der vorliegenden Erfindung ist; und
  • 3 ein Diagramm einer grafischen Benutzerschnittstellen-Anzeige ist, die mit der Benutzer-Schnittstelleneinrichtung des Systems zur Verbesserung der Genauigkeit eines Spracherkennungssystems gemäß der vorliegenden Erfindung verbunden ist.
  • Ausführliche Beschreibung
  • Die vorliegende Erfindung ist auf ein Spracherkennungssystem gerichtet, das gleichzeitig einen Spracherkennungsprozess an empfangenen Antworten auf Fragen ausführt und die Antworten aufzeichnet. Während die Antworten verarbeitet und von Audio-Form auf Text umgewandelt werden, werden sie analysiert, um festzustellen, ob sie einen vorgegebenen Erkennungs-Vertrauens-Parameter erfüllen. Wenn die Text-Form der Antwort den Vertrauens-Parameter erfüllt, was bedeutet, dass das System die Audio-Antwort richtig erkannt und in die entsprechende Text-Antwort umgewandelt hat, so geht das System auf die nächste Frage über. Wenn das System feststellt, dass der umgewandelte Text-Satz nicht den Vertrauens-Parameter erfüllt, so werden die Frage und die aufgezeichnete Audio-Antwort für die Überprüfung durch einen Menschen zu einer späteren Zeit markiert.
  • 1 ist ein schematisches Blockschaltbild des Systems 10 zur Verbesserung der Genauigkeit eines Spracherkennungssystems, gemäß der vorliegenden Erfindung. Das System 10 schließt eine Abfrageeinrichtung 12, eine Spracherkennungseinrichtung 14, eine Genauigkeits-Feststellungs-Einrichtung 16, eine Speichereinrichtung 18 und eine Benutzer-Schnittstelleneinrichtung 20 ein. Vorzugsweise ist das System 10 ein persönlicher Computer, wie z.B. ein IBM-PC oder IBM-PC-kompatibles System oder ein APPLE-MacINTOSH-System oder ein höher entwickeltes Computersystem, wie z.B. ein Alpha-basiertes Computersystem, das von der Compaq Computer Corporation erhältlich ist, oder ein SPARC-Station Computersystem, das von SUN Microsystems Corporation erhältlich ist, obwohl ein Main-Frame-Computersystem ebenfalls verwendet werden kann. In einem derartigen System befinden sich alle Komponenten des Systems auf dem Computersystem, so dass es dem System ermöglicht wird, von einer antwortenden Person empfangene Daten in der nachstehend beschriebenen Weise zu verarbeiten. Alternativ können die Komponenten in unterschiedlichen Systemen enthalten sein, die einen Zugriff aufeinander über ein LAN oder ein ähnliches Netzwerk haben. Beispielsweise kann das System eine Anzahl von Benutzer-Schnittstelleneinrichtungen 20 haben, die jeweils einen persönlichen Computer mit einem Zugang an einen Speicher umfassen, der einer oder mehreren Speichereinrichtungen 18 zugeordnet ist. Die Abfrageeinrichtung 12 kann sich auf einem Serversystem befinden, das die Audio-Antwort von der antwortenden Person empfängt und die Antwort an die Spracherkennungseinrichtung 14 und an einen Speicher sendet, der der Speichereinrichtung 18 zugeordnet ist.
  • Das System kann weiterhin eine Netzwerkschnittstelle einschließen, die den Empfang der Audio-Information über irgendeines einer Anzahl von Netzwerken erleichtert, wie z.B. Telefon-Netzwerke, Zellulartelefon-Netzwerke, das weltweite Datennetz, Internet, lokale Netzwerke (LANs), Weitbereichs-Netzwerke (WANs), private Netzwerke, virtuelle private Netzwerke (VPNs), Intra-Netzwerke, Extra-Netzwerke, drahtlose Netzwerke und dergleichen oder irgendeine Kombination hiervon. Das System 10 kann für irgendeines oder mehrere einer Anzahl von Eingabeeinrichtungen 22 zugänglich sein, die in der Lage sind, Audio-Information zu übertragen. Derartige Geräte 22 können ohne Beschränkung beispielsweise ein Standard-Telefon (unter Einschluss von Zellulartelefonen) einen Laptop-Computer oder einen Desktop-Computer sowie andere Audio-fähige Geräte einschließen (beispielsweise persönliche digitale Assistenten, Audio-Empfänger und Anwendungs-Server).
  • Die Abfrageeinrichtung 12 ist ein automatisiertes System, auf dem eine Spracherkennungs-Anwendung unter Einschluss einer Serie von akustischen Ausgangssignalen, die als Aufforderungen bezeichnet werden und die Fragen über einen bestimmten Gesichtspunkt umfassen, programmiert ist, so dass sie einer antwortenden Person dargeboten werden können, vorzugsweise mit Hilfe einer Telefon-Interaktion zwischen dem fragenden Teilnehmer und der antwortenden Person. Eine Spracherkennungs-Anwendung kann jedoch irgendeine interaktive Anwendung sein, die Informationen sammelt, liefert und/oder gemeinsam nutzt. Als Beispiele kann bei der vorliegenden Erfindung eine Sprachanwendung irgendeine einer Gruppe von interaktiven Anwendungen sein, unter Einschluss von Kunden-Umfrage-Anwendungen, Zugangs-Anwendungen auf das weltweite Datennetz, Erziehungs-Anwendungen unter Einschluss von Computer-basierten Lern- und Unterrichts-Anwendungen und Prüfungs-Anwendungen; Sortier-Anwendungen, Kundenwunsch-Überwachungs-Anwendungen, Einverständnis-Anwendungen unter Einschluss von Anwendungen, die Benachrichtigungen über auf das Einverständnis bezogene Aktivitäten erzeugen, unter Einschluss von Benachrichtigungen hinsichtlich einer Produkt-Wartung; Testergebnis-Anwendungen, unter Einschluss von Anwendungen, die zumindest eines von genormten Testergebnissen, Verbraucher-Produkttestergebnissen und Wartungsergebnissen liefern; und Verknüpfungs-Anwendungen, die Anwendungen einschließen, die zwei oder mehr der vorstehenden Anwendungen miteinander verknüpfen.
  • Bei der bevorzugten Ausführungsform schließt jede Spracherkennungs-Anwendung eine Anwendungs-Datei ein, die in die Abfrageeinrichtung einprogrammiert ist. Jede Anwendungs-Datei schließt Code ein, der das Abspielen der Audio-Aufforderung an die antwortende Person bewirkt, wobei eine Liste von erwarteten Antworten und eine Adresse, an der eine Datei, die die empfangene Audio-Antwort enthält, in der Speichereinrichtung 18 gespeichert werden.
  • Vorzugsweise ist die Serie von Fragen, die die Anwendung bilden, so ausgelegt, dass spezifische Information von den antwortenden Personen gewonnen wird, um Kunden oder den Kundendienst, die Erziehung und Forschung und die Entwicklung bestimmter Produkte oder Dienste oder anderer Funktionen zu unterstützen. Beispielsweise könnte eine spezielle Sprachanwendung so ausgelegt sein, dass sie antwortenden Personen bestimmte Fragen über ein bestimmtes Produkt oder einen Dienst stellt. Die Einheit, die diese Anwendung liefert, kann dann diese Information zur Weiterentwicklung des speziellen Produktes oder Dienstes verwenden.
  • Die Betriebsweise des Systems wird unter Bezugnahme auf das Ablaufdiagramm 30 nach 2 beschrieben, das die an der Betriebsweise des Systems 10 beteiligten Schritte zeigt. Nachdem jede Aufforderung von der Abfrageeinrichtung abgegeben wurde, Schritt 32, empfängt die Spracherkennungseinrichtung 14 die gesprochene Audio-Antwort von der antwortenden Person über die Eingabeeinrichtung 22, wie z.B. ein Telefon, und verarbeitet die Audio-Antwort mit einem Spracherkennungs-Algorithmus, um die gesprochene Audio-Antwort in eine Text-Antwort umzuwandeln, Schritt 34.
  • Obwohl irgendeine Art von Spracherkennungs-Algorithmus bei der vorliegenden Erfindung verwendet werden kann, führt die Spracherkennungseinrichtung 14 vorzugsweise eine syntaktische und semantische Verarbeitung unter Verwendung einer reichen semantischen Grammatik-(RSG-)Datenbank (DB) aus, die eine Quelle für Wort- und Grammatik-Kenntnis bereitstellt, die zur Interpretation der phonetischen Daten verwendet wird. Die Grammatik, die auf einen bestimmten phonetischen Strom angewandt wird, ändert sich in Abhängigkeit von der erwarteten Antwort, die typischerweise eine Funktion einer vorhergehenden Aufforderung ist. Die RSG DB schließt eine Datenbank von Worten und Grammatik-Regeln ein, die auf die Worte bezogen sind, das heißt sie schließt sowohl syntaktische als auch semantische Daten ein. Die Beziehungen schließen Algorithmen zur Kombination von Worten in aussagekräftige Sätze entsprechend einem vorgegebenen Kontext ein. Die RSG dient als eine gemeinsame Ausgangs-Grammatik für die syntaktische und semantische Verarbeitung, die ihre eigene Darstellung der RSG für ihre jeweiligen Verarbeitungsaufgaben verwenden kann. Als Ergebnis wird eine Kompatibilität sichergestellt, weil die semantischen Stufen der Verarbeitung niemals eine illegale Wortfolge empfangen werden, beispielsweise von der syntaktischen Verarbeitungsstufe. Zusätzlich kann zur Erzielung einer größeren Effizienz, wenn mehrfache semantische Sätze die gleiche Syntax haben, eine gefaltete Darstellung der RSG für die Suche verwendet werden.
  • Die Grammatiken der RSG DB sind als ein Baum von Klassen, und Knoten, die Worte und Satz-Strukturen darstellen, organisiert. Ein Grammatik-Baum kann eine Vielzahl von Bäumen (oder Teil-Bäumen) einschließen. Allgemein ist die RSG DB Kontext-frei, weil die auf jedem Teil-Baum angewandten Regeln unabhängig von den anderen Teilen des Baumes arbeiten. Das heißt, dass jede Klasse (oder Knoten) eine reiche semantische Information (beispielsweise eine semantische Beschreibung) und eine syntaktische Beschreibung einschließt. Für die Zwecke der syntaktischen Suche und Analyse ist die RSG DB als eine optimierte Kontext-freie Grammatik (CFG) DB dargestellt, bei der die Grammatiken keine semantische Information einschließen, sondern vielmehr lediglich Syntax-Information einschließen, die zur Erzeugung von Wort-Listen verwendet wird. Diese vereinfachte Version der RSG DB ermöglicht eine effizientere syntaktische Analyse.
  • Das System 10 zeichnet zusätzlich zu der Verarbeitung der empfangenen Audio-Antwort die Antwort auf und speichert sie in der Aufzeichnungseinrichtung 18, Schritt 36. Im Schritt 38 analysiert die Genauigkeits-Feststellungs-Einrichtung 16 die Text-Antwort. Dies erfolgt vorzugsweise durch Vergleichen der umgewandelten Text-Antwort mit einer Anzahl von erwarteten Antworten auf die bestimmte Frage. Wie dies weiter oben angegeben wurde, ist die Anwendung typischerweise für einen bestimmten Gesichtspunkt spezifisch, so dass jede Frage einen erwarteten Bereich von richtigen Antworten haben wird. Wenn beispielsweise eine Frage darauf gerichtet sein würde, welches Merkmal eines bestimmten Produktes für einen Verbraucher interessant sein würde, so würde erwartet, dass die Antwort eine einer Anzahl von üblichen Merkmalen für dieses Produkt ist. Wenn das System 10 feststellt, dass die umgewandelte Text-Antwort mit einer der erwarteten Antworten übereinstimmt und damit einen Vertrauens-Parameter für diese Frage erfüllt, Schritt 40, so stellt das System fest, ob weitere Fragen in der Anwendung verbleiben, Schritt 42. Wenn dies der Fall ist, so kehrt das Verfahren zum Schritt 32 zurück und stellt die nächste Frage an die antwortende Person.
  • Wenn im Schritt 40 die Genauigkeits-Feststellungs-Einrichtung 16 feststellt, dass die Genauigkeit der umgewandelten Text-Antwort den Vertrauens-Parameter nicht erfüllt, so werden die Antwort und die zugehörige Frage für eine Überprüfung durch einen Menschen zu irgendeiner zukünftigen Zeit markiert, Schritt 44. Der Grad der erforderlichen Genauigkeit hängt von der Art der gestellten Fragen ab. Fragen, auf die eine einfache „Ja"- oder „Nein"-Antwort erwartet werden, erfordern nicht das gleiche Ausmaß an Genauigkeit, wie sie für komplexere Antworten erforderlich ist. Daher erfordern Antworten, von denen erwartet wird, dass sie komplizierter sind, beispielsweise Service-Erfahrungen eines bestimmten Kunden, Wahrnehmungen der antwortenden Person über ein bestimmtes Produkt, usw., eine höhere Genauigkeit bei der Umwandlung von der Audio-Form in die Text-Form und müssen daher höhere Vertrauens-Parameter erfüllen, damit sie nicht im Schritt 44 markiert werden. Wenn weitere Fragen in der Anwendung verbleiben, Schritt 42, kehrt das Verfahren zum Schritt 32 zurück und stellt die nächste Frage an die antwortende Person. Wenn es keine weiteren Fragen gibt, beginnt die Überprüfung der während der Anwendung aufgezeichneten Antworten durch einen Menschen, Schritt 46.
  • 3 ist ein Diagramm einer grafischen Schnittstellen-Anzeige 50, die der Benutzer-Schnittstelleneinrichtung 20 des Systems 10 zugeordnet ist und die von der Bedienungsperson verwendet wird, um die Fragen und Antworten in einer Anwendung zu überprüfen. Wie dies weiter oben erwähnt wurde, wird, während jede Anwendung ausgeführt wird, sie in der Speichereinrichtung 18 des Systems gespeichert. Eine Bedienungsperson ist dann in der Lage, jede Anwendung zu überprüfen, um sicherzustellen, dass die Spracherkennungseinrichtung 14 in richtiger Weise jede empfangene Audio-Antwort verarbeitet und die Audio-Antwort in eine entsprechende Text-Antwort umgewandelt hat. Wie dies weiter oben erwähnt wurde, schließt die Benutzer-Schnittstelleneinrichtung 20 typischerweise einen persönlichen Computer ein, der einen Zugriff auf die Speichereinrichtung 18 hat. Die Benutzer-Schnittstelleneinrichtung 20 schließt weiterhin Audio-Lautsprecher ein, die es der Bedienungsperson ermöglichen, die empfangenen Audio-Antworten zu hören, während die Anwendung überprüft wird. Wie dies in der Figur gezeigt ist, liefert die Anzeige Informationen an die Bedienungsperson hinsichtlich der Anwendung, die es der Bedienungsperson ermöglichen, jede Frage in einer Anwendung und die entsprechende Antwort zu überprüfen.
  • Die Anzeige 50 schließt ein Anwendungs-Informations-Fenster 52 ein, das Informationen über einen Antwort-Satz der überprüften Anwendung liefert. Eine derartige Information schließt die Nummer eines Antwort-Satzes als Teil der Gesamtzahl von Antwort-Sätzen für die spezielle überprüfte Anwendung ein. In diesem Beispiel ist der überprüfte Antwort-Satz der Antwort-Satz Nummer 2 von insgesamt vier Antwort-Sätzen einer bestimmten Anwendung. Das Fenster 52 schließt das Datum und die Zeit ein, an der die Anwendung fertiggestellt wurde, sowie einen Navigations-Balken 54, der es der Bedienungsperson ermöglicht, durch die Antwort-Sätze der Anwendung zu navigieren. Das Fenster 52 schließt weiterhin einen Bemerkungs-Abschnitt 56 ein, der es der Bedienungsperson ermöglicht, irgendwelche Bemerkungen über den Anwendungs-Antwort-Satz und/oder die antwortende Person einzugeben. Ein Frage-Navigations-Fenster 58 zeigt an, welche Frage überprüft wird, deren Text bei 60 gezeigt ist. Das Frage-Navigations-Fenster 58 ermöglicht es der Bedienungsperson, durch die Fragen in der Anwendung vorwärts und rückwärts zu navigieren. Ein Audio-Navigationsfenster 62 ermöglicht es der Bedienungsperson, die Wiedergabe der Antworten zu steuern.
  • Im Schritt 46, 2, der vorliegenden Erfindung verbindet die Bedienungsperson die Speichereinrichtung 18 mit der Benutzer-Schnittstelleneinrichtung 20 über das Netzwerk, wie dies weiter oben beschrieben wurde. Die Bedienungsperson kann dann die Anwendungs-Antwort-Datei von der Speichereinrichtung 18 zur Überprüfung herunterladen. Wie dies weiter oben angegeben wurde, schließt jede Anwendung eine Anzahl von Fragen und eine jeder Frage zugeordnete Audio-Antwort ein. Die Antwort-Datei, die auf die Benutzer-Schnittstelleneinrichtung heruntergeladen wird, enthält sowohl die Textversion jeder Frage in der Anwendung als auch eine Audio-Datei, die die Antwort der antwortenden Person auf jede Frage einschließt. Die Antwort-Datei schließt weiterhin den Satz von erwarteten Antworten ein, die jeder Frage zugeordnet sind. Die Bedienungsperson kann dann durch die Fragen navigieren, jede Frage betrachten und die der Frage zugeordnete Audio-Antwort anhören. Wie dies weiter oben angegeben wurde, werden, wenn die Text-Form der Audio-Antwort, wie sie von der Spracherkennungseinrichtung 14 verarbeitet wurde, nicht den vorgegebenen Genauigkeits-Vertrauens-Parameter erfüllt, die Frage und ihre Antwort für eine spätere Überprüfung markiert.
  • In dem in 3 gezeigten Beispiel ist die Frage 4 eines Anwendungsbeispiels wie folgt „Bitte teilen Sie uns mit, über welches Produkt sie Informationen wünschen?", wie dies bei 60 angezeigt ist. Zusammen mit der Frage 60 wird der Bedienungsperson ein Satz von erwarteten Antworten im Fenster 66 dargeboten. Das Fenster 66 schließt weiterhin einen Kasten 68 ein, in dem die richtige Antwort von Hand von der Bedienungsperson eingegeben werden kann. Nach dem Lesen der Frage klickt die Bedienungsperson auf den „Abspielen"-Knopf 64, um die von der antwortenden Person gegebene Audio-Antwort zu hören. Beim Hören und Feststellen der von der antwortenden Person gesprochenen Antwort kann die Bedienungsperson entweder eine der erwarteten Antworten mit einem Mausklick auswählen, oder die Bedienungsperson kann die Antwort in den Kasten 68 eingeben, Schritt 48, 2. Wenn die Bedienungsperson die Audio-Antwort wiederholen möchte, kann das Audio-Navigationsfenster 62 verwendet werden, um die gesamte oder einen Teil der Antwort erneut abzuspielen. Typischerweise weist die von der antwortenden Person gelieferte Antwort nicht die exakte Form einer der erwarteten Antworten. Beispielsweise könnte als Antwort auf die in 3 gezeigte Frage die antwortende Person sagen: „Gut, ich bin an Kühlschränken interessiert". Selbst wenn die Spracherkennungseinrichtung 14 in richtiger Weise eine Transkription der Antwort ausführt, ist es unwahrscheinlich, dass die Genauigkeits-Feststellungseinrichtung 16 in der Lage ist, die umgewandelte Text-Antwort auf Übereinstimmung mit einer der erwarteten Antworten zu bringen. In einem derartigen Szenarium wird die Bedienungsperson nach dem Hören der Antwort „Haushaltsgeräte" in dem Kasten 66 für die erwarteten Antworten auswählen. Wenn die Bedienungsperson feststellt, dass die von der antwortenden Person gegebene Antwort nicht in dem Fenster 66 für die erwarteten Antworten enthalten ist, kann er oder sie von Hand die Antwort in den Kasten 68 eingeben, wenn die Antwort verständlich und relevant ist. Die Bedienungsperson würde dann die nächste Rage über das Navigationsfenster 58 auswählen.
  • Wenn die Genauigkeits-Bestimmungs-Einrichtung für eine bestimmte Frage festgestellt hat, dass die umgewandelte Text-Antwort mit einer der erwarteten Antworten übereinstimmt, und daher der Genauigkeits-Vertrauens-Parameter erfüllt war, Schritt 40, 2, so wurde die Frage nicht im Schritt 44 markiert. Entsprechend erscheint die Frage bei 60 in der Anzeige 50, doch ist das Fenster 66 für die erwartete Antwort inaktiv, wodurch die Bedienungsperson daran gehindert wird, eine andere Antwort als die auszuwählen, die von der Spracherkennungseinrichtung 14 empfangen und umgewandelt wurde. Alternativ kann das System so konfiguriert werden, dass irgendwelche nicht markierten Fragen der Bedienungsperson nicht zur Überprüfung dargeboten werden.
  • In einer alternativen Ausführungsform kann das System anstelle der Speicherung jeder empfangenen Audio-Antwort in der Speichereinrichtung 18 und der Markierung der Antworten, die eine Überprüfung erfordern, nach der Feststellung, dass eine umgewandelte Text-Antwort den Genauigkeits-Vertrauens-Parameter erfüllt, die entsprechende Audio-Antwort aus der Speichereinrichtung 18 entfernen. Während des Überprüfungsvorganges werden der Bedienungsperson lediglich die Antworten dargeboten, die eine weitere Überprüfung erfordern, wie dies durch die Genauigkeits-Feststellungs-Einrichtung 16 festgestellt wird. Weiterhin kann das System so programmiert werden, dass es lediglich einige der empfangenen Antworten aufzeichnet. Wenn die erwartete Antwort auf eine Frage entweder „Ja" oder „Nein" oder irgendeine andere Antwort ist, die die Spracherkennungseinrichtung einfach und korrekt transkribieren kann, so kann das System so programmiert werden, dass die Antwort verarbeitet und durch die Spracherkennungseinrichtung 14 transkribiert wird, jedoch nicht aufgezeichnet und in der Speichereinrichtung 18 gespeichert wird. Dies ermöglicht es dem System, die Größe des Speichers zu verringern, der zur Ausführung der Anwendung erforderlich ist.
  • In einer weiteren Ausführungsform kann das System die Audio-Antwort mit der Spracherkennungseinrichtung 14 bearbeiten, bevor sie aufgezeichnet wird, und wenn die Genauigkeits-Feststellungs-Einrichtung 16 feststellt, dass die transkribierte Text-Antwort, die von der Spracherkennungseinrichtung 14 abgegeben wird, nicht den Genauigkeits-Vertrauens-Parameter erfüllt, so kann die Abfrageeinrichtung 12 aufgefordert werden, die Frage zu wiederholen. Wenn die antwortende Person seine oder ihre Antwort wiederholt, so wird die Antwort aufgezeichnet und in der Speichereinrichtung 18 gespeichert. Die Antwort wird erneut von der Spracherkennungseinrichtung 14 verarbeitet, und wenn die Genauigkeits-Feststellungs-Einrichtung feststellt, dass die Antwort immer noch nicht den Genauigkeits-Vertrauens-Parameter erfüllt, oder überschreitet, so wird die Antwort für eine weitere Überprüfung markiert. Diese Ausführungsform verringert die Größe des erforderlichen Speichers weiter dadurch, dass lediglich Antworten aufgezeichnet werden, die eine weitere Überprüfung durch die Bedienungsperson erfordern.
  • Obwohl die bevorzugte Ausführungsform als ein Telefonsystem beschrieben wurde, ist es verständlich, dass die Erfindung nicht auf Telefonanwendungen beschränkt ist und in irgendeiner Situation verwendet werden kann, bei der die Genauigkeit des Spracherkennungssystem kritisch ist. Beispielsweise kann das System 10 für Diktierzwecke verwendet werden, bei denen ein Benutzer in die Eingabeeinrichtung 22 spricht, die in diesem Beispiel ein Mikrofon sein kann. Wenn der Benutzer in das Mikrofon spricht und das Audio-Signal in die Spracherkennungseinrichtung zur Verarbeitung und Transkription eingegeben wird, so wird das Audio-Signal gleichzeitig in der Speichereinrichtung 18 für eine zukünftige Überprüfung gespeichert. Nachdem das Diktieren abgeschlossen ist, überprüft der Benutzer den transkribierten Text, der von der Spracherkennungseinrichtung erzeugt wurde. Wenn irgendein Teil des Diktats von der Spracherkennungseinrichtung 14 nicht richtig transkribiert wurde, kann der Benutzer das gespeicherte Audio-Signal überprüfen, das dem nicht fehlerfreien Teil entspricht, und die erforderlichen Korrekturen durchführen.
  • Entsprechend ergibt die vorliegende Erfindung ein System, das die Genauigkeit der Spracherkennungsanwendungen vergrößert. Weil jede Audio-Antwort, die von einer antwortenden Person empfangen wird, gleichzeitig verarbeitet wird, um die Antwort von einer Audio-Form auf eine Textform umzuwandeln, und aufgezeichnet wird, wird, wenn das System feststellt, dass eine bestimmte Antwort nicht einen vorgegebenen Genauigkeits-Vertrauens-Schwellenwert erfüllt, die Antwort für eine Überprüfung durch eine Bedienungsperson zu einer späteren Zeit markiert. Während der Überprüfung ist die Bedienungsperson mit Hilfe der Benutzer-Schnittstelleneinrichtung in der Lage, die Fragen der Anwendung zu betrachten und die Audio-Form der entsprechenden Antworten zu hören. Die Bedienungsperson kann dann aus einer Gruppe von erwarteten Antworten auswählen oder von Hand eine Antwort in das System eingeben, das der von der antwortenden Person gegebenen Antwort entspricht.
  • Die beschriebenen Ausführungsformen sind daher als erläuternd und nicht beschränkend anzusehen, und der Schutzumfang der Erfindung ist durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung angegeben, und alle Änderungen, die unter die Bedeutung und den Äquivalenzbereich der Ansprüche fallen, sollen daher hier mit umfasst sein.

Claims (10)

  1. Spracherkennungssystem mit: einer Abfrageeinrichtung (12) zum Stellen zumindest einer Frage an eine antwortende Person; einer Spracherkennungseinrichtung (14), die eine Audio-Antwort von der antwortenden Person empfängt und eine Transkription der Audio-Antwort ausführt, um eine entsprechende Text-Antwort zu erzeugen; einer Speichereinrichtung (18) zum Speichern der Audio-Antwort, während sie von der Spracherkennungseinrichtung (14) empfangen wird; und dadurch gekennzeichnet, dass sie weiterhin Folgendes umfasst: eine Genauigkeits-Feststellungs-Einrichtung (16) zum Vergleichen der Text-Antwort mit einem Text-Satz von erwarteten Antworten und zum Feststellen, ob die Text-Antwort einer der erwarteten Antworten entspricht, wobei die Genauigkeits-Feststellungs-Einrichtung (16) so konfiguriert und angeordnet ist, dass sie feststellt, ob die Text-Antwort einer der erwarteten Antworten mit einem vorgegebenen Genauigkeits-Vertrauens-Parameter entspricht, und dass sie die Audio-Antwort für eine weitere Überprüfung markiert, wenn die Text-Antwort nicht einer der erwarteten Antworten innerhalb des vorgegebenen Genauigkeits-Vertrauens-Parameters entspricht.
  2. Spracherkennungssystem nach Anspruch 3, das weiterhin eine Benutzer-Schnittstelleneinrichtung (20) umfasst, um es einer Bedienungsperson zu ermöglichen, die zumindest eine Frage zu betrachten und die Audio-Antwort zu hören, die der zumindest einen Frage entspricht.
  3. Spracherkennungssystem nach Anspruch 1 oder 2, bei dem die Benutzer-Schnittstelleneinrichtung (20) einen Personalcomputer umfasst, der einen Monitor, der es der Bedienungsperson ermöglicht, die zumindest eine Frage zu betrachten, und ein Audio-Lautsprecher-Gerät einschließt, das es der Bedienungsperson ermöglicht, die Audio-Antwort zu hören.
  4. Spracherkennungssystem nach einem der Ansprüche 1–3, bei dem die Frageeinrichtung ein Programm einschließt, das eine Anwendungs-Datei, wobei die Anwendungs-Datei Code einschließt, der bewirkt, dass die zumindest eine Frage der antwortenden Person gestellt wird, eine Liste von erwarteten Antworten und eine Adresse aufweist, an der eine Datei, die die empfangene Audio-Antwort enthält, in der Speichereinrichtung (18) gespeichert wird.
  5. Spracherkennungssystem nach einem der Ansprüche 2–4, bei dem die Benutzer-Schnittstelleneinrichtung (20) eine grafische Benutzerschnittstelle einschließt, auf der die Bedienungsperson die zumindest eine Frage und den Text-Satz von erwarteteten Antworten betrachtet, wobei die Bedienungsperson nach dem Hören der Audio-Antwort in der Lage ist, eine der erwarteteten Antworten von dem Text-Satz von erwarteteten Antworten auszuwählen.
  6. Spracherkennungssystem nach Anspruch 5, bei dem die grafische Benutzerschnittstelle ein Anwendungs-Navigationsfenster, das es der Bedienungsperson ermöglicht, durch die zumindest eine Frage zu navigieren, und ein Audio-Navigationsfenster umfasst, das es der Bedienungsperson ermöglicht, die Wiedergabe der Audio-Antwort zu steuern.
  7. Spracherkennungssystem nach Anspruch 5 oder 6, bei dem die grafische Benutzerschnittstelle ein Text-Eingabefenster einschließt, das es der Bedienungsperson ermöglicht, eine Text-Antwort einzugeben, wenn keine der erwarteteten Antworten von dem Text-Satz von erwarteteten Antworten der Audio-Antwort entspricht.
  8. Verfahren zum Transkribieren einer Audio-Antwort mit den folgenden Schritten: A. Stellen (32) einer Frage an eine antwortende Person; B. Empfangen einer Audio-Antwort von der antwortenden Person; C. Ausführen (34) einer Spracherkennungsfunktion an der Audio-Antwort, um eine Transkription der Audio-Antwort auf eine Text-Antwort durchzuführen; D. Aufzeichnen (36) der Audio-Antwort, gekennzeichnet durch die folgenden Schritte: E. Vergleichen (38, 40) der Text-Antwort mit einem Text-Satz von erwarteten Antworten auf die Frage, wobei der Satz eine Vielzahl von erwarteten Antworten auf die Frage in einer Text-Form einschließt, und Feststellen, ob die Text-Antwort einer der Vielzahl von erwarteten Antworten innerhalb eines vorgegebenen Genauigkeits-Vertrauens-Parameters entspricht; und F. Markieren (44) der Audio-Antwort, wenn die entsprechende Text-Antwort nicht einer der erwarteten Antworten in dem Satz von erwarteten Antworten entspricht.
  9. Verfahren nach Anspruch 8, das weiterhin Folgendes umfasst: G. Hören (46) der Audio-Antwort; und H. Auswählen (48) einer Text-Antwort aus dem Satz von erwarteten Antworten, die der Audio-Antwort entspricht.
  10. Verfahren nach Anspruch 8, das weiterhin Folgendes umfasst: G. Hören (46) der Audio-Antwort; und H. Manuelles Transkribieren (48) einer Text-Antwort, die der Audio-Antwort entspricht.
DE60128372T 2000-07-31 2001-07-31 Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem Expired - Lifetime DE60128372T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22173700P 2000-07-31 2000-07-31
US221737P 2000-07-31
PCT/US2001/023965 WO2002011121A1 (en) 2000-07-31 2001-07-31 Method of and system for improving accuracy in a speech recognition system

Publications (2)

Publication Number Publication Date
DE60128372D1 DE60128372D1 (de) 2007-06-21
DE60128372T2 true DE60128372T2 (de) 2008-01-10

Family

ID=22829145

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60128372T Expired - Lifetime DE60128372T2 (de) 2000-07-31 2001-07-31 Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem

Country Status (7)

Country Link
US (2) US7624010B1 (de)
EP (1) EP1317749B1 (de)
AT (1) ATE362271T1 (de)
AU (1) AU2001279101A1 (de)
CA (1) CA2417926C (de)
DE (1) DE60128372T2 (de)
WO (1) WO2002011121A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4558308B2 (ja) * 2003-12-03 2010-10-06 ニュアンス コミュニケーションズ,インコーポレイテッド 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
CN101366075B (zh) * 2005-08-09 2016-04-20 移动声控有限公司 话音控制式无线通信装置系统的控制中心
WO2007077703A1 (ja) * 2006-01-06 2007-07-12 Pioneer Corporation 音声認識装置、表示方法及び表示処理プログラム
US7929672B2 (en) * 2006-04-18 2011-04-19 Cisco Technology, Inc. Constrained automatic speech recognition for more reliable speech-to-text conversion
US8700008B2 (en) 2008-06-27 2014-04-15 Microsoft Corporation Providing data service options in push-to-talk using voice recognition
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10783139B2 (en) 2013-03-06 2020-09-22 Nuance Communications, Inc. Task assistant
US10795528B2 (en) * 2013-03-06 2020-10-06 Nuance Communications, Inc. Task assistant having multiple visual displays
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10776419B2 (en) * 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN117441206A (zh) * 2021-06-18 2024-01-23 深圳传音控股股份有限公司 处理方法、终端设备及存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4430726A (en) 1981-06-18 1984-02-07 Bell Telephone Laboratories, Incorporated Dictation/transcription method and arrangement
US4831554A (en) 1986-04-10 1989-05-16 Pitney Bowes Inc. Postage meter message printing system
GB2201862B (en) 1987-02-10 1990-11-21 Dictaphone Corp Digital dictation system with voice mail capability
US5033088A (en) * 1988-06-06 1991-07-16 Voice Processing Corp. Method and apparatus for effectively receiving voice input to a voice recognition system
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5428707A (en) 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5369704A (en) 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
US5799267A (en) * 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
WO1996022568A1 (en) * 1995-01-18 1996-07-25 Philips Electronics N.V. A method and apparatus for providing a human-machine dialog supportable by operator intervention
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5799279A (en) 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6067517A (en) 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
JP2980026B2 (ja) 1996-05-30 1999-11-22 日本電気株式会社 音声認識装置
US5884263A (en) * 1996-09-16 1999-03-16 International Business Machines Corporation Computer note facility for documenting speech training
GB2302199B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5915001A (en) 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5960399A (en) 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6064957A (en) 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
US6480598B1 (en) * 1997-09-16 2002-11-12 Verizon Services Corp. Methods and apparatus for automating the telephone operator services
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6314165B1 (en) * 1998-04-30 2001-11-06 Matsushita Electric Industrial Co., Ltd. Automated hotel attendant using speech recognition
US5974116A (en) * 1998-07-02 1999-10-26 Ultratec, Inc. Personal interpreter
US6754631B1 (en) * 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6122614A (en) * 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US7006967B1 (en) * 1999-02-05 2006-02-28 Custom Speech Usa, Inc. System and method for automating transcription services
ATE297046T1 (de) * 1999-07-08 2005-06-15 Koninkl Philips Electronics Nv Anpassung eines spracherkenners an korrigierte texte
US6970915B1 (en) * 1999-11-01 2005-11-29 Tellme Networks, Inc. Streaming content over a telephone interface
US6807574B1 (en) * 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager

Also Published As

Publication number Publication date
US8812314B2 (en) 2014-08-19
DE60128372D1 (de) 2007-06-21
EP1317749A1 (de) 2003-06-11
WO2002011121A8 (en) 2002-06-20
AU2001279101A1 (en) 2002-02-13
CA2417926C (en) 2013-02-12
EP1317749A4 (de) 2005-12-21
US20100100378A1 (en) 2010-04-22
CA2417926A1 (en) 2002-02-07
WO2002011121A1 (en) 2002-02-07
US7624010B1 (en) 2009-11-24
EP1317749B1 (de) 2007-05-09
ATE362271T1 (de) 2007-06-15

Similar Documents

Publication Publication Date Title
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
DE69819438T2 (de) Verfahren zur Spracherkennung
WO1998010413A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE112006000225T5 (de) Dialogsystem und Dialogsoftware
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
WO2014131763A2 (de) Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE19654549A1 (de) Verfahren und System zur Spracherkennung
DE10220522B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10311581A1 (de) Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
EP1659571A2 (de) Sprachdialogsystem und Verfahren zum Betreiben
DE60217313T2 (de) Verfahren zur durchführung der spracherkennung dynamischer äusserungen
DE60222413T2 (de) Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition