DE69937962T2 - Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten - Google Patents

Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten Download PDF

Info

Publication number
DE69937962T2
DE69937962T2 DE69937962T DE69937962T DE69937962T2 DE 69937962 T2 DE69937962 T2 DE 69937962T2 DE 69937962 T DE69937962 T DE 69937962T DE 69937962 T DE69937962 T DE 69937962T DE 69937962 T2 DE69937962 T2 DE 69937962T2
Authority
DE
Germany
Prior art keywords
conversation
network
local
resources
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69937962T
Other languages
English (en)
Other versions
DE69937962D1 (de
Inventor
Stephane H. Danbury MAES
Ponani Yorktown Heights Gopalakrishnan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE69937962D1 publication Critical patent/DE69937962D1/de
Publication of DE69937962T2 publication Critical patent/DE69937962T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • G06Q50/40
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/44Additional connecting arrangements for providing access to frequently-wanted subscribers, e.g. abbreviated dialling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres

Description

  • HINTERGRUND
  • 1. Technisches Gebiet
  • Die vorliegende Anmeldung betrifft im Allgemeinen Konversationssysteme und insbesondere ein System und ein Verfahren zur automatischen und koordinierten gemeinsamen Nutzung von Konversationsfunktionen/-ressourcen zwischen Einheiten, Servern und Anwendungen, die mit einem Netzwerk verbunden sind.
  • 2. Beschreibung der verwandten Technik
  • Herkömmliche Konversationssysteme (d. h. Systeme mit reiner Spracheingabe/-ausgabe oder Mehrmodensysteme mit Spracheingabe/-ausgabe) sind typischerweise auf Personal Computer (PCs) und lokale Rechner, die eine geeignete Architektur und eine ausreichende Verarbeitungsleistung besitzen, beschränkt. Für Telefonanwendungen sind Konversationssysteme dagegen typischerweise bei einem Server (z. B. der IVR-Server) angeordnet, und auf sie kann über herkömmliche oder Zellentelefone zugegriffen werden. Obwohl derartige herkömmliche Systeme immer populärer werden, wird typischerweise die gesamte herkömmliche Verarbeitung entweder beim Client oder beim Server ausgeführt (d. h., alle Konfigurationen erfolgen entweder vollständig lokal oder vollständig beim Client/Server). Ein Beispiel ist im Dokument EP-A-450 610 angegeben.
  • Angesichts der mittlerweile weltweit verbreiteten Datenverarbeitung wird erwartet, dass Milliarden von Client-Einheiten mit geringen Ressourcen (z. B. PDAs, Smartphones usw.) untereinander vernetzt werden. Infolge der abnehmenden Größe dieser Client-Einheiten und der zunehmenden Komplexität ihrer Aufgaben, deren Ausführung der Benutzer von diesen Einheiten erwartet, wird die Benutzerschnittstelle (UI) ein kritisches Problem, da herkömmliche grafische Benutzeroberflächen (GUI) bei derartigen kleinen Client-Einheiten nicht möglich wären. Aus diesem Grund wird erwartet, dass Konversationssysteme das wesentliche Element der Benutzerschnittstelle sein werden, um reine Sprach-/Audiosignal-Eingabe/Ausgabeeinheiten oder Mehrmoden-Eingabe-/Ausgabeeinheiten mit Sprach-/Audiosignal-Eingaben/Ausgaben zu schaffen.
  • Demzufolge werden Konversationsanwendungen mit eingebetteter Sprachverarbeitung in tragbaren Client-Einheiten entwickelt und erreichen Serienreife. Wegen eingeschränkter Ressourcen ist leider zu erwarten, dass derartige Client-Einheiten keine komplexen Konversationsdienste wie z. B. Spracherkennung (insbesondere dann, wenn die Wortschatzgröße umfangreich oder spezialisiert ist oder domänenspezifische/anwendungsspezifische Sprachmodelle oder Grammatik benötigt werden), NLU (Verstehen natürlicher Sprache), NLG (Erzeugen natürlicher Sprache), TTS (Text-zu-Sprache-Synthese), Audioerfassungs- und Kompression-/Dekompression, Wiedergabe, Dialogerzeugung, Dialogverwaltung, Sprechererkennung, Themengebiet-Erkennung, Audio-/Multimedia- Indexierung und Suche usw. ausführen können. Die Einschränkungen bei Speicher und CPU (und anderen Ressourcen) einer Einheit können die Konversationsmöglichkeiten, die diese Einheit bieten kann, begrenzen.
  • Selbst wenn eine vernetzte Einheit in ausreichendem Maße "leistungsfähig" ist (in Bezug auf CPU und Speicher), um sämtliche Konversationsaufgaben auszuführen, kann die Einheit darüber hinaus nicht die geeigneten Konversationsressourcen (z. B. Maschinen) oder Konversationsargumente (d. h. die Dateien, die von den Maschinen verwendet werden) (wie etwa Grammatikdateien, Sprachmodelle, Vokabulardateien, Analysedateien, Kennzeichnungen, Stimmenausdrucke, TTS-Regeln usw.) haben, um die geeignete Aufgabe auszuführen. Stattdessen können einige Konversationsfunktionen für einen bestimmten Dienst zu spezifisch und eigen sein, wodurch sie nachgeordnete Informationen erfordern, die nur von anderen Einheiten oder Maschinen im Netzwerk zur Verfügung stehen. NLU- und NLG-Dienste bei einer Client-Einheit erfordern z. B. typischerweise eine serverseitige Unterstützung, da die vollständige Gruppe von Konversationsargumenten oder Funktionen, die zum Erzeugen des Dialogs benötigt werden (z. B. Parser, Kennzeichnungseinrichtung, Übersetzer usw.), entweder einen großen Speicherumfang zum Speichern (steht in den Client-Einheiten nicht zur Verfügung) erfordern oder zu teuer sind (in Bezug auf Kommunikationsbandbreite) für eine Übertragung zur Client-Seite. Dieses Problem wird bei mehrspracheigen Anwendungen noch weiter verstärkt, wenn eine Client-Einheit oder eine lokale Anwendung einen unzureichenden Speicher oder eine unzureichende Verarbeitungsleistung hat, um die Argumente zu speichern und zu verarbeiten, die zum Verarbeiten von Sprache und zum Ausführen von Konversationsfunktionen in mehreren Sprachen benötigt werden. Der Benutzer muss sich stattdessen mit einem entfernten Server verbinden, um derartige Aufgaben auszuführen.
  • Außerdem erfordern die Probleme, die mit einer verteilten Architektur und einer verteilten Verarbeitung zwischen Client und Servern verbunden sind, neue Verfahren für eine Konversationsvernetzung. Derartige Verfahren umfassen die Verwaltung von Verkehr und Ressourcen, die über das Netzwerk verteilt sind, um einen geeigneten Dialogfluss für alle Benutzer, die an einer Konversationswechselwirkung über das Netzwerk beteiligt sind, zu gewährleisten.
  • Demzufolge sind ein System und ein Verfahren höchst erwünscht, die ermöglichen, dass eine Netzwerkeinheit mit eingeschränkten Ressourcen komplexe spezifische Konversationsaufgaben unter Verwendung von vernetzten Ressourcen in einer Weise automatisch ausführt, die für einen Benutzer automatisch und transparent ist.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein System und ein Verfahren zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen zwischen Servern, die mit einem Netzwerk verbunden sind, und Einheiten (und ihren entsprechenden Anwendungen). Ein System gemäß einer Ausführungsform der vorliegenden Erfindung umfasst eine Vielzahl von vernetzten Servern, Einheiten und/oder Anwendungen, die durch den Austausch von Nachrichten unter Verwendung von Konversationsnetzwerkprotokollen (oder Verfahren), die es jeder auf Konversation ausgerichteten Netzwerkeinheit ermöglichen, Konversationsressourcen automatisch sowie koordiniert und synchron gemeinsam zu nutzen, um eine nahtlose Konversationsschnittstelle durch eine Schnittstelle einer der Netzwerkeinheiten zu schaffen, gegenseitig "auf Konversation ausgerichtet" werden. Die Erfindung ist in den Ansprüchen 1, 12, 13 und 19 dargestellt.
  • Gemäß einem Aspekt der vorliegenden Erfindung umfasst ein System zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen:
    ein Netzwerk, das wenigstens eine erste Netzwerkeinheit und eine zweite Netzwerkeinheit umfasst;
    wobei die erste Netzwerkeinheit und die zweite Netzwerkeinheit jeweils Folgendes umfassen:
    eine Gruppe von Konversationsressourcen;
    einen Dialogmanager für das Verwalten einer Konversation und zum Ausführen von Anrufen, die einen Konversationsdienst anfordern; und
    ein Kommunikationspaket zum Übermitteln von Nachrichten unter Verwendung von Konversationsprotokollen über das Netzwerk, wobei die durch die Konversationsprotokolle übermittelten Nachrichten eine koordinierte Netzwerkkommunikation zwischen den Dialogmanagern der ersten und der zweiten Einheit herstellen, um die Gruppe von Konversationsressourcen der ersten und der zweiten Netzwerkeinheit automatisch gemeinsam zu nutzen, um gegebenenfalls ihren entsprechenden angeforderten Konversationsdienst auszuführen.
  • Die vorliegende Erfindung ermöglicht, dass eine Client-Einheit mit geringen Ressourcen lokal einfache Aufgaben sowie komplexe Aufgaben in binärer oder analoger Verbindung mit einem Server (oder einer anderen Einheit), der komplexere Konversationsmöglichkeiten besitzt, transparent ausführt. Die serverseitigen Funktionen (wie z. B. Spracherkennung) können durch ein normales IP-Netzwerk oder ein LAN-Netzwerk sowie mittels einer digitalen Übertragung über eine herkömmliche Telefonleitung oder ein paketvermitteltes Netzwerk oder über ein beliebiges herkömmliches drahtloses Datenprotokoll über ein Drahtlos-Netzwerk ausgeführt werden.
  • Die vorliegende Erfindung bietet vorteilhaft eine vollwertige Konversations-Benutzerschnittstelle bei einer beliebigen Einheit (wie z. B. eine überall vorhandene eingebettete Einheit) mit eingeschränkten CPU-, Speicher- und Leistungsmöglichkeiten (sowie eingeschränkten Konversationsressourcen), die komplexe Konversationsdienste unter Verwendung einer Client-Einheit mit geringen Ressourcen bereitstellt ohne die Notwendigkeit, z. B. die benötigten Konversationsargumente von einem Netzserver herunterzuladen. Die lokalen Möglichkeiten ermöglichen dem Benutzer, die lokale Einheit zu nutzen, ohne dass eine Verbindung erforderlich ist, z. B. außerhalb des Versorgungsgebiets eines Anbieters eines Drahtlos-Telefons. Außerdem sind die Kosten einer Standleitungsverbindung geringer und die Schwierigkeiten der Wiederherstellung, wenn derartige Standleitungsverbindungen verloren gehen, können gemindert werden.
  • Diese sowie weitere Aspekte, Merkmale und Vorteile der vorliegenden Erfindung werden beschrieben und werden aus der folgenden Beschreibung bevorzugter Ausführungsformen deutlich, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Übersichtsschaubild eines Systems zum Bereitstellen von Konversationsdiensten über eine automatische und koordinierte Nutzung von Konversationsressourcen zwischen vernetzten Einheiten gemäß einer Ausführungsform der vorliegenden Erfindung;
  • 2 ist ein Ablaufplan eines Verfahrens zum Bereitstellen von Konversationsdiensten über eine automatische und koordinierte Nutzung von Konversationsressourcen zwischen vernetzten Einheiten gemäß einem Aspekt der vorliegenden Erfindung;
  • 3 ist ein Ablaufplan eines Verfahrens zum Bereitstellen von Konversationsdiensten über eine automatische und koordinierte Nutzung von Konversationsressourcen zwischen vernetzten Einheiten gemäß einem weiteren Aspekt der vorliegenden Erfindung;
  • 4 ist ein Übersichtsschaubild eines verteilten Systems zum Bereitstellen von Konversationsdiensten gemäß einer weiteren Ausführungsform der vorliegenden Erfindung, die einen herkömmlichen Browser verwendet; und
  • 5 ist ein Übersichtsschaubild eines verteilten Systems zum Bereitstellen von Konversationsdiensten gemäß einer weiteren Ausführungsform der vorliegenden Erfindung, die einen herkömmlichen Browser verwendet.
  • GENAUE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • Es ist klar, dass die vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware, speziellen Prozessoren oder einer Kombination hiervon realisiert werden kann. Die vorliegende Erfindung wird vorzugsweise in Software als eine Anwendung realisiert, die Programmbefehle umfasst, die körperlich auf einer Programmspeichereinrichtung (z. B. magnetische Diskette, RAM, CD-ROM, ROM und Flash-Speicher) enthalten und durch irgendeine Einheit oder Maschine, die eine geeignete Architektur wie etwa eine oder mehrere zentrale Verarbeitungseinheiten (CPU), einen Arbeitsspeicher (RAM) und eine (oder mehrere) Audiosignal-Eingabe/Ausgabe-(E/A-)Schnittstellen umfasst.
  • Es sollte ferner klar sein, dass sich die tatsächlichen Verbindungen zwischen den Systemkomponenten (oder den Prozessschritten) in Abhängigkeit von der Programmierung der vorliegenden Erfindung unterscheiden können, da einige der das System bildenden Komponenten und Verfahrensschritte, die in den beigefügten Figuren dargestellt sind, vorzugsweise in Software realisiert sind. Mit den hier angegebenen Lehren ist ein Fachmann in der Lage, diese sowie weitere Realisierungsmöglichkeiten oder Konfigurationen der vorliegenden Erfindung vorzusehen.
  • In 1 veranschaulicht ein Übersichtsschaubild ein System zum Bereitstellen von Konversationsdiensten durch die automatische und koordinierte gemeinsame Nutzung von Konversationsressourcen und Konversationsargumenten (Datendateien) zwischen vernetzten Einheiten gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung. Das System umfasst eine lokale Client-Einheit 100, die eine akustische Eingangsstufe 101 zum Verarbeiten von Tonsignal-/Spracheingaben und zum Ausgeben von Tonsignalen/Sprache, die durch die Client-Einheit 100 erzeugt werden, umfasst. Die Client-Einheit 100 kann z. B. ein Smartphone oder irgendein sprachaktiver PDA (persönlicher digitaler Assistent) sein. Die Client-Einheit 100 umfasst ferner eine oder mehrere lokale Konversationsmaschinen 102 zum Verarbeiten der akustischen Merkmale und/oder Signalformen, die von der akustischen Eingangsstufe 101 erzeugt und/oder aufgenommen werden, und zum Erzeugen eines Dialogs für die Ausgabe an den Benutzer. Die lokale Konversationsmaschine 102 kann z. B. eine eingebettete Spracherkennung, eine Sprechererkennungsmaschine, eine TTS-Maschine, eine NLU- und eine NLG-Maschine und eine Tonsignal-Aufnahme- und Kompressions-/Dekompressionsmaschine sowie einen beliebigen weiteren Typ der Konversationsmaschine enthalten.
  • Die Client-Einheit 100 umfasst ferner einen lokalen Dialogmanager 103, der eine Aufgabenverwaltung ausführt und die Ausführung eines Konversationsdienstes, der über einen Systemanruf angefordert wird, (entweder lokal oder über eine Netzwerkeinheit) steuert und koordiniert sowie den Dialog lokal und mit vernetzten Einheiten verwaltet. Wie im Folgenden genauer erläutert wird, ermittelt der Dialogverwalter 103, ob ein bestimmter Konversationsdienst verarbeitet werden soll und lokal bei dem Client 100 oder bei einem entfernten mit dem Netzwerk verbundenen Server (oder Einheit) ausgeführt werden soll. Diese Bestimmung beruht auf Faktoren wie etwa den Konversationsmöglichkeiten des Client 100 im Vergleich zu den Möglichkeiten der anderen vernetzten Einheiten sowie der verfügbaren Ressourcen und der Konversationsargumente, die zum Verarbeiten eines angeforderten Konversationsdienstes erforderlich sein können. Zu weiteren Funktionen gehören Netzwerkverkehr und erwartete Verzögerungen beim Empfangen von Ergebnissen von vernetzten Einheiten. Der Dialogmanager 103 führt eine Aufgabenverwaltung und Aufgaben der Ressourcenverwaltung wie etwa eine Lastverwaltung und eine Ressourcenzuweisung sowie das Verwalten des Dialogs zwischen den lokalen Konversationsmaschinen 102 und sprachfähigen lokalen Anwendungen 104 aus.
  • Wie in 1 beispielhaft gezeigt ist, ist die Client-Einheit 100 über das Netzwerk 105 mit einem Server 106, der Serveranwendungen 109 enthält, sowie mit Server-Konversationsmaschinen 107, die gegebenenfalls Konversationsdienste für die Client-Einheit 100 (oder eine beliebige andere Netzwerkeinheit oder Anwendung) bereitstellen, vernetzt. Wie bei den lokalen Maschinen 102 können die Servermaschinen 107 z. B. eine eingebettete Spracherkennung, eine TTS-Maschine, eine NLU- und NLG-Maschine, eine Audioaufnahme- und Kompressions-/Dekompressionsmaschine sowie einen beliebigen anderen Typ der Konversationsmaschine enthalten. Der Server 106 umfasst einen Server-Dialogmanager 108, der in ähnlicher Weise wie der oben beschriebene lokale Dialogmanager 103 arbeitet. Der Server-Dialogmanager 108 stellt z. B. fest, ob eine Anforderung eines Konversationsdiensts von dem lokalen Dialogmanager 103 durch den Server 106 oder an einem anderen entfernten vernetzten Server oder einer anderen Einheit verarbeitet und ausgeführt werden soll. Der Server-Dialogmanager 108 verwaltet außerdem den Dialog zwischen den Server-Konversationsmaschinen 107 und den sprachfähigen Server-Anwendungen 109.
  • Das System von 1 veranschaulicht des Weiteren die Client-Einheit 100 und den entfernten Server 106, der mit einem Server 110 vernetzt ist, der Konversationsmaschinen und/oder Konversationsargumente aufweist, auf die durch den Client 100 und den Server 106 bei Bedarf zugegriffen werden kann. Bei dem Netzwerk 105 kann es sich z. B. um das Internet, ein LAN (lokales Netzwerk) und ein privates Netzwerk sowie ein PSTN (öffentliches Fernsprechwählnetz) oder ein Drahtlos-Netzwerk (für eine drahtlose Datenübertragung über HF (Hochfrequenz) oder IR (Infrarot)) handeln. Obwohl 1 ein Client/Server-System darstellt, ist klar, dass dieser Ausdruck von einem Fachmann in der Weise zu verstehen ist, dass das System von 1 eine Vielzahl von Netzwerkservern, Einheiten und Anwendungen enthalten kann, die untereinander "auf Konversation ausgerichtet" sind, um eine automatische und koordinierte gemeinsame Nutzung von Konversationsfunktionen, -argumenten und -ressourcen bereitzustellen. Wie im Folgenden genauer erläutert wird, kann eine derartige "Ausrichtung auf Konversation" unter Verwendung von Konversationsnetzwerkprotokollen (oder -verfahren) erreicht werden, um Nachrichten zu übertragen, die durch die entsprechenden Dialogmanager verarbeitet werden, um zu ermöglichen, dass die vernetzten Einheiten Konversationsressourcen und -funktionen automatisch und synchron gemeinsam nutzen. Eine derartige Konversationskoordination schafft eine nahtlose Konversationsschnittstelle für den Zugriff auf entfernte Server, Einheiten und Anwendungen über die Schnittstelle einer Netzwerkeinheit.
  • Um eine Konversationskoordination zwischen den vernetzten Einheiten zu schaffen, damit sie ihre Konversationsfunktionen, -ressourcen und -argumente gemeinsam nutzen, überträgt insbesondere jede der vernetzten Einheiten Nachrichten unter Verwendung von Konversationsprotokollen (oder -verfahren), um Informationen in Bezug auf ihre Konversationsmöglichkeiten und -anforderungen auszutauschen. Wie in 1 gezeigt ist, umfasst z. B. die Client-Einheit 100 ein Kommunikationspaket 111 zum Senden und Empfangen von Nachrichten unter Verwendung von Konversationsprotokollen 112, Konversationsermittlungs-, -registrierungs- und -verhandlungsprotokollen 113 und Sprachübertragungsprotokollen 114 (oder Konversationscodierungsprotokollen). Der Server 106 umfasst gleichfalls ein Server-Kommunikationspaket 115, das Konversationsprotokolle 116, Konversationsermittlungs-, -registrierungs- und -verhandlungsprotokolle 117 und Sprachübertragungsprotokolle 118 umfasst. Diese Protokolle (Verfahren) werden in Bezug auf eine CVM (virtuelle Konversationsmaschine) in der Patentanmeldung von IBM mit dem Aktenzeichen YO999-111P genau erläutert, die mit dem Titel "Conversational Computing Via Conversational Virtual Machine" gleichzeitig mit dieser Patentanmeldung eingereicht, gemeinsam übertragen und als US-B-7 137 126 veröffentlicht wurde.
  • Kurz gesagt, die Konversationsprotokolle 112, 116 (oder das, was in YO999-111P als "verteilte Konversationsprotokolle" bezeichnet wird) sind Protokolle (oder Verfahren), die ermöglichen, dass die vernetzten Einheiten (z. B. Client 100 und Server 106) oder Anwendungen Nachrichten zum Registrieren ihres Konversationszustands, der Argumente und des Kontexts bei den Dialogmanagern anderer Netzwerkeinheiten senden. Die Konversationsprotokolle 112, 116 ermöglichen außerdem, dass die Einheiten andere Informationen austauschen wie z. B. Applets, ActiveX-Komponenten und anderen ausführbaren Code, die ermöglichen, dass die Einheiten oder zugeordnete Anwendungen eine Konversation zwischen derartigen Einheiten z. B. in einer Master/Slave- oder Peer-zu-Peer-Konversationsnetzwerk-Konfiguration austauschen. Die verteilten Konversationsprotokolle 112, 116 ermöglichen den Austausch von Informationen, um die Konversation unter Beteiligung mehrerer Einheiten und Anwendungen, die ein Master/Slave-Konversationsnetzwerk, Peer-Konversationsnetzwerk und stille Partner enthalten, zu koordinieren. Die Informationen, die unter Verwendung der verteilten Konversationsprotokolle zwischen vernetzten Einheiten ausgetauscht werden können, umfassen Zeiger auf Datendateien (Argumente), (gegebenenfalls) Übertragungen von Datendateien und anderen Konversationsargumenten, Benachrichtigung über Eingabe-/Ausgabeereignisse und Erkennungsergebnisse, Konversationsmaschinen-API-Anrufe und Ergebnisse, Benachrichtigung über den Zustand und Kontextänderungen und andere Systemereignisse, Registrierungsaktualisierungen: Quittung für Registrierung, Verhandlungsaktualisierungen: Quittung für Verhandlungen und Feststellungsaktualisierungen, wenn eine angeforderte Ressource verloren gegangen ist.
  • Die (verteilten) Konversationsprotokolle umfassen außerdem Dialogmanagerprotokolle (DM-Protokolle), die es dem Dialogmanager ermöglichen, Dienste, Verhaltens- und Konversationsanwendungen, E/A- und Maschinen-APIs, die z. B. im Dokument von IBM mit dem Aktenzeichen Y0999-111P beschrieben sind, zu verteilen. Das DM-Protokoll ermöglicht z. B. den Austausch folgender Informationen: (1) DM-Architekturregistrierung (z. B. jeder DM kann eine Sammlung lokaler DMs sein); (2) Zeiger auf zugehörige Metainformationen (Benutzer, Fähigkeiten der Einheiten, Erfordernisse der Anwendungen usw.); (3) Verhandlungen der DM-Netzwerktopologie (z. B. Master/Slave, Peer-zu-Peer); (4) gegebenenfalls Datendateien (Konversationsargumente), d. h., wenn Maschinen verwendet werden, die durch einen Master-DM gesteuert werden; (5) Benachrichtigungen über E/A-Ereignisse wie z. B. Benutzer-Eingaben/Ausgaben an Benutzer zur Übertragung an Maschinen und/oder zusätzlich zu Kontexten; (6) Benachrichtigungen über Erkennungsereignisse; (7) Übertragung einer verarbeiteten Eingabe an einen Master-DM; (8) Übertragung der Verantwortlichkeit des Master-DM an registrierte DMs; (9) DM-Verarbeitungsergebnis-Ereignisse; (10) DM-Erwartungen; (11) Übertragung von Vertraulichkeits- und Mehrdeutigkeitsergebnissen, vorgeschlagene Rückmeldung und Ausgabe, vorgeschlagener Erwartungszustand, vorgeschlagene Aktion, vorgeschlagene Kontextänderungen, vorgeschlagener neuer Dialogzustand; (12) Entscheidungsbenachrichtigung, Kontextaktualisierung, Aktionsaktualisierung, Zustandsaktualisierung usw.; (13) Benachrichtigung über abgeschlossene, fehlgeschlagene oder unterbrochene Aktionen; (14) Benachrichtigung über Kontextänderungen; und/oder (15) Datendateien, Kontext- und Zustandsaktualisierungen infolge einer Aktion.
  • Bei einer Master/Slave-Netzwerkkonfiguration steuert z. B. lediglich eine der vernetzten Einheiten die Konversation zu einem Zeitpunkt. Im Einzelnen verwaltet und koordiniert die Master-Einheit (d. h. der Dialogmanager der Master-Einheit) die Konversation zwischen den Netzwerkeinheiten und entscheidet, an welche Einheit ein vorgegebener Konversationsdienst oder eine vorgegebene Konversationsfunktion vergeben wird. Diese Entscheidung kann auf Informationen beruhen, die durch jede der Einheiten oder Anwendungen in Bezug auf ihre Konversationsfähigkeiten bereitgestellt werden. Diese Entscheidung kann außerdem auf dem Master beruhen, der festlegt, welche Slave-Einheit (mit den erforderlichen Konversationsfähigkeiten) die vorgegebene Konversationsfunktion am besten ausführen kann. Der Master kann z. B. eine Vielzahl von Slaves anfordern, um eine Spracherkennung auszuführen und die Ergebnisse an den Master bereitzustellen. Der Master kann dann die optimalen Ergebnisse auswählen. Es ist klar, dass es sich hier bei dem auf der Ebene der Spracherkennung Beschriebenen um den Mechanismus auf der Ebene der DM-Protokolle (Dialogmanager-Protokolle) zwischen verteilten Dialogmanagern handeln kann (wie in Y0999-111P beschrieben ist). In der Tat wird der Master dann, wenn ein Dialog zwischen mehreren Dialogmanagern auftritt, eine Maßzahl der Bewertung der Ergebnisse jedes Dialogmanagers erhalten, und es erfolgt eine dementsprechende Entscheidung, um festzustellen, welcher Dialogmanager mit der Eingabe weitermacht, und zwar nicht nur auf der Grundlage der Genauigkeit der Spracherkennung, sondern anhand des Dialogs (Bedeutung), des Kontexts und der Vorgeschichte (sowie weiterer Elemente, die berücksichtigt werden wie z. B. Präferenzen des Benutzers, die Vorgeschichte und Präferenzen der Anwendung).
  • Bei Peer-zu-Peer-Verbindungen versucht jede Einheit die Funktionen zu bestimmen, die sie ausführen kann, und zeichnet eine Anforderung auf, dies zu tun. Die Einheit, die die Aufgabe akzeptiert hat, wird diese Aufgabe ausführen und anschließend ihre Leistungsfähigkeit bewerten. Die Einheiten verhandeln dann anhand ihrer Bewertungszahlen, welche Einheit die Aufgabe ausführt.
  • In einer Ausführungsform werden die verteilten Konversationsprotokolle 112, 116 über RMI-(Fernverfahrensaufruf) oder RPC-(Fernprozeduranruf) Systemanrufe realisiert, um die Anrufe zwischen den Anwendungen und den unterschiedlichen Konversationsmaschinen über das Netzwerk zu realisieren. Wie in der Technik bekannt ist, ist RPC ein Protokoll, das ermöglicht, dass eine Anwendung einen Dienst von einer anderen Anwendung über das Netzwerk anfordert. Gleichfalls ist RMI ein Verfahren, durch welches Objekte in einem verteilten Netzwerk in Wechselwirkung treten können. RMI ermöglicht, dass ein oder mehrere Objekte zusammen mit der Anforderung übergeben werden können. Außerdem können die Informationen in einem Objekt gespeichert werden, das über CORBA oder DCOM ausgetauscht wird, oder erklärend dargestellt werden (wie z. B. über XML). Wie in der oben eingeschlossenen Patentanmeldung von IBM mit dem Aktenzeichen YO999-111P erläutert wurde, können Konversationsprotokolle (Verfahren) (oder die verteilten Protokolle) verwendet werden, um eine verteilte Realisierung der Konversationsfunktionen, die durch ein CVM-Gerüst unterstützt werden, zwischen Konversationsanwendungen und dem CVM-Gerüst über APIs oder zwischen der CVM und Konversationsmaschinen über Konversationsmaschinen-APIs zu erreichen. Die Konversationsmaschinen-APIs sind Schnittstellen zwischen den Kernmaschinen und Anwendungen, die sie benutzen, und Protokollen, um mit (lokalen oder vernetzten) Kernmaschinen Daten auszutauschen. Die Konversations-APIs stellen eine API-Schicht bereit, um auf Konversation gerichtete Anwendungen einzubinden oder zu entwickeln, die Basisklassen und Komponenten zum Bilden von Konversationsbenutzerschnittstellen enthalten.
  • Ein Dialogmanager gemäß der vorliegenden Erfindung kann gleichfalls über APIs mit Anwendungen und (lokalen oder vernetzten) Maschinen Daten austauschen. Auf diese Weise kann ein Dialogmanager auf die Ergebnisse und die Rückrufe von allen entfernten Prozeduren (Prozeduranrufe an entfernte Maschinen und Anwendungen) reagieren, als ob es sich um eine lokale Anwendung handelt, um z. B. zwischen den Anwendungen und (lokalen oder vernetzten) Ressourcen zu entscheiden, um der aktiven Anwendung Priorität zuzuweisen und die aktive Anwendung zu ermitteln und um festzulegen, welches Ergebnis als aktiv betrachtet werden soll.
  • Die Konversationsfeststellungs-, Registrierungs- und Verhandlungsprotokolle 113, 117 sind Netzwerkprotokolle (oder -verfahren), die verwendet werden, um lokale oder vernetzte auf Konversation gerichtete Systeme (d. h. Anwendungen oder Einheiten, die Konversationsprotokolle "sprechen"). Die Registrierungsprotokolle ermöglichen Einheiten oder Anwendungen, ihre Konversationsfähigkeiten, ihren Zustand und ihre Argumente zu registrieren. Die Verhandlungsprotokolle ermöglichen, dass Einheiten über Master/Slave-, Peer-zu-Peer- oder Netzwerke mit stillem Partner verhandeln.
  • In einer Ausführungsform realisieren die Feststellungsprotokolle einen Lösungsansatz "Rundsenden und Hören", um eine Reaktion von anderen Einheiten des Typs "Rundsenden und Hören" auszulösen. Dies kann z. B. die Erzeugung von dynamischen und spontanen Netzwerken (wie z. B. Bluetooth- und Hopping-Netzwerke, die später erläutert werden) ermöglichen. In einer weiteren Ausführungsform kann eine Standardservereinstellung (möglicherweise der Master) verwendet werden, die die "Adresse" der unterschiedlichen Netzwerkeinheiten registriert. In dieser Ausführungsform beläuft sich die Feststellung auf alle Einheiten im Netzwerk, die mit dem Server Daten austauschen, um die Liste von registrierten Einheiten zu prüfen, um zu ermitteln, welche Einheiten mit derartigen Einheiten verbunden sind. Die Informationen, die über die Feststellungsprotokolle übertragen werden, umfassen das Folgende: (1) Rundsendeanforderungen zur Quittierung oder zum Lauschen auf Anforderungen; (2) Austausch von Einheitenkennungen; (3) Austausch von Kennziffern/Zeigern zur ersten Registrierung; und (4) Austausch von Kennziffern zur ersten Verhandlung.
  • In einer Ausführungsform zum Realisieren der Registrierungsprotokolle können die Einheiten bei einer Verbindung Informationen über ihre Konversationsfähigkeiten mit einem im Voraus eingerichteten Protokoll (z. B. TTS-English, beliebiger Text, Spracherkennung, 500 Wörter + FSG-Grammatik, keine Sprechererkennung usw.) austauschen, indem eine Gruppe von Merkern oder ein Einheiteneigenschaftsobjekt ausgetauscht wird. Anwendungen können gleichfalls Maschinenanforderungslisten austauschen. Bei einer Master/Slave-Netzwerkkonfiguration kann der Master-Dialogmanager sämtliche Listen kompilieren und die Funktionen und Erfordernissen mit den Konversationsfähigkeiten in Übereinstimmung bringen. Beim Fehlen einer Master-Einheit (Dialogmanagers) kann ein gemeinsamer Server verwendet werden, um die Konversationsinformationen an alle Maschinen oder Einheiten im Netzwerk zu übertragen. Die Registrierungsprotokolle ermöglichen der Austausch folgender Informationen: (1) Fähigkeiten und Belastungsnachrichten, einschließlich Definition und Aktualisierungsereignisse; (2) Maschinenressourcen (ob eine vorhandene Einheit NLU, DM, NLG, TTS, Sprechererkennung, Spracherkennung, Kompression, Codierung, Speicherung usw. enthält); (3) E/A-Fähigkeiten; (4) CPU-, Speicher- und Belastungsfähigkeiten; (5) Datendateitypen (domänenspezifisch, Wörterbuch, Sprachmodelle, Sprachen usw.); (6) Netzwerkadressen und Merkmale; (7) Informationen über einen Benutzer (Definition und Aktualisierungsereignisse); (8) Benutzerpräferenzen für die Einheit, Anwendung oder Dialog; (9) kundenspezifische Anpassung; (10) Benutzererfahrung; (11) Hilfe; (12) Fähigkeitsanforderungen pro Anwendung (und Anwendungszustand) (Definition und Aktualisierungsereignisse); (13) Metainformationen für CUI-Dienste und Verhaltensweisen (Hilfedateien, Kategorien, Konversationsprioritäten usw.) (Definition und Aktualisierungsereignisse, typischerweise über Zeiger auf eine Tabelle); (14) Protokollquittungen; und/oder (15) Topologieverhandlungen.
  • Eine Registrierung kann unter Verwendung eines herkömmlichen Kommunikationsprotokolls wie z. B. TCP/IP, TCP/IP 29, X-10 oder CEBus und einer Basiskommunikation zwischen Einheiten ausgeführt werden. Die Einheiten verwenden eine verteilte Konversationsarchitektur, um ihre Konversationsargumente (z. B. aktives Vokabular, Grammatik- und Sprachmodelle, Analyse- und Übersetzungs-/Identifizierungsmodelle, Sprachausdrücke, Syntheseregeln, Grundformen (Ausspracheregeln) und Spracharten) mit ihrer zugeordneten Konversationsmaschine und dem Dialogmanager auszutauschen. Diese Informationen werden entweder als Dateien oder Datenströme zu dem Dialogmanager und dem Konversationsmaschinen oder als URLs geleitet. Außerdem können Kontextinformationen übertragen werden, indem das Weiterleiten oder Zeigen auf das Kontextpaket/die Vorgeschichte der Einheit oder der Anwendung, auf die die Steuereinheit zugreifen kann, angegeben wird und ihrem Kontextpaket hinzugefügt wird. Einheiten leiten außerdem Informationen über ihre Mehrmoden-E/A- und UI-Fähigkeiten (Bildschirm/kein Bildschirm, Audio-Ein/Aus-Fähigkeiten, Tastatur usw.) weiter. Die Konversationsargumente ermöglichen einer Dialogmaschine, die Relevanz einer neuen Abfrage durch die NLU-Maschine anhand des momentanen Zustands und Kontextes abzuschätzen.
  • In Bezug auf die Verhandlungsprotokolle können die Netzwerkeinheiten und Anwendungen bei der Registrierung von Erfordernissen und Fähigkeiten jeder der Netzwerkeinheiten während der Verhandlung für eine vorgegebene vorübergehende Konfiguration stimmen. Wenn eine Anwendung die Konfiguration (d. h. die Topologie) einführt, wird die Entscheidung automatisch eingeführt. Andernfalls kann sie fordern, Master oder Slave oder Peer zu sein. Anhand des Kennzeichens der Anforderungen erfolgt die Entscheidung für eine spezielle Konfiguration und diese wird an alle Einheiten und Anwendungen übertragen (in der Tabelle von verfügbaren Ressourcen, die jede Einheit/Anwendung führt). Immer dann, wenn ein System seinen Zustand und die Anforderung ändert, tauscht es mit den anderen vernetzten Dialogmanagern/Ressourcen Daten aus, um eine neue Verhandlung auszulösen und neue Zustands- und Kontextinformationen auszutauschen.
  • Die Sprachübertragungsprotokolle 114, 118 ermöglichen den Einheiten, komprimierte Sprache oder lokale Verarbeitungsergebnisse an andere Einheiten und Anwendungen im Netzwerk zu senden bzw. von diesen zu empfangen. Die Konversationsmaschinen 102, 107 enthalten vorzugsweise Kompressions-/Dekompressionsmaschinen zum Komprimieren von Sprache (Ergebnissen) zum Übertragen und zum Dekomprimieren von komprimierter Sprache (oder Ergebnissen), die über das Netzwerk von anderen Einheiten oder Anwendungen für eine lokale Verarbeitung erhalten werden. Die Sprachübertragungsprotokolle werden durch Sprachübertragungs-Clients genutzt, die in den Einheiten Systeme oder Anwendungen zur Verarbeitung ausführen, um komprimierte Sprache an andere vernetzte Einheiten zu senden bzw. von diesen zu empfangen. Die Sprachübertragungs-Clients der Einheiten arbeiten in Verbindung mit Kompressions-, Dekompressions- und Rekonstruktionsmaschinen unter Verwendung von geeigneter Kompressionshardware zur Verarbeitung von Sprache, die über das Netzwerk übertragen wird. Die Sprachcodierer stellen eine für die Wahrnehmung annehmbare oder verständliche Rekonstruktion der komprimierten Sprache und eine optimierte Konversationsleistung (z. B. Wortfehlerrate) bereit. Die Sprache wird in den entsprechenden vernetzten Einheiten unter Verwendung von Maschinen zur Verarbeitung von Akustiksignalen (Audioteilsysteme) und geeigneter Audiohardware aufgenommen (und in Merkmale umgewandelt). Außerdem können Dateiformate komprimierter Sprache zwischen Einheiten zur Verarbeitung von Sprache gesendet und empfangen werden. Im Einzelnen ermöglichen Sprachübertragungsprotokolle, dass die Einheiten komprimierte Sprache oder Ergebnisse einer lokalen Verarbeitung zu anderen Einheiten und Anwendungen im Netzwerk senden bzw. von diesen empfangen. In einer Ausführungsform wird nach dem Quittierungsprozess zwischen einer sendenden Einheit und einer empfangenden Einheit ein (paketgestützter) Datenstrom an den Empfänger gesendet. Die Paketvorsätze geben vorzugsweise das Codierschema und Codierargumente an (d. h. die Abtastfrequenz, Merkmalcharakteristiken, Dimensionen, Transformationen, die am Eingangssignal ausgeführt werden, Wesen des Eingangssignals usw.), die zum Codieren der Sprache (oder Ergebnisse) verwendet werden. Außerdem können Fehlerkorrekturinformationen (z. B. der letzte Merkmalvektor des vorherigen Pakets, um den Differentialdecodierer zu korrigieren, wenn das vorherige Paket verloren gegangen oder verzögert ist) oder eine geeignete Nachrichtengebung, um die verloren gegangenen Pakete wiederherzustellen (erneut zu senden) eingeführt werden.
  • Außerdem können die Dialogmanager über die Dialogmanagerprotokolle oder DM-Protokolle Daten austauschen (wie in dem oben einbezogenen Dokument von IBM mit dem Aktenzeichen YO999-111P erläutert ist). Die DM-Protokolle werden verwendet, um zwischen mehreren Dialogmanagern zu verhandeln, welcher Dialogmanager aktiv ist und welcher Dialogmanager die Eingabe empfangen sollte. Da im vorliegenden Fall die Serverressource nur dann "abgefragt" wird, wenn dies tatsächlich erforderlich ist, stellen die DM-Protokolle eine Variation bereit: der lokale Dialogmanager versucht a priori zu ermitteln, ob die Funktion entfernt ausgeführt werden sollte. In Situationen, in denen ein Fehler gemacht wird oder Zweifel bestehen, kann der Dialogmanager auf die Frage von der lokalen Maschine warten und sich entscheiden, bei verbleibenden Zweifeln einen Server zum Vergleich abzufragen.
  • Auf der Grundlage der obigen Erläuterung sollte deswegen klar sein, dass die Netzwerkprotokolle zur Koordinierung (oder für eine koordinierte Schnittstelle) zwischen vernetzten Einheiten zur gemeinsamen Nutzung von Konversationsdiensten und Funktionen dienen. Der Ausdruck "koordinierte Schnittstelle" bedeutet, dass eine einzelne Konversation zwischen den unterschiedlichen Akteuren (Einheiten/Anwendungen) in der Weise geführt werden kann, als ob sie die gesamte Konversation vollständig verstehen und in geeigneter Weise wissen, wer zu einem bestimmten Zeitpunkt angesprochen ist. Das Verhalten jedes Konversationssystems oder jeder Anwendung kann durch einen Dialogmanager (d. h. ein Master in der Master/Slave-Betriebsart), die Anwendungen (die festlegen kann, wer Master, Slawe oder Peer ist), einen System-Dialogmanager (falls vorhanden), die Architektur und die Verhandlung (in der Peer-zu-Peer-Betriebsart) gesteuert/verwaltet werden, um jede Konversationsfunktion an dem geeigneten System transparent für den Benutzer auszuführen. Für den Benutzer einer Client-Einheit wird eine nahtlose Konversationsschnittstelle bereitgestellt (d. h., es erscheint so, dass alle Konversationswechselwirkungen über ein einzelnes Konversationssystem erfolgen), ungeachtet dessen, dass bestimmte Konversationsfunktionen, Systeme und Ressourcen mehrere vernetzte Einheiten darstellen können (z. B. ein Zellentelefon, eine Personenrufanlage und einen PDA).
  • Bei dem Beispiel eines koordinierten Konversationssystems (das oben in dem oben aufgenommenen Dokument von IBM mit dem Aktenzeichen YO999-111P beschrieben wurde) handelt es sich um eine Fernsteuerung, die als UCA (universelles Konversationsgerät) bezeichnet wird. Das UCA erkennt Gerate, die auf Konversation ausgerichtet sind. Jedes auf Konversation ausgerichtetes Gerat sendet seine Konversationsargumente (Vokabular und Grammatik) an das UCA. Das UCA wirkt als ein Master für derartige Gerate und aktualisiert das geeignete Gerät, wenn eine Konversationswechselwirkung mit dem Benutzer einen Befehl an das Gerät zur Folge hat. Umgekehrt sendet sie bei der Ausführung des Befehls oder immer dann, wenn sich der Gerätezustand ändert, eine Aktualisierung an die Fernsteuerung. Ein Konversationsgerät, das keine weiteren Konversationsmöglichkeiten (andere als die entsprechenden Argumente) besitzt, wird als ein "stiller Partner" bezeichnet.
  • In einer weiteren Ausführungsform kann ein Server oder eine Basisstation sämtliche Konversationsfunktionen ausführen außer der Kompression der Audioaufnahme und des Versendens, was durch die Fernsteuerung (oder das UCA) ausgeführt wird. Die Fernsteuerung kann außerdem eine bestimmte UI für den Benutzer bereitstellen, um ihn über den Zustand der unterschiedlichen Geräte zu benachrichtigen. Dies kann über Sprache, eine grafische Benutzeroberfläche oder irgendeine konversationsbezogene Kombination dieser (oder anderer) Modalitäten erfolgen.
  • Obwohl herkömmliche Netzwerktopologien in Verbindung mit dem System von 1 verwendet werden können, ist eine bevorzugte Netzwerktopologie eine Topologie, die eine spontane dynamische Vernetzung erzeugt (d. h. ein Netzwerk, das spontan zwischen Einheiten gebildet wird, die sich in einem bestimmten Kommunikationsbereich befinden). Eine derartige spontane Vernetzung kann unter Verwendung des kürzlich aufgekommenen "Bluetooth"-Vernetzungsprotokolls realisiert werden, das z. B. auf der Webseite http://www.bluetooth.com beschrieben wird. Kurz gesagt, Bluetooth ist eine Codebezeichnung für ein Netzwerkprotokoll, das ad hoc eine Verbindungsfähigkeit für ein Drahtlos-Netzwerk schafft. Bluetooth ist im Einzelnen ein Protokoll zum Bereitstellen von drahtlosen Kurzstrecken- Funkverbindungen zwischen Einheiten (wie etwa Smartphones, Zellentelefone, Personenrufanlagen, PDAs, Laptop-Computer, mobile Einheiten usw.), die sich in einem bestimmten Bereich befinden, um ein Netzwerk (oder das auch als ein "Piconet" bekannt ist) zwischen derartigen Einheiten aufzubauen. Ein Piconet bezeichnet eine Sammlung von Bluetooth-fähigen Einheiten (Knoten), die ad hoc mit einem Knoten verbunden sind, der in dem Piconet während der restlichen Netzwerkverbindung als ein Master wirkt. Zwei oder mehr Piconets können vernetzt sein, um ein so genanntes Scatternet zu bilden.
  • Es ist klar, dass irgendein Protokoll zur spontanen dynamischen Vernetzung gemäß der vorliegenden Erfindung realisiert werden kann. Die Netzwerktopologie von 1 kann z. B. gemäß dem "Frequenzsprung"-Kommunikationsnetzwerk ("Hopping"-Kommunikationsnetzwerk) realisiert sein, das in der US-Patentschrift Nr. 6 150 961 beschrieben ist, das am 24. November 1998 mit dem Titel "Automated Traffic Mapping" eingereicht wurde und gemeinsam übertragen wurde.
  • In 2 veranschaulicht nun einen Ablaufplan ein Verfahren zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsfunktionen zwischen vernetzten Einheiten gemäß einem Aspekt der vorliegenden Erfindung. Im Einzelnen veranschaulicht 2 ein Verfahren des Betriebs des Systems von 1 genauer. Anfangs äußert der Benutzer einen gesprochenen Befehl gegenüber der lokalen Client-Einheit (oder gibt eine Abfrage auf andere Weise aus), der vorverarbeitet wird, indem er z. B. digitalisiert wird und die relevanten Merkmale des digitalisierten Sprachsignals extrahiert werden (Schritt 200). Alternativ kann der lokale Dialogmanager eine Anforderung von einer lokalen Anwendung 104 empfangen, um synthetische Sprache (TTS) zur Ausgabe an den Benutzer zu erzeugen (Schritt 200).
  • Es erfolgt eine Feststellung (über den lokalen Dialogmanager 103), ob eine lokale Verarbeitung zur Verfügung steht (Schritt 201), z. B. ob eine Spracherkennung oder eine Sprachanalyse lokal ausgeführt werden kann. Es sollte klar sein, dass der lokale Dialogmanager 103 für diese Feststellung einen entfernten Server im Voraus definieren kann, wo die Erkennung/Synthese erfolgen muss (z. B. eine IP-Adresse für eine Basisverbindung, eine URL-Adresse für eine servergestützte Aufzeichnung über ein Servlet oder eine Telefonnummer für Direktverbindungen oder eine Verbindung zu einem IVR). Außerdem kann die Feststellung, dass die lokale Einheit keine verfügbaren Ressourcen oder Argumente besitzt, um eine Aufgabe auszuführen (oder wirksam auszuführen), auch durch den Dialogmanager 103 bei der Ausführung der lokalen Anwendung 104 anhand der Ressourcenanforderungen, die durch die Anwendung in einer Vorsatzdatei angegeben werden, getroffen werden. Außerdem können bestimmte Befehle oder angeforderte Funktionen bewirken, dass der Dialogmanager automatisch mit einem entfernten Server verbunden wird. Sicherheitsanwendungen (z. B. Sprecherüberprüfung) können z. B. automatisch zur serverseitigen Verarbeitung umgeschaltet werden, so dass die Spracheindrücke nicht an die Clients verteilt werden. Des Weiteren können Systems zur lokalen Fahrzeugnavigation unter Verwendung eines Telefons oder eines basisgestützten Servers automatisch zu entfernten Servern umgeschaltet werden, so dass die lokale Einheit keinen großen Umfang an Navigationsinformationen speichern muss.
  • Wenn festgestellt wird, dass eine lokale Verarbeitung zur Verfügung steht (eine positive Feststellung im Schritt 201), wird die Verarbeitung über lokale Maschinen 102 lokal ausgeführt (Schritt 202). Wenn dagegen festgestellt wird, dass keine lokale Verarbeitung zur Verfügung steht (negative Feststellung im Schritt 201), werden die relevanten Merkmale/Signalformen/Informationen automatisch an einen entfernten mit dem Netzwerk verbundenen Server übertragen (Schritt 204) (über IP, LAN, Bluetooth, IP, HF oder über Telefon oder IP-Telefon), wobei die entfernte Verarbeitung (z. B. Spracherkennung/Synthese) ausgeführt wird (Schritt 205) (möglicherweise mit einer bestimmten Benutzer/Server-Wechselwirkung).
  • Es sollte klar sein, dass die Übertragung von Sprache vom lokalen Client zu einem entfernten mit dem Netzwerk verbundenen Server (oder umgekehrt) unter Verwendung verschiedener Techniken ausgeführt werden kann. Eine Direktübertragung der Signalform kann z. B. als eine Datei, als ein Strom oder als ein Strom von Paketen ausgeführt werden. Außerdem kann eine komprimierte Signalform unter Verwendung herkömmlicher Verfahren wie z. B. ADPCM und APC gesendet werden. Des Weiteren kann ein Strom von Merkmalen gemäß dem Verfahren gesendet werden, das im Dokument "Compression Of Acoustic Features For Speech Recognition In Network Environments" von G. Ramaswamy u. a., Bd. 2, S. 977 bis 980, Proc. ICASSP, 1998 beschrieben ist. Dieses Verfahren ermöglicht eine Erkennung (Spracherkennung, Sprechererkennung oder NLU) auf der Empfängerseite, jedoch keine Rekonstruktion des Signals. Außerdem kann die Übertragung von Sprache unter Verwendung eines Codierverfahrens oder Codierschemas anhand von komprimierten Merkmalen und einer Tonlagenschätzung ausgeführt werden, wodurch das Sprachsignal mit einer angemessenen Qualität für eine verständliche und sogar angenehme Wiedergabe (zur Wiedergabe, Korrektur, weiteren menschlichen Verarbeitung oder Archivierung) rekonstruiert werden kann. Derartige Codierschemen sollten Datenraten mit niedrigen Werten zwischen 4 und 5 kBit/s ohne Verschlechterung der Erkennungsleistung bereitstellen. Folglich kann ein interaktiver Austausch mit nachgeordneten Ressourcen (Server-Ressourcen) sogar über drahtlose Modems oder drahtlose Datenverbindungen in Echtzeit ausgeführt werden. Es sollte klar sein, dass andere Schemen unter Verwendung ähnlicher Codierschemen verwendet werden könnten, die eine sehr hohe Wiedergabequalität bereitstellen würden. Außerdem kann ein beliebiges Verfahren, das eine Kompression der Cepstra-Merkmale und der Tonlage ermöglicht und eine Erkennung (Sprache, Sprecher, NLU) auf der Serverseite ohne Verschlechterung auf der empfangenen Seite und die Rekonstruktion des Signals ermöglicht, in Verbindung mit der vorliegenden Erfindung verwendet werden. Diese Rekonstruktion ist nützlich für eine spätere Wiedergabe vom Server oder Wiedergabe vom Client (falls lokal gespeichert) oder zum anschließenden Korrekturlesen der Übersetzung, zur Fehlerkorrektur oder zur persönlichen Überwachung des Prozesses. Es sollte klar sein, dass jedes geeignete Kompressionsschema (Kompressionsprotokoll) verwendet werden kann.
  • Es sollte klar sein, dass das Kompressions- oder Codierschema (Übertragungsprotokolle oder Codierprotokolle) sich zwischen Einheiten unterscheiden kann. Die Codierung, um Eingabesprache von dem Audioaufnahmesystem (des Client) zu einer vernetzten Ressource zu versenden, kann z. B. von dem Codierprotokoll verschieden sein, das verwendet wird, um die Ausgabesprache (z. B. Eingabeaufforderungen, Wiedergabesignale oder TTS) von der vernetzten Ressource (Server) zu dem Audioausgang (Client) zu versenden. In dem ersten Fall sollte die Codierung tatsächlich optimiert sein, um eine gute Erkennungsleistung auf der Serverseite zu gewährleisten, wobei die Rekonstruktion zur Wiedergabe zwar wichtig, jedoch nicht so dramatisch ist. Die Bitrate (das Kompressionsverhältnis) ist natürlich wichtig. Ein Kompromiss bei der Kompressionsrate kann zwischen der Robustheit (Fehlerrate-Merkmalverzerrung) und der Wahrnehmungsqualität angepasst werden, um eine Soll-Bitrate zu erreichen und aufrechtzuerhalten. Außerdem können bestimmte Schemen ausgewählt werden, um die Robustheit gegenüber einigen Kanal- oder Hintergrundverzerrungen zu vergrößern. Für die zuletzt genannte Aufgabe (Ausgangssignal) sollte dagegen die Codierung für eine Verständlichkeit oder eine Wahrnehmungsqualität und zur Annehmlichkeit oder um bestimmte spezielle Merkmale der Sprache oder das Tonsignals zu bewahren, optimiert sein.
  • Nach der lokalen Verarbeitung (Schritt 202) oder der entfernten Verarbeitung (Schritt 205) wird festgestellt (über den lokalen Dialogmanager 103 oder den Server-Dialogmanager 108), ob die Ergebnisse der Verarbeitung annehmbar sind (Schritte 203 und 206). Wenn festgestellt wird, dass die Verarbeitungsergebnisse nicht annehmbar sind (negative Feststellung im Schritt 203 oder Schritt 206) leitet der lokale Client oder der entfernte Server die Merkmale oder die Signalform (über IP, LAN, Bluetooth, IR, HF oder eine Verbindung über Telefon oder IP-Telefon) automatisch an einen Server weiter, der eine derartige Verarbeitung ausführen kann (Schritt 204 oder Schritt 207). Die Rückweisung der Ergebnisse für Spracherkennung und NLU kann z. B. auftreten, wenn derartige Ergebnisse unbekannt sind oder fehlerhaft erkannt werden oder mehrdeutig sind (oder anhand eines Zuverlässigkeitsmaßes, das dem Dialogmanager jeder Ressource (lokal oder entfernt) zugeordnet ist). Die automatische Verbindung von dem lokalen oder entfernten System zu einem Serversystem kann vorzugsweise auf der Grundlage des Pegels der akustischen oder der LM-(Sprachmodell-)Bewertungszahlen erfolgen, die durch den lokalen Sprachdecodierer z. B. unter Verwendung der Techniken, die in dem US-Patent Nr. 5 937 383 an Ittycheriah u. a. mit dem Titel "Apparatus and Methods For Speech Recognition Including Individual or Speaker Class Dependant Decoding History Caches For Fast Word Acceptance or Rejection" gelehrt werden, das gemeinsam übertragen wurde, zurückgeführt werden (der entfernte Server wird z. B. dann kontaktiert, wenn festgestellt wird, dass diese Bewertungszahlen unter einen vorgegebenen Schwellenwert fallen). Es sollte klar sein, dass jedes geeignete Maß oder jeder geeignete Lösungsansatz zum Schätzen des Vertraulichkeitsgrads oder der erkannten Äußerung oder Abfrage (während und nach dem Dialog) zur Feststellung verwendet werden kann, wenn die Ergebnisse, die durch ein herkömmliches System erhalten werden, annehmbar sind oder nicht (wobei in diesem Fall ein anderes System betrachtet wird).
  • Für TTS können in ähnlicher Weise der lokale und der entfernte Dialogmanager 103, 108 die Komplexität des Texts prüfen, um festzustellen, ob das TTS lokal oder entfernt ausgeführt wird. TTS wird z. B. entfernt ausgeführt, wenn die Ausspracheregeln für ein Wort nicht bekannt sind oder der Text eine komplexe Analyse erfordert. Ein weiteres Beispiel ist der Fall, bei dem die TTS mit einem anderen Akzent, Dialekt oder in einer anderen Sprache betont werden muss oder wenn ein bestimmter Ausspruch einer Person imitiert werden soll.
  • Nachdem die Verarbeitung entfernt ausgeführt wurde, werden die Ergebnisse (Schritt 208) (über Telefon, IP-Adresse, MAC-(Media Access Control-)Adresse usw.) zurück zum lokalen Client gesendet. Es sollte klar sein, dass die Ausgabe (d. h. die Sprache, die an den Benutzer ausgegeben wird) lokal oder am Server synthetisiert werden kann. Wenn die Synthese am Server erfolgt, kann die Sprache in komprimierter Form (unter Verwendung der Sprachübertragungsprotokolle, die oben erläutert wurden) an den Client zur lokalen Dekomprimierung gesendet werden. Es sollte klar sein, dass das Codierschema gleich dem Schema sein kann, das zum Senden der Sprachmerkmale vom Client an den Server verwendet wurde, oder von diesem verschieden sein kann. Alternativ kann die Sprache durch den Server z. B. über eine andere analoge PSTN-Leitung direkt "rundgesendet" werden, wobei die Verbindung über einen Telefonanruf vom Client an den Server (Rückruf) hergestellt werden kann.
  • In letzter Zeit sind Bemühungen ausgelöst worden, um ein geeignetes Zuverlässigkeitsmaß für die erkannte Sprache zu entwickeln. Im Dokument "LVCSR Hub5 Workshop", 29. April bis 1. Mai 1996, MITAGS, MD, organisiert durch NIST und DARPA, werden unterschiedliche Lösungsansätze vorgeschlagen, um jedem Wort einen Zuverlässigkeitsgrad zuzuweisen. Ein Verfahren verwendet einen Entscheidungsbaum, der auf wortabhängige Merkmale trainiert ist (Anzahl von Trainingsäußerungen, minimales und durchschnittliches Auftreten von Triphonen, Auftreten im Sprachmodelltraining, Anzahl von Phonemen/Lefemen, Dauer, akustische Bewertungszahl (schnelle Übereinstimmung und detaillierte Übereinstimmung), Sprache-Nichtsprache), satzabhängige Merkmale (Störabstand, Schätzwerte der Sprechraten: Anzahl von Wörtern oder Lefemen oder Vokalen pro Stunde, Satzwahrscheinlichkeit, die durch das Sprachmodell bereitgestellt wird, Wahrscheinlichkeitsraten, normierte mittlere Wahrscheinlichkeit pro Rahmen, Trigramm-Auftreten im Sprachmodell), Wort in Kontextmerkmalen (das Trigramm-Auftreten im Sprachmodell) sowie Sprechernaturmerkmale (Akzent, Dialekt, Geschlecht, Alter, Sprechrate, Identität, Audioqualität, SNR usw.). Eine Fehlerwahrscheinlichkeit wird aus den Trainingsdaten für jedes der Blätter des Baums berechnet. Algorithmen zum Bilden derartiger Bäume werden durch Breimau u. a. im Dokument "Classifikation and Regression Trees", Chapman & Hal, 1993 erläutert. Bei einer Erkennung werden alle oder einige dieser Merkmale während der Erkennung gemessen, und für jedes Wort wird der Entscheidungsbaum bis zu einem Blatt durchgegangen, das einen Zuverlässigkeitsgrad schafft. Außerdem ist in dem Referenzdokument von Neti u. a. mit dem Titel "Word Based Confidence Measures As A Guide For Stack Search In Speech Recognition", ICASSP97, Munch, Germany, April 1997 ein Verfahren beschrieben, das vollständig auf Bewertungspunktzahlen beruht, die durch einen IBM Paketdecodierer (unter Verwendung einer Aufzeichnungs-Wahrscheinlichkeit, tatsächlich die durchschnittliche inkrementale Aufzeichnungs-Wahrscheinlichkeit, genaue Übereinstimmung, schnelle Übereinstimmung) zurückgeführt werden.
  • Bei dem LVCSR-Ablauf wird ein anderes Verfahren zum Schätzen des Zuverlässigkeitsgrades unter Verwendung von Prädiktoren über eine lineare Regression ausgeführt. Die verwendeten Prädiktoren sind: die Wortdauer, die Bewertungszahl des Sprachmodells, die durchschnittliche akustische Bewertungszahl (beste Bewertungszahl) pro Rahmen und der Teil der NBEST-Liste mit dem gleichen Wort als erste Wahl. Es sollte klar sein, dass gemäß einer Ausführungsform der vorliegenden Erfindung die beiden Lösungsansätze (Zuverlässigkeitsgrad gemessen über Entscheidungsbäume und über lineare Prädiktoren) kombiniert werden, um den Zuverlässigkeitsgrad in jedem Übersetzungsprozess, nicht auf die Spracherkennung beschränkt, systematisch zu extrahieren.
  • Anhand des Fortschritts in der Vergangenheit und der Geschwindigkeit der Fortentwicklung in diesem Bereich, kann man nun sagen, dass man für verschiedene Arten von Übersetzungen einen Zuverlässigkeitswert, z. B. von 0 bis 1, zuordnen kann, wobei 0 bedeutet, dass keine Übersetzung ausgeführt wird, und 1 Bestimmtheit für Komponenten, die übersetzt werden, bedeutet, wobei die Komponenten Texte, Satzteile, Wörter und allgemeiner ein beliebiger logischer Block aus zu übersetzendem Material bedeuten. Die oben beschriebene Kombination aus linearen Prädiktoren und Entscheidungsbäumen ist ein Verfahren, das vorzugsweise für die vorliegende Erfindung verwendet wird. Die Akkumulation von Bewertungszahlen, die durch eine Spracherkennungsmaschine zurückgegeben werden (Bewertungszahl der schnellen Übereinstimmung und Bewertungszahl der detaillierten Übereinstimmung sowie Bewertungszahlen der Hintergrundmodelle und Gruppen), kann tatsächlich beispielhaft verwendet werden, um einen Entscheidungsbaum und/oder einen linearen Prädiktor des Zuverlässigkeitsgrades zu bilden, der den Sprecher tatsächlich korrekt identifiziert. Bei der Sprecheridentifikation läuft das tatsächlich darauf hinaus, eine Überprüfung anhand der Identität auszuführen, die durch die Identifikationsstufe erhalten wird.
  • Es sollte klar sein, dass die entfernten Server Informationen wie z. B. TTS-Regeln oder Basisformulare, Grammatikinformationen usw. an den lokalen Client für eine Speicherung in einem Cache-Speicher senden können, so dass die lokale Einheit anschließend eine ähnliche Anforderung unter Verwendung dieser Informationen lokal verarbeiten kann. Da eine lokale Einheit möglicherweise nicht in der Lage ist, eine bestimmte Aufgabe infolge des Mangels an erforderlichen Ressourcen zu verarbeiten, kann die Entscheidung durch den Server-Dialogmanager 108, diese Verarbeitungsinformationen an den lokalen Client zu senden, durch die lokale Einheit beim Verbinden mit dem entfernten Server in Übereinstimmung mit der Registrierung (über die oben erläuterten Registrierungsprotokolle) über ihre Konversationsfähigkeiten mit dem entfernten Server getroffen werden.
  • Es sollte klar sein, dass die vorliegende Erfindung in Situationen realisiert werden kann, bei denen der Umfang von Konversationsfunktionen, die durch eine Einheit (über ihren Dialogmanager) ausgeführt werden, derart ist, dass die Einheit nicht in der Lage ist, die erforderlichen Ressourcen für eine rechtzeitige Ausführung der Funktion bereitzustellen (z. B. ein IVR mit einer zu großen Anzahl gleichzeitiger Anschlüsse, die durch das System verwendet werden). Deswegen kann der Dialogmanager so realisiert sein, dass er eine Verwaltung des Konversationssystems und eine Verwaltung der Belastung ausführt, wodurch der Dialogmanager während der Ausführung einer bestimmten Funktion entscheiden kann, ein anderes Konversationssystem zu verwenden, um die Verarbeitung der angeforderten Funktion fortzusetzen. Insbesondere in 3 richtet der Benutzer einen gesprochenen Befehl an die lokale Client-Einheit, der vorverarbeitet wird, indem z. B. die relevanten Merkmale des digitalisierten Sprachsignals digitalisiert und extrahiert werden (Schritt 300). Alternativ kann der lokale Dialogmanager eine Anforderung von einer lokalen Anwendung 104 empfangen, um synthetische Sprache (TTS) zur Ausgabe an den Benutzer zu erzeugen (Schritt 300). Der Dialogmanager stellt fest, ob eine lokale Verarbeitung ausgeführt werden sollte (Schritt 301) (ob es sich z. B. um Spracherkennung, Dialogverwaltung oder Sprachsynthese handelt). Diese Entscheidung kann nicht nur auf der Grundlage der lokalen Konversationsfähigkeiten, Argumente und Ressourcen erfolgen (wie oben erläutert wurde), sondern auch auf der Grundlage von Schätzwerten der Verzögerung, die das Netzwerk infolge von Netzwerk-Verkehrsstau einführt im Vergleich zu den möglichen Verzögerung, die bei der Ausführung der Konversationsfunktion unter Verwendung von verfügbaren, jedoch beschränkten lokalen Ressourcen eingeführt wird (wenn angenommen wird, dass die lokale und die entfernte Einheit die gleichen Funktionen ausführen können). Deswegen können z. B. Befehls- und Steuerfunktionen, bei denen die Gefahr der lokalen Verzögerung bzw. einer Verzögerung über das Netzwerk besteht, entfernt/lokal ausgeführt werden, um die Verzögerung so gering wie möglich zu machen. Dagegen können Anfragen, die eine längere Verzögerung vertragen (z. B. deswegen, weil sie mit nachgeordneten Funktionen verbunden sind, die Verzögerungen wie z. B. Internet- oder audiovisuelle Suchen beinhalten können), auf einem System (lokal oder vernetzt) ausgeführt werden, das die Ressourcen oder Kosten optimiert.
  • Außerdem werden dann, wenn die Netzwerkverbindung vorübergehend nicht zur Verfügung steht, oder beim Fehlen von vernetzten Ressourcen alle Funktionen, die lokal ausgeführt werden können, ausgeführt. Die anderen Funktionen können in Funktionen, die in einer Aufschub-Betriebsart ausgeführt werden können (später, wenn die Verbindung wiederhergestellt wurde), und in nichtkompatible Funktionen unterteilt werden. Typische Beispiele sind Aktualisierungen des Adressbuchs, Antworten auf eMails oder Nachrichten durch Diktieren oder das Diktieren allgemein. Die Anwendung kann wiederum vorzugsweise festlegen, ob der Befehl lokal oder verschoben ist. Es ist außerdem möglich, eine Peer-zu-Peer-Verbindung als Aufschub-Betriebsart zu betrachten, wobei ein Manager der Aufschub-Betriebsart und eine lokale Maschine festlegen, ob die Funktion lokal oder verschoben erfolgt.
  • Wenn in 3 der Dialogmanager feststellt, dass eine lokale Verarbeitung geeignet ist (positive Feststellung im Schritt 301), ordnet der Dialogmanager die erforderliche Konversationsmaschine dem Anschluss zu (Schritt 302). Nachdem die Konversationsmaschine dem Anschluss zugeordnet wurde, kann der Dialogmanager diese Maschine anderen Anschlüssen zuordnen, wenn die Konversationsmaschine gegenwärtig nicht durch den ursprünglich zugeordneten Anschluss verwendet wird (Schritt 303) (z. B. dann, wenn der Sprecher momentan nicht spricht, sondern hört). Wenn die lokale Maschine wieder durch den ursprünglich zugewiesenen Anschluss benötigt wird und die lokale Maschine nicht verfügbar ist, kann eine andere verfügbare Maschine (lokal verfügbare Maschine oder eine entfernte Einheit) verwendet werden (Schritt 304). Dieser dynamische Zuweisungsprozess steht im Gegensatz zur herkömmlichen Belastungsverwaltung, bei der ein Dialogmanager entscheidet und eine oder mehrere Konversationsmaschinen jedem Anschluss für die gesamte Dauer eines Funktionsanrufs zuweist.
  • Es sollte klar sein, dass die Verwaltung und Entscheidung zum Übertragen von Sprache z. B. an einen Netzwerkserver oder eine Einheit nicht nur auf dem Grad an Systemverwaltung/Lastausgleich (durch den Dialogmanager bei einem Client oder Server), sondern auch auf dem Verkehr des Netzwerks beruhen kann. Wenn z. B. eine Verbindung (insbesondere für TCP/IP-gestützte Verbindungen über das Internet) als überlastet angesehen wird, kann ein neuer Server oder eine neue Einheit anhand des Verkehrs ausgewählt werden (Schritt 306). Diese Entscheidung kann an der Spitze von herkömmlichen Protokollen wie etwa VoIP-Protokollen (Voice over Internet Protocol) wie z. B. RSVP (Ressource Reservation Protocol) getroffen werden, wodurch dann, wenn ein Kanal benötigt wird, die Verbindung gemeinsam mit einer geeigneten Reservierung der zugehörigen Dienstqualität hergestellt werden kann. Andernfalls wird eine entfernte Verarbeitung ausgeführt (Schritt 307) und die Ergebnisse in der oben erläuterten Weise zurückgeleitet.
  • Es sollte klar sein, dass das System und die Verfahren, die hier beschrieben wurden, für verschiedene sprachaktive und Konversationsanwendungen realisiert werden können. Die vorliegende Erfindung ist insbesondere nützlich, um den steigenden Bedarf auf dem Gebiet der eingebetteten und der weltweit eingesetzten Datenverarbeitung sowie der NLU/NLG-Dialogsysteme zu decken. Es sollte jedoch klar sein, dass die vorliegende Erfindung für eine Vielfalt von Anwendungen, die nicht auf eingebettete Systeme beschränkt sind, verwendet werden kann. Die folgenden beispielhaften Ausführungsformen veranschaulichen die Vorteile der vorliegenden Erfindung.
  • Handelsüblich verfügbare eingebettete Namenwähleinrichtungen zur Verwendung bei einem Smartphone (z. B. ein Drahtlostelefon mit PDA-Fähigkeiten (PDA – persönlicher digitaler Assistent)) sind eine typische Anwendungsmöglichkeit. Es wird z. B. angenommen, dass die Client-Einheit 100 ein Smartphone mit einer lokalen Anwendung einer Namenwähleinrichtung ist. Der Benutzer speichert lokal eine Liste von gewünschten Namen und Adressen im elektronischen Telefonbuch des Smartphone. Der Benutzer kann dann einen Befehl aussprechen wie z. B. "Wähle Vorname Nachname im ..." mögliches Abfragekriterium (zuhause, Büro, Zellentelefon), und bei Erkennung/Verständnis des Befehls (über die lokalen Konversationsmaschinen 102) wird das Smartphone automatisch die Telefonnummer wählen, die der Person im Adressbuch zugeordnet ist (über die lokale Anwendung 104). Wenn dagegen ein Name ausgesprochen wird, der sich nicht im Adressbuch befindet (und deshalb nicht erkannt/verstanden wird), der sich aber in einer größeren gemeinsamen (oder öffentlichen) Datei befindet (die im entfernten Server 106 vorhanden ist), kann die Anforderung (als Merkmale oder als Signalform) gespeichert werden und zu einem entfernten Server 106 zur Erkennung gesendet werden. Das Wählen kann dann durch den entfernten Server oder durch das Smartphone beim Empfang der geeigneten Informationen direkt ausgeführt werden. Der Benutzer kann alternativ zunächst mit dem entfernten Server verbunden werden und einen Dialog herstellen, um entweder den zu wählenden Namen erneut anzufordern oder um weitere Informationen zu bitten (bei einem Diensttyp der weißen oder gelben Seiten).
  • Eine weitere nützliche Anwendungsmöglichkeit der vorliegenden Erfindung betrifft ein persönliches Informationssystem wie z. B. das handelüblich verfügbare System PointCast (siehe http://www.pointcast.com), das es einem Benutzer ermöglicht, z. B. Aktienwerte, spezielle Neuigkeiten zu einem Thema und Informationen über die letzte Veröffentlichung zu dem Thema anhand von im Voraus festgelegten Benutzerpräferenzen zu erhalten. Bei einem persönlichen Informationssystem, das gemäß der vorliegenden Erfindung aufgebaut ist, wird der Benutzer dann, wenn er Informationen über eine Aktie (z. B. IBM) oder über ein Thema (z. B. die Vorhersage für die Produktion von grünen Erbsen in Kent) erhalten möchte, eine Sprachanforderung an die Client-Einheit 100 richten. Falls "IBM" sich im lokalen Wortschatz (Benutzerprofil) befindet, wird es sofort decodiert, und der Benutzer erhält die neueste Quote, die z. B. als letzte Aktualisierung (PointCast) erhalten wurde. Wenn dagegen die Benutzeranforderung in Bezug auf "grüne Erbsen" von der lokalen Client-Einheit 100 nicht verstanden wurde, wird die Anforderung automatisch als ein Merkmalstrom an einen entfernten Server 106 (des Inhaltanbieters) weitergeleitet, wobei der Server beim Decodieren dieser Anforderung mehr Ressourcen einsetzen und die zugehörigen Informationen abrufen (was sowieso gemacht werden musste) und anschließend diese Informationen an das lokale System übertragen kann. Wenn das entfernte Serversystem einem "Push-Ansatz" folgt, kann dies bei der nächsten Aktualisierung geschehen (z. B. PointCast).
  • Die Client-Einheit 100 kann außerdem ein sprachaktiver PVA (persönlicher Fahrzeugassistent) sein, um z. B. eine Konversationsfahrzeugnavigation bereitzustellen. Wenn der Benutzer z. B. keine CD-ROM mit dem System verwenden möchte (wegen Raummangel, Leistungsanforderungen, Gewicht, Kosten, Stoßfestigkeit usw.), könnte sich der Benutzer entscheiden, begrenzte Informationen wie z. B. das Vokabular und die Karten, die Regionen/Orten zugeordnet sind, an denen sich der Benutzer gegenwärtig befindet, an denen er sich kürzlich aufhielt und zu denen der fahren möchte, zu speichern. Immer dann, wenn in diesem Beispiel eine Benutzeranforderung nicht mit dem lokalen Vokabular und den Kartengruppen übereinstimmt, kann die Anforderung automatisch zu einem entfernten Server 106 gesendet und decodiert werden (selbst dann, wenn Eingabeaufforderungen zurück an den Benutzer die Suche einengen), damit die Fahrtroute, die Karten (oder die aktualisierten Karten) zum Fahrzeug heruntergeladen werden. Eine derartige Aktion wäre wiederum für den Benutzer im Wesentlichen transparent (selbst wenn das Herunterladen kostspielig ist), da anfangs lediglich die lokale Straße benötigt wird.
  • Des Weiteren kann ein NLU/FSG-System gemäß der vorliegenden Erfindung so gestaltet sein, dass dann, wenn die Anforderung des Benutzers FSG (vollständige Grammatik) benötigt, die Anforderung lokal verarbeitet werden kann, es sei denn, die Anforderung ist komplexer und elementar, wodurch eine Weiterleitung an einen entfernten Server zur Erkennung erforderlich ist.
  • Der Namenwählerdienst in einer Firma bietet ein weiteres interessantes Merkmal. Ein Unternehmen führt eine aktive Datenbank von Telefonnummern für seine Beschäftigten. Diese Datenbank ist stets aktuell. Der Benutzer kann periodisch entscheiden, seine lokalen Daten mit denen der Firmendatenbank zu synchronisieren. Dies stellt ein klassisches Konzept dar. Wenn jedoch der Benutzer die Namenwähleinrichtung verwendet und über TCP/IP mit dem Server verbunden werden soll, kann die Synchronisation erfolgen (während der Spracherkennungsphase), so dass die lokale Wählinformation stets aktualisiert ist. Gleichfalls kann das System dann, wenn der Benutzer Informationen für die Navigation zu einem neuen Ort, der nicht in der lokalen Karte des Benutzers enthalten ist, anfordert, die akustischen Informationen sowie eine Gruppe von Navigationsinformationen für die Region, in die der Benutzer reisen möchte, auf den lokalen PVA herunterladen.
  • Das System von 1 kann außerdem mit dem Konversationsbrowsersystem realisiert werden, das im Dokument von IBM mit dem Aktenzeichen YO998-392P beschrieben ist, das mit dieser Anmeldung eingereicht wurde und den Titel "Conversational Browser and Conversational Systems" trägt, das gemeinsam übertragen wurde und als EP-A-1 133 734 veröffentlicht wurde, wobei eine CML-Seite (Konversations-Markup Language), die konzeptionell einer HTML-Seite (Hypertext-Markup Language) für eine visuelle Anzeige ähnlich ist und von einem Inhaltanbieter (Server) übertragen wird (und durch den Konversationsbrowser verarbeitet wird), verwendet wird, um eine Konversations-UI zu beschreiben, die dem Benutzer präsentiert wird. In diesem Beispiel kann es sich bei dem Konversationsbrowser um die lokale Anwendung 104 der Client-Einheit 100 und/oder die Serveranwendung 109 in dem entfernten (IVR) Server 106 handeln. Der Inhaltanbieter oder der Anwendungsentwickler (oder der Proxy/Transcoder) kann entscheiden, dass ein gegebenes Element, das der Benutzer bereitstellen sollte (z. B. eine NLU- oder FSG-Eingabe eines Formulars oder ein leeres Formular, das durch Diktieren auszufüllen ist) am Server 106 erkannt werden muss, anstelle der Lieferung sämtlicher Daten an die Client-Einheit 100 zur lokalen Erkennung (da die Aufgabe für die lokalen Ressourcen zu komplex ist oder da zu viele Informationen durch das Netzwerk gesendet werden müssten). Dies erfolgt z. B. durch Bereitstellen einer URL (Verweisadresse) und Kennzeichen in einer CML-Datei, um einen Server anzugeben, in dem die Verarbeitung erfolgen wird, oder indem ein Applet, eine ActiveX-Komponente oder ein Plug-In (oder irgendeine Variation hiervon) in die CML-Seite geladen wird, das das Audiosignal aufnimmt, möglicherweise einige Konversationsfunktionen ausführt und sie für weitere Funktionen an andere Einheiten versendet (dies ist typischerweise eine Entscheidung, die durch den Autor der Seite getroffen wird). Diese Entscheidung kann durch einen Transcoder und einen Registrierungsmechanismus automatisch ausgeführt werden, wie im Dokument von IBM mit dem Aktenzeichen YO998-392P beschrieben ist, wodurch der Browser seine Fähigkeiten dem Server explizit beschreibt, bei dem die CML-Seite abgerufen wird. Wenn der Transcoder verwendet wird, um die Fähigkeiten des Browsers zusätzlich zu berücksichtigen und den Inhalt an diese Fähigkeiten anzupassen (diese Fähigkeit wird als ein Konversationsproxy bezeichnet), kann der Transcoder die eine oder die mehreren Server-URLs anfügen, um den Server nun auf der Grundlage der Browserfähigkeiten neu zu lenken. In diesen Fällen kann die durch die Client-Einheit 100 erfasste Sprache als eine (gegebenenfalls komprimierte) Signalform oder als ein Strom von Merkmalen zum entfernten Server 106 oder dem vernetzten Server 110 senden, wo die Erkennung erfolgt (oder NLU/NLG). Das Erkennungsergebnis kann dann zurück zur Client-Einheit 100 oder zum Server des CML-Anbieters (entfernter Server 106) gesendet werden, um über den nächsten Verlauf von Aktionen oder die Weiterverarbeitung zu entscheiden. Wie oben erwähnt wurde, kann dies wiederum durch die Anwendung entschieden werden, die die URL der Ressource/Maschine/des Servers oder der lokalen Einheit, die für die Erkennung einer vorgegebenen Eingabe, eines Menüformulars oder Dialogs verwendet werden soll, direkt enthalten kann. Außerdem ist die vorliegende Erfindung unter den Umständen nützlich, wenn eine CML-Seite Ton oder Text wiedergeben/synthetisieren muss, der für die lokalen Konversationsmaschinen 102 der lokalen Einheit 102 zu komplex ist. Die Abschnitte, die zu komplex sind, können als Ströme von Merkmalen oder komprimierten Signalformen von einem speziellen Server erhalten werden (der möglicherweise der Server ist, der die CML-Seite bereitstellte). Des Weiteren kann die lokale Client-Einheit 100, die die geeignete Fähigkeit nicht besitzt, in Bezug auf ein Mehrsprachensystem dann, wenn eine CML-Seite eine andere Sprache enthält, einen entfernten Server anfordern, um die Konversationsfunktionen in dieser Sprache auszuführen.
  • Es sollte klar sein, dass die Konversationskoordination in verteilten Anwendungen mit einem Konversationsbrowser verwendet werden kann. In 4 sind z. B. ein verteiltes System mit einem Präsentationsserver 400, ein Maschinenserver 401 und ein Client 402 mit einem Konversationsbrowser 403 dargestellt (wie in der oben genannten Referenz YO998-392P erläutert ist). Der Browser 403 empfängt Seiten mit CML von dem Präsentationsserver 400 und verarbeitet die CML-Seiten. Die CML-Seite kann Informationen enthalten, die dem Browser 403 die Feststellung ermöglichen, wohin Sprache zur Verarbeitung zu senden ist. Ein Sprachserver befindet sich im Maschinenserver 401. Wird angenommen, dass die CML-Seite eine Verarbeitung der Sprache durch den Maschinenserver 401 anfordert, kann der Browser 403 mit dem Sprachserver über HTTP (oder Sockets oder RMI) Daten austauschen (Anrufe übertragen), um Audiosignale an den Sprachserver zu versenden und die geeigneten Datendateibefehle und Maschinenanrufe senden. Es wird angenommen, dass der Browser 403 des Client bestimmte lokale Verarbeitungsfähigkeiten besitzt, um eine Sprachverarbeitung (über Sprach-API und die Spracherkennungsmaschine 405) auszuführen. Wie oben angemerkt wurde, wird die Verschiebung zwischen der lokalen Sprachverarbeitung und der serverseitigen Sprachverarbeitung durch die CML-Seite bestimmt, die vom Präsentationsserver 400 empfangen wird. Diese Bestimmung kann durch den Inhaltanbieter oder die Anpassung an die Einheit codiert werden (der Client 402 entscheidet, dass er die Aufgabe nicht ausführen kann und sendet sie an einen bekannten oder entdeckten Server oder Transcoder).
  • In 5 befindet sich der Browser 403 an einem Browserserver 404, auf den durch den Client 402 zugegriffen wird (der Browserserver 404 wirkt als ein Zwischenglied zwischen dem Client 402 und dem Präsentationsserver 400). Der Browser 403 legt wiederum fest, ob eine lokale oder eine serverseitige Verarbeitung ausgeführt wird. Die Audiosignale können unter Verwendung einer Konversationscodierung versendet werden, wie oben beschrieben wurde.
  • Die vorliegende Erfindung ermöglicht, dass eine Client-Einheit mit geringen Ressourcen einfache Aufgaben lokal sowie komplexe Aufgaben in binärer oder analoger Verbindung mit einem Server (oder einer anderen Einheit), die komplexere Konversationsfähigkeiten besitzen, transparent ausführt. Die serverseitigen Funktionen (wie etwa die Spracherkennung) können über ein reguläres IP-Netzwerk oder ein LAN-Netzwerk sowie über eine digitale Übertragung über eine herkömmliche Telefonleitung oder ein paketvermitteltes Netzwerk oder über ein herkömmliches drahtloses Datenprotokoll über ein Drahtlos-Netzwerk ausgeführt werden. Die Ausführungsform mit analoger/digitaler Verbindung beschreibt wenigstens zwei Szenarien. Erstens wird eine binäre Verbindung mit einer modemähnlichen Einheit realisiert, und sämtliche Funktionen sind Datenübertragungsfunktionen. Wenn ein Server/eine verteilte Ressource beteiligt ist, kann das System außerdem einen Telefonserver als Ressource anrufen, und Sprache wird über das Netzwerk gesendet (anstelle von Daten der Signalform oder einer Transformation hiervon, wie etwa Cepstra). Ein Beispiel eines derartigen Szenarios ist eine drahtlose Verbindung mit lokalen Spracherkennungsfunktionen (Namenwähleinrichtung und Ziffernwähleinrichtung), die über eine reguläre drahtlose Verbindung mit einem Telefonserver mit einer IVR oder anderen Funktionen wie z. B. Sprachbrowsen im Internet, das Erhalten von Aktien-/Anlagefondkursen und das Ausführen von Banktransaktionen über Sprache, verbindet. Dieser Mechanismus kann heutzutage mit vorhandenen Zellentelefonen verwendet werden, die mit bestimmten Spracherkennungsfähigkeiten in der Einheit ausgerüstet sind.
  • Außerdem können verschiedene Mechanismen verwendet werden, um Verkehr und Ressourcen zu verwalten, die über das Netzwerk verteilt sind, um einen geeigneten Dialogfluss einer Konversationswechselwirkung über das Netzwerk zu garantieren. Zu derartige Mechanismen gehören: Konversationsprotokolle (die oben erläutert wurden), Audio: RecoVC (Erkennung mit kompatiblem VoCoder) (das Codierprotokoll mit Tonlage, das eine Rekonstruktion zur Wiedergabe ermöglicht), Anwendungen und Metainformationen: verteiltes Anwendungsprotokoll, Erkennung, Registrierung, Verhandlung, Serverbelastungs- Verwaltung, um einen Dialogfluss aufrechtzuerhalten, Verkehrsausgleich und Leiten, um einen Dialogfluss aufrechtzuerhalten, Maschinenserverauswahl anhand von Aufgabenmerkmalen und Fähigkeitsanforderungen und Verfügbarkeit von Konversationsargumenten (Datendateien), Konversationsargument-Verteilung: Speicherung, Verkehr/Lenkung und Cache-Speicherung.
  • Obwohl veranschaulichende Ausführungsformen hier unter Bezugnahme auf die beigefügten Zeichnungen beschrieben wurden, sollte klar sein, dass das vorliegende System und das Verfahren nicht auf diese genauen Ausführungsformen beschränkt sind und verschiedene weitere Änderungen und Modifikationen durch einen Fachmann bewirkt werden können, ohne vom Umfang der Erfindung abzuweichen. Alle derartigen Änderungen und Modifikationen sollen im Umfang der Erfindung eingeschlossen sein, der durch die beigefügten Ansprüche definiert ist.

Claims (24)

  1. System zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen, wobei das System Folgendes umfasst: ein Netzwerk, das wenigstens eine erste lokale Netzwerkeinheit und eine zweite Netzwerkeinheit umfasst; wobei die erste lokale Netzwerkeinheit und die zweite Netzwerkeinheit jeweils Folgendes umfassen: eine Gruppe von Konversationsressourcen; einen Dialogmanager für das Verwalten einer Konversation und zum Ausführen von Anrufen, die einen Konversationsdienst anfordern; und ein Kommunikationspaket zum Kommunizieren von Nachrichten unter Verwendung von Konversationsprotokollen über das Netzwerk und das so beschaffen ist, dass es bewirkt, dass die unter Verwendung von Konversationsprotokollen übertragenen Nachrichten einen koordinierten Netzwerkdatenaustausch zwischen den Dialogmanagern der ersten lokalen Netzwerkeinheit und der zweiten Einheit herstellen, um gegebenenfalls ihren entsprechenden angeforderten Konversationsdienst auszuführen.
  2. System nach Anspruch 2, bei dem die Gruppe von Konversationsressourcen der ersten lokalen Netzwerkeinheit und der zweiten Einheit wenigstens eine Spracherkennungsmaschine, eine Sprechererkennungsmaschine, eine TTS-Maschine (Text-zu-Sprache-Synthesemaschine), eine NLU-Maschine (Maschine zum Verstehen natürlicher Sprache) eine NLG-Maschine (Maschine zum Erzeugen natürlicher Sprache), eine Audioerfassungs- und Kompressions-/Dekompressionsmaschine, eine Themengebiet-Erkennungsmaschine, eine Audio-/Multimedia-Indexierungs- und Suchmaschine oder eine Kombination hiervon umfasst.
  3. System nach Anspruch 1, bei dem die Konversationsprotokolle Koordinatenprotokolle umfassen, die den Dialogmanagern der ersten lokalen Netzwerkeinheit und der zweiten Einheit den Austausch von Daten ermöglichen, die ihren entsprechenden Konversationszustand, Argumente und Kontext- und Austausch-Dialogkomponenten umfassen.
  4. System nach Anspruch 3, wobei die Koordinatenprotokolle eine Master/Slave-Kommunikation oder eine Peer-zu-Peer-Kommunikation zwischen den Dialogmanagern der ersten lokalen Netzwerkeinheit und der zweiten Einheit koordinieren.
  5. System nach Anspruch 1, bei dem die Konversationsprotokolle Discovery Protocols umfassen, die der ersten lokalen Netzwerkeinheit und der zweiten Einheit ermöglichen, dialogbewusste Einheiten und Anwendungen im Netzwerk zu finden.
  6. System nach Anspruch 5, bei dem durch die Discovery Protocols eine "Rundsende- und Abhör-Methodologie" realisiert wird.
  7. System nach Anspruch 6, bei dem die Discovery Protocols eingesetzt werden, um ein dynamisches und spontanes Netzwerk wenigstens zwischen der ersten lokalen Netzwerkeinheit und der zweiten Netzwerkeinheit aufzubauen.
  8. System nach Anspruch 1, bei dem die Konversationsprotokolle Registrierungsprotokolle umfassen, um Daten in Bezug auf Konversationsressourcen, Möglichkeiten und Anforderungen auszutauschen.
  9. System nach Anspruch 8, bei dem die Konversationsprotokolle Verhandlungsprotokolle zum Datenaustausch umfassen, um eine Netzwerkkonfiguration zwischen der ersten lokalen Netzwerkeinheit und der zweiten Netzwerkeinheit anhand ihrer entsprechenden Konversationsressourcen und Möglichkeiten aufzubauen.
  10. System nach Anspruch 9, bei dem die Netzwerkkonfiguration ein Master/Slave-Netzwerk umfasst, wobei der Dialogmanager der ersten lokalen Netzwerkeinheit oder der zweiten Einheit die Konversationsressourcen sowohl der ersten lokalen Netzwerkeinheit als auch der zweiten Einheit und ein Peer-zu-Peer-Netzwerk steuert, wobei die Dialogmanager der ersten und der zweiten Einheit über die Steuerung von Konversationsressourcen verhandeln.
  11. System nach Anspruch 1, bei dem die Konversationsprotokolle Sprachübertragungsprotokolle umfassen, um Signalformen komprimierter Sprache, Merkmale komprimierter Sprache oder komprimierte Ergebnisse zwischen der ersten und der zweiten Einheit zu übertragen.
  12. System zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen, wobei das System Folgendes umfasst: einen Client, der lokale Konversationsressourcen und einen Dialogmanager zum Verwalten der lokalen Konversationsressourcen, zum Verarbeiten einer Anforderung nach einem Konversationsdienst und zum Feststellen, ob eine Anforderung nach einem Konversationsdienst unter Verwendung der lokalen Konversationsressourcen ausgeführt werden kann, umfasst; und einen Server, der Server-Konversationsressourcen umfasst, wobei der Dialogmanager des Client so beschaffen ist, dass er automatisch auf den Server zugreift, um die Anforderung unter Verwendung der Server-Konversationsressourcen zu verarbeiten, wenn der angeforderte Konversationsdienst nicht unter Verwendung der lokalen Konversationsressourcen ausgeführt werden kann.
  13. Verfahren zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen zwischen Netzwerkeinheiten, das die folgenden Schritte umfasst: Empfangen einer Anforderung nach einem Konversationsdienst durch eine erste lokale Netzwerkeinheit; Feststellen durch die erste lokale Netzwerkeinheit, ob der angeforderte Konversationsdienst lokal unter Verwendung von Konversationsressourcen der ersten lokalen Netzwerkeinheit, entfernt unter Verwendung von Konversationsressourcen wenigstens einer zweiten Netzwerkeinheit oder lokal und entfernt unter Verwendung sowohl lokaler als auch entfernter Konversationsressourcen verarbeitet wird; und automatischer Datenaustausch mit der wenigstens einen zweiten Netzwerkeinheit, wenn festgestellt wird, dass der Konversationsdienst wenigstens teilweise unter Verwendung der Konversationsressourcen der wenigstens einen zweiten Netzwerkeinheit verarbeitet wird.
  14. Verfahren nach Anspruch 13, das ferner den Schritt des Übertragens von Nachrichten unter Verwendung von Konversationsprotokollen umfasst, um einen koordinierten Netzwerkdatenaustausch zwischen der ersten lokalen Netzwerkeinheit und der wenigstens einen zweiten Netzwerkeinheit aufzubauen, um die Konversationsressourcen gemeinsam zu nutzen.
  15. Verfahren nach Anspruch 13, bei dem der Schritt des Feststellens die Schritte zum Feststellen umfasst, ob lokale Konversationsressourcen zum Verarbeiten des angeforderten Konversationsdienstes zur Verfügung stehen; und wobei das Verfahren ferner die folgenden Schritte umfasst: Ausführen des angeforderten Konversationsdienstes unter Verwendung der lokalen Konversationsressourcen, wenn festgestellt wird, dass lokale Konversationsressourcen zum Verarbeiten des angeforderten Konversationsdienstes zur Verfügung stehen; Feststellen, ob Ergebnisse der lokalen Verarbeitung annehmbar sind; und automatisches Zugreifen auf die wenigstens eine zweite Netzwerkeinheit, um den angeforderten Konversationsdienst entfernt zu verarbeiten, wenn festgestellt wird, dass die Ergebnisse der lokalen Verarbeitung nicht annehmbar sind.
  16. Verfahren nach Anspruch 13, bei dem der Schritt des Feststellens den Schritt zum Feststellen umfasst, ob die wenigstens eine zweite Netzwerkeinheit durch die erste lokale Netzwerkeinheit im Voraus für die Verarbeitung des Konversationsdienstes festgelegt wurde.
  17. Verfahren nach Anspruch 13, bei dem der Schritt des Feststellens auf der Verfügbarkeit der Netzwerkverbindung oder auf dem Netzwerkverkehr zwischen der ersten lokalen Netzwerkeinheit und der wenigstens einen zweiten Netzwerkeinheit beruht.
  18. Verfahren nach Anspruch 14, bei dem der Schritt des automatischen Zugreifens die folgenden Schritte umfasst: automatisches Herstellen einer Netzwerkverbindung mit der wenigstens einen zweiten Netzwerkeinheit durch das Übertragen von Nachrichten unter Verwendung der Konversationsprotokolle; und Übertragen von Merkmalen komprimierter Sprache oder komprimierten Signalformen an die wenigstens eine zweite Netzwerkeinheit.
  19. Programmspeichereinheit, die maschinenlesbar ist, die ein Programm von Befehlen, die durch die Maschine ausführbar sind, konkret beinhaltet, um Verfahrensschritte zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen zwischen Netzwerkeinheiten auszuführen, wobei die Verfahrensschritte Folgendes umfassen: Empfangen einer Anforderung nach einem Konversationsdienst durch eine erste lokale Netzwerkeinheit; Feststellen durch die erste lokale Netzwerkeinheit, ob der angeforderte Konversationsdienst lokal unter Verwendung von Konversationsressourcen der ersten lokalen Netzwerkeinheit, entfernt unter Verwendung von Konversationsressourcen der wenigstens einen zweiten Netzwerkeinheit oder lokal und entfernt unter Verwendung sowohl der lokalen als auch der entfernten Konversationsressourcen verarbeitet wird; und automatischer Datenaustausch mit der wenigstens einen zweiten Netzwerkeinheit, wenn festgestellt wird, dass der Konversationsdienst wenigstens teilweise entfernt unter Verwendung der Konversationsressourcen der wenigstens einen zweiten Netzwerkeinheit verarbeitet wird.
  20. Programmspeichereinheit nach Anspruch 19, die ferner Befehle zum Ausführen des Schritts zum Übertragen von Nachrichten in Übereinstimmung mit Konversationsprotokollen umfasst, um einen koordinierten Netzwerkdatenaustausch zwischen der ersten lokalen Netzwerkeinheit und der wenigstens einen zweiten Netzwerkeinheit aufzubauen, um die Konversationsressourcen gemeinsam zu nutzen.
  21. Programmspeichereinheit nach Anspruch 19, bei der die Befehle zum Ausführens des Feststellungsschritts Befehle zum Ausführen der Schritte zum Feststellen umfassen, ob lokale Konversationsressourcen zum Verarbeiten des angeforderten Konversationsdienstes zur Verfügung stehen; und wobei die Programmspeichereinheit ferner Befehle zum Ausführen der folgenden Schritte umfasst: Ausführen des angeforderten Konversationsdienstes unter Verwendung lokaler Konversationsressourcen, wenn festgestellt wird, dass lokale Konversationsressourcen zum Verarbeiten des angeforderten Konversationsdienstes zur Verfügung stehen; Feststellen, ob Ergebnisse der lokalen Verarbeitung annehmbar sind; und automatisches Zugreifen auf die wenigstens eine zweite Netzwerkeinheit, um den angeforderten Konversationsdienst entfernt zu verarbeiten, wenn festgestellt wird, dass die Ergebnisse der lokalen Verarbeitung nicht annehmbar sind.
  22. Programmspeichereinheit nach Anspruch 19, bei der die Befehle zum Ausführen des Feststellungsschritts Befehle zum Ausführen des Schritts zum Feststellen umfassen, ob die wenigstens eine zweite Netzwerkeinheit durch die erste lokale Netzwerkeinheit im Voraus für die Verarbeitung des Konversationsdienstes festgelegt wurde.
  23. Programmspeichereinheit nach Anspruch 19, bei der der Schritt des Feststellens auf der Verfügbarkeit der Netzwerkverbindung oder dem Netzwerkverkehr zwischen der ersten lokalen Netzwerkeinheit und der wenigstens einen zweiten Netzwerkeinheit beruht.
  24. Programmspeichereinheit nach Anspruch 20, bei der die Befehle zum Ausführen des Schritts des automatischen Zugreifens Befehle zum Ausführen der folgenden Schritte umfassen: automatisches Herstellen einer Netzwerkverbindung mit der wenigstens einen zweiten Netzwerkeinheit unter Verwendung der Konversationsprotokolle; und Übertragen von Merkmalen komprimierter Sprache oder einer komprimierten Signalform an die wenigstens eine zweite Netzwerkeinheit.
DE69937962T 1998-10-02 1999-10-01 Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten Expired - Lifetime DE69937962T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10295798P 1998-10-02 1998-10-02
US102957P 1998-10-02
US11759599P 1999-01-27 1999-01-27
US117595P 1999-01-27
PCT/US1999/022925 WO2000021075A1 (en) 1998-10-02 1999-10-01 System and method for providing network coordinated conversational services

Publications (2)

Publication Number Publication Date
DE69937962D1 DE69937962D1 (de) 2008-02-21
DE69937962T2 true DE69937962T2 (de) 2008-12-24

Family

ID=26799924

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69937962T Expired - Lifetime DE69937962T2 (de) 1998-10-02 1999-10-01 Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten

Country Status (10)

Country Link
US (4) US7137126B1 (de)
EP (4) EP1125279B1 (de)
JP (4) JP2003525477A (de)
KR (4) KR100459299B1 (de)
CN (4) CN100472500C (de)
AT (1) ATE383640T1 (de)
CA (4) CA2345665C (de)
DE (1) DE69937962T2 (de)
IL (5) IL142364A0 (de)
WO (4) WO2000021232A2 (de)

Families Citing this family (689)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7137126B1 (en) * 1998-10-02 2006-11-14 International Business Machines Corporation Conversational computing via conversational virtual machine
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6163794A (en) * 1998-10-23 2000-12-19 General Magic Network system extensible by users
US6886047B2 (en) * 1998-11-13 2005-04-26 Jp Morgan Chase Bank System and method for managing information retrievals for integrated digital and analog archives on a global basis
FR2787902B1 (fr) * 1998-12-23 2004-07-30 France Telecom Modele et procede d'implementation d'un agent rationnel dialoguant, serveur et systeme multi-agent pour la mise en oeuvre
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
EP1107522B1 (de) * 1999-12-06 2010-06-16 Telefonaktiebolaget LM Ericsson (publ) Intelligente Herstellung von Piconets
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US20010043234A1 (en) * 2000-01-03 2001-11-22 Mallik Kotamarti Incorporating non-native user interface mechanisms into a user interface
WO2001059999A1 (en) * 2000-02-11 2001-08-16 Convergent Networks, Inc. Service level executable environment for integrated pstn and ip networks and call processing language therefor
WO2003050799A1 (en) * 2001-12-12 2003-06-19 International Business Machines Corporation Method and system for non-intrusive speaker verification using behavior models
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
WO2001086896A1 (en) * 2000-05-05 2001-11-15 James Ewing A method and a system relating to protocol communications within a pre-existing www server framework
US6769010B1 (en) * 2000-05-11 2004-07-27 Howzone.Com Inc. Apparatus for distributing information over a network-based environment, method of distributing information to users, and method for associating content objects with a database wherein the content objects are accessible over a network communication medium by a user
FR2809204B1 (fr) * 2000-05-17 2003-09-19 Bull Sa Interface applicative multiprosseur, ne necessitant pas l'utilisation d'un systeme d'exploitation multiprocesseur
US7039951B1 (en) 2000-06-06 2006-05-02 International Business Machines Corporation System and method for confidence based incremental access authentication
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
CA2689656A1 (en) * 2000-06-16 2001-12-16 Bayer Healthcare Llc System, method and biosensor apparatus for data communications with a personal data assistant
US6654722B1 (en) * 2000-06-19 2003-11-25 International Business Machines Corporation Voice over IP protocol based speech system
US6788667B1 (en) * 2000-06-20 2004-09-07 Nokia Corporation Wireless access to wired network audio services using mobile voice call
WO2002005153A2 (en) * 2000-07-07 2002-01-17 2020Me Holdings Ltd. System, method and medium for facilitating transactions over a network
US7139709B2 (en) 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US6785651B1 (en) * 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
EP1332605A4 (de) 2000-10-16 2004-10-06 Eliza Corp Verfahren und system zur bereitstellung eines adaptiven respondent-training in einer spracherkennungsanwendung
US7072982B2 (en) 2000-11-22 2006-07-04 Microsoft Corporation Universal naming scheme for peer to peer resources
US7594030B2 (en) 2000-11-22 2009-09-22 Microsoft Corporation Locator and tracking service for peer to peer resources
EP1211588B1 (de) * 2000-12-04 2005-09-21 Siemens Aktiengesellschaft Verfahren zum Nutzen einer Datenverarbeitungsanlage abhängig von einer Berechtigung, zugehörige Datenverarbeitungsanlage und zugehöriges Programm
US7016847B1 (en) 2000-12-08 2006-03-21 Ben Franklin Patent Holdings L.L.C. Open architecture for a voice user interface
GB0030958D0 (en) * 2000-12-19 2001-01-31 Smart Card Solutions Ltd Compartmentalized micro-controller operating system architecture
JP3322262B2 (ja) * 2000-12-22 2002-09-09 日本電気株式会社 無線携帯端末通信システム
DE10064661A1 (de) * 2000-12-22 2002-07-11 Siemens Ag Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion
FI20002860A (fi) * 2000-12-27 2002-06-28 Nokia Corp Laiteroolit ja pikoverkkoyhteydet
US6925645B2 (en) * 2000-12-29 2005-08-02 Webex Communications, Inc. Fault tolerant server architecture for collaborative computing
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7461148B1 (en) * 2001-02-16 2008-12-02 Swsoft Holdings, Ltd. Virtual private server with isolation of system components
EP1233590A1 (de) 2001-02-19 2002-08-21 Sun Microsystems, Inc. Inhaltsanbieter für ein Computersystem
US7606909B1 (en) * 2001-02-20 2009-10-20 Michael Ely Method and apparatus for a business contact center
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
CN1291307C (zh) 2001-03-22 2006-12-20 佳能株式会社 信息处理装置和方法
US7174514B2 (en) * 2001-03-28 2007-02-06 Siebel Systems, Inc. Engine to present a user interface based on a logical structure, such as one for a customer relationship management system, across a web site
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
FR2822994B1 (fr) * 2001-03-30 2004-05-21 Bouygues Telecom Sa Assistance au conducteur d'un vehicule automobile
CA2344904A1 (en) * 2001-04-23 2002-10-23 Bruno Richard Preiss Interactive voice response system and method
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7698228B2 (en) 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7020841B2 (en) 2001-06-07 2006-03-28 International Business Machines Corporation System and method for generating and presenting multi-modal applications from intent-based markup scripts
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7606712B1 (en) * 2001-06-28 2009-10-20 At&T Intellectual Property Ii, L.P. Speech recognition interface for voice actuation of legacy systems
US7647597B2 (en) * 2001-06-28 2010-01-12 Microsoft Corporation Transparent and sub-classable proxies
US6839896B2 (en) * 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US7472091B2 (en) 2001-10-03 2008-12-30 Accenture Global Services Gmbh Virtual customer database
CA2749351C (en) * 2001-10-03 2012-02-07 Accenture Global Services Gmbh Multi-modal messaging and callback with service authorizer and virtual customer database
EP1708470B1 (de) * 2001-10-03 2012-05-16 Accenture Global Services Limited Verschiedene Modi unterstützendes Rückrufsystem
US7233655B2 (en) 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
US7441016B2 (en) 2001-10-03 2008-10-21 Accenture Global Services Gmbh Service authorizer
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7222073B2 (en) 2001-10-24 2007-05-22 Agiletv Corporation System and method for speech activated navigation
US7133830B1 (en) 2001-11-13 2006-11-07 Sr2, Inc. System and method for supporting platform independent speech applications
US20030101054A1 (en) * 2001-11-27 2003-05-29 Ncc, Llc Integrated system and method for electronic speech recognition and transcription
US8498871B2 (en) * 2001-11-27 2013-07-30 Advanced Voice Recognition Systems, Inc. Dynamic speech recognition and transcription among users having heterogeneous protocols
US7302394B1 (en) * 2001-12-20 2007-11-27 Ianywhere Solutions, Inc. Front-end device independence for natural interaction platform
GB2388209C (en) 2001-12-20 2005-08-23 Canon Kk Control apparatus
US20060168095A1 (en) * 2002-01-22 2006-07-27 Dipanshu Sharma Multi-modal information delivery system
US6990639B2 (en) 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
US6704396B2 (en) 2002-02-27 2004-03-09 Sbc Technology Resources, Inc. Multi-modal communications method
US20030187944A1 (en) * 2002-02-27 2003-10-02 Greg Johnson System and method for concurrent multimodal communication using concurrent multimodal tags
GB0204768D0 (en) * 2002-02-28 2002-04-17 Mitel Knowledge Corp Bimodal feature access for web applications
FR2840484B1 (fr) * 2002-05-28 2004-09-03 France Telecom Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7822609B2 (en) 2002-06-14 2010-10-26 Nuance Communications, Inc. Voice browser with integrated TCAP and ISUP interfaces
KR20040002031A (ko) * 2002-06-29 2004-01-07 주식회사 케이티 다수의 응용프로그램들간의 음성인식엔진 공유 방법
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7809578B2 (en) * 2002-07-17 2010-10-05 Nokia Corporation Mobile device having voice user interface, and a method for testing the compatibility of an application with the mobile device
US20040054757A1 (en) * 2002-09-14 2004-03-18 Akinobu Ueda System for remote control of computer resources from embedded handheld devices
US8321427B2 (en) 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
US7519534B2 (en) 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US7987091B2 (en) * 2002-12-02 2011-07-26 Sony Corporation Dialog control device and method, and robot device
KR20040051285A (ko) * 2002-12-12 2004-06-18 삼성전자주식회사 애플릿이 링크된 마크업 문서의 디스플레이 방법 및 그시스템
US7822612B1 (en) * 2003-01-03 2010-10-26 Verizon Laboratories Inc. Methods of processing a voice command from a caller
US7673304B2 (en) * 2003-02-18 2010-03-02 Microsoft Corporation Multithreaded kernel for graphics processing unit
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility
EP1631899A4 (de) * 2003-06-06 2007-07-18 Univ Columbia System und verfahren zur sprachaktivierung von web-seiten
CA2529395A1 (en) 2003-06-26 2005-01-13 Agiletv Corporation Zero-search, zero-memory vector quantization
US7313528B1 (en) * 2003-07-31 2007-12-25 Sprint Communications Company L.P. Distributed network based message processing system for text-to-speech streaming data
US7383302B2 (en) * 2003-09-15 2008-06-03 International Business Machines Corporation Method and system for providing a common collaboration framework accessible from within multiple applications
US7428273B2 (en) 2003-09-18 2008-09-23 Promptu Systems Corporation Method and apparatus for efficient preamble detection in digital data receivers
US7249348B2 (en) * 2003-10-21 2007-07-24 Hewlett-Packard Development Company, L.P. Non-interfering status inquiry for user threads
US7199802B2 (en) * 2003-10-24 2007-04-03 Microsoft Corporation Multiple-mode window presentation system and process
US7856632B2 (en) * 2004-01-29 2010-12-21 Klingman Edwin E iMEM ASCII architecture for executing system operators and processing data operators
US20050229185A1 (en) * 2004-02-20 2005-10-13 Stoops Daniel S Method and system for navigating applications
US7904059B2 (en) * 2004-02-25 2011-03-08 Sk Telecom Co., Ltd. Method and mobile terminal for implementing vector animation interactive service on mobile phone browser
US7925510B2 (en) * 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
US7596788B1 (en) * 2004-05-11 2009-09-29 Platform Computing Corporation Support of non-trivial scheduling policies along with topological properties
US20050289531A1 (en) * 2004-06-08 2005-12-29 Daniel Illowsky Device interoperability tool set and method for processing interoperability application specifications into interoperable application packages
US7814502B2 (en) * 2004-06-14 2010-10-12 Nokia Corporation Shared landmark user interfaces
KR100627228B1 (ko) * 2004-07-01 2006-09-25 에스케이 텔레콤주식회사 기업용 무선 어플리케이션 서비스를 위한 전용 브라우저시스템 및 그 운영방법
US7483968B1 (en) * 2004-07-29 2009-01-27 Emc Corporation System and method for configuring resource groups
FI20041075A0 (fi) * 2004-08-12 2004-08-12 Nokia Corp Tiedon lähettäminen ryhmälle vastaanottolaitteita
US8744852B1 (en) * 2004-10-01 2014-06-03 Apple Inc. Spoken interfaces
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US7640162B2 (en) * 2004-12-14 2009-12-29 Microsoft Corporation Semantic canvas
KR100654447B1 (ko) * 2004-12-15 2006-12-06 삼성전자주식회사 지역별로 존재하는 컨텐츠를 글로벌로 공유하고 거래하는방법 및 시스템
US7987244B1 (en) * 2004-12-30 2011-07-26 At&T Intellectual Property Ii, L.P. Network repository for voice fonts
KR100725719B1 (ko) * 2005-02-04 2007-06-08 주식회사 유진로봇 음성과 태스크 오브젝트 기반의 대화시스템
US7490042B2 (en) * 2005-03-29 2009-02-10 International Business Machines Corporation Methods and apparatus for adapting output speech in accordance with context of communication
US9111253B2 (en) * 2005-04-22 2015-08-18 Sap Se Groupware time tracking
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
WO2006133547A1 (en) 2005-06-13 2006-12-21 E-Lane Systems Inc. Vehicle immersive communication system
US8090084B2 (en) * 2005-06-30 2012-01-03 At&T Intellectual Property Ii, L.P. Automated call router for business directory using the world wide web
JP4667138B2 (ja) 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
CN103824177B (zh) * 2005-10-05 2018-03-20 邓白氏公司 用于多个产品的模块化的基于Web的ASP应用
US8041800B2 (en) * 2005-11-08 2011-10-18 International Business Machines Corporation Automatic orchestration of dynamic multiple party, multiple media communications
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
JP4829600B2 (ja) * 2005-11-28 2011-12-07 キヤノン株式会社 通信装置及び通信装置の制御方法
US9215748B2 (en) 2005-11-28 2015-12-15 Canon Kabushiki Kaisha Communication apparatus, control method for communication apparatus, and communication system
JP2007164732A (ja) * 2005-12-16 2007-06-28 Crescent:Kk コンピュータ実行可能なプログラム、および情報処理装置
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
CN100382083C (zh) * 2005-12-23 2008-04-16 威盛电子股份有限公司 网络会话管理方法及系统
US7840964B2 (en) * 2005-12-30 2010-11-23 Intel Corporation Mechanism to transition control between components in a virtual machine environment
KR101204408B1 (ko) * 2006-01-19 2012-11-27 삼성전자주식회사 유니폼 객체 모델을 이용한 유비쿼터스 서비스/디바이스테스트 방법 및 장치
US20070180365A1 (en) * 2006-01-27 2007-08-02 Ashok Mitter Khosla Automated process and system for converting a flowchart into a speech mark-up language
US8078990B2 (en) 2006-02-01 2011-12-13 Research In Motion Limited Secure device sharing
US20070225983A1 (en) * 2006-03-23 2007-09-27 Theodore Maringo Worldwide time device
KR101264318B1 (ko) * 2006-07-07 2013-05-22 삼성전자주식회사 네트워크 환경에서의 서비스 메뉴 및 서비스 제공방법 및그 서비스 제공장치
KR100807307B1 (ko) * 2006-07-10 2008-02-28 한국전자통신연구원 대화형 음성 인터페이스 시스템 및 그 응답 방법
US9976865B2 (en) 2006-07-28 2018-05-22 Ridetones, Inc. Vehicle communication system with navigation
US20100030557A1 (en) 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
US8589869B2 (en) 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
KR100832534B1 (ko) * 2006-09-28 2008-05-27 한국전자통신연구원 음성 인식을 통한 컨텐츠 정보 서비스 제공 장치 및 그방법
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8478250B2 (en) 2007-07-30 2013-07-02 Bindu Rama Rao Interactive media management server
US11256386B2 (en) 2006-11-22 2022-02-22 Qualtrics, Llc Media management system supporting a plurality of mobile devices
US10803474B2 (en) 2006-11-22 2020-10-13 Qualtrics, Llc System for creating and distributing interactive advertisements to mobile devices
US8700014B2 (en) 2006-11-22 2014-04-15 Bindu Rama Rao Audio guided system for providing guidance to user of mobile device on multi-step activities
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US20080140390A1 (en) * 2006-12-11 2008-06-12 Motorola, Inc. Solution for sharing speech processing resources in a multitasking environment
CA2572116A1 (en) * 2006-12-27 2008-06-27 Ibm Canada Limited - Ibm Canada Limitee System and method for processing multi-modal communication within a workgroup
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
AU2012244080B2 (en) * 2007-05-24 2014-04-17 Microsoft Technology Licensing, Llc Personality-based Device
US9794348B2 (en) 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US8612972B2 (en) * 2007-06-27 2013-12-17 Microsoft Corporation Running add-on components in virtual environments
US20090018818A1 (en) * 2007-07-10 2009-01-15 Aibelive Co., Ltd. Operating device for natural language input
US9264483B2 (en) 2007-07-18 2016-02-16 Hammond Development International, Inc. Method and system for enabling a communication device to remotely execute an application
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8472934B2 (en) * 2007-11-28 2013-06-25 Nokia Corporation Portable apparatus, method and user interface
JP2010020273A (ja) * 2007-12-07 2010-01-28 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9703784B2 (en) * 2007-12-24 2017-07-11 Sandisk Il Ltd. Mobile device and method for concurrently processing content according to multiple playlists
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8086455B2 (en) * 2008-01-09 2011-12-27 Microsoft Corporation Model development authoring, generation and execution based on data and processor dependencies
US20090198496A1 (en) * 2008-01-31 2009-08-06 Matthias Denecke Aspect oriented programmable dialogue manager and apparatus operated thereby
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
CA2719301C (en) * 2008-03-25 2016-10-04 E-Lane Systems Inc. Multi-participant, mixed-initiative voice interaction system
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2009143187A2 (en) * 2008-05-19 2009-11-26 Citrix Systems, Inc. Systems and methods for remoting multimedia plugin calls
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
WO2009149219A2 (en) * 2008-06-03 2009-12-10 Whirlpool Corporation Appliance development toolkit
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
CA2727951A1 (en) 2008-06-19 2009-12-23 E-Lane Systems Inc. Communication system with voice mail access and call by spelling functionality
US20090328062A1 (en) * 2008-06-25 2009-12-31 Microsoft Corporation Scalable and extensible communication framework
CN101621480B (zh) * 2008-06-30 2012-03-28 国际商业机器公司 呈现服务器和在其中使用的xsl文件处理方法
US9652023B2 (en) 2008-07-24 2017-05-16 Intelligent Mechatronic Systems Inc. Power management system
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8959053B2 (en) * 2008-08-13 2015-02-17 Alcatel Lucent Configuration file framework to support high availability schema based upon asynchronous checkpointing
JP5829000B2 (ja) * 2008-08-20 2015-12-09 株式会社ユニバーサルエンターテインメント 会話シナリオ編集装置
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8121842B2 (en) * 2008-12-12 2012-02-21 Microsoft Corporation Audio output of a document from mobile device
US8914417B2 (en) 2009-01-07 2014-12-16 International Business Machines Corporation Apparatus, system, and method for maintaining a context stack
TW201027378A (en) * 2009-01-08 2010-07-16 Realtek Semiconductor Corp Virtual platform and related simulation method
US8498866B2 (en) * 2009-01-15 2013-07-30 K-Nfb Reading Technology, Inc. Systems and methods for multiple language document narration
WO2010084497A1 (en) * 2009-01-26 2010-07-29 Tomer London System and method for providing visual content and services to wireless terminal devices in response to a received voice call
US9529573B2 (en) * 2009-01-28 2016-12-27 Microsoft Technology Licensing, Llc Graphical user interface generation through use of a binary file
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
CN101533409B (zh) * 2009-04-23 2011-03-02 何海群 一种网络浏览器系统和控制方法
US8788524B1 (en) 2009-05-15 2014-07-22 Wolfram Alpha Llc Method and system for responding to queries in an imprecise syntax
US8601015B1 (en) 2009-05-15 2013-12-03 Wolfram Alpha Llc Dynamic example generation for queries
WO2010135837A1 (en) * 2009-05-28 2010-12-02 Intelligent Mechatronic Systems Inc Communication system with personal information management and remote vehicle monitoring and control features
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9002713B2 (en) * 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
US9055151B2 (en) * 2009-06-22 2015-06-09 Avaya Inc. Method to set the flag as replied or forwarded to all replied or forwarded voice messages
US8442189B2 (en) * 2009-06-22 2013-05-14 Avaya Inc. Unified communications appliance
US9667726B2 (en) 2009-06-27 2017-05-30 Ridetones, Inc. Vehicle internet radio interface
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US20110125733A1 (en) * 2009-11-25 2011-05-26 Fish Nathan J Quick access utility
US9978272B2 (en) 2009-11-25 2018-05-22 Ridetones, Inc Vehicle to vehicle chatting and communication system
US20110144976A1 (en) * 2009-12-10 2011-06-16 Arun Jain Application user interface system and method
US8868427B2 (en) * 2009-12-11 2014-10-21 General Motors Llc System and method for updating information in electronic calendars
EP3091535B1 (de) * 2009-12-23 2023-10-11 Google LLC Multimodale eingabe in eine elektronische vorrichtung
GB0922608D0 (en) * 2009-12-23 2010-02-10 Vratskides Alexios Message optimization
JP2011139303A (ja) * 2009-12-28 2011-07-14 Nec Corp 通信システム、制御装置、通信制御方法、およびプログラム
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US9665620B2 (en) * 2010-01-15 2017-05-30 Ab Initio Technology Llc Managing data queries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8645914B2 (en) 2010-01-22 2014-02-04 AgentSheets, Inc. Conversational programming
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8433828B2 (en) 2010-02-26 2013-04-30 Apple Inc. Accessory protocol for touch screen device accessibility
US8554948B2 (en) * 2010-03-03 2013-10-08 At&T Intellectual Property I, L.P. Methods, systems and computer program products for identifying traffic on the internet using communities of interest
JP5560814B2 (ja) * 2010-03-24 2014-07-30 日本電気株式会社 負荷分散システム、負荷分散サーバおよび負荷分散方法
US8612932B2 (en) * 2010-04-18 2013-12-17 Voxeo Corporation Unified framework and method for call control and media control
US8776091B2 (en) * 2010-04-30 2014-07-08 Microsoft Corporation Reducing feedback latency
US8484015B1 (en) 2010-05-14 2013-07-09 Wolfram Alpha Llc Entity pages
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8352908B2 (en) 2010-06-28 2013-01-08 International Business Machines Corporation Multi-modal conversion tool for form-type applications
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9246914B2 (en) * 2010-07-16 2016-01-26 Nokia Technologies Oy Method and apparatus for processing biometric information using distributed computation
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8812298B1 (en) 2010-07-28 2014-08-19 Wolfram Alpha Llc Macro replacement of natural language input
US8775618B2 (en) * 2010-08-02 2014-07-08 Ebay Inc. Application platform with flexible permissioning
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8688435B2 (en) * 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US20120173242A1 (en) * 2010-12-30 2012-07-05 Samsung Electronics Co., Ltd. System and method for exchange of scribble data between gsm devices along with voice
US9183843B2 (en) 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9542657B2 (en) * 2011-02-23 2017-01-10 Avaya Inc. Method and system for optimizing contact center performance
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8171137B1 (en) 2011-05-09 2012-05-01 Google Inc. Transferring application state across devices
WO2012158572A2 (en) * 2011-05-13 2012-11-22 Microsoft Corporation Exploiting query click logs for domain detection in spoken language understanding
US20120317492A1 (en) * 2011-05-27 2012-12-13 Telefon Projekt LLC Providing Interactive and Personalized Multimedia Content from Remote Servers
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US9069814B2 (en) 2011-07-27 2015-06-30 Wolfram Alpha Llc Method and system for using natural language to generate widgets
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8645978B2 (en) * 2011-09-02 2014-02-04 Compuverde Ab Method for data maintenance
US9734252B2 (en) 2011-09-08 2017-08-15 Wolfram Alpha Llc Method and system for analyzing data using a query answering system
US8645532B2 (en) * 2011-09-13 2014-02-04 BlueStripe Software, Inc. Methods and computer program products for monitoring the contents of network traffic in a network device
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9851950B2 (en) 2011-11-15 2017-12-26 Wolfram Alpha Llc Programming in a precise syntax using natural language
US8595016B2 (en) * 2011-12-23 2013-11-26 Angle, Llc Accessing content using a source-specific content-adaptable dialogue
KR101962126B1 (ko) * 2012-02-24 2019-03-26 엘지전자 주식회사 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법
CN103295575B (zh) * 2012-02-27 2019-01-25 北京三星通信技术研究有限公司 一种语音识别方法和客户端
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
EP2847663A4 (de) * 2012-05-07 2015-12-30 Citrix Systems Inc Spracherkennungsunterstützung für entfernte anwendungen und desktops
US20130304536A1 (en) * 2012-05-10 2013-11-14 Ebay, Inc. Harvest Customer Tracking Information
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10395270B2 (en) 2012-05-17 2019-08-27 Persado Intellectual Property Limited System and method for recommending a grammar for a message campaign used by a message optimization system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140006318A1 (en) * 2012-06-29 2014-01-02 Poe XING Collecting, discovering, and/or sharing media objects
US8880398B1 (en) * 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US9710475B1 (en) 2012-07-16 2017-07-18 Tintri Inc. Synchronization of data
KR20180080338A (ko) * 2012-07-19 2018-07-11 글랜스 네트웍스, 인크 다른 형태의 정보 공유를 통한 코브라우징의 통합
US8577671B1 (en) * 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9485330B2 (en) 2012-07-30 2016-11-01 Tencent Technology (Shenzhen) Company Limited Web browser operation method and system
CN103577444B (zh) * 2012-07-30 2017-04-05 腾讯科技(深圳)有限公司 一种操控浏览器的方法及系统
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9378073B2 (en) 2012-08-14 2016-06-28 International Business Machines Corporation Remote procedure call for a distributed system
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input
US9405424B2 (en) 2012-08-29 2016-08-02 Wolfram Alpha, Llc Method and system for distributing and displaying graphical items
CN102831229A (zh) * 2012-08-30 2012-12-19 浙大网新科技股份有限公司 适合盲人使用的网页浏览方法
KR102150289B1 (ko) * 2012-08-30 2020-09-01 삼성전자주식회사 사용자 단말에서 사용자 인터페이스 장치 및 이를 지원하는 방법
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9035884B2 (en) * 2012-10-17 2015-05-19 Nuance Communications, Inc. Subscription updates in multiple device language models
US20150278194A1 (en) * 2012-11-07 2015-10-01 Nec Corporation Information processing device, information processing method and medium
KR101980834B1 (ko) * 2012-11-28 2019-05-21 한국전자통신연구원 컨텍스트 정보 기반 응용프로그램 관리방법 및 그 장치
US9003039B2 (en) 2012-11-29 2015-04-07 Thales Canada Inc. Method and apparatus of resource allocation or resource release
KR101940719B1 (ko) * 2012-12-14 2019-01-23 한국전자통신연구원 태스크 그래프 기반 대화 처리 시스템의 태스크 그래프 구축 장치 및 방법
CN103117058B (zh) * 2012-12-20 2015-12-09 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
CN103020278A (zh) * 2012-12-28 2013-04-03 深圳创维数字技术股份有限公司 一种网页的控制方法及浏览器
US9430420B2 (en) 2013-01-07 2016-08-30 Telenav, Inc. Computing system with multimodal interaction mechanism and method of operation thereof
US9922639B1 (en) 2013-01-11 2018-03-20 Amazon Technologies, Inc. User feedback for speech interactions
CN103971687B (zh) * 2013-02-01 2016-06-29 腾讯科技(深圳)有限公司 一种语音识别系统中的负载均衡实现方法和装置
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9817835B2 (en) * 2013-03-12 2017-11-14 Tintri Inc. Efficient data synchronization for storage containers
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9218052B2 (en) 2013-03-14 2015-12-22 Samsung Electronics Co., Ltd. Framework for voice controlling applications
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
CN112230878A (zh) 2013-03-15 2021-01-15 苹果公司 对中断进行上下文相关处理
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9348555B2 (en) * 2013-03-15 2016-05-24 Volkswagen Ag In-vehicle access of mobile device functions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9125180B1 (en) 2013-03-15 2015-09-01 Google Inc. Techniques for automatically establishing a long-lasting connection across computing devices configured for short-range wireless communication
US9875494B2 (en) * 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
WO2014183035A1 (en) 2013-05-10 2014-11-13 Veveo, Inc. Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
US9431008B2 (en) * 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
EP3005348B1 (de) * 2013-06-07 2020-03-11 Nuance Communications, Inc. Sprachbasierte suche durch beschreibungsfunktionen von umgebungsobjekten
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (de) 2013-06-09 2016-04-20 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US9311298B2 (en) * 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
KR102053820B1 (ko) 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
US10956433B2 (en) * 2013-07-15 2021-03-23 Microsoft Technology Licensing, Llc Performing an operation relative to tabular data based upon voice input
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10109273B1 (en) 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9361289B1 (en) * 2013-08-30 2016-06-07 Amazon Technologies, Inc. Retrieval and management of spoken language understanding personalization data
US10628378B2 (en) 2013-09-03 2020-04-21 Tintri By Ddn, Inc. Replication of snapshots and clones
US9495965B2 (en) * 2013-09-20 2016-11-15 American Institutes For Research Synthesis and display of speech commands method and system
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
WO2015050543A1 (en) * 2013-10-02 2015-04-09 Empire Technology Development, Llc Identification of distributed user interface (dui) elements
CN104598257B (zh) 2013-10-30 2019-01-18 华为技术有限公司 远程应用程序运行的方法和装置
KR101740332B1 (ko) * 2013-11-05 2017-06-08 한국전자통신연구원 자동 번역 장치 및 방법
US9754591B1 (en) 2013-11-18 2017-09-05 Amazon Technologies, Inc. Dialog management context sharing
US9690854B2 (en) * 2013-11-27 2017-06-27 Nuance Communications, Inc. Voice-enabled dialog interaction with web pages
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9558176B2 (en) 2013-12-06 2017-01-31 Microsoft Technology Licensing, Llc Discriminating between natural language and keyword language items
KR101489826B1 (ko) * 2013-12-30 2015-02-04 유승우 더미 터미널 및 본체
CA2939468A1 (en) * 2014-02-13 2015-08-20 Nec Corporation Communication system, communication device, communication method, and non-transitory computer readable medium storing program
CA2980707A1 (en) * 2014-03-25 2015-10-01 Botanic Technologies, Inc. Systems and methods for executing cryptographically secure transactions using voice and natural language processing
US20150278853A1 (en) * 2014-04-01 2015-10-01 DoubleVerify, Inc. System And Method For Identifying Hidden Content
JP2015207819A (ja) * 2014-04-17 2015-11-19 株式会社リコー 情報処理装置、情報処理システム、通信制御方法およびプログラム
US9514376B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3149728B1 (de) 2014-05-30 2019-01-16 Apple Inc. Eingabeverfahren durch einzelne äusserung mit mehreren befehlen
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP3195307B1 (de) * 2014-09-14 2020-01-29 Google LLC Plattform zur erzeugung von anpassbaren dialogsystemmotoren
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
KR102198229B1 (ko) * 2014-09-19 2021-01-04 콘비다 와이어리스, 엘엘씨 서비스 레이어 세션 마이그레이션 및 공유
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9800619B2 (en) * 2014-10-15 2017-10-24 Ayla Networks, Inc. Registration framework for connected consumer devices
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
WO2016060740A1 (en) * 2014-10-15 2016-04-21 Ayla Networks, Inc. Registration framework for connected consumer devices
US9813505B2 (en) 2014-10-15 2017-11-07 Ayla Networks, Inc. Devices in a flexible registration framework
US9648055B2 (en) * 2014-10-15 2017-05-09 Ayla Networks, Inc. Applications in a flexible registration framework
CN107003723A (zh) * 2014-10-21 2017-08-01 罗伯特·博世有限公司 用于会话系统中的响应选择和组成的自动化的方法和系统
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9965464B2 (en) * 2014-12-05 2018-05-08 Microsoft Technology Licensing, Llc Automatic process guidance
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10154041B2 (en) * 2015-01-13 2018-12-11 Microsoft Technology Licensing, Llc Website access control
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10180985B2 (en) * 2015-02-19 2019-01-15 At&T Intellectual Property I, L.P. Apparatus and method for automatically redirecting a search
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US20160321025A1 (en) * 2015-04-30 2016-11-03 Kabushiki Kaisha Toshiba Electronic apparatus and method
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
CN106302089B (zh) * 2015-05-21 2019-06-11 阿里巴巴集团控股有限公司 会话处理方法和系统
EP3304440B1 (de) * 2015-05-27 2021-05-19 Orion Labs Intelligente agentfunktionen für am körper tragbare persönliche kommunikationsknoten
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9721569B2 (en) * 2015-05-27 2017-08-01 Intel Corporation Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10367940B2 (en) 2015-06-01 2019-07-30 AffectLayer, Inc. Analyzing conversations to automatically identify product feature requests
US10133999B2 (en) 2015-06-01 2018-11-20 AffectLayer, Inc. Analyzing conversations to automatically identify deals at risk
US10679013B2 (en) 2015-06-01 2020-06-09 AffectLayer, Inc. IoT-based call assistant device
US10181326B2 (en) 2015-06-01 2019-01-15 AffectLayer, Inc. Analyzing conversations to automatically identify action items
US10110743B2 (en) 2015-06-01 2018-10-23 AffectLayer, Inc. Automatic pattern recognition in conversations
US10387573B2 (en) 2015-06-01 2019-08-20 AffectLayer, Inc. Analyzing conversations to automatically identify customer pain points
US10360911B2 (en) 2015-06-01 2019-07-23 AffectLayer, Inc. Analyzing conversations to automatically identify product features that resonate with customers
US10324979B2 (en) 2015-06-01 2019-06-18 AffectLayer, Inc. Automatic generation of playlists from conversations
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10504137B1 (en) 2015-10-08 2019-12-10 Persado Intellectual Property Limited System, method, and computer program product for monitoring and responding to the performance of an ad
US9688225B2 (en) * 2015-10-09 2017-06-27 Livio, Inc. Methods and systems for a mobile device to emulate a vehicle human-machine interface
CN108475503B (zh) * 2015-10-15 2023-09-22 交互智能集团有限公司 用于多语言通信排序的系统和方法
EP3341933A1 (de) * 2015-10-21 2018-07-04 Google LLC Parametersammlung und automatische dialogerzeugung in dialogsystemen
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11018888B2 (en) * 2015-12-03 2021-05-25 Whirlpool Corporation Methods of remote control of appliances
US10832283B1 (en) 2015-12-09 2020-11-10 Persado Intellectual Property Limited System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics
CN105551488A (zh) * 2015-12-15 2016-05-04 深圳Tcl数字技术有限公司 语音控制方法及系统
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10732783B2 (en) 2015-12-28 2020-08-04 Microsoft Technology Licensing, Llc Identifying image comments from similar images
US10417346B2 (en) * 2016-01-23 2019-09-17 Microsoft Technology Licensing, Llc Tool for facilitating the development of new language understanding scenarios
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10224026B2 (en) * 2016-03-15 2019-03-05 Sony Corporation Electronic device, system, method and computer program
CN107409149B (zh) * 2016-03-17 2021-02-26 谷歌有限责任公司 混合的客户端-服务器数据提供的方法
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
US10319371B2 (en) * 2016-05-04 2019-06-11 GM Global Technology Operations LLC Disambiguation of vehicle speech commands
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN106095593B (zh) 2016-05-31 2019-04-16 Oppo广东移动通信有限公司 一种前、后景应用程序行为同步方法及装置
KR101995540B1 (ko) * 2016-06-03 2019-07-15 주식회사 허브케이 판독/입력 오류 단어 정정 장치 및 방법
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11200891B2 (en) * 2016-06-21 2021-12-14 Hewlett-Packard Development Company, L.P. Communications utilizing multiple virtual assistant services
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
KR102481881B1 (ko) * 2016-09-07 2022-12-27 삼성전자주식회사 외부 디바이스를 제어하는 서버 및 그 방법
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
CN106847272A (zh) * 2016-12-12 2017-06-13 北京光年无限科技有限公司 与运行应用关联的智能机器人的数据交互方法
CN106844453B (zh) * 2016-12-20 2020-09-08 江苏瀚远科技股份有限公司 一种电子文件格式转换方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US20180247644A1 (en) * 2017-02-27 2018-08-30 Intel Corporation Queueing spoken dialogue output
EP3392884A1 (de) * 2017-04-21 2018-10-24 audEERING GmbH Verfahren zur automatischen inferenz des affektischen zustands und system zur automatischen inferenz des affektischen zustands
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11436417B2 (en) 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
US10127227B1 (en) * 2017-05-15 2018-11-13 Google Llc Providing access to user-controlled resources by automated assistants
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11048995B2 (en) * 2017-05-16 2021-06-29 Google Llc Delayed responses by computational assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
JP6777887B2 (ja) * 2017-06-30 2020-10-28 京セラドキュメントソリューションズ株式会社 リモート通信制御システム、セッション管理システムおよびセッション管理プログラム
CN107319857A (zh) * 2017-06-30 2017-11-07 广东工业大学 一种交互镜子及具有该交互镜子的智能家电系统
US20190018545A1 (en) * 2017-07-13 2019-01-17 International Business Machines Corporation System and method for rapid financial app prototyping
KR102419374B1 (ko) * 2017-07-21 2022-07-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
TWI646529B (zh) * 2017-07-25 2019-01-01 雲拓科技有限公司 主動聊天裝置
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN109426530B (zh) * 2017-08-17 2022-04-05 阿里巴巴集团控股有限公司 页面确定方法、装置、服务器和存储介质
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10600419B1 (en) * 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10957313B1 (en) 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
CN107479906A (zh) * 2017-09-28 2017-12-15 电子科技大学 基于Cordova的跨平台在线教育移动终端
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10453454B2 (en) * 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
CN107767856B (zh) * 2017-11-07 2021-11-19 中国银行股份有限公司 一种语音处理方法、装置及服务器
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102100976B1 (ko) * 2017-12-08 2020-05-15 구글 엘엘씨 스택 데이터 구조 백그라운드의 디지털 어시스턴트 프로세싱
US20190180753A1 (en) * 2017-12-12 2019-06-13 Ca, Inc. Analysis of collaborative dialog data structures from speech processing computer system
CN108008728B (zh) * 2017-12-12 2020-01-17 深圳市银星智能科技股份有限公司 清洁机器人以及基于清洁机器人的最短路径规划方法
WO2019125486A1 (en) * 2017-12-22 2019-06-27 Soundhound, Inc. Natural language grammars adapted for interactive experiences
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN108256066B (zh) * 2018-01-16 2022-01-11 智言科技(深圳)有限公司 端到端层次解码任务型对话系统
CN108269205A (zh) * 2018-01-24 2018-07-10 成都安信思远信息技术有限公司 一种利用云平台的电子数据鉴定系统
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US20190236137A1 (en) * 2018-01-31 2019-08-01 Microsoft Technology Licensing, Llc Generating conversational representations of web content
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108520748B (zh) * 2018-02-01 2020-03-03 百度在线网络技术(北京)有限公司 一种智能设备功能引导方法及系统
US10891430B2 (en) * 2018-02-02 2021-01-12 Fuji Xerox Co., Ltd. Semi-automated methods for translating structured document content to chat-based interaction
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
KR102507249B1 (ko) * 2018-03-08 2023-03-07 삼성전자주식회사 성능 모드 제어 방법 및 이를 지원하는 전자 장치
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11056107B2 (en) * 2018-03-30 2021-07-06 International Business Machines Corporation Conversational framework
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN112136124B (zh) * 2018-04-19 2024-02-20 谷歌有限责任公司 用于与计算机实现的自动助理进行人机对话会话的依赖图谈话建模
CN108614773A (zh) * 2018-04-24 2018-10-02 广州链创信息科技有限公司 一种手机小程序用展示发布体验系统
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
EP3570189B1 (de) * 2018-05-14 2023-08-09 Siemens Aktiengesellschaft Computerimplementiertes verfahren zum bereitstellen eines adaptiven dialogsystems und ein adaptives dialogsystem
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10776582B2 (en) * 2018-06-06 2020-09-15 International Business Machines Corporation Supporting combinations of intents in a conversation
US10811009B2 (en) 2018-06-27 2020-10-20 International Business Machines Corporation Automatic skill routing in conversational computing frameworks
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN112262381B (zh) 2018-08-07 2024-04-09 谷歌有限责任公司 汇编和评估对隐私问题的自动助理响应
US11436215B2 (en) 2018-08-20 2022-09-06 Samsung Electronics Co., Ltd. Server and control method thereof
US11037562B2 (en) * 2018-08-23 2021-06-15 Google Llc Regulating assistant responsiveness according to characteristics of a multi-assistant environment
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10762893B2 (en) 2018-09-28 2020-09-01 Comcast Cable Communications, Llc Monitoring of one or more audio/video collection devices
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10594837B1 (en) 2018-11-02 2020-03-17 International Business Machines Corporation Predictive service scaling for conversational computing
EP3654249A1 (de) 2018-11-15 2020-05-20 Snips Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US10770072B2 (en) 2018-12-10 2020-09-08 International Business Machines Corporation Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN110021291B (zh) * 2018-12-26 2021-01-29 创新先进技术有限公司 一种语音合成文件的调用方法及装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3703342B1 (de) * 2019-03-01 2023-07-26 ABB Schweiz AG Dynamischer lastausgleich in netzwerkzentrischen prozesssteuerungssystemen
WO2020185880A1 (en) * 2019-03-12 2020-09-17 Beguided, Inc. Conversational artificial intelligence for automated self-service account management
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111800537B (zh) * 2019-04-09 2021-07-20 Oppo广东移动通信有限公司 终端使用状态的评估方法、装置、存储介质及电子设备
CN111857219B (zh) * 2019-04-25 2023-06-30 益逻触控系统公司 具有三层系统架构的自助服务装置
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11640504B2 (en) 2019-05-17 2023-05-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11526780B2 (en) * 2019-08-05 2022-12-13 Microsoft Technology Licensing, Llc Converting nonnative skills for conversational computing interfaces
US10915227B1 (en) 2019-08-07 2021-02-09 Bank Of America Corporation System for adjustment of resource allocation based on multi-channel inputs
CN110647736A (zh) * 2019-08-13 2020-01-03 平安科技(深圳)有限公司 插件式坐席系统登录方法、装置、计算机设备及存储介质
CN110400564A (zh) * 2019-08-21 2019-11-01 科大国创软件股份有限公司 一种基于栈的聊天机器人对话管理方法
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN110647305B (zh) * 2019-09-29 2023-10-31 阿波罗智联(北京)科技有限公司 应用程序的语音交互方法、装置、设备和介质
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
JP7029434B2 (ja) * 2019-10-23 2022-03-03 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
WO2021096382A2 (ru) * 2019-11-15 2021-05-20 Федеральное Государственное Автономное Образовательное Учреждение Высшего Образования "Московский Физико-Технический Институт" (Национальный Исследовательский Университет) (Мфти) Способ и система управления диалоговым агентом в канале взаимодействия с пользователем
CN111105289B (zh) * 2019-11-22 2023-05-05 北京云杉信息技术有限公司 一种基于aop方式的客户端订单取消判断方法及装置
US11664044B2 (en) 2019-11-25 2023-05-30 Qualcomm Incorporated Sound event detection learning
EP3836043A1 (de) 2019-12-11 2021-06-16 Carrier Corporation Verfahren und ausrüstung zum konfigurieren eines dienstes
CN114787786A (zh) * 2019-12-13 2022-07-22 株式会社日立产机系统 通信模块、通信系统和通信方法
CN111223485A (zh) * 2019-12-19 2020-06-02 深圳壹账通智能科技有限公司 智能交互方法、装置、电子设备及存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN113035226A (zh) * 2019-12-24 2021-06-25 中兴通讯股份有限公司 语音通话方法、通信终端和计算机可读介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11209573B2 (en) 2020-01-07 2021-12-28 Northrop Grumman Systems Corporation Radio occultation aircraft navigation aid system
US20210303273A1 (en) * 2020-03-30 2021-09-30 Nuance Communications, Inc. Development system and method
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN114095487B (zh) * 2020-07-30 2024-03-19 中移(苏州)软件技术有限公司 一种远程任务执行方法、装置及存储介质
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11514799B2 (en) 2020-11-11 2022-11-29 Northrop Grumman Systems Corporation Systems and methods for maneuvering an aerial vehicle during adverse weather conditions
US11410677B2 (en) 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification
CN112527435B (zh) * 2020-12-08 2024-02-13 建信金融科技有限责任公司 浏览器操作方法及系统
US11329933B1 (en) 2020-12-28 2022-05-10 Drift.com, Inc. Persisting an AI-supported conversation across multiple channels
US20220415311A1 (en) * 2021-06-24 2022-12-29 Amazon Technologies, Inc. Early invocation for contextual data processing
US20230197072A1 (en) * 2021-12-17 2023-06-22 Google Llc Warm word arbitration between automated assistant devices
CN115064168B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN116719649A (zh) * 2022-09-01 2023-09-08 荣耀终端有限公司 会话通知的提示方法、电子设备及可读存储介质
CN116450383A (zh) * 2023-06-19 2023-07-18 合肥景云软件工程有限责任公司 一种通过网页调用操作系统的方法

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4787031A (en) * 1985-01-04 1988-11-22 Digital Equipment Corporation Computer with virtual machine mode and multiple protection rings
JPH0673135B2 (ja) * 1988-03-01 1994-09-14 工業技術院長 自然言語対話処理装置
US5282265A (en) * 1988-10-04 1994-01-25 Canon Kabushiki Kaisha Knowledge information processing system
JPH0384652A (ja) * 1989-08-29 1991-04-10 Personal Joho Kankyo Kyokai ヒューマンインタフェースのアーキテクチャモデル
US5333237A (en) * 1989-10-10 1994-07-26 Hughes Aircraft Company Hypermedia structured knowledge base system
JP3235728B2 (ja) * 1990-02-09 2001-12-04 沖ソフトウェア株式会社 会話制御方式
JPH05304567A (ja) * 1990-04-05 1993-11-16 Texas Instr Inc <Ti> 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク
JPH0410153A (ja) * 1990-04-27 1992-01-14 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム
US5133004A (en) 1990-05-07 1992-07-21 Unisys Corporation Digital computer platform for supporting telephone network applications
US5255305A (en) * 1990-11-01 1993-10-19 Voiceplex Corporation Integrated voice processing system
US5274695A (en) * 1991-01-11 1993-12-28 U.S. Sprint Communications Company Limited Partnership System for verifying the identity of a caller in a telecommunications network
JPH0792801B2 (ja) * 1991-08-02 1995-10-09 工業技術院長 非単調推論方法
US5283888A (en) 1991-08-27 1994-02-01 International Business Machines Corporation Voice processing interface unit employing virtual screen communications for accessing a plurality of primed applications
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
JP3213056B2 (ja) * 1992-06-19 2001-09-25 株式会社日立製作所 マルチメディア処理装置
US5384890A (en) * 1992-09-30 1995-01-24 Apple Computer, Inc. Method and apparatus for providing multiple clients simultaneous access to a sound data stream
FR2696574B1 (fr) * 1992-10-06 1994-11-18 Sextant Avionique Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine.
JPH06131437A (ja) * 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
JPH06149534A (ja) * 1992-11-13 1994-05-27 Toshiba Corp 音声画面操作装置
US6029188A (en) * 1993-01-18 2000-02-22 Institute For Personalized Information Environment Information processing system for an architecture model capable of interfacing with humans and capable of being modified
US5544228A (en) * 1993-09-27 1996-08-06 The Walt Disney Company Method and apparatus for transmission of full frequency digital audio
US5509060A (en) * 1993-11-19 1996-04-16 At&T Corp. Network-accessible intelligent telephone service
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5644686A (en) * 1994-04-29 1997-07-01 International Business Machines Corporation Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications
JP3408332B2 (ja) * 1994-09-12 2003-05-19 富士通株式会社 ハイパーテキスト読上装置
US5682539A (en) * 1994-09-29 1997-10-28 Conrad; Donovan Anticipated meaning natural language interface
US5594789A (en) * 1994-10-13 1997-01-14 Bell Atlantic Network Services, Inc. Transaction implementation in video dial tone network
DE69511425T2 (de) * 1994-11-08 2000-03-09 Vermeer Tech Inc Herstellungshilfe für online-dienste mit gebührenfeststellung
JPH08137697A (ja) * 1994-11-15 1996-05-31 Kobe Steel Ltd 自律分散型システム
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
JP2746218B2 (ja) * 1995-02-23 1998-05-06 富士ゼロックス株式会社 資源管理装置および資源管理方法
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5742845A (en) * 1995-06-22 1998-04-21 Datascape, Inc. System for extending present open network communication protocols to communicate with non-standard I/O devices directly coupled to an open network
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
US5794205A (en) 1995-10-19 1998-08-11 Voice It Worldwide, Inc. Voice recognition interface apparatus and method for interacting with a programmable timekeeping device
JPH10124378A (ja) * 1995-12-01 1998-05-15 Zakuson R & D:Kk インターネットおよびイントラネット上におけるホームページ上の文書録画支援装置および文書録画支援システム
US6240448B1 (en) * 1995-12-22 2001-05-29 Rutgers, The State University Of New Jersey Method and system for audio access to information in a wide area computer network
US6101528A (en) * 1996-03-27 2000-08-08 Intel Corporation Method and apparatus for discovering server applications by a client application in a network of computer systems
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
IL122647A (en) * 1996-04-22 2002-05-23 At & T Corp Method and device for retrieving information using an audio interface
US5956507A (en) * 1996-05-14 1999-09-21 Shearer, Jr.; Bennie L. Dynamic alteration of operating system kernel resource tables
JPH09319760A (ja) * 1996-05-30 1997-12-12 Nippon Telegr & Teleph Corp <Ntt> 情報検索運行システム
EP0903032B1 (de) * 1996-06-03 2005-11-16 WorldVoice Licensing, Inc. Fernsprechsprachpostverfahren mit netzwerkadress-und sprach-authentifizierung
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
US5799063A (en) * 1996-08-15 1998-08-25 Talk Web Inc. Communication system and method of providing access to pre-recorded audio messages via the Internet
JPH10124293A (ja) * 1996-08-23 1998-05-15 Osaka Gas Co Ltd 音声指令可能なコンピュータとそれ用の媒体
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6035267A (en) * 1996-09-26 2000-03-07 Mitsubishi Denki Kabushiki Kaisha Interactive processing apparatus having natural language interfacing capability, utilizing goal frames, and judging action feasibility
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5774857A (en) * 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
JP3826239B2 (ja) * 1996-11-22 2006-09-27 日本電信電話株式会社 ハイパーテキスト中継方法及び装置
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US5960399A (en) 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
JP2907174B2 (ja) * 1997-02-04 1999-06-21 日本電気株式会社 監視制御システムのユーザインタフェースシステム
JPH10222342A (ja) * 1997-02-06 1998-08-21 Nippon Telegr & Teleph Corp <Ntt> ハイパーテキスト音声制御方法及び装置
JPH10222525A (ja) * 1997-02-07 1998-08-21 Hitachi Ltd ナビゲーション方法
JPH10243048A (ja) * 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 情報伝送方法及びシステム
US5987102A (en) * 1997-03-14 1999-11-16 Efusion, Inc. Method and apparatus for bridging a voice call including selective provision of information in non-audio to the caller
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
JP3646471B2 (ja) * 1997-05-14 2005-05-11 日本電信電話株式会社 情報提供方法及び個人適応情報提供サーバ及び情報提供プログラムを格納した記憶媒体
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6108711A (en) * 1998-09-11 2000-08-22 Genesys Telecommunications Laboratories, Inc. Operating system having external media layer, workflow layer, internal media layer, and knowledge base for routing media events between transactions
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6370508B2 (en) * 1998-09-11 2002-04-09 Genesys Telecommunications Laboratories, Inc. Interface engine for managing business processes within a multimedia communication-center
JP4562910B2 (ja) * 1998-03-23 2010-10-13 マイクロソフト コーポレーション オペレーティングシステムのアプリケーション・プログラム・インターフェース
US6012030A (en) * 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
US6859451B1 (en) * 1998-04-21 2005-02-22 Nortel Networks Limited Server for handling multimodal information
US6018711A (en) * 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
US6253326B1 (en) * 1998-05-29 2001-06-26 Palm, Inc. Method and system for secure communications
US6397259B1 (en) * 1998-05-29 2002-05-28 Palm, Inc. Method, system and apparatus for packet minimized communications
US6269366B1 (en) * 1998-06-24 2001-07-31 Eastman Kodak Company Method for randomly combining images with annotations
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US6119147A (en) * 1998-07-28 2000-09-12 Fuji Xerox Co., Ltd. Method and system for computer-mediated, multi-modal, asynchronous meetings in a virtual space
EP1101160B1 (de) * 1998-08-05 2003-04-02 BRITISH TELECOMMUNICATIONS public limited company Multimodale benutzerschnittstelle
US6195696B1 (en) * 1998-10-01 2001-02-27 International Business Machines Corporation Systems, methods and computer program products for assigning, generating and delivering content to intranet users
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6385583B1 (en) 1998-10-02 2002-05-07 Motorola, Inc. Markup language for interactive services and methods thereof
US7137126B1 (en) * 1998-10-02 2006-11-14 International Business Machines Corporation Conversational computing via conversational virtual machine
US6615240B1 (en) * 1998-12-18 2003-09-02 Motive Communications, Inc. Technical support chain automation with guided self-help capability and option to escalate to live help
US6523061B1 (en) * 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
US6851115B1 (en) * 1999-01-05 2005-02-01 Sri International Software-based architecture for communication and cooperation among distributed electronic agents
US7216351B1 (en) * 1999-04-07 2007-05-08 International Business Machines Corporation Systems and methods for synchronizing multi-modal interactions
US6519617B1 (en) * 1999-04-08 2003-02-11 International Business Machines Corporation Automated creation of an XML dialect and dynamic generation of a corresponding DTD
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
US6529889B1 (en) * 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US6377913B1 (en) * 1999-08-13 2002-04-23 International Business Machines Corporation Method and system for multi-client access to a dialog system
US6799169B1 (en) * 1999-08-13 2004-09-28 International Business Machines Corporation Method and system for modeless operation of a multi-modal user interface through implementation of independent decision networks
US6738803B1 (en) * 1999-09-03 2004-05-18 Cisco Technology, Inc. Proxy browser providing voice enabled web application audio control for telephony devices
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
US7415537B1 (en) * 2000-04-07 2008-08-19 International Business Machines Corporation Conversational portal for providing conversational browsing and multimedia broadcast on demand
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6970935B1 (en) * 2000-11-01 2005-11-29 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US6839896B2 (en) * 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7349845B2 (en) * 2003-09-03 2008-03-25 International Business Machines Corporation Method and apparatus for dynamic modification of command weights in a natural language understanding system

Also Published As

Publication number Publication date
CA2345665C (en) 2011-02-08
EP1163576A2 (de) 2001-12-19
WO2000021075A1 (en) 2000-04-13
CN1171200C (zh) 2004-10-13
WO2000021232A3 (en) 2000-11-02
IL142364A0 (en) 2002-03-10
EP1133734A2 (de) 2001-09-19
CA2345661A1 (en) 2000-04-13
IL142366A (en) 2008-11-26
EP1163576A4 (de) 2005-11-30
US7137126B1 (en) 2006-11-14
EP1125279A1 (de) 2001-08-22
WO2000021075A9 (en) 2000-06-08
IL140805A0 (en) 2002-02-10
CN1321296A (zh) 2001-11-07
CN1160700C (zh) 2004-08-04
WO2000020962A2 (en) 2000-04-13
KR20020004931A (ko) 2002-01-16
EP1125279B1 (de) 2008-01-09
KR100431972B1 (ko) 2004-05-22
JP2002527919A (ja) 2002-08-27
CN100472500C (zh) 2009-03-25
CN1151488C (zh) 2004-05-26
CA2345660A1 (en) 2000-04-13
JP4171585B2 (ja) 2008-10-22
WO2000020962A3 (en) 2000-07-13
CN1342290A (zh) 2002-03-27
US7418382B1 (en) 2008-08-26
KR20010075552A (ko) 2001-08-09
JP3703082B2 (ja) 2005-10-05
CN1321295A (zh) 2001-11-07
JP2002526855A (ja) 2002-08-20
KR100459299B1 (ko) 2004-12-03
ATE383640T1 (de) 2008-01-15
DE69937962D1 (de) 2008-02-21
EP1125277A4 (de) 2002-02-20
IL142363A0 (en) 2002-03-10
KR20010073105A (ko) 2001-07-31
WO2000021232A2 (en) 2000-04-13
EP1125277A1 (de) 2001-08-22
WO2000021073A1 (en) 2000-04-13
IL142366A0 (en) 2002-03-10
CN1323435A (zh) 2001-11-21
CA2345665A1 (en) 2000-04-13
KR100620826B1 (ko) 2006-09-13
US7729916B2 (en) 2010-06-01
JP2002527800A (ja) 2002-08-27
US20070043574A1 (en) 2007-02-22
KR100430953B1 (ko) 2004-05-12
JP2003525477A (ja) 2003-08-26
EP1133734A4 (de) 2005-12-14
CA2345662A1 (en) 2000-04-13
CA2345660C (en) 2006-01-31
US20090313026A1 (en) 2009-12-17
KR20010085878A (ko) 2001-09-07
US8082153B2 (en) 2011-12-20
EP1125279A4 (de) 2005-02-23

Similar Documents

Publication Publication Date Title
DE69937962T2 (de) Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten
US9761241B2 (en) System and method for providing network coordinated conversational services
KR101683944B1 (ko) 음성번역 시스템, 제어장치, 및 제어방법
US6240448B1 (en) Method and system for audio access to information in a wide area computer network
CN1333385C (zh) 用于通信系统的语音浏览器启用器
CN103345467B (zh) 语音翻译系统
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
DE602004010807T2 (de) Techniken zur bereitstellung eines virtuellen arbeitsraums, bestehend aus einer vielzahl elektronischer einrichtungen
KR101901920B1 (ko) 인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법
DE602004011109T2 (de) Verfahren und system zum senden von sprachnachrichten
DE60201939T2 (de) Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System
DE112017000142T5 (de) Multimodale übertragung von paketierten daten
DE102011107983A1 (de) System und Verfahren zum Anzeigen einer Schlagwortgeschichte eines Medienereignisses
DE102011118780A1 (de) Verfahren und system für das erzeugen einerzusammenarbeitszeitachse, die anwendungsartefakte im kontext illustriert
DE112017000104T5 (de) Sequenzabhängige datennachrichtenkonsolidierung in einer sprachaktivierten computernetzwerkumgebung
CN111177338A (zh) 一种基于上下文的多轮对话方法
DE60123153T2 (de) Sprachgesteuertes Browsersystem
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
CN110232553A (zh) 会议支援系统以及计算机可读取的记录介质
DE10208295A1 (de) Verfahren zum Betrieb eines Sprach-Dialogsystems
DE102015212650B4 (de) Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe
DE202017105695U1 (de) Hierarchische Annotation von Dialogakten
CN114582314B (zh) 基于asr的人机音视频交互逻辑模型设计方法
DE102021130318A1 (de) System, Benutzerendgerät und Verfahren zum Bereitstellen eines automatischen Interpretationsdienstes auf der Grundlage einer Sprechertrennung
DE102019127983A1 (de) Verfahren zur Sprachkommunikation und Sprachkommunikationssystem

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN