DE69937962T2 - Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten - Google Patents
Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten Download PDFInfo
- Publication number
- DE69937962T2 DE69937962T2 DE69937962T DE69937962T DE69937962T2 DE 69937962 T2 DE69937962 T2 DE 69937962T2 DE 69937962 T DE69937962 T DE 69937962T DE 69937962 T DE69937962 T DE 69937962T DE 69937962 T2 DE69937962 T2 DE 69937962T2
- Authority
- DE
- Germany
- Prior art keywords
- conversation
- network
- local
- resources
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000006243 chemical reaction Methods 0.000 title 1
- 238000012545 processing Methods 0.000 claims abstract description 54
- 230000005540 biological transmission Effects 0.000 claims description 17
- 230000006835 compression Effects 0.000 claims description 16
- 238000007906 compression Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 10
- 230000006837 decompression Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000002269 spontaneous effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 37
- 238000007726 management method Methods 0.000 description 10
- 239000008186 active pharmaceutical agent Substances 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000006855 networking Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000014616 translation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 240000004713 Pisum sativum Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282668 Cebus Species 0.000 description 1
- 241000408659 Darpa Species 0.000 description 1
- 235000010582 Pisum sativum Nutrition 0.000 description 1
- 235000016816 Pisum sativum subsp sativum Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G06Q50/40—
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72445—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/35—Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
- H04M2203/355—Interactive dialogue design tools, features or methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42204—Arrangements at the exchange for service or number selection by voice
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/44—Additional connecting arrangements for providing access to frequently-wanted subscribers, e.g. abbreviated dialling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
Description
- HINTERGRUND
- 1. Technisches Gebiet
- Die vorliegende Anmeldung betrifft im Allgemeinen Konversationssysteme und insbesondere ein System und ein Verfahren zur automatischen und koordinierten gemeinsamen Nutzung von Konversationsfunktionen/-ressourcen zwischen Einheiten, Servern und Anwendungen, die mit einem Netzwerk verbunden sind.
- 2. Beschreibung der verwandten Technik
- Herkömmliche Konversationssysteme (d. h. Systeme mit reiner Spracheingabe/-ausgabe oder Mehrmodensysteme mit Spracheingabe/-ausgabe) sind typischerweise auf Personal Computer (PCs) und lokale Rechner, die eine geeignete Architektur und eine ausreichende Verarbeitungsleistung besitzen, beschränkt. Für Telefonanwendungen sind Konversationssysteme dagegen typischerweise bei einem Server (z. B. der IVR-Server) angeordnet, und auf sie kann über herkömmliche oder Zellentelefone zugegriffen werden. Obwohl derartige herkömmliche Systeme immer populärer werden, wird typischerweise die gesamte herkömmliche Verarbeitung entweder beim Client oder beim Server ausgeführt (d. h., alle Konfigurationen erfolgen entweder vollständig lokal oder vollständig beim Client/Server). Ein Beispiel ist im Dokument
EP-A-450 610 - Angesichts der mittlerweile weltweit verbreiteten Datenverarbeitung wird erwartet, dass Milliarden von Client-Einheiten mit geringen Ressourcen (z. B. PDAs, Smartphones usw.) untereinander vernetzt werden. Infolge der abnehmenden Größe dieser Client-Einheiten und der zunehmenden Komplexität ihrer Aufgaben, deren Ausführung der Benutzer von diesen Einheiten erwartet, wird die Benutzerschnittstelle (UI) ein kritisches Problem, da herkömmliche grafische Benutzeroberflächen (GUI) bei derartigen kleinen Client-Einheiten nicht möglich wären. Aus diesem Grund wird erwartet, dass Konversationssysteme das wesentliche Element der Benutzerschnittstelle sein werden, um reine Sprach-/Audiosignal-Eingabe/Ausgabeeinheiten oder Mehrmoden-Eingabe-/Ausgabeeinheiten mit Sprach-/Audiosignal-Eingaben/Ausgaben zu schaffen.
- Demzufolge werden Konversationsanwendungen mit eingebetteter Sprachverarbeitung in tragbaren Client-Einheiten entwickelt und erreichen Serienreife. Wegen eingeschränkter Ressourcen ist leider zu erwarten, dass derartige Client-Einheiten keine komplexen Konversationsdienste wie z. B. Spracherkennung (insbesondere dann, wenn die Wortschatzgröße umfangreich oder spezialisiert ist oder domänenspezifische/anwendungsspezifische Sprachmodelle oder Grammatik benötigt werden), NLU (Verstehen natürlicher Sprache), NLG (Erzeugen natürlicher Sprache), TTS (Text-zu-Sprache-Synthese), Audioerfassungs- und Kompression-/Dekompression, Wiedergabe, Dialogerzeugung, Dialogverwaltung, Sprechererkennung, Themengebiet-Erkennung, Audio-/Multimedia- Indexierung und Suche usw. ausführen können. Die Einschränkungen bei Speicher und CPU (und anderen Ressourcen) einer Einheit können die Konversationsmöglichkeiten, die diese Einheit bieten kann, begrenzen.
- Selbst wenn eine vernetzte Einheit in ausreichendem Maße "leistungsfähig" ist (in Bezug auf CPU und Speicher), um sämtliche Konversationsaufgaben auszuführen, kann die Einheit darüber hinaus nicht die geeigneten Konversationsressourcen (z. B. Maschinen) oder Konversationsargumente (d. h. die Dateien, die von den Maschinen verwendet werden) (wie etwa Grammatikdateien, Sprachmodelle, Vokabulardateien, Analysedateien, Kennzeichnungen, Stimmenausdrucke, TTS-Regeln usw.) haben, um die geeignete Aufgabe auszuführen. Stattdessen können einige Konversationsfunktionen für einen bestimmten Dienst zu spezifisch und eigen sein, wodurch sie nachgeordnete Informationen erfordern, die nur von anderen Einheiten oder Maschinen im Netzwerk zur Verfügung stehen. NLU- und NLG-Dienste bei einer Client-Einheit erfordern z. B. typischerweise eine serverseitige Unterstützung, da die vollständige Gruppe von Konversationsargumenten oder Funktionen, die zum Erzeugen des Dialogs benötigt werden (z. B. Parser, Kennzeichnungseinrichtung, Übersetzer usw.), entweder einen großen Speicherumfang zum Speichern (steht in den Client-Einheiten nicht zur Verfügung) erfordern oder zu teuer sind (in Bezug auf Kommunikationsbandbreite) für eine Übertragung zur Client-Seite. Dieses Problem wird bei mehrspracheigen Anwendungen noch weiter verstärkt, wenn eine Client-Einheit oder eine lokale Anwendung einen unzureichenden Speicher oder eine unzureichende Verarbeitungsleistung hat, um die Argumente zu speichern und zu verarbeiten, die zum Verarbeiten von Sprache und zum Ausführen von Konversationsfunktionen in mehreren Sprachen benötigt werden. Der Benutzer muss sich stattdessen mit einem entfernten Server verbinden, um derartige Aufgaben auszuführen.
- Außerdem erfordern die Probleme, die mit einer verteilten Architektur und einer verteilten Verarbeitung zwischen Client und Servern verbunden sind, neue Verfahren für eine Konversationsvernetzung. Derartige Verfahren umfassen die Verwaltung von Verkehr und Ressourcen, die über das Netzwerk verteilt sind, um einen geeigneten Dialogfluss für alle Benutzer, die an einer Konversationswechselwirkung über das Netzwerk beteiligt sind, zu gewährleisten.
- Demzufolge sind ein System und ein Verfahren höchst erwünscht, die ermöglichen, dass eine Netzwerkeinheit mit eingeschränkten Ressourcen komplexe spezifische Konversationsaufgaben unter Verwendung von vernetzten Ressourcen in einer Weise automatisch ausführt, die für einen Benutzer automatisch und transparent ist.
- ZUSAMMENFASSUNG DER ERFINDUNG
- Die vorliegende Erfindung betrifft ein System und ein Verfahren zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen zwischen Servern, die mit einem Netzwerk verbunden sind, und Einheiten (und ihren entsprechenden Anwendungen). Ein System gemäß einer Ausführungsform der vorliegenden Erfindung umfasst eine Vielzahl von vernetzten Servern, Einheiten und/oder Anwendungen, die durch den Austausch von Nachrichten unter Verwendung von Konversationsnetzwerkprotokollen (oder Verfahren), die es jeder auf Konversation ausgerichteten Netzwerkeinheit ermöglichen, Konversationsressourcen automatisch sowie koordiniert und synchron gemeinsam zu nutzen, um eine nahtlose Konversationsschnittstelle durch eine Schnittstelle einer der Netzwerkeinheiten zu schaffen, gegenseitig "auf Konversation ausgerichtet" werden. Die Erfindung ist in den Ansprüchen 1, 12, 13 und 19 dargestellt.
- Gemäß einem Aspekt der vorliegenden Erfindung umfasst ein System zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen:
ein Netzwerk, das wenigstens eine erste Netzwerkeinheit und eine zweite Netzwerkeinheit umfasst;
wobei die erste Netzwerkeinheit und die zweite Netzwerkeinheit jeweils Folgendes umfassen:
eine Gruppe von Konversationsressourcen;
einen Dialogmanager für das Verwalten einer Konversation und zum Ausführen von Anrufen, die einen Konversationsdienst anfordern; und
ein Kommunikationspaket zum Übermitteln von Nachrichten unter Verwendung von Konversationsprotokollen über das Netzwerk, wobei die durch die Konversationsprotokolle übermittelten Nachrichten eine koordinierte Netzwerkkommunikation zwischen den Dialogmanagern der ersten und der zweiten Einheit herstellen, um die Gruppe von Konversationsressourcen der ersten und der zweiten Netzwerkeinheit automatisch gemeinsam zu nutzen, um gegebenenfalls ihren entsprechenden angeforderten Konversationsdienst auszuführen. - Die vorliegende Erfindung ermöglicht, dass eine Client-Einheit mit geringen Ressourcen lokal einfache Aufgaben sowie komplexe Aufgaben in binärer oder analoger Verbindung mit einem Server (oder einer anderen Einheit), der komplexere Konversationsmöglichkeiten besitzt, transparent ausführt. Die serverseitigen Funktionen (wie z. B. Spracherkennung) können durch ein normales IP-Netzwerk oder ein LAN-Netzwerk sowie mittels einer digitalen Übertragung über eine herkömmliche Telefonleitung oder ein paketvermitteltes Netzwerk oder über ein beliebiges herkömmliches drahtloses Datenprotokoll über ein Drahtlos-Netzwerk ausgeführt werden.
- Die vorliegende Erfindung bietet vorteilhaft eine vollwertige Konversations-Benutzerschnittstelle bei einer beliebigen Einheit (wie z. B. eine überall vorhandene eingebettete Einheit) mit eingeschränkten CPU-, Speicher- und Leistungsmöglichkeiten (sowie eingeschränkten Konversationsressourcen), die komplexe Konversationsdienste unter Verwendung einer Client-Einheit mit geringen Ressourcen bereitstellt ohne die Notwendigkeit, z. B. die benötigten Konversationsargumente von einem Netzserver herunterzuladen. Die lokalen Möglichkeiten ermöglichen dem Benutzer, die lokale Einheit zu nutzen, ohne dass eine Verbindung erforderlich ist, z. B. außerhalb des Versorgungsgebiets eines Anbieters eines Drahtlos-Telefons. Außerdem sind die Kosten einer Standleitungsverbindung geringer und die Schwierigkeiten der Wiederherstellung, wenn derartige Standleitungsverbindungen verloren gehen, können gemindert werden.
- Diese sowie weitere Aspekte, Merkmale und Vorteile der vorliegenden Erfindung werden beschrieben und werden aus der folgenden Beschreibung bevorzugter Ausführungsformen deutlich, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist.
- KURZBESCHREIBUNG DER ZEICHNUNGEN
-
1 ist ein Übersichtsschaubild eines Systems zum Bereitstellen von Konversationsdiensten über eine automatische und koordinierte Nutzung von Konversationsressourcen zwischen vernetzten Einheiten gemäß einer Ausführungsform der vorliegenden Erfindung; -
2 ist ein Ablaufplan eines Verfahrens zum Bereitstellen von Konversationsdiensten über eine automatische und koordinierte Nutzung von Konversationsressourcen zwischen vernetzten Einheiten gemäß einem Aspekt der vorliegenden Erfindung; -
3 ist ein Ablaufplan eines Verfahrens zum Bereitstellen von Konversationsdiensten über eine automatische und koordinierte Nutzung von Konversationsressourcen zwischen vernetzten Einheiten gemäß einem weiteren Aspekt der vorliegenden Erfindung; -
4 ist ein Übersichtsschaubild eines verteilten Systems zum Bereitstellen von Konversationsdiensten gemäß einer weiteren Ausführungsform der vorliegenden Erfindung, die einen herkömmlichen Browser verwendet; und -
5 ist ein Übersichtsschaubild eines verteilten Systems zum Bereitstellen von Konversationsdiensten gemäß einer weiteren Ausführungsform der vorliegenden Erfindung, die einen herkömmlichen Browser verwendet. - GENAUE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
- Es ist klar, dass die vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware, speziellen Prozessoren oder einer Kombination hiervon realisiert werden kann. Die vorliegende Erfindung wird vorzugsweise in Software als eine Anwendung realisiert, die Programmbefehle umfasst, die körperlich auf einer Programmspeichereinrichtung (z. B. magnetische Diskette, RAM, CD-ROM, ROM und Flash-Speicher) enthalten und durch irgendeine Einheit oder Maschine, die eine geeignete Architektur wie etwa eine oder mehrere zentrale Verarbeitungseinheiten (CPU), einen Arbeitsspeicher (RAM) und eine (oder mehrere) Audiosignal-Eingabe/Ausgabe-(E/A-)Schnittstellen umfasst.
- Es sollte ferner klar sein, dass sich die tatsächlichen Verbindungen zwischen den Systemkomponenten (oder den Prozessschritten) in Abhängigkeit von der Programmierung der vorliegenden Erfindung unterscheiden können, da einige der das System bildenden Komponenten und Verfahrensschritte, die in den beigefügten Figuren dargestellt sind, vorzugsweise in Software realisiert sind. Mit den hier angegebenen Lehren ist ein Fachmann in der Lage, diese sowie weitere Realisierungsmöglichkeiten oder Konfigurationen der vorliegenden Erfindung vorzusehen.
- In
1 veranschaulicht ein Übersichtsschaubild ein System zum Bereitstellen von Konversationsdiensten durch die automatische und koordinierte gemeinsame Nutzung von Konversationsressourcen und Konversationsargumenten (Datendateien) zwischen vernetzten Einheiten gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung. Das System umfasst eine lokale Client-Einheit100 , die eine akustische Eingangsstufe101 zum Verarbeiten von Tonsignal-/Spracheingaben und zum Ausgeben von Tonsignalen/Sprache, die durch die Client-Einheit100 erzeugt werden, umfasst. Die Client-Einheit100 kann z. B. ein Smartphone oder irgendein sprachaktiver PDA (persönlicher digitaler Assistent) sein. Die Client-Einheit100 umfasst ferner eine oder mehrere lokale Konversationsmaschinen102 zum Verarbeiten der akustischen Merkmale und/oder Signalformen, die von der akustischen Eingangsstufe101 erzeugt und/oder aufgenommen werden, und zum Erzeugen eines Dialogs für die Ausgabe an den Benutzer. Die lokale Konversationsmaschine102 kann z. B. eine eingebettete Spracherkennung, eine Sprechererkennungsmaschine, eine TTS-Maschine, eine NLU- und eine NLG-Maschine und eine Tonsignal-Aufnahme- und Kompressions-/Dekompressionsmaschine sowie einen beliebigen weiteren Typ der Konversationsmaschine enthalten. - Die Client-Einheit
100 umfasst ferner einen lokalen Dialogmanager103 , der eine Aufgabenverwaltung ausführt und die Ausführung eines Konversationsdienstes, der über einen Systemanruf angefordert wird, (entweder lokal oder über eine Netzwerkeinheit) steuert und koordiniert sowie den Dialog lokal und mit vernetzten Einheiten verwaltet. Wie im Folgenden genauer erläutert wird, ermittelt der Dialogverwalter103 , ob ein bestimmter Konversationsdienst verarbeitet werden soll und lokal bei dem Client100 oder bei einem entfernten mit dem Netzwerk verbundenen Server (oder Einheit) ausgeführt werden soll. Diese Bestimmung beruht auf Faktoren wie etwa den Konversationsmöglichkeiten des Client100 im Vergleich zu den Möglichkeiten der anderen vernetzten Einheiten sowie der verfügbaren Ressourcen und der Konversationsargumente, die zum Verarbeiten eines angeforderten Konversationsdienstes erforderlich sein können. Zu weiteren Funktionen gehören Netzwerkverkehr und erwartete Verzögerungen beim Empfangen von Ergebnissen von vernetzten Einheiten. Der Dialogmanager103 führt eine Aufgabenverwaltung und Aufgaben der Ressourcenverwaltung wie etwa eine Lastverwaltung und eine Ressourcenzuweisung sowie das Verwalten des Dialogs zwischen den lokalen Konversationsmaschinen102 und sprachfähigen lokalen Anwendungen104 aus. - Wie in
1 beispielhaft gezeigt ist, ist die Client-Einheit100 über das Netzwerk105 mit einem Server106 , der Serveranwendungen109 enthält, sowie mit Server-Konversationsmaschinen107 , die gegebenenfalls Konversationsdienste für die Client-Einheit100 (oder eine beliebige andere Netzwerkeinheit oder Anwendung) bereitstellen, vernetzt. Wie bei den lokalen Maschinen102 können die Servermaschinen107 z. B. eine eingebettete Spracherkennung, eine TTS-Maschine, eine NLU- und NLG-Maschine, eine Audioaufnahme- und Kompressions-/Dekompressionsmaschine sowie einen beliebigen anderen Typ der Konversationsmaschine enthalten. Der Server106 umfasst einen Server-Dialogmanager108 , der in ähnlicher Weise wie der oben beschriebene lokale Dialogmanager103 arbeitet. Der Server-Dialogmanager108 stellt z. B. fest, ob eine Anforderung eines Konversationsdiensts von dem lokalen Dialogmanager103 durch den Server106 oder an einem anderen entfernten vernetzten Server oder einer anderen Einheit verarbeitet und ausgeführt werden soll. Der Server-Dialogmanager108 verwaltet außerdem den Dialog zwischen den Server-Konversationsmaschinen107 und den sprachfähigen Server-Anwendungen109 . - Das System von
1 veranschaulicht des Weiteren die Client-Einheit100 und den entfernten Server106 , der mit einem Server110 vernetzt ist, der Konversationsmaschinen und/oder Konversationsargumente aufweist, auf die durch den Client100 und den Server106 bei Bedarf zugegriffen werden kann. Bei dem Netzwerk105 kann es sich z. B. um das Internet, ein LAN (lokales Netzwerk) und ein privates Netzwerk sowie ein PSTN (öffentliches Fernsprechwählnetz) oder ein Drahtlos-Netzwerk (für eine drahtlose Datenübertragung über HF (Hochfrequenz) oder IR (Infrarot)) handeln. Obwohl1 ein Client/Server-System darstellt, ist klar, dass dieser Ausdruck von einem Fachmann in der Weise zu verstehen ist, dass das System von1 eine Vielzahl von Netzwerkservern, Einheiten und Anwendungen enthalten kann, die untereinander "auf Konversation ausgerichtet" sind, um eine automatische und koordinierte gemeinsame Nutzung von Konversationsfunktionen, -argumenten und -ressourcen bereitzustellen. Wie im Folgenden genauer erläutert wird, kann eine derartige "Ausrichtung auf Konversation" unter Verwendung von Konversationsnetzwerkprotokollen (oder -verfahren) erreicht werden, um Nachrichten zu übertragen, die durch die entsprechenden Dialogmanager verarbeitet werden, um zu ermöglichen, dass die vernetzten Einheiten Konversationsressourcen und -funktionen automatisch und synchron gemeinsam nutzen. Eine derartige Konversationskoordination schafft eine nahtlose Konversationsschnittstelle für den Zugriff auf entfernte Server, Einheiten und Anwendungen über die Schnittstelle einer Netzwerkeinheit. - Um eine Konversationskoordination zwischen den vernetzten Einheiten zu schaffen, damit sie ihre Konversationsfunktionen, -ressourcen und -argumente gemeinsam nutzen, überträgt insbesondere jede der vernetzten Einheiten Nachrichten unter Verwendung von Konversationsprotokollen (oder -verfahren), um Informationen in Bezug auf ihre Konversationsmöglichkeiten und -anforderungen auszutauschen. Wie in
1 gezeigt ist, umfasst z. B. die Client-Einheit100 ein Kommunikationspaket111 zum Senden und Empfangen von Nachrichten unter Verwendung von Konversationsprotokollen112 , Konversationsermittlungs-, -registrierungs- und -verhandlungsprotokollen113 und Sprachübertragungsprotokollen114 (oder Konversationscodierungsprotokollen). Der Server106 umfasst gleichfalls ein Server-Kommunikationspaket115 , das Konversationsprotokolle116 , Konversationsermittlungs-, -registrierungs- und -verhandlungsprotokolle117 und Sprachübertragungsprotokolle118 umfasst. Diese Protokolle (Verfahren) werden in Bezug auf eine CVM (virtuelle Konversationsmaschine) in der Patentanmeldung von IBM mit dem Aktenzeichen YO999-111P genau erläutert, die mit dem Titel "Conversational Computing Via Conversational Virtual Machine" gleichzeitig mit dieser Patentanmeldung eingereicht, gemeinsam übertragen und alsUS-B-7 137 126 veröffentlicht wurde. - Kurz gesagt, die Konversationsprotokolle
112 ,116 (oder das, was in YO999-111P als "verteilte Konversationsprotokolle" bezeichnet wird) sind Protokolle (oder Verfahren), die ermöglichen, dass die vernetzten Einheiten (z. B. Client100 und Server106 ) oder Anwendungen Nachrichten zum Registrieren ihres Konversationszustands, der Argumente und des Kontexts bei den Dialogmanagern anderer Netzwerkeinheiten senden. Die Konversationsprotokolle112 ,116 ermöglichen außerdem, dass die Einheiten andere Informationen austauschen wie z. B. Applets, ActiveX-Komponenten und anderen ausführbaren Code, die ermöglichen, dass die Einheiten oder zugeordnete Anwendungen eine Konversation zwischen derartigen Einheiten z. B. in einer Master/Slave- oder Peer-zu-Peer-Konversationsnetzwerk-Konfiguration austauschen. Die verteilten Konversationsprotokolle112 ,116 ermöglichen den Austausch von Informationen, um die Konversation unter Beteiligung mehrerer Einheiten und Anwendungen, die ein Master/Slave-Konversationsnetzwerk, Peer-Konversationsnetzwerk und stille Partner enthalten, zu koordinieren. Die Informationen, die unter Verwendung der verteilten Konversationsprotokolle zwischen vernetzten Einheiten ausgetauscht werden können, umfassen Zeiger auf Datendateien (Argumente), (gegebenenfalls) Übertragungen von Datendateien und anderen Konversationsargumenten, Benachrichtigung über Eingabe-/Ausgabeereignisse und Erkennungsergebnisse, Konversationsmaschinen-API-Anrufe und Ergebnisse, Benachrichtigung über den Zustand und Kontextänderungen und andere Systemereignisse, Registrierungsaktualisierungen: Quittung für Registrierung, Verhandlungsaktualisierungen: Quittung für Verhandlungen und Feststellungsaktualisierungen, wenn eine angeforderte Ressource verloren gegangen ist. - Die (verteilten) Konversationsprotokolle umfassen außerdem Dialogmanagerprotokolle (DM-Protokolle), die es dem Dialogmanager ermöglichen, Dienste, Verhaltens- und Konversationsanwendungen, E/A- und Maschinen-APIs, die z. B. im Dokument von IBM mit dem Aktenzeichen Y0999-111P beschrieben sind, zu verteilen. Das DM-Protokoll ermöglicht z. B. den Austausch folgender Informationen: (1) DM-Architekturregistrierung (z. B. jeder DM kann eine Sammlung lokaler DMs sein); (2) Zeiger auf zugehörige Metainformationen (Benutzer, Fähigkeiten der Einheiten, Erfordernisse der Anwendungen usw.); (3) Verhandlungen der DM-Netzwerktopologie (z. B. Master/Slave, Peer-zu-Peer); (4) gegebenenfalls Datendateien (Konversationsargumente), d. h., wenn Maschinen verwendet werden, die durch einen Master-DM gesteuert werden; (5) Benachrichtigungen über E/A-Ereignisse wie z. B. Benutzer-Eingaben/Ausgaben an Benutzer zur Übertragung an Maschinen und/oder zusätzlich zu Kontexten; (6) Benachrichtigungen über Erkennungsereignisse; (7) Übertragung einer verarbeiteten Eingabe an einen Master-DM; (8) Übertragung der Verantwortlichkeit des Master-DM an registrierte DMs; (9) DM-Verarbeitungsergebnis-Ereignisse; (10) DM-Erwartungen; (11) Übertragung von Vertraulichkeits- und Mehrdeutigkeitsergebnissen, vorgeschlagene Rückmeldung und Ausgabe, vorgeschlagener Erwartungszustand, vorgeschlagene Aktion, vorgeschlagene Kontextänderungen, vorgeschlagener neuer Dialogzustand; (12) Entscheidungsbenachrichtigung, Kontextaktualisierung, Aktionsaktualisierung, Zustandsaktualisierung usw.; (13) Benachrichtigung über abgeschlossene, fehlgeschlagene oder unterbrochene Aktionen; (14) Benachrichtigung über Kontextänderungen; und/oder (15) Datendateien, Kontext- und Zustandsaktualisierungen infolge einer Aktion.
- Bei einer Master/Slave-Netzwerkkonfiguration steuert z. B. lediglich eine der vernetzten Einheiten die Konversation zu einem Zeitpunkt. Im Einzelnen verwaltet und koordiniert die Master-Einheit (d. h. der Dialogmanager der Master-Einheit) die Konversation zwischen den Netzwerkeinheiten und entscheidet, an welche Einheit ein vorgegebener Konversationsdienst oder eine vorgegebene Konversationsfunktion vergeben wird. Diese Entscheidung kann auf Informationen beruhen, die durch jede der Einheiten oder Anwendungen in Bezug auf ihre Konversationsfähigkeiten bereitgestellt werden. Diese Entscheidung kann außerdem auf dem Master beruhen, der festlegt, welche Slave-Einheit (mit den erforderlichen Konversationsfähigkeiten) die vorgegebene Konversationsfunktion am besten ausführen kann. Der Master kann z. B. eine Vielzahl von Slaves anfordern, um eine Spracherkennung auszuführen und die Ergebnisse an den Master bereitzustellen. Der Master kann dann die optimalen Ergebnisse auswählen. Es ist klar, dass es sich hier bei dem auf der Ebene der Spracherkennung Beschriebenen um den Mechanismus auf der Ebene der DM-Protokolle (Dialogmanager-Protokolle) zwischen verteilten Dialogmanagern handeln kann (wie in Y0999-111P beschrieben ist). In der Tat wird der Master dann, wenn ein Dialog zwischen mehreren Dialogmanagern auftritt, eine Maßzahl der Bewertung der Ergebnisse jedes Dialogmanagers erhalten, und es erfolgt eine dementsprechende Entscheidung, um festzustellen, welcher Dialogmanager mit der Eingabe weitermacht, und zwar nicht nur auf der Grundlage der Genauigkeit der Spracherkennung, sondern anhand des Dialogs (Bedeutung), des Kontexts und der Vorgeschichte (sowie weiterer Elemente, die berücksichtigt werden wie z. B. Präferenzen des Benutzers, die Vorgeschichte und Präferenzen der Anwendung).
- Bei Peer-zu-Peer-Verbindungen versucht jede Einheit die Funktionen zu bestimmen, die sie ausführen kann, und zeichnet eine Anforderung auf, dies zu tun. Die Einheit, die die Aufgabe akzeptiert hat, wird diese Aufgabe ausführen und anschließend ihre Leistungsfähigkeit bewerten. Die Einheiten verhandeln dann anhand ihrer Bewertungszahlen, welche Einheit die Aufgabe ausführt.
- In einer Ausführungsform werden die verteilten Konversationsprotokolle
112 ,116 über RMI-(Fernverfahrensaufruf) oder RPC-(Fernprozeduranruf) Systemanrufe realisiert, um die Anrufe zwischen den Anwendungen und den unterschiedlichen Konversationsmaschinen über das Netzwerk zu realisieren. Wie in der Technik bekannt ist, ist RPC ein Protokoll, das ermöglicht, dass eine Anwendung einen Dienst von einer anderen Anwendung über das Netzwerk anfordert. Gleichfalls ist RMI ein Verfahren, durch welches Objekte in einem verteilten Netzwerk in Wechselwirkung treten können. RMI ermöglicht, dass ein oder mehrere Objekte zusammen mit der Anforderung übergeben werden können. Außerdem können die Informationen in einem Objekt gespeichert werden, das über CORBA oder DCOM ausgetauscht wird, oder erklärend dargestellt werden (wie z. B. über XML). Wie in der oben eingeschlossenen Patentanmeldung von IBM mit dem Aktenzeichen YO999-111P erläutert wurde, können Konversationsprotokolle (Verfahren) (oder die verteilten Protokolle) verwendet werden, um eine verteilte Realisierung der Konversationsfunktionen, die durch ein CVM-Gerüst unterstützt werden, zwischen Konversationsanwendungen und dem CVM-Gerüst über APIs oder zwischen der CVM und Konversationsmaschinen über Konversationsmaschinen-APIs zu erreichen. Die Konversationsmaschinen-APIs sind Schnittstellen zwischen den Kernmaschinen und Anwendungen, die sie benutzen, und Protokollen, um mit (lokalen oder vernetzten) Kernmaschinen Daten auszutauschen. Die Konversations-APIs stellen eine API-Schicht bereit, um auf Konversation gerichtete Anwendungen einzubinden oder zu entwickeln, die Basisklassen und Komponenten zum Bilden von Konversationsbenutzerschnittstellen enthalten. - Ein Dialogmanager gemäß der vorliegenden Erfindung kann gleichfalls über APIs mit Anwendungen und (lokalen oder vernetzten) Maschinen Daten austauschen. Auf diese Weise kann ein Dialogmanager auf die Ergebnisse und die Rückrufe von allen entfernten Prozeduren (Prozeduranrufe an entfernte Maschinen und Anwendungen) reagieren, als ob es sich um eine lokale Anwendung handelt, um z. B. zwischen den Anwendungen und (lokalen oder vernetzten) Ressourcen zu entscheiden, um der aktiven Anwendung Priorität zuzuweisen und die aktive Anwendung zu ermitteln und um festzulegen, welches Ergebnis als aktiv betrachtet werden soll.
- Die Konversationsfeststellungs-, Registrierungs- und Verhandlungsprotokolle
113 ,117 sind Netzwerkprotokolle (oder -verfahren), die verwendet werden, um lokale oder vernetzte auf Konversation gerichtete Systeme (d. h. Anwendungen oder Einheiten, die Konversationsprotokolle "sprechen"). Die Registrierungsprotokolle ermöglichen Einheiten oder Anwendungen, ihre Konversationsfähigkeiten, ihren Zustand und ihre Argumente zu registrieren. Die Verhandlungsprotokolle ermöglichen, dass Einheiten über Master/Slave-, Peer-zu-Peer- oder Netzwerke mit stillem Partner verhandeln. - In einer Ausführungsform realisieren die Feststellungsprotokolle einen Lösungsansatz "Rundsenden und Hören", um eine Reaktion von anderen Einheiten des Typs "Rundsenden und Hören" auszulösen. Dies kann z. B. die Erzeugung von dynamischen und spontanen Netzwerken (wie z. B. Bluetooth- und Hopping-Netzwerke, die später erläutert werden) ermöglichen. In einer weiteren Ausführungsform kann eine Standardservereinstellung (möglicherweise der Master) verwendet werden, die die "Adresse" der unterschiedlichen Netzwerkeinheiten registriert. In dieser Ausführungsform beläuft sich die Feststellung auf alle Einheiten im Netzwerk, die mit dem Server Daten austauschen, um die Liste von registrierten Einheiten zu prüfen, um zu ermitteln, welche Einheiten mit derartigen Einheiten verbunden sind. Die Informationen, die über die Feststellungsprotokolle übertragen werden, umfassen das Folgende: (1) Rundsendeanforderungen zur Quittierung oder zum Lauschen auf Anforderungen; (2) Austausch von Einheitenkennungen; (3) Austausch von Kennziffern/Zeigern zur ersten Registrierung; und (4) Austausch von Kennziffern zur ersten Verhandlung.
- In einer Ausführungsform zum Realisieren der Registrierungsprotokolle können die Einheiten bei einer Verbindung Informationen über ihre Konversationsfähigkeiten mit einem im Voraus eingerichteten Protokoll (z. B. TTS-English, beliebiger Text, Spracherkennung, 500 Wörter + FSG-Grammatik, keine Sprechererkennung usw.) austauschen, indem eine Gruppe von Merkern oder ein Einheiteneigenschaftsobjekt ausgetauscht wird. Anwendungen können gleichfalls Maschinenanforderungslisten austauschen. Bei einer Master/Slave-Netzwerkkonfiguration kann der Master-Dialogmanager sämtliche Listen kompilieren und die Funktionen und Erfordernissen mit den Konversationsfähigkeiten in Übereinstimmung bringen. Beim Fehlen einer Master-Einheit (Dialogmanagers) kann ein gemeinsamer Server verwendet werden, um die Konversationsinformationen an alle Maschinen oder Einheiten im Netzwerk zu übertragen. Die Registrierungsprotokolle ermöglichen der Austausch folgender Informationen: (1) Fähigkeiten und Belastungsnachrichten, einschließlich Definition und Aktualisierungsereignisse; (2) Maschinenressourcen (ob eine vorhandene Einheit NLU, DM, NLG, TTS, Sprechererkennung, Spracherkennung, Kompression, Codierung, Speicherung usw. enthält); (3) E/A-Fähigkeiten; (4) CPU-, Speicher- und Belastungsfähigkeiten; (5) Datendateitypen (domänenspezifisch, Wörterbuch, Sprachmodelle, Sprachen usw.); (6) Netzwerkadressen und Merkmale; (7) Informationen über einen Benutzer (Definition und Aktualisierungsereignisse); (8) Benutzerpräferenzen für die Einheit, Anwendung oder Dialog; (9) kundenspezifische Anpassung; (10) Benutzererfahrung; (11) Hilfe; (12) Fähigkeitsanforderungen pro Anwendung (und Anwendungszustand) (Definition und Aktualisierungsereignisse); (13) Metainformationen für CUI-Dienste und Verhaltensweisen (Hilfedateien, Kategorien, Konversationsprioritäten usw.) (Definition und Aktualisierungsereignisse, typischerweise über Zeiger auf eine Tabelle); (14) Protokollquittungen; und/oder (15) Topologieverhandlungen.
- Eine Registrierung kann unter Verwendung eines herkömmlichen Kommunikationsprotokolls wie z. B. TCP/IP, TCP/IP 29, X-10 oder CEBus und einer Basiskommunikation zwischen Einheiten ausgeführt werden. Die Einheiten verwenden eine verteilte Konversationsarchitektur, um ihre Konversationsargumente (z. B. aktives Vokabular, Grammatik- und Sprachmodelle, Analyse- und Übersetzungs-/Identifizierungsmodelle, Sprachausdrücke, Syntheseregeln, Grundformen (Ausspracheregeln) und Spracharten) mit ihrer zugeordneten Konversationsmaschine und dem Dialogmanager auszutauschen. Diese Informationen werden entweder als Dateien oder Datenströme zu dem Dialogmanager und dem Konversationsmaschinen oder als URLs geleitet. Außerdem können Kontextinformationen übertragen werden, indem das Weiterleiten oder Zeigen auf das Kontextpaket/die Vorgeschichte der Einheit oder der Anwendung, auf die die Steuereinheit zugreifen kann, angegeben wird und ihrem Kontextpaket hinzugefügt wird. Einheiten leiten außerdem Informationen über ihre Mehrmoden-E/A- und UI-Fähigkeiten (Bildschirm/kein Bildschirm, Audio-Ein/Aus-Fähigkeiten, Tastatur usw.) weiter. Die Konversationsargumente ermöglichen einer Dialogmaschine, die Relevanz einer neuen Abfrage durch die NLU-Maschine anhand des momentanen Zustands und Kontextes abzuschätzen.
- In Bezug auf die Verhandlungsprotokolle können die Netzwerkeinheiten und Anwendungen bei der Registrierung von Erfordernissen und Fähigkeiten jeder der Netzwerkeinheiten während der Verhandlung für eine vorgegebene vorübergehende Konfiguration stimmen. Wenn eine Anwendung die Konfiguration (d. h. die Topologie) einführt, wird die Entscheidung automatisch eingeführt. Andernfalls kann sie fordern, Master oder Slave oder Peer zu sein. Anhand des Kennzeichens der Anforderungen erfolgt die Entscheidung für eine spezielle Konfiguration und diese wird an alle Einheiten und Anwendungen übertragen (in der Tabelle von verfügbaren Ressourcen, die jede Einheit/Anwendung führt). Immer dann, wenn ein System seinen Zustand und die Anforderung ändert, tauscht es mit den anderen vernetzten Dialogmanagern/Ressourcen Daten aus, um eine neue Verhandlung auszulösen und neue Zustands- und Kontextinformationen auszutauschen.
- Die Sprachübertragungsprotokolle
114 ,118 ermöglichen den Einheiten, komprimierte Sprache oder lokale Verarbeitungsergebnisse an andere Einheiten und Anwendungen im Netzwerk zu senden bzw. von diesen zu empfangen. Die Konversationsmaschinen102 ,107 enthalten vorzugsweise Kompressions-/Dekompressionsmaschinen zum Komprimieren von Sprache (Ergebnissen) zum Übertragen und zum Dekomprimieren von komprimierter Sprache (oder Ergebnissen), die über das Netzwerk von anderen Einheiten oder Anwendungen für eine lokale Verarbeitung erhalten werden. Die Sprachübertragungsprotokolle werden durch Sprachübertragungs-Clients genutzt, die in den Einheiten Systeme oder Anwendungen zur Verarbeitung ausführen, um komprimierte Sprache an andere vernetzte Einheiten zu senden bzw. von diesen zu empfangen. Die Sprachübertragungs-Clients der Einheiten arbeiten in Verbindung mit Kompressions-, Dekompressions- und Rekonstruktionsmaschinen unter Verwendung von geeigneter Kompressionshardware zur Verarbeitung von Sprache, die über das Netzwerk übertragen wird. Die Sprachcodierer stellen eine für die Wahrnehmung annehmbare oder verständliche Rekonstruktion der komprimierten Sprache und eine optimierte Konversationsleistung (z. B. Wortfehlerrate) bereit. Die Sprache wird in den entsprechenden vernetzten Einheiten unter Verwendung von Maschinen zur Verarbeitung von Akustiksignalen (Audioteilsysteme) und geeigneter Audiohardware aufgenommen (und in Merkmale umgewandelt). Außerdem können Dateiformate komprimierter Sprache zwischen Einheiten zur Verarbeitung von Sprache gesendet und empfangen werden. Im Einzelnen ermöglichen Sprachübertragungsprotokolle, dass die Einheiten komprimierte Sprache oder Ergebnisse einer lokalen Verarbeitung zu anderen Einheiten und Anwendungen im Netzwerk senden bzw. von diesen empfangen. In einer Ausführungsform wird nach dem Quittierungsprozess zwischen einer sendenden Einheit und einer empfangenden Einheit ein (paketgestützter) Datenstrom an den Empfänger gesendet. Die Paketvorsätze geben vorzugsweise das Codierschema und Codierargumente an (d. h. die Abtastfrequenz, Merkmalcharakteristiken, Dimensionen, Transformationen, die am Eingangssignal ausgeführt werden, Wesen des Eingangssignals usw.), die zum Codieren der Sprache (oder Ergebnisse) verwendet werden. Außerdem können Fehlerkorrekturinformationen (z. B. der letzte Merkmalvektor des vorherigen Pakets, um den Differentialdecodierer zu korrigieren, wenn das vorherige Paket verloren gegangen oder verzögert ist) oder eine geeignete Nachrichtengebung, um die verloren gegangenen Pakete wiederherzustellen (erneut zu senden) eingeführt werden. - Außerdem können die Dialogmanager über die Dialogmanagerprotokolle oder DM-Protokolle Daten austauschen (wie in dem oben einbezogenen Dokument von IBM mit dem Aktenzeichen YO999-111P erläutert ist). Die DM-Protokolle werden verwendet, um zwischen mehreren Dialogmanagern zu verhandeln, welcher Dialogmanager aktiv ist und welcher Dialogmanager die Eingabe empfangen sollte. Da im vorliegenden Fall die Serverressource nur dann "abgefragt" wird, wenn dies tatsächlich erforderlich ist, stellen die DM-Protokolle eine Variation bereit: der lokale Dialogmanager versucht a priori zu ermitteln, ob die Funktion entfernt ausgeführt werden sollte. In Situationen, in denen ein Fehler gemacht wird oder Zweifel bestehen, kann der Dialogmanager auf die Frage von der lokalen Maschine warten und sich entscheiden, bei verbleibenden Zweifeln einen Server zum Vergleich abzufragen.
- Auf der Grundlage der obigen Erläuterung sollte deswegen klar sein, dass die Netzwerkprotokolle zur Koordinierung (oder für eine koordinierte Schnittstelle) zwischen vernetzten Einheiten zur gemeinsamen Nutzung von Konversationsdiensten und Funktionen dienen. Der Ausdruck "koordinierte Schnittstelle" bedeutet, dass eine einzelne Konversation zwischen den unterschiedlichen Akteuren (Einheiten/Anwendungen) in der Weise geführt werden kann, als ob sie die gesamte Konversation vollständig verstehen und in geeigneter Weise wissen, wer zu einem bestimmten Zeitpunkt angesprochen ist. Das Verhalten jedes Konversationssystems oder jeder Anwendung kann durch einen Dialogmanager (d. h. ein Master in der Master/Slave-Betriebsart), die Anwendungen (die festlegen kann, wer Master, Slawe oder Peer ist), einen System-Dialogmanager (falls vorhanden), die Architektur und die Verhandlung (in der Peer-zu-Peer-Betriebsart) gesteuert/verwaltet werden, um jede Konversationsfunktion an dem geeigneten System transparent für den Benutzer auszuführen. Für den Benutzer einer Client-Einheit wird eine nahtlose Konversationsschnittstelle bereitgestellt (d. h., es erscheint so, dass alle Konversationswechselwirkungen über ein einzelnes Konversationssystem erfolgen), ungeachtet dessen, dass bestimmte Konversationsfunktionen, Systeme und Ressourcen mehrere vernetzte Einheiten darstellen können (z. B. ein Zellentelefon, eine Personenrufanlage und einen PDA).
- Bei dem Beispiel eines koordinierten Konversationssystems (das oben in dem oben aufgenommenen Dokument von IBM mit dem Aktenzeichen YO999-111P beschrieben wurde) handelt es sich um eine Fernsteuerung, die als UCA (universelles Konversationsgerät) bezeichnet wird. Das UCA erkennt Gerate, die auf Konversation ausgerichtet sind. Jedes auf Konversation ausgerichtetes Gerat sendet seine Konversationsargumente (Vokabular und Grammatik) an das UCA. Das UCA wirkt als ein Master für derartige Gerate und aktualisiert das geeignete Gerät, wenn eine Konversationswechselwirkung mit dem Benutzer einen Befehl an das Gerät zur Folge hat. Umgekehrt sendet sie bei der Ausführung des Befehls oder immer dann, wenn sich der Gerätezustand ändert, eine Aktualisierung an die Fernsteuerung. Ein Konversationsgerät, das keine weiteren Konversationsmöglichkeiten (andere als die entsprechenden Argumente) besitzt, wird als ein "stiller Partner" bezeichnet.
- In einer weiteren Ausführungsform kann ein Server oder eine Basisstation sämtliche Konversationsfunktionen ausführen außer der Kompression der Audioaufnahme und des Versendens, was durch die Fernsteuerung (oder das UCA) ausgeführt wird. Die Fernsteuerung kann außerdem eine bestimmte UI für den Benutzer bereitstellen, um ihn über den Zustand der unterschiedlichen Geräte zu benachrichtigen. Dies kann über Sprache, eine grafische Benutzeroberfläche oder irgendeine konversationsbezogene Kombination dieser (oder anderer) Modalitäten erfolgen.
- Obwohl herkömmliche Netzwerktopologien in Verbindung mit dem System von
1 verwendet werden können, ist eine bevorzugte Netzwerktopologie eine Topologie, die eine spontane dynamische Vernetzung erzeugt (d. h. ein Netzwerk, das spontan zwischen Einheiten gebildet wird, die sich in einem bestimmten Kommunikationsbereich befinden). Eine derartige spontane Vernetzung kann unter Verwendung des kürzlich aufgekommenen "Bluetooth"-Vernetzungsprotokolls realisiert werden, das z. B. auf der Webseite http://www.bluetooth.com beschrieben wird. Kurz gesagt, Bluetooth ist eine Codebezeichnung für ein Netzwerkprotokoll, das ad hoc eine Verbindungsfähigkeit für ein Drahtlos-Netzwerk schafft. Bluetooth ist im Einzelnen ein Protokoll zum Bereitstellen von drahtlosen Kurzstrecken- Funkverbindungen zwischen Einheiten (wie etwa Smartphones, Zellentelefone, Personenrufanlagen, PDAs, Laptop-Computer, mobile Einheiten usw.), die sich in einem bestimmten Bereich befinden, um ein Netzwerk (oder das auch als ein "Piconet" bekannt ist) zwischen derartigen Einheiten aufzubauen. Ein Piconet bezeichnet eine Sammlung von Bluetooth-fähigen Einheiten (Knoten), die ad hoc mit einem Knoten verbunden sind, der in dem Piconet während der restlichen Netzwerkverbindung als ein Master wirkt. Zwei oder mehr Piconets können vernetzt sein, um ein so genanntes Scatternet zu bilden. - Es ist klar, dass irgendein Protokoll zur spontanen dynamischen Vernetzung gemäß der vorliegenden Erfindung realisiert werden kann. Die Netzwerktopologie von
1 kann z. B. gemäß dem "Frequenzsprung"-Kommunikationsnetzwerk ("Hopping"-Kommunikationsnetzwerk) realisiert sein, das in derUS-Patentschrift Nr. 6 150 961 beschrieben ist, das am 24. November 1998 mit dem Titel "Automated Traffic Mapping" eingereicht wurde und gemeinsam übertragen wurde. - In
2 veranschaulicht nun einen Ablaufplan ein Verfahren zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsfunktionen zwischen vernetzten Einheiten gemäß einem Aspekt der vorliegenden Erfindung. Im Einzelnen veranschaulicht2 ein Verfahren des Betriebs des Systems von1 genauer. Anfangs äußert der Benutzer einen gesprochenen Befehl gegenüber der lokalen Client-Einheit (oder gibt eine Abfrage auf andere Weise aus), der vorverarbeitet wird, indem er z. B. digitalisiert wird und die relevanten Merkmale des digitalisierten Sprachsignals extrahiert werden (Schritt200 ). Alternativ kann der lokale Dialogmanager eine Anforderung von einer lokalen Anwendung104 empfangen, um synthetische Sprache (TTS) zur Ausgabe an den Benutzer zu erzeugen (Schritt200 ). - Es erfolgt eine Feststellung (über den lokalen Dialogmanager
103 ), ob eine lokale Verarbeitung zur Verfügung steht (Schritt201 ), z. B. ob eine Spracherkennung oder eine Sprachanalyse lokal ausgeführt werden kann. Es sollte klar sein, dass der lokale Dialogmanager103 für diese Feststellung einen entfernten Server im Voraus definieren kann, wo die Erkennung/Synthese erfolgen muss (z. B. eine IP-Adresse für eine Basisverbindung, eine URL-Adresse für eine servergestützte Aufzeichnung über ein Servlet oder eine Telefonnummer für Direktverbindungen oder eine Verbindung zu einem IVR). Außerdem kann die Feststellung, dass die lokale Einheit keine verfügbaren Ressourcen oder Argumente besitzt, um eine Aufgabe auszuführen (oder wirksam auszuführen), auch durch den Dialogmanager103 bei der Ausführung der lokalen Anwendung104 anhand der Ressourcenanforderungen, die durch die Anwendung in einer Vorsatzdatei angegeben werden, getroffen werden. Außerdem können bestimmte Befehle oder angeforderte Funktionen bewirken, dass der Dialogmanager automatisch mit einem entfernten Server verbunden wird. Sicherheitsanwendungen (z. B. Sprecherüberprüfung) können z. B. automatisch zur serverseitigen Verarbeitung umgeschaltet werden, so dass die Spracheindrücke nicht an die Clients verteilt werden. Des Weiteren können Systems zur lokalen Fahrzeugnavigation unter Verwendung eines Telefons oder eines basisgestützten Servers automatisch zu entfernten Servern umgeschaltet werden, so dass die lokale Einheit keinen großen Umfang an Navigationsinformationen speichern muss. - Wenn festgestellt wird, dass eine lokale Verarbeitung zur Verfügung steht (eine positive Feststellung im Schritt
201 ), wird die Verarbeitung über lokale Maschinen102 lokal ausgeführt (Schritt202 ). Wenn dagegen festgestellt wird, dass keine lokale Verarbeitung zur Verfügung steht (negative Feststellung im Schritt201 ), werden die relevanten Merkmale/Signalformen/Informationen automatisch an einen entfernten mit dem Netzwerk verbundenen Server übertragen (Schritt204 ) (über IP, LAN, Bluetooth, IP, HF oder über Telefon oder IP-Telefon), wobei die entfernte Verarbeitung (z. B. Spracherkennung/Synthese) ausgeführt wird (Schritt205 ) (möglicherweise mit einer bestimmten Benutzer/Server-Wechselwirkung). - Es sollte klar sein, dass die Übertragung von Sprache vom lokalen Client zu einem entfernten mit dem Netzwerk verbundenen Server (oder umgekehrt) unter Verwendung verschiedener Techniken ausgeführt werden kann. Eine Direktübertragung der Signalform kann z. B. als eine Datei, als ein Strom oder als ein Strom von Paketen ausgeführt werden. Außerdem kann eine komprimierte Signalform unter Verwendung herkömmlicher Verfahren wie z. B. ADPCM und APC gesendet werden. Des Weiteren kann ein Strom von Merkmalen gemäß dem Verfahren gesendet werden, das im Dokument "Compression Of Acoustic Features For Speech Recognition In Network Environments" von G. Ramaswamy u. a., Bd. 2, S. 977 bis 980, Proc. ICASSP, 1998 beschrieben ist. Dieses Verfahren ermöglicht eine Erkennung (Spracherkennung, Sprechererkennung oder NLU) auf der Empfängerseite, jedoch keine Rekonstruktion des Signals. Außerdem kann die Übertragung von Sprache unter Verwendung eines Codierverfahrens oder Codierschemas anhand von komprimierten Merkmalen und einer Tonlagenschätzung ausgeführt werden, wodurch das Sprachsignal mit einer angemessenen Qualität für eine verständliche und sogar angenehme Wiedergabe (zur Wiedergabe, Korrektur, weiteren menschlichen Verarbeitung oder Archivierung) rekonstruiert werden kann. Derartige Codierschemen sollten Datenraten mit niedrigen Werten zwischen 4 und 5 kBit/s ohne Verschlechterung der Erkennungsleistung bereitstellen. Folglich kann ein interaktiver Austausch mit nachgeordneten Ressourcen (Server-Ressourcen) sogar über drahtlose Modems oder drahtlose Datenverbindungen in Echtzeit ausgeführt werden. Es sollte klar sein, dass andere Schemen unter Verwendung ähnlicher Codierschemen verwendet werden könnten, die eine sehr hohe Wiedergabequalität bereitstellen würden. Außerdem kann ein beliebiges Verfahren, das eine Kompression der Cepstra-Merkmale und der Tonlage ermöglicht und eine Erkennung (Sprache, Sprecher, NLU) auf der Serverseite ohne Verschlechterung auf der empfangenen Seite und die Rekonstruktion des Signals ermöglicht, in Verbindung mit der vorliegenden Erfindung verwendet werden. Diese Rekonstruktion ist nützlich für eine spätere Wiedergabe vom Server oder Wiedergabe vom Client (falls lokal gespeichert) oder zum anschließenden Korrekturlesen der Übersetzung, zur Fehlerkorrektur oder zur persönlichen Überwachung des Prozesses. Es sollte klar sein, dass jedes geeignete Kompressionsschema (Kompressionsprotokoll) verwendet werden kann.
- Es sollte klar sein, dass das Kompressions- oder Codierschema (Übertragungsprotokolle oder Codierprotokolle) sich zwischen Einheiten unterscheiden kann. Die Codierung, um Eingabesprache von dem Audioaufnahmesystem (des Client) zu einer vernetzten Ressource zu versenden, kann z. B. von dem Codierprotokoll verschieden sein, das verwendet wird, um die Ausgabesprache (z. B. Eingabeaufforderungen, Wiedergabesignale oder TTS) von der vernetzten Ressource (Server) zu dem Audioausgang (Client) zu versenden. In dem ersten Fall sollte die Codierung tatsächlich optimiert sein, um eine gute Erkennungsleistung auf der Serverseite zu gewährleisten, wobei die Rekonstruktion zur Wiedergabe zwar wichtig, jedoch nicht so dramatisch ist. Die Bitrate (das Kompressionsverhältnis) ist natürlich wichtig. Ein Kompromiss bei der Kompressionsrate kann zwischen der Robustheit (Fehlerrate-Merkmalverzerrung) und der Wahrnehmungsqualität angepasst werden, um eine Soll-Bitrate zu erreichen und aufrechtzuerhalten. Außerdem können bestimmte Schemen ausgewählt werden, um die Robustheit gegenüber einigen Kanal- oder Hintergrundverzerrungen zu vergrößern. Für die zuletzt genannte Aufgabe (Ausgangssignal) sollte dagegen die Codierung für eine Verständlichkeit oder eine Wahrnehmungsqualität und zur Annehmlichkeit oder um bestimmte spezielle Merkmale der Sprache oder das Tonsignals zu bewahren, optimiert sein.
- Nach der lokalen Verarbeitung (Schritt
202 ) oder der entfernten Verarbeitung (Schritt205 ) wird festgestellt (über den lokalen Dialogmanager103 oder den Server-Dialogmanager108 ), ob die Ergebnisse der Verarbeitung annehmbar sind (Schritte203 und206 ). Wenn festgestellt wird, dass die Verarbeitungsergebnisse nicht annehmbar sind (negative Feststellung im Schritt203 oder Schritt206 ) leitet der lokale Client oder der entfernte Server die Merkmale oder die Signalform (über IP, LAN, Bluetooth, IR, HF oder eine Verbindung über Telefon oder IP-Telefon) automatisch an einen Server weiter, der eine derartige Verarbeitung ausführen kann (Schritt204 oder Schritt207 ). Die Rückweisung der Ergebnisse für Spracherkennung und NLU kann z. B. auftreten, wenn derartige Ergebnisse unbekannt sind oder fehlerhaft erkannt werden oder mehrdeutig sind (oder anhand eines Zuverlässigkeitsmaßes, das dem Dialogmanager jeder Ressource (lokal oder entfernt) zugeordnet ist). Die automatische Verbindung von dem lokalen oder entfernten System zu einem Serversystem kann vorzugsweise auf der Grundlage des Pegels der akustischen oder der LM-(Sprachmodell-)Bewertungszahlen erfolgen, die durch den lokalen Sprachdecodierer z. B. unter Verwendung der Techniken, die in demUS-Patent Nr. 5 937 383 an Ittycheriah u. a. mit dem Titel "Apparatus and Methods For Speech Recognition Including Individual or Speaker Class Dependant Decoding History Caches For Fast Word Acceptance or Rejection" gelehrt werden, das gemeinsam übertragen wurde, zurückgeführt werden (der entfernte Server wird z. B. dann kontaktiert, wenn festgestellt wird, dass diese Bewertungszahlen unter einen vorgegebenen Schwellenwert fallen). Es sollte klar sein, dass jedes geeignete Maß oder jeder geeignete Lösungsansatz zum Schätzen des Vertraulichkeitsgrads oder der erkannten Äußerung oder Abfrage (während und nach dem Dialog) zur Feststellung verwendet werden kann, wenn die Ergebnisse, die durch ein herkömmliches System erhalten werden, annehmbar sind oder nicht (wobei in diesem Fall ein anderes System betrachtet wird). - Für TTS können in ähnlicher Weise der lokale und der entfernte Dialogmanager
103 ,108 die Komplexität des Texts prüfen, um festzustellen, ob das TTS lokal oder entfernt ausgeführt wird. TTS wird z. B. entfernt ausgeführt, wenn die Ausspracheregeln für ein Wort nicht bekannt sind oder der Text eine komplexe Analyse erfordert. Ein weiteres Beispiel ist der Fall, bei dem die TTS mit einem anderen Akzent, Dialekt oder in einer anderen Sprache betont werden muss oder wenn ein bestimmter Ausspruch einer Person imitiert werden soll. - Nachdem die Verarbeitung entfernt ausgeführt wurde, werden die Ergebnisse (Schritt
208 ) (über Telefon, IP-Adresse, MAC-(Media Access Control-)Adresse usw.) zurück zum lokalen Client gesendet. Es sollte klar sein, dass die Ausgabe (d. h. die Sprache, die an den Benutzer ausgegeben wird) lokal oder am Server synthetisiert werden kann. Wenn die Synthese am Server erfolgt, kann die Sprache in komprimierter Form (unter Verwendung der Sprachübertragungsprotokolle, die oben erläutert wurden) an den Client zur lokalen Dekomprimierung gesendet werden. Es sollte klar sein, dass das Codierschema gleich dem Schema sein kann, das zum Senden der Sprachmerkmale vom Client an den Server verwendet wurde, oder von diesem verschieden sein kann. Alternativ kann die Sprache durch den Server z. B. über eine andere analoge PSTN-Leitung direkt "rundgesendet" werden, wobei die Verbindung über einen Telefonanruf vom Client an den Server (Rückruf) hergestellt werden kann. - In letzter Zeit sind Bemühungen ausgelöst worden, um ein geeignetes Zuverlässigkeitsmaß für die erkannte Sprache zu entwickeln. Im Dokument "LVCSR Hub5 Workshop", 29. April bis 1. Mai 1996, MITAGS, MD, organisiert durch NIST und DARPA, werden unterschiedliche Lösungsansätze vorgeschlagen, um jedem Wort einen Zuverlässigkeitsgrad zuzuweisen. Ein Verfahren verwendet einen Entscheidungsbaum, der auf wortabhängige Merkmale trainiert ist (Anzahl von Trainingsäußerungen, minimales und durchschnittliches Auftreten von Triphonen, Auftreten im Sprachmodelltraining, Anzahl von Phonemen/Lefemen, Dauer, akustische Bewertungszahl (schnelle Übereinstimmung und detaillierte Übereinstimmung), Sprache-Nichtsprache), satzabhängige Merkmale (Störabstand, Schätzwerte der Sprechraten: Anzahl von Wörtern oder Lefemen oder Vokalen pro Stunde, Satzwahrscheinlichkeit, die durch das Sprachmodell bereitgestellt wird, Wahrscheinlichkeitsraten, normierte mittlere Wahrscheinlichkeit pro Rahmen, Trigramm-Auftreten im Sprachmodell), Wort in Kontextmerkmalen (das Trigramm-Auftreten im Sprachmodell) sowie Sprechernaturmerkmale (Akzent, Dialekt, Geschlecht, Alter, Sprechrate, Identität, Audioqualität, SNR usw.). Eine Fehlerwahrscheinlichkeit wird aus den Trainingsdaten für jedes der Blätter des Baums berechnet. Algorithmen zum Bilden derartiger Bäume werden durch Breimau u. a. im Dokument "Classifikation and Regression Trees", Chapman & Hal, 1993 erläutert. Bei einer Erkennung werden alle oder einige dieser Merkmale während der Erkennung gemessen, und für jedes Wort wird der Entscheidungsbaum bis zu einem Blatt durchgegangen, das einen Zuverlässigkeitsgrad schafft. Außerdem ist in dem Referenzdokument von Neti u. a. mit dem Titel "Word Based Confidence Measures As A Guide For Stack Search In Speech Recognition", ICASSP97, Munch, Germany, April 1997 ein Verfahren beschrieben, das vollständig auf Bewertungspunktzahlen beruht, die durch einen IBM Paketdecodierer (unter Verwendung einer Aufzeichnungs-Wahrscheinlichkeit, tatsächlich die durchschnittliche inkrementale Aufzeichnungs-Wahrscheinlichkeit, genaue Übereinstimmung, schnelle Übereinstimmung) zurückgeführt werden.
- Bei dem LVCSR-Ablauf wird ein anderes Verfahren zum Schätzen des Zuverlässigkeitsgrades unter Verwendung von Prädiktoren über eine lineare Regression ausgeführt. Die verwendeten Prädiktoren sind: die Wortdauer, die Bewertungszahl des Sprachmodells, die durchschnittliche akustische Bewertungszahl (beste Bewertungszahl) pro Rahmen und der Teil der NBEST-Liste mit dem gleichen Wort als erste Wahl. Es sollte klar sein, dass gemäß einer Ausführungsform der vorliegenden Erfindung die beiden Lösungsansätze (Zuverlässigkeitsgrad gemessen über Entscheidungsbäume und über lineare Prädiktoren) kombiniert werden, um den Zuverlässigkeitsgrad in jedem Übersetzungsprozess, nicht auf die Spracherkennung beschränkt, systematisch zu extrahieren.
- Anhand des Fortschritts in der Vergangenheit und der Geschwindigkeit der Fortentwicklung in diesem Bereich, kann man nun sagen, dass man für verschiedene Arten von Übersetzungen einen Zuverlässigkeitswert, z. B. von 0 bis 1, zuordnen kann, wobei 0 bedeutet, dass keine Übersetzung ausgeführt wird, und 1 Bestimmtheit für Komponenten, die übersetzt werden, bedeutet, wobei die Komponenten Texte, Satzteile, Wörter und allgemeiner ein beliebiger logischer Block aus zu übersetzendem Material bedeuten. Die oben beschriebene Kombination aus linearen Prädiktoren und Entscheidungsbäumen ist ein Verfahren, das vorzugsweise für die vorliegende Erfindung verwendet wird. Die Akkumulation von Bewertungszahlen, die durch eine Spracherkennungsmaschine zurückgegeben werden (Bewertungszahl der schnellen Übereinstimmung und Bewertungszahl der detaillierten Übereinstimmung sowie Bewertungszahlen der Hintergrundmodelle und Gruppen), kann tatsächlich beispielhaft verwendet werden, um einen Entscheidungsbaum und/oder einen linearen Prädiktor des Zuverlässigkeitsgrades zu bilden, der den Sprecher tatsächlich korrekt identifiziert. Bei der Sprecheridentifikation läuft das tatsächlich darauf hinaus, eine Überprüfung anhand der Identität auszuführen, die durch die Identifikationsstufe erhalten wird.
- Es sollte klar sein, dass die entfernten Server Informationen wie z. B. TTS-Regeln oder Basisformulare, Grammatikinformationen usw. an den lokalen Client für eine Speicherung in einem Cache-Speicher senden können, so dass die lokale Einheit anschließend eine ähnliche Anforderung unter Verwendung dieser Informationen lokal verarbeiten kann. Da eine lokale Einheit möglicherweise nicht in der Lage ist, eine bestimmte Aufgabe infolge des Mangels an erforderlichen Ressourcen zu verarbeiten, kann die Entscheidung durch den Server-Dialogmanager
108 , diese Verarbeitungsinformationen an den lokalen Client zu senden, durch die lokale Einheit beim Verbinden mit dem entfernten Server in Übereinstimmung mit der Registrierung (über die oben erläuterten Registrierungsprotokolle) über ihre Konversationsfähigkeiten mit dem entfernten Server getroffen werden. - Es sollte klar sein, dass die vorliegende Erfindung in Situationen realisiert werden kann, bei denen der Umfang von Konversationsfunktionen, die durch eine Einheit (über ihren Dialogmanager) ausgeführt werden, derart ist, dass die Einheit nicht in der Lage ist, die erforderlichen Ressourcen für eine rechtzeitige Ausführung der Funktion bereitzustellen (z. B. ein IVR mit einer zu großen Anzahl gleichzeitiger Anschlüsse, die durch das System verwendet werden). Deswegen kann der Dialogmanager so realisiert sein, dass er eine Verwaltung des Konversationssystems und eine Verwaltung der Belastung ausführt, wodurch der Dialogmanager während der Ausführung einer bestimmten Funktion entscheiden kann, ein anderes Konversationssystem zu verwenden, um die Verarbeitung der angeforderten Funktion fortzusetzen. Insbesondere in
3 richtet der Benutzer einen gesprochenen Befehl an die lokale Client-Einheit, der vorverarbeitet wird, indem z. B. die relevanten Merkmale des digitalisierten Sprachsignals digitalisiert und extrahiert werden (Schritt300 ). Alternativ kann der lokale Dialogmanager eine Anforderung von einer lokalen Anwendung104 empfangen, um synthetische Sprache (TTS) zur Ausgabe an den Benutzer zu erzeugen (Schritt300 ). Der Dialogmanager stellt fest, ob eine lokale Verarbeitung ausgeführt werden sollte (Schritt301 ) (ob es sich z. B. um Spracherkennung, Dialogverwaltung oder Sprachsynthese handelt). Diese Entscheidung kann nicht nur auf der Grundlage der lokalen Konversationsfähigkeiten, Argumente und Ressourcen erfolgen (wie oben erläutert wurde), sondern auch auf der Grundlage von Schätzwerten der Verzögerung, die das Netzwerk infolge von Netzwerk-Verkehrsstau einführt im Vergleich zu den möglichen Verzögerung, die bei der Ausführung der Konversationsfunktion unter Verwendung von verfügbaren, jedoch beschränkten lokalen Ressourcen eingeführt wird (wenn angenommen wird, dass die lokale und die entfernte Einheit die gleichen Funktionen ausführen können). Deswegen können z. B. Befehls- und Steuerfunktionen, bei denen die Gefahr der lokalen Verzögerung bzw. einer Verzögerung über das Netzwerk besteht, entfernt/lokal ausgeführt werden, um die Verzögerung so gering wie möglich zu machen. Dagegen können Anfragen, die eine längere Verzögerung vertragen (z. B. deswegen, weil sie mit nachgeordneten Funktionen verbunden sind, die Verzögerungen wie z. B. Internet- oder audiovisuelle Suchen beinhalten können), auf einem System (lokal oder vernetzt) ausgeführt werden, das die Ressourcen oder Kosten optimiert. - Außerdem werden dann, wenn die Netzwerkverbindung vorübergehend nicht zur Verfügung steht, oder beim Fehlen von vernetzten Ressourcen alle Funktionen, die lokal ausgeführt werden können, ausgeführt. Die anderen Funktionen können in Funktionen, die in einer Aufschub-Betriebsart ausgeführt werden können (später, wenn die Verbindung wiederhergestellt wurde), und in nichtkompatible Funktionen unterteilt werden. Typische Beispiele sind Aktualisierungen des Adressbuchs, Antworten auf eMails oder Nachrichten durch Diktieren oder das Diktieren allgemein. Die Anwendung kann wiederum vorzugsweise festlegen, ob der Befehl lokal oder verschoben ist. Es ist außerdem möglich, eine Peer-zu-Peer-Verbindung als Aufschub-Betriebsart zu betrachten, wobei ein Manager der Aufschub-Betriebsart und eine lokale Maschine festlegen, ob die Funktion lokal oder verschoben erfolgt.
- Wenn in
3 der Dialogmanager feststellt, dass eine lokale Verarbeitung geeignet ist (positive Feststellung im Schritt301 ), ordnet der Dialogmanager die erforderliche Konversationsmaschine dem Anschluss zu (Schritt302 ). Nachdem die Konversationsmaschine dem Anschluss zugeordnet wurde, kann der Dialogmanager diese Maschine anderen Anschlüssen zuordnen, wenn die Konversationsmaschine gegenwärtig nicht durch den ursprünglich zugeordneten Anschluss verwendet wird (Schritt303 ) (z. B. dann, wenn der Sprecher momentan nicht spricht, sondern hört). Wenn die lokale Maschine wieder durch den ursprünglich zugewiesenen Anschluss benötigt wird und die lokale Maschine nicht verfügbar ist, kann eine andere verfügbare Maschine (lokal verfügbare Maschine oder eine entfernte Einheit) verwendet werden (Schritt304 ). Dieser dynamische Zuweisungsprozess steht im Gegensatz zur herkömmlichen Belastungsverwaltung, bei der ein Dialogmanager entscheidet und eine oder mehrere Konversationsmaschinen jedem Anschluss für die gesamte Dauer eines Funktionsanrufs zuweist. - Es sollte klar sein, dass die Verwaltung und Entscheidung zum Übertragen von Sprache z. B. an einen Netzwerkserver oder eine Einheit nicht nur auf dem Grad an Systemverwaltung/Lastausgleich (durch den Dialogmanager bei einem Client oder Server), sondern auch auf dem Verkehr des Netzwerks beruhen kann. Wenn z. B. eine Verbindung (insbesondere für TCP/IP-gestützte Verbindungen über das Internet) als überlastet angesehen wird, kann ein neuer Server oder eine neue Einheit anhand des Verkehrs ausgewählt werden (Schritt
306 ). Diese Entscheidung kann an der Spitze von herkömmlichen Protokollen wie etwa VoIP-Protokollen (Voice over Internet Protocol) wie z. B. RSVP (Ressource Reservation Protocol) getroffen werden, wodurch dann, wenn ein Kanal benötigt wird, die Verbindung gemeinsam mit einer geeigneten Reservierung der zugehörigen Dienstqualität hergestellt werden kann. Andernfalls wird eine entfernte Verarbeitung ausgeführt (Schritt307 ) und die Ergebnisse in der oben erläuterten Weise zurückgeleitet. - Es sollte klar sein, dass das System und die Verfahren, die hier beschrieben wurden, für verschiedene sprachaktive und Konversationsanwendungen realisiert werden können. Die vorliegende Erfindung ist insbesondere nützlich, um den steigenden Bedarf auf dem Gebiet der eingebetteten und der weltweit eingesetzten Datenverarbeitung sowie der NLU/NLG-Dialogsysteme zu decken. Es sollte jedoch klar sein, dass die vorliegende Erfindung für eine Vielfalt von Anwendungen, die nicht auf eingebettete Systeme beschränkt sind, verwendet werden kann. Die folgenden beispielhaften Ausführungsformen veranschaulichen die Vorteile der vorliegenden Erfindung.
- Handelsüblich verfügbare eingebettete Namenwähleinrichtungen zur Verwendung bei einem Smartphone (z. B. ein Drahtlostelefon mit PDA-Fähigkeiten (PDA – persönlicher digitaler Assistent)) sind eine typische Anwendungsmöglichkeit. Es wird z. B. angenommen, dass die Client-Einheit
100 ein Smartphone mit einer lokalen Anwendung einer Namenwähleinrichtung ist. Der Benutzer speichert lokal eine Liste von gewünschten Namen und Adressen im elektronischen Telefonbuch des Smartphone. Der Benutzer kann dann einen Befehl aussprechen wie z. B. "Wähle Vorname Nachname im ..." mögliches Abfragekriterium (zuhause, Büro, Zellentelefon), und bei Erkennung/Verständnis des Befehls (über die lokalen Konversationsmaschinen102 ) wird das Smartphone automatisch die Telefonnummer wählen, die der Person im Adressbuch zugeordnet ist (über die lokale Anwendung104 ). Wenn dagegen ein Name ausgesprochen wird, der sich nicht im Adressbuch befindet (und deshalb nicht erkannt/verstanden wird), der sich aber in einer größeren gemeinsamen (oder öffentlichen) Datei befindet (die im entfernten Server106 vorhanden ist), kann die Anforderung (als Merkmale oder als Signalform) gespeichert werden und zu einem entfernten Server106 zur Erkennung gesendet werden. Das Wählen kann dann durch den entfernten Server oder durch das Smartphone beim Empfang der geeigneten Informationen direkt ausgeführt werden. Der Benutzer kann alternativ zunächst mit dem entfernten Server verbunden werden und einen Dialog herstellen, um entweder den zu wählenden Namen erneut anzufordern oder um weitere Informationen zu bitten (bei einem Diensttyp der weißen oder gelben Seiten). - Eine weitere nützliche Anwendungsmöglichkeit der vorliegenden Erfindung betrifft ein persönliches Informationssystem wie z. B. das handelüblich verfügbare System PointCast (siehe http://www.pointcast.com), das es einem Benutzer ermöglicht, z. B. Aktienwerte, spezielle Neuigkeiten zu einem Thema und Informationen über die letzte Veröffentlichung zu dem Thema anhand von im Voraus festgelegten Benutzerpräferenzen zu erhalten. Bei einem persönlichen Informationssystem, das gemäß der vorliegenden Erfindung aufgebaut ist, wird der Benutzer dann, wenn er Informationen über eine Aktie (z. B. IBM) oder über ein Thema (z. B. die Vorhersage für die Produktion von grünen Erbsen in Kent) erhalten möchte, eine Sprachanforderung an die Client-Einheit
100 richten. Falls "IBM" sich im lokalen Wortschatz (Benutzerprofil) befindet, wird es sofort decodiert, und der Benutzer erhält die neueste Quote, die z. B. als letzte Aktualisierung (PointCast) erhalten wurde. Wenn dagegen die Benutzeranforderung in Bezug auf "grüne Erbsen" von der lokalen Client-Einheit100 nicht verstanden wurde, wird die Anforderung automatisch als ein Merkmalstrom an einen entfernten Server106 (des Inhaltanbieters) weitergeleitet, wobei der Server beim Decodieren dieser Anforderung mehr Ressourcen einsetzen und die zugehörigen Informationen abrufen (was sowieso gemacht werden musste) und anschließend diese Informationen an das lokale System übertragen kann. Wenn das entfernte Serversystem einem "Push-Ansatz" folgt, kann dies bei der nächsten Aktualisierung geschehen (z. B. PointCast). - Die Client-Einheit
100 kann außerdem ein sprachaktiver PVA (persönlicher Fahrzeugassistent) sein, um z. B. eine Konversationsfahrzeugnavigation bereitzustellen. Wenn der Benutzer z. B. keine CD-ROM mit dem System verwenden möchte (wegen Raummangel, Leistungsanforderungen, Gewicht, Kosten, Stoßfestigkeit usw.), könnte sich der Benutzer entscheiden, begrenzte Informationen wie z. B. das Vokabular und die Karten, die Regionen/Orten zugeordnet sind, an denen sich der Benutzer gegenwärtig befindet, an denen er sich kürzlich aufhielt und zu denen der fahren möchte, zu speichern. Immer dann, wenn in diesem Beispiel eine Benutzeranforderung nicht mit dem lokalen Vokabular und den Kartengruppen übereinstimmt, kann die Anforderung automatisch zu einem entfernten Server106 gesendet und decodiert werden (selbst dann, wenn Eingabeaufforderungen zurück an den Benutzer die Suche einengen), damit die Fahrtroute, die Karten (oder die aktualisierten Karten) zum Fahrzeug heruntergeladen werden. Eine derartige Aktion wäre wiederum für den Benutzer im Wesentlichen transparent (selbst wenn das Herunterladen kostspielig ist), da anfangs lediglich die lokale Straße benötigt wird. - Des Weiteren kann ein NLU/FSG-System gemäß der vorliegenden Erfindung so gestaltet sein, dass dann, wenn die Anforderung des Benutzers FSG (vollständige Grammatik) benötigt, die Anforderung lokal verarbeitet werden kann, es sei denn, die Anforderung ist komplexer und elementar, wodurch eine Weiterleitung an einen entfernten Server zur Erkennung erforderlich ist.
- Der Namenwählerdienst in einer Firma bietet ein weiteres interessantes Merkmal. Ein Unternehmen führt eine aktive Datenbank von Telefonnummern für seine Beschäftigten. Diese Datenbank ist stets aktuell. Der Benutzer kann periodisch entscheiden, seine lokalen Daten mit denen der Firmendatenbank zu synchronisieren. Dies stellt ein klassisches Konzept dar. Wenn jedoch der Benutzer die Namenwähleinrichtung verwendet und über TCP/IP mit dem Server verbunden werden soll, kann die Synchronisation erfolgen (während der Spracherkennungsphase), so dass die lokale Wählinformation stets aktualisiert ist. Gleichfalls kann das System dann, wenn der Benutzer Informationen für die Navigation zu einem neuen Ort, der nicht in der lokalen Karte des Benutzers enthalten ist, anfordert, die akustischen Informationen sowie eine Gruppe von Navigationsinformationen für die Region, in die der Benutzer reisen möchte, auf den lokalen PVA herunterladen.
- Das System von
1 kann außerdem mit dem Konversationsbrowsersystem realisiert werden, das im Dokument von IBM mit dem Aktenzeichen YO998-392P beschrieben ist, das mit dieser Anmeldung eingereicht wurde und den Titel "Conversational Browser and Conversational Systems" trägt, das gemeinsam übertragen wurde und alsEP-A-1 133 734 veröffentlicht wurde, wobei eine CML-Seite (Konversations-Markup Language), die konzeptionell einer HTML-Seite (Hypertext-Markup Language) für eine visuelle Anzeige ähnlich ist und von einem Inhaltanbieter (Server) übertragen wird (und durch den Konversationsbrowser verarbeitet wird), verwendet wird, um eine Konversations-UI zu beschreiben, die dem Benutzer präsentiert wird. In diesem Beispiel kann es sich bei dem Konversationsbrowser um die lokale Anwendung104 der Client-Einheit100 und/oder die Serveranwendung109 in dem entfernten (IVR) Server106 handeln. Der Inhaltanbieter oder der Anwendungsentwickler (oder der Proxy/Transcoder) kann entscheiden, dass ein gegebenes Element, das der Benutzer bereitstellen sollte (z. B. eine NLU- oder FSG-Eingabe eines Formulars oder ein leeres Formular, das durch Diktieren auszufüllen ist) am Server106 erkannt werden muss, anstelle der Lieferung sämtlicher Daten an die Client-Einheit100 zur lokalen Erkennung (da die Aufgabe für die lokalen Ressourcen zu komplex ist oder da zu viele Informationen durch das Netzwerk gesendet werden müssten). Dies erfolgt z. B. durch Bereitstellen einer URL (Verweisadresse) und Kennzeichen in einer CML-Datei, um einen Server anzugeben, in dem die Verarbeitung erfolgen wird, oder indem ein Applet, eine ActiveX-Komponente oder ein Plug-In (oder irgendeine Variation hiervon) in die CML-Seite geladen wird, das das Audiosignal aufnimmt, möglicherweise einige Konversationsfunktionen ausführt und sie für weitere Funktionen an andere Einheiten versendet (dies ist typischerweise eine Entscheidung, die durch den Autor der Seite getroffen wird). Diese Entscheidung kann durch einen Transcoder und einen Registrierungsmechanismus automatisch ausgeführt werden, wie im Dokument von IBM mit dem Aktenzeichen YO998-392P beschrieben ist, wodurch der Browser seine Fähigkeiten dem Server explizit beschreibt, bei dem die CML-Seite abgerufen wird. Wenn der Transcoder verwendet wird, um die Fähigkeiten des Browsers zusätzlich zu berücksichtigen und den Inhalt an diese Fähigkeiten anzupassen (diese Fähigkeit wird als ein Konversationsproxy bezeichnet), kann der Transcoder die eine oder die mehreren Server-URLs anfügen, um den Server nun auf der Grundlage der Browserfähigkeiten neu zu lenken. In diesen Fällen kann die durch die Client-Einheit100 erfasste Sprache als eine (gegebenenfalls komprimierte) Signalform oder als ein Strom von Merkmalen zum entfernten Server106 oder dem vernetzten Server110 senden, wo die Erkennung erfolgt (oder NLU/NLG). Das Erkennungsergebnis kann dann zurück zur Client-Einheit100 oder zum Server des CML-Anbieters (entfernter Server106 ) gesendet werden, um über den nächsten Verlauf von Aktionen oder die Weiterverarbeitung zu entscheiden. Wie oben erwähnt wurde, kann dies wiederum durch die Anwendung entschieden werden, die die URL der Ressource/Maschine/des Servers oder der lokalen Einheit, die für die Erkennung einer vorgegebenen Eingabe, eines Menüformulars oder Dialogs verwendet werden soll, direkt enthalten kann. Außerdem ist die vorliegende Erfindung unter den Umständen nützlich, wenn eine CML-Seite Ton oder Text wiedergeben/synthetisieren muss, der für die lokalen Konversationsmaschinen102 der lokalen Einheit102 zu komplex ist. Die Abschnitte, die zu komplex sind, können als Ströme von Merkmalen oder komprimierten Signalformen von einem speziellen Server erhalten werden (der möglicherweise der Server ist, der die CML-Seite bereitstellte). Des Weiteren kann die lokale Client-Einheit100 , die die geeignete Fähigkeit nicht besitzt, in Bezug auf ein Mehrsprachensystem dann, wenn eine CML-Seite eine andere Sprache enthält, einen entfernten Server anfordern, um die Konversationsfunktionen in dieser Sprache auszuführen. - Es sollte klar sein, dass die Konversationskoordination in verteilten Anwendungen mit einem Konversationsbrowser verwendet werden kann. In
4 sind z. B. ein verteiltes System mit einem Präsentationsserver400 , ein Maschinenserver401 und ein Client402 mit einem Konversationsbrowser403 dargestellt (wie in der oben genannten Referenz YO998-392P erläutert ist). Der Browser403 empfängt Seiten mit CML von dem Präsentationsserver400 und verarbeitet die CML-Seiten. Die CML-Seite kann Informationen enthalten, die dem Browser403 die Feststellung ermöglichen, wohin Sprache zur Verarbeitung zu senden ist. Ein Sprachserver befindet sich im Maschinenserver401 . Wird angenommen, dass die CML-Seite eine Verarbeitung der Sprache durch den Maschinenserver401 anfordert, kann der Browser403 mit dem Sprachserver über HTTP (oder Sockets oder RMI) Daten austauschen (Anrufe übertragen), um Audiosignale an den Sprachserver zu versenden und die geeigneten Datendateibefehle und Maschinenanrufe senden. Es wird angenommen, dass der Browser403 des Client bestimmte lokale Verarbeitungsfähigkeiten besitzt, um eine Sprachverarbeitung (über Sprach-API und die Spracherkennungsmaschine405 ) auszuführen. Wie oben angemerkt wurde, wird die Verschiebung zwischen der lokalen Sprachverarbeitung und der serverseitigen Sprachverarbeitung durch die CML-Seite bestimmt, die vom Präsentationsserver400 empfangen wird. Diese Bestimmung kann durch den Inhaltanbieter oder die Anpassung an die Einheit codiert werden (der Client402 entscheidet, dass er die Aufgabe nicht ausführen kann und sendet sie an einen bekannten oder entdeckten Server oder Transcoder). - In
5 befindet sich der Browser403 an einem Browserserver404 , auf den durch den Client402 zugegriffen wird (der Browserserver404 wirkt als ein Zwischenglied zwischen dem Client402 und dem Präsentationsserver400 ). Der Browser403 legt wiederum fest, ob eine lokale oder eine serverseitige Verarbeitung ausgeführt wird. Die Audiosignale können unter Verwendung einer Konversationscodierung versendet werden, wie oben beschrieben wurde. - Die vorliegende Erfindung ermöglicht, dass eine Client-Einheit mit geringen Ressourcen einfache Aufgaben lokal sowie komplexe Aufgaben in binärer oder analoger Verbindung mit einem Server (oder einer anderen Einheit), die komplexere Konversationsfähigkeiten besitzen, transparent ausführt. Die serverseitigen Funktionen (wie etwa die Spracherkennung) können über ein reguläres IP-Netzwerk oder ein LAN-Netzwerk sowie über eine digitale Übertragung über eine herkömmliche Telefonleitung oder ein paketvermitteltes Netzwerk oder über ein herkömmliches drahtloses Datenprotokoll über ein Drahtlos-Netzwerk ausgeführt werden. Die Ausführungsform mit analoger/digitaler Verbindung beschreibt wenigstens zwei Szenarien. Erstens wird eine binäre Verbindung mit einer modemähnlichen Einheit realisiert, und sämtliche Funktionen sind Datenübertragungsfunktionen. Wenn ein Server/eine verteilte Ressource beteiligt ist, kann das System außerdem einen Telefonserver als Ressource anrufen, und Sprache wird über das Netzwerk gesendet (anstelle von Daten der Signalform oder einer Transformation hiervon, wie etwa Cepstra). Ein Beispiel eines derartigen Szenarios ist eine drahtlose Verbindung mit lokalen Spracherkennungsfunktionen (Namenwähleinrichtung und Ziffernwähleinrichtung), die über eine reguläre drahtlose Verbindung mit einem Telefonserver mit einer IVR oder anderen Funktionen wie z. B. Sprachbrowsen im Internet, das Erhalten von Aktien-/Anlagefondkursen und das Ausführen von Banktransaktionen über Sprache, verbindet. Dieser Mechanismus kann heutzutage mit vorhandenen Zellentelefonen verwendet werden, die mit bestimmten Spracherkennungsfähigkeiten in der Einheit ausgerüstet sind.
- Außerdem können verschiedene Mechanismen verwendet werden, um Verkehr und Ressourcen zu verwalten, die über das Netzwerk verteilt sind, um einen geeigneten Dialogfluss einer Konversationswechselwirkung über das Netzwerk zu garantieren. Zu derartige Mechanismen gehören: Konversationsprotokolle (die oben erläutert wurden), Audio: RecoVC (Erkennung mit kompatiblem VoCoder) (das Codierprotokoll mit Tonlage, das eine Rekonstruktion zur Wiedergabe ermöglicht), Anwendungen und Metainformationen: verteiltes Anwendungsprotokoll, Erkennung, Registrierung, Verhandlung, Serverbelastungs- Verwaltung, um einen Dialogfluss aufrechtzuerhalten, Verkehrsausgleich und Leiten, um einen Dialogfluss aufrechtzuerhalten, Maschinenserverauswahl anhand von Aufgabenmerkmalen und Fähigkeitsanforderungen und Verfügbarkeit von Konversationsargumenten (Datendateien), Konversationsargument-Verteilung: Speicherung, Verkehr/Lenkung und Cache-Speicherung.
- Obwohl veranschaulichende Ausführungsformen hier unter Bezugnahme auf die beigefügten Zeichnungen beschrieben wurden, sollte klar sein, dass das vorliegende System und das Verfahren nicht auf diese genauen Ausführungsformen beschränkt sind und verschiedene weitere Änderungen und Modifikationen durch einen Fachmann bewirkt werden können, ohne vom Umfang der Erfindung abzuweichen. Alle derartigen Änderungen und Modifikationen sollen im Umfang der Erfindung eingeschlossen sein, der durch die beigefügten Ansprüche definiert ist.
Claims (24)
- System zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen, wobei das System Folgendes umfasst: ein Netzwerk, das wenigstens eine erste lokale Netzwerkeinheit und eine zweite Netzwerkeinheit umfasst; wobei die erste lokale Netzwerkeinheit und die zweite Netzwerkeinheit jeweils Folgendes umfassen: eine Gruppe von Konversationsressourcen; einen Dialogmanager für das Verwalten einer Konversation und zum Ausführen von Anrufen, die einen Konversationsdienst anfordern; und ein Kommunikationspaket zum Kommunizieren von Nachrichten unter Verwendung von Konversationsprotokollen über das Netzwerk und das so beschaffen ist, dass es bewirkt, dass die unter Verwendung von Konversationsprotokollen übertragenen Nachrichten einen koordinierten Netzwerkdatenaustausch zwischen den Dialogmanagern der ersten lokalen Netzwerkeinheit und der zweiten Einheit herstellen, um gegebenenfalls ihren entsprechenden angeforderten Konversationsdienst auszuführen.
- System nach Anspruch 2, bei dem die Gruppe von Konversationsressourcen der ersten lokalen Netzwerkeinheit und der zweiten Einheit wenigstens eine Spracherkennungsmaschine, eine Sprechererkennungsmaschine, eine TTS-Maschine (Text-zu-Sprache-Synthesemaschine), eine NLU-Maschine (Maschine zum Verstehen natürlicher Sprache) eine NLG-Maschine (Maschine zum Erzeugen natürlicher Sprache), eine Audioerfassungs- und Kompressions-/Dekompressionsmaschine, eine Themengebiet-Erkennungsmaschine, eine Audio-/Multimedia-Indexierungs- und Suchmaschine oder eine Kombination hiervon umfasst.
- System nach Anspruch 1, bei dem die Konversationsprotokolle Koordinatenprotokolle umfassen, die den Dialogmanagern der ersten lokalen Netzwerkeinheit und der zweiten Einheit den Austausch von Daten ermöglichen, die ihren entsprechenden Konversationszustand, Argumente und Kontext- und Austausch-Dialogkomponenten umfassen.
- System nach Anspruch 3, wobei die Koordinatenprotokolle eine Master/Slave-Kommunikation oder eine Peer-zu-Peer-Kommunikation zwischen den Dialogmanagern der ersten lokalen Netzwerkeinheit und der zweiten Einheit koordinieren.
- System nach Anspruch 1, bei dem die Konversationsprotokolle Discovery Protocols umfassen, die der ersten lokalen Netzwerkeinheit und der zweiten Einheit ermöglichen, dialogbewusste Einheiten und Anwendungen im Netzwerk zu finden.
- System nach Anspruch 5, bei dem durch die Discovery Protocols eine "Rundsende- und Abhör-Methodologie" realisiert wird.
- System nach Anspruch 6, bei dem die Discovery Protocols eingesetzt werden, um ein dynamisches und spontanes Netzwerk wenigstens zwischen der ersten lokalen Netzwerkeinheit und der zweiten Netzwerkeinheit aufzubauen.
- System nach Anspruch 1, bei dem die Konversationsprotokolle Registrierungsprotokolle umfassen, um Daten in Bezug auf Konversationsressourcen, Möglichkeiten und Anforderungen auszutauschen.
- System nach Anspruch 8, bei dem die Konversationsprotokolle Verhandlungsprotokolle zum Datenaustausch umfassen, um eine Netzwerkkonfiguration zwischen der ersten lokalen Netzwerkeinheit und der zweiten Netzwerkeinheit anhand ihrer entsprechenden Konversationsressourcen und Möglichkeiten aufzubauen.
- System nach Anspruch 9, bei dem die Netzwerkkonfiguration ein Master/Slave-Netzwerk umfasst, wobei der Dialogmanager der ersten lokalen Netzwerkeinheit oder der zweiten Einheit die Konversationsressourcen sowohl der ersten lokalen Netzwerkeinheit als auch der zweiten Einheit und ein Peer-zu-Peer-Netzwerk steuert, wobei die Dialogmanager der ersten und der zweiten Einheit über die Steuerung von Konversationsressourcen verhandeln.
- System nach Anspruch 1, bei dem die Konversationsprotokolle Sprachübertragungsprotokolle umfassen, um Signalformen komprimierter Sprache, Merkmale komprimierter Sprache oder komprimierte Ergebnisse zwischen der ersten und der zweiten Einheit zu übertragen.
- System zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen, wobei das System Folgendes umfasst: einen Client, der lokale Konversationsressourcen und einen Dialogmanager zum Verwalten der lokalen Konversationsressourcen, zum Verarbeiten einer Anforderung nach einem Konversationsdienst und zum Feststellen, ob eine Anforderung nach einem Konversationsdienst unter Verwendung der lokalen Konversationsressourcen ausgeführt werden kann, umfasst; und einen Server, der Server-Konversationsressourcen umfasst, wobei der Dialogmanager des Client so beschaffen ist, dass er automatisch auf den Server zugreift, um die Anforderung unter Verwendung der Server-Konversationsressourcen zu verarbeiten, wenn der angeforderte Konversationsdienst nicht unter Verwendung der lokalen Konversationsressourcen ausgeführt werden kann.
- Verfahren zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen zwischen Netzwerkeinheiten, das die folgenden Schritte umfasst: Empfangen einer Anforderung nach einem Konversationsdienst durch eine erste lokale Netzwerkeinheit; Feststellen durch die erste lokale Netzwerkeinheit, ob der angeforderte Konversationsdienst lokal unter Verwendung von Konversationsressourcen der ersten lokalen Netzwerkeinheit, entfernt unter Verwendung von Konversationsressourcen wenigstens einer zweiten Netzwerkeinheit oder lokal und entfernt unter Verwendung sowohl lokaler als auch entfernter Konversationsressourcen verarbeitet wird; und automatischer Datenaustausch mit der wenigstens einen zweiten Netzwerkeinheit, wenn festgestellt wird, dass der Konversationsdienst wenigstens teilweise unter Verwendung der Konversationsressourcen der wenigstens einen zweiten Netzwerkeinheit verarbeitet wird.
- Verfahren nach Anspruch 13, das ferner den Schritt des Übertragens von Nachrichten unter Verwendung von Konversationsprotokollen umfasst, um einen koordinierten Netzwerkdatenaustausch zwischen der ersten lokalen Netzwerkeinheit und der wenigstens einen zweiten Netzwerkeinheit aufzubauen, um die Konversationsressourcen gemeinsam zu nutzen.
- Verfahren nach Anspruch 13, bei dem der Schritt des Feststellens die Schritte zum Feststellen umfasst, ob lokale Konversationsressourcen zum Verarbeiten des angeforderten Konversationsdienstes zur Verfügung stehen; und wobei das Verfahren ferner die folgenden Schritte umfasst: Ausführen des angeforderten Konversationsdienstes unter Verwendung der lokalen Konversationsressourcen, wenn festgestellt wird, dass lokale Konversationsressourcen zum Verarbeiten des angeforderten Konversationsdienstes zur Verfügung stehen; Feststellen, ob Ergebnisse der lokalen Verarbeitung annehmbar sind; und automatisches Zugreifen auf die wenigstens eine zweite Netzwerkeinheit, um den angeforderten Konversationsdienst entfernt zu verarbeiten, wenn festgestellt wird, dass die Ergebnisse der lokalen Verarbeitung nicht annehmbar sind.
- Verfahren nach Anspruch 13, bei dem der Schritt des Feststellens den Schritt zum Feststellen umfasst, ob die wenigstens eine zweite Netzwerkeinheit durch die erste lokale Netzwerkeinheit im Voraus für die Verarbeitung des Konversationsdienstes festgelegt wurde.
- Verfahren nach Anspruch 13, bei dem der Schritt des Feststellens auf der Verfügbarkeit der Netzwerkverbindung oder auf dem Netzwerkverkehr zwischen der ersten lokalen Netzwerkeinheit und der wenigstens einen zweiten Netzwerkeinheit beruht.
- Verfahren nach Anspruch 14, bei dem der Schritt des automatischen Zugreifens die folgenden Schritte umfasst: automatisches Herstellen einer Netzwerkverbindung mit der wenigstens einen zweiten Netzwerkeinheit durch das Übertragen von Nachrichten unter Verwendung der Konversationsprotokolle; und Übertragen von Merkmalen komprimierter Sprache oder komprimierten Signalformen an die wenigstens eine zweite Netzwerkeinheit.
- Programmspeichereinheit, die maschinenlesbar ist, die ein Programm von Befehlen, die durch die Maschine ausführbar sind, konkret beinhaltet, um Verfahrensschritte zum Bereitstellen einer automatischen und koordinierten gemeinsamen Nutzung von Konversationsressourcen zwischen Netzwerkeinheiten auszuführen, wobei die Verfahrensschritte Folgendes umfassen: Empfangen einer Anforderung nach einem Konversationsdienst durch eine erste lokale Netzwerkeinheit; Feststellen durch die erste lokale Netzwerkeinheit, ob der angeforderte Konversationsdienst lokal unter Verwendung von Konversationsressourcen der ersten lokalen Netzwerkeinheit, entfernt unter Verwendung von Konversationsressourcen der wenigstens einen zweiten Netzwerkeinheit oder lokal und entfernt unter Verwendung sowohl der lokalen als auch der entfernten Konversationsressourcen verarbeitet wird; und automatischer Datenaustausch mit der wenigstens einen zweiten Netzwerkeinheit, wenn festgestellt wird, dass der Konversationsdienst wenigstens teilweise entfernt unter Verwendung der Konversationsressourcen der wenigstens einen zweiten Netzwerkeinheit verarbeitet wird.
- Programmspeichereinheit nach Anspruch 19, die ferner Befehle zum Ausführen des Schritts zum Übertragen von Nachrichten in Übereinstimmung mit Konversationsprotokollen umfasst, um einen koordinierten Netzwerkdatenaustausch zwischen der ersten lokalen Netzwerkeinheit und der wenigstens einen zweiten Netzwerkeinheit aufzubauen, um die Konversationsressourcen gemeinsam zu nutzen.
- Programmspeichereinheit nach Anspruch 19, bei der die Befehle zum Ausführens des Feststellungsschritts Befehle zum Ausführen der Schritte zum Feststellen umfassen, ob lokale Konversationsressourcen zum Verarbeiten des angeforderten Konversationsdienstes zur Verfügung stehen; und wobei die Programmspeichereinheit ferner Befehle zum Ausführen der folgenden Schritte umfasst: Ausführen des angeforderten Konversationsdienstes unter Verwendung lokaler Konversationsressourcen, wenn festgestellt wird, dass lokale Konversationsressourcen zum Verarbeiten des angeforderten Konversationsdienstes zur Verfügung stehen; Feststellen, ob Ergebnisse der lokalen Verarbeitung annehmbar sind; und automatisches Zugreifen auf die wenigstens eine zweite Netzwerkeinheit, um den angeforderten Konversationsdienst entfernt zu verarbeiten, wenn festgestellt wird, dass die Ergebnisse der lokalen Verarbeitung nicht annehmbar sind.
- Programmspeichereinheit nach Anspruch 19, bei der die Befehle zum Ausführen des Feststellungsschritts Befehle zum Ausführen des Schritts zum Feststellen umfassen, ob die wenigstens eine zweite Netzwerkeinheit durch die erste lokale Netzwerkeinheit im Voraus für die Verarbeitung des Konversationsdienstes festgelegt wurde.
- Programmspeichereinheit nach Anspruch 19, bei der der Schritt des Feststellens auf der Verfügbarkeit der Netzwerkverbindung oder dem Netzwerkverkehr zwischen der ersten lokalen Netzwerkeinheit und der wenigstens einen zweiten Netzwerkeinheit beruht.
- Programmspeichereinheit nach Anspruch 20, bei der die Befehle zum Ausführen des Schritts des automatischen Zugreifens Befehle zum Ausführen der folgenden Schritte umfassen: automatisches Herstellen einer Netzwerkverbindung mit der wenigstens einen zweiten Netzwerkeinheit unter Verwendung der Konversationsprotokolle; und Übertragen von Merkmalen komprimierter Sprache oder einer komprimierten Signalform an die wenigstens eine zweite Netzwerkeinheit.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10295798P | 1998-10-02 | 1998-10-02 | |
US102957P | 1998-10-02 | ||
US11759599P | 1999-01-27 | 1999-01-27 | |
US117595P | 1999-01-27 | ||
PCT/US1999/022925 WO2000021075A1 (en) | 1998-10-02 | 1999-10-01 | System and method for providing network coordinated conversational services |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69937962D1 DE69937962D1 (de) | 2008-02-21 |
DE69937962T2 true DE69937962T2 (de) | 2008-12-24 |
Family
ID=26799924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69937962T Expired - Lifetime DE69937962T2 (de) | 1998-10-02 | 1999-10-01 | Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten |
Country Status (10)
Country | Link |
---|---|
US (4) | US7137126B1 (de) |
EP (4) | EP1125279B1 (de) |
JP (4) | JP2003525477A (de) |
KR (4) | KR100459299B1 (de) |
CN (4) | CN100472500C (de) |
AT (1) | ATE383640T1 (de) |
CA (4) | CA2345665C (de) |
DE (1) | DE69937962T2 (de) |
IL (5) | IL142364A0 (de) |
WO (4) | WO2000021232A2 (de) |
Families Citing this family (689)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7137126B1 (en) * | 1998-10-02 | 2006-11-14 | International Business Machines Corporation | Conversational computing via conversational virtual machine |
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US6163794A (en) * | 1998-10-23 | 2000-12-19 | General Magic | Network system extensible by users |
US6886047B2 (en) * | 1998-11-13 | 2005-04-26 | Jp Morgan Chase Bank | System and method for managing information retrievals for integrated digital and analog archives on a global basis |
FR2787902B1 (fr) * | 1998-12-23 | 2004-07-30 | France Telecom | Modele et procede d'implementation d'un agent rationnel dialoguant, serveur et systeme multi-agent pour la mise en oeuvre |
WO2001013255A2 (en) | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US7330815B1 (en) * | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
EP1107522B1 (de) * | 1999-12-06 | 2010-06-16 | Telefonaktiebolaget LM Ericsson (publ) | Intelligente Herstellung von Piconets |
JP2001188784A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
US20010043234A1 (en) * | 2000-01-03 | 2001-11-22 | Mallik Kotamarti | Incorporating non-native user interface mechanisms into a user interface |
WO2001059999A1 (en) * | 2000-02-11 | 2001-08-16 | Convergent Networks, Inc. | Service level executable environment for integrated pstn and ip networks and call processing language therefor |
WO2003050799A1 (en) * | 2001-12-12 | 2003-06-19 | International Business Machines Corporation | Method and system for non-intrusive speaker verification using behavior models |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
WO2001086896A1 (en) * | 2000-05-05 | 2001-11-15 | James Ewing | A method and a system relating to protocol communications within a pre-existing www server framework |
US6769010B1 (en) * | 2000-05-11 | 2004-07-27 | Howzone.Com Inc. | Apparatus for distributing information over a network-based environment, method of distributing information to users, and method for associating content objects with a database wherein the content objects are accessible over a network communication medium by a user |
FR2809204B1 (fr) * | 2000-05-17 | 2003-09-19 | Bull Sa | Interface applicative multiprosseur, ne necessitant pas l'utilisation d'un systeme d'exploitation multiprocesseur |
US7039951B1 (en) | 2000-06-06 | 2006-05-02 | International Business Machines Corporation | System and method for confidence based incremental access authentication |
US7047196B2 (en) | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
CA2689656A1 (en) * | 2000-06-16 | 2001-12-16 | Bayer Healthcare Llc | System, method and biosensor apparatus for data communications with a personal data assistant |
US6654722B1 (en) * | 2000-06-19 | 2003-11-25 | International Business Machines Corporation | Voice over IP protocol based speech system |
US6788667B1 (en) * | 2000-06-20 | 2004-09-07 | Nokia Corporation | Wireless access to wired network audio services using mobile voice call |
WO2002005153A2 (en) * | 2000-07-07 | 2002-01-17 | 2020Me Holdings Ltd. | System, method and medium for facilitating transactions over a network |
US7139709B2 (en) | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US6785651B1 (en) * | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
EP1332605A4 (de) | 2000-10-16 | 2004-10-06 | Eliza Corp | Verfahren und system zur bereitstellung eines adaptiven respondent-training in einer spracherkennungsanwendung |
US7072982B2 (en) | 2000-11-22 | 2006-07-04 | Microsoft Corporation | Universal naming scheme for peer to peer resources |
US7594030B2 (en) | 2000-11-22 | 2009-09-22 | Microsoft Corporation | Locator and tracking service for peer to peer resources |
EP1211588B1 (de) * | 2000-12-04 | 2005-09-21 | Siemens Aktiengesellschaft | Verfahren zum Nutzen einer Datenverarbeitungsanlage abhängig von einer Berechtigung, zugehörige Datenverarbeitungsanlage und zugehöriges Programm |
US7016847B1 (en) | 2000-12-08 | 2006-03-21 | Ben Franklin Patent Holdings L.L.C. | Open architecture for a voice user interface |
GB0030958D0 (en) * | 2000-12-19 | 2001-01-31 | Smart Card Solutions Ltd | Compartmentalized micro-controller operating system architecture |
JP3322262B2 (ja) * | 2000-12-22 | 2002-09-09 | 日本電気株式会社 | 無線携帯端末通信システム |
DE10064661A1 (de) * | 2000-12-22 | 2002-07-11 | Siemens Ag | Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion |
FI20002860A (fi) * | 2000-12-27 | 2002-06-28 | Nokia Corp | Laiteroolit ja pikoverkkoyhteydet |
US6925645B2 (en) * | 2000-12-29 | 2005-08-02 | Webex Communications, Inc. | Fault tolerant server architecture for collaborative computing |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US7461148B1 (en) * | 2001-02-16 | 2008-12-02 | Swsoft Holdings, Ltd. | Virtual private server with isolation of system components |
EP1233590A1 (de) | 2001-02-19 | 2002-08-21 | Sun Microsystems, Inc. | Inhaltsanbieter für ein Computersystem |
US7606909B1 (en) * | 2001-02-20 | 2009-10-20 | Michael Ely | Method and apparatus for a business contact center |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
CN1291307C (zh) | 2001-03-22 | 2006-12-20 | 佳能株式会社 | 信息处理装置和方法 |
US7174514B2 (en) * | 2001-03-28 | 2007-02-06 | Siebel Systems, Inc. | Engine to present a user interface based on a logical structure, such as one for a customer relationship management system, across a web site |
US6996531B2 (en) * | 2001-03-30 | 2006-02-07 | Comverse Ltd. | Automated database assistance using a telephone for a speech based or text based multimedia communication mode |
FR2822994B1 (fr) * | 2001-03-30 | 2004-05-21 | Bouygues Telecom Sa | Assistance au conducteur d'un vehicule automobile |
CA2344904A1 (en) * | 2001-04-23 | 2002-10-23 | Bruno Richard Preiss | Interactive voice response system and method |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7698228B2 (en) | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7020841B2 (en) | 2001-06-07 | 2006-03-28 | International Business Machines Corporation | System and method for generating and presenting multi-modal applications from intent-based markup scripts |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US7606712B1 (en) * | 2001-06-28 | 2009-10-20 | At&T Intellectual Property Ii, L.P. | Speech recognition interface for voice actuation of legacy systems |
US7647597B2 (en) * | 2001-06-28 | 2010-01-12 | Microsoft Corporation | Transparent and sub-classable proxies |
US6839896B2 (en) * | 2001-06-29 | 2005-01-04 | International Business Machines Corporation | System and method for providing dialog management and arbitration in a multi-modal environment |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
US7324947B2 (en) | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
US7472091B2 (en) | 2001-10-03 | 2008-12-30 | Accenture Global Services Gmbh | Virtual customer database |
CA2749351C (en) * | 2001-10-03 | 2012-02-07 | Accenture Global Services Gmbh | Multi-modal messaging and callback with service authorizer and virtual customer database |
EP1708470B1 (de) * | 2001-10-03 | 2012-05-16 | Accenture Global Services Limited | Verschiedene Modi unterstützendes Rückrufsystem |
US7233655B2 (en) | 2001-10-03 | 2007-06-19 | Accenture Global Services Gmbh | Multi-modal callback |
US7441016B2 (en) | 2001-10-03 | 2008-10-21 | Accenture Global Services Gmbh | Service authorizer |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7222073B2 (en) | 2001-10-24 | 2007-05-22 | Agiletv Corporation | System and method for speech activated navigation |
US7133830B1 (en) | 2001-11-13 | 2006-11-07 | Sr2, Inc. | System and method for supporting platform independent speech applications |
US20030101054A1 (en) * | 2001-11-27 | 2003-05-29 | Ncc, Llc | Integrated system and method for electronic speech recognition and transcription |
US8498871B2 (en) * | 2001-11-27 | 2013-07-30 | Advanced Voice Recognition Systems, Inc. | Dynamic speech recognition and transcription among users having heterogeneous protocols |
US7302394B1 (en) * | 2001-12-20 | 2007-11-27 | Ianywhere Solutions, Inc. | Front-end device independence for natural interaction platform |
GB2388209C (en) | 2001-12-20 | 2005-08-23 | Canon Kk | Control apparatus |
US20060168095A1 (en) * | 2002-01-22 | 2006-07-27 | Dipanshu Sharma | Multi-modal information delivery system |
US6990639B2 (en) | 2002-02-07 | 2006-01-24 | Microsoft Corporation | System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration |
US6807529B2 (en) * | 2002-02-27 | 2004-10-19 | Motorola, Inc. | System and method for concurrent multimodal communication |
US6704396B2 (en) | 2002-02-27 | 2004-03-09 | Sbc Technology Resources, Inc. | Multi-modal communications method |
US20030187944A1 (en) * | 2002-02-27 | 2003-10-02 | Greg Johnson | System and method for concurrent multimodal communication using concurrent multimodal tags |
GB0204768D0 (en) * | 2002-02-28 | 2002-04-17 | Mitel Knowledge Corp | Bimodal feature access for web applications |
FR2840484B1 (fr) * | 2002-05-28 | 2004-09-03 | France Telecom | Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7822609B2 (en) | 2002-06-14 | 2010-10-26 | Nuance Communications, Inc. | Voice browser with integrated TCAP and ISUP interfaces |
KR20040002031A (ko) * | 2002-06-29 | 2004-01-07 | 주식회사 케이티 | 다수의 응용프로그램들간의 음성인식엔진 공유 방법 |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7809578B2 (en) * | 2002-07-17 | 2010-10-05 | Nokia Corporation | Mobile device having voice user interface, and a method for testing the compatibility of an application with the mobile device |
US20040054757A1 (en) * | 2002-09-14 | 2004-03-18 | Akinobu Ueda | System for remote control of computer resources from embedded handheld devices |
US8321427B2 (en) | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
US7519534B2 (en) | 2002-10-31 | 2009-04-14 | Agiletv Corporation | Speech controlled access to content on a presentation medium |
US7987091B2 (en) * | 2002-12-02 | 2011-07-26 | Sony Corporation | Dialog control device and method, and robot device |
KR20040051285A (ko) * | 2002-12-12 | 2004-06-18 | 삼성전자주식회사 | 애플릿이 링크된 마크업 문서의 디스플레이 방법 및 그시스템 |
US7822612B1 (en) * | 2003-01-03 | 2010-10-26 | Verizon Laboratories Inc. | Methods of processing a voice command from a caller |
US7673304B2 (en) * | 2003-02-18 | 2010-03-02 | Microsoft Corporation | Multithreaded kernel for graphics processing unit |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US7249025B2 (en) * | 2003-05-09 | 2007-07-24 | Matsushita Electric Industrial Co., Ltd. | Portable device for enhanced security and accessibility |
EP1631899A4 (de) * | 2003-06-06 | 2007-07-18 | Univ Columbia | System und verfahren zur sprachaktivierung von web-seiten |
CA2529395A1 (en) | 2003-06-26 | 2005-01-13 | Agiletv Corporation | Zero-search, zero-memory vector quantization |
US7313528B1 (en) * | 2003-07-31 | 2007-12-25 | Sprint Communications Company L.P. | Distributed network based message processing system for text-to-speech streaming data |
US7383302B2 (en) * | 2003-09-15 | 2008-06-03 | International Business Machines Corporation | Method and system for providing a common collaboration framework accessible from within multiple applications |
US7428273B2 (en) | 2003-09-18 | 2008-09-23 | Promptu Systems Corporation | Method and apparatus for efficient preamble detection in digital data receivers |
US7249348B2 (en) * | 2003-10-21 | 2007-07-24 | Hewlett-Packard Development Company, L.P. | Non-interfering status inquiry for user threads |
US7199802B2 (en) * | 2003-10-24 | 2007-04-03 | Microsoft Corporation | Multiple-mode window presentation system and process |
US7856632B2 (en) * | 2004-01-29 | 2010-12-21 | Klingman Edwin E | iMEM ASCII architecture for executing system operators and processing data operators |
US20050229185A1 (en) * | 2004-02-20 | 2005-10-13 | Stoops Daniel S | Method and system for navigating applications |
US7904059B2 (en) * | 2004-02-25 | 2011-03-08 | Sk Telecom Co., Ltd. | Method and mobile terminal for implementing vector animation interactive service on mobile phone browser |
US7925510B2 (en) * | 2004-04-28 | 2011-04-12 | Nuance Communications, Inc. | Componentized voice server with selectable internal and external speech detectors |
US7596788B1 (en) * | 2004-05-11 | 2009-09-29 | Platform Computing Corporation | Support of non-trivial scheduling policies along with topological properties |
US20050289531A1 (en) * | 2004-06-08 | 2005-12-29 | Daniel Illowsky | Device interoperability tool set and method for processing interoperability application specifications into interoperable application packages |
US7814502B2 (en) * | 2004-06-14 | 2010-10-12 | Nokia Corporation | Shared landmark user interfaces |
KR100627228B1 (ko) * | 2004-07-01 | 2006-09-25 | 에스케이 텔레콤주식회사 | 기업용 무선 어플리케이션 서비스를 위한 전용 브라우저시스템 및 그 운영방법 |
US7483968B1 (en) * | 2004-07-29 | 2009-01-27 | Emc Corporation | System and method for configuring resource groups |
FI20041075A0 (fi) * | 2004-08-12 | 2004-08-12 | Nokia Corp | Tiedon lähettäminen ryhmälle vastaanottolaitteita |
US8744852B1 (en) * | 2004-10-01 | 2014-06-03 | Apple Inc. | Spoken interfaces |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
US8706501B2 (en) * | 2004-12-09 | 2014-04-22 | Nuance Communications, Inc. | Method and system for sharing speech processing resources over a communication network |
US7640162B2 (en) * | 2004-12-14 | 2009-12-29 | Microsoft Corporation | Semantic canvas |
KR100654447B1 (ko) * | 2004-12-15 | 2006-12-06 | 삼성전자주식회사 | 지역별로 존재하는 컨텐츠를 글로벌로 공유하고 거래하는방법 및 시스템 |
US7987244B1 (en) * | 2004-12-30 | 2011-07-26 | At&T Intellectual Property Ii, L.P. | Network repository for voice fonts |
KR100725719B1 (ko) * | 2005-02-04 | 2007-06-08 | 주식회사 유진로봇 | 음성과 태스크 오브젝트 기반의 대화시스템 |
US7490042B2 (en) * | 2005-03-29 | 2009-02-10 | International Business Machines Corporation | Methods and apparatus for adapting output speech in accordance with context of communication |
US9111253B2 (en) * | 2005-04-22 | 2015-08-18 | Sap Se | Groupware time tracking |
US20060271520A1 (en) * | 2005-05-27 | 2006-11-30 | Ragan Gene Z | Content-based implicit search query |
WO2006133547A1 (en) | 2005-06-13 | 2006-12-21 | E-Lane Systems Inc. | Vehicle immersive communication system |
US8090084B2 (en) * | 2005-06-30 | 2012-01-03 | At&T Intellectual Property Ii, L.P. | Automated call router for business directory using the world wide web |
JP4667138B2 (ja) | 2005-06-30 | 2011-04-06 | キヤノン株式会社 | 音声認識方法及び音声認識装置 |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7634409B2 (en) | 2005-08-31 | 2009-12-15 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US9009046B1 (en) * | 2005-09-27 | 2015-04-14 | At&T Intellectual Property Ii, L.P. | System and method for disambiguating multiple intents in a natural language dialog system |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
CN103824177B (zh) * | 2005-10-05 | 2018-03-20 | 邓白氏公司 | 用于多个产品的模块化的基于Web的ASP应用 |
US8041800B2 (en) * | 2005-11-08 | 2011-10-18 | International Business Machines Corporation | Automatic orchestration of dynamic multiple party, multiple media communications |
US20070124142A1 (en) * | 2005-11-25 | 2007-05-31 | Mukherjee Santosh K | Voice enabled knowledge system |
JP4829600B2 (ja) * | 2005-11-28 | 2011-12-07 | キヤノン株式会社 | 通信装置及び通信装置の制御方法 |
US9215748B2 (en) | 2005-11-28 | 2015-12-15 | Canon Kabushiki Kaisha | Communication apparatus, control method for communication apparatus, and communication system |
JP2007164732A (ja) * | 2005-12-16 | 2007-06-28 | Crescent:Kk | コンピュータ実行可能なプログラム、および情報処理装置 |
DE102005061365A1 (de) * | 2005-12-21 | 2007-06-28 | Siemens Ag | Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem |
CN100382083C (zh) * | 2005-12-23 | 2008-04-16 | 威盛电子股份有限公司 | 网络会话管理方法及系统 |
US7840964B2 (en) * | 2005-12-30 | 2010-11-23 | Intel Corporation | Mechanism to transition control between components in a virtual machine environment |
KR101204408B1 (ko) * | 2006-01-19 | 2012-11-27 | 삼성전자주식회사 | 유니폼 객체 모델을 이용한 유비쿼터스 서비스/디바이스테스트 방법 및 장치 |
US20070180365A1 (en) * | 2006-01-27 | 2007-08-02 | Ashok Mitter Khosla | Automated process and system for converting a flowchart into a speech mark-up language |
US8078990B2 (en) | 2006-02-01 | 2011-12-13 | Research In Motion Limited | Secure device sharing |
US20070225983A1 (en) * | 2006-03-23 | 2007-09-27 | Theodore Maringo | Worldwide time device |
KR101264318B1 (ko) * | 2006-07-07 | 2013-05-22 | 삼성전자주식회사 | 네트워크 환경에서의 서비스 메뉴 및 서비스 제공방법 및그 서비스 제공장치 |
KR100807307B1 (ko) * | 2006-07-10 | 2008-02-28 | 한국전자통신연구원 | 대화형 음성 인터페이스 시스템 및 그 응답 방법 |
US9976865B2 (en) | 2006-07-28 | 2018-05-22 | Ridetones, Inc. | Vehicle communication system with navigation |
US20100030557A1 (en) | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
US8589869B2 (en) | 2006-09-07 | 2013-11-19 | Wolfram Alpha Llc | Methods and systems for determining a formula |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7957976B2 (en) * | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
KR100832534B1 (ko) * | 2006-09-28 | 2008-05-27 | 한국전자통신연구원 | 음성 인식을 통한 컨텐츠 정보 서비스 제공 장치 및 그방법 |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8478250B2 (en) | 2007-07-30 | 2013-07-02 | Bindu Rama Rao | Interactive media management server |
US11256386B2 (en) | 2006-11-22 | 2022-02-22 | Qualtrics, Llc | Media management system supporting a plurality of mobile devices |
US10803474B2 (en) | 2006-11-22 | 2020-10-13 | Qualtrics, Llc | System for creating and distributing interactive advertisements to mobile devices |
US8700014B2 (en) | 2006-11-22 | 2014-04-15 | Bindu Rama Rao | Audio guided system for providing guidance to user of mobile device on multi-step activities |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US20080140390A1 (en) * | 2006-12-11 | 2008-06-12 | Motorola, Inc. | Solution for sharing speech processing resources in a multitasking environment |
CA2572116A1 (en) * | 2006-12-27 | 2008-06-27 | Ibm Canada Limited - Ibm Canada Limitee | System and method for processing multi-modal communication within a workgroup |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8788620B2 (en) * | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US8131549B2 (en) * | 2007-05-24 | 2012-03-06 | Microsoft Corporation | Personality-based device |
AU2012244080B2 (en) * | 2007-05-24 | 2014-04-17 | Microsoft Technology Licensing, Llc | Personality-based Device |
US9794348B2 (en) | 2007-06-04 | 2017-10-17 | Todd R. Smith | Using voice commands from a mobile device to remotely access and control a computer |
US8612972B2 (en) * | 2007-06-27 | 2013-12-17 | Microsoft Corporation | Running add-on components in virtual environments |
US20090018818A1 (en) * | 2007-07-10 | 2009-01-15 | Aibelive Co., Ltd. | Operating device for natural language input |
US9264483B2 (en) | 2007-07-18 | 2016-02-16 | Hammond Development International, Inc. | Method and system for enabling a communication device to remotely execute an application |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8472934B2 (en) * | 2007-11-28 | 2013-06-25 | Nokia Corporation | Portable apparatus, method and user interface |
JP2010020273A (ja) * | 2007-12-07 | 2010-01-28 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9703784B2 (en) * | 2007-12-24 | 2017-07-11 | Sandisk Il Ltd. | Mobile device and method for concurrently processing content according to multiple playlists |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8086455B2 (en) * | 2008-01-09 | 2011-12-27 | Microsoft Corporation | Model development authoring, generation and execution based on data and processor dependencies |
US20090198496A1 (en) * | 2008-01-31 | 2009-08-06 | Matthias Denecke | Aspect oriented programmable dialogue manager and apparatus operated thereby |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
CA2719301C (en) * | 2008-03-25 | 2016-10-04 | E-Lane Systems Inc. | Multi-participant, mixed-initiative voice interaction system |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) * | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2009143187A2 (en) * | 2008-05-19 | 2009-11-26 | Citrix Systems, Inc. | Systems and methods for remoting multimedia plugin calls |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
WO2009149219A2 (en) * | 2008-06-03 | 2009-12-10 | Whirlpool Corporation | Appliance development toolkit |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
CA2727951A1 (en) | 2008-06-19 | 2009-12-23 | E-Lane Systems Inc. | Communication system with voice mail access and call by spelling functionality |
US20090328062A1 (en) * | 2008-06-25 | 2009-12-31 | Microsoft Corporation | Scalable and extensible communication framework |
CN101621480B (zh) * | 2008-06-30 | 2012-03-28 | 国际商业机器公司 | 呈现服务器和在其中使用的xsl文件处理方法 |
US9652023B2 (en) | 2008-07-24 | 2017-05-16 | Intelligent Mechatronic Systems Inc. | Power management system |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
US8959053B2 (en) * | 2008-08-13 | 2015-02-17 | Alcatel Lucent | Configuration file framework to support high availability schema based upon asynchronous checkpointing |
JP5829000B2 (ja) * | 2008-08-20 | 2015-12-09 | 株式会社ユニバーサルエンターテインメント | 会話シナリオ編集装置 |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8121842B2 (en) * | 2008-12-12 | 2012-02-21 | Microsoft Corporation | Audio output of a document from mobile device |
US8914417B2 (en) | 2009-01-07 | 2014-12-16 | International Business Machines Corporation | Apparatus, system, and method for maintaining a context stack |
TW201027378A (en) * | 2009-01-08 | 2010-07-16 | Realtek Semiconductor Corp | Virtual platform and related simulation method |
US8498866B2 (en) * | 2009-01-15 | 2013-07-30 | K-Nfb Reading Technology, Inc. | Systems and methods for multiple language document narration |
WO2010084497A1 (en) * | 2009-01-26 | 2010-07-29 | Tomer London | System and method for providing visual content and services to wireless terminal devices in response to a received voice call |
US9529573B2 (en) * | 2009-01-28 | 2016-12-27 | Microsoft Technology Licensing, Llc | Graphical user interface generation through use of a binary file |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
CN101533409B (zh) * | 2009-04-23 | 2011-03-02 | 何海群 | 一种网络浏览器系统和控制方法 |
US8788524B1 (en) | 2009-05-15 | 2014-07-22 | Wolfram Alpha Llc | Method and system for responding to queries in an imprecise syntax |
US8601015B1 (en) | 2009-05-15 | 2013-12-03 | Wolfram Alpha Llc | Dynamic example generation for queries |
WO2010135837A1 (en) * | 2009-05-28 | 2010-12-02 | Intelligent Mechatronic Systems Inc | Communication system with personal information management and remote vehicle monitoring and control features |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9002713B2 (en) * | 2009-06-09 | 2015-04-07 | At&T Intellectual Property I, L.P. | System and method for speech personalization by need |
US9055151B2 (en) * | 2009-06-22 | 2015-06-09 | Avaya Inc. | Method to set the flag as replied or forwarded to all replied or forwarded voice messages |
US8442189B2 (en) * | 2009-06-22 | 2013-05-14 | Avaya Inc. | Unified communications appliance |
US9667726B2 (en) | 2009-06-27 | 2017-05-30 | Ridetones, Inc. | Vehicle internet radio interface |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US20110125733A1 (en) * | 2009-11-25 | 2011-05-26 | Fish Nathan J | Quick access utility |
US9978272B2 (en) | 2009-11-25 | 2018-05-22 | Ridetones, Inc | Vehicle to vehicle chatting and communication system |
US20110144976A1 (en) * | 2009-12-10 | 2011-06-16 | Arun Jain | Application user interface system and method |
US8868427B2 (en) * | 2009-12-11 | 2014-10-21 | General Motors Llc | System and method for updating information in electronic calendars |
EP3091535B1 (de) * | 2009-12-23 | 2023-10-11 | Google LLC | Multimodale eingabe in eine elektronische vorrichtung |
GB0922608D0 (en) * | 2009-12-23 | 2010-02-10 | Vratskides Alexios | Message optimization |
JP2011139303A (ja) * | 2009-12-28 | 2011-07-14 | Nec Corp | 通信システム、制御装置、通信制御方法、およびプログラム |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US9665620B2 (en) * | 2010-01-15 | 2017-05-30 | Ab Initio Technology Llc | Managing data queries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8645914B2 (en) | 2010-01-22 | 2014-02-04 | AgentSheets, Inc. | Conversational programming |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8433828B2 (en) | 2010-02-26 | 2013-04-30 | Apple Inc. | Accessory protocol for touch screen device accessibility |
US8554948B2 (en) * | 2010-03-03 | 2013-10-08 | At&T Intellectual Property I, L.P. | Methods, systems and computer program products for identifying traffic on the internet using communities of interest |
JP5560814B2 (ja) * | 2010-03-24 | 2014-07-30 | 日本電気株式会社 | 負荷分散システム、負荷分散サーバおよび負荷分散方法 |
US8612932B2 (en) * | 2010-04-18 | 2013-12-17 | Voxeo Corporation | Unified framework and method for call control and media control |
US8776091B2 (en) * | 2010-04-30 | 2014-07-08 | Microsoft Corporation | Reducing feedback latency |
US8484015B1 (en) | 2010-05-14 | 2013-07-09 | Wolfram Alpha Llc | Entity pages |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8352908B2 (en) | 2010-06-28 | 2013-01-08 | International Business Machines Corporation | Multi-modal conversion tool for form-type applications |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9246914B2 (en) * | 2010-07-16 | 2016-01-26 | Nokia Technologies Oy | Method and apparatus for processing biometric information using distributed computation |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8812298B1 (en) | 2010-07-28 | 2014-08-19 | Wolfram Alpha Llc | Macro replacement of natural language input |
US8775618B2 (en) * | 2010-08-02 | 2014-07-08 | Ebay Inc. | Application platform with flexible permissioning |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8688435B2 (en) * | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US20120173242A1 (en) * | 2010-12-30 | 2012-07-05 | Samsung Electronics Co., Ltd. | System and method for exchange of scribble data between gsm devices along with voice |
US9183843B2 (en) | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US10032455B2 (en) | 2011-01-07 | 2018-07-24 | Nuance Communications, Inc. | Configurable speech recognition system using a pronunciation alignment between multiple recognizers |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9542657B2 (en) * | 2011-02-23 | 2017-01-10 | Avaya Inc. | Method and system for optimizing contact center performance |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US8171137B1 (en) | 2011-05-09 | 2012-05-01 | Google Inc. | Transferring application state across devices |
WO2012158572A2 (en) * | 2011-05-13 | 2012-11-22 | Microsoft Corporation | Exploiting query click logs for domain detection in spoken language understanding |
US20120317492A1 (en) * | 2011-05-27 | 2012-12-13 | Telefon Projekt LLC | Providing Interactive and Personalized Multimedia Content from Remote Servers |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US9069814B2 (en) | 2011-07-27 | 2015-06-30 | Wolfram Alpha Llc | Method and system for using natural language to generate widgets |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8645978B2 (en) * | 2011-09-02 | 2014-02-04 | Compuverde Ab | Method for data maintenance |
US9734252B2 (en) | 2011-09-08 | 2017-08-15 | Wolfram Alpha Llc | Method and system for analyzing data using a query answering system |
US8645532B2 (en) * | 2011-09-13 | 2014-02-04 | BlueStripe Software, Inc. | Methods and computer program products for monitoring the contents of network traffic in a network device |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9851950B2 (en) | 2011-11-15 | 2017-12-26 | Wolfram Alpha Llc | Programming in a precise syntax using natural language |
US8595016B2 (en) * | 2011-12-23 | 2013-11-26 | Angle, Llc | Accessing content using a source-specific content-adaptable dialogue |
KR101962126B1 (ko) * | 2012-02-24 | 2019-03-26 | 엘지전자 주식회사 | 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법 |
CN103295575B (zh) * | 2012-02-27 | 2019-01-25 | 北京三星通信技术研究有限公司 | 一种语音识别方法和客户端 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
EP2847663A4 (de) * | 2012-05-07 | 2015-12-30 | Citrix Systems Inc | Spracherkennungsunterstützung für entfernte anwendungen und desktops |
US20130304536A1 (en) * | 2012-05-10 | 2013-11-14 | Ebay, Inc. | Harvest Customer Tracking Information |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10395270B2 (en) | 2012-05-17 | 2019-08-27 | Persado Intellectual Property Limited | System and method for recommending a grammar for a message campaign used by a message optimization system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US20140006318A1 (en) * | 2012-06-29 | 2014-01-02 | Poe XING | Collecting, discovering, and/or sharing media objects |
US8880398B1 (en) * | 2012-07-13 | 2014-11-04 | Google Inc. | Localized speech recognition with offload |
US9710475B1 (en) | 2012-07-16 | 2017-07-18 | Tintri Inc. | Synchronization of data |
KR20180080338A (ko) * | 2012-07-19 | 2018-07-11 | 글랜스 네트웍스, 인크 | 다른 형태의 정보 공유를 통한 코브라우징의 통합 |
US8577671B1 (en) * | 2012-07-20 | 2013-11-05 | Veveo, Inc. | Method of and system for using conversation state information in a conversational interaction system |
US9485330B2 (en) | 2012-07-30 | 2016-11-01 | Tencent Technology (Shenzhen) Company Limited | Web browser operation method and system |
CN103577444B (zh) * | 2012-07-30 | 2017-04-05 | 腾讯科技(深圳)有限公司 | 一种操控浏览器的方法及系统 |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
US9378073B2 (en) | 2012-08-14 | 2016-06-28 | International Business Machines Corporation | Remote procedure call for a distributed system |
US9384736B2 (en) * | 2012-08-21 | 2016-07-05 | Nuance Communications, Inc. | Method to provide incremental UI response based on multiple asynchronous evidence about user input |
US9405424B2 (en) | 2012-08-29 | 2016-08-02 | Wolfram Alpha, Llc | Method and system for distributing and displaying graphical items |
CN102831229A (zh) * | 2012-08-30 | 2012-12-19 | 浙大网新科技股份有限公司 | 适合盲人使用的网页浏览方法 |
KR102150289B1 (ko) * | 2012-08-30 | 2020-09-01 | 삼성전자주식회사 | 사용자 단말에서 사용자 인터페이스 장치 및 이를 지원하는 방법 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US8700396B1 (en) * | 2012-09-11 | 2014-04-15 | Google Inc. | Generating speech data collection prompts |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
CN104769668B (zh) | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
US9035884B2 (en) * | 2012-10-17 | 2015-05-19 | Nuance Communications, Inc. | Subscription updates in multiple device language models |
US20150278194A1 (en) * | 2012-11-07 | 2015-10-01 | Nec Corporation | Information processing device, information processing method and medium |
KR101980834B1 (ko) * | 2012-11-28 | 2019-05-21 | 한국전자통신연구원 | 컨텍스트 정보 기반 응용프로그램 관리방법 및 그 장치 |
US9003039B2 (en) | 2012-11-29 | 2015-04-07 | Thales Canada Inc. | Method and apparatus of resource allocation or resource release |
KR101940719B1 (ko) * | 2012-12-14 | 2019-01-23 | 한국전자통신연구원 | 태스크 그래프 기반 대화 처리 시스템의 태스크 그래프 구축 장치 및 방법 |
CN103117058B (zh) * | 2012-12-20 | 2015-12-09 | 四川长虹电器股份有限公司 | 基于智能电视平台的多语音引擎切换系统及方法 |
CN103020278A (zh) * | 2012-12-28 | 2013-04-03 | 深圳创维数字技术股份有限公司 | 一种网页的控制方法及浏览器 |
US9430420B2 (en) | 2013-01-07 | 2016-08-30 | Telenav, Inc. | Computing system with multimodal interaction mechanism and method of operation thereof |
US9922639B1 (en) | 2013-01-11 | 2018-03-20 | Amazon Technologies, Inc. | User feedback for speech interactions |
CN103971687B (zh) * | 2013-02-01 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 一种语音识别系统中的负载均衡实现方法和装置 |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9817835B2 (en) * | 2013-03-12 | 2017-11-14 | Tintri Inc. | Efficient data synchronization for storage containers |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9218052B2 (en) | 2013-03-14 | 2015-12-22 | Samsung Electronics Co., Ltd. | Framework for voice controlling applications |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
CN112230878A (zh) | 2013-03-15 | 2021-01-15 | 苹果公司 | 对中断进行上下文相关处理 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9348555B2 (en) * | 2013-03-15 | 2016-05-24 | Volkswagen Ag | In-vehicle access of mobile device functions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9125180B1 (en) | 2013-03-15 | 2015-09-01 | Google Inc. | Techniques for automatically establishing a long-lasting connection across computing devices configured for short-range wireless communication |
US9875494B2 (en) * | 2013-04-16 | 2018-01-23 | Sri International | Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant |
WO2014183035A1 (en) | 2013-05-10 | 2014-11-13 | Veveo, Inc. | Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system |
US9431008B2 (en) * | 2013-05-29 | 2016-08-30 | Nuance Communications, Inc. | Multiple parallel dialogs in smart phone applications |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
EP3005348B1 (de) * | 2013-06-07 | 2020-03-11 | Nuance Communications, Inc. | Sprachbasierte suche durch beschreibungsfunktionen von umgebungsobjekten |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (de) | 2013-06-09 | 2016-04-20 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
US9311298B2 (en) * | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
KR102053820B1 (ko) | 2013-07-02 | 2019-12-09 | 삼성전자주식회사 | 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법 |
US10956433B2 (en) * | 2013-07-15 | 2021-03-23 | Microsoft Technology Licensing, Llc | Performing an operation relative to tabular data based upon voice input |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10109273B1 (en) | 2013-08-29 | 2018-10-23 | Amazon Technologies, Inc. | Efficient generation of personalized spoken language understanding models |
US9361289B1 (en) * | 2013-08-30 | 2016-06-07 | Amazon Technologies, Inc. | Retrieval and management of spoken language understanding personalization data |
US10628378B2 (en) | 2013-09-03 | 2020-04-21 | Tintri By Ddn, Inc. | Replication of snapshots and clones |
US9495965B2 (en) * | 2013-09-20 | 2016-11-15 | American Institutes For Research | Synthesis and display of speech commands method and system |
CN103474065A (zh) * | 2013-09-24 | 2013-12-25 | 贵阳世纪恒通科技有限公司 | 基于自动分类技术的语音意图判定识别方法 |
WO2015050543A1 (en) * | 2013-10-02 | 2015-04-09 | Empire Technology Development, Llc | Identification of distributed user interface (dui) elements |
CN104598257B (zh) | 2013-10-30 | 2019-01-18 | 华为技术有限公司 | 远程应用程序运行的方法和装置 |
KR101740332B1 (ko) * | 2013-11-05 | 2017-06-08 | 한국전자통신연구원 | 자동 번역 장치 및 방법 |
US9754591B1 (en) | 2013-11-18 | 2017-09-05 | Amazon Technologies, Inc. | Dialog management context sharing |
US9690854B2 (en) * | 2013-11-27 | 2017-06-27 | Nuance Communications, Inc. | Voice-enabled dialog interaction with web pages |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9558176B2 (en) | 2013-12-06 | 2017-01-31 | Microsoft Technology Licensing, Llc | Discriminating between natural language and keyword language items |
KR101489826B1 (ko) * | 2013-12-30 | 2015-02-04 | 유승우 | 더미 터미널 및 본체 |
CA2939468A1 (en) * | 2014-02-13 | 2015-08-20 | Nec Corporation | Communication system, communication device, communication method, and non-transitory computer readable medium storing program |
CA2980707A1 (en) * | 2014-03-25 | 2015-10-01 | Botanic Technologies, Inc. | Systems and methods for executing cryptographically secure transactions using voice and natural language processing |
US20150278853A1 (en) * | 2014-04-01 | 2015-10-01 | DoubleVerify, Inc. | System And Method For Identifying Hidden Content |
JP2015207819A (ja) * | 2014-04-17 | 2015-11-19 | 株式会社リコー | 情報処理装置、情報処理システム、通信制御方法およびプログラム |
US9514376B2 (en) * | 2014-04-29 | 2016-12-06 | Google Inc. | Techniques for distributed optical character recognition and distributed machine language translation |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US11314826B2 (en) | 2014-05-23 | 2022-04-26 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9990433B2 (en) | 2014-05-23 | 2018-06-05 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
EP3149728B1 (de) | 2014-05-30 | 2019-01-16 | Apple Inc. | Eingabeverfahren durch einzelne äusserung mit mehreren befehlen |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP2016024212A (ja) * | 2014-07-16 | 2016-02-08 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
EP3195307B1 (de) * | 2014-09-14 | 2020-01-29 | Google LLC | Plattform zur erzeugung von anpassbaren dialogsystemmotoren |
EP3195145A4 (de) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Sprachhandel |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
KR102198229B1 (ko) * | 2014-09-19 | 2021-01-04 | 콘비다 와이어리스, 엘엘씨 | 서비스 레이어 세션 마이그레이션 및 공유 |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9800619B2 (en) * | 2014-10-15 | 2017-10-24 | Ayla Networks, Inc. | Registration framework for connected consumer devices |
CN107003999B (zh) | 2014-10-15 | 2020-08-21 | 声钰科技 | 对用户的在先自然语言输入的后续响应的系统和方法 |
WO2016060740A1 (en) * | 2014-10-15 | 2016-04-21 | Ayla Networks, Inc. | Registration framework for connected consumer devices |
US9813505B2 (en) | 2014-10-15 | 2017-11-07 | Ayla Networks, Inc. | Devices in a flexible registration framework |
US9648055B2 (en) * | 2014-10-15 | 2017-05-09 | Ayla Networks, Inc. | Applications in a flexible registration framework |
CN107003723A (zh) * | 2014-10-21 | 2017-08-01 | 罗伯特·博世有限公司 | 用于会话系统中的响应选择和组成的自动化的方法和系统 |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9965464B2 (en) * | 2014-12-05 | 2018-05-08 | Microsoft Technology Licensing, Llc | Automatic process guidance |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10154041B2 (en) * | 2015-01-13 | 2018-12-11 | Microsoft Technology Licensing, Llc | Website access control |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
US10180985B2 (en) * | 2015-02-19 | 2019-01-15 | At&T Intellectual Property I, L.P. | Apparatus and method for automatically redirecting a search |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9672829B2 (en) * | 2015-03-23 | 2017-06-06 | International Business Machines Corporation | Extracting and displaying key points of a video conference |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US20160321025A1 (en) * | 2015-04-30 | 2016-11-03 | Kabushiki Kaisha Toshiba | Electronic apparatus and method |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
CN106302089B (zh) * | 2015-05-21 | 2019-06-11 | 阿里巴巴集团控股有限公司 | 会话处理方法和系统 |
EP3304440B1 (de) * | 2015-05-27 | 2021-05-19 | Orion Labs | Intelligente agentfunktionen für am körper tragbare persönliche kommunikationsknoten |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9721569B2 (en) * | 2015-05-27 | 2017-08-01 | Intel Corporation | Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10367940B2 (en) | 2015-06-01 | 2019-07-30 | AffectLayer, Inc. | Analyzing conversations to automatically identify product feature requests |
US10133999B2 (en) | 2015-06-01 | 2018-11-20 | AffectLayer, Inc. | Analyzing conversations to automatically identify deals at risk |
US10679013B2 (en) | 2015-06-01 | 2020-06-09 | AffectLayer, Inc. | IoT-based call assistant device |
US10181326B2 (en) | 2015-06-01 | 2019-01-15 | AffectLayer, Inc. | Analyzing conversations to automatically identify action items |
US10110743B2 (en) | 2015-06-01 | 2018-10-23 | AffectLayer, Inc. | Automatic pattern recognition in conversations |
US10387573B2 (en) | 2015-06-01 | 2019-08-20 | AffectLayer, Inc. | Analyzing conversations to automatically identify customer pain points |
US10360911B2 (en) | 2015-06-01 | 2019-07-23 | AffectLayer, Inc. | Analyzing conversations to automatically identify product features that resonate with customers |
US10324979B2 (en) | 2015-06-01 | 2019-06-18 | AffectLayer, Inc. | Automatic generation of playlists from conversations |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9407989B1 (en) | 2015-06-30 | 2016-08-02 | Arthur Woodrow | Closed audio circuit |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10504137B1 (en) | 2015-10-08 | 2019-12-10 | Persado Intellectual Property Limited | System, method, and computer program product for monitoring and responding to the performance of an ad |
US9688225B2 (en) * | 2015-10-09 | 2017-06-27 | Livio, Inc. | Methods and systems for a mobile device to emulate a vehicle human-machine interface |
CN108475503B (zh) * | 2015-10-15 | 2023-09-22 | 交互智能集团有限公司 | 用于多语言通信排序的系统和方法 |
EP3341933A1 (de) * | 2015-10-21 | 2018-07-04 | Google LLC | Parametersammlung und automatische dialogerzeugung in dialogsystemen |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US11018888B2 (en) * | 2015-12-03 | 2021-05-25 | Whirlpool Corporation | Methods of remote control of appliances |
US10832283B1 (en) | 2015-12-09 | 2020-11-10 | Persado Intellectual Property Limited | System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics |
CN105551488A (zh) * | 2015-12-15 | 2016-05-04 | 深圳Tcl数字技术有限公司 | 语音控制方法及系统 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10732783B2 (en) | 2015-12-28 | 2020-08-04 | Microsoft Technology Licensing, Llc | Identifying image comments from similar images |
US10417346B2 (en) * | 2016-01-23 | 2019-09-17 | Microsoft Technology Licensing, Llc | Tool for facilitating the development of new language understanding scenarios |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10224026B2 (en) * | 2016-03-15 | 2019-03-05 | Sony Corporation | Electronic device, system, method and computer program |
CN107409149B (zh) * | 2016-03-17 | 2021-02-26 | 谷歌有限责任公司 | 混合的客户端-服务器数据提供的方法 |
US9996531B1 (en) * | 2016-03-29 | 2018-06-12 | Facebook, Inc. | Conversational understanding |
US10319371B2 (en) * | 2016-05-04 | 2019-06-11 | GM Global Technology Operations LLC | Disambiguation of vehicle speech commands |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
CN106095593B (zh) | 2016-05-31 | 2019-04-16 | Oppo广东移动通信有限公司 | 一种前、后景应用程序行为同步方法及装置 |
KR101995540B1 (ko) * | 2016-06-03 | 2019-07-15 | 주식회사 허브케이 | 판독/입력 오류 단어 정정 장치 및 방법 |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US11200891B2 (en) * | 2016-06-21 | 2021-12-14 | Hewlett-Packard Development Company, L.P. | Communications utilizing multiple virtual assistant services |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
KR101827773B1 (ko) * | 2016-08-02 | 2018-02-09 | 주식회사 하이퍼커넥트 | 통역 장치 및 방법 |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
KR102481881B1 (ko) * | 2016-09-07 | 2022-12-27 | 삼성전자주식회사 | 외부 디바이스를 제어하는 서버 및 그 방법 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
CN106847272A (zh) * | 2016-12-12 | 2017-06-13 | 北京光年无限科技有限公司 | 与运行应用关联的智能机器人的数据交互方法 |
CN106844453B (zh) * | 2016-12-20 | 2020-09-08 | 江苏瀚远科技股份有限公司 | 一种电子文件格式转换方法 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR102643501B1 (ko) * | 2016-12-26 | 2024-03-06 | 현대자동차주식회사 | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US20180247644A1 (en) * | 2017-02-27 | 2018-08-30 | Intel Corporation | Queueing spoken dialogue output |
EP3392884A1 (de) * | 2017-04-21 | 2018-10-24 | audEERING GmbH | Verfahren zur automatischen inferenz des affektischen zustands und system zur automatischen inferenz des affektischen zustands |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11436417B2 (en) | 2017-05-15 | 2022-09-06 | Google Llc | Providing access to user-controlled resources by automated assistants |
US10127227B1 (en) * | 2017-05-15 | 2018-11-13 | Google Llc | Providing access to user-controlled resources by automated assistants |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US11048995B2 (en) * | 2017-05-16 | 2021-06-29 | Google Llc | Delayed responses by computational assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
JP6777887B2 (ja) * | 2017-06-30 | 2020-10-28 | 京セラドキュメントソリューションズ株式会社 | リモート通信制御システム、セッション管理システムおよびセッション管理プログラム |
CN107319857A (zh) * | 2017-06-30 | 2017-11-07 | 广东工业大学 | 一种交互镜子及具有该交互镜子的智能家电系统 |
US20190018545A1 (en) * | 2017-07-13 | 2019-01-17 | International Business Machines Corporation | System and method for rapid financial app prototyping |
KR102419374B1 (ko) * | 2017-07-21 | 2022-07-11 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
TWI646529B (zh) * | 2017-07-25 | 2019-01-01 | 雲拓科技有限公司 | 主動聊天裝置 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN109426530B (zh) * | 2017-08-17 | 2022-04-05 | 阿里巴巴集团控股有限公司 | 页面确定方法、装置、服务器和存储介质 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10600419B1 (en) * | 2017-09-22 | 2020-03-24 | Amazon Technologies, Inc. | System command processing |
US10957313B1 (en) | 2017-09-22 | 2021-03-23 | Amazon Technologies, Inc. | System command processing |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
CN107479906A (zh) * | 2017-09-28 | 2017-12-15 | 电子科技大学 | 基于Cordova的跨平台在线教育移动终端 |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10453454B2 (en) * | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
CN107767856B (zh) * | 2017-11-07 | 2021-11-19 | 中国银行股份有限公司 | 一种语音处理方法、装置及服务器 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
KR102100976B1 (ko) * | 2017-12-08 | 2020-05-15 | 구글 엘엘씨 | 스택 데이터 구조 백그라운드의 디지털 어시스턴트 프로세싱 |
US20190180753A1 (en) * | 2017-12-12 | 2019-06-13 | Ca, Inc. | Analysis of collaborative dialog data structures from speech processing computer system |
CN108008728B (zh) * | 2017-12-12 | 2020-01-17 | 深圳市银星智能科技股份有限公司 | 清洁机器人以及基于清洁机器人的最短路径规划方法 |
WO2019125486A1 (en) * | 2017-12-22 | 2019-06-27 | Soundhound, Inc. | Natural language grammars adapted for interactive experiences |
US10671251B2 (en) | 2017-12-22 | 2020-06-02 | Arbordale Publishing, LLC | Interactive eReader interface generation based on synchronization of textual and audial descriptors |
US11900928B2 (en) | 2017-12-23 | 2024-02-13 | Soundhound Ai Ip, Llc | System and method for adapted interactive experiences |
US11443646B2 (en) | 2017-12-22 | 2022-09-13 | Fathom Technologies, LLC | E-Reader interface system with audio and highlighting synchronization for digital books |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
CN108256066B (zh) * | 2018-01-16 | 2022-01-11 | 智言科技(深圳)有限公司 | 端到端层次解码任务型对话系统 |
CN108269205A (zh) * | 2018-01-24 | 2018-07-10 | 成都安信思远信息技术有限公司 | 一种利用云平台的电子数据鉴定系统 |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US20190236137A1 (en) * | 2018-01-31 | 2019-08-01 | Microsoft Technology Licensing, Llc | Generating conversational representations of web content |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
CN108520748B (zh) * | 2018-02-01 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 一种智能设备功能引导方法及系统 |
US10891430B2 (en) * | 2018-02-02 | 2021-01-12 | Fuji Xerox Co., Ltd. | Semi-automated methods for translating structured document content to chat-based interaction |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
KR102507249B1 (ko) * | 2018-03-08 | 2023-03-07 | 삼성전자주식회사 | 성능 모드 제어 방법 및 이를 지원하는 전자 장치 |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11056107B2 (en) * | 2018-03-30 | 2021-07-06 | International Business Machines Corporation | Conversational framework |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
CN112136124B (zh) * | 2018-04-19 | 2024-02-20 | 谷歌有限责任公司 | 用于与计算机实现的自动助理进行人机对话会话的依赖图谈话建模 |
CN108614773A (zh) * | 2018-04-24 | 2018-10-02 | 广州链创信息科技有限公司 | 一种手机小程序用展示发布体验系统 |
US11094316B2 (en) * | 2018-05-04 | 2021-08-17 | Qualcomm Incorporated | Audio analytics for natural language processing |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
EP3570189B1 (de) * | 2018-05-14 | 2023-08-09 | Siemens Aktiengesellschaft | Computerimplementiertes verfahren zum bereitstellen eines adaptiven dialogsystems und ein adaptives dialogsystem |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10776582B2 (en) * | 2018-06-06 | 2020-09-15 | International Business Machines Corporation | Supporting combinations of intents in a conversation |
US10811009B2 (en) | 2018-06-27 | 2020-10-20 | International Business Machines Corporation | Automatic skill routing in conversational computing frameworks |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN112262381B (zh) | 2018-08-07 | 2024-04-09 | 谷歌有限责任公司 | 汇编和评估对隐私问题的自动助理响应 |
US11436215B2 (en) | 2018-08-20 | 2022-09-06 | Samsung Electronics Co., Ltd. | Server and control method thereof |
US11037562B2 (en) * | 2018-08-23 | 2021-06-15 | Google Llc | Regulating assistant responsiveness according to characteristics of a multi-assistant environment |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10762893B2 (en) | 2018-09-28 | 2020-09-01 | Comcast Cable Communications, Llc | Monitoring of one or more audio/video collection devices |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US10594837B1 (en) | 2018-11-02 | 2020-03-17 | International Business Machines Corporation | Predictive service scaling for conversational computing |
EP3654249A1 (de) | 2018-11-15 | 2020-05-20 | Snips | Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US10770072B2 (en) | 2018-12-10 | 2020-09-08 | International Business Machines Corporation | Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN110021291B (zh) * | 2018-12-26 | 2021-01-29 | 创新先进技术有限公司 | 一种语音合成文件的调用方法及装置 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
EP3703342B1 (de) * | 2019-03-01 | 2023-07-26 | ABB Schweiz AG | Dynamischer lastausgleich in netzwerkzentrischen prozesssteuerungssystemen |
WO2020185880A1 (en) * | 2019-03-12 | 2020-09-17 | Beguided, Inc. | Conversational artificial intelligence for automated self-service account management |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN111800537B (zh) * | 2019-04-09 | 2021-07-20 | Oppo广东移动通信有限公司 | 终端使用状态的评估方法、装置、存储介质及电子设备 |
CN111857219B (zh) * | 2019-04-25 | 2023-06-30 | 益逻触控系统公司 | 具有三层系统架构的自助服务装置 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11640504B2 (en) | 2019-05-17 | 2023-05-02 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11526780B2 (en) * | 2019-08-05 | 2022-12-13 | Microsoft Technology Licensing, Llc | Converting nonnative skills for conversational computing interfaces |
US10915227B1 (en) | 2019-08-07 | 2021-02-09 | Bank Of America Corporation | System for adjustment of resource allocation based on multi-channel inputs |
CN110647736A (zh) * | 2019-08-13 | 2020-01-03 | 平安科技(深圳)有限公司 | 插件式坐席系统登录方法、装置、计算机设备及存储介质 |
CN110400564A (zh) * | 2019-08-21 | 2019-11-01 | 科大国创软件股份有限公司 | 一种基于栈的聊天机器人对话管理方法 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN110647305B (zh) * | 2019-09-29 | 2023-10-31 | 阿波罗智联(北京)科技有限公司 | 应用程序的语音交互方法、装置、设备和介质 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
JP7029434B2 (ja) * | 2019-10-23 | 2022-03-03 | サウンドハウンド,インコーポレイテッド | コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末 |
WO2021096382A2 (ru) * | 2019-11-15 | 2021-05-20 | Федеральное Государственное Автономное Образовательное Учреждение Высшего Образования "Московский Физико-Технический Институт" (Национальный Исследовательский Университет) (Мфти) | Способ и система управления диалоговым агентом в канале взаимодействия с пользователем |
CN111105289B (zh) * | 2019-11-22 | 2023-05-05 | 北京云杉信息技术有限公司 | 一种基于aop方式的客户端订单取消判断方法及装置 |
US11664044B2 (en) | 2019-11-25 | 2023-05-30 | Qualcomm Incorporated | Sound event detection learning |
EP3836043A1 (de) | 2019-12-11 | 2021-06-16 | Carrier Corporation | Verfahren und ausrüstung zum konfigurieren eines dienstes |
CN114787786A (zh) * | 2019-12-13 | 2022-07-22 | 株式会社日立产机系统 | 通信模块、通信系统和通信方法 |
CN111223485A (zh) * | 2019-12-19 | 2020-06-02 | 深圳壹账通智能科技有限公司 | 智能交互方法、装置、电子设备及存储介质 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN113035226A (zh) * | 2019-12-24 | 2021-06-25 | 中兴通讯股份有限公司 | 语音通话方法、通信终端和计算机可读介质 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11209573B2 (en) | 2020-01-07 | 2021-12-28 | Northrop Grumman Systems Corporation | Radio occultation aircraft navigation aid system |
US20210303273A1 (en) * | 2020-03-30 | 2021-09-30 | Nuance Communications, Inc. | Development system and method |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN114095487B (zh) * | 2020-07-30 | 2024-03-19 | 中移(苏州)软件技术有限公司 | 一种远程任务执行方法、装置及存储介质 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11514799B2 (en) | 2020-11-11 | 2022-11-29 | Northrop Grumman Systems Corporation | Systems and methods for maneuvering an aerial vehicle during adverse weather conditions |
US11410677B2 (en) | 2020-11-24 | 2022-08-09 | Qualcomm Incorporated | Adaptive sound event classification |
CN112527435B (zh) * | 2020-12-08 | 2024-02-13 | 建信金融科技有限责任公司 | 浏览器操作方法及系统 |
US11329933B1 (en) | 2020-12-28 | 2022-05-10 | Drift.com, Inc. | Persisting an AI-supported conversation across multiple channels |
US20220415311A1 (en) * | 2021-06-24 | 2022-12-29 | Amazon Technologies, Inc. | Early invocation for contextual data processing |
US20230197072A1 (en) * | 2021-12-17 | 2023-06-22 | Google Llc | Warm word arbitration between automated assistant devices |
CN115064168B (zh) * | 2022-08-17 | 2022-12-13 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
CN116719649A (zh) * | 2022-09-01 | 2023-09-08 | 荣耀终端有限公司 | 会话通知的提示方法、电子设备及可读存储介质 |
CN116450383A (zh) * | 2023-06-19 | 2023-07-18 | 合肥景云软件工程有限责任公司 | 一种通过网页调用操作系统的方法 |
Family Cites Families (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4787031A (en) * | 1985-01-04 | 1988-11-22 | Digital Equipment Corporation | Computer with virtual machine mode and multiple protection rings |
JPH0673135B2 (ja) * | 1988-03-01 | 1994-09-14 | 工業技術院長 | 自然言語対話処理装置 |
US5282265A (en) * | 1988-10-04 | 1994-01-25 | Canon Kabushiki Kaisha | Knowledge information processing system |
JPH0384652A (ja) * | 1989-08-29 | 1991-04-10 | Personal Joho Kankyo Kyokai | ヒューマンインタフェースのアーキテクチャモデル |
US5333237A (en) * | 1989-10-10 | 1994-07-26 | Hughes Aircraft Company | Hypermedia structured knowledge base system |
JP3235728B2 (ja) * | 1990-02-09 | 2001-12-04 | 沖ソフトウェア株式会社 | 会話制御方式 |
JPH05304567A (ja) * | 1990-04-05 | 1993-11-16 | Texas Instr Inc <Ti> | 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク |
JPH0410153A (ja) * | 1990-04-27 | 1992-01-14 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム |
US5133004A (en) | 1990-05-07 | 1992-07-21 | Unisys Corporation | Digital computer platform for supporting telephone network applications |
US5255305A (en) * | 1990-11-01 | 1993-10-19 | Voiceplex Corporation | Integrated voice processing system |
US5274695A (en) * | 1991-01-11 | 1993-12-28 | U.S. Sprint Communications Company Limited Partnership | System for verifying the identity of a caller in a telecommunications network |
JPH0792801B2 (ja) * | 1991-08-02 | 1995-10-09 | 工業技術院長 | 非単調推論方法 |
US5283888A (en) | 1991-08-27 | 1994-02-01 | International Business Machines Corporation | Voice processing interface unit employing virtual screen communications for accessing a plurality of primed applications |
US6400996B1 (en) * | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
JP3213056B2 (ja) * | 1992-06-19 | 2001-09-25 | 株式会社日立製作所 | マルチメディア処理装置 |
US5384890A (en) * | 1992-09-30 | 1995-01-24 | Apple Computer, Inc. | Method and apparatus for providing multiple clients simultaneous access to a sound data stream |
FR2696574B1 (fr) * | 1992-10-06 | 1994-11-18 | Sextant Avionique | Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine. |
JPH06131437A (ja) * | 1992-10-20 | 1994-05-13 | Hitachi Ltd | 複合形態による操作指示方法 |
JPH06149534A (ja) * | 1992-11-13 | 1994-05-27 | Toshiba Corp | 音声画面操作装置 |
US6029188A (en) * | 1993-01-18 | 2000-02-22 | Institute For Personalized Information Environment | Information processing system for an architecture model capable of interfacing with humans and capable of being modified |
US5544228A (en) * | 1993-09-27 | 1996-08-06 | The Walt Disney Company | Method and apparatus for transmission of full frequency digital audio |
US5509060A (en) * | 1993-11-19 | 1996-04-16 | At&T Corp. | Network-accessible intelligent telephone service |
US5748841A (en) * | 1994-02-25 | 1998-05-05 | Morin; Philippe | Supervised contextual language acquisition system |
US5644686A (en) * | 1994-04-29 | 1997-07-01 | International Business Machines Corporation | Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications |
JP3408332B2 (ja) * | 1994-09-12 | 2003-05-19 | 富士通株式会社 | ハイパーテキスト読上装置 |
US5682539A (en) * | 1994-09-29 | 1997-10-28 | Conrad; Donovan | Anticipated meaning natural language interface |
US5594789A (en) * | 1994-10-13 | 1997-01-14 | Bell Atlantic Network Services, Inc. | Transaction implementation in video dial tone network |
DE69511425T2 (de) * | 1994-11-08 | 2000-03-09 | Vermeer Tech Inc | Herstellungshilfe für online-dienste mit gebührenfeststellung |
JPH08137697A (ja) * | 1994-11-15 | 1996-05-31 | Kobe Steel Ltd | 自律分散型システム |
US6029195A (en) * | 1994-11-29 | 2000-02-22 | Herz; Frederick S. M. | System for customized electronic identification of desirable objects |
US5748974A (en) * | 1994-12-13 | 1998-05-05 | International Business Machines Corporation | Multimodal natural language interface for cross-application tasks |
JP2746218B2 (ja) * | 1995-02-23 | 1998-05-06 | 富士ゼロックス株式会社 | 資源管理装置および資源管理方法 |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5742845A (en) * | 1995-06-22 | 1998-04-21 | Datascape, Inc. | System for extending present open network communication protocols to communicate with non-standard I/O devices directly coupled to an open network |
JP3729918B2 (ja) * | 1995-07-19 | 2005-12-21 | 株式会社東芝 | マルチモーダル対話装置及び対話方法 |
US5794205A (en) | 1995-10-19 | 1998-08-11 | Voice It Worldwide, Inc. | Voice recognition interface apparatus and method for interacting with a programmable timekeeping device |
JPH10124378A (ja) * | 1995-12-01 | 1998-05-15 | Zakuson R & D:Kk | インターネットおよびイントラネット上におけるホームページ上の文書録画支援装置および文書録画支援システム |
US6240448B1 (en) * | 1995-12-22 | 2001-05-29 | Rutgers, The State University Of New Jersey | Method and system for audio access to information in a wide area computer network |
US6101528A (en) * | 1996-03-27 | 2000-08-08 | Intel Corporation | Method and apparatus for discovering server applications by a client application in a network of computer systems |
US5884262A (en) * | 1996-03-28 | 1999-03-16 | Bell Atlantic Network Services, Inc. | Computer network audio access and conversion system |
IL122647A (en) * | 1996-04-22 | 2002-05-23 | At & T Corp | Method and device for retrieving information using an audio interface |
US5956507A (en) * | 1996-05-14 | 1999-09-21 | Shearer, Jr.; Bennie L. | Dynamic alteration of operating system kernel resource tables |
JPH09319760A (ja) * | 1996-05-30 | 1997-12-12 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索運行システム |
EP0903032B1 (de) * | 1996-06-03 | 2005-11-16 | WorldVoice Licensing, Inc. | Fernsprechsprachpostverfahren mit netzwerkadress-und sprach-authentifizierung |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
US5799063A (en) * | 1996-08-15 | 1998-08-25 | Talk Web Inc. | Communication system and method of providing access to pre-recorded audio messages via the Internet |
JPH10124293A (ja) * | 1996-08-23 | 1998-05-15 | Osaka Gas Co Ltd | 音声指令可能なコンピュータとそれ用の媒体 |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US6035267A (en) * | 1996-09-26 | 2000-03-07 | Mitsubishi Denki Kabushiki Kaisha | Interactive processing apparatus having natural language interfacing capability, utilizing goal frames, and judging action feasibility |
US5721827A (en) * | 1996-10-02 | 1998-02-24 | James Logan | System for electrically distributing personalized information |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US5774857A (en) * | 1996-11-15 | 1998-06-30 | Motorola, Inc. | Conversion of communicated speech to text for tranmission as RF modulated base band video |
JP3826239B2 (ja) * | 1996-11-22 | 2006-09-27 | 日本電信電話株式会社 | ハイパーテキスト中継方法及び装置 |
US6282511B1 (en) * | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
US5960399A (en) | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
JP2907174B2 (ja) * | 1997-02-04 | 1999-06-21 | 日本電気株式会社 | 監視制御システムのユーザインタフェースシステム |
JPH10222342A (ja) * | 1997-02-06 | 1998-08-21 | Nippon Telegr & Teleph Corp <Ntt> | ハイパーテキスト音声制御方法及び装置 |
JPH10222525A (ja) * | 1997-02-07 | 1998-08-21 | Hitachi Ltd | ナビゲーション方法 |
JPH10243048A (ja) * | 1997-02-27 | 1998-09-11 | Nippon Telegr & Teleph Corp <Ntt> | 情報伝送方法及びシステム |
US5987102A (en) * | 1997-03-14 | 1999-11-16 | Efusion, Inc. | Method and apparatus for bridging a voice call including selective provision of information in non-audio to the caller |
US5884266A (en) * | 1997-04-02 | 1999-03-16 | Motorola, Inc. | Audio interface for document based information resource navigation and method therefor |
JP3646471B2 (ja) * | 1997-05-14 | 2005-05-11 | 日本電信電話株式会社 | 情報提供方法及び個人適応情報提供サーバ及び情報提供プログラムを格納した記憶媒体 |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6044347A (en) * | 1997-08-05 | 2000-03-28 | Lucent Technologies Inc. | Methods and apparatus object-oriented rule-based dialogue management |
US6108711A (en) * | 1998-09-11 | 2000-08-22 | Genesys Telecommunications Laboratories, Inc. | Operating system having external media layer, workflow layer, internal media layer, and knowledge base for routing media events between transactions |
US6353824B1 (en) * | 1997-11-18 | 2002-03-05 | Apple Computer, Inc. | Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6370508B2 (en) * | 1998-09-11 | 2002-04-09 | Genesys Telecommunications Laboratories, Inc. | Interface engine for managing business processes within a multimedia communication-center |
JP4562910B2 (ja) * | 1998-03-23 | 2010-10-13 | マイクロソフト コーポレーション | オペレーティングシステムのアプリケーション・プログラム・インターフェース |
US6012030A (en) * | 1998-04-21 | 2000-01-04 | Nortel Networks Corporation | Management of speech and audio prompts in multimodal interfaces |
US6859451B1 (en) * | 1998-04-21 | 2005-02-22 | Nortel Networks Limited | Server for handling multimodal information |
US6018711A (en) * | 1998-04-21 | 2000-01-25 | Nortel Networks Corporation | Communication system user interface with animated representation of time remaining for input to recognizer |
US6438523B1 (en) * | 1998-05-20 | 2002-08-20 | John A. Oberteuffer | Processing handwritten and hand-drawn input and speech input |
US6253326B1 (en) * | 1998-05-29 | 2001-06-26 | Palm, Inc. | Method and system for secure communications |
US6397259B1 (en) * | 1998-05-29 | 2002-05-28 | Palm, Inc. | Method, system and apparatus for packet minimized communications |
US6269366B1 (en) * | 1998-06-24 | 2001-07-31 | Eastman Kodak Company | Method for randomly combining images with annotations |
US6269336B1 (en) * | 1998-07-24 | 2001-07-31 | Motorola, Inc. | Voice browser for interactive services and methods thereof |
US6119147A (en) * | 1998-07-28 | 2000-09-12 | Fuji Xerox Co., Ltd. | Method and system for computer-mediated, multi-modal, asynchronous meetings in a virtual space |
EP1101160B1 (de) * | 1998-08-05 | 2003-04-02 | BRITISH TELECOMMUNICATIONS public limited company | Multimodale benutzerschnittstelle |
US6195696B1 (en) * | 1998-10-01 | 2001-02-27 | International Business Machines Corporation | Systems, methods and computer program products for assigning, generating and delivering content to intranet users |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US6385583B1 (en) | 1998-10-02 | 2002-05-07 | Motorola, Inc. | Markup language for interactive services and methods thereof |
US7137126B1 (en) * | 1998-10-02 | 2006-11-14 | International Business Machines Corporation | Conversational computing via conversational virtual machine |
US6615240B1 (en) * | 1998-12-18 | 2003-09-02 | Motive Communications, Inc. | Technical support chain automation with guided self-help capability and option to escalate to live help |
US6523061B1 (en) * | 1999-01-05 | 2003-02-18 | Sri International, Inc. | System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system |
US6851115B1 (en) * | 1999-01-05 | 2005-02-01 | Sri International | Software-based architecture for communication and cooperation among distributed electronic agents |
US7216351B1 (en) * | 1999-04-07 | 2007-05-08 | International Business Machines Corporation | Systems and methods for synchronizing multi-modal interactions |
US6519617B1 (en) * | 1999-04-08 | 2003-02-11 | International Business Machines Corporation | Automated creation of an XML dialect and dynamic generation of a corresponding DTD |
US6636831B1 (en) * | 1999-04-09 | 2003-10-21 | Inroad, Inc. | System and process for voice-controlled information retrieval |
US6529889B1 (en) * | 1999-07-27 | 2003-03-04 | Acappella Software, Inc. | System and method of knowledge architecture |
US7069220B2 (en) * | 1999-08-13 | 2006-06-27 | International Business Machines Corporation | Method for determining and maintaining dialog focus in a conversational speech system |
US6377913B1 (en) * | 1999-08-13 | 2002-04-23 | International Business Machines Corporation | Method and system for multi-client access to a dialog system |
US6799169B1 (en) * | 1999-08-13 | 2004-09-28 | International Business Machines Corporation | Method and system for modeless operation of a multi-modal user interface through implementation of independent decision networks |
US6738803B1 (en) * | 1999-09-03 | 2004-05-18 | Cisco Technology, Inc. | Proxy browser providing voice enabled web application audio control for telephony devices |
US6615172B1 (en) * | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US6829603B1 (en) * | 2000-02-02 | 2004-12-07 | International Business Machines Corp. | System, method and program product for interactive natural dialog |
US7415537B1 (en) * | 2000-04-07 | 2008-08-19 | International Business Machines Corporation | Conversational portal for providing conversational browsing and multimedia broadcast on demand |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US6970935B1 (en) * | 2000-11-01 | 2005-11-29 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US6801604B2 (en) * | 2001-06-25 | 2004-10-05 | International Business Machines Corporation | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources |
US6839896B2 (en) * | 2001-06-29 | 2005-01-04 | International Business Machines Corporation | System and method for providing dialog management and arbitration in a multi-modal environment |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7349845B2 (en) * | 2003-09-03 | 2008-03-25 | International Business Machines Corporation | Method and apparatus for dynamic modification of command weights in a natural language understanding system |
-
1999
- 1999-10-01 US US09/806,565 patent/US7137126B1/en not_active Expired - Lifetime
- 1999-10-01 KR KR10-2001-7004228A patent/KR100459299B1/ko not_active IP Right Cessation
- 1999-10-01 CN CNB998116076A patent/CN100472500C/zh not_active Expired - Lifetime
- 1999-10-01 KR KR1020017004223A patent/KR100620826B1/ko active IP Right Grant
- 1999-10-01 IL IL14236499A patent/IL142364A0/xx unknown
- 1999-10-01 WO PCT/US1999/023008 patent/WO2000021232A2/en not_active Application Discontinuation
- 1999-10-01 EP EP99951722A patent/EP1125279B1/de not_active Expired - Lifetime
- 1999-10-01 DE DE69937962T patent/DE69937962T2/de not_active Expired - Lifetime
- 1999-10-01 IL IL14080599A patent/IL140805A0/xx unknown
- 1999-10-01 CN CNB998116173A patent/CN1151488C/zh not_active Expired - Lifetime
- 1999-10-01 EP EP99950131A patent/EP1133734A4/de not_active Withdrawn
- 1999-10-01 JP JP2000575117A patent/JP2003525477A/ja active Pending
- 1999-10-01 US US09/806,549 patent/US7418382B1/en not_active Expired - Fee Related
- 1999-10-01 KR KR10-2001-7002798A patent/KR100431972B1/ko not_active IP Right Cessation
- 1999-10-01 AT AT99951722T patent/ATE383640T1/de not_active IP Right Cessation
- 1999-10-01 IL IL14236699A patent/IL142366A0/xx active IP Right Grant
- 1999-10-01 JP JP2000575119A patent/JP4171585B2/ja not_active Expired - Fee Related
- 1999-10-01 WO PCT/US1999/022927 patent/WO2000020962A2/en active IP Right Grant
- 1999-10-01 WO PCT/US1999/022925 patent/WO2000021075A1/en active IP Right Grant
- 1999-10-01 KR KR10-2001-7004207A patent/KR100430953B1/ko not_active IP Right Cessation
- 1999-10-01 EP EP99951713A patent/EP1125277A4/de not_active Withdrawn
- 1999-10-01 JP JP2000575021A patent/JP3703082B2/ja not_active Expired - Lifetime
- 1999-10-01 CN CNB998116181A patent/CN1171200C/zh not_active Expired - Fee Related
- 1999-10-01 CA CA2345665A patent/CA2345665C/en not_active Expired - Lifetime
- 1999-10-01 CA CA002345661A patent/CA2345661A1/en not_active Abandoned
- 1999-10-01 JP JP2000575249A patent/JP2002527800A/ja active Pending
- 1999-10-01 CN CNB998116165A patent/CN1160700C/zh not_active Expired - Lifetime
- 1999-10-01 IL IL14236399A patent/IL142363A0/xx unknown
- 1999-10-01 WO PCT/US1999/022915 patent/WO2000021073A1/en active IP Right Grant
- 1999-10-01 EP EP99950114A patent/EP1163576A4/de not_active Withdrawn
- 1999-10-01 CA CA002345660A patent/CA2345660C/en not_active Expired - Lifetime
- 1999-10-01 CA CA002345662A patent/CA2345662A1/en not_active Abandoned
-
2001
- 2001-04-02 IL IL142366A patent/IL142366A/en not_active IP Right Cessation
-
2006
- 2006-10-23 US US11/551,901 patent/US7729916B2/en not_active Expired - Fee Related
-
2009
- 2009-08-20 US US12/544,473 patent/US8082153B2/en not_active Expired - Fee Related
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69937962T2 (de) | Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
KR101683944B1 (ko) | 음성번역 시스템, 제어장치, 및 제어방법 | |
US6240448B1 (en) | Method and system for audio access to information in a wide area computer network | |
CN1333385C (zh) | 用于通信系统的语音浏览器启用器 | |
CN103345467B (zh) | 语音翻译系统 | |
DE69839068T2 (de) | System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung | |
DE602004010807T2 (de) | Techniken zur bereitstellung eines virtuellen arbeitsraums, bestehend aus einer vielzahl elektronischer einrichtungen | |
KR101901920B1 (ko) | 인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법 | |
DE602004011109T2 (de) | Verfahren und system zum senden von sprachnachrichten | |
DE60201939T2 (de) | Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System | |
DE112017000142T5 (de) | Multimodale übertragung von paketierten daten | |
DE102011107983A1 (de) | System und Verfahren zum Anzeigen einer Schlagwortgeschichte eines Medienereignisses | |
DE102011118780A1 (de) | Verfahren und system für das erzeugen einerzusammenarbeitszeitachse, die anwendungsartefakte im kontext illustriert | |
DE112017000104T5 (de) | Sequenzabhängige datennachrichtenkonsolidierung in einer sprachaktivierten computernetzwerkumgebung | |
CN111177338A (zh) | 一种基于上下文的多轮对话方法 | |
DE60123153T2 (de) | Sprachgesteuertes Browsersystem | |
EP3095114B1 (de) | Verfahren und system zur erzeugung eines steuerungsbefehls | |
CN110232553A (zh) | 会议支援系统以及计算机可读取的记录介质 | |
DE10208295A1 (de) | Verfahren zum Betrieb eines Sprach-Dialogsystems | |
DE102015212650B4 (de) | Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe | |
DE202017105695U1 (de) | Hierarchische Annotation von Dialogakten | |
CN114582314B (zh) | 基于asr的人机音视频交互逻辑模型设计方法 | |
DE102021130318A1 (de) | System, Benutzerendgerät und Verfahren zum Bereitstellen eines automatischen Interpretationsdienstes auf der Grundlage einer Sprechertrennung | |
DE102019127983A1 (de) | Verfahren zur Sprachkommunikation und Sprachkommunikationssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8320 | Willingness to grant licences declared (paragraph 23) | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN |