DE60006525T2

DE60006525T2 - Sprachgesteuertes browser und verfahren

Info

Publication number: DE60006525T2
Application number: DE60006525T
Authority: DE
Inventors: Hans BJURSTRÖM; Christer Granberg; Jesper HÖGBERG; Berndt Johannsen; Scott Mcglashan
Original assignee: Pipebeach AB
Current assignee: Hewlett Packard Development Co LP
Priority date: 1999-02-24
Filing date: 2000-02-22
Publication date: 2004-09-23
Anticipated expiration: 2020-02-23
Also published as: WO2000050984A1; SE9900652D0; DE60006525D1; US6594348B1; EP1183595B1; EP1183595A1; AU3339600A

Description

Technisches Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf einen Sprachbrowser und ein Verfahren zum Interpretieren und Ansprechen auf Dualtonmehrfrequenztöne (DTMF-Töne), die von einem Telekommunikationsnetzwerk empfangen werden, wobei die DTMF-Töne durch einen Benutzer zum Steuern des Betriebs des Sprachbrowsers gesendet werden, wenn auf Informationen zugegriffen wird, die in einem Datenpaketvermittlungsnetz, z.B. dem Internet, veröffentlicht sind.
Hintergrund der Erfindung
Das World Wide Web (kurz WWW oder Web) ist heute die am häufigsten genutzte Internet-Anwendung. Das Web besteht aus Millionen von Webseiten, und die Anzahl von zugänglichen Webseiten wächst ständig. Ein Internet-Benutzer greift unter Verwendung eines Browsers auf eine Webseite zu. Ein herkömmlicher Browser liefert eine textliche und graphische Benutzerschnittstelle, die dem Benutzer beim Anfordern und Anzeigen von Informationen aus dem Web behilflich ist. Ein herkömmlicher Browser ist in der Regel ein Softwareprogramm, das auf einem Computer betrieben wird, in der Regel auf einem Personal-Computer. Somit benötigt ein Benutzer eine gewisse Computer-Hardware, auf der die Browser-Software ausgeführt werden kann, um Informationen, die als Webseiten veröffentlicht sind, wiederzugewinnen und anzuzeigen.
Immer mehr Unternehmen verwenden das Web als Informationskanal zu ihren Kunden und/oder als eine Art und Weise, ihren Kunden ihre Dienste anzubieten. Derartige Unternehmen umfassen beispielsweise Enderzeugnisunternehmen, Versicherungsgesellschaften, Banken, Arbeitsvermittlungsagenturen usw., jedoch auch öffentliche Behörden, die Informationen und Dienste veröffentlichen, die sich auf Einkaufen, Nachrichten, Stellenmarkt, Ausbildung usw. beziehen. Ein Problem bei all diesen Webseiten, die durch verschiedene Unternehmen und Behörden bereitgestellt werden, besteht darin, daß sie lediglich für Menschen zugänglich sind, die einen Computer haben, auf dem ein graphischer Browser ausgeführt werden kann. Auch wenn ein Benutzer Zugriff auf einen Computer hat, muß er mit dem Internet verbunden sein. Ferner haben Personen, die schlecht lesen können oder in ihrer Sicht beeinträchtigt sind, Schwierigkeiten beim Lesen von textbasierten Webseiten.
Aus den obigen Gründen hat die Forschungsgemeinschaft Browser für einen nicht-visuellen Zugriff auf Webseiten bzw. einen WWW-Inhalt für solche Benutzer entwickelt, die durch ein Telefon auf die Informationen oder Dienste zugreifen möchten. Die nicht-visuellen Browser bzw. Sprachbrowser liefern eine Audioausgabe an einen Benutzer, indem sie einen Text von Webseiten, beispielsweise HTML-Seiten, in Sprache umwandeln und indem sie vorab aufgezeichnete Web-Audiodateien aus dem Web abspielen. Ein Sprachbrowser implementiert weiterhin die Funktionalität, die benötigt wird, um es einem Benutzer zu ermöglichen, zwischen Webseiten zu navigieren, d.h. Hypertextverknüpfungen zu folgen, sowie innerhalb von Webseiten zu navigieren, d.h. sich auf der Seite vorwärts- und rückwärtszubewegen. Derartige Sprachbrowser sind aus WO-A-9732427 bekannt. Andere Funktionen, die dem Benutzer bereitgestellt werden können, ist die Möglichkeit, die Audioausgabe anzuhalten und wieder aufzunehmen, zu einer Startseite zu gehen und aus einer Anzahl von vordefinierten Bookmarks oder Favoriten auszuwählen. Manche Sprachbrowser sind an PCs oder Arbeitsstationen implementiert und ermöglichen es dem Benutzer, unter Verwendung von Befehlen, die mit einer Computertastatur eingegeben werden, auf die Browserfunktionen zuzugreifen, während auf andere unter Verwendung eines Telefons zugegriffen wird. Wenn mit einem Telefon auf einen Sprachbrowser zuge griffen wird, können ein oder mehrere Browserbefehle unter Verwendung von DTMF-Signalen, die mit einem oder mehreren Tastenschlägen auf einem Tastenfeld des Telefons erzeugt werden, durch den Benutzer gesandt werden.
Eine andere Möglichkeit, es einem Benutzer eines Telefons zu ermöglichen, auf eine Datenbank oder dergleichen zuzugreifen, besteht darin, ein interaktives Sprachausgabesystem (IVR-System, IVR = Interactive Voice Response) zu liefern. Herkömmliche IVR-Systeme ermöglichen es einem Benutzer üblicherweise, mittels eines Sendens von DTMF-Signalen an das System und die Anwendung direkt mit der Anwendung zu interagieren. Beispielsweise besteht die üblichste Art und Weise, einen Benutzer zu befähigen, zwischen einer Anzahl von Auswahlen in einem IVR-System auszuwählen, darin, daß dem Benutzer ein Menü vorgelesen wird und daß es dem Benutzer ermöglicht wird, einen bestimmten Posten aus dem Menü auszuwählen, indem er ein entsprechendes DTMF-Signal erzeugt. Auf ähnliche Weise besteht für gewisse Anwendungen, auf die unter Verwendung eines Sprachbrowsers im Internet zugegriffen wird, ein Erfordernis, daß die Anwendung in der Lage ist, Befehle ohne jegliche Störung seitens des Browsers direkt von einem Benutzer zu empfangen. Ein derartiger direkter Zugriff auf Tasten auf einer Tastatur wird in der Literatur manchmal als „Zugriffstasten" bezeichnet. Mit der Bezeichnung einer Zugriffstaste in HTML könnte eine Anwendung eine Taste einer direkten Verbindung mit der Anwendung zuweisen. Die Aktion, die ansprechend auf ein Signal von einer derartigen Taste durchgeführt werden soll, würde dann durch die Anwendung definiert.
Somit verwenden herkömmliche Techniken entweder DTMF-Töne zum Steuern lediglich der Browserfunktionalität, was bei bekannten Sprachbrowsern der Fall ist, oder für lediglich eine Anwendungssteuerung, was bei bekannten IVR-Systemen der Fall ist. Es besteht insofern ein Problem, wie ein Sprachbrowser entworfen werden soll, der auf effiziente Weise gleichzeitig DTMF-Töne, die sich auf eine Browser funktionalitätssteuerung beziehen, sowie Töne, die sich auf die Steuerung einer aktuellen Anwendung, auf die gerade zugegriffen wird, beziehen, handhaben kann, insbesondere da die Anzahl von Tasten eines Telefontastenfeldes allgemein auf 12 Tasten beschränkt ist.
Ein weiteres Problem bei Sprachbrowsersystemen besteht darin, einen Sprachbrowser zu entwerfen, bei dem ein Teil einer HTML-Seite, auf den derzeit zugegriffen wird, synchron zu einem Satz von aktuellen und relevanten Operationen oder Sprachbrowserfunktionen ist, deren Durchführung ansprechend auf empfangene und interpretierte DTMF-Töne möglich ist.
Zusammenfassung der Erfindung
Eine Aufgabe der vorliegenden Erfindung besteht darin, eine Lösung- dafür zu liefern, wie ein Sprachbrowser, der durch eine DTMF-Ton-Schnittstelle gesteuert wird, einen Zugriff auf Befehle zum Steuern des Sprachbrowsers sowie, gleichzeitig, auf Befehle zum Steuern einer Anwendung liefern kann, die von dem Sprachbrowser getrennt ist, und auf die durch ein Datenpaketvermittlungsnetzwerk von dem Sprachbrowser aus zugegriffen wird.
Eine weitere Aufgabe der Erfindung besteht darin, ein Sprachbrowsersystem mit einer benutzerfreundlichen Schnittstelle zu liefern, das einen Benutzer befähigt, auf die wichtigsten Funktionen, die durch den Sprachbrowser und eine Anwendung, auf die unter Verwendung lediglich eines Tastenanschlags durch den Sprachbrowser zugegriffen wird, unterstützt werden, zuzugreifen.
Eine weitere Aufgabe der Erfindung besteht darin, einen Sprachbrowser zu liefern, der einen Mechanismus aufweist, der gewährleistet, daß der Vorgang des Zugreifens auf einen bestimmten Teil einer HTML-Seite synchron zu einem entsprechenden Satz von potentiellen Operationen bzw. Sprachbrow serfunktionen ist, deren Durchführung für den bestimmten Teil der HTML-Seite ansprechend auf empfangene und interpretierte DTMF-Töne möglich ist.
Gemäß der vorliegenden Erfindung werden diese Aufgaben und Ziele durch eine Vorrichtung und ein Verfahren erzielt, die die in den beigefügten unabhängigen Ansprüchen 1 bzw. 18 definierten Merkmale aufweisen.
Weitere Ausführungsbeispiele der Erfindung sind in den beigefügten abhängigen Patentansprüchen dargelegt.
Gemäß einem ersten Aspekt der Erfindung ist ein Sprachbrowser in einem Sprachbrowsersystem vorgesehen, wobei der Sprachbrowser an einem Server angeordnet ist, der mit dem Internet verbunden ist und auf Dualtonmehrfrequenztöne (DTMF-Töne) anspricht, die von einem Telekommunikationsnetz empfangen werden, wobei der Sprachbrowser folgende Merkmale aufweist: ein Objektmodell, das Elemente aufweist, die in einer wiedergewonnenen HTML-Seite definiert sind und Navigationspositionen in der HTML-Seite definieren; eine Audioeinrichtung zum Abspielen eines von einem Element der HTML-Seite abgeleiteten Audiostroms; eine Sprachbrowsersteuerung zum Steuern des Betriebs der Sprachbrowservorrichtung; und eine Dialogzustandsstruktur, die eine Mehrzahl von Zuständen und Übergängen zwischen Zuständen aufweist und die Text und Audioobjekte, die an die Audioeinrichtung ausgegeben werden sollen, speichert; und eine Dialogsteuerung, die angeordnet ist, um einen Dialog mit einem Benutzer auf der Basis der Dialogzustandsstruktur zu steuern und auf einen interpretierten DTMF-Ton mit einem Ereignis zu der Sprachbrowsersteuerung anzusprechen, wobei die Sprachbrowsersteuerung ansprechend auf ein Ereignis, das einen interpretierten DTMF-Ton eines ersten vorbestimmten Satzes von interpretierten DTMF-Tönen umfaßt, angeordnet ist, um eine dem interpretierten DTMF-Ton zugeordnete Sprachbrowserfunktion zu steuern und zu steuern, von welchem Zustand in der Dialogzustandsstruktur oder in einer einer zweiten wieder gewonnenen HTML-Seite zugeordneten zweiten Dialogzustandsstruktur der Dialog nach einer Ausführung der Funktion wiederaufgenommen werden sollte; wobei die Sprachbrowsersteuerung ansprechend auf ein Ereignis, das einen interpretierten DTMF-Ton eines zweiten vorbestimmten Satzes von interpretierten DTMF-Tönen umfaßt, angeordnet ist, um den interpretierten DTMF-Ton zu einer Anwendung der wiedergewonnenen HTML-Seite zu leiten; wobei jeder der Zustände einer entsprechenden Position in dem Objektmodell zugeordnet ist; und wobei die Sprachbrowservorrichtung ferner eine Synchronisationseinrichtung zum Synchronisieren der Dialogzustandsstruktur bezüglich eines aktuellen Zustands mit einer Position in dem Objektmodell umfaßt.
Gemäß einem zweiten Aspekt der Erfindung ist ein Verfahren bei einem Sprachbrowser in einem Sprachbrowsersystem vorgesehen, wobei der Sprachbrowser an einem Server angeordnet ist, der mit dem Internet verbunden ist und auf Dualtonmehrfrequenztöne (DTMF-Töne) anspricht, die von einem Telekommunikationsnetz empfangen werden, wobei das Verfahren folgende Schritte aufweist: Wiedergewinnen einer HTML-Seite ansprechend auf eine DTMF-Ton-Interpretation; Erzeugen eines Objektmodells, das die in der HTML-Seite definierten Elemente aufweist; Ableiten einer Anzahl von Zuständen, wobei jeder der Zustände eine Bezugnahme auf eine Position in dem Objektmodell und zumindest einen Eingang und/oder zumindest einen Ausgang umfaßt; Erzeugen einer Dialogzustandsstruktur, die dem Objektmodell zugeordnet ist, wobei bei der Struktur jeder Zustand von dem Ableitungsschritt integriert ist; Ausführen eines Dialogs mit einem Benutzer auf der Basis der Dialogzustandsstruktur; Ansprechen auf einen interpretierten DTMF-Ton, der in einem Zustand in der Dialogzustandsstruktur empfangen wird, mit einem Ereignis zu einer Sprachbrowsersteuerung; Steuern, bei der Sprachbrowsersteuerung, ansprechend auf das Ereignis, ob das Ereignis einen interpretierten DTMF-Ton eines ersten vorbestimmten Satzes von interpretierten DTMF-Tönen umfaßt, Steuern einer Sprachbrowserfunktion, die dem interpretier ten DTMF-Ton zugeordnet ist, und Steuern, von welchem Zustand in der Dialogzustandsstruktur oder in einer einer zweiten wiedergewonnenen HTML-Seite zugeordneten zweiten Dialogzustandsstruktur der Dialog nach einer Ausführung der Funktion wiederaufgenommen werden sollte; Lenken, von der Sprachbrowsersteuerung ansprechend auf das Ereignis, falls das Ereignis einen interpretierten DTMF-Ton eines zweiten vorbestimmten Satzes von interpretierten DTMF-Tönen umfaßt, des interpretierten DTMF-Tons zu einer Anwendung der HTML-Seite; und Synchronisieren der Dialogzustandsstruktur, bezüglich eines aktuellen Zustands, mit einer neuen Position in dem Objektmodell.
Der Sprachbrowser gemäß der vorliegenden Erfindung ist ein Bestandteil eines Sprachbrowsersystems, das ferner zumindest ein Telefon umfaßt, das über ein Telekommunikationsnetzwerk mit dem Sprachbrowser verbunden ist. Der Sprachbrowser ist angeordnet, um auf Informationen zuzugreifen, die als HTML-Dateien (HTML = Hyper-Text Mark-up Language), d.h. als HTML-Seiten, oder als beliebige andere Mark-up-Sprache-Dateien im Internet oder in einem beliebigen anderen Datenpaketvermittlungsnetzwerk veröffentlicht sind. Ein Telefon wird durch einen Endbenutzer zum Steuern der Funktionalität, die durch den Sprachbrowser unterstützt wird, mittels eines Sendens von DTMF-Tönen über das Telekommunikationsnetzwerk während eines Dialogs zwischen dem Benutzer und dem Sprachbrowser verwendet.
Das Telekommunikationsnetzwerk ist eine beliebige Art von Netzwerk, in dem Sprachkommunikations- und DTMF-Töne transferiert werden können, z.B. ein feststehendes leitungsvermitteltes Netzwerk, ein mobiles Kommunikationsnetzwerk oder ein Paketvermittlungsnetzwerk. Wie durch den letztgenannten Fall impliziert wird, könnte das Netzwerk sehr gut das Internet sein, wobei in diesem Fall unter Verwendung einer Internet-Telefonie oder mittels eines Internetzugriffs über eine mobile Station und einen Generalpaketfunkdienst (GPRS – General Packet Radio Service) eines GSM-Netzwerks auf den Sprachbrowser zugegriffen wird. Selbstverständlich hängt die Art der verwendeten Telefonausrüstung von der Art des Telekommunikationsnetzwerks ab, das für ein Zugreifen auf den Sprachbrowser ausgewählt wird, jedoch muß die Telefonausrüstung ein Tastenfeld aufweisen und in der Lage sein, DTMF-Signale zu erzeugen.
Gemäß der Erfindung ist es möglich, unter Verwendung eines ersten Satzes von DTMF-Tönen bzw, eines zweiten Satzes von DTMF-Tönen sowohl die Sprachbrowserfunktionalität als auch eine Anwendung einer HTML-Seite gleichzeitig von einem Telefontastenfeld aus zu steuern. Jeder DTMF-Ton dieser Sätze wird durch einen Benutzer mit einem einzigen Tastenanschlag auf dem Tastenfeld erzeugt und durch den Sprachbrowser als eine gewisse Taste interpretiert. Die Interpretation wird in einem Ereignis von der Dialogzustandssteuerung an die Sprachbrowsersteuerung transferiert, die die notwendigen Operationen durchführt, die auf die Browserfunktionalität oder Anwendungssteuerung bezogen sind, wobei die Operationen davon abhängig sind, welche DTMF-Interpretation bei dem Ereignis empfangen wurde.
Vorzugsweise umfaßt jeder Zustand der Dialogzustandsstruktur eine Bezugnahme auf eine entsprechende Position bzw. einen entsprechenden Knoten in einem Parse-Baum (parse = syntaktisch analysieren), der das Objektmodell darstellt. In einem gewissen Zustand, während ein DTMF-Ton empfangen und interpretiert wird, wird die Tasteninterpretation des DTMF-Tons und die durch den betreffenden Zustand gespeicherte Bezugnahme bei einem Ereignis bzw. Rückruf an die Sprachbrowsersteuerung transferiert. Somit ist das Objektmodell immer mit der Dialogzustandsstruktur synchronisiert, was bedeutet, daß die Sprachbrowsersteuerung immer die Operationen, die einer spezifischen Taste, auf dem relevanten Teil der HTML-Seite zugeordnet sind, gemäß der Bezugnahme auf das Objektmodell durchführt.
Desgleichen sind gewisse Positionen bzw. Knoten des Objektmodells Bezugnahmen auf Zustände in der Dialogzustandsstruktur zugeordnet, um die Dialogstruktur mit dem Objektmodell zu synchronisieren. Diese Synchronisierung wird vorzugsweise mittels einer Nachschlagetabelle erreicht, könnte jedoch auch unter Verwendung einer beliebigen Art von Datenbankeinrichtung bewerkstelligt werden. Eine spezifische Position des Objektmodells weist einen entsprechenden Eintrag in der Nachschlagetabelle auf, und jeder Eintrag in der Nachschlagetabelle speichert eine Bezugnahme auf einen entsprechenden Zustand in der Dialogzustandsstruktur. Nachdem die Sprachbrowsersteuerung ein empfangenes Ereignis verarbeitet hat, bezieht sich somit die sich ergebende Position, die – abhängig davon, welche Operation das Ereignis auslöste – dieselbe oder eine neue Position sein könnte, mittels der Nachschlagetabelle auf einen entsprechenden Zustand in der Dialogstruktur. Dieser Zustand, auf den Bezug genommen wurde, gibt den Zustand in der Dialogzustandsstruktur an, von dem der Dialog mit dem Benutzer wiederaufgenommen werden sollte. Somit wird die folgende Operation an der Dialogzustandsstruktur aufgrund eines empfangenen DTMF-Tons mit der aktuellen Position in dem Objektmodell und somit mit dem derzeit durchsuchten (gebrowsten) Teil der HTML-Seite synchronisiert.
Somit gewährleistet der Sprachbrowser gemäß der Erfindung, daß zwischen dem Entwurf bzw. Layout der durch den Browser wiedergewonnenen ursprünglichen HTML-Seite und allen möglichen Steuerfunktionen, die einem Benutzer über eine DTMF-Schnittstelle angeboten werden, immer ein Synchronismus aufrechterhalten wird.
Vorzugsweise umfaßt ein von der Dialogzustandsstruktur an die Sprachbrowsersteuerung transferiertes Ereignis ferner einen Zeitstempel, der von der Standardtaktfunktion des Servers, in der der Sprachbrowser ausgeführt wird, abgeleitet ist. Die Sprachbrowsersteuerung verwendet diesen Zeitstempel, wenn sie bestimmte Operationen durchführt, die sich auf die Navigation innerhalb einer HTML-Seite beziehen. Diese Operationen umfassen diejenigen, die die Browserfunktionalität steuern, die das Hin- und Herbewegen in dem Objektmodell, das aus der HTML-Seite erzeugt wird, und somit die Audioausgabe an das Telekommunikationsnetzwerk betrifft.
Wenn auf Elemente einer HTML-Seite bzw. -Datei im Kontext der vorliegenden Erfindung Bezug genommen wird, umfaßt dies durchsuchbare (browsable) Textparagraphen, die in der Seite enthalten sind, Hypertextverknüpfungen, Audiodateien, auf die durch die Seite Bezug genommen wird, oder andere Posten, die sich entweder direkt oder nach einer Text-Zu-Sprache-Umwandlung für eine Audioausgabe eignen.
Die oben erwähnten und weitere Aspekte und Merkmale sowie Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen eines veranschaulichenden Ausführungsbeispiels derselben näher ersichtlich.
Kurze Beschreibung der Zeichnungen
Unter Bezugnahme auf die beigefügten Zeichnungen wird nun ein Ausführungsbeispiel der vorliegenden Erfindung beispielhaft beschrieben, bei dem:
1 ein Sprachbrowsersystem mit einem Sprachbrowser gemäß der vorliegenden Erfindung zeigt;
2 ein Blockdiagramm eines Sprachbrowsers gemäß einem Ausführungsbeispiel der Erfindung zeigt; und
3 schematisch einige interne Datenstrukturen veranschaulicht, an denen ein Sprachbrowser gemäß dem Ausführungsbeispiel der Erfindung operiert.
Ausführliche Beschreibung des bevorzugten Ausführungsbeispiels
1 liefert ein schematisches Diagramm eines Systems zum Zugreifen auf einen Inhalt des World Wide Web (WWW), z.B. HTML-Seiten, unter Verwendung eines Sprachbrowsersystems. Das Sprachbrowsersystem umfaßt ein Telefon 100 und einen Sprachbrowser 110, der an einem Server 120 angeordnet ist. Der Server 120 ist mit dem Internet 130 verbunden und in der Lage, unter Verwendung des Internetprotokolls mit einer Anzahl von Servern 140 zu kommunizieren, die WWW-Inhalt im Internet 130 bereitstellen. Das Telefon 100 weist ein Tastenfeld 105 und eine zugeordnete Schaltungsanordnung zum Erzeugen von Dualtonmehrfrequenztönen (DTMF-Tönen) auf. Über ein Telekommunikationsnetzwerk 150 sendet das Telefon 100 DTMF-Töne an den Sprachbrowser 110 und empfängt eine Audioausgabe von demselben. Bei 1 ist das Telefon durch eine mobile Station beispielhaft dargestellt, und das Telekommunikationsnetzwerk ist durch ein Mobilkommunikationsnetzwerk beispielhaft dargestellt.
Der Sprachbrowser 110 wandelt einen Inhalt von HTML-Seiten (oder Seiten beliebiger anderer Mark-up-Sprachen) in eine Audioausgabe um, die an das Telefon 100 gesandt wird. Die HTML-Seiten werden entweder von einem der Server 140 oder von dem Server 120 selbst wiedergewonnen.
2 zeigt ein Blockdiagramm des Sprachbrowsers 110, auf den in 1 Bezug genommen wird. Eine Internetzugriffseinheit 200 bildet eine Schnittstelle mit dem Internet und erzeugt eine Datenverbindung mit einem Internetserver, an dem eine HTML-Seite, auf die zugegriffen werden soll, gespeichert ist. Die HTML-Seite wird unter Verwendung von Standardmechanismen, z.B. der HTTP- und TCP/IP-Protokolle, vom Internet wiedergewonnen. Alternativ dazu ist eine HTML-Seite, die ein Sprachbrowsersystem-Menü implementiert, an dem Server 120, an dem der Sprachbrowser 110 angeordnet ist, gespeichert und wird direkt von demselben wiedergewonnen. Falls ein Benutzer eine persönliche HTML-Startseite anfordert, die zuvor dem bestimmten Benutzer zugeordnet wurde, wird diese Startseite entweder direkt von dem Sprachbrowserserver 120 oder von einem anderen Server 140 über das Internet 130 wiedergewonnen.
Eine HTML-Seiten-Wiedergewinnungseinheit 205 steuert die Wiedergewinnung von HTML-Seiten sowie jeglicher Audiodateien, auf die eine HTML-Seite Bezugnahmen aufweisen kann, wobei die Wiedergewinnung durch die Internetzugriffseinheit 200 durchgeführt wird. Eine wiedergewonnene Seite wird anschließend an einen HTML-Seiten-Zu-Objektmodell-Umwandler 210 transferiert, der die in der wiedergewonnenen HTML-Seite definierten Elemente extrahiert und ein Objektmodell erzeugt, das diese Elemente aufweist. Das gespeicherte Objektmodell wird anschließend durch einen Objektmodell-Zu-Dialogzustand-Umwandler 212 zum Erzeugen einer Dialogzustandsstruktur und zum Ableiten von Zuständen verwendet, die in die Dialogzustandsstruktur integriert werden sollen, wobei die Struktur dem jeweiligen Objektmodell zugeordnet ist.
Die gespeicherte Dialogzustandsstruktur und ihre Zustände bilden die Basis für den Dialog zwischen dem Sprachbrowser 110 und dem Endbenutzer, der unter Verwendung des Telefons 100 auf den Sprachbrowser 110 zugreift. Text- und Audiodateielemente sind in den unterschiedlichen Zuständen der Dialogzustandsstruktur gespeichert. Diese Text- und Audiodateielemente werden in einem Text-Zu-Sprache-Synthesegerät 215 bzw. einem Audiodateiabspielgerät 217 in Audioströme umgewandelt. Ein Audiostrom wird an eine Audioeinrichtung 220 transferiert, die für das Abspielen von Audioströmen über das Telekommunikationsnetzwerk 150 verantwortlich ist. Die Audioeinrichtung 220 ist dafür verantwortlich, die Audioströme zu Audio umzuarbeiten, das für das Telekommunikationsnetzwerk 150 geeignet ist. Der Sprachbrowser 110 bildet eine Schnittstelle zwischen dem Telekommunikationsnetz werk 150 und einer Telekommunikationsnetzwerkzugriffseinheit 225, durch die die Audioeinrichtung 220 den Audiostrom über das Telekommunikationsnetzwerk 150 einem Telefon 100 eines Benutzers abspielt.
Die Telekommunikationsnetzwerkzugriffseinheit 225 ist nicht nur angeordnet, um Audiosignale an ein Telefon 100 eines Benutzers, der auf das Telekommunikationsnetzwerk 150 zugreift, zu senden, sondern auch, um Audiosignale von demselben zu empfangen. Diese von dem Telefon 100 eines Benutzers empfangenen Audiosignale sind DTMF-Signale, die durch die Zugriffseinheit 225 an einen DTMF-Empfänger 230 transferiert werden. Der DTMF-Empfänger 230 ist in der Lage, DTMF-Töne, die von dem Telefon 100 eines Benutzers gesandt werden, zu erfassen und diese DTMF-Töne zu interpretieren. Ein interpretierter DTMF-Ton wird anschließend von dem DTMF-Empfänger 230 an eine Dialogsteuerung 235 transferiert. Die Dialogsteuerung 235 ist ein Prozeß, der angeordnet ist, um an der Dialogzustandsstruktur zu arbeiten, wobei diese Struktur unter Bezugnahme auf 3 näher beschrieben wird, und zwar zum Zweck des Erzeugens einer Ausgabe von Text und Audio zu dem Benutzer und des Empfangens von DTMF-Tönen, die durch den Benutzer eines Telefons 100 zur Steuerung der Sprachbrowserfunktionalität erzeugt werden. Somit steuert die Dialogsteuerung 235 den Dialog mit dem Benutzer und verwaltet die Ausgabe von Text und Audio an den Benutzer ansprechend auf DTMF-Ton-Interpretationen. Bei Empfang eines interpretierten DTMF-Tons interagiert die Dialogsteuerung 235 mit einer Sprachbrowsersteuerung 245, indem sie ein Ereignis sendet, das die Sprachbrowsersteuerung 245 von dem empfangenen interpretierten DTMF-Ton benachrichtigt. Die Sprachbrowsersteuerung 245 arbeitet an einem Objektmodell, das unter Bezugnahme auf 3 näher beschrieben wird, und weist eine interne Logik zum Durchführen derjenigen Schritte und Operationen auf, die einer bestimmten DTMF-Ton-Interpretation zugeordnet sind, die in dem Ereignis von der Dialogzustandssteuerung 235 empfangen wird. Die Dialogsteuerung 235 erhält einen Zeitstempel von der Standardtaktfunktion und integriert den Zeitstempel in das an die Sprachbrowsersteuerung 245 transferierte Ereignis. Die Sprachbrowsersteuerung 245 verwendet den empfangenen Zeitstempel des Ereignisses, um die korrekten und zeitgenauen Operationen durchzuführen, die sich auf die Navigation innerhalb der HTML-Seite und somit auf den Audiostrom, der über das Telekommunikationsnetzwerk 150 abgespielt wird, beziehen.
Die durch die Sprachbrowsersteuerung 245 durchgeführten Operationen umfassen eine Interaktion mit der HTML-Seiten-Wiedergewinnungseinheit 205 zum Anordnen der Wiedergewinnung von HTML-Seiten, eine Interaktion mit dem HTML-Seiten-Zu-Objektmodell-Umwandler 210 zum Steuern des Erstellens eines Objektmodells aus den Elementen einer wiedergewonnenen HTML-Seite, und eine Interaktion mit dem Objektmodell-Zu-Dialogzustand-Umwandler zum Erzeugen einer Dialogzustandsstruktur und ihrer Zustände auf der Basis des jeweiligen Objektmodells.
Die durch die Dialogsteuerung 235 durchgeführten Operationen umfassen eine Interaktion mit der Audioeinrichtung 220; zum Beispiel um das Abspielen eines Audiostroms zeitweilig anzuhalten, und eine Interaktion mit dem Audiodateiabspielgerät 217 und dem Text-Zu-Sprache-Synthesegerät 215 zum Umwandeln von Audiodateien bzw. Text, die bzw. der in den Zuständen der Dialogzustandsstruktur gespeichert sind bzw. ist, in Audioströme, die durch die Audioeinrichtung 220 abgespielt werden können.
3 veranschaulicht schematisch einige interne Datenstrukturen des Sprachbrowsers 110 gemäß dem Ausführungsbeispiel der Erfindung.
Gemäß der obigen Beschreibung gewinnt der Sprachbrowser eine HTML-Seite von dem globalen Internet oder von dem Server wieder, an dem der Sprachbrowser zum Arbeiten angeordnet ist. Die HTML-Seite besteht aus einer Anzahl von Seitenele menten. Ein Seitenelement ist beispielsweise ein Textparagraph, ein Formatierungselement, eine Verknüpfung oder ein Eingabefeld in einem Formular. Das Element kann auch ein „Tabindex" sein, d.h. ein Zeiger in dem Seiteninhalt sein, der durch den HTML-Seitenentwerfer zu dem Zweck entworfen wurde, eine Markierungsvorrichtung für Vorwärts- und Rückwärtssprünge innerhalb der Seite zu sein.
Die Sprachbrowsersteuerung 245 erzeugt ein Objektmodell 300, das alle Seitenelemente der wiedergewonnenen HTML-Seite umfaßt. Dies wird als Parsingvorgang durchgeführt, und das sich ergebende Objektmodell 300 ist eine Parse-Baumstruktur mit allen Seitenelementen der HTML-Seite. Jeder Knoten 305 in dem Parse-Baum umfaßt ein Seitenelement und stellt eine Position in dem Objektmodell 300 dar, auf die durch einen beliebigen anderen Prozeß des Sprachbrowsers, z.B. die Dialogsteuerung, eine Bezugnahme durchgeführt werden kann. Die Baumstruktur ist eine Eins-Zu-Eins-Abbildung der Seite oder des Dokuments, wie sie bzw. es in der HTML-Syntax beschrieben ist.
Anschließend wird unter Verwendung der Baumdarstellung, d.h. des Objektmodells 300, der wiedergewonnenen HTML-Seite als Basis für die Erstellung durch die Sprachbrowsersteuerung 245 eine Dialogzustandsstruktur 310 erzeugt. Ein Dialogelement, das bestimmte Eigenschaften, z.B. Eingaben, Ausgaben und eine Bezugnahme auf eine Objektmodellposition, aufweist, wird für jedes Element in dem Objektmodell erzeugt. Diese Dialogelemente werden in der Dialogzustandsstruktur 310 derart in Zustände gruppiert, daß nicht-kompatible Eingaben in unterschiedliche Zustände gegeben werden. Die auf diese Weise erzeugte Dialogzustandsstruktur 310 ist eine Finit-Zustand-Maschine und weist eine Anzahl von Zuständen 311; 312; 313; 314 und Übergänge zwischen diesen Zuständen auf. Jeder Zustand umfaßt zumindest eine Eingabe und/oder zumindest eine Ausgabe. Jeder Zustand umfaßt ferner eine Bezugnahme auf eine entsprechende Position bzw. einen entsprechenden Knoten in dem Objektmodell 300.
Eine Eingabe eines Zustandes ist ein DTMF-Ton zusammen mit einer Spezifikation dessen, wie der DTMF-Ton interpretiert werden soll, d.h. ob ein Sprachbrowsersteuerereignis oder ein Anwendungsereignis, das an die Sprachbrowsersteuerung 245 gesendet werden soll, erzeugt werden soll. Ein Ereignis enthält immer die Interpretation der Eingabe, d.h. die Interpretation eines DTMF-Tons. Wie zuvor erwähnt wurde, umfaßt das Ereignis ferner einen Zeitstempel. Bei einem System, das ferner eine Spracheingabe unterstützt, enthält das Ereignis die Interpretation der Spracheingabe. Jedoch können Ereignisse auch aus anderen Gründen als aufgrund einer Interpretation eines DTMF-Tons oder von Sprache an die Sprachbrowsersteuerung 245 gesandt werden, beispielsweise wenn das Abspielen eines Textes begonnen oder beendet wurde, wenn eine Auszeit für eine Eingabe aufgetreten ist oder wenn ein nicht interpretierbarer DTMF-Ton oder eine nicht interpretierbare Spracheingabe empfangen wurde. Eine Ausgabe eines Zustands ist ein Text, eine Audiodatei oder eine beliebige andere Audiostrombeschreibung, die durch das Text-Zu-Sprache-Synthesegerät 215 oder das Audiodateiabspielgerät 217 behandelt werden soll.
Nach der Erzeugung der Dialogzustandsstruktur 310 startet die Sprachbrowsersteuerung 245 die Dialogsteuerung 235, die der Prozeß ist, der die Dialogzustandsstruktur 310 steuert. Durch Steuern der Dialogzustandsstruktur 310 steuert die Dialogsteuerung 235 ferner die verschiedenen Möglichkeiten, die ein Benutzer hat, zu einem bestimmten Moment oder vielmehr an einem bestimmten durchsuchten Teil der HTML-Seite mit dem Sprachbrowser 110 zu interagieren. Dies ist darauf zurückzuführen, daß ein Zustand, an dem die Dialogsteuerung 235 derzeit arbeitet, einen begrenzten Satz von möglichen Eingaben aufweist, die auf Sprachbrowserfunktionen abgebildet werden können.
Wenn in einem aktuellen Zustand eine gültige DTMF-Ton-Interpretation empfangen wird, transferiert die Dia logsteuerung 235 ein Ereignis an die Sprachbrowsersteuerung 245. Das Ereignis umfaßt die DTMF-Ton-Interpretation, eine Bezugnahme auf eine eindeutige Position in dem Objektmodell 300, wobei die Bezugnahme durch den Zustand, von dem das Ereignis stammte, gespeichert ist, einen Zeitstempel mit der aktuellen Zeit und eine Bezugnahme auf den „nächsten" Teil der Dialogzustandsstruktur, so daß der aktuelle Dialog gegebenenfalls von diesem „nächsten" Teil wiederaufgenommen werden kann. Auf den Empfang eines Ereignisses hin extrahiert die Sprachbrowsersteuerung 245 die DTMF-Ton-Interpretation und führt die Operationen durch, die der spezifischen Interpretation zugeordnet sind.
Falls die DTMF-Ton-Interpretation des Ereignisses zu einem ersten Satz von vorbestimmten Interpretationen gehört, soll die Benutzereingabe den Sprachbrowser 110 selbst steuern, und die durch den Sprachbrowser 110 durchgeführten Operationen beinhalten ein Implementieren einer spezifischen Browserfunktion. Eine Browserfunktion beinhaltet in der Regel ein Transferieren eines Elements von einem Zustand der Dialogzustandsstruktur 310 zu der Audioeinrichtung 220, oder indirekt über das Text-Zu-Sprache-Synthesegerät 215, wobei in dieser Audioeinrichtung 220 ein Audiostrom über das Telekommunikationsnetzwerk für den Benutzer abgespielt wird. Eine weitere typische Browserfunktion besteht darin, das Vorwärts- oder Rückwärts-Abspielen des Audiostroms durch die Audioeinrichtung 220 zu steuern.
Falls die DTMF-Ton-Interpretation des Ereignisses zu einem zweiten Satz von vorbestimmten Interpretationen gehört, ist die Benutzereingabe für die HTML-Anwendung beabsichtigt, und die durch den Sprachbrowser durchgeführten Operationen werden aus der Aktion bestimmt, die durch die HTML-Anwendung für die jeweilige DTMF-Ton-Interpretation spezifiziert ist.
3 zeigt ferner eine Nachschlagetabelle 320, die die durch den Sprachbrowser 110 verwendete Synchronisierungs einrichtung implementiert. Die Nachschlagetabelle 320 wird zum Synchronisieren der Dialogzustandsstruktur 310 mit einer Position in dem Objektmodell 300 verwendet. Das folgende veranschaulicht die Verwendung der Nachschlagetabelle 320. Man nehme an, daß die Sprachbrowsersteuerung 300 ein Ereignis empfängt, das einen Satz von Operationen auslöst, um eine gewisse Browserfunktion zu bewerkstelligen. Falls die Operationen beispielsweise die Funktion des Zurückspringens auf einer HTML-Seite implementieren, muß ein Element eines Knotens, der eine Position in dem Objektmodell 300 aufweist, die sich von der aktuellen Position unterscheidet, in eine Audioausgabe umgewandelt und über die Dialogzustandsstruktur 310 an den Benutzer transferiert werden. Dies wird bewerkstelligt, indem eine Bezugnahme von der aktuellen Position bzw. dem aktuellen Knoten auf die neue relevante Position verwendet wird. Von dieser neuen Position muß ein neuer Zustand der Dialogzustandsstruktur 310 mit der neuen Position in dem Objektmodell 300 synchronisiert werden, um in der Lage zu sein, das korrekte Text- oder Audioelement auszugeben und einen unterschiedlichen Satz von möglichen Benutzereingaben, der an der neuen Position angenommen wird, zu handhaben. Von der neuen Position in dem Objektmodell 300 wird ein entsprechender Eintrag in der Nachschlagetabelle 320 adressiert; dies ist in 3 mit Pfeil (1) veranschaulicht. Von dem betreffenden Eintrag wird eine Bezugnahme auf einen neuen Zustand wiedergewonnen, mit Pfeil (2) veranschaulicht, und die Dialogsteuerung 235 wird von dem neuen entsprechenden Zustand, an dem die nächste Benutzereingabe angenommen werden sollte, benachrichtigt.
Für jede wiedergewonnene HTML-Seite ist ein eindeutiges Objektmodell 300 konfiguriert, und eine eindeutige Dialogzustandsstruktur 310 ist dem Objektmodell 300 zugeordnet. Wenn eine neue HTML-Seite wiedergewonnen wird, speichert der Sprachbrowser 110 das Objektmodell 300 und die Dialogstruktur 310 der vorherigen HTML-Seite und leitet ein neues Objektmodell und eine neue Dialogstruktur für die neue HTML-Seite ab. Somit wird die vorherige HTML-Seite in die Historienliste gegeben, was den Browser befähigt, dem Benutzer eine Option zu bieten, eine HTML-Seite, auf die zuvor zugegriffen wurde, rasch von der Historienliste wiederherzustellen.
Wie oben angegeben wurde, entscheidet der Entwurf der Sprachbrowsersteuerung 245, welche Funktion einem bestimmten interpretierten DTMF-Ton zugeordnet werden sollte. Falls ein Benutzer beispielsweise die Taste „7" auf seinem Telefontastenfeld drückt, wird ein entsprechender DTMF-Ton an den DTMF-Empfänger 230 des Sprachbrowsers 110 zur Interpretation gesandt. Die DTMF-Ton-Interpretation wird in einem Ereignis an die Sprachbrowsersteuerung 245 transferiert, die die Interpretation untersucht und die dieser Interpretation zugeordneten Operationen durchführt.
Gemäß dem beschriebenen Ausführungsbeispiel weist der Sprachbrowser 110 das folgende Befehlslayout auf:
Die Funktionen, die interpretierten DTMF-Tönen zugeordnet sind, die den Tasten 1 – 6 des Tastenfeldes 105 des Telefons 100 in 1 entsprechen, sind für die Anwendung ei ner wiedergewonnenen HTML-Seite reserviert, d.h. die Tasten 1 – 6 sind für eine Zugriffstastenbindung reserviert. Diese Tasten können durch den Anwendungsentwerfer für einen Benutzerschnittstellenentwurf verwendet werden, der für die jeweilige Anwendung spezifisch ist. Bei einer E-Mail-Leser-Anwendung kann die Taste „6" beispielsweise an eine Verknüpfung gebunden sein, die zu einer Seite führt, bei der der Benutzer anfordern kann, daß eine Mail gelöscht wird.
Ein Tastenwert „7" wird durch die Sprachbrowsersteuerung 245 Operationen zugeordnet, die eine Rückwärts-Browse-Funktion implementieren, d.h. der Browser springt auf der aktuell gelesenen HTML-Seite zurück. Dies wird bewerkstelligt, indem das Abspielen eines Audiostroms durch die Audioeinrichtung 220 zurückgesetzt wird, was auf zwei unterschiedliche Weisen erfolgen kann: entweder indem ein Audiostromzeiger in der Audioeinrichtung 220 um eine vordefinierte Anzahl von Sekunden bezüglich des in dem Ereignis empfangenen Zeitstempels zurückgesetzt wird oder indem der Audiostromzeiger auf den Beginn des aktuellen Audiostroms, der das aktuell gelesene Element darstellt, zurückgesetzt wird.
Falls in dem oben beschriebenen letzteren Fall ein weiterer Tastenwert „7" in einem Ereignis durch die Sprachbrowsersteuerung 245 innerhalb eines gewissen Zeitfensters empfangen wird, wobei das Zeitfenster durch die maximal zulässige Zeit zwischen zwei in zwei aufeinanderfolgenden Ereignissen empfangenen Zeitstempeln definiert ist, wird die aktuelle Position in dem Objektmodell 300 zu der vorherigen Position zurückgesetzt. Dies erfolgt unter Verwendung einer Bezugnahme von der aktuellen auf die vorherige Position, wodurch das vorherige gelesene Element in einen Audiostrom umgewandelt und wiederum an den Benutzer transferiert wird. Falls ein weiteres Ereignis mit dem Tastenwert „7" innerhalb eines weiteren Zeitfensters empfangen wird, wird die aktuelle Position gemäß einem Ausführungsbeispiel auf ähnliche Weise zu einer weiteren vorherigen Position zurückgesetzt, wobei dieser Vorgang für jeden Tastenwert „7" wiederholt wird, bis die erste Position in dem Objektmodell und somit das obere Ende der HTML-Seite gebrowst wird. Gemäß einem weiteren Ausführungsbeispiel folgt auf die erste vorherige Position die oberste Position. Falls bei diesen zwei Ausführungsbeispielen noch ein weiterer Tastenwert „7" empfangen wird, wird die Position entweder auf die zuletzt besuchte Position eines zuvor durchquerten Objektmodells, das der zuvor gelesenen HTML-Seite zugeordnet ist, oder auf die oberste Position des zuvor durchquerten Objektmodells zurückgesetzt.
Ein Tastenwert „8" wird durch den Sprachbrowser 110 mittels der Dialogsteuerung 245 Operationen zugeordnet, die eine Pausenfunktion implementieren, d.h. es wird angeordnet, daß das Abspielen des Audiostroms durch die Audioeinrichtung 220 vorübergehend angehalten wird. Ein folgender Tastenwert „8" bewirkt, daß der Audiostrom wiederaufgenommen wird. Alternativ dazu wird das Abspielen durch die Audioeinrichtung 220 wiederaufgenommen, wobei sich ein beliebiger Audiostrom aus dem nächsten Tastenanschlagswert ergibt. Dieser nächste Tastenwert kann ein beliebiger Tastenwert sein, der in der obigen Tabelle enthalten ist. Beispielsweise nimmt die Audioeinrichtung 220 den Audiostrom, der sich auf das vorherige gelesene Element bezieht, wieder auf, falls der nächste empfangene Tastenwert „7" ist, falls diese Implementierung diejenige ist, die für die Taste „7" ausgewählt ist, wie oben beschrieben wurde.
Ein Tastenwert „9" wird durch die Sprachbrowsersteuerung 245 Operationen zugeordnet, die eine Vorwärts-Browse-Funktion implementieren, d.h. der Browser springt auf der aktuell gelesenen HTML-Seite vorwärts. Dies wird bewerkstelligt, indem das Abspielen eines Audiostroms durch die Audioeinrichtung 220 vorgerückt wird, indem ein Audiostromzeiger in der Audioeinrichtung 220 um eine vorbestimmte Anzahl von Sekunden bezüglich des Zeitstempels vorgerückt wird, der in dem Ereignis empfangen wird, das den Tasten wert „9" trägt. Alternativ dazu wird die aktuelle Position in dem Objektmodell 300 zu einer nächsten Position vorgerückt. Dies erfolgt unter Verwendung einer Bezugnahme von der aktuellen auf die nächste Position, wodurch das nächste Element der HTML-Seite in einen Audiostrom umgewandelt und an den Benutzer transferiert wird.
Ein Tastenwert „0" wird durch die Sprachbrowsersteuerung 245 Operationen zugeordnet, die die Wiedergewinnung einer vordefinierten HTML-Startseite eines Benutzer implementieren. Wie erwähnt wurde, wird die Startseite entweder direkt von dem Sprachbrowserserver 120 oder über das Internet 130 von einem anderen Server 140 wiedergewonnen. Ein Tastenwert „*" wird durch die Sprachbrowsersteuerung 245 Operationen zugeordnet, die die Wiedergewinnung eines als eine HTML-Seite entworfenen Sprachbrowsersystem-Menüs implementieren. Der Sprachbrowser 110 gewinnt das Systemmenü von dem Server 120 wieder, an dem der Sprachbrowser angeordnet ist. Das Systemmenü umfaßt Sprachbrowserfunktionen, die sich auf Bookmarks, ein Eingeben von URLs, unterschiedliche Benutzerpräferenzen bezüglich beispielsweise Sprache beziehen, sowie andere Funktionen.
Ein Tastenwert „#" wird durch die Sprachbrowsersteuerung 245 Operationen zugeordnet, die eine Auswahlfunktion implementieren, d.h. die Auswahl eines aktiven Elements, das beispielsweise eine aktuell gelesene Hypertextverknüpfung oder jegliche Art von Benutzeroption, die durch die gelesene HTML-Seite bereitgestellt wird, ist.
Obwohl die Beschreibung der Erfindung bezüglich des Internet-Kommunikationssystems erfolgte, verstehen Fachleute, daß die Erfindung auch bei anderen, ähnlichen Typen von miteinander verbundenen Kommunikationsnetzwerken verwendet werden kann, die eine Kommunikation zwischen Computern, die an diese Netzwerke angeschlossen sind, ermöglichen.
Obwohl die Beschreibung ferner hauptsächlich in bezug auf die Anwendung des World Wide Web erfolgte, muß man verstehen, daß die Erfindung genauso gut für viele andere Arten von Netzanwendungen verwendet werden kann und nicht auf diese Anwendung beschränkt ist.

Claims

Eine Sprachbrowservorrichtung in einem Sprachbrowsersystem, wobei die Sprachbrowservorrichtung an einem Server angeordnet ist, der mit dem Internet verbunden ist und auf Dualtonmehrfrequenztöne (DTMF-Töne) anspricht, die von einem Telekommunikationsnetz empfangen werden, wobei der Sprachbrowser folgende Merkmale aufweist: ein Objektmodell, das Elemente aufweist, die in einer wiedergewonnenen HTML-Seite definiert sind und Navigationspositionen in der HTML-Seite definieren; eine Audioeinrichtung zum Abspielen eines von einem Element der HTML-Seite abgeleiteten Audiostroms; eine Sprachbrowsersteuerung zum Steuern des Betriebs der Sprachbrowservorrichtung; und eine Dialogzustandsstruktur, die eine Mehrzahl von Zuständen und Übergängen zwischen Zuständen aufweist und die Text und Audioobjekte, die an die Audioeinrichtung ausgegeben werden sollen, speichert; und eine Dialogsteuerung, die angeordnet ist, um einen Dialog mit einem Benutzer auf der Basis der Dialogzustandsstruktur zu steuern und auf einen interpretierten DTMF-Ton mit einem Ereignis zu der Sprachbrowsersteuerung anzusprechen, dadurch gekennzeichnet, daß die Sprachbrowsersteuerung ansprechend auf ein Ereignis, das einen interpretierten DTMF-Ton eines ersten vorbestimmten Satzes von interpretierten DTMF-Tönen umfaßt, angeordnet ist, um eine dem interpretierten DTMF-Ton zugeordnete Sprachbrowserfunktion zu steuern und zu steuern, von welchem Zustand in der Dialogzustandsstruktur oder in einer einer zweiten wiedergewonnenen HTML-Seite zugeordneten zweiten Dialogzustandsstruktur der Dialog nach einer Ausführung der Funktion wiederaufgenommen werden sollte; wobei die Sprachbrowsersteuerung ansprechend auf ein Ereignis, das einen interpretierten DTMF-Ton eines zweiten vorbestimmten Satzes von interpretierten DTMF-Tönen umfaßt, angeordnet ist, um den interpretierten DTMF-Ton zu einer Anwendung der wiedergewonnenen HTML-Seite zu leiten; wobei jeder der Zustände einer entsprechenden Position in dem Objektmodell zugeordnet ist; und wobei die Sprachbrowservorrichtung ferner eine Synchronisationseinrichtung zum Synchronisieren der Dialogzustandsstruktur bezüglich eines aktuellen Zustands mit einer neuen Position in dem Objektmodell umfaßt.
Eine Sprachbrowservorrichtung gemäß Anspruch 1, bei der jeder Zustand der Dialogstruktur angeordnet ist, um eine Bezugnahme auf eine entsprechende Position in dem Objektmodell zu halten.
Eine Sprachbrowservorrichtung gemäß Anspruch 1 oder 2, bei der die Synchronisationseinrichtung eine Nachschlagetabelle umfaßt, die für spezifische Positionen in dem Objektmodell angeordnet ist, um eine Bezugnahme auf einen entsprechenden Zustand in der Dialogzustandsstruktur zu halten.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 3, bei der jede wiedergewonnene HTML-Seite einem entsprechenden Objektmodell zugeordnet ist, wobei das Objektmodell einer entsprechenden Dialogzustandsstruktur zugeordnet ist.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 4, bei der der Server zumindest eine Sprachbrowser-spezifische HTML-Seite speichert und bei der die wiedergewonnene HTML-Seite entweder eine vom Internet wiedergewonnene HTML-Seite oder die von dem Server wiedergewonnene Sprachbrowser-spezifische HTML-Seite ist.
Eine Sprachbrowservorrichtung gemäß Anspruch 5, bei der die Sprachbrowser-spezifische HTML-Seite ansprechend auf eine erste DTMF-Ton-Interpretation, die in dem ersten vorbestimmten Satz enthalten ist, durch die Sprachbrowsersteuerung wiedergewonnen wird.
Eine Sprachbrowservorrichtung gemäß Anspruch 6, bei der die Sprachbrowser-spezifische HTML-Seite eine Sprachbrowsersystem-Menüseite ist und bei der die erste DTMF-Ton-Interpretation die Taste „*" eines Telefontastenfeldes ist.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 7, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf eine in dem ersten vorbestimmten Satz enthaltene zweite DTMF-Ton-Interpretation, wobei die zweite DTMF-Ton-Interpretation die Taste „7" eines Telefontastenfeldes ist, das Abspielen des Audiostroms um eine vordefinierte Anzahl von Sekunden zurückzusetzen.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 7, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf eine in dem ersten vorbestimmten Satz enthaltene zweite DTMF-Ton-Interpretation, wobei die zweite DTMF-Ton- Interpretation die Taste „7" eines Telefontastenfeldes ist, das Abspielen des Audiostroms zum Start des aktuell gelesenen HTML-Seite-Elements zurückzusetzen.
Eine Sprachbrowservorrichtung gemäß Anspruch 9, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf jede zusätzlich empfangene zweite DTMF-Ton-Interpretation, die innerhalb eines jeweiligen Zeitfensters empfangen wird, von der aktuellen Position des Objektmodells zu einer vorherigen Position, die den Start des zuvor gelesenen HTML-Elements bezeichnet, zurückzusetzen, bis die oberste Position des Objektmodells, die den Start der HTML-Seite bezeichnet, erreicht ist.
Eine Sprachbrowservorrichtung gemäß Anspruch 9, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf eine zusätzlich empfangene zweite DTMF-Ton-Interpretation, die innerhalb eines gewissen Zeitfensters empfangen wird, von der aktuellen Position des Objektmodells zu einer vorherigen Position, die den Start des zuvor gelesenen HTML-Elements bezeichnet, und ansprechend auf eine weitere zusätzlich empfangene zweite DTMF-Ton-Interpretation, die innerhalb eines gewissen Zeitfensters empfangen wird, zu der obersten Position des Objektmodells zurückzusetzen.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 9 bis 11, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf eine weitere empfangene DTMF-Ton-Interpretation, die innerhalb eines gewissen Zeitfensters empfangen wird und mit der zweiten DTMF-Ton-Interpretation identisch ist, von der aktuellen Position des Objektmodells entweder zu der letzten besuchten Position eines zuvor durchquerten Objektmodells, das der zuvor gelesenen HTML-Seite zugeordnet ist, oder zu der obersten Position des zuvor durchquerten Objektmodells zurückzusetzen.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 12, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf eine dritte DTMF-Ton-Interpretation, die in dem ersten vorbestimmten Satz enthalten ist, wobei die dritte DTMF-Ton-Interpretation die Taste „9" eines Telefontastenfeldes ist, das Abspielen des Audiostroms um eine vordefinierte Anzahl von Sekunden vorzurücken.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 12, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf eine dritte DTMF-Ton-Interpretation, die in dem ersten vorbestimmten Satz enthalten ist, wobei die dritte DTMF-Ton-Interpretation die Taste „9" eines Telefontastenfeldes ist, von der aktuellen Position des Objektmodells zu einer nächsten Position desselben Modells vorzurücken.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 14, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf eine vierte DTMF-Ton-Interpretation, die in dem ersten vorbestimmten Satz enthalten ist, wobei die vierte DTMF-Ton-Interpretation die Taste „8" eines Telefontastenfeldes ist, das Abspielen des Audiostroms anzuhalten und ansprechend auf eine fünfte DTMF-Ton-Interpretation, die entweder in dem ersten oder in dem zweiten Satz enthalten ist, mit einem zweiten Audiostrom fortzufahren, wobei der zweite Audiostrom von dem Ergebnis der fünften DTMF-Ton-Interpretation abgeleitet ist.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 15, bei der die Sprachbrowsersteuerung angeordnet ist, um ansprechend auf eine sechste DTMF-Ton-Interpretation, die in dem ersten vorbestimmten Satz enthalten ist, wobei die sechste DTMF-Ton-Interpretation die Taste „#" eines Telefontastenfeldes ist, ein aktives Element, das vorzugsweise eine Verknüpfung ist, an der aktuellen Position in dem Objektmodell auszuwählen.
Eine Sprachbrowservorrichtung gemäß einem der Ansprüche 1 bis 16, bei der die wiedergewonnene HTML-Seite eine zuvor konfigurierte Benutzerstartseite ist, wobei die Seite ansprechend auf eine siebte DTMF-Ton-Interpretation, die in dem ersten vorbestimmten Satz enthalten ist, wobei die siebte DTMF-Ton-Interpretation die Taste „0" eines Telefontastenfelds ist, wiedergewonnen wird.
Ein Verfahren bei einer Sprachbrowservorrichtung in einem Sprachbrowsersystem, wobei die Sprachbrowservorrichtung an einem Server angeordnet ist, der mit dem Internet verbunden ist und auf Dualtonmehrfrequenztöne (DTMF-Töne) anspricht, die von einem Telekommunikationsnetz empfangen werden, wobei das Verfahren folgende Schritte aufweist: Wiedergewinnen einer HTML-Seite ansprechend auf eine DTMF-Ton-Interpretation; Erzeugen eines Objektmodells, das die in der HTML-Seite definierten Elemente aufweist; Ableiten einer Anzahl von Zuständen, wobei jeder der Zustände eine Bezugnahme auf eine Position in dem Objektmodell und zumindest einen Eingang und/oder zumindest einen Ausgang umfaßt; Erzeugen einer Dialogzustandsstruktur, die dem Objektmodell zugeordnet ist, wobei bei der Struktur jeder Zustand von dem Ableitungsschritt zusammen mit Übergängen zwischen den Zuständen integriert ist; Ausführen eines Dialogs mit einem Benutzer auf der Basis der Dialogzustandsstruktur; Ansprechen auf einen interpretierten DTMF-Ton, der in einem Zustand in der Dialogzustandsstruktur empfangen wird, mit einem Ereignis zu einer Sprachbrowsersteuerung; gekennzeichnet durch folgende Schritte: Steuern, bei der Sprachbrowsersteuerung, ansprechend auf das Ereignis, ob das Ereignis einen interpretierten DTMF-Ton eines ersten vorbestimmten Satzes von interpretierten DTMF-Tönen umfaßt, Steuern einer Sprachbrowserfunktion, die dem interpretierten DTMF-Ton zugeordnet ist, und Steuern, von welchem Zustand in der Dialogzustandsstruktur oder in einer einer zweiten wiedergewonnenen HTML-Seite zugeordneten zweiten Dialogzustandsstruktur der Dialog nach einer Ausführung der Funktion wiederaufgenommen werden sollte; Lenken, von der Sprachbrowsersteuerung ansprechend auf das Ereignis, falls das Ereignis einen interpretierten DTMF-Ton eines zweiten vorbestimmten Satzes von interpretierten DTMF-Tönen umfaßt, des interpretierten DTMF-Tons zu einer Anwendung der HTML-Seite; und Synchronisieren der Dialogzustandsstruktur, bezüglich eines aktuellen Zustands, mit einer neuen Position in dem Objektmodell.
Ein Verfahren gemäß Anspruch 18, bei dem das Ereignis, das den interpretierten DTMF-Ton des ersten Satzes umfaßt, ferner die Bezugnahme auf die Position in dem Objektmodell umfaßt.
Ein Verfahren gemäß Anspruch 18 oder 19, das den Schritt des Erstellens einer Nachschlagetabelle auf weist, wobei der Synchronisationsschritt das Zugreifen auf die Nachschlagetabelle von der Sprachbrowsersteuerung aufweist, nachdem das Ereignis verarbeitet wurde, um eine Bezugnahme auf einen Zustand in der Dialogzustandsstruktur wiederzugewinnen, der der neuen Position entspricht, die das Ergebnis der Verarbeitung des Ereignisses ist.
Ein Verfahren gemäß einem der Ansprüche 18 bis 20, das das Speichern zumindest einer Sprachbrowserspezifischen HTML-Seite an dem Server aufweist, wobei der Schritt des Wiedergewinnens einer HTML-Seite das Wiedergewinnen entweder einer HTML-Seite vom Internet oder der Sprachbrowser-spezifischen HTML-Seite von dem Server umfaßt.
Ein Verfahren gemäß einem der Ansprüche 18 bis 21, bei dem der erste vorbestimmte Satz die DTMF-Ton-Interpretationen „7", „8", „9", „0", „*" und „#" eines Telefontastenfeldes umfaßt.
Ein Verfahren gemäß Anspruch 22, bei dem die DTMF-Ton-Interpretation „*" die Wiedergewinnung einer auf dem Server gespeicherten Systemmenü-HTML-Seite steuert.
Verfahren gemäß Anspruch 22 oder 23, bei dem die DTMF-Ton-Interpretation „#" das Auswählen eines aktiven Elements an einer aktuellen Position in dem Objektmodell steuert.
Ein Verfahren gemäß einem der Ansprüche 22 bis 24, bei dem die DTMF-Ton-Interpretation „0" die Wiedergewinnung einer vordefinierten HTML-Startseite eines Benutzers steuert.
Ein Verfahren gemäß einem der Ansprüche 18 bis 25, bei dem der zweite vorbestimmte Satz die DTMF-Ton- Interpretationen „1" – „6" eines Telefontastenfeldes aufweist.