DE60222890T2

DE60222890T2 - Verfahren und Vorrichtungen zur Implementerung von hochinteraktiven Unterhaltungsdiensten unter Verwendung der Medienströmungstechnologie, das die Bereitstellung auf Abstand von Virtuelle Realitätdiensten ermöglicht

Info

Publication number: DE60222890T2
Application number: DE60222890T
Authority: DE
Inventors: Peter Domschitz
Original assignee: Alcatel Lucent SAS
Current assignee: Alcatel Lucent SAS
Priority date: 2002-08-12
Filing date: 2002-08-12
Publication date: 2008-02-07
Anticipated expiration: 2022-08-13
Also published as: DE60222890D1; ATE375187T1; EP1391226A1; US7480727B2; US20040064504A1; EP1391226B1

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft die Bereitstellung von hochinteraktiven Video/Audio-Diensten, wie z.B. Fernspielen, mit reaktiven Anforderungen und harten Echtzeitbedingungen an eine reaktive und realistische dynamische Visualisierung. Insbesondere betrifft die vorliegende Erfindung ein Verfahren, einen Action-Streamingdienst, einen Action-Streaming-Client, einen Action-Streaming-Server, ein Action-Streaming-System, eine Action-Streaming-Sitzung, ein Action-Streaming-Protokoll und Computersoftware-Produkte zur Erzeugung einer interaktiven virtuellen Realität.
Allgemeiner Stand der Technik
Die Video/Audio-Echtzeitverarbeitung für elektronische Spiele und andere auf virtueller Realität basierende Unterhaltungsangebote erfordern spezialisierte und leistungsfähige lokale Einrichtungen, wie z.B. hochwertige ("High-End") Personalcomputer oder Spielekonsolen.
Es gibt viele Spiele für Personalcomputer und Konsolen, die es einer Vielzahl von Spielern erlauben, an einem (gemeinsamen) Spiel teilzunehmen. Die Einrichtungen verwenden Zugangsnetztechnologie zur gemeinsamen Nutzung einer virtuellen Welt. Dies geschieht z.B. unter Verwendung des Internets, um die virtuellen Welten auszutauschen und zu synchronisieren. Um den Verbrauch an Netzwerkressourcen zu minimieren, besteht ein üblicherweise verwendetes Verfahren darin, eine solche virtuelle Welt zu parametrieren.
Zum Beispiel ist die virtuelle Welt eines Fußballspiels durch die spielende Mannschaft und den Spielort gekennzeichnet. Die Visualisierung des Orts, also des Spielplatzes, kann ein Teil der lokalen Spielsoftware selbst sein. Somit spezifiziert die kurze Zeichenfolge "WORLD CUP 2002 FINAL" vollständig die Spieler und die Spielplatz-Grafik. Die Spielsituation könnte durch die Ausrichtung und Position der Spieler und des Balls spezifiziert werden. Die klassische verteilte Spielarchitektur besteht darin, diese Zustände über ein Netz, z.B. über das Internet, zu synchronisieren und die virtuelle Realität, also Video und Audio, lokal in einer Spielekonsole zu erzeugen, welche Perspektiven, Modelle und Rendering umfasst. Mit diesem Verfahren wird vermieden, dass große Datenmengen über das Netz ausgetauscht werden müssen.
Die oben erwähnte Architektur wurde durch fehlende Netzwerkressourcen, nämlich Bandbreite oder Verzögerung, beeinflusst. In Zukunft wird sich die Situation etwas ändern. Digitales Video und Audio ist eine aufstrebende Technologie, bei der digital kodierte Audio- und Videoströme installiert werden. Zur Unterstützung dieser Art von Netzwerkanwendungen hat das European Telecommunications Standards Institute (ETSI) eine Standardplattform, die Media Home Platform, entworfen.
Media Home Platform
Die Multimedia Home Platform (MHP) definiert eine generische Schnittstelle zwischen interaktiven digitalen Anwendungen und den Endgeräten, auf denen diese Anwendungen ablaufen. Diese Schnittstelle entkoppelt Anwendungen verschiedener Anbieter von den spezifischen Hardware- und Softwaredetails unterschiedlicher MHP-Endgeräte-Implementierungen. Sie ermöglicht es Anbietern von digitalen Inhalten, alle Arten von Endgeräten, von Low-End bis zu High-End Set-Top-Boxen, integrierten digitalen Fernsehgeräten und Multimedia-PCs, anzusprechen. Die MHP erweitert den vorhandenen, erfolgreichen Digital Video Broadcast (DVB) Standard für Broadcast-Dienste und interaktive Dienste in allen Übertragungsnetzen, einschließlich Satellitennetze, Kabelnetze, terrestrische Netze und Mikrowellennetze.
Die Architektur der MHP ist in Form von drei Schichten definiert: Ressourcen, Systemsoftware und Anwendungen. Typische MHP-Ressourcen sind MPEG-Verarbeitung, Ein-Ausgabegeräte, CPU, Speicher und ein Grafiksystem. Die Systemsoftware bedient sich der verfügbaren Ressourcen, um den Anwendungen eine abstrakte Sicht auf die Plattform zu bieten. Die Implementierungen umfassen einen Anwendungsmanager (auch als "Navigator" bekannt) zur Steuerung der MHP und der darauf ablaufenden Anwendungen.
Der Kern der MHP basiert auf einer Plattform, die als DVB-J bekannt ist. Diese umfasst eine virtuelle Maschine, wie sie in der Java-Virtual-Machine-Spezifikation von Sun Microsystems definiert ist. Eine Anzahl von Software-Paketen stellt generische Programmierschnittstellen (Application Program Interfaces – APIs) zu einer großen Auswahl von Leistungsmerkmalen der Plattform bereit. MHP-Anwendungen greifen auf die Plattform nur über diese spezifizierten APIs zu. MHP-Implementierungen müssen ein Mapping zwischen diesen spezifizierten APIs und den zugrunde liegenden Ressourcen sowie der Systemsoftware durchführen.
Die wichtigsten Elemente der MHP-Spezifikation sind:

– MHP-Architektur (wie oben erwähnt),
– Definition von erweiterten Broadcasting- und interaktiven Broadcasting-Profilen,
– Inhaltsformate, einschließlich PNG, JPEG, MPEG-2 Video/Audio, Untertitel sowie residente und herunterladbare Schriftarten,
– obligatorische Transportprotokolle, einschließlich DSM-CC Object Carousel (Broadcast) und IP (Rückkanal),
– DVB-J-Anwendungsmodell und -Signalisierung,
– Programmeinstiegsmöglichkeiten ("Hooks") für HTML-Inhaltsformate (DVB-HTML-Anwendungsmodell und DVB-HTML-Signalisierung),
– DVB-J-Plattform mit DVB-definierten APIs und ausgewählten Teilen aus Java-APIs, JavaTV, HAVI (Benutzerschnittstelle) und DAVIC APIs,
– Sicherheitsrahmen für Broadcast-Anwendungen oder Datenauthentifizierung (Signaturen, Zertifikate) und Rückkanalverschlüsselung (TLS),
– Grafik-Referenzmodell.

Die MHP-Spezifikation gibt eine konsistente Gruppe von Leistungsmerkmalen und Funktionen an, die für die erweiterten Broadcasting- und interaktiven Broadcasting-Profile erforderlich sind. Das erweiterte Broadcasting-Profil ist für Broadcast-Dienste (gerichtete Dienste) vorgesehen, während das interaktive Broadcasting-Profil zusätzlich interaktive Dienste unterstützt und es der MHP ermöglicht, das durch das Internet bereitgestellte weltweite Kommunikationsnetz zu nutzen.
Die MHP ist deshalb einfach eine übliche Programmierschnittstelle (API), die von der Hardware-Plattform, auf der sie abläuft, völlig unabhängig ist. Auf erweiterte Broadcasts, interaktive Broadcasts und Internet-Inhalte von verschiedenen Anbietern kann über eine einzige Einrichtung, z.B. eine Set-Top-Box oder ein IDTV-Gerät, zugegriffen werden, welche diese Common DVB-MHP API verwendet. Die MHP wird einen wirklich horizontalen Markt in der Inhalts-, Anwendungs- und Dienstumgebung über vielfältige Übermittlungsmechanismen (Kabel, Satellit, terrestrisch usw.) ermöglichen.
Codieren von Audio- und Videoströmen
Entscheidend für die Installation von interaktivem Audio/Video-Streaming ist die Codierung und Decodierung. In diesem Bereich ist MPEG (sprich: M-peg) – dies steht für Moving Picture Experts Group – die Bezeichnung für eine Familie von Standards für die Codierung von audiovisuellen Informationen, wie z.B. Filmen, Video, Musik in einem digitalen komprimierten Format. MPEG verwendet ausgeklügelte Kompressionsverfahren.
MPEG-1 ist eine Codierung von Bewegtbildern und zugeordnetem Audio für digitale Speichermedien mit bis zu etwa 1,5 Mbit/s. Sie befasst sich mit dem Problem, einen oder mehrere Datenströme aus den Video- und Audioteilen des MPEG-1-Standards mit Taktinformationen zu vereinigen, um einen einzigen Strom zu bilden. Dies ist eine wichtige Funktion, da die Daten, sind sie einmal in einem einzigen Strom vereinigt, in einer Form sind, die für digitale Speicherung und Übertragung gut geeignet ist.
MPEG-1 spezifiziert eine codierte Darstellung, die zum Komprimieren von Videosequenzen – sowohl 625 Zeilen als auch 525 Zeilen – auf Bitraten um 1,5 Mbit/s verwendet werden kann. Dieser Standard wurde hauptsächlich für den Betrieb mit Speichermedien entwickelt, die eine kontinuierliche Transferrate von etwa 1,5 Mbit/s aufweisen. Er kann jedoch auch in einem breiteren Bereich Verwendung finden, da der Lösungsweg generisch ist.
Zur Erzielung eines hohen Kompressionsverhältnisses wird eine Anzahl von Verfahren verwendet. Das erste besteht darin, eine geeignete räumliche Auflösung für die Information auszuwählen. Der Algorithmus benutzt dann eine blockbasierte Bewegungskompensation, um die zeitliche Redundanz zu reduzieren. Bewegungskompensation wird verwendet für eine kausale Prädiktion des aktuellen Bildes aus einem vorhergehenden Bild, für eine nichtkausale Prädiktion des aktuellen Bildes aus einem zukünftigen Bild oder für eine interpolative Prädiktion aus vergangenen und zukünftigen Bildern. Das Differenzsignal, der Prädiktionsfehler, wird unter Verwendung der diskreten Cosinus-Transformation (DCT) weiter komprimiert, um eine räumliche Korrelation zu entfernen, und dann quantisiert. Schließlich werden die Bewegungsvektoren mit der DCT-Information kombiniert und mittels variabler Längencodierung codiert.
MPEG-1 spezifiziert eine codierte Darstellung, die zum Komprimieren von Audiosequenzen – sowohl Mono als auch Stereo – verwendet werden kann. Eingegebene Audio-Samples werden dem Codierer zugeführt. Das Mapping ergibt eine gefilterte und unterabgetastete Darstellung des Eingangsaudiostroms. Ein psychoakustisches Modell erzeugt einen Datensatz zur Steuerung des Quantisierers und der Codierung. Der Quantisierer- und Codierblock erzeugt aus den abgebildeten Eingangs-Samples eine Gruppe von Codiersymbolen. Der Block "Rahmenpackung" setzt den tatsächlichen Bitstrom aus den Ausgangsdaten der anderen Blöcke zusammen und fügt erforderlichenfalls andere Informationen hinzu, z.B. Fehlerkorrektur.
MPEG-2 beschreibt eine generische Codierung von Bewegtbildern und zugeordneter Audio-Information. Dieser Standard befasst sich mit der Vereinigung von einem oder mehreren Strömen von Video und Audio sowie anderer Daten zu Einzel- oder Mehrfachströmen, die zur Speicherung oder Übertragung geeignet sind. Dies ist in zwei Formen spezifiziert: dem Programmstrom und dem Transportstrom. Jeder von diesen ist für eine andere Gruppe von Anwendungen optimiert. Der Programmstrom ähnelt dem MPEG-1 Systems Multiplex. Er ergibt sich durch die Vereinigung eines oder mehrer paketierter elementarer Ströme (Packetized Elementary Streams – PES), die eine gemeinsame Zeitbasis haben, zu einem einzigen Strom. Der Programmstrom ist zur Verwendung in relativ fehlerfreien Umgebungen vorgesehen und für Anwendungen geeignet, bei denen Softwareverarbeitung erforderlich sein kann. Programmstrom-Pakete können eine variable und relativ große Länge aufweisen.
Der Transportstrom vereinigt einen oder mehrere paketierte elementare Ströme (PES) mit einer oder mehreren unabhängigen Zeitbasen zu einem einzigen Strom. Elementare Ströme, die eine gemeinsame Zeitbasis haben, bilden ein Programm. Der Transportstrom ist zur Verwendung in Umgebungen vorgesehen, in denen Fehler wahrscheinlich sind, wie z.B. bei der Speicherung und Übertragung in verlust- oder rauschbehafteten Medien.
MPEG-2 baut auf den leistungsstarken Videokompressionsfähigkeiten von MPEG-1 auf, um eine große Auswahl von Codierwerkzeugen anzubieten. Diese sind in Profilen gruppiert, um unterschiedliche Funktionalitäten zu bieten.
MPEG-2 Digital Storage Media Command and Control (DSM-CC) ist die Spezifikation für eine Gruppe von Protokollen, welche die für das Management von MPEG-1- und MPEG-2-Bitströmen spezifischen Steuerfunktionen und -operationen angibt. Diese Protokolle können zur Unterstützung von Anwendungen sowohl in autonomen als auch in heterogenen Netzwerkumgebungen verwendet werden. Beim DSM-CC-Modell wird ein Strom durch einen Server erzeugt und an einen Client geliefert. Sowohl der Server als auch der Client werden als Benutzer des DSM-CC-Netzes betrachtet. DSM-CC definiert eine logische Entität, die als "Session and Resource Manager" (SRM) bezeichnet wird und ein (logisch) zentralisiertes Management der DSM-CC-Sitzungen und DSM-CC-Ressourcen gewährleistet.
MPEG-4 betrifft drei Bereiche: digitales Fernsehen, interaktive Grafikanwendungen (synthetischer Inhalt) und interaktives Multimedia (World Wide Web, Verteilung von und Zugriff auf Inhalt). MPEG-4 stellt die standardisierten technologischen Elemente bereit, welche die Integration der Erzeugung, Verteilung und Inhaltszugriffsparadigmen der drei Bereiche ermöglichen. Die folgenden Abschnitte veranschaulichen die oben beschriebenen MPEG-4-Funktionalitäten unter Bezugnahme auf die in 2 dargestellte audiovisuelle Szene.
Codierte Darstellung von Medienobjekten
Audiovisuelle MPEG-4-Szenen setzen sich aus mehreren hierarchisch organisierten Medienobjekten zusammen. An den Blättern der Hierarchie findet man primitive Medienobjekte, wie z.B.:

– Standbilder, z.B. ein fester Hintergrund,
– Video-Objekte, z.B. eine sprechende Person – ohne den Hintergrund,
– Audio-Objekte, z.B. die dieser Person zugeordnete Stimme, Hintergrundmusik.

MPEG-4 beschreibt eine Anzahl solcher primitiven Medienobjekte, die fähig sind, sowohl natürliche als auch synthetische Inhaltstypen darzustellen, welche entweder zwei- oder dreidimensional sein können. Neben den oben erwähnten und in 1 dargestellten Medienobjekten definiert MPEG-4 die codierte Darstellung von Objekten wie z.B. Text und Grafik, sprechende künstliche Köpfe und zugeordneten Text, die zum Synthetisieren der Sprache und zum Animieren des Kopfes dienen, animierte Körper, die zu den Gesichtern gehören, oder synthetischen Klang.
Ein Medienobjekt in seiner codierten Form besteht aus deskriptiven Elementen, die eine Behandlung des Objekts in einer audiovisuellen Szene sowie gegebenenfalls der zugehörigen Streaming-Daten ermöglichen. Es ist wichtig anzumerken, dass in seiner codierten Form jedes Medienobjekt unabhängig von seiner Umgebung oder seinem Hintergrund dargestellt werden kann.
Die codierte Darstellung von Medienobjekten ist unter Berücksichtigung der gewünschten Funktionalitäten so effizient wie möglich. Beispiele für solche Funktionalitäten sind Fehlerrobustheit, einfache Entnahme und Bearbeitung eines Objekts oder Verfügbarkeit eines Objekts in skalierbarer Form.
Zusammensetzung von Medienobjekten
2 erläutert, wie eine audiovisuelle Szene in MPEG-4 als aus Einzelobjekten zusammengesetzt beschrieben wird. Die Figur enthält zusammengesetzte Medienobjekte, die primitive Medienobjekte in einer Gruppe anordnen. Primitive Medienobjekte entsprechen Blättern im deskriptiven Baum, während zusammengesetzte Objekte ganze Zweige umfassen. Beispiel: Das der sprechenden Person entsprechende visuelle Objekt und die zugehörige Stimme werden zu einem neuen zusammengesetzten Medienobjekt verknüpft, das sowohl die akustischen als auch die visuellen Komponenten dieser sprechenden Person enthält. Eine solche Gruppierung erlaubt es Autoren, komplexe Szenen zu erstellen, und ermöglicht es Verbrauchern, sinnvolle Objekte (Gruppen von Objekten) zu manipulieren.
Ganz allgemein gibt MPEG-4 eine Möglichkeit an, eine Szene zu beschreiben, bei der es zum Beispiel möglich ist

– Medienobjekte an beliebigen Stellen in einem vorgegebenen Koordinatensystem zu platzieren,
– Transformationen anzuwenden, um das geometrische oder akustische Erscheinungsbild eines Objekts zu verändern,
– primitive Medienobjekte zu gruppieren, um zusammengesetzte Medienobjekte zu bilden,
– Streaming-Daten auf Medienobjekte anzuwenden, um deren Attribute (z.B. einen Klang oder Animationsparameter, die ein synthetisches Gesicht ansteuern) zu modifizieren,
– die Betrachtungs- und Hörpunkte des Benutzers an beliebigen Stellen in der Szene interaktiv zu verändern.

Die Szenenbeschreibung baut, sowohl in Bezug auf Struktur als auch hinsichtlich der Funktionalität der Objektzusammensetzungsknoten, auf mehreren Konzepten der Virtual Reality Modeling Language (VRML) auf.
Beschreibung und Synchronisation von Streaming-Daten für Medienobjekte
Medienobjekte können Streaming-Daten erfordern, die in einem oder mehreren elementaren Strömen übertragen werden. Ein Objekt-Deskriptor identifiziert alle einem Medienobjekt zugeordneten Ströme. Dies ermöglicht die Verarbeitung hierarchisch codierter Daten sowie die Zuordnung von Meta-Informationen über den Inhalt ("Object Content Information") und der zugehörigen Schutzrechte.
Jeder Strom ist durch eine Gruppe von Deskriptoren für Konfigurationsinformationen gekennzeichnet, um z.B. die erforderlichen Decoder-Ressourcen und die Genauigkeit der codierten Taktinformationen zu bestimmen. Weiterhin können die Deskriptoren Hinweise auf die für die Übertragung erforderliche Dienstgüte (Quality of Service – QoS) enthalten, z.B. maximale Bitrate, Bitfehlerrate, Priorität usw.
Eine Synchronisation von elementaren Strömen wird durch Zeitstempelung von einzelnen Zugriffseinheiten innerhalb von elementaren Strömen erreicht. Die Synchronisationsschicht regelt die Identifizierung solcher Zugriffseinheiten und die Zeitstempelung. Unabhängig vom Medientyp ermöglicht diese Schicht eine Identifizierung des Typs der Zugriffseinheit, z.B. Video- oder Audio-Rahmen, Szenenbeschreibungsbefehle in elementaren Strömen, Rückgewinnung der Zeitbasis des Medienobjekts oder der Szenenbeschreibung, sowie eine gegenseitige Synchronisierung. Die Syntax dieser Schicht ist auf vielfältige Weise konfigurierbar, wodurch eine Verwendung in einem breiten Spektrum von Systemen möglich ist.
Lieferung von Streaming-Daten
Die synchronisierte Lieferung von Streaming-Informationen von der Quelle zum Ziel unter Ausnutzung unterschiedlicher, vom Netzwerk verfügbarer QoS ist in Form der Synchronisationsschicht und einer einen Zweischicht-Multiplexer enthaltenden Lieferschicht (Delivery Layer) spezifiziert.
Die erste Multiplexschicht wird gemäß der DMIF-Spezifikation (DMIF = Delivery Multimedia Integration Framework) verwaltet. Dieses Multiplex kann durch das in MPEG definierte FlexMux-Tool verkörpert sein, welches eine Gruppierung von elementaren Strömen (ES) mit niedrigem Multiplexing-Overhead ermöglicht. Multiplexen in dieser Schicht kann zum Beispiel verwendet werden, um ES mit ähnlichen QoS-Anforderungen zu gruppieren oder die Anzahl von Netzverbindungen oder die Ende-zu-Ende-Verzögerung zu reduzieren.
Die "TransMux"-Schicht (TransMux = Transport Multiplexing) bietet Transportdienste, die der angeforderten QoS entsprechen. Nur die Schnittstelle zu dieser Schicht ist durch MPEG-4 spezifiziert, während das konkrete Mapping der Datenpakete und die Steuersignalisierung in Zusammenarbeit mit den für das jeweilige Transportprotokoll zuständigen Gremien festgelegt werden müssen. Jeder geeignete vorhandene Transportprotokollstapel, wie z.B. (RTP)/UDP/IP, (AAL5)/ATM oder der MPEG-2-Transportstrom über eine geeignete Sicherungsschicht kann eine spezifische TransMux-Instanz werden. Es ist möglich,

– Zugriffseinheiten, Transport-Zeitstempel, Taktbezugsinformationen und Datenverluste zu identifizieren,
– Daten aus verschiedenen elementaren Strömen optional zu FlexMux-Strömen verschachteln,
– Steuerinformationen zu übertragen, um
– die erforderliche QoS für jeden elementaren Strom und FlexMux-Strom anzuzeigen,
– solche QoS-Anforderungen in tatsächliche Netzwerkressourcen umzusetzen,
– elementare Ströme Medienobjekten zuzuordnen, und
– das Mapping von elementaren Strömen zu FlexMux- und TransMux-Kanälen zu übertragen.

Interaktion mit Medienobjekten
Im Allgemeinen betrachtet der Benutzer eine Szene, die entsprechend dem Design des Autors der Szene zusammengesetzt ist. Abhängig von dem vom Autor gestatteten Freiheitsgrad hat der Benutzer jedoch die Möglichkeit, mit der Szene zu interagieren. Zu den Operationen, die ein Benutzer möglicherweise durchführen darf, gehören:

– Veränderung des Betrachtungs-/Hörpunkts der Szene,
z.B. durch Navigation durch die Szene;
– Ziehen von Objekten in der Szene zu einer anderen Position;
– Auslösen einer Kaskade von Ereignissen durch Auswahl eines spezifischen Objekts, z.B. Starten oder Stoppen eines Videostroms;
– Auswahl der gewünschten Sprache, wenn mehrere Sprachspuren zur Verfügung stehen.

Die Multimediainhalt-Lieferkette umfasst Inhaltserzeugung, Produktion, Lieferung und Verbrauch. Um dies zu unterstützen, muss der Inhalt identifiziert, beschrieben, verwaltet und geschützt werden. Der Transport und die Lieferung von Inhalt erfolgen über eine heterogene Gruppe von Endgeräten und Netzen, innerhalb derer Ereignisse stattfinden und Berichte erfordern. Solche Berichte werden unter anderem die zuverlässige Lieferung, das Management von persönlichen Daten und Präferenzen unter Berücksichtung des Schutzes der Privatsphäre des Benutzers und das Management von (finanziellen) Transaktionen betreffen.
Der MPEG-21-Multimediarahmen identifiziert und definiert die zur Unterstützung der oben beschriebenen Multimedia-Lieferkette benötigten Hauptelemente sowie die Beziehungen zwischen diesen und die durch diese unterstützten Operationen. MPEG-21 wird die Elemente ausarbeiten, indem er die Syntax und Semantik ihrer charakteristischen Merkmale definiert, wie z.B. Schnittstellen zu den Elementen. MPEG-21 wird sich auch mit der erforderlichen Rahmenfunktionalität befassen, wie z.B. mit den den Schnittstellen zugeordneten Protokollen, Mechanismen zur Bereitstellung eines Repositoriums, Zusammensetzung, Normgerechtigkeit usw.
Die sieben in MPEG-21 definierten Hauptelemente sind:

– Digital Item Declaration (eine einheitliche und flexible Abstraktion und ein interoperables Schema für die Definition von Digital Items);
– Digital Item Identification and Description (ein Rahmen zur Identifikation und Beschreibung einer beliebigen Entität unabhängig von deren Art, Typ oder Granularität);
– Content Handling and Usage (beschreibt Schnittstellen und Protokolle, die eine Erstellung, Manipulation, Suche, Zugriff, Speicherung, Lieferung und (Wieder-)Verwendung von Inhalt über die "Content Distribution and Consumption Value Chain" ermöglicht);
– Intellectual Property Management and Protection (die Mittel, die es möglich machen, dass Inhalt über einen großen Bereich von Netzwerken und Einrichtungen ständig und zuverlässig verwaltet und geschützt wird);
– Terminals and Networks (die Fähigkeit, interoperablen und transparenten Zugriff auf Inhalt über Netze und Endgeräte zu ermöglichen);
– Content Representation (wie die Medienressourcen dargestellt werden);
– Event Reporting (stellt die Maßzahlen und Schnittstellen zur Verfügung, die es Benutzern ermöglichen, die Leistung aller zu meldenden Ereignisse in dem Rahmen genau zu verstehen).

Ein solches System für synthetische Grafik und synthetisches Audio ist in einem Artikel von Doenges et al beschrieben, der unter dem Titel "Audio/video and synthetic graphics/audio for mixed media" in Signal Processing, Elsevier Science Publishers, Amsterdam, NL, Bd.9, Nr. 4, Mai 1999, auf den Seiten 433–463 erschienen ist.
Aufgabe
Es bleibt die Aufgabe, es zu ermöglichen, dass Inhalt- und Dienstanbieter den Bedarf von Endbenutzern nach entfernter Bereitstellung (in den Einrichtungen des Anbieters) von Unterhaltungsdiensten hoher Qualität befriedigen. Videospiele nach dem neuesten Stand der Technik und zukünftige auf virtueller Realität basierende Anwendungen werden Anforderungen an hochdynamisches, interaktives und hochauflösendes Audio/Video stellen. Video/Audio-Echtzeitverarbeitung für elektronische Spiele und andere interaktive, auf virtueller Realität basierende Unterhaltung erfordert spezialisierte und lokale Hochleistungsressourcen, z.B. PCs und Spielekonsolen.
Aufgabe der Erfindung ist die Bereitstellung von hochinteraktiven Video/Audio-Diensten für Endverbraucher, z.B. Fernspielen, mit reaktiven Anforderungen und harten Echtzeitbedingungen. Schwierigkeiten liegen im Echtzeitverhalten auf Benutzerbefehle und in einer erforderlichen reaktiven und realistischen dynamischen Visualisierung.
Die Lösung sollte in der vorhandenen Umgebung eingebettet sein, d.h., eine entfernt bereitgestellter ("remotely hosted") Dienst, z.B. Videospiele, sollte auf den genormten Fernsehrundfunk-Verteilkonzepten und dem dafür vorgesehenen zusätzlichen Steuerweg für Benutzerinteraktionen, wie z.B. MHP, basieren.
Zurzeit gibt es keine adäquaten Lösungen für individuelle Virtual-Reality-Dienste, da die Reaktionszeit kein realistisches dynamisches Verhalten zuzulassen scheint und die umfangreiche Bewegung im Videostrom die Bandbreite voll in Anspruch nimmt.
Entfernt bereitgestellte einfache Videospiele, die auf dem genormten Fernsehrundfunk-Verteilweg und einem zusätzlichen Steuerweg basieren, sind bekannt, bieten jedoch keine adäquate Lösung für individuelle interaktive Dienste, da die Reaktionszeit kein realistisches dynamisches Verhalten zulässt.
KURZE BESCHREIBUNG DER ERFINDUNG
Die Erfindung gibt eine Action-Streaming-Umgebung für Endbenutzer, d.h., einen interaktiven Streamingdienst und eine Interaktionseinrichtung, die es dem Benutzer ermöglicht, in einer virtuellen Realität zu interagieren.
Einfache Interaktionseinrichtungen, z.B. eine Set-Top-Box, werden verwendet, um einen personalisierten interaktiven Streamingdienst zu abonnieren und zu nutzen, der auf einem über ein Breitbandzugangsnetz zugänglichen zentralen Server bereitgestellt wird.
Action-Dienste sind individuelle und interaktive, in Echtzeit zusammengesetzte Audio/Video-Ströme, z.B. direkte Interaktion mit einem Avatar, einschließlich virtuelle Mehrbenutzerumgebungen und Realitäten, z.B. für Online-Spiele oder virtuelle Städte in einer realistischen Animation, die eine direkte Benutzer-Benutzer- und Benutzer-Umgebung-Interaktion innerhalb der Umgebung ermöglichen.
Hardware-Voraussetzungen
Ein Endbenutzer benötigt eine Set-Top-Box oder TV-integrierte digitale Audio/Video-Signalverarbeitungseinrichtungen zum Empfang von Fernsehrundfunkkanälen und individuellen Kanälen, wie z.B. für Videoabrufdienst (Video an Demand). Das für den entfernt erzeugten Breitband-Unterhaltungsstrom verwendete Format sollte mit den vorhandenen digitalen Audio/Video-Signalverarbeitungseinrichtungen kompatibel sein, es sollte also z.B. MPEG- oder DVB-MHP-Konformität bestehen.
Funktionelle Anforderungen
Die Endbenutzer-Interaktion erfordert einen Steuerkanal in der Rückwärtsrichtung. Die Endbenutzereinrichtung sendet die Stimuli oder Befehle an unterhaltungsdienstspezifische Verarbeitungselemente. Verbesserungen der Benutzereinrichtung können durch Herunterladen der neuen Funktionalität, einschließlich von der Dienstumgebung gesteuerter sitzungsorientierter Funktions-Downloads, realisiert werden.
Der Action-Streamingdienst wird an dem entfernten (zentralen) Ort durch dienstspezifische Verarbeitungselemente zur Erzeugung von Audio/Video-Strömen für eine Vielzahl von Endverbrauchern erzeugt.
Anforderungen ans Netz
Für den individuellen Downstream-Kanal zum Benutzer sind für den Betrieb Garantien bezüglich Bandbreite und Dienstlieferzeit erforderlich. Der individuelle Steuerweg in der Rückwärtsrichtung muss in erster Linie insbesondere die Verzögerungsbeschränkungen einhalten, um die Benutzer-Dienst-Benutzer-Reaktionszeit unter den wahrnehmbaren Grenzen zu halten. Es ist wichtig, dass die Zugangsnetzelemente entsprechend den erforderlichen Dienstgüte-Parametern gesteuert werden, d.h., die Dienstumgebung muss im Allgemeinen und/oder auf einer dienstspezifischen Basis den Aufbau der Datenverbindungen mit dem erforderlichen Dienstgüteniveau in den für den Medienstromtransport zuständigen Zugangsnetz-Steuerentitäten anfordern.
ZIELE UND VORTEILE DER ERFINDUNG
Die Erfindung besteht in einem Verfahren zur Erzeugung einer interaktiven individuellen virtuellen Realität mit mindestens einem Action-Streaming-Client und einem Netzwerk-Action-Streamingdienst-System unter Verwendung von interaktiver Medien-Streaming-Technologie, das folgende Schritte umfasst: Einrichten einer Actionstrom-Sitzung mit Verbindungsbearbeitung zwischen dem Netzwerkdienst und dem Client und mit Dienstgütebehandlung, Aufbau eines Medien-Streaming-Weges (CN) vom Dienst zum Client, Erzeugen und Übertragen individueller Medienströme zum Client durch Einbetten von Interaktion in eine virtuelle Realität, und Entnehmen und Decodieren eines Medienstroms unter Verwendung eines mittels einer Virtual-Reality-Beschreibung komprimierten Bewegtbildstroms, und Decodieren und Abspielen des individuellen Mediendatenstroms auf der Client-Seite, und Aufbau eines Benutzerinteraktions-Steuerweges (CN) vom Client zum Dienst, Codieren und Übertragen der Benutzerinteraktion zum Dienst, wobei das Einbetten von Interaktion in eine virtuelle Realität beim Dienst durchgeführt wird, und kontinuierliches Steuern des Netzwerks und der erforderlichen Dienstgüte, koordiniert für mehrere, gegebenenfalls interagierende Benutzer-Action-Streaming-Clients.
Die Netzwerkumgebung und der Medien-Streaming-Weg können für eine Vielzahl gegebenenfalls interagierender Benutzer-Clients koordiniert werden. Das Netzwerk kann so gesteuert werden, dass die erforderliche Dienstgüte gewährleistet ist, und gegebenenfalls interagierende Benutzer-Clients können auf Basis des Virtual-Reality-Szenarios koordiniert werden. Die Dienstgüte kann in besonders hohen Datenraten in der Downstream-Richtung sowie in einer minimalen Umlaufzeitverzögerung in beiden Richtungen bestehen. Dies erfordert eine in Bezug auf Verzögerung minimierte Codierung des Medienstroms, z.B. rahmenweise, auch für komprimierte Medienformate.
Die Erzeugung individueller Medienströme durch Einbetten von Interaktion in eine virtuelle Realität und Entnehmen und Codieren eines Medienstroms beim Dienst unter Verwendung eines mittels einer Virtual-Reality-Beschreibung komprimierten Bewegtbildstroms kann dadurch erfolgen, dass Teile der Virtual-Reality-Beschreibung, wie sie z.B. für eine Spielanwendung durch eine hardwareunabhängige audiovisuelle Programmierschnittstelle wie DirectX von Microsoft verlangt ist, direkt im abgehenden komprimierten Datenstrom codiert werden. Der Medienstrom kann auf einer anwendungsorientierten Grafik und/oder auf Klangbeschreibungsinformationen ohne nicht komprimierte Video-Zwischeninformationen basieren. Die Actionstrom-Sitzung kann einen Kompatibilitätsabgleich umfassen, z.B. durch Aktualisieren und Konfigurieren von Softwareteilen des Dienstes und/oder des Client durch Hochladen von erforderlicher Software.
Die Erfindung besteht weiterhin in einem Action-Streaming-Server nach Anspruch 6.
Die Erfindung besteht in einem Action-Streamingdienst, der Ressourcen zum Erzeugen einer interaktiven virtuellen Realität mit Echtzeit-Benutzerinteraktion unter Verwendung einer interaktiven Medien-Streaming-Technologie bereitstellt, mit mindestens einer Upstream-Schnittstelle zum Empfang von Benutzerinteraktion und mindestens einer Downstream-Schnittstelle zum Bereitstellen eines interaktiven Medienstroms, und für mindestens einen Benutzer, der gemeinsam mit anderen einen Medienstrom nutzt, mit einem Interpretierer für die empfangene Benutzerinteraktion, einer Virtual-Reality-Maschine zum Einbetten der Benutzerinteraktion in die virtuelle Realität, einem Medienentnahmeteil zur Entnahme eines individuellen Medienstroms, einem Codierer zum Codieren des individuellen Medienstroms und (gemeinsam genutzt) einer Sitzungssteuereinheit zur kontinuierlichen Gewährleistung der erforderlichen Dienstgüte sowie einem Umgebungssteuerteil zum Koordinieren einer Vielzahl von virtuellen Realitäten und einer Vielzahl individueller Medienströme.
Die Erfindung besteht in einem Action-Streaming-System als Ganzes.
Die Erfindung kann ausgehen von einem Actionstrom mit einer Datenstruktur zum Codieren und Decodieren einer virtuellen Realität in einem Mediendatenstrom, einer Datenstruktur zum Einbetten von Interaktion und einer Steuerstruktur zum Verwalten von Netzwerkressourcen, welche die erforderliche Dienstgüte gewährleisten.
Der Actionstrom kann mittels eines DVB-MHP-konformen Video/Audio- und Steuerdatenstroms realisiert sein (DVB-MHP = Digital Video Broadcast Multimedia Home Platform). Er kann auch mittels eines MPEG-konformen Video/Audio- und Steuerdatenstroms realisiert sein.
Eine Action-Streaming-Sitzung kann eine Verbindungsbearbeitung zwischen Dienst und mindestens einem Client, eine Dienstgütebehandlung, die sicherstellt, dass das Netzwerk die erforderliche Dienstgüte bereitstellt, eine kontinuierliche Dienstgütebehandlung gemäß den Dienstgüteanforderungen für den Dienst, einen Kompatibilitätsabgleich zwischen Server und Client, eine Dienst-Authentifizierung, Autorisierung und Abrechnung sowie einen Actionstrom-Austausch umfassen.
Vorzugsweise basiert die Erfindung auf einem Action-Streaming-Protokoll, welches Mittel zur Einrichtung einer Action-Streamingdienst-Sitzung, Mittel zur Anpassung des Benutzer-Client und des Dienstes, Mittel zur Authentifizierung, Autorisierung und Abrechnung, Mittel zur Steuerung von Netzwerkressourcen gemäß Dienstgüteanforderungen und Mittel zur Koordination und zum Austausch von Actionströmen umfasst.
Die Erfindung wird als entsprechendes Computersoftware-Produkt realisiert.
Dementsprechend bestehen ein Ziel und ein Vorteil der vorliegenden Erfindung darin, dass neue interaktive
Dienste für Teilnehmer bereitgestellt werden: Spielen, Informationsdienste, Fernlernen usw. auf der Basis einer aufstrebenden Virtual Reality/Worlds-Technologie, d.h. eines benutzergesteuerten zusammengesetzten Echtzeit-Videostroms.
Ein weiterer Vorteil der vorliegenden Erfindung besteht darin, dass auf der Teilnehmerseite zusätzlich zu den vorhandenen MPEG-kompatiblen TV-Geräten nur wenig Aufwand erforderlich ist. Insbesondere werden keine kostspielige Videospielekonsole und kein breites Spektrum von Spielen mit Bezahlung pro Nutzung (pay-per-use games) benötigt.
Ein weiterer Vorteil der vorliegenden Erfindung besteht darin, dass sie DVB-MHP-konform ist. Es wird erwartet, dass Breitband-Unterhaltungsdienste die Zukunft des Geschäfts von Dienstanbietern sein werden. Die Erfindung benutzt die Breitband-Infrastruktur, welche eine gemeinsam genutzte Ressource ermöglicht, d.h., einen Action-Dienst mit den relativ niedrigen Kosten eines individuellen Breitbandzugangs.
Diese und viele weitere Ziele der vorliegenden Erfindung sind für den Fachmann aus den Zeichnungen und der nachfolgenden Beschreibung ersichtlich.
KURZE BESCHREIBUNG DER FIGUREN
1 veranschaulicht eine bekannte Kombination der drei bei MPEG-1 verwendeten Hauptarten der Bildzerlegung.
2 zeigt eine bekannte MPEG-Szenenbeschreibung, die sowohl hinsichtlich der Struktur als auch in Bezug auf die Funktionalität von Objektzusammensetzungsknoten auf mehreren Konzepten aus der Virtual Reality Modeling Language aufbaut.
3 ist eine schematische Darstellung des Netzwerkkontexts einer Action-Streaming-Umgebung mit den Komponenten gemäß der Erfindung.
4 zeigt einen erfindungsgemäßen Action-Streaming-Server.
5 zeigt schematisch die Architektur des erfindungsgemäßen Action-Streaming-Servers.
6 zeigt einen erfindungsgemäßen Action-Streaming-Client.
7 zeigt schematisch die Architektur des erfindungsgemäßen Action-Streaming-Client.
AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
Der Fachmann wird erkennen, dass die nachfolgende Beschreibung der vorliegenden Erfindung lediglich der Erläuterung dient und in keiner Weise beschränkend sein soll. Andere Ausführungsbeispiele der Erfindung ergeben sich für solche Fachleute ohne weiteres aus einer näheren Betrachtung der Offenbarung.
1 zeigt eine Sequenz SEQ von Bildern mit einer aufeinanderfolgenden Teilsequenz oder Gruppe GRP von Bildern. Sie zeigt ein Einzelbild PIC, bestehend aus einem horizontalen Slice SLC, der wiederum aus Blöcken besteht. Weiterhin zeigt sie einen aus mehreren Blöcken bestehenden Makroblock MBC und einen Einzelblock BLC.
Die Zeichnung veranschaulicht bei MPEG-1 verwendete Hauptarten der Bildzerlegung. In einer kontinuierlichen Bildsequenz SEQ enthalten nur die variierenden Teile Information. Um diese Teile entnehmen und identifizieren zu können, unterteilt sich eine Bildsequenz SEQ in Gruppen GRP, und ein Bild PIC unterteilt sich in Slices SLC, Makroblöcke MBC und Blöcke BLC. Dies wird in beträchtlichem Umfang genutzt, um bei der Übertragung und Speicherung von Videodaten Netzwerk- und Speicherressourcen einzusparen.
2 zeigt eine bekannte MPEG-Szenenbeschreibung, die sowohl hinsichtlich der Struktur als auch in Bezug auf die Funktionalität von Objektzusammensetzungsknoten auf Konzepten aus der Virtual Reality Modeling Language aufbaut. Die Zeichnung enthält eine virtuelle Realität, die aus zwei- und dreidimensionalen audiovisuellen Objekten besteht, welche durch einen gemultiplexten Downstream (Signalfluss in Abwärtsrichtung) DS erzeugt und gesteuert werden und zu einem codierten gemultiplexten Upstream (Signalfluss in Aufwärtsrichtung) US gestreamt werden. Die Szene umfasst ein Koordinatensystem CS, und die audiovisuellen Objekte OBJ in dem durch das Koordinatensystem erzeugten Raum werden auf eine Projektionsebene PP für einen gedachten Betrachter VW projiziert. Video-Informationen werden für diese Projektion entnommen, und entsprechend werden Audio-Informationen durch Integration der Audio-Objekte in ein so genanntes psychoakustisches Modell entnommen.
Die Zeichnung veranschaulicht, wie eine aus audiovisuellen Objekten bestehende virtuelle Realität objektweise durch gestreamte Steuerdaten DS manipuliert werden kann, wie diese Objekte gestreamte Steuerdaten US erzeugen und wie Audioströme AU und Videoströme VI abgeleitet werden können. Es wird darauf hingewiesen, dass die objektweise Darstellung der virtuellen Realität natürlich ist und eine enge Codierung ermöglicht.
3 ist eine schematische Darstellung des Netzwerkkontexts der Erfindung. Sie enthält ein Netzwerk NW, das aus Netzzugangspunkten AP, z.B. einem Netzzugangsserver, und Netzelementen NE, z.B. Switches, Router, Gateways etc., besteht. Weiterhin umfasst das Netzwerk ein Action-Streamingdienst-System, das durch einen Action-Streaming-Server ASS bereitgestellt wird. Die Netzelemente, einschließlich des Action-Streaming-Servers, und die Netzzugangspunkte sind durch Netzverbindungswege oder Kanäle miteinander verbunden, die durch Pfeile dargestellt sind. Die Netzzugangspunkte AP ermöglichen Action-Streaming-Clients ASC einen Zugang zum Netzwerk NW über eine durch dünne Pfeile dargestellte Anschlussleitung AC, z.B. eine digitale Teilnehmerleitung (DSL).
Die dicken Pfeilspitzen stellen die Kanäle CN dar und stehen für einen (Breitband-)Downstream, der vom Action-Streamingdienst erzeugte Medieninformationen einer virtuellen Welt enthält, und die dicken Pfeilspitzen stehen für den Upstream, der von den Action-Streaming-Clients ASC erzeugte Benutzerinteraktionen enthält. Der Action-Streamingdienst ASS steuert die Netzelemente durch Anforderung erforderlicher Dienstgüten und indirekte Definition von Verbindungswegen CN, wodurch bei den Action-Streaming-Clients eine interaktive virtuelle Realität hoher Qualität gewährleistet ist. Downstream- und Upstream-Daten können über verschiedene Wege zu und von einem ASC geleitet werden. Netzsteuerverbindungen können ebenfalls über verschiedene Wege geführt werden.
In 4 ist ein Action-Streaming-Server ASS dargestellt. Die Figur zeigt eine Netzkanalschnittstelle IN, das Netzwerk NW (Umgebung) sowie einen Computer-Cluster, der die virtuellen Realitäten und die entsprechenden Video- und Audioströme für eine Vielzahl von Action-Streaming-Clients (generischer Größtcomputer für Visualisierungsanwendungen oder auf Spielekonsolen-Technologie basierende "Computer Blades") bereitstellt.
5 ist eine schematische Darstellung der Architektur eines in einem Action-Streaming-Server vorgesehenen Action-Streamingdienst-Systems. Sie zeigt eine Dienstumgebungs- und Netzsteuerung ENV-CON und eine Vielzahl von Sitzungssteuerungen SES-CON, die jeweils eine Gruppe von vier Einheiten verwalten, nämlich eine Stimuli-Einkoppeleinheit INJ, eine Virtual-Reality-Maschine VRE, Eine Medien-Entnahmeeinheit ME und eine Video-Streaming-Codiereinheit VSE.
Die Dienstumgebungs- und Netzsteuerung ENV-CON steuert die Dienstumgebung, wobei sie mehrere virtuelle Realitäten, gegebenenfalls eine gemeinsam genutzte virtuelle Realität, koordiniert. Sie steuert die Sitzungsinteraktion, welche alle dargestellten Einheiten INJ, VRE, ME, VSE umfasst, in Bezug auf durchgeführte Aktionen. Multi-Player-Umgebungen können entweder eng oder lose gekoppelt implementiert werden, d.h., alle Benutzer nehmen an derselben Sitzung teil oder eine Sitzung pro Benutzer, gekoppelt durch sitzungsüberschreitende Kommunikation. Sie muss die gewünschten, bewilligten und verfügbaren Dienstgüten oder Netzressourcen berücksichtigen, z. B. durch Verwendung gemeinsamer Videoströme und Rundsenden oder durch Verteilung der Last der Einzelsitzungs-Prozessoren. Es kann sogar von Vorteil sein, eine bestimmte Verarbeitung einem Action-Streaming-Client zuzuordnen. Ein solches Konzept ist eng mit dem verwendeten audiovisuellen Codierungsstandard verbunden, z.B. bietet MPEG-4, im Gegensatz zu den hauptsächlich videoorientierten MPEG-1- und MPEG-2-Standards, flexible kombinierbare Medienobjekte.
Die Sitzungssteuerung SES-CON ist z.B. für Authentisierungs-, Autorisierungs- und Abrechnungsaufgaben, für Verbindungsaufbau, für die Wahl der virtuellen Realität, für die Client-Dienst- Synchronisation etc. zuständig. Sie ist die steuernde Instanz für den bereitgestellten Action-Strom.
Der Action-Strom wird von den vier logischen Verarbeitungseinheiten – Stimuli-Einkopplung INJ, Virtual-Reality-Maschine VRE, Medienentnahme ME und Videostrom-Codierung VSE – erzeugt. Die Stimuli-Einkoppeleinheit INJ empfängt die Benutzerinteraktion vom Netzwerk und setzt sie für die Virtual-Reality-Maschine um. Die Virtual-Reality-Maschine VRE erzeugt kontinuierlich neue Zustände auf der Basis des Zustandsverlaufs und der Stimuli-Einkopplungen. Diese zeitgesteuerte Szene wird als virtuelle Realität oder virtuelle Welt bezeichnet. Sie kann aus Gebäuden, Werkzeugen, Hintergründen, einem Garten, Straßen, einem Spielplatz, einem Weltraumschiff, einem Kompass oder einem beliebigen audiovisuellen Objekt bestehen. Sie kann Zustandsinformationen und Feedback bereitstellen, z.B. Force Feedback für einen Joystick, einen visuellen Eindruck, z.B. ein Video, Klang oder allgemein jede Reaktivität. Die Ansicht für den abonnierten Action-Streaming-Client wird dem Virtual-Reality-Modell durch die Medienentnahme ME entnommen. Und sie wird durch die Videostrom-Codierung VSE zu einem Medien-/Befehlsstrom codiert. In der Zeichnung ist der Einfachheit halber nur die Video-Codierung dargestellt, es können jedoch alle Medien in analoger Weise codiert werden.
Das Action-Streamingdienst-System ASS kann als Hardware implementierte Algorithmen für die direkte Erzeugung des komprimierten Medienstroms aus anwendungsorientierten Grafik- und/oder Klangbeschreibungsinformationen umfassen. Auf diese Weise werden nicht komprimierte Video-Zwischeninformationen, wie sie von üblichen visuellen Prozessoren (3D-Grafikbeschleuniger) erzeugt werden, vermieden.
6 zeigt einen Action-Streaming-Client ASC mit mehreren Eingabegeräten, hier einen Joystick JS, eine Fernsteuerung RC, eine Tastatur KB und einen Joypad JP. Der Client selbst ist mittels einer Set-Top-Box realisiert. Die Set-Top-Box weist eine Schnittstellenverbindung AC zu einem Netzzugangspunkt, z.B. zu einer digitalen Teilnehmerleitung, auf, der einen Zugang zum Netzwerk NW ermöglicht.
Die Zeichnung veranschaulicht die Idee eines sehr einfachen und (im Vergleich zu einer komplexen und kostspieligen High-Tech-Spielekonsole wie einer Play Station oder einem Game Cube) billigen Teilnehmergeräts, das ein Fernsehgerät verwendet. Die den Action-Streaming-Client realisierende Einrichtung, die ein DSL-anschlussfähiges Digital-TV-Teilnehmergerät implementiert, kann, statt als Set-Top-Box ausgeführt zu sein, in ein Fernsehgerät der nächsten Generation integriert werden.
Alternativ können Teilnehmer, die Standard-PC-Geräte verwenden, auf Anforderung Zugang zum gesamten Vorrat neuer Spiele erhalten, ohne ständig in Grafikbeschleuniger und CPU-Technologie der obersten Preisklasse investieren zu müssen.
7 ist eine schematische Darstellung der Architektur des Action-Streaming-Client ASC. Der Action-Streaming-Client ASC weist eine Transportprotokolleinheit und physikalische Schnittstelle TP/PI zum Netzwerk NW auf. Er umfasst eine Vielzahl von Medienplayern ME-P und eine Grafikeinheit GR. Eine Benutzerinteraktionseinheit UI verwaltet Eingaben IN von Fernsteuerung RC, Tastatur KB, Joypad JP, Joystick JS etc. Die Grafik und der Medienplayer liefern Ausgangssignale OU für Video VI, Audio AU etc. Die Medienplayer werden von einer Mediensteuereinheit ME-CT zur Synchronisation der Multimedia koordiniert. Außerdem umfasst die Architektur eine Informations- und Datenzugriffseinrichtung IDA. Im Zentrum dieser Komponenten ist eine Anwendung APP eingebettet, welche diese Komponenten verwendet, instruiert und koordiniert.
Im Betrieb empfangt der Action-Streaming-Client vom Netzwerk NW Medienströme unter Verwendung einer physikalischen Schnittstelle PI und eines Transportprotokolls TP. Befehle für die laufende Action-Streaming-Anwendung APP werden über die Informations- und Datenzugriffseinrichtung bereitgestellt. Die Anwendung kann die Medienströme über die Mediensteuerung ME-CT koordinieren. Benutzerinteraktionen von Benutzerschnittstelleneinrichtungen gelangen zur Anwendung APP über die Benutzerinteraktionskomponente UI. Diese Architektur gleicht der Multimedia Home Platform.
Weitere Anwendungen für Endbenutzer ergeben sich in Form einer neuen Klasse von hochinteraktiven Virtual-Reality-Anwendungen. Action-Dienste sind individuell und interaktiv, in Echtzeit zusammengesetzte Medienströme, z.B. direkte Interaktion mit einem virtuelle Mehrbenutzerumgebungen umfassenden Avatar, z.B. für Online-Spiele oder virtuelle Städte in einer realistischen Animation, welche direkte Benutzer-Benutzer- und Benutzer-Maschine-Interaktionen erlaubt.
Ein Endbenutzer benötigt kein aufwendiges Gerät mit High-Tech-Laufwerk, sondern lediglich eine Set-Top-Box oder ins Fernsehgerät integrierte digitale Audio/Video-Signalverarbeitungseinrichtungen zum Empfang von Fernsehrundfunk-Kanälen. Das zur Übertragung des entfernt erzeugten Breitband-Unterhaltungsstroms verwendete Format sollte mit den verfügbaren digitalen Audio/Video-Signalverarbeitungseinrichtungen kompatibel sein, wie z.B. ein mit der Multimedia Home Platform konformes Format der Familie von MPEG-Standards. Die Endbenutzer-Interaktion erfordert einen Kanal in der Rückwärtsrichtung. Das Endbenutzergerät wandelt die von Mensch-Maschine-Schnittstellen abgeleiteten Stimuli/Befehle in einen Action-Streamingdienst-Steuerprotokoll-Datenfluss um. Verbesserungen des Benutzergeräts können durch Herunterladen der neuen Funktionalität, einschließlich sitzungsorientierter, von der Dienstumgebung gesteuerter Funktions-Downloads, realisiert werden.
Der Action-Streamingdienst wird an einem entfernten (zentralen) Ort durch dienstspezifische Verarbeitungselemente zu Erzeugung der Medienströme für eine Vielzahl von Endverbrauchern erzeugt. Die von dem Medienverarbeitungs-Funktionsblock abgeleiteten Informationen müssen durch Anpassungsmittel in das für das Benutzergerät erforderliche digitale Downstream-Mediensignal umgewandelt/codiert werden. Dies kann rahmenweise mit minimierter Verzögerung geschehen, auch für komprimierte Video-Formate. Als effiziente Methode der Erzeugung des Ausgangsstroms erscheint die direkte Umsetzung des Beschreibungsformats für die audiovisuellen Effekte, wie sie durch die in der Dienstumgebung/im Betriebssystem als Programmierschnittstelle definierte Anwendung verwendet wird, in die Codierung des Medienstroms.
Die Eingabe für das (Inter-)Action-Streaming beziehungsweise die Unterhaltungsdienst-Erzeugung ist das Dienststeuerprotokoll, welches die Benutzer-Stimuli weitergibt. "Anpassung" bedeutet hier Beenden des Steuerprotokolls und Emulieren von lokalen Eingabe/Lenkungsmitteln, z.B. zur Unterstützung der Portierung von für lokale Nutzung vorgesehenen Spielanwendungen.
Die Action-Streaming-Technologie stellt hohe Anforderungen an das Zugangsnetz zwischen dem Benutzer und dem Ort der Diensterzeugung. Für die einzelnen Downstream-Kanäle zum Benutzer sind für den Betrieb Garantien bezüglich Bandbreite und Dienstlieferzeit erforderlich. Der individuelle Steuerweg in der Rückwärtsrichtung muss in erster Linie die Verzögerungsbeschränkungen einhalten, um die Benutzer-Dienst-Benutzer-Reaktionszeit unter den wahrnehmbaren Grenzen zu halten. Ein Einhaltung dieser netzbezogenen Dienstgüteparameter ist vorteilhaft für die Dienstgüte und schließlich die Dienst-Akzeptanz. Die die Datenwege realisierenden Zugangsnetzelemente müssen entsprechend den erforderlichen Dienstgüteparametern gesteuert werden. Bedingungen für die Güte des Action-Streamingdienstes müssen (generell oder benutzersitzungsspezifisch) durch die Dienstumgebung, z.B. unter Verwendung einer Zugangsnetzdatenwege-Steuerung, angefordert/gesteuert werden.
Alternative Ausführungsbeispiele
Im dieser Anmeldung sind der Erläuterung dienende, derzeit bevorzugte Ausführungsbeispiele und Anwendungen der Erfindung gezeigt und beschrieben, doch es sind viele Variationen und Abwandlungen möglich, die innerhalb des Gedankens und Umfangs der Erfindung liegen, und diese Variationen ergeben sich für den Fachmann nach sorgfältiger Lektüre dieser Anmeldung.
Alternativ kann die Erfindung bei jeder Medienart und jeder Art von Action-Streaming-Client angewendet werden. Für die Zukunft sind Einrichtungen zu erwarten, welche mehr Sinne noch perfekter anregen und z.B. mit Hologramm-Projektoren, Aura-Generatoren oder tragbaren Anzügen arbeiten, die dem Tastsinn des Benutzers Eindrücke wie Temperatur, Druck oder Vibration vermitteln.
Die Erfindung ist somit außer im Schutzumfang der beigefügten Ansprüche nicht auf Audio oder Video beschränkt.

Claims

Verfahren zum Erzeugen einer interaktiven, individuellen virtuellen Realität mit mindestens einem Action-Streaming-Client und einem Netzwerk-Action-Streamingdienst-System unter Verwendung einer interaktiven Medien-Streaming-Technologie, das folgende Schritte umfasst: – Einrichten einer Actionstrom-Sitzung mit Verbindungsbearbeitung zwischen dem Netzwerkdienst und dem Client und mit Dienstgütebehandlung; – Aufbau eines Medien-Streaming-Weges (CN) von dem Dienst zum dem Client; – Erzeugen und Übertragen von individuellen Medienströmen zum Client durch Einbetten von Interaktion in eine virtuelle Realität, und Entnehmen und Codieren eines Medienstroms unter Verwendung eines mittels einer Virtual-Reality-Beschreibung komprimierten Bewegtbildstroms; und – Decodieren und Abspielen des individuellen Mediendatenstroms auf der Client-Seite, dadurch gekennzeichnet, dass es folgende weitere Schritte umfasst: – Aufbau eines Benutzerinteraktions-Steuerweges (CN) vom Client zum Dienst; – Codieren und Übertragen der Benutzerinteraktion zum Dienst, wobei das Einbetten von Interaktion in eine virtuelle Realität beim Dienst durchgeführt wird; und – kontinuierliches Steuern des Netzwerks und der erforderlichen Dienstgüte, koordiniert für mehrere, gegebenenfalls interagierende Benutzer-Action-Streaming-Clients (ASC).
Verfahren nach Anspruch 1, bei dem die Dienstgüte in besonders hohen Datenraten in der Downstream-Richtung sowie in einer minimalen Umlaufzeitverzögerung und/oder einer minimalen Verzögerungsschwankung in beiden Richtungen besteht.
Verfahren nach Anspruch 1, bei dem das Erzeugen von individuellen Medienströmen durch Einbetten von Interaktion in eine virtuelle Realität und das Entnehmen und Codieren eines Medienstroms beim Dienst unter Verwendung eines mittels einer Virtual-Reality-Beschreibung komprimierten Bewegtbildstroms durch Codierung von Teilen der Virtual-Reality-Beschreibung direkt im abgehenden komprimierten Datenstrom erfolgen.
Verfahren nach Anspruch 1, bei dem der Medienstrom auf anwendungsorientierten Grafik- und/oder Klangbeschreibungsinformationen ohne nicht komprimierte Video-Zwischeninformationen basiert.
Verfahren nach Anspruch 1, bei dem die Actionstrom-Sitzung einen Kompatibilitätsabgleich umfasst, z.B. durch Aktualisieren und Konfigurieren von Softwareteilen des Dienstes und/oder der Software durch Hochladen von Software.
Action-Streaming-Server (ASS) zum Erzeugen einer interaktiven, individuellen virtuellen Realität, der ein Netzwerk-Action-Streamingdienst-System unter Verwendung von interaktiver Medien-Streaming-Technologie bereitstellt, mit – einer Downstream-Schnittstelle (IN) zum Bereitstellen eines interaktiven Medienstroms – für mindestens einen Benutzer, der gemeinsam mit anderen einen Medienstrom nutzt, dadurch gekennzeichnet, dass er umfasst: – eine Upstream-Schnittstelle (IN) zum Empfang von Benutzerinteraktion und mindestens – einen Interpretierer (INJ) für die empfangene Benutzerinteraktion, – eine Virtual-Reality-Maschine (VRE) zum Einbetten der Benutzerinteraktion in die virtuelle Realität, – ein Medienentnahmeteil (ME) zur Entnahme eines individuellen Medienstroms, – einen Codierer (ME) zum Codieren des individuellen Medienstroms, und – eine Sitzungssteuereinheit (SES-CON) zum kontinuierlichen Steuern der erforderlichen Dienstgüte, und – eine Umgebungssteuerung (ENV-CON) zum Koordinieren einer Vielzahl individueller virtueller Realitäten und einer Vielzahl individueller Medienströme.
Action-Streamingdienst-System (ASS), das Ressourcen zum Erzeugen einer interaktiven, individuellen virtuellen Realität unter Verwendung von Medien-Streaming-Technologie bereitstellt, mit – mindestens einem Action-Streaming-Client (ASC) zum Erzeugen einer interaktiven, individuellen virtuellen Realität, der ein Netzwerk-Action-Streamingdienst-System unter Verwendung von interaktiver Medien-Streaming-Technologie aufruft, wobei der Action-Streaming-Client eine Downstream-Schnittstelle (TP/PI) zum Empfang von interaktiven Medienstömen, Decodiermittel zum Betrachten interaktiver Medienströme, Steuermittel (APP, ME-CT, ME-P, TP/PI, UI) zum Codieren von Benutzerinteraktion und zum Anfordern von Netzwerkressourcen sowie eine Upstream-Schnittstelle (TP/PI) zum Übertragen der codierten Interaktion umfasst, dadurch gekennzeichnet, dass die Upstream-Schnittstelle und die Downstream-Schnittstelle der Upstream- bzw. Downstream-Schnittstelle eines Action-Streaming-Servers (ASS) nach Anspruch 6 entsprechen.
Computersoftware-Produkt, dadurch gekennzeichnet, dass es Mittel zur Durchführung des Verfahrens nach Anspruch 1 umfasst.