-
Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft die Bereitstellung von hochinteraktiven
Video/Audio-Diensten, wie z.B. Fernspielen, mit reaktiven Anforderungen und
harten Echtzeitbedingungen an eine reaktive und realistische dynamische
Visualisierung. Insbesondere betrifft die vorliegende Erfindung
ein Verfahren, einen Action-Streamingdienst,
einen Action-Streaming-Client, einen Action-Streaming-Server, ein
Action-Streaming-System, eine Action-Streaming-Sitzung, ein Action-Streaming-Protokoll und Computersoftware-Produkte
zur Erzeugung einer interaktiven virtuellen Realität.
-
Allgemeiner Stand der Technik
-
Die
Video/Audio-Echtzeitverarbeitung für elektronische Spiele und
andere auf virtueller Realität
basierende Unterhaltungsangebote erfordern spezialisierte und leistungsfähige lokale
Einrichtungen, wie z.B. hochwertige ("High-End") Personalcomputer oder Spielekonsolen.
-
Es
gibt viele Spiele für
Personalcomputer und Konsolen, die es einer Vielzahl von Spielern
erlauben, an einem (gemeinsamen) Spiel teilzunehmen. Die Einrichtungen
verwenden Zugangsnetztechnologie zur gemeinsamen Nutzung einer virtuellen
Welt. Dies geschieht z.B. unter Verwendung des Internets, um die
virtuellen Welten auszutauschen und zu synchronisieren. Um den Verbrauch
an Netzwerkressourcen zu minimieren, besteht ein üblicherweise
verwendetes Verfahren darin, eine solche virtuelle Welt zu parametrieren.
-
Zum
Beispiel ist die virtuelle Welt eines Fußballspiels durch die spielende
Mannschaft und den Spielort gekennzeichnet. Die Visualisierung des
Orts, also des Spielplatzes, kann ein Teil der lokalen Spielsoftware
selbst sein. Somit spezifiziert die kurze Zeichenfolge "WORLD CUP 2002 FINAL" vollständig die Spieler
und die Spielplatz-Grafik. Die Spielsituation könnte durch die Ausrichtung
und Position der Spieler und des Balls spezifiziert werden. Die
klassische verteilte Spielarchitektur besteht darin, diese Zustände über ein
Netz, z.B. über
das Internet, zu synchronisieren und die virtuelle Realität, also
Video und Audio, lokal in einer Spielekonsole zu erzeugen, welche Perspektiven,
Modelle und Rendering umfasst. Mit diesem Verfahren wird vermieden,
dass große
Datenmengen über
das Netz ausgetauscht werden müssen.
-
Die
oben erwähnte
Architektur wurde durch fehlende Netzwerkressourcen, nämlich Bandbreite oder
Verzögerung,
beeinflusst. In Zukunft wird sich die Situation etwas ändern. Digitales
Video und Audio ist eine aufstrebende Technologie, bei der digital kodierte
Audio- und Videoströme
installiert werden. Zur Unterstützung
dieser Art von Netzwerkanwendungen hat das European Telecommunications
Standards Institute (ETSI) eine Standardplattform, die Media Home
Platform, entworfen.
-
Media Home Platform
-
Die
Multimedia Home Platform (MHP) definiert eine generische Schnittstelle
zwischen interaktiven digitalen Anwendungen und den Endgeräten, auf denen
diese Anwendungen ablaufen. Diese Schnittstelle entkoppelt Anwendungen
verschiedener Anbieter von den spezifischen Hardware- und Softwaredetails
unterschiedlicher MHP-Endgeräte-Implementierungen.
Sie ermöglicht
es Anbietern von digitalen Inhalten, alle Arten von Endgeräten, von
Low-End bis zu High-End Set-Top-Boxen, integrierten digitalen Fernsehgeräten und
Multimedia-PCs, anzusprechen. Die MHP erweitert den vorhandenen,
erfolgreichen Digital Video Broadcast (DVB) Standard für Broadcast-Dienste
und interaktive Dienste in allen Übertragungsnetzen, einschließlich Satellitennetze,
Kabelnetze, terrestrische Netze und Mikrowellennetze.
-
Die
Architektur der MHP ist in Form von drei Schichten definiert: Ressourcen,
Systemsoftware und Anwendungen. Typische MHP-Ressourcen sind MPEG-Verarbeitung,
Ein-Ausgabegeräte, CPU, Speicher
und ein Grafiksystem. Die Systemsoftware bedient sich der verfügbaren Ressourcen,
um den Anwendungen eine abstrakte Sicht auf die Plattform zu bieten.
Die Implementierungen umfassen einen Anwendungsmanager (auch als "Navigator" bekannt) zur Steuerung
der MHP und der darauf ablaufenden Anwendungen.
-
Der
Kern der MHP basiert auf einer Plattform, die als DVB-J bekannt
ist. Diese umfasst eine virtuelle Maschine, wie sie in der Java-Virtual-Machine-Spezifikation
von Sun Microsystems definiert ist. Eine Anzahl von Software-Paketen stellt generische Programmierschnittstellen
(Application Program Interfaces – APIs) zu einer großen Auswahl
von Leistungsmerkmalen der Plattform bereit. MHP-Anwendungen greifen auf die Plattform
nur über
diese spezifizierten APIs zu. MHP-Implementierungen müssen ein
Mapping zwischen diesen spezifizierten APIs und den zugrunde liegenden
Ressourcen sowie der Systemsoftware durchführen.
-
Die
wichtigsten Elemente der MHP-Spezifikation sind:
- – MHP-Architektur
(wie oben erwähnt),
- – Definition
von erweiterten Broadcasting- und interaktiven Broadcasting-Profilen,
- – Inhaltsformate,
einschließlich
PNG, JPEG, MPEG-2 Video/Audio, Untertitel sowie residente und herunterladbare
Schriftarten,
- – obligatorische
Transportprotokolle, einschließlich
DSM-CC Object Carousel (Broadcast) und IP (Rückkanal),
- – DVB-J-Anwendungsmodell
und -Signalisierung,
- – Programmeinstiegsmöglichkeiten
("Hooks") für HTML-Inhaltsformate (DVB-HTML-Anwendungsmodell
und DVB-HTML-Signalisierung),
- – DVB-J-Plattform
mit DVB-definierten APIs und ausgewählten Teilen aus Java-APIs,
JavaTV, HAVI (Benutzerschnittstelle) und DAVIC APIs,
- – Sicherheitsrahmen
für Broadcast-Anwendungen
oder Datenauthentifizierung (Signaturen, Zertifikate) und Rückkanalverschlüsselung
(TLS),
- – Grafik-Referenzmodell.
-
Die
MHP-Spezifikation gibt eine konsistente Gruppe von Leistungsmerkmalen
und Funktionen an, die für
die erweiterten Broadcasting- und interaktiven Broadcasting-Profile erforderlich
sind. Das erweiterte Broadcasting-Profil ist für Broadcast-Dienste (gerichtete
Dienste) vorgesehen, während
das interaktive Broadcasting-Profil zusätzlich interaktive Dienste
unterstützt
und es der MHP ermöglicht,
das durch das Internet bereitgestellte weltweite Kommunikationsnetz
zu nutzen.
-
Die
MHP ist deshalb einfach eine übliche Programmierschnittstelle
(API), die von der Hardware-Plattform,
auf der sie abläuft,
völlig
unabhängig ist.
Auf erweiterte Broadcasts, interaktive Broadcasts und Internet-Inhalte
von verschiedenen Anbietern kann über eine einzige Einrichtung,
z.B. eine Set-Top-Box oder ein IDTV-Gerät, zugegriffen werden, welche
diese Common DVB-MHP
API verwendet. Die MHP wird einen wirklich horizontalen Markt in
der Inhalts-, Anwendungs- und Dienstumgebung über vielfältige Übermittlungsmechanismen (Kabel, Satellit,
terrestrisch usw.) ermöglichen.
-
Codieren von Audio- und Videoströmen
-
Entscheidend
für die
Installation von interaktivem Audio/Video-Streaming ist die Codierung
und Decodierung. In diesem Bereich ist MPEG (sprich: M-peg) – dies steht für Moving
Picture Experts Group – die
Bezeichnung für
eine Familie von Standards für die
Codierung von audiovisuellen Informationen, wie z.B. Filmen, Video,
Musik in einem digitalen komprimierten Format. MPEG verwendet ausgeklügelte Kompressionsverfahren.
-
MPEG-1
ist eine Codierung von Bewegtbildern und zugeordnetem Audio für digitale
Speichermedien mit bis zu etwa 1,5 Mbit/s. Sie befasst sich mit
dem Problem, einen oder mehrere Datenströme aus den Video- und Audioteilen
des MPEG-1-Standards mit Taktinformationen zu vereinigen, um einen einzigen
Strom zu bilden. Dies ist eine wichtige Funktion, da die Daten,
sind sie einmal in einem einzigen Strom vereinigt, in einer Form
sind, die für
digitale Speicherung und Übertragung
gut geeignet ist.
-
MPEG-1
spezifiziert eine codierte Darstellung, die zum Komprimieren von
Videosequenzen – sowohl
625 Zeilen als auch 525 Zeilen – auf
Bitraten um 1,5 Mbit/s verwendet werden kann. Dieser Standard wurde
hauptsächlich
für den
Betrieb mit Speichermedien entwickelt, die eine kontinuierliche Transferrate
von etwa 1,5 Mbit/s aufweisen. Er kann jedoch auch in einem breiteren
Bereich Verwendung finden, da der Lösungsweg generisch ist.
-
Zur
Erzielung eines hohen Kompressionsverhältnisses wird eine Anzahl von
Verfahren verwendet. Das erste besteht darin, eine geeignete räumliche
Auflösung
für die
Information auszuwählen.
Der Algorithmus benutzt dann eine blockbasierte Bewegungskompensation,
um die zeitliche Redundanz zu reduzieren. Bewegungskompensation wird verwendet
für eine
kausale Prädiktion
des aktuellen Bildes aus einem vorhergehenden Bild, für eine nichtkausale
Prädiktion
des aktuellen Bildes aus einem zukünftigen Bild oder für eine interpolative
Prädiktion aus
vergangenen und zukünftigen
Bildern. Das Differenzsignal, der Prädiktionsfehler, wird unter
Verwendung der diskreten Cosinus-Transformation (DCT) weiter komprimiert,
um eine räumliche
Korrelation zu entfernen, und dann quantisiert. Schließlich werden die
Bewegungsvektoren mit der DCT-Information kombiniert und mittels
variabler Längencodierung
codiert.
-
MPEG-1
spezifiziert eine codierte Darstellung, die zum Komprimieren von
Audiosequenzen – sowohl
Mono als auch Stereo – verwendet
werden kann. Eingegebene Audio-Samples werden dem Codierer zugeführt. Das
Mapping ergibt eine gefilterte und unterabgetastete Darstellung
des Eingangsaudiostroms. Ein psychoakustisches Modell erzeugt einen
Datensatz zur Steuerung des Quantisierers und der Codierung. Der
Quantisierer- und Codierblock erzeugt aus den abgebildeten Eingangs-Samples
eine Gruppe von Codiersymbolen. Der Block "Rahmenpackung" setzt den tatsächlichen Bitstrom aus den Ausgangsdaten
der anderen Blöcke
zusammen und fügt erforderlichenfalls
andere Informationen hinzu, z.B. Fehlerkorrektur.
-
MPEG-2
beschreibt eine generische Codierung von Bewegtbildern und zugeordneter
Audio-Information. Dieser Standard befasst sich mit der Vereinigung
von einem oder mehreren Strömen
von Video und Audio sowie anderer Daten zu Einzel- oder Mehrfachströmen, die
zur Speicherung oder Übertragung
geeignet sind. Dies ist in zwei Formen spezifiziert: dem Programmstrom
und dem Transportstrom. Jeder von diesen ist für eine andere Gruppe von Anwendungen
optimiert. Der Programmstrom ähnelt dem
MPEG-1 Systems Multiplex.
Er ergibt sich durch die Vereinigung eines oder mehrer paketierter
elementarer Ströme
(Packetized Elementary Streams – PES),
die eine gemeinsame Zeitbasis haben, zu einem einzigen Strom. Der
Programmstrom ist zur Verwendung in relativ fehlerfreien Umgebungen
vorgesehen und für
Anwendungen geeignet, bei denen Softwareverarbeitung erforderlich
sein kann. Programmstrom-Pakete können eine variable und relativ große Länge aufweisen.
-
Der
Transportstrom vereinigt einen oder mehrere paketierte elementare
Ströme
(PES) mit einer oder mehreren unabhängigen Zeitbasen zu einem einzigen
Strom. Elementare Ströme,
die eine gemeinsame Zeitbasis haben, bilden ein Programm. Der Transportstrom
ist zur Verwendung in Umgebungen vorgesehen, in denen Fehler wahrscheinlich sind,
wie z.B. bei der Speicherung und Übertragung in verlust- oder
rauschbehafteten Medien.
-
MPEG-2
baut auf den leistungsstarken Videokompressionsfähigkeiten von MPEG-1 auf, um
eine große
Auswahl von Codierwerkzeugen anzubieten. Diese sind in Profilen
gruppiert, um unterschiedliche Funktionalitäten zu bieten.
-
MPEG-2
Digital Storage Media Command and Control (DSM-CC) ist die Spezifikation
für eine Gruppe
von Protokollen, welche die für
das Management von MPEG-1- und MPEG-2-Bitströmen spezifischen Steuerfunktionen
und -operationen angibt. Diese Protokolle können zur Unterstützung von
Anwendungen sowohl in autonomen als auch in heterogenen Netzwerkumgebungen
verwendet werden. Beim DSM-CC-Modell wird ein Strom durch einen Server
erzeugt und an einen Client geliefert. Sowohl der Server als auch
der Client werden als Benutzer des DSM-CC-Netzes betrachtet. DSM-CC
definiert eine logische Entität,
die als "Session
and Resource Manager" (SRM)
bezeichnet wird und ein (logisch) zentralisiertes Management der
DSM-CC-Sitzungen und DSM-CC-Ressourcen
gewährleistet.
-
MPEG-4
betrifft drei Bereiche: digitales Fernsehen, interaktive Grafikanwendungen
(synthetischer Inhalt) und interaktives Multimedia (World Wide Web,
Verteilung von und Zugriff auf Inhalt). MPEG-4 stellt die standardisierten
technologischen Elemente bereit, welche die Integration der Erzeugung,
Verteilung und Inhaltszugriffsparadigmen der drei Bereiche ermöglichen.
Die folgenden Abschnitte veranschaulichen die oben beschriebenen
MPEG-4-Funktionalitäten
unter Bezugnahme auf die in 2 dargestellte audiovisuelle
Szene.
-
Codierte Darstellung von Medienobjekten
-
Audiovisuelle
MPEG-4-Szenen setzen sich aus mehreren hierarchisch organisierten
Medienobjekten zusammen. An den Blättern der Hierarchie findet
man primitive Medienobjekte, wie z.B.:
- – Standbilder,
z.B. ein fester Hintergrund,
- – Video-Objekte,
z.B. eine sprechende Person – ohne
den Hintergrund,
- – Audio-Objekte,
z.B. die dieser Person zugeordnete Stimme, Hintergrundmusik.
-
MPEG-4
beschreibt eine Anzahl solcher primitiven Medienobjekte, die fähig sind,
sowohl natürliche
als auch synthetische Inhaltstypen darzustellen, welche entweder
zwei- oder dreidimensional sein können. Neben den oben erwähnten und
in 1 dargestellten Medienobjekten definiert MPEG-4
die codierte Darstellung von Objekten wie z.B. Text und Grafik,
sprechende künstliche
Köpfe und
zugeordneten Text, die zum Synthetisieren der Sprache und zum Animieren
des Kopfes dienen, animierte Körper, die
zu den Gesichtern gehören,
oder synthetischen Klang.
-
Ein
Medienobjekt in seiner codierten Form besteht aus deskriptiven Elementen,
die eine Behandlung des Objekts in einer audiovisuellen Szene sowie
gegebenenfalls der zugehörigen
Streaming-Daten ermöglichen.
Es ist wichtig anzumerken, dass in seiner codierten Form jedes Medienobjekt unabhängig von
seiner Umgebung oder seinem Hintergrund dargestellt werden kann.
-
Die
codierte Darstellung von Medienobjekten ist unter Berücksichtigung
der gewünschten
Funktionalitäten
so effizient wie möglich.
Beispiele für
solche Funktionalitäten
sind Fehlerrobustheit, einfache Entnahme und Bearbeitung eines Objekts
oder Verfügbarkeit
eines Objekts in skalierbarer Form.
-
Zusammensetzung von Medienobjekten
-
2 erläutert, wie
eine audiovisuelle Szene in MPEG-4 als aus Einzelobjekten zusammengesetzt beschrieben
wird. Die Figur enthält
zusammengesetzte Medienobjekte, die primitive Medienobjekte in einer
Gruppe anordnen. Primitive Medienobjekte entsprechen Blättern im
deskriptiven Baum, während zusammengesetzte
Objekte ganze Zweige umfassen. Beispiel: Das der sprechenden Person
entsprechende visuelle Objekt und die zugehörige Stimme werden zu einem
neuen zusammengesetzten Medienobjekt verknüpft, das sowohl die akustischen
als auch die visuellen Komponenten dieser sprechenden Person enthält. Eine
solche Gruppierung erlaubt es Autoren, komplexe Szenen zu erstellen,
und ermöglicht
es Verbrauchern, sinnvolle Objekte (Gruppen von Objekten) zu manipulieren.
-
Ganz
allgemein gibt MPEG-4 eine Möglichkeit
an, eine Szene zu beschreiben, bei der es zum Beispiel möglich ist
- – Medienobjekte
an beliebigen Stellen in einem vorgegebenen Koordinatensystem zu
platzieren,
- – Transformationen
anzuwenden, um das geometrische oder akustische Erscheinungsbild
eines Objekts zu verändern,
- – primitive
Medienobjekte zu gruppieren, um zusammengesetzte Medienobjekte zu
bilden,
- – Streaming-Daten
auf Medienobjekte anzuwenden, um deren Attribute (z.B. einen Klang
oder Animationsparameter, die ein synthetisches Gesicht ansteuern)
zu modifizieren,
- – die
Betrachtungs- und Hörpunkte
des Benutzers an beliebigen Stellen in der Szene interaktiv zu verändern.
-
Die
Szenenbeschreibung baut, sowohl in Bezug auf Struktur als auch hinsichtlich
der Funktionalität
der Objektzusammensetzungsknoten, auf mehreren Konzepten der Virtual
Reality Modeling Language (VRML) auf.
-
Beschreibung und Synchronisation von Streaming-Daten
für Medienobjekte
-
Medienobjekte
können
Streaming-Daten erfordern, die in einem oder mehreren elementaren Strömen übertragen
werden. Ein Objekt-Deskriptor identifiziert alle einem Medienobjekt
zugeordneten Ströme.
Dies ermöglicht
die Verarbeitung hierarchisch codierter Daten sowie die Zuordnung
von Meta-Informationen über
den Inhalt ("Object
Content Information")
und der zugehörigen
Schutzrechte.
-
Jeder
Strom ist durch eine Gruppe von Deskriptoren für Konfigurationsinformationen
gekennzeichnet, um z.B. die erforderlichen Decoder-Ressourcen und
die Genauigkeit der codierten Taktinformationen zu bestimmen. Weiterhin
können
die Deskriptoren Hinweise auf die für die Übertragung erforderliche Dienstgüte (Quality
of Service – QoS)
enthalten, z.B. maximale Bitrate, Bitfehlerrate, Priorität usw.
-
Eine
Synchronisation von elementaren Strömen wird durch Zeitstempelung
von einzelnen Zugriffseinheiten innerhalb von elementaren Strömen erreicht.
Die Synchronisationsschicht regelt die Identifizierung solcher Zugriffseinheiten
und die Zeitstempelung. Unabhängig
vom Medientyp ermöglicht
diese Schicht eine Identifizierung des Typs der Zugriffseinheit,
z.B. Video- oder
Audio-Rahmen, Szenenbeschreibungsbefehle in elementaren Strömen, Rückgewinnung
der Zeitbasis des Medienobjekts oder der Szenenbeschreibung, sowie
eine gegenseitige Synchronisierung. Die Syntax dieser Schicht ist
auf vielfältige
Weise konfigurierbar, wodurch eine Verwendung in einem breiten Spektrum
von Systemen möglich
ist.
-
Lieferung von Streaming-Daten
-
Die
synchronisierte Lieferung von Streaming-Informationen von der Quelle
zum Ziel unter Ausnutzung unterschiedlicher, vom Netzwerk verfügbarer QoS
ist in Form der Synchronisationsschicht und einer einen Zweischicht-Multiplexer
enthaltenden Lieferschicht (Delivery Layer) spezifiziert.
-
Die
erste Multiplexschicht wird gemäß der DMIF-Spezifikation (DMIF
= Delivery Multimedia Integration Framework) verwaltet. Dieses Multiplex kann
durch das in MPEG definierte FlexMux-Tool verkörpert sein, welches eine Gruppierung
von elementaren Strömen
(ES) mit niedrigem Multiplexing-Overhead ermöglicht. Multiplexen in dieser
Schicht kann zum Beispiel verwendet werden, um ES mit ähnlichen
QoS-Anforderungen zu gruppieren oder die Anzahl von Netzverbindungen
oder die Ende-zu-Ende-Verzögerung zu
reduzieren.
-
Die "TransMux"-Schicht (TransMux
= Transport Multiplexing) bietet Transportdienste, die der angeforderten
QoS entsprechen. Nur die Schnittstelle zu dieser Schicht ist durch
MPEG-4 spezifiziert, während
das konkrete Mapping der Datenpakete und die Steuersignalisierung
in Zusammenarbeit mit den für das
jeweilige Transportprotokoll zuständigen Gremien festgelegt werden
müssen.
Jeder geeignete vorhandene Transportprotokollstapel, wie z.B. (RTP)/UDP/IP,
(AAL5)/ATM oder der MPEG-2-Transportstrom über eine geeignete Sicherungsschicht kann
eine spezifische TransMux-Instanz werden. Es ist möglich,
- – Zugriffseinheiten,
Transport-Zeitstempel, Taktbezugsinformationen und Datenverluste
zu identifizieren,
- – Daten
aus verschiedenen elementaren Strömen optional zu FlexMux-Strömen verschachteln,
- – Steuerinformationen
zu übertragen,
um
- – die
erforderliche QoS für
jeden elementaren Strom und FlexMux-Strom anzuzeigen,
- – solche
QoS-Anforderungen in tatsächliche
Netzwerkressourcen umzusetzen,
- – elementare
Ströme
Medienobjekten zuzuordnen, und
- – das
Mapping von elementaren Strömen
zu FlexMux- und TransMux-Kanälen
zu übertragen.
-
Interaktion mit Medienobjekten
-
Im
Allgemeinen betrachtet der Benutzer eine Szene, die entsprechend
dem Design des Autors der Szene zusammengesetzt ist. Abhängig von
dem vom Autor gestatteten Freiheitsgrad hat der Benutzer jedoch
die Möglichkeit,
mit der Szene zu interagieren. Zu den Operationen, die ein Benutzer
möglicherweise
durchführen
darf, gehören:
- – Veränderung
des Betrachtungs-/Hörpunkts
der Szene,
- z.B. durch Navigation durch die Szene;
- – Ziehen
von Objekten in der Szene zu einer anderen Position;
- – Auslösen einer
Kaskade von Ereignissen durch Auswahl eines spezifischen Objekts,
z.B. Starten oder Stoppen eines Videostroms;
- – Auswahl
der gewünschten
Sprache, wenn mehrere Sprachspuren zur Verfügung stehen.
-
Die
Multimediainhalt-Lieferkette umfasst Inhaltserzeugung, Produktion,
Lieferung und Verbrauch. Um dies zu unterstützen, muss der Inhalt identifiziert,
beschrieben, verwaltet und geschützt werden.
Der Transport und die Lieferung von Inhalt erfolgen über eine
heterogene Gruppe von Endgeräten
und Netzen, innerhalb derer Ereignisse stattfinden und Berichte
erfordern. Solche Berichte werden unter anderem die zuverlässige Lieferung,
das Management von persönlichen
Daten und Präferenzen unter
Berücksichtung
des Schutzes der Privatsphäre des
Benutzers und das Management von (finanziellen) Transaktionen betreffen.
-
Der
MPEG-21-Multimediarahmen identifiziert und definiert die zur Unterstützung der
oben beschriebenen Multimedia-Lieferkette
benötigten Hauptelemente
sowie die Beziehungen zwischen diesen und die durch diese unterstützten Operationen.
MPEG-21 wird die Elemente ausarbeiten, indem er die Syntax und Semantik
ihrer charakteristischen Merkmale definiert, wie z.B. Schnittstellen
zu den Elementen. MPEG-21 wird sich auch mit der erforderlichen
Rahmenfunktionalität
befassen, wie z.B. mit den den Schnittstellen zugeordneten Protokollen, Mechanismen
zur Bereitstellung eines Repositoriums, Zusammensetzung, Normgerechtigkeit
usw.
-
Die
sieben in MPEG-21 definierten Hauptelemente sind:
- – Digital
Item Declaration (eine einheitliche und flexible Abstraktion und
ein interoperables Schema für
die Definition von Digital Items);
- – Digital
Item Identification and Description (ein Rahmen zur Identifikation
und Beschreibung einer beliebigen Entität unabhängig von deren Art, Typ oder
Granularität);
- – Content
Handling and Usage (beschreibt Schnittstellen und Protokolle, die
eine Erstellung, Manipulation, Suche, Zugriff, Speicherung, Lieferung
und (Wieder-)Verwendung von Inhalt über die "Content Distribution and Consumption
Value Chain" ermöglicht);
- – Intellectual
Property Management and Protection (die Mittel, die es möglich machen,
dass Inhalt über
einen großen
Bereich von Netzwerken und Einrichtungen ständig und zuverlässig verwaltet
und geschützt
wird);
- – Terminals
and Networks (die Fähigkeit,
interoperablen und transparenten Zugriff auf Inhalt über Netze
und Endgeräte
zu ermöglichen);
- – Content
Representation (wie die Medienressourcen dargestellt werden);
- – Event
Reporting (stellt die Maßzahlen
und Schnittstellen zur Verfügung,
die es Benutzern ermöglichen,
die Leistung aller zu meldenden Ereignisse in dem Rahmen genau zu
verstehen).
-
Ein
solches System für
synthetische Grafik und synthetisches Audio ist in einem Artikel
von Doenges et al beschrieben, der unter dem Titel "Audio/video and synthetic
graphics/audio for mixed media" in
Signal Processing, Elsevier Science Publishers, Amsterdam, NL, Bd.9,
Nr. 4, Mai 1999, auf den Seiten 433–463 erschienen ist.
-
Aufgabe
-
Es
bleibt die Aufgabe, es zu ermöglichen, dass
Inhalt- und Dienstanbieter
den Bedarf von Endbenutzern nach entfernter Bereitstellung (in den
Einrichtungen des Anbieters) von Unterhaltungsdiensten hoher Qualität befriedigen.
Videospiele nach dem neuesten Stand der Technik und zukünftige auf
virtueller Realität
basierende Anwendungen werden Anforderungen an hochdynamisches,
interaktives und hochauflösendes
Audio/Video stellen. Video/Audio-Echtzeitverarbeitung für elektronische
Spiele und andere interaktive, auf virtueller Realität basierende Unterhaltung
erfordert spezialisierte und lokale Hochleistungsressourcen, z.B.
PCs und Spielekonsolen.
-
Aufgabe
der Erfindung ist die Bereitstellung von hochinteraktiven Video/Audio-Diensten
für Endverbraucher,
z.B. Fernspielen, mit reaktiven Anforderungen und harten Echtzeitbedingungen.
Schwierigkeiten liegen im Echtzeitverhalten auf Benutzerbefehle
und in einer erforderlichen reaktiven und realistischen dynamischen
Visualisierung.
-
Die
Lösung
sollte in der vorhandenen Umgebung eingebettet sein, d.h., eine
entfernt bereitgestellter ("remotely
hosted") Dienst,
z.B. Videospiele, sollte auf den genormten Fernsehrundfunk-Verteilkonzepten
und dem dafür
vorgesehenen zusätzlichen
Steuerweg für
Benutzerinteraktionen, wie z.B. MHP, basieren.
-
Zurzeit
gibt es keine adäquaten
Lösungen
für individuelle
Virtual-Reality-Dienste, da die Reaktionszeit kein realistisches
dynamisches Verhalten zuzulassen scheint und die umfangreiche Bewegung
im Videostrom die Bandbreite voll in Anspruch nimmt.
-
Entfernt
bereitgestellte einfache Videospiele, die auf dem genormten Fernsehrundfunk-Verteilweg und
einem zusätzlichen
Steuerweg basieren, sind bekannt, bieten jedoch keine adäquate Lösung für individuelle
interaktive Dienste, da die Reaktionszeit kein realistisches dynamisches
Verhalten zulässt.
-
KURZE BESCHREIBUNG DER ERFINDUNG
-
Die
Erfindung gibt eine Action-Streaming-Umgebung für Endbenutzer, d.h., einen
interaktiven Streamingdienst und eine Interaktionseinrichtung, die
es dem Benutzer ermöglicht,
in einer virtuellen Realität
zu interagieren.
-
Einfache
Interaktionseinrichtungen, z.B. eine Set-Top-Box, werden verwendet, um einen personalisierten
interaktiven Streamingdienst zu abonnieren und zu nutzen, der auf
einem über
ein Breitbandzugangsnetz zugänglichen
zentralen Server bereitgestellt wird.
-
Action-Dienste
sind individuelle und interaktive, in Echtzeit zusammengesetzte
Audio/Video-Ströme,
z.B. direkte Interaktion mit einem Avatar, einschließlich virtuelle
Mehrbenutzerumgebungen und Realitäten, z.B. für Online-Spiele oder virtuelle
Städte
in einer realistischen Animation, die eine direkte Benutzer-Benutzer- und Benutzer-Umgebung-Interaktion
innerhalb der Umgebung ermöglichen.
-
Hardware-Voraussetzungen
-
Ein
Endbenutzer benötigt
eine Set-Top-Box oder TV-integrierte
digitale Audio/Video-Signalverarbeitungseinrichtungen
zum Empfang von Fernsehrundfunkkanälen und individuellen Kanälen, wie z.B.
für Videoabrufdienst
(Video an Demand). Das für den
entfernt erzeugten Breitband-Unterhaltungsstrom verwendete Format
sollte mit den vorhandenen digitalen Audio/Video-Signalverarbeitungseinrichtungen
kompatibel sein, es sollte also z.B. MPEG- oder DVB-MHP-Konformität bestehen.
-
Funktionelle Anforderungen
-
Die
Endbenutzer-Interaktion erfordert einen Steuerkanal in der Rückwärtsrichtung.
Die Endbenutzereinrichtung sendet die Stimuli oder Befehle an unterhaltungsdienstspezifische
Verarbeitungselemente. Verbesserungen der Benutzereinrichtung können durch
Herunterladen der neuen Funktionalität, einschließlich von
der Dienstumgebung gesteuerter sitzungsorientierter Funktions-Downloads,
realisiert werden.
-
Der
Action-Streamingdienst wird an dem entfernten (zentralen) Ort durch
dienstspezifische Verarbeitungselemente zur Erzeugung von Audio/Video-Strömen für eine Vielzahl
von Endverbrauchern erzeugt.
-
Anforderungen ans Netz
-
Für den individuellen
Downstream-Kanal zum Benutzer sind für den Betrieb Garantien bezüglich Bandbreite
und Dienstlieferzeit erforderlich. Der individuelle Steuerweg in
der Rückwärtsrichtung muss
in erster Linie insbesondere die Verzögerungsbeschränkungen
einhalten, um die Benutzer-Dienst-Benutzer-Reaktionszeit unter den
wahrnehmbaren Grenzen zu halten. Es ist wichtig, dass die Zugangsnetzelemente
entsprechend den erforderlichen Dienstgüte-Parametern gesteuert werden, d.h.,
die Dienstumgebung muss im Allgemeinen und/oder auf einer dienstspezifischen
Basis den Aufbau der Datenverbindungen mit dem erforderlichen Dienstgüteniveau
in den für
den Medienstromtransport zuständigen
Zugangsnetz-Steuerentitäten anfordern.
-
ZIELE UND VORTEILE DER ERFINDUNG
-
Die
Erfindung besteht in einem Verfahren zur Erzeugung einer interaktiven
individuellen virtuellen Realität
mit mindestens einem Action-Streaming-Client und einem Netzwerk-Action-Streamingdienst-System
unter Verwendung von interaktiver Medien-Streaming-Technologie,
das folgende Schritte umfasst: Einrichten einer Actionstrom-Sitzung mit Verbindungsbearbeitung
zwischen dem Netzwerkdienst und dem Client und mit Dienstgütebehandlung,
Aufbau eines Medien-Streaming-Weges (CN) vom Dienst zum Client,
Erzeugen und Übertragen
individueller Medienströme
zum Client durch Einbetten von Interaktion in eine virtuelle Realität, und Entnehmen
und Decodieren eines Medienstroms unter Verwendung eines mittels
einer Virtual-Reality-Beschreibung komprimierten Bewegtbildstroms,
und Decodieren und Abspielen des individuellen Mediendatenstroms
auf der Client-Seite, und Aufbau eines Benutzerinteraktions-Steuerweges
(CN) vom Client zum Dienst, Codieren und Übertragen der Benutzerinteraktion
zum Dienst, wobei das Einbetten von Interaktion in eine virtuelle
Realität
beim Dienst durchgeführt wird,
und kontinuierliches Steuern des Netzwerks und der erforderlichen
Dienstgüte,
koordiniert für mehrere,
gegebenenfalls interagierende Benutzer-Action-Streaming-Clients.
-
Die
Netzwerkumgebung und der Medien-Streaming-Weg können für eine Vielzahl gegebenenfalls
interagierender Benutzer-Clients koordiniert werden. Das Netzwerk
kann so gesteuert werden, dass die erforderliche Dienstgüte gewährleistet
ist, und gegebenenfalls interagierende Benutzer-Clients können auf
Basis des Virtual-Reality-Szenarios
koordiniert werden. Die Dienstgüte
kann in besonders hohen Datenraten in der Downstream-Richtung sowie in
einer minimalen Umlaufzeitverzögerung
in beiden Richtungen bestehen. Dies erfordert eine in Bezug auf
Verzögerung
minimierte Codierung des Medienstroms, z.B. rahmenweise, auch für komprimierte
Medienformate.
-
Die
Erzeugung individueller Medienströme durch Einbetten von Interaktion
in eine virtuelle Realität
und Entnehmen und Codieren eines Medienstroms beim Dienst unter
Verwendung eines mittels einer Virtual-Reality-Beschreibung komprimierten Bewegtbildstroms
kann dadurch erfolgen, dass Teile der Virtual-Reality-Beschreibung,
wie sie z.B. für
eine Spielanwendung durch eine hardwareunabhängige audiovisuelle Programmierschnittstelle
wie DirectX von Microsoft verlangt ist, direkt im abgehenden komprimierten
Datenstrom codiert werden. Der Medienstrom kann auf einer anwendungsorientierten
Grafik und/oder auf Klangbeschreibungsinformationen ohne nicht komprimierte
Video-Zwischeninformationen basieren. Die Actionstrom-Sitzung kann einen Kompatibilitätsabgleich
umfassen, z.B. durch Aktualisieren und Konfigurieren von Softwareteilen
des Dienstes und/oder des Client durch Hochladen von erforderlicher
Software.
-
Die
Erfindung besteht weiterhin in einem Action-Streaming-Server nach Anspruch 6.
-
Die
Erfindung besteht in einem Action-Streamingdienst, der Ressourcen
zum Erzeugen einer interaktiven virtuellen Realität mit Echtzeit-Benutzerinteraktion
unter Verwendung einer interaktiven Medien-Streaming-Technologie bereitstellt,
mit mindestens einer Upstream-Schnittstelle
zum Empfang von Benutzerinteraktion und mindestens einer Downstream-Schnittstelle
zum Bereitstellen eines interaktiven Medienstroms, und für mindestens
einen Benutzer, der gemeinsam mit anderen einen Medienstrom nutzt,
mit einem Interpretierer für
die empfangene Benutzerinteraktion, einer Virtual-Reality-Maschine zum Einbetten
der Benutzerinteraktion in die virtuelle Realität, einem Medienentnahmeteil zur
Entnahme eines individuellen Medienstroms, einem Codierer zum Codieren
des individuellen Medienstroms und (gemeinsam genutzt) einer Sitzungssteuereinheit
zur kontinuierlichen Gewährleistung der
erforderlichen Dienstgüte
sowie einem Umgebungssteuerteil zum Koordinieren einer Vielzahl
von virtuellen Realitäten
und einer Vielzahl individueller Medienströme.
-
Die
Erfindung besteht in einem Action-Streaming-System als Ganzes.
-
Die
Erfindung kann ausgehen von einem Actionstrom mit einer Datenstruktur
zum Codieren und Decodieren einer virtuellen Realität in einem
Mediendatenstrom, einer Datenstruktur zum Einbetten von Interaktion
und einer Steuerstruktur zum Verwalten von Netzwerkressourcen, welche
die erforderliche Dienstgüte
gewährleisten.
-
Der
Actionstrom kann mittels eines DVB-MHP-konformen Video/Audio- und
Steuerdatenstroms realisiert sein (DVB-MHP = Digital Video Broadcast Multimedia
Home Platform). Er kann auch mittels eines MPEG-konformen Video/Audio- und Steuerdatenstroms
realisiert sein.
-
Eine
Action-Streaming-Sitzung kann eine Verbindungsbearbeitung zwischen
Dienst und mindestens einem Client, eine Dienstgütebehandlung, die sicherstellt,
dass das Netzwerk die erforderliche Dienstgüte bereitstellt, eine kontinuierliche
Dienstgütebehandlung
gemäß den Dienstgüteanforderungen für den Dienst,
einen Kompatibilitätsabgleich
zwischen Server und Client, eine Dienst-Authentifizierung, Autorisierung
und Abrechnung sowie einen Actionstrom-Austausch umfassen.
-
Vorzugsweise
basiert die Erfindung auf einem Action-Streaming-Protokoll, welches Mittel
zur Einrichtung einer Action-Streamingdienst-Sitzung, Mittel zur
Anpassung des Benutzer-Client und des Dienstes, Mittel zur Authentifizierung,
Autorisierung und Abrechnung, Mittel zur Steuerung von Netzwerkressourcen
gemäß Dienstgüteanforderungen
und Mittel zur Koordination und zum Austausch von Actionströmen umfasst.
-
Die
Erfindung wird als entsprechendes Computersoftware-Produkt realisiert.
-
Dementsprechend
bestehen ein Ziel und ein Vorteil der vorliegenden Erfindung darin,
dass neue interaktive
-
Dienste
für Teilnehmer
bereitgestellt werden: Spielen, Informationsdienste, Fernlernen
usw. auf der Basis einer aufstrebenden Virtual Reality/Worlds-Technologie,
d.h. eines benutzergesteuerten zusammengesetzten Echtzeit-Videostroms.
-
Ein
weiterer Vorteil der vorliegenden Erfindung besteht darin, dass
auf der Teilnehmerseite zusätzlich
zu den vorhandenen MPEG-kompatiblen TV-Geräten nur wenig Aufwand erforderlich
ist. Insbesondere werden keine kostspielige Videospielekonsole und
kein breites Spektrum von Spielen mit Bezahlung pro Nutzung (pay-per-use
games) benötigt.
-
Ein
weiterer Vorteil der vorliegenden Erfindung besteht darin, dass
sie DVB-MHP-konform ist. Es wird erwartet, dass Breitband-Unterhaltungsdienste
die Zukunft des Geschäfts
von Dienstanbietern sein werden. Die Erfindung benutzt die Breitband-Infrastruktur,
welche eine gemeinsam genutzte Ressource ermöglicht, d.h., einen Action-Dienst
mit den relativ niedrigen Kosten eines individuellen Breitbandzugangs.
-
Diese
und viele weitere Ziele der vorliegenden Erfindung sind für den Fachmann
aus den Zeichnungen und der nachfolgenden Beschreibung ersichtlich.
-
KURZE BESCHREIBUNG DER FIGUREN
-
1 veranschaulicht
eine bekannte Kombination der drei bei MPEG-1 verwendeten Hauptarten der
Bildzerlegung.
-
2 zeigt
eine bekannte MPEG-Szenenbeschreibung, die sowohl hinsichtlich der
Struktur als auch in Bezug auf die Funktionalität von Objektzusammensetzungsknoten
auf mehreren Konzepten aus der Virtual Reality Modeling Language
aufbaut.
-
3 ist
eine schematische Darstellung des Netzwerkkontexts einer Action-Streaming-Umgebung
mit den Komponenten gemäß der Erfindung.
-
4 zeigt
einen erfindungsgemäßen Action-Streaming-Server.
-
5 zeigt
schematisch die Architektur des erfindungsgemäßen Action-Streaming-Servers.
-
6 zeigt
einen erfindungsgemäßen Action-Streaming-Client.
-
7 zeigt
schematisch die Architektur des erfindungsgemäßen Action-Streaming-Client.
-
AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
-
Der
Fachmann wird erkennen, dass die nachfolgende Beschreibung der vorliegenden
Erfindung lediglich der Erläuterung
dient und in keiner Weise beschränkend
sein soll. Andere Ausführungsbeispiele
der Erfindung ergeben sich für
solche Fachleute ohne weiteres aus einer näheren Betrachtung der Offenbarung.
-
1 zeigt
eine Sequenz SEQ von Bildern mit einer aufeinanderfolgenden Teilsequenz
oder Gruppe GRP von Bildern. Sie zeigt ein Einzelbild PIC, bestehend
aus einem horizontalen Slice SLC, der wiederum aus Blöcken besteht.
Weiterhin zeigt sie einen aus mehreren Blöcken bestehenden Makroblock
MBC und einen Einzelblock BLC.
-
Die
Zeichnung veranschaulicht bei MPEG-1 verwendete Hauptarten der Bildzerlegung.
In einer kontinuierlichen Bildsequenz SEQ enthalten nur die variierenden
Teile Information. Um diese Teile entnehmen und identifizieren zu
können,
unterteilt sich eine Bildsequenz SEQ in Gruppen GRP, und ein Bild PIC
unterteilt sich in Slices SLC, Makroblöcke MBC und Blöcke BLC.
Dies wird in beträchtlichem
Umfang genutzt, um bei der Übertragung
und Speicherung von Videodaten Netzwerk- und Speicherressourcen einzusparen.
-
2 zeigt
eine bekannte MPEG-Szenenbeschreibung, die sowohl hinsichtlich der
Struktur als auch in Bezug auf die Funktionalität von Objektzusammensetzungsknoten
auf Konzepten aus der Virtual Reality Modeling Language aufbaut.
Die Zeichnung enthält
eine virtuelle Realität,
die aus zwei- und dreidimensionalen audiovisuellen Objekten besteht, welche
durch einen gemultiplexten Downstream (Signalfluss in Abwärtsrichtung)
DS erzeugt und gesteuert werden und zu einem codierten gemultiplexten Upstream
(Signalfluss in Aufwärtsrichtung)
US gestreamt werden. Die Szene umfasst ein Koordinatensystem CS,
und die audiovisuellen Objekte OBJ in dem durch das Koordinatensystem
erzeugten Raum werden auf eine Projektionsebene PP für einen
gedachten Betrachter VW projiziert. Video-Informationen werden für diese
Projektion entnommen, und entsprechend werden Audio-Informationen
durch Integration der Audio-Objekte in ein so genanntes psychoakustisches
Modell entnommen.
-
Die
Zeichnung veranschaulicht, wie eine aus audiovisuellen Objekten
bestehende virtuelle Realität objektweise
durch gestreamte Steuerdaten DS manipuliert werden kann, wie diese
Objekte gestreamte Steuerdaten US erzeugen und wie Audioströme AU und
Videoströme
VI abgeleitet werden können.
Es wird darauf hingewiesen, dass die objektweise Darstellung der
virtuellen Realität
natürlich
ist und eine enge Codierung ermöglicht.
-
3 ist
eine schematische Darstellung des Netzwerkkontexts der Erfindung.
Sie enthält
ein Netzwerk NW, das aus Netzzugangspunkten AP, z.B. einem Netzzugangsserver,
und Netzelementen NE, z.B. Switches, Router, Gateways etc., besteht.
Weiterhin umfasst das Netzwerk ein Action-Streamingdienst-System,
das durch einen Action-Streaming-Server ASS bereitgestellt wird.
Die Netzelemente, einschließlich
des Action-Streaming-Servers, und
die Netzzugangspunkte sind durch Netzverbindungswege oder Kanäle miteinander
verbunden, die durch Pfeile dargestellt sind. Die Netzzugangspunkte AP
ermöglichen
Action-Streaming-Clients ASC einen Zugang zum Netzwerk NW über eine
durch dünne Pfeile
dargestellte Anschlussleitung AC, z.B. eine digitale Teilnehmerleitung
(DSL).
-
Die
dicken Pfeilspitzen stellen die Kanäle CN dar und stehen für einen
(Breitband-)Downstream, der vom Action-Streamingdienst erzeugte Medieninformationen
einer virtuellen Welt enthält,
und die dicken Pfeilspitzen stehen für den Upstream, der von den
Action-Streaming-Clients
ASC erzeugte Benutzerinteraktionen enthält. Der Action-Streamingdienst ASS
steuert die Netzelemente durch Anforderung erforderlicher Dienstgüten und
indirekte Definition von Verbindungswegen CN, wodurch bei den Action-Streaming-Clients
eine interaktive virtuelle Realität hoher Qualität gewährleistet
ist. Downstream- und
Upstream-Daten können über verschiedene Wege
zu und von einem ASC geleitet werden. Netzsteuerverbindungen können ebenfalls über verschiedene
Wege geführt
werden.
-
In 4 ist
ein Action-Streaming-Server ASS dargestellt. Die Figur zeigt eine
Netzkanalschnittstelle IN, das Netzwerk NW (Umgebung) sowie einen
Computer-Cluster,
der die virtuellen Realitäten
und die entsprechenden Video- und Audioströme für eine Vielzahl von Action-Streaming-Clients (generischer
Größtcomputer
für Visualisierungsanwendungen
oder auf Spielekonsolen-Technologie basierende "Computer Blades") bereitstellt.
-
5 ist
eine schematische Darstellung der Architektur eines in einem Action-Streaming-Server vorgesehenen
Action-Streamingdienst-Systems. Sie zeigt eine Dienstumgebungs-
und Netzsteuerung ENV-CON und eine Vielzahl von Sitzungssteuerungen
SES-CON, die jeweils eine Gruppe von vier Einheiten verwalten, nämlich eine Stimuli-Einkoppeleinheit
INJ, eine Virtual-Reality-Maschine
VRE, Eine Medien-Entnahmeeinheit ME und eine Video-Streaming-Codiereinheit
VSE.
-
Die
Dienstumgebungs- und Netzsteuerung ENV-CON steuert die Dienstumgebung,
wobei sie mehrere virtuelle Realitäten, gegebenenfalls eine gemeinsam
genutzte virtuelle Realität,
koordiniert. Sie steuert die Sitzungsinteraktion, welche alle dargestellten
Einheiten INJ, VRE, ME, VSE umfasst, in Bezug auf durchgeführte Aktionen.
Multi-Player-Umgebungen können
entweder eng oder lose gekoppelt implementiert werden, d.h., alle
Benutzer nehmen an derselben Sitzung teil oder eine Sitzung pro
Benutzer, gekoppelt durch sitzungsüberschreitende Kommunikation.
Sie muss die gewünschten,
bewilligten und verfügbaren
Dienstgüten
oder Netzressourcen berücksichtigen,
z. B. durch Verwendung gemeinsamer Videoströme und Rundsenden oder durch
Verteilung der Last der Einzelsitzungs-Prozessoren. Es kann sogar
von Vorteil sein, eine bestimmte Verarbeitung einem Action-Streaming-Client
zuzuordnen. Ein solches Konzept ist eng mit dem verwendeten audiovisuellen
Codierungsstandard verbunden, z.B. bietet MPEG-4, im Gegensatz zu
den hauptsächlich
videoorientierten MPEG-1- und
MPEG-2-Standards, flexible kombinierbare Medienobjekte.
-
Die
Sitzungssteuerung SES-CON ist z.B. für Authentisierungs-, Autorisierungs-
und Abrechnungsaufgaben, für
Verbindungsaufbau, für
die Wahl der virtuellen Realität,
für die
Client-Dienst- Synchronisation
etc. zuständig.
Sie ist die steuernde Instanz für
den bereitgestellten Action-Strom.
-
Der
Action-Strom wird von den vier logischen Verarbeitungseinheiten – Stimuli-Einkopplung
INJ, Virtual-Reality-Maschine VRE, Medienentnahme ME und Videostrom-Codierung
VSE – erzeugt.
Die Stimuli-Einkoppeleinheit
INJ empfängt
die Benutzerinteraktion vom Netzwerk und setzt sie für die Virtual-Reality-Maschine
um. Die Virtual-Reality-Maschine VRE erzeugt kontinuierlich neue
Zustände
auf der Basis des Zustandsverlaufs und der Stimuli-Einkopplungen.
Diese zeitgesteuerte Szene wird als virtuelle Realität oder virtuelle
Welt bezeichnet. Sie kann aus Gebäuden, Werkzeugen, Hintergründen, einem
Garten, Straßen,
einem Spielplatz, einem Weltraumschiff, einem Kompass oder einem
beliebigen audiovisuellen Objekt bestehen. Sie kann Zustandsinformationen
und Feedback bereitstellen, z.B. Force Feedback für einen
Joystick, einen visuellen Eindruck, z.B. ein Video, Klang oder allgemein
jede Reaktivität.
Die Ansicht für
den abonnierten Action-Streaming-Client
wird dem Virtual-Reality-Modell durch die Medienentnahme ME entnommen.
Und sie wird durch die Videostrom-Codierung VSE zu einem Medien-/Befehlsstrom
codiert. In der Zeichnung ist der Einfachheit halber nur die Video-Codierung
dargestellt, es können
jedoch alle Medien in analoger Weise codiert werden.
-
Das
Action-Streamingdienst-System ASS kann als Hardware implementierte
Algorithmen für die
direkte Erzeugung des komprimierten Medienstroms aus anwendungsorientierten Grafik-
und/oder Klangbeschreibungsinformationen umfassen. Auf diese Weise
werden nicht komprimierte Video-Zwischeninformationen, wie sie von üblichen
visuellen Prozessoren (3D-Grafikbeschleuniger) erzeugt werden, vermieden.
-
6 zeigt
einen Action-Streaming-Client ASC mit mehreren Eingabegeräten, hier
einen Joystick JS, eine Fernsteuerung RC, eine Tastatur KB und einen
Joypad JP. Der Client selbst ist mittels einer Set-Top-Box realisiert.
Die Set-Top-Box weist eine Schnittstellenverbindung AC zu einem
Netzzugangspunkt, z.B. zu einer digitalen Teilnehmerleitung, auf,
der einen Zugang zum Netzwerk NW ermöglicht.
-
Die
Zeichnung veranschaulicht die Idee eines sehr einfachen und (im
Vergleich zu einer komplexen und kostspieligen High-Tech-Spielekonsole wie
einer Play Station oder einem Game Cube) billigen Teilnehmergeräts, das
ein Fernsehgerät
verwendet. Die den Action-Streaming-Client realisierende Einrichtung, die
ein DSL-anschlussfähiges Digital-TV-Teilnehmergerät implementiert,
kann, statt als Set-Top-Box ausgeführt zu sein, in ein Fernsehgerät der nächsten Generation
integriert werden.
-
Alternativ
können
Teilnehmer, die Standard-PC-Geräte
verwenden, auf Anforderung Zugang zum gesamten Vorrat neuer Spiele
erhalten, ohne ständig
in Grafikbeschleuniger und CPU-Technologie der obersten Preisklasse
investieren zu müssen.
-
7 ist
eine schematische Darstellung der Architektur des Action-Streaming-Client
ASC. Der Action-Streaming-Client
ASC weist eine Transportprotokolleinheit und physikalische Schnittstelle
TP/PI zum Netzwerk NW auf. Er umfasst eine Vielzahl von Medienplayern
ME-P und eine Grafikeinheit GR. Eine Benutzerinteraktionseinheit
UI verwaltet Eingaben IN von Fernsteuerung RC, Tastatur KB, Joypad JP,
Joystick JS etc. Die Grafik und der Medienplayer liefern Ausgangssignale
OU für
Video VI, Audio AU etc. Die Medienplayer werden von einer Mediensteuereinheit
ME-CT zur Synchronisation der Multimedia koordiniert. Außerdem umfasst
die Architektur eine Informations- und Datenzugriffseinrichtung
IDA. Im Zentrum dieser Komponenten ist eine Anwendung APP eingebettet,
welche diese Komponenten verwendet, instruiert und koordiniert.
-
Im
Betrieb empfangt der Action-Streaming-Client vom Netzwerk NW Medienströme unter Verwendung
einer physikalischen Schnittstelle PI und eines Transportprotokolls
TP. Befehle für
die laufende Action-Streaming-Anwendung
APP werden über
die Informations- und Datenzugriffseinrichtung bereitgestellt. Die
Anwendung kann die Medienströme über die
Mediensteuerung ME-CT koordinieren. Benutzerinteraktionen von Benutzerschnittstelleneinrichtungen
gelangen zur Anwendung APP über
die Benutzerinteraktionskomponente UI. Diese Architektur gleicht
der Multimedia Home Platform.
-
Weitere
Anwendungen für
Endbenutzer ergeben sich in Form einer neuen Klasse von hochinteraktiven
Virtual-Reality-Anwendungen.
Action-Dienste sind individuell und interaktiv, in Echtzeit zusammengesetzte
Medienströme,
z.B. direkte Interaktion mit einem virtuelle Mehrbenutzerumgebungen umfassenden
Avatar, z.B. für
Online-Spiele oder virtuelle Städte
in einer realistischen Animation, welche direkte Benutzer-Benutzer- und Benutzer-Maschine-Interaktionen
erlaubt.
-
Ein
Endbenutzer benötigt
kein aufwendiges Gerät
mit High-Tech-Laufwerk,
sondern lediglich eine Set-Top-Box oder ins Fernsehgerät integrierte
digitale Audio/Video-Signalverarbeitungseinrichtungen zum
Empfang von Fernsehrundfunk-Kanälen.
Das zur Übertragung
des entfernt erzeugten Breitband-Unterhaltungsstroms verwendete
Format sollte mit den verfügbaren
digitalen Audio/Video-Signalverarbeitungseinrichtungen
kompatibel sein, wie z.B. ein mit der Multimedia Home Platform konformes
Format der Familie von MPEG-Standards. Die Endbenutzer-Interaktion erfordert
einen Kanal in der Rückwärtsrichtung.
Das Endbenutzergerät
wandelt die von Mensch-Maschine-Schnittstellen abgeleiteten Stimuli/Befehle
in einen Action-Streamingdienst-Steuerprotokoll-Datenfluss
um. Verbesserungen des Benutzergeräts können durch Herunterladen der
neuen Funktionalität,
einschließlich
sitzungsorientierter, von der Dienstumgebung gesteuerter Funktions-Downloads,
realisiert werden.
-
Der
Action-Streamingdienst wird an einem entfernten (zentralen) Ort
durch dienstspezifische Verarbeitungselemente zu Erzeugung der Medienströme für eine Vielzahl
von Endverbrauchern erzeugt. Die von dem Medienverarbeitungs-Funktionsblock abgeleiteten
Informationen müssen
durch Anpassungsmittel in das für
das Benutzergerät
erforderliche digitale Downstream-Mediensignal umgewandelt/codiert werden.
Dies kann rahmenweise mit minimierter Verzögerung geschehen, auch für komprimierte
Video-Formate. Als effiziente Methode der Erzeugung des Ausgangsstroms
erscheint die direkte Umsetzung des Beschreibungsformats für die audiovisuellen
Effekte, wie sie durch die in der Dienstumgebung/im Betriebssystem
als Programmierschnittstelle definierte Anwendung verwendet wird,
in die Codierung des Medienstroms.
-
Die
Eingabe für
das (Inter-)Action-Streaming beziehungsweise die Unterhaltungsdienst-Erzeugung
ist das Dienststeuerprotokoll, welches die Benutzer-Stimuli weitergibt. "Anpassung" bedeutet hier Beenden
des Steuerprotokolls und Emulieren von lokalen Eingabe/Lenkungsmitteln,
z.B. zur Unterstützung
der Portierung von für
lokale Nutzung vorgesehenen Spielanwendungen.
-
Die
Action-Streaming-Technologie stellt hohe Anforderungen an das Zugangsnetz
zwischen dem Benutzer und dem Ort der Diensterzeugung. Für die einzelnen
Downstream-Kanäle
zum Benutzer sind für
den Betrieb Garantien bezüglich
Bandbreite und Dienstlieferzeit erforderlich. Der individuelle Steuerweg
in der Rückwärtsrichtung
muss in erster Linie die Verzögerungsbeschränkungen
einhalten, um die Benutzer-Dienst-Benutzer-Reaktionszeit
unter den wahrnehmbaren Grenzen zu halten. Ein Einhaltung dieser
netzbezogenen Dienstgüteparameter ist
vorteilhaft für
die Dienstgüte
und schließlich
die Dienst-Akzeptanz. Die die Datenwege realisierenden Zugangsnetzelemente
müssen
entsprechend den erforderlichen Dienstgüteparametern gesteuert werden.
Bedingungen für
die Güte
des Action-Streamingdienstes müssen
(generell oder benutzersitzungsspezifisch) durch die Dienstumgebung,
z.B. unter Verwendung einer Zugangsnetzdatenwege-Steuerung, angefordert/gesteuert
werden.
-
Alternative Ausführungsbeispiele
-
Im
dieser Anmeldung sind der Erläuterung dienende,
derzeit bevorzugte Ausführungsbeispiele und
Anwendungen der Erfindung gezeigt und beschrieben, doch es sind
viele Variationen und Abwandlungen möglich, die innerhalb des Gedankens und
Umfangs der Erfindung liegen, und diese Variationen ergeben sich
für den
Fachmann nach sorgfältiger
Lektüre
dieser Anmeldung.
-
Alternativ
kann die Erfindung bei jeder Medienart und jeder Art von Action-Streaming-Client
angewendet werden. Für
die Zukunft sind Einrichtungen zu erwarten, welche mehr Sinne noch
perfekter anregen und z.B. mit Hologramm-Projektoren, Aura-Generatoren oder tragbaren
Anzügen
arbeiten, die dem Tastsinn des Benutzers Eindrücke wie Temperatur, Druck oder
Vibration vermitteln.
-
Die
Erfindung ist somit außer
im Schutzumfang der beigefügten
Ansprüche
nicht auf Audio oder Video beschränkt.