-
HINTERGRUND
DER ERFINDUNG
-
Diese
Anmeldung beansprucht den Nutzen aus der Vorläufigen US-Patentanmeldung Nr. 60/008.288,
eingereicht am 6. Dezember 1995. Die vorliegende Erfindung betrifft
eine Methode und eine Vorrichtung zum Verstecken von Daten in einem
Audiosignal und insbesondere ein Verfahren zur Bereitstellung eines
unhörbaren
Hilfsdatensignals in einem Teilband-kodierten komprimierten digitalen
Audiodatenstrom, der über
vorhandene Kommunikationskanäle übertragen
wird. Das Verfahren ist gekennzeichnet als Transport von versteckten
Daten nach Komprimierung (PC-HDT). Eine entsprechende Methode und
eine Vorrichtung zur Rückerlangung
der versteckten Daten aus dem Audiosignal heraus werden ebenfalls
offenbart, zusätzlich
zu einem digitalen Datenspeichermedium.
-
Das
Bereitstellen von versteckten Daten in einem digitalen Audiosignal
ist in einer Reihe von Situationen vorteilhaft. Zum Beispiel kann
es wünschenswert
sein, die Möglichkeit
zu schaffen, Daten zusätzlich
zu den Audiodaten zu transportieren. Diese zusätzlichen Daten könnten beispielsweise
ein Kopiermanagementverfahren bereitstellen, das verhindert, dass
das Audiosignal ohne gültige
Genehmigung kopiert wird, oder sie könnten auf andere Weise die
Verwendung des Audioprogramms bzw. weiterer (z. B. Video- oder Multimedia-)Informationen im
Zusammenhang mit dem Audiosignal steuern. Informationen, die den
Inhalt des Audiosignals identifizieren, zum Beispiel Name und/oder
Interpret eines Audioprogramms, sowie Abrufinformationen für die Marktforschung
bzw. kommerzielle Verifizierug könnten ebenfalls
unter Verwendung eines derartigen Verfahrens versteckt werden. Das
Verfahren sollte mit verschiedenen Speichermedien, darunter Digital
Video Disc (DVD), Compact Disc (CD) einschließlich CD-ROM, Digital Audio
Tape (DAT) und magnetische Speichermedien wie Videokassettenrekorderband und
Audiokassettenband, kompatibel sein.
-
Des
Weiteren sollte die Art der vom Audiosignal transportierten Informationen
praktisch unbegrenzt sein. Zum Beispiel wäre es vorteilhaft, den Transport
von Daten, die in keinerlei Beziehung zum Audiosignal siehen (z.
B. das Übertragen
von Aktienkursen oder „elektronischen
Coupons" gemeinsam mit
einem Musikstück),
zu gestatten. Zudem sollte das zum Verstecken von Daten im Audiosignal
verwendete Verfahren in der Lage sein, entweder einen modulierten
Träger,
einen unmodulierten (z. B. Pilot-)Träger oder eine Kombination beider
zu verstecken.
-
Im
Allgemeinen wird die Kapazität
eines Übertragungskanals
zum Transportieren zusätzlicher Informationen
durch die Bandbreite des Kanals begrenzt. Da die Bandbreite von
Kommunikationskanälen
durch die Eigenschaften des elektromagnetischen Spektrums eingeschränkt ist
sowie – im
Falle von drahtlosen Kanälen – per Gesetz
geregelt sein kann, hat es sich erforderlich gemacht, Techniken
zu entwickeln, um die Menge der in einem Kanal mit gegebener Bandbreite
transportierbaren Informationen zu erhöhen. Beispielsweise sind Techniken
zum Komprimieren digitaler Daten, um in eine gegebene Bandbreite
oder einen gegebenen Speicherplatz mehr Daten quetschen zu können, gut
bekannt.
-
Komprimieren
bezieht sich auf die Reduzierung der Zahl von Datenbits, die benötigt werden,
um ein Quellensignal so zu enkodieren, dass das Quellensignal durch
einen Decoder mit akzeptabler Wiedergabetreue wiederhergestellt
werden kann. Zum Beispiel ist bei Audioanwendungen bekannt, dass das
menschliche Gehör
für Amplitudenschwankungen
in den höherfrequenten
Bestandteilen eines Audiosignals relativ weniger empfindlich ist.
Demgemäß können Audiodaten
mit Hilfe von Frequenzwandlungstechnologien, die den Hochfrequenzbestandteilen
weniger Bits zuweisen, enkodiert werden. Auf diese Weise wird die
Gesamtzahl der zu übertragenden Datenbits
reduziert, und der Zuhörer
empfängt
dennoch einen zufrieden stellenden Klang.
-
Aufgrund
der Methode der Klangdarstellung in Audiosystemen ist dem herkömmlichen
Audiosignal zudem eine Redundanz inhärent. Der Augenblickswert des
Schalldrucks wird durch einen Amplitudenwert bzw. eine Spannung
ein ein Audiosignal aufgezeichnet, was eine Nichtübereinstimmung
zwischen der tatsächlichen
Darstellung und der menschlichen Hörwahrnehmung mit sich bringt.
Das heißt, obwohl
das menschliche Gehör
in vielerlei Hinsicht gewissermaßen nichtlinear ist, verhält es sich
wie eine Bandfilterbank bzw. wie ein Spektrum Analysator. Bei jeder
Frequenz ist die Wahrnehmung annähernd
logarithmisch in der Weise, dass die Menge von Rauschen, die toleriert
werden kann, proportional zum Signal ist.
-
Anders
gesagt, sobald der Signal-Rauschabstand (SNR) eine bestimmte Schwelle überschreitet, ist
das Rauschen nicht mehr hörbar.
Diese SNR-Schwelle liegt in der Regel unter 30 dB und bleibt für den größten Teil
des hörbaren
Frequenzbereichs gewahrt. Siehe z. B. „Signal Compression Based
on Models of Human Perception",
von M. Jayant, J. Johnston und R. Safranek, IEEE-Mitschriften, Oktober
1993, Vol. 81, Nr. 10. Ein relativ niedriges SNR-Erfordernis wie
dieses kann es gestatten, dass ein Informationen tragendes Signal
die vorhandene Audiosignalkette (z. B. von der Audiosignalquelle
zu den den Klang reproduzierenden Wandlern) vom menschlichen Gehör unbemerkt
passiert, sofern der SNR bei allen Frequenzen gewahrt bleibt.
-
Für die menschliche
Hörwahrnehmung
entwicklte psychoakustische Modelle gestatten demzufolge die Kompression
von Audiodaten. Ganz allgemein, siehe Digital Signal Processing
of Speech Signals, von L. R. Rabiner und R. W. Schafer (Prentice-Hall,
Englewood Cliffs, N. J., 1978). Bekannt ist, dass Audiodaten in
der Regel Sprache oder Musik mit Frequenzbestandteilen im Bereich
von grob 0 bis 20 KHz beinhalten, wobei die Mehrzahl der Sprachsignale
in den Bereich von 200 bis 3200 Hz fallen.
-
Ein
weiterer Ansatz zum Übertragen
zusätzlicher
Daten innerhalb einer gegebenen Bandbreite besteht folglich darin,
Bereiche zu identifizieren, in denen ergänzende Informationen zeitlich
zusammenfallend mit einem primären
Audiosignal unhörbar transportiert
werden können.
Bei einem der entsprechenden Verfahren bleibt die Bandbreite des
Audiokanals unverändert
und die zusätzliche
Information wird so in die Audiodaten verpackt, dass sie zurück gewonnen
werden kann, ohne die Qualität
des primären
Audiosignals signifikant herabzusetzen. Eine Methode zum Einbetten
digitaler Informationen in eine Audiowellenform wird in der C. U.
Lee et al. gemeinsam zugewiesenen US-Patentanmeldung Nr. 081524.132 mit dem
Titel „Method
and Apparatus for Transporting Auxiliary Data in Audio Signals", eingereicht am
6. September, bzw. in US-A-5 161 210, das sich insbesondere auf
Teilband-Kodierung bezieht, offenbart.
-
Es
wäre somit
wünschenswert,
ein mit den vorhandenen Audiodaten-Übertragungsverfahren kompatibles
System zu haben, bei dem ein Analogsignal digitalisiert, komprimiert,
in ein zuvor festgelegtes Rahmenformat gepackt und schließlich in
einem Bitstrom übertragen
wird. Das System sollte es demnach gestatten, versteckte Daten in
das komprimierte digitale Audiosignal einzubetten, ohne ein vollständiges Dekomprimieren
des Signals erforderlich zu machen. Außerdem sollte das System die
spektrale Formung (Spectral Shaping) der versteckten Daten ermöglichen,
um selbige noch besser im Signal zu verbergen. Ein derartiges System
sollte zudem die Kompliziertheit und den Aufwand von Rechenvorgängen reduzieren
und mit zeitgemäßen Teilband-basierten Kompressionsverfahren
verträglich
sein.
-
Im
Speziellen ist die Teilbandkodierung eine Form der bei zeitgemäßen Audiodaten-Kompressionsverfahren üblichen
spektralen Wellenformkodierung. Ganz allgemein lässt sich eine analoge Wellenform,
die Audiodaten darstellt, unter Verwendung verschiedenster Anwendungstechniken,
darunter zeitbezogene Wellenformkodierung, Modell-basierte Quellenkodierung
und spektrale Wellenformkodierung, in eine digitale Form kodieren.
-
Bei
der zeitbezogenen Wellenformkodierung, zum Beispiel der Impulscode-Modulation (PCM),
differentiellen Impulscode-Modulation (DPCM) sowie adaptiven PCM
und DPCM, wird die analoge Wellenform auf einen von 2R verschiedenen
Amplitudenlevel quantisiert, wobei R die Zahl der zur Darstellung
jedes Samples gebrauchten Binärstellen ist.
Jedes Sample der Wellenform wird dann unabhängig von allen weiteren Samples
enkodiert.
-
Bei
der DPCM wird statt der Amplitude des Samples der Unterschied zwischen
aufeinander folgenden Daten-Samples enkodiert. Dieses Enkodierverfahren
macht sich die Tatsache zunutze, dass die durchschnittliche Amplitudenänderung
zwischen aufeinander folgenden Daten-Samples gewöhnlich relativ klein ist. Somit
sind in der Regel weniger Bits erforderlich, um die Unterschiede
der Amplituden darzustellen. Bei der adaptiven PCM und DPCM wird
ein linearer Quantisierer verwendet, der seine Schrittgröße (d. h.
den Abstand zwischen quantisierten Amplitudenwerten) entsprechend
der Streuung der vorangegangenen Signal-Samples variiert.
-
Bei
der Modell-basierten Quellenkodierung wird die Audioquelle als lineares
(d. h. Filter-)System modelliert, das dann, wenn es durch ein geeignetes Eingangssignal
zum Beispiel von einem Generator für periodische Impulse oder
für Weißrauschen
erregt wird, das gewünschte
Audiosignal ergibt. Die am meisten verbreitete Modell-basierte Kodiermethode ist
die lineare Prädiktion
(LPC), bei der das Filter durch Filterkoeffizienten und einen Verstärkungskoeffizienten
bestimmt wird. Um die Audiowellenform wiederherzustellen müssen somit
Filterkoeffizienten, Verstärkungsparameter
und Erregungsfunktion an den Empfänger übertragen werden.
-
Die
spektrale Wellenformkodierung umfasst die adaptive Transformationskodierung
und die Teilbandkodierung. Im Sinne dieser Patentschrift soll der Begriff „Teilbandkodierung" sowohl die Filterbank-basierte
Kodierung als auch die Transfomrationskodierung einschließen. Beide
Methoden ähneln
sich, da in jedem Fall Daten kodiert werden, die zuvor festgelegten
Frequenzbändern
einer Wellenform entsprechen.
-
Bei
der adaptiven Transformationskodierung wird die Audiowellenform
abgetastet und in Frames mit einer zuvor festgelegten Zahl von Daten-Samples zerlegt.
Die Daten in jedem Frame werden unter Nutzung beispielsweise von
Discrete Fourier Transformation, Discrete Cosine Transformation,
Karhunen-Loeve Transformation oder einer Wavelet-Transformation
in den spektralen Bereich umgesetzt und dann kodiert.
-
Bei
der Filterbank-basierten Kodierung wird das analoge Audiosignal
in eine Anzahl von Frequenzbändern
bzw. Teilbändern
gefiltert und das Signal in jedem Teilband gesondert enkodiert.
So sind zum Beispiel beim Enkodieren von Sprache die Teilbänder der
niedrigeren Frequenzen häufig
schmaler, da das Quantisierungsrauschen bei niedrigeren Frequenzen
deutlicher wahrnehmbar ist, und den Teilbändern niedrigerer Frequenzen
werden mehr Enkodierbits zugewiesen als den Teilbändern höherer Frequenzen.
Bei diesem Verfahren zerlegt zunächst
ein Filter das Audiospektrum in ein unteres Spektrum (z. B. 0–1600 Hz)
und ein oberes Spektrum (1600–3200 Hz).
Anschließend
teilt ein zweiter Filter das untere Band erneut in ein Unterband
(0–800
Hz) und ein Oberband (800–1600
Hz) und so weiter. Somit wird das niedrigere Frequenzband wiederholt
durch Zwei geteilt. Aufgrund ihres aliasfreien Frequenzgangs verwendet
man zur Untergliederung des Audiospektrums in der Regel Quadratur-Spiegelfilter.
Andere Verfahren unterteilen, wenn der vollständige Umfang der menschlichen
Wahrnehmung verlangt wird (z. B. bei Musikpassagen), in Teilbänder gleich
großer Bandbreiten.
Für spezielle
Anwendungen können weitere
Modifizierungen zur Verfügung
gestellt werden.
-
Des
Weiteren kann die Information über
die spektrale Hüllkurve
(d. h. die Signalstärke)
aus dem Audiosignal heraus erlangt werden, indem man den Betrag
der Signalenergie in jedem Teilband misst, wobei die Signalstärke proportional
zum Quadrat der Signalenergie ist. Diese Information kann genutzt werden,
um die Teilbandsamples vor der Enkodierung zu normalisieren, indem
man die Samples zum Beispiel um einen maximalen Amplitudenwert so
weit skaliert, dass alle normalisierten Samples einen Wert zwischen
Null und Eins annehmen. Die Skalierungsfaktoren können gemeinsam
mit den enkodierten Daten-Samples übertragen werden, um die Rekonstruktion
des Signals im Empfänger
zu gestatten.
-
Zusätzlich kann
die Information über
die spektrale Hüllkurve
vorteilhaft für
die Zuweisung von Bits zur Enkodierung der Audiodaten in jedem Teilband
genutzt werden. Da zum Beispiel der Betrag des in der Hörwahrnehmung
tolerierbaren Rauschens in jedem Teilband proportional zur Signalenergie
in diesem Teilband ist, wird das Quantisierungsrauschen in Teilbändern mit
relativ höherer
Signalenergie besser tolerierbar sein und können den Daten-Samples aus
diesem Teilband weniger Bits zugewiesen werden. Zudem wird ein Teilband,
dessen Signalenergie beträchtlich
höher als
in einem benachbarten Teilband ist, dazu neigen, das benachbarte Teilband
zu „übertönen". Zusätzliches
Quantisierungsrauschen im benachbarten Teilband wird somit nicht
wahrnehmbar sein, und zur Kodierung des schwächeren Teilbands kann eine
geringere Bitzahl zugewiesen werden. Bei vielen zeitgemäßen Audio-Encodern
werden in der Regel drei oder vier Bits je Teilbanddaten-Sample
zugewiesen. Die Bitzuweisungsdaten können gemeinsam mit den enkodierten Daten-Samples übertragen
werden, um die inverse Quantisierung des Signals in einem Empfänger zu gestatten.
-
Tatsächlich beruhen
viele zeitgemäße Audio-Kompressionsalgorithmen
auf einer Form von Teilbandkodierung, darunter auch der Audioalgorithmus
der Moving Pictures Experts Group (MPEG) (d. h. MUSICAM), die Mehrkanal-Digital-Audio-Kompressionssysteme
AC-2 und AC-3 von Dolby Laboratories sowie AMPAC. Einzelheiten zum
MPEG-Audioalgorithmus finden sich im MPEG-Standarddokument CD 11172-3
mit dem Titel „Coding
of Moving Pictures and Associated Audio for Digital Storage Media
at up to about 1.5 Mbit/s (Part 3 – Audio)".
-
Mit
Hilfe des MPEG-Audioalgorithmus lassen sich digitale Audiodaten
zusammen mit Videodaten in einem paketierten Datenstrom übertragen.
Der Audioabschnitt des Signals kann ein HiFi-Stereosignal, das ein
Fernsehprogramm begleitet, bereitstellen oder eine alternative Sprachbegleitung
für fremdsprachige
Zuschauer enthalten. Zudem können Nur-Audiodienste bereitgestellt
werden, die es dem Verbraucher gestatten, verschiedenste HiFi-Musikprogramme zu
hören.
Des Weiteren ist der MPEG-Standard sowohl mit drahtgebundenen Kommunikationswegen,
darutnter herkömmliche
Kabelfernsehsysteme, als auch mit drahtlosen Wegen, wie zum Beispiel
beim Satellitendirektempfang (DVB), kompatibel.
-
Wie
erwähnt,
lassen sich unhörbare
Hilfsdaten in einem digitalen Audiodatenstrom für verschiedene Zwecke, beispielsweise
Programmidentifikation, Kopiermanagement, Verifizierung, Marktdatenabfrage
und sonstige kommerzielle Anwendungen, vorteilhaft nutzen.
-
Dem
entsprechend wäre
es von Vorteil, eine Methode zum Verstecken von Hilfsdaten in einem
digitalen Audiodatenstrom, der über
vorhandene Kommunikationswege als bereits hergestellter Bitstrom übertragen
wird, bereitzustellen. Eine derartige Methode sollte ermöglichen,
dass die Hilfsdaten gemeinsam mit dem Audiosignal transportiert
werden, ohne die Qualität
des Audiosignals wesentlich zu beeinflussen oder sonstige Daten
im Bitstrom zu stören.
-
Insbesondere
sollte das Verfahren die Bereitstellung von Hilfsdaten in einzelnen
Teilbändern eines
digitalen komprimierten Audiodatenstroms gestatten. Das Verfahren
sollte mit einem Transportprozess für versteckte Daten kompatibel
sein, der digitale Hilfsdaten in das digitale Audiosignal enkodiert, ohne
eine Dekompression erforderlich zu machen. Gleichfalls sollte das
Verfahren die Rückerlangung der
Hilfsdaten aus dem komprimierten digitalen Audiosignal gestatten.
Letztendlich könnte
das Verfahren eine spektrale Formung des Hilfssignals ermöglichen,
um dieses noch besser im Audiosignal zu verbergen.
-
Die
vorliegende Erfindung betrifft eine Methode und eine Vorrichtung
für den
Transport und für die
Rückerlangung
von in einem digitalen Audiosignal versteckten Informationen, die
die zuvor erwähnten
sowie weitere Vorteile aufweist.
-
ZUSAMMENFASSUNG
DER VORLIEGENDEN ERFINDUNG
-
Der
vorliegenden Erfindung gemäß werden eine
Methode und eine Vorrichtung zum Verstecken von Hilfsinformationen
in einem Teilband-kodierten komprimierten digitalen Audiosignal,
die über
einen Kommunikationskanal in einem bereits hergestellten Bitstrom übertragen
werden, bereitgestellt. Im Unterschied zu herkömmlichen Methoden verlangt
die vorliegende Erfindung kein Dekomprimieren der Audiodaten, um
die Hilfsdaten einzubetten. Des Weiteren ergeben sich durch das
Einbetten dieser Hilfsdaten in verschiedene Teilbandkanäle der Audiodaten
vorteilhafte Eigenschaften hinsichtlich des Signal-Rauschabstands (SNR).
Darüber
hinaus stellt die vorliegende Erfindung auch spektrales Formen des
Hilfsdatensignals bereit, um es noch besser im Audiosignal zu verbergen.
-
Eine
Methode zum Bereitstellen von Hilfsdaten-Teilbandsamples in einem
Teilband-kodierten
digitalen Audiodatenstrom umfasst die Schritte: Bereitstellen mehrerer
Audio-Teilbandsamples;
Bereitstellen einer Daten-Trägersequenz;
Filtern der Daten-Trägersequenz
in Teilbänder,
um Datentransport-Teilbandsamples zu erhalten; Modulieren der Datentransport-Teilbandsamples
mit den Hilfsdaten, um Hilfsdaten-Teilbandsamples zu erhalten; Kombinieren
der Hilfsdaten-Teilbandsamples mit den entsprechenden Audio-Teilbandsamples zum
Herstellen kombinierter Teilbandsamples, in denen die Hilfsdaten-Teilbandsamples im
Wesentlichen unhörbar transportiert
werden; sowie Bereitstellen der kombinierten Teilbandsamples für den Transport
im digitalen Audiodatenstrom.
-
In
alternativen Ausführungsformen
werden mehrere Layer von Hilfsdaten-Teilbandsamples in den digitalen Audiodatenstrom
enkodiert. Jeder Layer kann eine einzigartige entsprechende Pseudorauschen-(PN-)Sequenz
haben, oder es kann durch Verschieben der Lage der Layer zueinander
ein- und dieselbe PN-Sequenz genutzt werden. Des Weiteren können Teilbandsamples
von verschiedenen Hilfssignalen in verschiedenen Teilbändern, denselben
Teilbändern
oder Kombinationen selbiger im digitalen Audiodatenstrom eingebettet
werden. Die Daten-Trägersequenz
kann eine Spread-Spectrum-PN-Sequenz,
eine „Sparse"-PN-Sequenz, eine „Sample-Twiddle"-Sequenz oder eine „Bit-Twiddle"-Sequenz, wie unten
ausführlicher
beschrieben, enthalten.
-
Wenn
die Audio-Teilbandsamples ein nichtuniformes Energiespektrum aufweisen,
umfasst die Methode die weiteren Schritte: Normalisieren der Audio-Teilbandsamples,
um ein annähernd
uniformes Energiespektrum selbiger zu erhalten; sowie Denormalisieren
der kombinierten Teilbandsamples im Anschluss an den Normalisierungsschritt,
um das nichtuniforme Energiespektrum der Audio-Teilbandsamples wiederherzustellen
und die Hilfsdaten-Teilbandsamples in den kombinierten Teilbandsamples dem
nichtuniformen Energiespektrum gemäß spektral zu formen.
-
In ähnlicher
Weise umfasst eine Methode zur Rückerlangung
von ein Hilfsdatensignal repräsentierenden
Hilfsdaten-Teilbandsamples, bei der die Hilfsdaten-Teilbandsamples
zusammen mit Audio-Teilbandsamples in kombinierten Teilbandsamples
in einem digitalen Datenstrom transportiert werden, die Schritte:
Bereitstellen von kombinierten Teilbandsamples aus dem Datenstrom
heraus; sowie Demodulieren der kombinierten Teilbandsamples unter
Verwendung einer Daten-Trägersequenz,
um die Hilfsdaten-Teilbandsamples
zurückzuerlangen.
-
Wenn
die Hilfsdaten-Teilbandsamples in den kombinierten Teilbandsamples
unter Verwendung einer PN-Spread-Spectrum-Sequenz transportiert
werden, umfasst die Methode die weiteren Schritte:
-
Aufheben
der Spreizung der zurückerlangten Hilfsdaten-Teilbandsamples
unter Verwendung einer PN-Spread-Spectrum-Sequenz oder einer sonstigen Daten-Trägersequenz;
sowie Aufsummieren der entspreizten Hilfsdaten-Teilbandsamples auf
ausgewählte
Teilbandkanäle,
um das Hilfsdatensignal zurückzuerlangen.
-
Die
entsprechende Encodier- und Decodiervorrichtung wird ebenfalls offenbart.
-
Des
Weiteren wird ein digitales Datenspeichermedium offenbart, das kombinierte
Teilbandsamples einschließlich
Audio-Teilbandsamples, die ein Hilfsdatensignal repräsentieren,
sowie Hilfsdaten-Teilbandsamples, die ein Hilfsdatensignal repräsentieren,
transportiert und bei dem: die Hilfsdaten-Teilbandsamples über zumindest
ein den Audio-Teilbandsamples
entsprechendes Teilband bereitgestellt werden; sowie das Hilfsdatensignal
aus den Hilfsdaten-Teilbandsamples heraus so zurückerlangt werden kann, dass
das Hilfsdatensignal im Wesentlichen unhörbar im Audiosignal transportiert
und das Hilfsdatensignal dem Audiosignal gemäß geformt wird.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein Blockschaltbild eines herkömmlichen
psychoakustischen Teilband-Encoders;
-
2 ist
eine diagrammartige Abbildung der herkömmlichen Frame-Formatierung
eines Teilband-kodierten digitalen Audiosignals, das als Eingangssignal
für das
der vorliegenden Erfindung gemäße System
zum Transport von versteckten Daten nach Komprimierung bereitgestellt
werden kann;
-
3a ist
ein Blockschaltbild einer ersten repräsentativen Anwendung des Encoders
zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden
Erfindung;
-
3b ist
ein Blockschaltbild einer zweiten repräsentativen Anwendung des Decoders
zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden
Erfindung;
-
4 ist
ein Blockschaltbild eines Encoders für das System zum Transport
von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
-
5 ist
ein Blockschaltbild einer alternativen Ausführungsform eines Encoders für das System zum
Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden
Erfindung;
-
6 ist
ein Blockschaltbild eines Decoders für das System zum Transport
von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
-
7 ist
ein Blockschaltbild einer weiteren alternativen Ausführungsform
eines Encoders für
das System zum Transport von versteckten Daten nach Komprimierung
gemäß der vorliegenden
Erfindung;
-
8 ist
ein Blockschaltbild einer alternativen Ausführungsform eines Decoders für das System
zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden
Erfindung;
-
AUSFÜHRLICHE
BESCHREIBUNG DER ERFINDUNG
-
Die
vorliegende Erfindung betrifft eine Methode und eine Vorrichtung
zur Bereitstellung eines unhörbaren
Hilfsdatensignals in einem Teilband-kodierten komprimierten digitalen
Audiodatenstrom, der über
vorhandene Kanäle übertragen
wird. Im Sinne dieser Patentschrift soll der Begriff „Teilbandkodierung" sowohl die Filterbank-basierte
Kodierung als auch die Transformationskodierung, wie zum Beispiel
Discrete Fourier Transformation, Discrete Cosine Transformation,
Karhunen-Loeve Transformation oder eine Wavelet-Transformation, einschließen. Das
Verfahren ist gekennzeichnet als Transport von versteckten Daten
nach Komprimierung (PC-HDT).
-
Die
vorliegende Erfindung ist kompatibel mit bestehenden zeitgemäßen Audio-Kompressionsalgorithmen,
die auf einer Form von Teilbandkodierung beruhen, wie zum Beispiel
der Audioalgorithmus der Moving Pictures Experts Group (MPEG) (d.
h. MUSICAM), die Mehrkanal-Digital-Audio-Kompressionssysteme AC-2
und AC-3 von Dolby Laboratories sowie AMPAC.
-
Im
Rahmen des MPEG-Audioalgorithmus lassen sich digitale Audiodaten
gemeinsam mit Videodaten vorteilhaft in einem paketierten Datenstrom übertragen.
So kann der Transportstrom zum Beispiel per Satellit oder mittels
terrestrischer Anlagen direkt zu einem Privathaushalt oder zur Kopfstation eines
Kabelfernseh-Verteilersystems gesendet werden. Andererseits kann
der Transportstrom lokal von einem enkodierten Quellendatenträger, zum
Beispiel einer Digital Video Disc (DVD), Compact Disc (CD) oder
einem Digital Audio Tape (DAT), bereitgestellt werden.
-
Mit
dem MPEG-Audioalgorithmus wird ein digitales Audiosignal einem psychoakustischen
Modell entsprechend enkodiert. 1 ist ein
Blockschaltbild eines herkömmlichen
psychoakustischen Teilband-Encoders, ganz allgemein mit 100 ausgewiesen,
der dazu verwendet werden kann, ein Teilband-kodiertes digitales
Audiosignal für
das der vorliegenden Erfindung gemäße System zum Transport von
versteckten Daten nach Komprimierung bereitzustellen. Zunächst wird
eine analoge Wellenform vom Encoder über Klemme 105 empfangen
und mittels eines Analog-Digital-(A/D-)Wandlers 110 in
die digitale Form umgewandelt. Die Abtastfrequenz kann beispielsweise
44,1 KHz betragen, wobei jedes Daten-Sample mit 16 Bits quantisiert
wird, so dass 216 = 65536 Amplitudenlevel
möglich
sind. Das resultierende digitale Audiosignal wird über Leitung 115 zu
einer Teilbandfilterbank 120 sowie über Leitung 155 zu
einem psychoakustischen Modell 160 geschickt. Die Teilbandfilterbank 120 führt ein
Mapping des Audiosignals von der Zeit-Domäne
in die Frequenz-Domäne durch.
Beispielsweise können
N gleich große
Teilbänder
(z. B. N = 32) mit Gruppen von 12 Daten-Samples je Teilband genutzt
werden. Jede Ausgabe des Teilbandfilters stellt den Teil des Audiosignals,
der in das jeweilige Teilband des Spektrums fällt, getreu dar.
-
Das
psychoakustische Modell 160 berechnet einen Signal-Masken-Abstand
(SMR), der zur nachfolgenden Bitzuweisung und Quantisierung genutzt wird.
Der SMR ist ein Hinweis auf den Rauschpegel in jedem Teilband, der
vom durchschnittlichen Zuhörer
kaum noch wahrnehmbar ist, und ist proportional zur Audiosignalenergie
in diesem Teilband. Das psychoakustische Modell kann auch dem Maskierungsphänomen zwischen
Teilbändern
Rechnung tragen, bei dem ein Teilband mit beträchtlich höherer Energie dazu neigt, ein
benachbartes Teilband zu „übertönen". Der SMR des benachbarten
Teilbands wird demgemäß so hoch
werden, dass es nicht mehr fein quantisiert werden muss.
-
Die
zweiunddreißig
Teilbandsamples werden einer Normalisierungsfunktion 130 über Leitung 125 zugeführt. Die
Normalisierungsfunktion 130 analysiert die Signalamplitude
der Teilbandsamples in jedem Teilband, um einen Skalierungsfaktor
für jedes Teilband
zu bestimmen. Der Skalierungsfaktor, der auf dem Maximum der Absolutwerte
der zwölf
Teilbanddaten-Samples basiert, wird dann genutzt, um die Teilbandsamples
zu normalisieren. Die Skalierungsfaktoren werden letztlich mit dem
enkodierten digitalen Audiosignal bereitgestellt, so dass die vollständige Wiederherstellung
des Audiosignals in einem Empfänger
erfolgen kann.
-
Allerdings
werden die Skalierungsfaktoren, die den dynamischen Bereich der
spektralen Hüllkurve
für jedes
Teilband repräsentieren,
von den Teilbandsamples getrennt enkodiert. Aufgrund der Grenzen
der menschlichen Hörwahrnehmung
wird es dadurch möglich,
die Teilbandsamples relativ grob zu quantisieren, d. h. mit weniger
Bits als die Basisband-Audiowellenformsamples. Die spektrale Hüllkurveninformation
(Skalierungsfaktoren) kann ebenfalls relativ grob kodiert werden
und muss nicht so häufig
wie die Teilbandsamples aktualisiert werden. Daraus ergibt sich
eine signifikante Bitratenreduzierung (d. h. Kompression).
-
Die
normalisierten Teilbandsamples werden gemeinsam mit den Skalierungsfaktoren über Leitung 135 einer
Bitzuweisungs- und Quantisierungsfunktion 140 zur Verfügung gestellt.
Der SMR aus dem psychoakustischen Modell 160 wird der Bitzuweisungs-
und Quantisierungsfunktion 140 über Leitung 165 zur
Verfügung
gestellt. Die Bitzuweisungs- und Quantisierungsfunktion 140 bestimmt
die Zahl der Bits, die zur Darstellung der quantisierten Teilbandsamples
genutzt werden. Die Zahl der zugewiesenen Bits muss ausreichend
groß sein,
damit das Quantisierungsrauschen den SMR nicht übersteigt, nicht jedoch so
groß,
dass eine maximale Schwelle für
die Enkodierbitrate überschritten
wird. In der Regel werden jedem Teilband-Sample drei oder vier Bits zugewiesen.
Wenn einem Daten-Sample zum Beispiel vier Bits zugewiesen werden,
wird das Sample auf einen von 24 = 16 Quantisierungslevel
quantisiert. Bezogen auf die ursprünglich 16 Quantisierungsbits, die durch
den A/D-Wandler 110 zugewiesen wurden, stellt dies einen
Kompressionsfaktor von 16 : 4 bzw. 4 : 1 dar. Der Bitzuweisung in
jedem Teilband entsprechend wird ein 4-Bit-Code festgelegt und schließlich gemeinsam
mit den enkodierten Teilband-Datensamples übertragen, um die inverse Quantisierung
des Signals in einem Empfänger
zu gestatten.
-
Die
zweiunddreißig
quantisierten Teilbandsamples werden einer Bitstromformatierungs- und
Encoderfunktion 150 über
Leitung 145 zugeführt. Hier
werden die Teilbandsamples, Skalierungsfaktoren und Bitzuweisungscodes
in Paketen bzw. Daten-Frames
enkodiert. Jedes Teilbandsample lässt sich unter Verwendung herkömmlicher
Modulationstechniken wie der Pulse-Code-Modulation (PCM) enkodieren.
Ebenso können
zusätzliche
Kompressionstechniken einschließlich
Huffman-Kodierung eingesetzt werden, um die quantisierten Samples
darzustellen, doch erhöht
dies die Kompliziertheit. Der enkodierte digitale Datenstrom wird
aus dem psychoakustischen Encoder 100 über Leitung 170 ausgegeben.
-
2 ist
eine diagrammartige Abbildung der herkömmlichen Frame-Formatierung
eines Teilband-kodierten komprimierten digitalen Audiosignals, das
mit Hilfe der vorliegenden Erfindung verarbeitet werden kann. Es
versteht sich, dass das in 2 gezeigte
Format nur eines der möglichen
Beispiele für
verschiedene Formate ist, die bereitgestellt werden könnten. Im
erörterten
Beispiel enthält
jedes der zweiunddreißig
Teilbänder
zwölf Audiodatensamples.
Dem entsprechend wird jeder Frame 12 × 32 = 384 Audiodatensamples
enthalten, und die Frame-Größe wird
384/44,1 kHz = 8,7074 Milisekunden (ms) betragen. Der Frame 250 beinhaltet
einen Header-Abschnitt 210, der den Anfang des Frames kennzeichnet,
und kann weitere Informationen wie eine Sequenznummer, Synchronisierungsdaten
und Abtastratendaten enthalten. Der MPEG-Frame 250 enthält ebenfalls
einen Bitzuweisungscode-Abschnitt 220, der die Anfangsstelle
der Daten und die Zahl der verwendeten Bits anzeigt. Des Weiteren
enthält
der Frame 250 einen Skalierungsfaktor-Abschnitt 230, der
den dynamischen Bereich der Teilbandsamples anzeigt, sowie einen
Teilbanddatensamples-Abschnitt 240. Die Teilbanddatensamples
können
in einem PCM-Format enkodiert werden. Bei alternativen Verfahren
können
Audiodaten aus mehr als einem Kanal in einem einzelnen Frame transportiert
werden.
-
3a ist
ein Blockdiagramm einer repräsentativen
Anwendung des Encoders zum Transport von versteckten Daten nach
Komprimierung (PC-HDT) gemäß der vorliegenden
Erfindung. Ein Demultiplexer (nicht gezeigt) trennt digitale Audio- und
Videosignale aus einem multiplexierten Bitstrom auf. Der komprimierte
digitalisierte Audiodatenstrom wird danach über Eingangsklemme 300 und
Leitung 305 dem PC-HDT-Encoder 310 zur Verfügung gestellt.
Ebenso erhält
der PC-HDT-Encoder 310 Hilfsdaten, die über Leitung 315 in
das Audiosignal eingebettet werden sollen. Ein Hilfsdaten-Teilbandsamples und
Audiodaten-Teilbandsamples darstellendes kombiniertes Signal wird über Leitung 320 einem Multiplexer 325 zur
Verfügung
gestellt. Gezeigt ist, wie ein digitales Videosignal über Eingangsklemme 330 und
Leitung 335 dem Multiplexer 325 zur Verfügung gestellt
wird, wo die Audio- und Videosignale in einen einzelnen Mehrkanaldatenstrom
auf Leitung 340 multiplexiert werden. Es versteht sich,
dass der PC-HDT-Encoder 310 das digitale Audiosignal in
Bezug auf das digitale Videosignal verzögern wird. Dem kann durch Verwendung
herkömmlicher
Techniken, zum Beispiel einer im Multiplexer 325 enthaltenen Synchronisierungsmöglichkeit,
Rechnung getragen werden.
-
Obwohl
nur genau ein Audio- und ein Videosignal gezeigt sind, sollte zudem
beachtet werden, dass mehrere Kanäle parallel bereitgestellt
werden können.
Beispielsweise kann das multiplexierte Signal auf Leitung 340 mehrere
Programme einschließlich
sowohl Video als auch begleitendes Audio und/oder begleitende Daten
(z. B. alternative Sprachversionen für fremdsprachige Zuschauer
sowie Untertitel für
Hörgeschädigte),
Nur-Audio-Programme und verschiedene Nur-Daten-Programme (z. B.
Aktienkurse, Wetterinformationen) enthalten.
-
Der
multiplexierte digitale Datenstrom wird über Leitung 340 einem
Aufzeichnungsgerät 345 zur Verfügung gestellt,
wo die Daten auf Quellendatenträger 355,
beispielsweise CD, DVD oder DAT, geschrieben werden. Der Quellendatenträger 335 kann eine
Master-Kopie sein, die wiederum verwendet wird, um zwecks weiterer
Verbreitung auf sonstige Datenträger
aufzuzeichnen.
-
3b ist
ein Blockschaltbild einer repräsentativen
Anwendung des Decoders zum Transport von versteckten Daten nach
Komprimierung (PC-HDT) gemäß der vorliegenden
Erfindung. Der Quellendatenträger 335 einschließlich des
digitalisierten Audiosignals mit versteckten Hilfsdaten wird einem
Lesegerät 360,
zum Beispiel einem DVD-Player, zur Verfügung gestellt. Das Lesegerät 360 liest den
Speicherdatenträger 355 und
gibt einen digitalen Datenstrom über
Leitung 362 an einen Demultiplexer 364 aus. Der
Demultiplexer 364 trennt den Audidatenstrom mit versteckten
Hilfsdaten von den Videodaten bzw. sonstigen digitalen Daten und
kann Synchronisierungsmöglichkeiten
beinhalten, um der durch den PC-HDT-Decoder 368 verursachten
Verzögerung
des Audiosignals Rechnung zu tragen. Die Audiodaten werden über Leitung 366 dem
erfindungsgemäßen PC-HDT-Decoder 368 sowie über Bypass-Leitung 370 einer
Kopiermanagementfunktion 380 zur Verfügung gestellt.
-
Im
PC-HDT-Decoder 368 werden die Hilfsdaten aus dem digitalen
Audiodatenstrom wiedergewonnen und der Kopiermanagementfunktion 380 über Leitung 372 zur
Verfügung
gestellt. Die Videodaten bzw. sonstigen digitalen Daten werden der
Kopiermanagement- bzw.
-kontrollfunktion 380 über Leitung 374 zur
Verfügung
gestellt. Die Kopiermanagementfunktion 380 verwendet die
Hilfsdaten um zu bestimmen, ob von den digitalen Daten aus dem Quellendatenträger 355 heraus
eine Kopie angefertigt werden darf. Falls ja, wird das Audiosignal
mit versteckten Hilfsdaten einem Aufzeichnungsgerät 386 über Leitung 382 zur
Verfügung
gestellt, und das begleitende Video- bzw. sonstige Datensignal wird dem
Aufzeichnungsgerät 386 über Leitung 384 zur Verfügung gestellt.
Ein neuer Quellendatenträger 390,
der mit den digitalen Daten vom Master-Quellendatenträger 355 enkodiert
ist, wird über
Leitung 388 von dem Aufzeichnungsgerät 386 bereitgestellt.
-
Man
beachte, dass der neue Quellendatenträger 390 ebenso mit
den versteckten Hilfsdaten enkodiert ist. Der neue Quellendatenträger 390 wird
daher ebenso der Kopiermanagementfunktion 380 des Decoders
unterliegen. Auf diese Weise kann der Händler steuern, ob der Original-Quellendatenträger vervielfältigt werden
darf. Beispielsweise könnte
ein Händler
Hilfsdaten bereitstellen, die sich dazu verwenden lassen, das Kopieren
des Quellendatenträgers
zu verhindern, um proprietäre
Informationen zu schützen.
Andererseits könnte
der Händler
Hilfsdaten bereitstellen, die ein Kopieren von Quellendatenträgern zulassen,
so zum Beispiel von Werbe- oder Demonstrationsmaterial, das dazu
entworfen wurde, einen Verbraucher zum Kauf zusätzlicher geschützter Quellendatenträger zu ermutigen.
-
Eine
weitere repräsentative
Anwendung der vorliegenden Erfindung erzieht sich auf ein Rundfunksignal
wie zum Beispiel ein über
Satellit oder Kabel bereitgestelltes Fernsehsignal. Beispielsweise kann
eine digitale Tonspur, die ein Fernsehprogramm wie einen Spielfilm
oder eine andere spezielle Ausstrahlung begleitet, geliefert werden.
Das multiplexierte digitale Signal bzw. der Transportdatenstrom, zu
dem mehrere hundert Kanäle
mit digitalen Informationen gehören
können,
wird von einem Privathaushalt über
ein Satellitendirektempfangssystem (DBS) oder über einen Kabelübertragungsweg
bzw. ähnliches
empfangen.
-
Die
vorliegende Erfindung kann angewendet werden, um einen Kopierschutz
dieser digitalen Programmdienste bereitzustellen, indem sie verhindert, dass
die Privatperson die digitalen Daten auf einem Gerät, zum Beispiel
einem DVD- oder DAT-Gerät, das
mit dem PC-HDT-Decoder ausgestattet ist, aufzeichnet. Ganz speziell
lässt sich
der erfindungsgemäße PC-HDT-Decoder
dazu verwenden, versteckte Hilfsdaten in den Audioabschnitt des
Transportdatenstroms zu enkodieren. Darüber hinaus können die versteckten
Hilfsdaten vor der Rundfunkverbreitung oder an einem Zwischenpunkt
eingebettet werden, ohne sonstige im Datenstrom transportierte Daten
zu stören.
Beispielsweise kann ein Betreiber einer Kabelkopfstation digitale
Programme per Satellit empfangen und in das empfangene Signal vor
dessen Weiterverteilung per Kabelnetz die versteckten Hilfsdaten
einbetten.
-
Wenn
das kombinierte digitale Audio- und Hilfsdatensignal von einer Privatperson
mit den begleitenden Video- oder sonstigen Daten zusammen empfangen
wird, werden die Daten von einer Set-Top-Box, die mit einem TV-
und HiFi-Stereo-System des Nutzers verschaltet ist, dekodiert und
entschlüsselt.
In der Regel werden derartige Set-Top-Boxen vom Kabelfernseh- bzw. DBS-Dienstanbieter
im Rahmen einer Servicevereinbarung bereitgestellt. Die Set-Top-Box
dekomprimiert und dekodiert das Audiosignal und das gegebenenfalls
zugehörige
Videosignal und stellt es dem Nutzer zum Hör- bzw. Sehvergnügen bereit.
Da das Hilfsdatensignal im Verhältnis
zum normalen Audiosignal unhörbar
ist, wird der Nutzer das Hilfsdatensignal nicht entdecken.
-
Das
Hilfsdatensignal bleibt dennoch im Audiosignal eingebettet. Das
Hilfsdatensignal kann mithilfe geeigneter Schaltkreistechnik zum
Beispiel verwendet werden, den Nutzer daran zu hindern, das Signal
mit einem Aufzeichnungsgerät,
das mit dem erfindungsgemäßen PC-HDT-Decoder
ausgerüstet
ist, zu kopieren. Als Alternative bleibt das Hilfsdatensignal, selbst
wenn es mit einem herkömmlichen
Aufzeichnungsgerät
wie einem Magnetbandrekorder aufgezeichnet wird, eingebettet und
dient daher als Identifizierungszeichen, das man verwenden kann, um
die Authentizität
jeder darauf folgenden Kopie zu verifizieren. Dies ist hilfreich,
um „Piraten", die Programminhalte
ohne Genehmigung vervielfältigen
und vertreiben, zu bekämpfen.
-
Des
Weiteren kann das Hilfsdatensignal in einem Punkt-zu-Punkt-Verteilsystem,
bei dem Audiodaten getrennt an Privatpersonen übertragen werden, eine eindeutige
Identifizierungsnummer, zum Beispiel eine Bestellnummer oder Kundennummer, darstellen.
Diese Information kann die Identifizierung eines einzelnen Piraten
anhand einer späteren
illegalen Kopie des Audiosignals ermöglichen.
-
4 ist
ein Blockschaltbild eines Encoders 310 für das System
zum Transport von versteckten Daten nach Komprimierung (PC-HDT)
gemäß der vorliegenden
Erfindung. Der PC-HDT-Encoder bettet unhörbare Hilfsdaten in ein Teilband-kodiertes
komprimiertes digitales Audiosignal, ohne dass das Signal vollständig dekomprimiert
werden muss. Ein bereits vorhandener digitaler Datenstrom einschließlich komprimierter
digitaler Audiodaten wird vom Encoder an Klemme 400 empfangen
und über
Leitung 403 einer Demultiplexer- und Entpackfunktion (z. B. Depaketierfunktion) 405 zur
Verfügung
gestellt.
-
Die
Demultiplexer- und Entpackfunktion 405 demultiplexiert
Frames bzw. Pakete der digitalen Audiodaten aus dem übrigen Signal.
Die verschiedenen Abschnitte des Audio-Frames werden gleichfalls entpackt.
Zum Beispiel werden in Bezug auf 2 und 4 die
Bitzuweisungsdaten 220 aus dem Frame 250 entpackt
und über
Leitung 402 einem Invers-Quantisierer 404 zur
Verfügung
gestellt.
-
Gewöhnlich werden
die Teilbandsamples – wenn
die Audio-Teilbandsamples vor Eintreten in den Bitstrom normalisiert
werden – als
Dezimalzahl mit einem Mantissen- und einem Exponentenabschnitt enkodiert,
wobei die Mantisse die Audio-Teilbandsamples darstellt und der Exponent
die Skalierungsfaktoren (z. B. spektrale Hüllkurveninformationen) für jedes
Teilband darstellt. In diesem Fall muss an den Invers-Quantisierer 404 lediglich
die Mantisse der Teilbandsamples über Leitung 402 bereitgestellt
werden.
-
Der
Invers-Quantisierer 404 führt je nach Format des paketierten
Datenstroms verschiedene Funktionen aus. In der Regel umfassen die
Teilbandsamples zum Beispiel Binärdaten,
die als Vorzeichen und Betrag oder als Zweierkomplement dargestellt
sein können.
Die Teilbandsamples werden in die Zweierkomplement-Darstellung umgewandelt, sofern
sie nicht bereits in dieser Form zur Verfügung gestellt werden.
-
Des
Weiteren werden im besprochenen Beispiel Datensamples aus zweiunddreißig Teilbändern heraus
bereitgestellt. Die mit dem Buchstaben „N" bezeichneten Leitungen 402 und 406 stellen
dem entsprechend N = 32 gesonderte Übertragungsleitungen dar.
-
Die
zweiunddreißig
Audiodatensample-Teilbänder
werden nach inverser Quantisierung an die Leitungen 406,
die zugleich als einzelne Leitungen SM0,
SM1, SM2 ..., SMN–1 abgebildet
sind, übertragen. Die
Bezeichnung „SM" zeigt an, dass dabei
de Mantisse der Teilbandsamples bereitgestellt wird. Optional wird
ein Normalisator 408 für
den Fall zur Verfügung
gestellt, dass die Teilbandsamples nicht bereits normalisiert sind.
Der Normalisator 408 berechnet die durchschnittliche Energie
einer kleinen Zahl von Samples und teilt jedes einzelne Sample durch
die Quadratwurzel der Durchschnittsenergie, um ein über alle
Teilbänder
hinweg uniformes Energiespektrum bereitzustellen.
-
Normalisierte
Audio-Teilbandsamples werden auf den mit SS0,
SS1, SS2 ..., SSN–1 bezeichneten Leitungen
bereitgestellt. Danach werden die normalisierten Audio-Teilbandsamples an
Combinern 446, 444, 442 bzw. 440 mit
Hilfsdaten-Teilbandsamples SPD0, SPD1, SPD2 ..., SPDN–1 kombiniert.
Die Combiner können
zum Beispiel XOR-Tore umfassen. Ganz speziell wird SS0 am
Combiner 446 mit SPD0 kombiniert,
SS1 wird am Combiner 444 mit SPD,
kombiniert, SS2 wird am Combiner 442 mit
SPD2 kombiniert, und SSN–1 wird
am Combiner 440 mit SPDN–1 kombiniert.
Die übrigen
Audio-Teilbandsamples und Hilfsdaten-Teilbandsamples (nicht gesondert
gezeigt) werden in einer ähnlichen
Weise kombiniert.
-
Die
Hilfsdaten-Teilbandsamples SPD0, SPD1, SPD2 ..., SPDN–1 können Spread-Spectrum-Signale
sein, die aus einer Teilband-gefilterten Pseudorauschen-(PN-)Sequenz
und aus einer Hilfsdatenwellenform heraus generiert werden. Insbesondere wird
einer Teilbandfilterbank 410 über Leitung 412 eine
PN-Sequenz zur Verfügung
gestellt. Die Teilbandfilterbank entspricht derjenigen Teilbandfilterbank,
die zum Filtern des digitalen Audio verwendet wird (z. B. Filterbank 120,
gezeigt in 1). Das Hilfsdatensignal wird über Leitung 414 einem
herkömmlichen
Forward-Error-Correction-(FEC-)Encoder 416 zur Verfügung gestellt,
der – auch
wenn nicht erforderlich – im
Hilfsdatenstrom redundante Datenbits zur späteren Fehlerkorrektur bereitstellt.
-
Man
beachte, dass die Datenrate der Hilfsdaten-Teilbandsamples bedeutend
niedriger als diejenige der Audio-Teilbandsamples ist. Bei einem
Verarbeitungsgewinn GP bzw. einer Spread-Rate
von 2048, einer PN-Sequenz-Taktrate (Chipfrequenz) von 44,1 kHz und
unter Annahme einer Encoder-Fehlerkorrekturrate R = 1/2 zum Beispiel
beträgt die
Hilfsdatenbitrate, die sich unterbringen lässt, 44100/2048/2 ≈ 10 Bits pro
Sekunde (bps).
-
Das
FEC-enkodierte Hilfsdatensignal wird über Leitungen 418 und 422 mehreren
Modulatoren 430, 432, 434 und 436 zur
Verfügung
gestellt, die die Datentransport-Teilbandsamples
SP0, SP1, SP2 ..., SPN–1 modulieren,
um die jeweiligen Hilfsdaten-Teilbandsamples
SPD0, SPD1, SPD2 ..., SPDN–1 bereitzustellen.
Die Sequenzen SPD0, SPD1,
SPD2 ..., SPDN–1 transportieren
die Hilfsdaten-Teilbandsamples.
-
Optional
wird dem Modulator 420 über
Leitung 419 ein Leistungsreglersignal zur Verfügung gestellt,
um die Stärke
des auf Leitung 418 übertragenen
Hilfsdatensignals einzuregeln. Das Leistungsreglersignal stellt
sicher, dass die Energie des Hilfsdatensignals schwächer als
die untere Schwelle des Quantisierungsrauschens der Audio-Teilbandsamples ist,
und kann möglichen
Nichtlinearitäten
im anschließenden
Quantisierer 454 nahe Null Rechnung tragen, so dass das
Hilfssignal adäquat
quantisiert wird. Die Leistungsregelung kann zum Beispiel einen Signal-Quantisierungsrauschenergie-Abstand
(SNR) von 33 bzw. ein Leistungsverhältnis von 1000 (z. B. 30 dB)
aufrechterhalten.
-
Die
modulierten Hilfsdaten-Spread-Spectrum-Signale SPD0,
SPD1, SPD2 ...,
SPDN–1 und
die Audio-Teilbandsamples SS0, SS1, SS2 ..., SSN–1 verbinden
sich, um jeweils kombinierte Samples SS'0, SS'1,
SS'2 ...,
SS'N–1 herzustellen,
in denen die Hilfsdaten-Teilbandsamples im Wesentlichen unhörbar transportiert
werden. Im Allgemeinen wird ein zunehmender Betrag von Verzerrung
vorliegen, wenn man die Datenrate des Hilfssignals erhöht.
-
Die
kombinierten Samples werden einem optionalen Denormalisator 450 zur
Verfügung
gestellt, der zu den Operationen des Normalisators 408 inverse
Operationen durchführt,
um das Energiespektrum der Audio-Teilbandsamples in den kombinierten Samples
wiederherzustellen. Darüber
hinaus kann der Denormalisator 450 vom Normalisator erhaltene und
zeitweilig in einem Speicher (nicht gezeigt) abgelegte Nomralisierungsdaten
(Skalierungsfaktoren) abrufen.
-
Man
beachte, dass der vorliegenden Erfindung gemäß der Normalisator 450 die
Hilfsdaten-Teilbandsamples in den kombinierten Samples SS'0,
SS'1,
SS'2 ...,
SS'N–1 dem
Energiespektrum der Audiodaten entsprechend spektral formt. Diese
spektrale Formung verbessert vorteilhaft die Tarnung der Hilfsdaten.
-
Für den Fall,
dass die Audio-Teilbandsamples bei Eingang an Klemme 400 bereits
normalisiert sind, werden die Hilfsdaten dem Energiespektrum der
Audiodaten entsprechend spektral geformt, wenn das komprimierte
Signal dekomprimiert und auf Basisband demoduliert wird. In beiden
Fällen
werden jedenfalls normalisierte kombinierte Teilbandsamples SM'0,
SM'1,
SM'2 ...,
SM'N–1 über Leitungen 452 dem Quantisierer 454 zur
Verfügung
gestellt. Der Quantisierer 454 quantisiert die kombinierten
Samples unter Verwendung der über
Leitungen 407 und 459 bereitgestellten Bitzuweisungsdaten,
um an Leitung 456 quantisierte Daten zur Verfügung zu
stellen. Die quantisierten Daten, die auf Leitung 407 bereitgestellten
entpackten Kompressionsparameter und die Steuerdaten von Leitung 458 werden
in ein neues Frame gepackt. Alternativ kann selbstverständlich auch
dasselbe Frame mit den quantisierten Daten bereitgestellt werden,
statt ein neues Frame zu schaffen. Die Steuerdaten beinhalten zum
Beispiel Synchronisierungsdaten und Zyklische-Redundanzprüfung-(CRC-)Bits. Das neue Frame
wird über
Leitung 462 zur Übertragung
an einen Decoder bereitgestellt. Der offenbarte PC-HDT-Encoder ist
somit vollständig
kompatibel mit existierenden Paketformaten und -protokollen.
-
Andererseits
können
verschiedene Hilfsdatensignale darstellende Teilbandsamples in verschiedenen
Teilbändern
transportiert werden. Die Datensamples in den verschiedenen Teilbändern können unter
Verwendung ein und derselben PN-Sequenz, einer zeitversetzten Version
dieser PN-Sequenz, verschiedener PN-Sequenzen oder einer Kombination
selbiger generiert werden. Außerdem können Samples
aus mehr als einem Hilfsdatensignal in einem beliebigen Teilband
transportiert werden. Diese als „Layering" bekannte Methode lässt sich durch den Transport
von Hilfsdaten-Teilbandsamples, die unter Verwendung ein und derselben
PN-Sequenz, einer zeitversetzten Version dieser PN-Sequenz, verschiedener
PN-Sequenzen oder
einer Kombination selbiger generiert wurden, realisieren.
-
Zudem
ist es nicht erforderlich, dass alle Teilbänder Hilfsdaten-Teilbandsamples
transportieren. Beispielsweise kann es wünschenswert sein, ausgewählte Sequenzen
der Teilband-gefilterten PN-Sequenzen SP0,
SP1, SP2 ..., SPN–1 unmittelbar
mit den entsprechenden Samples der Audio-Teilbandsamples SS0, SS1, SS2 ..., SSN–1 zu
kombinieren, um kombinierte Samples SS'0, SS'1,
SS'2 ...,
SS'N–1 herzustellen.
Auf diese Weise umgehen die ausgewählten Teilband-gefilterten
PN-Sequenzen die Modulation durch das Hilfsdatensignal. Dies kann
zum Beispiel bei der Bereitstellung eines Referenzsignals oder sonstiger
Informationen an einen Decoder von Vorteil sein.
-
Da
die PN-Periode endlich ist und die Kennlinien der Teilbandfilterbank 410 bekannt
sind, können
die Teilband-gefilterten PN-Sequenzen SP0,
SP1, SP2 ..., SPN–1 darüber hinaus
vorberechnet und in einer Referenztabelle hinterlegt werden. Und
wenn der PC-HDT-Encoder
wiederholt bekannte Daten hinzufügt,
können
ebenso die Hilfsdaten-Teilbandsamples SPD0, SPD1, SPD2 ..., SPDN–1 im
Voraus berechnet und hinterlegt werden. Auf diese Weise lässt sich
die Implementierung des erfindungsgemäßen PC-HDT-Encoders vereinfachen
und der Rechenaufwand reduzieren.
-
5 ist
ein Blockschaltbild einer alternativen Ausführungsform des Encoders für das System zum
Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden
Erfindung. Sofern nicht anders angegeben, entsprechen die Elemente von 5 den
mit gleichen Zahlen nummerierten Elementen von 4.
In der vorliegenden Ausführungsform
haben die über
Leitungen 406 bereitgestellten Audio-Teilbandsamples SS0, SS1, SS2 ..., SSN–1 nichtuniforme
Energiespektren. Dementsprechend werden die Audio-Teilbandsamples,
um die Hilfsdaten-Teilbandsamples SPD0,
SPD1, SPD2 ..., SPDN–1 auf
das Spektrum der Audio-Teilbandsamples zu formen, über Leitungen 409, 411, 413 bzw. 415 Teilband-Leistungsreglern
(SPC) 425, 427, 429 bzw. 431 zur
Verfügung
gestellt.
-
Die
SPC bestimmen Leistungsmodulationssignale (P) auf Grundlage des
gewünschten
Rauschabstands (SNR) zwischen den Hilfsdaten-Teilbandsamples und
den Audiodaten-Teilbandsamples in jedem Teilband sowie der Quadratwurzel
des Durchschnitts der Quadrate der Energie (Ei)
jedes der M Audio-Teilbandsamples. Für jedes Teilband ist demzufolge
-
-
Die
Leistungsmodulationssignale werden Modulatoren 433, 435, 437 und 439 über Leitungen 417, 419, 421 bzw. 423 zur
Verfügung
gestellt. An den Modulatoren 433, 435, 437 und 439 wird
die Energie der Hilfsdaten-Teilbandsamples SPD0,
SPD1, SPD2 ...,
SPDN–1 eingeregelt,
so dass Leistungs-angepasste Hilfsdaten-Teilbandsamples SPP0, SPP1, SPP2 ..., SPPN–1 das
Ergebnis sind. Die Leistungs-angepassten Hilfsdaten-Teilbandsamples,
die den Audio-Teilbandsamples entsprechend spektral geformt sind,
werden danach an Combinern (z. B. XOR-Toren) 446, 444, 442 bzw. 440 mit
den Audio-Teilbandsamples SS0, SS1, SS2 ..., SSN–1,
kombiniert, um die kombinierten Samples SS'0, SS'1,
SS'2 ...,
SS'N–1 bereitzustellen.
Die quantisierten Daten, die auf Leitung 407 bereitgestellten
entpackten Kompressionsparameter und die Steuerdaten von Leitung 458 werden
in ein neues Frame gepackt und über
Leitung 462 zur Übertragung
an einen Decoder zur Verfügung
gestellt.
-
Tatsächlich kann
die Ausführungsform
von 5 den Rechenaufwand beträchtlich reduzieren, wenn die
Audio-Teilbandsamples nicht normalisiert werden. Dies wird ersichtlich,
wenn man bedenkt, dass Normalisierung und Denormalisierung der Audio-Teilbandsamples
insgesamt 2N Rechenoperationen erfordert, während die Leistungsanpassung über die
Teilbandleistungsregelung nur N Rechenoperationen benötigt (wobei
N = Zahl der Teilbänder).
Der Rechenaufwand wird somit um 50% reduziert, wenn man die SPC
von 5 einsetzt.
-
6 ist
ein Blockschaltbild eines Decoders für das System zum Transport
von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung.
Der komprimierte digitale paketierte Strom wird an Eingangsklemme 600 des
Decoders 368 empfangen und über Leitung 602 einer
Entpack- und Demultiplexierfunktion 604 zur Verfügung gestellt.
Ein Invers-Quantisierer 610 empfängt die Teilbandsamples über Leitungen 608 und
die Bitzuweisungsdaten über Leitung 606.
Invers quantisierte Audio- Teilbandsamples
SM0, SM1, SM2 ..., SMN–1,
werden über Leitungen 612 zur
Verfügung
gestellt. Falls die Audio-Teilbandsamples SM0,
SM1, SM2 ..., SMN–1,
nicht bereits normalisiert sind, wird ein Normalisator 614 zur
Verfügung
gestellt, um die Audio-Teilbandsamples zu normalisieren, damit ein
annähernd
uniformes Energiespektrum über
alle Teilbänder
hinweg bereitgestellt wird.
-
Falls
die Audio-Teilbandsamples in den kombinierten Teilbandsamples SM0, SM1, SM2 ..., SMN–1, bereits
normalisiert sind, ist der Normalisator 614 nicht erforderlich.
Kombinierte Audio-Teilbandsamples einschließlich der normalisierten Audio-Teilbandsamples
SS0, SS1, SS2 ..., SSN–1,
werden mit Sequenzen SP0, SP1,
SP2 ..., SPN–1 an
Demodulatoren 620, 622, 624 bzw. 626 kombiniert.
-
Die
Sequenzen SP0, SP1,
SP2 ..., SPN–1 in
der vorliegenden Ausführungsform
sind Spread-Spectrum-Trägersignale,
die aus einer Teilband-gefilterten Pseudorauschen-(PN-)Sequenz, die der
am PC-HDT-Encoder verwendeten PN-Sequenz entspricht, generiert werden.
Die PN-Sequenz wird über Leitung 630 einer
Teilbandfilterbank 640, die der Teilbandfilterbank des
Encoders entspricht, zur Verfügung
gestellt. Die gefilterten PN-Sequenzen
werden auf jeder der Leitungen SP0, SP1, SP2 ..., SPN–1 den Demodulatoren 620, 622, 624 bzw. 626 zur
Verfügung
gestellt. Wie schon beim PC-HDT-Encoder können die Sequenzen SP0, SP1, SP2 ..., SPN–1 des PC-HDT-Decoders
im Voraus berechnet und in einer Referenztabelle hinterlegt werden.
-
Das
Produkt aus den gefilterten PN-Sequenzen und den kombinierten Teilbandsamples
wird über Leitungen
SSP0, SSP1, SSP2 ..., SSPN–1 an
Integratoren 650, 652, 654 bzw. 656 geleitet.
Durch Integrieren der Daten in jedem der Teilbänder über L aufeinander folgende
Samples wird das Hilfssignal in jedem Teilband entspreizt. Die Zahl
der Samples L für
die Integration sollte so gewählt
werden, dass L × N
(d. h. Verarbeitungsgewinn) größer als
der SNR zwischen PN-Sequenz und Audio-Teilbandsamples vor Entspreizen der
Signale SSP0, SSP1,
SSP2 ..., SSPN–1 ist.
-
Die
entspreizten Hilfsdatensamples werden über Leitungen SC0,
SC1, SC2 ..., SCN–1 einem
Summierer 660 zur Verfügung
gestellt, und über
die N Teilbänder
verteilt aufsummiert, um die enkodierten Hilfsdatensamples an Leitung 662 rückzuerlangen. Zudem
kann der SNR zwischen PN-Sequenz und Audio-Teilbandsamples nach
Entspreizen durch Erhöhen
der Zahl der Teilbänder
vergrößert werden,
da der SNR zur Quadratwurzel von N proportional ist. Ein FEC-Decoder 670 dekodiert
die Hilfsdatensamples von Leitung 662 und korrigiert Kanalfehler,
womit er dekodierte Hilfsdaten an Leitung 672 zur Verfügung stellt.
-
Die
dekodierten Hilfsdaten können
danach in verschiedensten Anwendungen Gebrauch finden. Beispielsweise
können
die Hilfsdaten einem Kopiermanagementgerät zur Verfügung gestellt werden, um die
Vervielfältigung
der Audio- und zugehörigen
Datensignale zu steuern.
-
Der
zuvor erwähnte
Rückerlangungs-
und Entspreizprozess wird leicht abgewandelt, wenn Hilfsdaten-Teilbandsamples
aus verschiedenen Hilfssignalen in den verschiedenen Teilbändern transportiert
werden bzw. wenn Hilfsdaten-Teilbandsamples aus mehr als einem Hilfssignal
in genau einem Teilband transportiert werden. Auch sind Situationen
sowohl teilweiser als auch vollständiger Überlappung möglich, ebenso
wie verschiedene Kombinationen der genannten Fälle. Im Allgemeinen stellt
der PC-HDT-Decoder jedoch Operationen bereit, die zu denen des PC-HDT-Encoders
invers sind. Werden in den kombinierten Teilbandsamples zum Beispiel Hilfsdaten-Teilbandsamples
transportiert, die verschiedenen Hilfssignalen entsprechen, muss
die Integration abweichend von der Ausführungsform in 6 so
modifiziert werden, dass nur Samples gemeinsamer Hilfsdaten miteinander
summiert werden. Gleichfalls müssen
die Teilband-gefilterten PN-Sequenzen
SP0, SP1, SP2 ..., SPN–1,
falls Hilfsdaten-Teilbandsamples unter Verwendung verschiedener PN-Sequenzen,
zeitversetzter Versionen ein und derselben PN-Sequenz oder einer
beliebigen Kombination selbiger enkodiert werden, unter Verwendung einer
entsprechenden PN-Sequenz generiert werden.
-
Alternativ
kann der FEC-Decoder 670 durch ein Schwellenwertgerät ersetzt
werden, das die Energie des Hilfssignals von Leitung 662 erkennt
und diese Energie mit einem geeigneten Schwellenwert vergleicht.
Der Decoder kann somit bestimmen, ob ein Hilfssignal anliegt, ohne
eine FEC-Decodierung vornehmen zu müssen. Um die Erkennungsgenauigkeit
noch zu erhöhen,
kann der Decoder zudem vor Meldung einer Erkennung eine Folge von
Hilfsdatenwerten untersuchen. Die Erkennung lässt sich noch weiter verbessern,
wenn der Encoder ein eindeutiges Muster für die Hilfsdaten verwendet.
-
Zusätzlich lässt sich
die Erfassung des komprimierten digitalen Audiobitstroms und die
Synchronisation mit den Teilband-gefilterten PN-Sequenzen SP0, SP1, SP2 ..., SPN–1 verbessern
und vereinfachen, wenn der zum Generieren der PN-Sequenz genutzte PN-Generator nach einem
vorher festgelegten Muster mit dem Audiobitstrom „verriegelt" ist. Das heißt, da alle
zeitgemäßen Audiokomprimierer
eine Frame-Struktur verwenden, bei der jedes Bit-Frame eine feststehende
Zahl von Audiosamples darstellt, gibt es in einem gegebenen Zeitraum
eine feststehende Zahl von Frames. Wählt man somit für die gefilterten PN-Sequenzen eine Wiederholfrequenz,
die ein ganzzahliges Vielfaches der Audiodaten-Frame-Periode ist, reduziert
sich die Zahl der zum Demodulieren des Hilfssignals erforderlichen
PN-Sequenz-Hypothesen.
Hat die PN-Sequenz-Periode zum Beispiel eine Dauer von 4096 Samples
und hat die Frame-Periode eine Dauer von 256 Samples, dann müssen nur 4096/256
= 16 Hypothesen für
jedes Teilband überprüft werden.
-
In
noch einer weiteren Ausführungsform
des PC-HDT-Decoders von 6, der sich in Verbindung mit
dem PC-HDT-Encoder von 5 nutzen lässt, wenn die rückerlangten
Hilfsdaten-Teilbandsamples ein nichtuniformes Energiespektrum aufweisen,
kann es wünschenswert
sein, das Energiespektrum über alle
Teilbänder
hinweg, in denen Hilfsdaten-Teilbandsamples
transportiert werden, vor der Integration zu normalisieren. Dies
lässt sieh
erreichen, indem man de Energie der Teilband-gefilterten PN-Sequenzen
SP0, SP1, SP2 ..., SPN–1 unter
Verwendung ähnlichen
Regler wie der SPC 425, 427, 429 und 431 von 5 anpasst.
-
7 ist
ein Blockschaltbild einer weiteren alternativen Ausführungsform
eines Encoders für
das System zum Transport von versteckten Daten nach Komprimierung
gemäß der vorliegenden
Erfindung. Sofern nicht anders angegeben, entsprechen die Elemente
von 7 den mit gleichen Zahlen nummerierten Elementen
von 4. In der vorliegenden Ausführungsform haben die über Leitungen 406 bereitgestellten
Audio-Teilbandsamples SS0, SS1,
SS2 ..., SSN–1 uniforme
Energiespektren. Statt jedoch Teilband-gefilterte Spread-Spectrum-PN-Sequenzen
bereitzustellen, die aus einer pseudozufällig variierenden Folge von
Werten mit der Große
+1 bzw. –1
generiert werden, werden die Sequenzen SP0,
SP1, SP2 ..., SPN–1 als „spärlich besetzte", d. h. Sparse-PN-Sequenzen
bereitgestellt.
-
Bei
einer Sparse-PN-Sequenz wird eine pseudozufällige Wertefolge generiert,
die zumeist Nullen enthält,
zwischen die jedoch Werte von zum Beispiel +1 und –1 zufällig gesetzt
sind. Die Sparse-PN-Sequenz wird an speziellen Orten, die dem PC-HDT-Encoder
und -Decoder bekannt sind, hinzugefügt. Eine Sparse-PN-Sequenz
führt zu
einer niedrigeren Datenrate, da der Verarbeitungsgewinn GP im Verhältnis
zum durchschnittlichen Auftreten von Nicht-Null-Samples reduziert
wird. Ist zum Beispiel einer von zehn Werten der Sparse-PN-Sequenz nicht Null,
wird der Verarbeitungsgewinn GP gegenüber einer
gewöhnlichen
PN-Sequenz um den Faktor Zehn herabgesetzt. Außerdem werden jedoch, was von Vorteil
ist, der Güteverlust
der Audio-Teilbandsamples und die Kompliziertheit der Implementierung
vermindert. Zudem kann dies trotz der sich ergebenden niedrigeren
Datenrate in bestimmten Situationen, wenn zum Beispiel einzig die
Anwesenheit oder Abwesenheit der Hilfsdaten selbst von Belang ist,
annehmbar sein.
-
Dieser
Ausführungsform
der vorliegenden Erfindung gemäß werden
Sparse-PN-Sequenz-Generatoren 715, 710, 705 und 700 zur
Verfügung
gestellt. Entsprechende Sparse-PN-Sequenzen SP0, SP1, SP2 ..., SPN–1 werden
an mehrere Modulatoren 430, 432, 434 bzw. 436 gekoppelt.
Die Modulatoren modulieren die Sparse-PN-Sequenzen SP0,
SP1, SP2 ..., SPN–1,
um die Hilfsdaten-Teilbandsamples SPD0, SPD1, SPD2 ..., SPDN–1 bereitzustellen.
Die Hilfsdaten-Teilbandsamples werden danach an Combinern 446, 444, 442 bzw. 440 mit
Audio-Teilbandsamples SS0, SS1,
SS2 ..., SSN–1 kombiniert,
um die kombinierten Samples SS'0, SS'1, SS'2 ..., SS'N–1 bereitzustellen.
Die kombinierten Samples werden dann quantisiert, gepackt und in
das neue Frame multiplexiert.
-
In
alternativen Ausführungsformen
können Sparse-PN-Generatoren 715, 710, 705 und 700 verschiedene
Sparse-PN-Sequenzen, ein und dieselbe Sparse-PN-Sequenz, zeitversetzte
Versionen ein und derselben PN-Sequenz oder eine Kombination selbiger
zur Verfügung
stellen. Gleichfalls können ausgewählte Modulatoren
der Modulatoren 430, 432, 434 und 436 so
umgangen werden, dass einige der Signale SPD0,
SPD1, SPD2 ...,
SPDN–1 keine
Hilfsdaten transportieren.
-
In
noch einer weiteren Ausführungsform
der vorliegenden Erfindung lassen sich sowohl Spread-Spectrum-PN-Sequenzen
als auch Sparse-PN-Sequenzen zum Transport der Hilfsdaten-Teilbandsamples
nutzen. Spread-Spectrum-PN-Sequenzen und Sparse-PN-Sequenzen können im
gleichen Zeitintervall ablaufend oder zeitlich abwechselnd in ein
und demselben bzw. in verschiedenen Teilbändern genutzt werden. Beispielsweise
kann eine erste Sequenz von Hilfsdaten-Teilbandsamples in einem
ersten Teilband durch eine Spread-Spectrum-PN-Sequenz transportiert werden,
während
eine zweite Sequenz von Hilfsdaten-Teilbandsamples in einem zweiten Teilband
durch eine Sparse-PN-Sequenz transportiert wird.
-
Analog
zu dem bereits besprochenen Layering-Verfahren könnten erste und zweite Hilfsdaten-Teilbandsamples
jedoch auch in ein und demselben Teilband durch eine Spread-Spectrum-PN-Sequenz
bzw. eine Sparse-PN-Sequenz transportiert werden. Des Weiteren wird
in einem Zeitmultiplexverfahren eine gegebene Sequenz von Hilfsdaten- Teilbandsamples
in einem gegebenen Teilband zuerst durch eine Spread-Spectrum-PN- Sequenz und danach
(im selben Teilband) durch eine Sparse-PN-Sequenz transportiert
und so weiter. Andererseits kann eine erste Sequenz von Hilfsdaten-Teilbandsamples durch
eine Spread-Spectrum-PN-Sequenz in einem ersten Teilband transportiert
werden, danach in einem zweiten Teilband (durch dieselbe Spread-Spectrum-PN-Sequenz)
und so weiter. Darüber
hinaus können
in den verschiedenen Zeitsegmenten ein und dieselbe Sequenz, zeitversetzte
Versionen ein und derselben Sequenz, unterschiedliche Sequenzen oder
eine Kombination selbiger verwendet werden.
-
Des
Weiteren kann der PC-HDT-Encoder auch noch Entscheidungsmöglichkeiten
zum Umschalten zwischen Spread-Spectrum- und Sparse-PN-Sequenzen
beinhalten. Zum Beispiel kann es wünschenswert sein, beim Einbetten
von Hilfsdaten in eine ruhige HiFi-Musikpassage, bei der Verzerrungen auf
ein Mindestmaß beschränkt werden
sollten, Sparse-PN-Sequenzen zu nutzen, während für reine Sprachprogramme wie
Nachrichtensendungen, bei denen absolute Wiedergabetreue weniger
wichtig ist, Spread-Spectrum-PN-Sequenzen
Verwendung finden können.
-
In
noch einer weiteren Ausführungsform
der vorliegenden Erfindung wird zusammen mit der oben besprochenen
Sparse-PN-Sequenz eine „Sample-Twiddling"-Sequenz generiert.
Speziell werden dabei Audio-Teilbandsamples aus dem Transportdatenstrom
pseudozufällig
ausgewählt.
Man nehme zum Beispiel an, vier Bits in der Zweierkomplement-Notation werden verwendet,
um ein Teilbandsample mit dem Wert „+5" (z. B. binär 0101) darzustellen. Dann wird
der Wert der aktuellen Sparse-PN-Sequenz, die unabhängig generiert
wurde, dem Teilbandsample hinzuaddiert, um eine neue Datenträgersequenz
zu schaffen.
-
Ist
der aktuelle Sparse-PN-Sequenz-Wert zum Beispiel „–1", wird das modifizierte
Teilbandsample 5 – 1
= 4 (binär
0100) sein. Ist der aktuelle Sparse-PN-Sequenz-Wert „+1", wird das modifizierte
Teilbandsample 5 + 1 = 6 (binär
0110) sein. Ist der aktuelle Sparse-PN-Sequenz-Wert hingegen „0", wird das modifizierte
Teilbandsample unverändert sein.
Wenn vier Bits zugewiesen sind, ist das Teilbandsample zudem darauf
beschränkt,
Werte zwischen „+7" und „–8" anzunehmen (z. B.
binär zwischen
0111 und 1000). Somit wird sich, wenn das aktuelle Teilbandsample
einen Wert „+7" hat und die aktuelle
Sparse-PN-Sequenz einen Wert „+1" hat, das Teilbandsample
nicht ändern.
In der bereits zuvor besprochenen Art und Weise wird eine Sample-Twiddling-Sequenz
generiert und zum Transport der Hilfsdaten-Teilbandsamples verwendet. Zudem werden durch
Sample-Twiddling die benötigten
Invers-Quantisierungsschritte
beträchtlich
reduziert, da es nicht erforderlich ist, Skalierungsfaktoren oder
eine Invers-Quantisierungsgleichung auf die Teilbandsamples anzuwenden.
Das einzige Erfordernis ist, dass die Teilbandsamples in einer Zweierkomplement-Darstellung
vorliegen.
-
In
noch einer weiteren Ausführungsform
der vorliegenden Erfindung wird zusammen mit der oben besprochenen
Sparse-PN-Sequenz eine „Bit-Twiddling"-Sequenz generiert.
Ein Audio-Teilbandsample wird aus dem Transportdatenstrom pseudozufällig ausgewählt. Man
nehme zum Beispiel wieder an, vier Bits in der Zweierkomplement-Notation
werden verwendet, um ein Teilbandsample mit dem Wert „+5" (z. B. binär 0101)
darzustellen. Dann wird der aktuelle Zustand der Sparse-PN-Sequenz
dem am wenigsten signifikanten Bit (LSB) der binären Darstellung des Teilbandsamples
hinzuaddiert.
-
Das
am wenigsten signifikante Bit des Teilbandsamples „0101" sei zum Beispiel „1". Ist der aktuelle
Sparse-PN-Sequenz-Wert „–1", wird das LSB des
modifizierten Teilbandsamples auf 1 – 1 = 0 gekippt bzw. geflippt.
Ist der aktuelle Sparse-PN-Sequenz Wert „+1", wird das modifizierte Teilbandsample
unverändert
sein, da das LSB nur einen Wert Null oder Eins annehmen kann. Ist
im Weiteren das LSB des ausgewählten
Audio-Teilbandsamples „0" und hat die entsprechende
Sparse-PN-Sequenz den Wert „1", dann wird das LSB
des Samples auf „1" geflippt. Falls
LSB = 1 ist und die entsprechende Sparse-PN-Sequenz den Wert „–1" hat, dann wird das LSB auf „0" geflippt. In weiteren
Fällen,
einschließlich dem,
dass die Sparse-PN-Sequenz den Wert „0" hat, bleibt das LSB des Teilbandsamples
unverändert. Die
resultierende Bit-Twiddling-Sequenz wird durch die Hilfsdaten-Teilbandsamples
in der zuvor besprochenen Art und Weise moduliert. Zudem können durch
Bit-Twiddling die benötigten
Invers-Quantisierungsschritte eliminiert werden, da es nicht erforderlich
ist, die Teilbandsamples in einem Zweierkomplement-Format bereitzustellen
oder Skalierungsfaktoren bzw. eine Invers-Quantisierungsgleichung
auf die Teilbandsamples anzuwenden. Dadurch wird die Kompliziertheit
der Implementierung vorteilhaft reduziert.
-
Des
Weiteren lassen sich Sample-Twiddling und Bit-Twiddling in Verbindung
mit der Spread-Spectrum-PN-Sequenz und Sparse-PN-Sequenz in den
bereits besprochenen Varianten und Kombinationen anwenden.
-
8 ist
ein Blockschaltbild einer alternativen Ausführungsform eines Decoders für das System
zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden
Erfindung. Dieser Decoder kann in Verbindung mit dem Encoder von 7 genutzt
werden. Sofern nicht anders angegeben, entsprechen die Elemente
von 8 den mit gleichen Zahlen nummerierten Elementen
von 6. In der vorliegenden Ausführungsform beinhalten die auf
Leitungen 412 bereitgestellten kombinierten Samples SS0, SS1, SS2 ..., SSN–1 Hilfsdaten-Teilbandsamples,
die mit Hilfe von Sparse-PN-Sequenzen transportiert wurden. Dem
entsprechend müssen durch
den Decoder dieselben Sparse-PN-Sequenzen
genutzt werden, die durch den Encoder genutzt wurden. Ebenso selbstverständlich werden,
falls zum Transport der Hilfsdaten-Teilbandsamples Sample-Twiddling- oder Bit-Twiddling-Sequenzen
genutzt wurden, diesen entsprechende Demodulationssequenzen im Decoder
erforderlich.
-
Sparse-PN-Sequenz-Generatoren 815, 810, 805 bzw. 800 stellen
Sparse-PN-Sequenzen
SP0, SP1, SP2 ..., SPN–1 zur
Verfügung.
Die Sparse-PN-Sequenzen SP0, SP1,
SP2 ..., SPN–1 werden
zum Demodulieren der kombinierten Teilbandsamples SS0,
SS1, SS2 ..., SSN–1 an
Demodulatoren 620, 622, 624 bzw. 626 genutzt,
um die Hilfsdaten-Teilbandsamples SSP0,
SSP1, SSP2 ...,
SSPN–1 bereitzustellen.
Die Hilfsdaten-Teilbandsamples werden daraufhin durch Integratoren 650, 652, 654 bzw. 656 entspreizt,
am Summierer 660 aufsummiert und einem FEC-Decoder 670 wie
weiter oben besprochen zur Verfügung gestellt.
-
Es
sollte nunmehr anerkannt werden, dass die Erfindung im Wesentlichen
unhörbare
Hilfsdaten-Teilbandsamples in einem bereits vorhandenen, Teilband-kodierten
komprimierten digitalen Audiodatenstrom bereitstellt. Audio-Teilbandsamples
werden aus komprimierten, digitalisierten Audiodaten in einem paketierten
Strom entnommen und normalisiert, falls erforderlich, vor Kombinieren
mit Hilfsdaten-Teilbandsamples. Die Hilfsdaten-Teilbandsamples werden über Teilband-gefilterte
PN-Sequenzen, Sparse-PN-Sequenzen,
Sample-Twiddle-Sequenzen oder Bit-Twiddle-Sequenzen bzw. eine Kombination selbiger
zur Verfügung
gestellt. Außerdem
müssen nicht
sämtliche
Audio-Teilbänder die
Hilfsdaten transportieren.
-
Kombinierte
Teilbandsamples, die die Hilfsdaten-Teilbandsamples beinhalten,
werden denormalisiert, falls erforderlich, vor Rekombinieren mit dem
paketierten Strom als ein neues Frame oder als Teil eines vorhandenen
Frame. Die Hilfsdaten-Teilbandsamples werden dem Audio gemäß spektral
geformt, und zwar entweder während
dem Denormalisieren oder während
der Basisband-Wiederherstellung der digitalen Audiodaten.
-
Obgleich
die Erfindung in Verbindung mit verschiedenen speziellen Ausführungsformen
beschrieben wurde, wird der mit der Technik vertraute Fachmann erkennen,
dass noch zahlreiche weitere Adaptionen und Modifizierungen derselben
vorgenommen werden können,
ohne sich aus dem Erfassungsbereich der Erfindung, wie in den vorliegenden Ansprüchen ausgeführt, zu
entfernen.
-
1 STAND
DER TECHNIK
- 105
- ANALOGES
AUDIO
- 115
- DIGITALES
AUDIO
- 120
- TEILBANDFILTERBANK
- 130
- NORMALISIERUNG
- 140
- BITZUWEISUNG
UND QUANTISIERUNG
- 145
- QUANTISIERTE
TEILBANDSAMPLES
- 150
- BITSTROMFORMATIERUNG
UND ENCODER
- 160
- PSYCHOAKUSTISCHES
MODELL
- 170
- DIGITALES
AUDIO
-
2 STAND
DER TECHNIK
- 220
- BITZUWEISUNG
- 230
- SKALIERUNGSFAKTOREN
- 240
- TEILBANDSAMPLES
-
3a
- 305
- DIGITALES
AUDIO
- 310
- PC-HDT-ENCODER
- 315
- HILFSDATEN
- 325
- MULTIPLEXIEREN
- 330
- DIGITALES
VIDEO
- 345
- AUFZEICHNEN
- 355
- QUELLENDATENTRÄGER
-
3b
- 355
- QUELLENDATENTRÄGER
- 360
- LESEGERÄT
- 364
- DEMULTIPLEXIEREN
- 368
- PC-HDT-DECODER
- 380
- KOPIERMANAGEMENT
- 386
- AUFZEICHNEN
-
4
- 401
- BITZUWEISUNG
- 405
- ENTPACKEN
UND DEMULTIPLEXIEREN
- 407
- ENTPACKTE
KOMPRESSIONSPARAMETER
- 408
- NORMALISATOR
- 410
- TEILBANDFILTERBANK
- 414
- HILFSDATEN
- 416
- FEC-ENCODER
- 419
- LEISTUNGSREGLER
- 450
- DENORMALISATOR
- 458
- STEUERDATEN
- 459
- BITZUWEISUNG
- 460
- PACKEN
UND MULTIPLEXIEREN
- 462
- AUSGANGSSTROM
MIT PC-HDT
-
5
- 401
- BITZUWEISUNG
- 405
- ENTPACKEN
UND DEMULTIPLEXIEREN
- 407
- ENTPACKTE
KOMPRESSIONSPARAMETER
- 410
- TEILBANDFILTERBANK
- 414
- HILFSDATEN
- 416
- FEC-ENCODER
- 419
- LEISTUNGSREGLER
- 458
- STEUERDATEN
- 459
- BITZUWEISUNG
- 460
- PACKEN
UND MULTIPLEXIEREN
- 462
- AUSGANGSSTROM
MIT PC-HDT
-
6
- 604
- ENTPACKEN
UND DEMULTIPLEXIEREN
- 606
- BITZUWEISUNG
- 614
- NORMALISATOR
- 640
- TEILBANDFILTERBANK
- 670
- FEC-DECODER
- 672
- DEKODIERTE
HDT-DATEN
-
7
- 401
- BITZUWEISUNG
- 405
- ENTPACKEN
UND DEMULTIPLEXIEREN
- 407
- ENTPACKTE
KOMPRESSIONSPARAMETER
- 414
- HILFSDATEN
- 416
- FEC-ENCODER
- 419
- LEISTUNGSREGLER
- 458
- STEUERDATEN
- 459
- BITZUWEISUNG
- 460
- PACKEN
UND MULTIPLEXIEREN
- 462
- AUSGANGSSTROM
MIT PC-HDT
-
8
- 604
- ENTPACKEN
UND DEMULTIPLEXIEREN
- 606
- BITZUWEISUNG
- 614
- NORMALISATOR
- 670
- FEC-DECODER
- 672
- DEKODIERTE
HDT-DATEN