DE69632340T2

DE69632340T2 - Transport von versteckten daten nach komprimierung

Info

Publication number: DE69632340T2
Application number: DE69632340T
Authority: DE
Inventors: U. Chong LEE; Kamran Moallemi; Jurg Hinderling
Original assignee: VERANCE CORP SAN DIEGO; Verance Corp
Current assignee: VERANCE CORP SAN DIEGO; Verance Corp
Priority date: 1995-12-06
Filing date: 1996-12-05
Publication date: 2005-05-25
Anticipated expiration: 2016-12-06
Also published as: US5687191A; WO1997021293A1; EP0873614B1; EP0873614A4; DE69632340D1; AU1128797A; DE69637528D1; EP0873614A1

Description

HINTERGRUND DER ERFINDUNG
Diese Anmeldung beansprucht den Nutzen aus der Vorläufigen US-Patentanmeldung Nr. 60/008.288, eingereicht am 6. Dezember 1995. Die vorliegende Erfindung betrifft eine Methode und eine Vorrichtung zum Verstecken von Daten in einem Audiosignal und insbesondere ein Verfahren zur Bereitstellung eines unhörbaren Hilfsdatensignals in einem Teilband-kodierten komprimierten digitalen Audiodatenstrom, der über vorhandene Kommunikationskanäle übertragen wird. Das Verfahren ist gekennzeichnet als Transport von versteckten Daten nach Komprimierung (PC-HDT). Eine entsprechende Methode und eine Vorrichtung zur Rückerlangung der versteckten Daten aus dem Audiosignal heraus werden ebenfalls offenbart, zusätzlich zu einem digitalen Datenspeichermedium.
Das Bereitstellen von versteckten Daten in einem digitalen Audiosignal ist in einer Reihe von Situationen vorteilhaft. Zum Beispiel kann es wünschenswert sein, die Möglichkeit zu schaffen, Daten zusätzlich zu den Audiodaten zu transportieren. Diese zusätzlichen Daten könnten beispielsweise ein Kopiermanagementverfahren bereitstellen, das verhindert, dass das Audiosignal ohne gültige Genehmigung kopiert wird, oder sie könnten auf andere Weise die Verwendung des Audioprogramms bzw. weiterer (z. B. Video- oder Multimedia-)Informationen im Zusammenhang mit dem Audiosignal steuern. Informationen, die den Inhalt des Audiosignals identifizieren, zum Beispiel Name und/oder Interpret eines Audioprogramms, sowie Abrufinformationen für die Marktforschung bzw. kommerzielle Verifizierug könnten ebenfalls unter Verwendung eines derartigen Verfahrens versteckt werden. Das Verfahren sollte mit verschiedenen Speichermedien, darunter Digital Video Disc (DVD), Compact Disc (CD) einschließlich CD-ROM, Digital Audio Tape (DAT) und magnetische Speichermedien wie Videokassettenrekorderband und Audiokassettenband, kompatibel sein.
Des Weiteren sollte die Art der vom Audiosignal transportierten Informationen praktisch unbegrenzt sein. Zum Beispiel wäre es vorteilhaft, den Transport von Daten, die in keinerlei Beziehung zum Audiosignal siehen (z. B. das Übertragen von Aktienkursen oder „elektronischen Coupons" gemeinsam mit einem Musikstück), zu gestatten. Zudem sollte das zum Verstecken von Daten im Audiosignal verwendete Verfahren in der Lage sein, entweder einen modulierten Träger, einen unmodulierten (z. B. Pilot-)Träger oder eine Kombination beider zu verstecken.
Im Allgemeinen wird die Kapazität eines Übertragungskanals zum Transportieren zusätzlicher Informationen durch die Bandbreite des Kanals begrenzt. Da die Bandbreite von Kommunikationskanälen durch die Eigenschaften des elektromagnetischen Spektrums eingeschränkt ist sowie – im Falle von drahtlosen Kanälen – per Gesetz geregelt sein kann, hat es sich erforderlich gemacht, Techniken zu entwickeln, um die Menge der in einem Kanal mit gegebener Bandbreite transportierbaren Informationen zu erhöhen. Beispielsweise sind Techniken zum Komprimieren digitaler Daten, um in eine gegebene Bandbreite oder einen gegebenen Speicherplatz mehr Daten quetschen zu können, gut bekannt.
Komprimieren bezieht sich auf die Reduzierung der Zahl von Datenbits, die benötigt werden, um ein Quellensignal so zu enkodieren, dass das Quellensignal durch einen Decoder mit akzeptabler Wiedergabetreue wiederhergestellt werden kann. Zum Beispiel ist bei Audioanwendungen bekannt, dass das menschliche Gehör für Amplitudenschwankungen in den höherfrequenten Bestandteilen eines Audiosignals relativ weniger empfindlich ist. Demgemäß können Audiodaten mit Hilfe von Frequenzwandlungstechnologien, die den Hochfrequenzbestandteilen weniger Bits zuweisen, enkodiert werden. Auf diese Weise wird die Gesamtzahl der zu übertragenden Datenbits reduziert, und der Zuhörer empfängt dennoch einen zufrieden stellenden Klang.
Aufgrund der Methode der Klangdarstellung in Audiosystemen ist dem herkömmlichen Audiosignal zudem eine Redundanz inhärent. Der Augenblickswert des Schalldrucks wird durch einen Amplitudenwert bzw. eine Spannung ein ein Audiosignal aufgezeichnet, was eine Nichtübereinstimmung zwischen der tatsächlichen Darstellung und der menschlichen Hörwahrnehmung mit sich bringt. Das heißt, obwohl das menschliche Gehör in vielerlei Hinsicht gewissermaßen nichtlinear ist, verhält es sich wie eine Bandfilterbank bzw. wie ein Spektrum Analysator. Bei jeder Frequenz ist die Wahrnehmung annähernd logarithmisch in der Weise, dass die Menge von Rauschen, die toleriert werden kann, proportional zum Signal ist.
Anders gesagt, sobald der Signal-Rauschabstand (SNR) eine bestimmte Schwelle überschreitet, ist das Rauschen nicht mehr hörbar. Diese SNR-Schwelle liegt in der Regel unter 30 dB und bleibt für den größten Teil des hörbaren Frequenzbereichs gewahrt. Siehe z. B. „Signal Compression Based on Models of Human Perception", von M. Jayant, J. Johnston und R. Safranek, IEEE-Mitschriften, Oktober 1993, Vol. 81, Nr. 10. Ein relativ niedriges SNR-Erfordernis wie dieses kann es gestatten, dass ein Informationen tragendes Signal die vorhandene Audiosignalkette (z. B. von der Audiosignalquelle zu den den Klang reproduzierenden Wandlern) vom menschlichen Gehör unbemerkt passiert, sofern der SNR bei allen Frequenzen gewahrt bleibt.
Für die menschliche Hörwahrnehmung entwicklte psychoakustische Modelle gestatten demzufolge die Kompression von Audiodaten. Ganz allgemein, siehe Digital Signal Processing of Speech Signals, von L. R. Rabiner und R. W. Schafer (Prentice-Hall, Englewood Cliffs, N. J., 1978). Bekannt ist, dass Audiodaten in der Regel Sprache oder Musik mit Frequenzbestandteilen im Bereich von grob 0 bis 20 KHz beinhalten, wobei die Mehrzahl der Sprachsignale in den Bereich von 200 bis 3200 Hz fallen.
Ein weiterer Ansatz zum Übertragen zusätzlicher Daten innerhalb einer gegebenen Bandbreite besteht folglich darin, Bereiche zu identifizieren, in denen ergänzende Informationen zeitlich zusammenfallend mit einem primären Audiosignal unhörbar transportiert werden können. Bei einem der entsprechenden Verfahren bleibt die Bandbreite des Audiokanals unverändert und die zusätzliche Information wird so in die Audiodaten verpackt, dass sie zurück gewonnen werden kann, ohne die Qualität des primären Audiosignals signifikant herabzusetzen. Eine Methode zum Einbetten digitaler Informationen in eine Audiowellenform wird in der C. U. Lee et al. gemeinsam zugewiesenen US-Patentanmeldung Nr. 081524.132 mit dem Titel „Method and Apparatus for Transporting Auxiliary Data in Audio Signals", eingereicht am 6. September, bzw. in US-A-5 161 210, das sich insbesondere auf Teilband-Kodierung bezieht, offenbart.
Es wäre somit wünschenswert, ein mit den vorhandenen Audiodaten-Übertragungsverfahren kompatibles System zu haben, bei dem ein Analogsignal digitalisiert, komprimiert, in ein zuvor festgelegtes Rahmenformat gepackt und schließlich in einem Bitstrom übertragen wird. Das System sollte es demnach gestatten, versteckte Daten in das komprimierte digitale Audiosignal einzubetten, ohne ein vollständiges Dekomprimieren des Signals erforderlich zu machen. Außerdem sollte das System die spektrale Formung (Spectral Shaping) der versteckten Daten ermöglichen, um selbige noch besser im Signal zu verbergen. Ein derartiges System sollte zudem die Kompliziertheit und den Aufwand von Rechenvorgängen reduzieren und mit zeitgemäßen Teilband-basierten Kompressionsverfahren verträglich sein.
Im Speziellen ist die Teilbandkodierung eine Form der bei zeitgemäßen Audiodaten-Kompressionsverfahren üblichen spektralen Wellenformkodierung. Ganz allgemein lässt sich eine analoge Wellenform, die Audiodaten darstellt, unter Verwendung verschiedenster Anwendungstechniken, darunter zeitbezogene Wellenformkodierung, Modell-basierte Quellenkodierung und spektrale Wellenformkodierung, in eine digitale Form kodieren.
Bei der zeitbezogenen Wellenformkodierung, zum Beispiel der Impulscode-Modulation (PCM), differentiellen Impulscode-Modulation (DPCM) sowie adaptiven PCM und DPCM, wird die analoge Wellenform auf einen von 2^R verschiedenen Amplitudenlevel quantisiert, wobei R die Zahl der zur Darstellung jedes Samples gebrauchten Binärstellen ist. Jedes Sample der Wellenform wird dann unabhängig von allen weiteren Samples enkodiert.
Bei der DPCM wird statt der Amplitude des Samples der Unterschied zwischen aufeinander folgenden Daten-Samples enkodiert. Dieses Enkodierverfahren macht sich die Tatsache zunutze, dass die durchschnittliche Amplitudenänderung zwischen aufeinander folgenden Daten-Samples gewöhnlich relativ klein ist. Somit sind in der Regel weniger Bits erforderlich, um die Unterschiede der Amplituden darzustellen. Bei der adaptiven PCM und DPCM wird ein linearer Quantisierer verwendet, der seine Schrittgröße (d. h. den Abstand zwischen quantisierten Amplitudenwerten) entsprechend der Streuung der vorangegangenen Signal-Samples variiert.
Bei der Modell-basierten Quellenkodierung wird die Audioquelle als lineares (d. h. Filter-)System modelliert, das dann, wenn es durch ein geeignetes Eingangssignal zum Beispiel von einem Generator für periodische Impulse oder für Weißrauschen erregt wird, das gewünschte Audiosignal ergibt. Die am meisten verbreitete Modell-basierte Kodiermethode ist die lineare Prädiktion (LPC), bei der das Filter durch Filterkoeffizienten und einen Verstärkungskoeffizienten bestimmt wird. Um die Audiowellenform wiederherzustellen müssen somit Filterkoeffizienten, Verstärkungsparameter und Erregungsfunktion an den Empfänger übertragen werden.
Die spektrale Wellenformkodierung umfasst die adaptive Transformationskodierung und die Teilbandkodierung. Im Sinne dieser Patentschrift soll der Begriff „Teilbandkodierung" sowohl die Filterbank-basierte Kodierung als auch die Transfomrationskodierung einschließen. Beide Methoden ähneln sich, da in jedem Fall Daten kodiert werden, die zuvor festgelegten Frequenzbändern einer Wellenform entsprechen.
Bei der adaptiven Transformationskodierung wird die Audiowellenform abgetastet und in Frames mit einer zuvor festgelegten Zahl von Daten-Samples zerlegt. Die Daten in jedem Frame werden unter Nutzung beispielsweise von Discrete Fourier Transformation, Discrete Cosine Transformation, Karhunen-Loeve Transformation oder einer Wavelet-Transformation in den spektralen Bereich umgesetzt und dann kodiert.
Bei der Filterbank-basierten Kodierung wird das analoge Audiosignal in eine Anzahl von Frequenzbändern bzw. Teilbändern gefiltert und das Signal in jedem Teilband gesondert enkodiert. So sind zum Beispiel beim Enkodieren von Sprache die Teilbänder der niedrigeren Frequenzen häufig schmaler, da das Quantisierungsrauschen bei niedrigeren Frequenzen deutlicher wahrnehmbar ist, und den Teilbändern niedrigerer Frequenzen werden mehr Enkodierbits zugewiesen als den Teilbändern höherer Frequenzen. Bei diesem Verfahren zerlegt zunächst ein Filter das Audiospektrum in ein unteres Spektrum (z. B. 0–1600 Hz) und ein oberes Spektrum (1600–3200 Hz). Anschließend teilt ein zweiter Filter das untere Band erneut in ein Unterband (0–800 Hz) und ein Oberband (800–1600 Hz) und so weiter. Somit wird das niedrigere Frequenzband wiederholt durch Zwei geteilt. Aufgrund ihres aliasfreien Frequenzgangs verwendet man zur Untergliederung des Audiospektrums in der Regel Quadratur-Spiegelfilter. Andere Verfahren unterteilen, wenn der vollständige Umfang der menschlichen Wahrnehmung verlangt wird (z. B. bei Musikpassagen), in Teilbänder gleich großer Bandbreiten. Für spezielle Anwendungen können weitere Modifizierungen zur Verfügung gestellt werden.
Des Weiteren kann die Information über die spektrale Hüllkurve (d. h. die Signalstärke) aus dem Audiosignal heraus erlangt werden, indem man den Betrag der Signalenergie in jedem Teilband misst, wobei die Signalstärke proportional zum Quadrat der Signalenergie ist. Diese Information kann genutzt werden, um die Teilbandsamples vor der Enkodierung zu normalisieren, indem man die Samples zum Beispiel um einen maximalen Amplitudenwert so weit skaliert, dass alle normalisierten Samples einen Wert zwischen Null und Eins annehmen. Die Skalierungsfaktoren können gemeinsam mit den enkodierten Daten-Samples übertragen werden, um die Rekonstruktion des Signals im Empfänger zu gestatten.
Zusätzlich kann die Information über die spektrale Hüllkurve vorteilhaft für die Zuweisung von Bits zur Enkodierung der Audiodaten in jedem Teilband genutzt werden. Da zum Beispiel der Betrag des in der Hörwahrnehmung tolerierbaren Rauschens in jedem Teilband proportional zur Signalenergie in diesem Teilband ist, wird das Quantisierungsrauschen in Teilbändern mit relativ höherer Signalenergie besser tolerierbar sein und können den Daten-Samples aus diesem Teilband weniger Bits zugewiesen werden. Zudem wird ein Teilband, dessen Signalenergie beträchtlich höher als in einem benachbarten Teilband ist, dazu neigen, das benachbarte Teilband zu „übertönen". Zusätzliches Quantisierungsrauschen im benachbarten Teilband wird somit nicht wahrnehmbar sein, und zur Kodierung des schwächeren Teilbands kann eine geringere Bitzahl zugewiesen werden. Bei vielen zeitgemäßen Audio-Encodern werden in der Regel drei oder vier Bits je Teilbanddaten-Sample zugewiesen. Die Bitzuweisungsdaten können gemeinsam mit den enkodierten Daten-Samples übertragen werden, um die inverse Quantisierung des Signals in einem Empfänger zu gestatten.
Tatsächlich beruhen viele zeitgemäße Audio-Kompressionsalgorithmen auf einer Form von Teilbandkodierung, darunter auch der Audioalgorithmus der Moving Pictures Experts Group (MPEG) (d. h. MUSICAM), die Mehrkanal-Digital-Audio-Kompressionssysteme AC-2 und AC-3 von Dolby Laboratories sowie AMPAC. Einzelheiten zum MPEG-Audioalgorithmus finden sich im MPEG-Standarddokument CD 11172-3 mit dem Titel „Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s (Part 3 – Audio)".
Mit Hilfe des MPEG-Audioalgorithmus lassen sich digitale Audiodaten zusammen mit Videodaten in einem paketierten Datenstrom übertragen. Der Audioabschnitt des Signals kann ein HiFi-Stereosignal, das ein Fernsehprogramm begleitet, bereitstellen oder eine alternative Sprachbegleitung für fremdsprachige Zuschauer enthalten. Zudem können Nur-Audiodienste bereitgestellt werden, die es dem Verbraucher gestatten, verschiedenste HiFi-Musikprogramme zu hören. Des Weiteren ist der MPEG-Standard sowohl mit drahtgebundenen Kommunikationswegen, darutnter herkömmliche Kabelfernsehsysteme, als auch mit drahtlosen Wegen, wie zum Beispiel beim Satellitendirektempfang (DVB), kompatibel.
Wie erwähnt, lassen sich unhörbare Hilfsdaten in einem digitalen Audiodatenstrom für verschiedene Zwecke, beispielsweise Programmidentifikation, Kopiermanagement, Verifizierung, Marktdatenabfrage und sonstige kommerzielle Anwendungen, vorteilhaft nutzen.
Dem entsprechend wäre es von Vorteil, eine Methode zum Verstecken von Hilfsdaten in einem digitalen Audiodatenstrom, der über vorhandene Kommunikationswege als bereits hergestellter Bitstrom übertragen wird, bereitzustellen. Eine derartige Methode sollte ermöglichen, dass die Hilfsdaten gemeinsam mit dem Audiosignal transportiert werden, ohne die Qualität des Audiosignals wesentlich zu beeinflussen oder sonstige Daten im Bitstrom zu stören.
Insbesondere sollte das Verfahren die Bereitstellung von Hilfsdaten in einzelnen Teilbändern eines digitalen komprimierten Audiodatenstroms gestatten. Das Verfahren sollte mit einem Transportprozess für versteckte Daten kompatibel sein, der digitale Hilfsdaten in das digitale Audiosignal enkodiert, ohne eine Dekompression erforderlich zu machen. Gleichfalls sollte das Verfahren die Rückerlangung der Hilfsdaten aus dem komprimierten digitalen Audiosignal gestatten. Letztendlich könnte das Verfahren eine spektrale Formung des Hilfssignals ermöglichen, um dieses noch besser im Audiosignal zu verbergen.
Die vorliegende Erfindung betrifft eine Methode und eine Vorrichtung für den Transport und für die Rückerlangung von in einem digitalen Audiosignal versteckten Informationen, die die zuvor erwähnten sowie weitere Vorteile aufweist.
ZUSAMMENFASSUNG DER VORLIEGENDEN ERFINDUNG
Der vorliegenden Erfindung gemäß werden eine Methode und eine Vorrichtung zum Verstecken von Hilfsinformationen in einem Teilband-kodierten komprimierten digitalen Audiosignal, die über einen Kommunikationskanal in einem bereits hergestellten Bitstrom übertragen werden, bereitgestellt. Im Unterschied zu herkömmlichen Methoden verlangt die vorliegende Erfindung kein Dekomprimieren der Audiodaten, um die Hilfsdaten einzubetten. Des Weiteren ergeben sich durch das Einbetten dieser Hilfsdaten in verschiedene Teilbandkanäle der Audiodaten vorteilhafte Eigenschaften hinsichtlich des Signal-Rauschabstands (SNR). Darüber hinaus stellt die vorliegende Erfindung auch spektrales Formen des Hilfsdatensignals bereit, um es noch besser im Audiosignal zu verbergen.
Eine Methode zum Bereitstellen von Hilfsdaten-Teilbandsamples in einem Teilband-kodierten digitalen Audiodatenstrom umfasst die Schritte: Bereitstellen mehrerer Audio-Teilbandsamples; Bereitstellen einer Daten-Trägersequenz; Filtern der Daten-Trägersequenz in Teilbänder, um Datentransport-Teilbandsamples zu erhalten; Modulieren der Datentransport-Teilbandsamples mit den Hilfsdaten, um Hilfsdaten-Teilbandsamples zu erhalten; Kombinieren der Hilfsdaten-Teilbandsamples mit den entsprechenden Audio-Teilbandsamples zum Herstellen kombinierter Teilbandsamples, in denen die Hilfsdaten-Teilbandsamples im Wesentlichen unhörbar transportiert werden; sowie Bereitstellen der kombinierten Teilbandsamples für den Transport im digitalen Audiodatenstrom.
In alternativen Ausführungsformen werden mehrere Layer von Hilfsdaten-Teilbandsamples in den digitalen Audiodatenstrom enkodiert. Jeder Layer kann eine einzigartige entsprechende Pseudorauschen-(PN-)Sequenz haben, oder es kann durch Verschieben der Lage der Layer zueinander ein- und dieselbe PN-Sequenz genutzt werden. Des Weiteren können Teilbandsamples von verschiedenen Hilfssignalen in verschiedenen Teilbändern, denselben Teilbändern oder Kombinationen selbiger im digitalen Audiodatenstrom eingebettet werden. Die Daten-Trägersequenz kann eine Spread-Spectrum-PN-Sequenz, eine „Sparse"-PN-Sequenz, eine „Sample-Twiddle"-Sequenz oder eine „Bit-Twiddle"-Sequenz, wie unten ausführlicher beschrieben, enthalten.
Wenn die Audio-Teilbandsamples ein nichtuniformes Energiespektrum aufweisen, umfasst die Methode die weiteren Schritte: Normalisieren der Audio-Teilbandsamples, um ein annähernd uniformes Energiespektrum selbiger zu erhalten; sowie Denormalisieren der kombinierten Teilbandsamples im Anschluss an den Normalisierungsschritt, um das nichtuniforme Energiespektrum der Audio-Teilbandsamples wiederherzustellen und die Hilfsdaten-Teilbandsamples in den kombinierten Teilbandsamples dem nichtuniformen Energiespektrum gemäß spektral zu formen.
In ähnlicher Weise umfasst eine Methode zur Rückerlangung von ein Hilfsdatensignal repräsentierenden Hilfsdaten-Teilbandsamples, bei der die Hilfsdaten-Teilbandsamples zusammen mit Audio-Teilbandsamples in kombinierten Teilbandsamples in einem digitalen Datenstrom transportiert werden, die Schritte: Bereitstellen von kombinierten Teilbandsamples aus dem Datenstrom heraus; sowie Demodulieren der kombinierten Teilbandsamples unter Verwendung einer Daten-Trägersequenz, um die Hilfsdaten-Teilbandsamples zurückzuerlangen.
Wenn die Hilfsdaten-Teilbandsamples in den kombinierten Teilbandsamples unter Verwendung einer PN-Spread-Spectrum-Sequenz transportiert werden, umfasst die Methode die weiteren Schritte:
Aufheben der Spreizung der zurückerlangten Hilfsdaten-Teilbandsamples unter Verwendung einer PN-Spread-Spectrum-Sequenz oder einer sonstigen Daten-Trägersequenz; sowie Aufsummieren der entspreizten Hilfsdaten-Teilbandsamples auf ausgewählte Teilbandkanäle, um das Hilfsdatensignal zurückzuerlangen.
Die entsprechende Encodier- und Decodiervorrichtung wird ebenfalls offenbart.
Des Weiteren wird ein digitales Datenspeichermedium offenbart, das kombinierte Teilbandsamples einschließlich Audio-Teilbandsamples, die ein Hilfsdatensignal repräsentieren, sowie Hilfsdaten-Teilbandsamples, die ein Hilfsdatensignal repräsentieren, transportiert und bei dem: die Hilfsdaten-Teilbandsamples über zumindest ein den Audio-Teilbandsamples entsprechendes Teilband bereitgestellt werden; sowie das Hilfsdatensignal aus den Hilfsdaten-Teilbandsamples heraus so zurückerlangt werden kann, dass das Hilfsdatensignal im Wesentlichen unhörbar im Audiosignal transportiert und das Hilfsdatensignal dem Audiosignal gemäß geformt wird.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockschaltbild eines herkömmlichen psychoakustischen Teilband-Encoders;
2 ist eine diagrammartige Abbildung der herkömmlichen Frame-Formatierung eines Teilband-kodierten digitalen Audiosignals, das als Eingangssignal für das der vorliegenden Erfindung gemäße System zum Transport von versteckten Daten nach Komprimierung bereitgestellt werden kann;
3a ist ein Blockschaltbild einer ersten repräsentativen Anwendung des Encoders zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
3b ist ein Blockschaltbild einer zweiten repräsentativen Anwendung des Decoders zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
4 ist ein Blockschaltbild eines Encoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
5 ist ein Blockschaltbild einer alternativen Ausführungsform eines Encoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
6 ist ein Blockschaltbild eines Decoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
7 ist ein Blockschaltbild einer weiteren alternativen Ausführungsform eines Encoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
8 ist ein Blockschaltbild einer alternativen Ausführungsform eines Decoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung;
AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
Die vorliegende Erfindung betrifft eine Methode und eine Vorrichtung zur Bereitstellung eines unhörbaren Hilfsdatensignals in einem Teilband-kodierten komprimierten digitalen Audiodatenstrom, der über vorhandene Kanäle übertragen wird. Im Sinne dieser Patentschrift soll der Begriff „Teilbandkodierung" sowohl die Filterbank-basierte Kodierung als auch die Transformationskodierung, wie zum Beispiel Discrete Fourier Transformation, Discrete Cosine Transformation, Karhunen-Loeve Transformation oder eine Wavelet-Transformation, einschließen. Das Verfahren ist gekennzeichnet als Transport von versteckten Daten nach Komprimierung (PC-HDT).
Die vorliegende Erfindung ist kompatibel mit bestehenden zeitgemäßen Audio-Kompressionsalgorithmen, die auf einer Form von Teilbandkodierung beruhen, wie zum Beispiel der Audioalgorithmus der Moving Pictures Experts Group (MPEG) (d. h. MUSICAM), die Mehrkanal-Digital-Audio-Kompressionssysteme AC-2 und AC-3 von Dolby Laboratories sowie AMPAC.
Im Rahmen des MPEG-Audioalgorithmus lassen sich digitale Audiodaten gemeinsam mit Videodaten vorteilhaft in einem paketierten Datenstrom übertragen. So kann der Transportstrom zum Beispiel per Satellit oder mittels terrestrischer Anlagen direkt zu einem Privathaushalt oder zur Kopfstation eines Kabelfernseh-Verteilersystems gesendet werden. Andererseits kann der Transportstrom lokal von einem enkodierten Quellendatenträger, zum Beispiel einer Digital Video Disc (DVD), Compact Disc (CD) oder einem Digital Audio Tape (DAT), bereitgestellt werden.
Mit dem MPEG-Audioalgorithmus wird ein digitales Audiosignal einem psychoakustischen Modell entsprechend enkodiert. 1 ist ein Blockschaltbild eines herkömmlichen psychoakustischen Teilband-Encoders, ganz allgemein mit 100 ausgewiesen, der dazu verwendet werden kann, ein Teilband-kodiertes digitales Audiosignal für das der vorliegenden Erfindung gemäße System zum Transport von versteckten Daten nach Komprimierung bereitzustellen. Zunächst wird eine analoge Wellenform vom Encoder über Klemme 105 empfangen und mittels eines Analog-Digital-(A/D-)Wandlers 110 in die digitale Form umgewandelt. Die Abtastfrequenz kann beispielsweise 44,1 KHz betragen, wobei jedes Daten-Sample mit 16 Bits quantisiert wird, so dass 2¹⁶ = 65536 Amplitudenlevel möglich sind. Das resultierende digitale Audiosignal wird über Leitung 115 zu einer Teilbandfilterbank 120 sowie über Leitung 155 zu einem psychoakustischen Modell 160 geschickt. Die Teilbandfilterbank 120 führt ein Mapping des Audiosignals von der Zeit-Domäne in die Frequenz-Domäne durch. Beispielsweise können N gleich große Teilbänder (z. B. N = 32) mit Gruppen von 12 Daten-Samples je Teilband genutzt werden. Jede Ausgabe des Teilbandfilters stellt den Teil des Audiosignals, der in das jeweilige Teilband des Spektrums fällt, getreu dar.
Das psychoakustische Modell 160 berechnet einen Signal-Masken-Abstand (SMR), der zur nachfolgenden Bitzuweisung und Quantisierung genutzt wird. Der SMR ist ein Hinweis auf den Rauschpegel in jedem Teilband, der vom durchschnittlichen Zuhörer kaum noch wahrnehmbar ist, und ist proportional zur Audiosignalenergie in diesem Teilband. Das psychoakustische Modell kann auch dem Maskierungsphänomen zwischen Teilbändern Rechnung tragen, bei dem ein Teilband mit beträchtlich höherer Energie dazu neigt, ein benachbartes Teilband zu „übertönen". Der SMR des benachbarten Teilbands wird demgemäß so hoch werden, dass es nicht mehr fein quantisiert werden muss.
Die zweiunddreißig Teilbandsamples werden einer Normalisierungsfunktion 130 über Leitung 125 zugeführt. Die Normalisierungsfunktion 130 analysiert die Signalamplitude der Teilbandsamples in jedem Teilband, um einen Skalierungsfaktor für jedes Teilband zu bestimmen. Der Skalierungsfaktor, der auf dem Maximum der Absolutwerte der zwölf Teilbanddaten-Samples basiert, wird dann genutzt, um die Teilbandsamples zu normalisieren. Die Skalierungsfaktoren werden letztlich mit dem enkodierten digitalen Audiosignal bereitgestellt, so dass die vollständige Wiederherstellung des Audiosignals in einem Empfänger erfolgen kann.
Allerdings werden die Skalierungsfaktoren, die den dynamischen Bereich der spektralen Hüllkurve für jedes Teilband repräsentieren, von den Teilbandsamples getrennt enkodiert. Aufgrund der Grenzen der menschlichen Hörwahrnehmung wird es dadurch möglich, die Teilbandsamples relativ grob zu quantisieren, d. h. mit weniger Bits als die Basisband-Audiowellenformsamples. Die spektrale Hüllkurveninformation (Skalierungsfaktoren) kann ebenfalls relativ grob kodiert werden und muss nicht so häufig wie die Teilbandsamples aktualisiert werden. Daraus ergibt sich eine signifikante Bitratenreduzierung (d. h. Kompression).
Die normalisierten Teilbandsamples werden gemeinsam mit den Skalierungsfaktoren über Leitung 135 einer Bitzuweisungs- und Quantisierungsfunktion 140 zur Verfügung gestellt. Der SMR aus dem psychoakustischen Modell 160 wird der Bitzuweisungs- und Quantisierungsfunktion 140 über Leitung 165 zur Verfügung gestellt. Die Bitzuweisungs- und Quantisierungsfunktion 140 bestimmt die Zahl der Bits, die zur Darstellung der quantisierten Teilbandsamples genutzt werden. Die Zahl der zugewiesenen Bits muss ausreichend groß sein, damit das Quantisierungsrauschen den SMR nicht übersteigt, nicht jedoch so groß, dass eine maximale Schwelle für die Enkodierbitrate überschritten wird. In der Regel werden jedem Teilband-Sample drei oder vier Bits zugewiesen. Wenn einem Daten-Sample zum Beispiel vier Bits zugewiesen werden, wird das Sample auf einen von 2⁴ = 16 Quantisierungslevel quantisiert. Bezogen auf die ursprünglich 16 Quantisierungsbits, die durch den A/D-Wandler 110 zugewiesen wurden, stellt dies einen Kompressionsfaktor von 16 : 4 bzw. 4 : 1 dar. Der Bitzuweisung in jedem Teilband entsprechend wird ein 4-Bit-Code festgelegt und schließlich gemeinsam mit den enkodierten Teilband-Datensamples übertragen, um die inverse Quantisierung des Signals in einem Empfänger zu gestatten.
Die zweiunddreißig quantisierten Teilbandsamples werden einer Bitstromformatierungs- und Encoderfunktion 150 über Leitung 145 zugeführt. Hier werden die Teilbandsamples, Skalierungsfaktoren und Bitzuweisungscodes in Paketen bzw. Daten-Frames enkodiert. Jedes Teilbandsample lässt sich unter Verwendung herkömmlicher Modulationstechniken wie der Pulse-Code-Modulation (PCM) enkodieren. Ebenso können zusätzliche Kompressionstechniken einschließlich Huffman-Kodierung eingesetzt werden, um die quantisierten Samples darzustellen, doch erhöht dies die Kompliziertheit. Der enkodierte digitale Datenstrom wird aus dem psychoakustischen Encoder 100 über Leitung 170 ausgegeben.
2 ist eine diagrammartige Abbildung der herkömmlichen Frame-Formatierung eines Teilband-kodierten komprimierten digitalen Audiosignals, das mit Hilfe der vorliegenden Erfindung verarbeitet werden kann. Es versteht sich, dass das in 2 gezeigte Format nur eines der möglichen Beispiele für verschiedene Formate ist, die bereitgestellt werden könnten. Im erörterten Beispiel enthält jedes der zweiunddreißig Teilbänder zwölf Audiodatensamples. Dem entsprechend wird jeder Frame 12 × 32 = 384 Audiodatensamples enthalten, und die Frame-Größe wird 384/44,1 kHz = 8,7074 Milisekunden (ms) betragen. Der Frame 250 beinhaltet einen Header-Abschnitt 210, der den Anfang des Frames kennzeichnet, und kann weitere Informationen wie eine Sequenznummer, Synchronisierungsdaten und Abtastratendaten enthalten. Der MPEG-Frame 250 enthält ebenfalls einen Bitzuweisungscode-Abschnitt 220, der die Anfangsstelle der Daten und die Zahl der verwendeten Bits anzeigt. Des Weiteren enthält der Frame 250 einen Skalierungsfaktor-Abschnitt 230, der den dynamischen Bereich der Teilbandsamples anzeigt, sowie einen Teilbanddatensamples-Abschnitt 240. Die Teilbanddatensamples können in einem PCM-Format enkodiert werden. Bei alternativen Verfahren können Audiodaten aus mehr als einem Kanal in einem einzelnen Frame transportiert werden.
3a ist ein Blockdiagramm einer repräsentativen Anwendung des Encoders zum Transport von versteckten Daten nach Komprimierung (PC-HDT) gemäß der vorliegenden Erfindung. Ein Demultiplexer (nicht gezeigt) trennt digitale Audio- und Videosignale aus einem multiplexierten Bitstrom auf. Der komprimierte digitalisierte Audiodatenstrom wird danach über Eingangsklemme 300 und Leitung 305 dem PC-HDT-Encoder 310 zur Verfügung gestellt. Ebenso erhält der PC-HDT-Encoder 310 Hilfsdaten, die über Leitung 315 in das Audiosignal eingebettet werden sollen. Ein Hilfsdaten-Teilbandsamples und Audiodaten-Teilbandsamples darstellendes kombiniertes Signal wird über Leitung 320 einem Multiplexer 325 zur Verfügung gestellt. Gezeigt ist, wie ein digitales Videosignal über Eingangsklemme 330 und Leitung 335 dem Multiplexer 325 zur Verfügung gestellt wird, wo die Audio- und Videosignale in einen einzelnen Mehrkanaldatenstrom auf Leitung 340 multiplexiert werden. Es versteht sich, dass der PC-HDT-Encoder 310 das digitale Audiosignal in Bezug auf das digitale Videosignal verzögern wird. Dem kann durch Verwendung herkömmlicher Techniken, zum Beispiel einer im Multiplexer 325 enthaltenen Synchronisierungsmöglichkeit, Rechnung getragen werden.
Obwohl nur genau ein Audio- und ein Videosignal gezeigt sind, sollte zudem beachtet werden, dass mehrere Kanäle parallel bereitgestellt werden können. Beispielsweise kann das multiplexierte Signal auf Leitung 340 mehrere Programme einschließlich sowohl Video als auch begleitendes Audio und/oder begleitende Daten (z. B. alternative Sprachversionen für fremdsprachige Zuschauer sowie Untertitel für Hörgeschädigte), Nur-Audio-Programme und verschiedene Nur-Daten-Programme (z. B. Aktienkurse, Wetterinformationen) enthalten.
Der multiplexierte digitale Datenstrom wird über Leitung 340 einem Aufzeichnungsgerät 345 zur Verfügung gestellt, wo die Daten auf Quellendatenträger 355, beispielsweise CD, DVD oder DAT, geschrieben werden. Der Quellendatenträger 335 kann eine Master-Kopie sein, die wiederum verwendet wird, um zwecks weiterer Verbreitung auf sonstige Datenträger aufzuzeichnen.
3b ist ein Blockschaltbild einer repräsentativen Anwendung des Decoders zum Transport von versteckten Daten nach Komprimierung (PC-HDT) gemäß der vorliegenden Erfindung. Der Quellendatenträger 335 einschließlich des digitalisierten Audiosignals mit versteckten Hilfsdaten wird einem Lesegerät 360, zum Beispiel einem DVD-Player, zur Verfügung gestellt. Das Lesegerät 360 liest den Speicherdatenträger 355 und gibt einen digitalen Datenstrom über Leitung 362 an einen Demultiplexer 364 aus. Der Demultiplexer 364 trennt den Audidatenstrom mit versteckten Hilfsdaten von den Videodaten bzw. sonstigen digitalen Daten und kann Synchronisierungsmöglichkeiten beinhalten, um der durch den PC-HDT-Decoder 368 verursachten Verzögerung des Audiosignals Rechnung zu tragen. Die Audiodaten werden über Leitung 366 dem erfindungsgemäßen PC-HDT-Decoder 368 sowie über Bypass-Leitung 370 einer Kopiermanagementfunktion 380 zur Verfügung gestellt.
Im PC-HDT-Decoder 368 werden die Hilfsdaten aus dem digitalen Audiodatenstrom wiedergewonnen und der Kopiermanagementfunktion 380 über Leitung 372 zur Verfügung gestellt. Die Videodaten bzw. sonstigen digitalen Daten werden der Kopiermanagement- bzw. -kontrollfunktion 380 über Leitung 374 zur Verfügung gestellt. Die Kopiermanagementfunktion 380 verwendet die Hilfsdaten um zu bestimmen, ob von den digitalen Daten aus dem Quellendatenträger 355 heraus eine Kopie angefertigt werden darf. Falls ja, wird das Audiosignal mit versteckten Hilfsdaten einem Aufzeichnungsgerät 386 über Leitung 382 zur Verfügung gestellt, und das begleitende Video- bzw. sonstige Datensignal wird dem Aufzeichnungsgerät 386 über Leitung 384 zur Verfügung gestellt. Ein neuer Quellendatenträger 390, der mit den digitalen Daten vom Master-Quellendatenträger 355 enkodiert ist, wird über Leitung 388 von dem Aufzeichnungsgerät 386 bereitgestellt.
Man beachte, dass der neue Quellendatenträger 390 ebenso mit den versteckten Hilfsdaten enkodiert ist. Der neue Quellendatenträger 390 wird daher ebenso der Kopiermanagementfunktion 380 des Decoders unterliegen. Auf diese Weise kann der Händler steuern, ob der Original-Quellendatenträger vervielfältigt werden darf. Beispielsweise könnte ein Händler Hilfsdaten bereitstellen, die sich dazu verwenden lassen, das Kopieren des Quellendatenträgers zu verhindern, um proprietäre Informationen zu schützen. Andererseits könnte der Händler Hilfsdaten bereitstellen, die ein Kopieren von Quellendatenträgern zulassen, so zum Beispiel von Werbe- oder Demonstrationsmaterial, das dazu entworfen wurde, einen Verbraucher zum Kauf zusätzlicher geschützter Quellendatenträger zu ermutigen.
Eine weitere repräsentative Anwendung der vorliegenden Erfindung erzieht sich auf ein Rundfunksignal wie zum Beispiel ein über Satellit oder Kabel bereitgestelltes Fernsehsignal. Beispielsweise kann eine digitale Tonspur, die ein Fernsehprogramm wie einen Spielfilm oder eine andere spezielle Ausstrahlung begleitet, geliefert werden. Das multiplexierte digitale Signal bzw. der Transportdatenstrom, zu dem mehrere hundert Kanäle mit digitalen Informationen gehören können, wird von einem Privathaushalt über ein Satellitendirektempfangssystem (DBS) oder über einen Kabelübertragungsweg bzw. ähnliches empfangen.
Die vorliegende Erfindung kann angewendet werden, um einen Kopierschutz dieser digitalen Programmdienste bereitzustellen, indem sie verhindert, dass die Privatperson die digitalen Daten auf einem Gerät, zum Beispiel einem DVD- oder DAT-Gerät, das mit dem PC-HDT-Decoder ausgestattet ist, aufzeichnet. Ganz speziell lässt sich der erfindungsgemäße PC-HDT-Decoder dazu verwenden, versteckte Hilfsdaten in den Audioabschnitt des Transportdatenstroms zu enkodieren. Darüber hinaus können die versteckten Hilfsdaten vor der Rundfunkverbreitung oder an einem Zwischenpunkt eingebettet werden, ohne sonstige im Datenstrom transportierte Daten zu stören. Beispielsweise kann ein Betreiber einer Kabelkopfstation digitale Programme per Satellit empfangen und in das empfangene Signal vor dessen Weiterverteilung per Kabelnetz die versteckten Hilfsdaten einbetten.
Wenn das kombinierte digitale Audio- und Hilfsdatensignal von einer Privatperson mit den begleitenden Video- oder sonstigen Daten zusammen empfangen wird, werden die Daten von einer Set-Top-Box, die mit einem TV- und HiFi-Stereo-System des Nutzers verschaltet ist, dekodiert und entschlüsselt. In der Regel werden derartige Set-Top-Boxen vom Kabelfernseh- bzw. DBS-Dienstanbieter im Rahmen einer Servicevereinbarung bereitgestellt. Die Set-Top-Box dekomprimiert und dekodiert das Audiosignal und das gegebenenfalls zugehörige Videosignal und stellt es dem Nutzer zum Hör- bzw. Sehvergnügen bereit. Da das Hilfsdatensignal im Verhältnis zum normalen Audiosignal unhörbar ist, wird der Nutzer das Hilfsdatensignal nicht entdecken.
Das Hilfsdatensignal bleibt dennoch im Audiosignal eingebettet. Das Hilfsdatensignal kann mithilfe geeigneter Schaltkreistechnik zum Beispiel verwendet werden, den Nutzer daran zu hindern, das Signal mit einem Aufzeichnungsgerät, das mit dem erfindungsgemäßen PC-HDT-Decoder ausgerüstet ist, zu kopieren. Als Alternative bleibt das Hilfsdatensignal, selbst wenn es mit einem herkömmlichen Aufzeichnungsgerät wie einem Magnetbandrekorder aufgezeichnet wird, eingebettet und dient daher als Identifizierungszeichen, das man verwenden kann, um die Authentizität jeder darauf folgenden Kopie zu verifizieren. Dies ist hilfreich, um „Piraten", die Programminhalte ohne Genehmigung vervielfältigen und vertreiben, zu bekämpfen.
Des Weiteren kann das Hilfsdatensignal in einem Punkt-zu-Punkt-Verteilsystem, bei dem Audiodaten getrennt an Privatpersonen übertragen werden, eine eindeutige Identifizierungsnummer, zum Beispiel eine Bestellnummer oder Kundennummer, darstellen. Diese Information kann die Identifizierung eines einzelnen Piraten anhand einer späteren illegalen Kopie des Audiosignals ermöglichen.
4 ist ein Blockschaltbild eines Encoders 310 für das System zum Transport von versteckten Daten nach Komprimierung (PC-HDT) gemäß der vorliegenden Erfindung. Der PC-HDT-Encoder bettet unhörbare Hilfsdaten in ein Teilband-kodiertes komprimiertes digitales Audiosignal, ohne dass das Signal vollständig dekomprimiert werden muss. Ein bereits vorhandener digitaler Datenstrom einschließlich komprimierter digitaler Audiodaten wird vom Encoder an Klemme 400 empfangen und über Leitung 403 einer Demultiplexer- und Entpackfunktion (z. B. Depaketierfunktion) 405 zur Verfügung gestellt.
Die Demultiplexer- und Entpackfunktion 405 demultiplexiert Frames bzw. Pakete der digitalen Audiodaten aus dem übrigen Signal. Die verschiedenen Abschnitte des Audio-Frames werden gleichfalls entpackt. Zum Beispiel werden in Bezug auf 2 und 4 die Bitzuweisungsdaten 220 aus dem Frame 250 entpackt und über Leitung 402 einem Invers-Quantisierer 404 zur Verfügung gestellt.
Gewöhnlich werden die Teilbandsamples – wenn die Audio-Teilbandsamples vor Eintreten in den Bitstrom normalisiert werden – als Dezimalzahl mit einem Mantissen- und einem Exponentenabschnitt enkodiert, wobei die Mantisse die Audio-Teilbandsamples darstellt und der Exponent die Skalierungsfaktoren (z. B. spektrale Hüllkurveninformationen) für jedes Teilband darstellt. In diesem Fall muss an den Invers-Quantisierer 404 lediglich die Mantisse der Teilbandsamples über Leitung 402 bereitgestellt werden.
Der Invers-Quantisierer 404 führt je nach Format des paketierten Datenstroms verschiedene Funktionen aus. In der Regel umfassen die Teilbandsamples zum Beispiel Binärdaten, die als Vorzeichen und Betrag oder als Zweierkomplement dargestellt sein können. Die Teilbandsamples werden in die Zweierkomplement-Darstellung umgewandelt, sofern sie nicht bereits in dieser Form zur Verfügung gestellt werden.
Des Weiteren werden im besprochenen Beispiel Datensamples aus zweiunddreißig Teilbändern heraus bereitgestellt. Die mit dem Buchstaben „N" bezeichneten Leitungen 402 und 406 stellen dem entsprechend N = 32 gesonderte Übertragungsleitungen dar.
Die zweiunddreißig Audiodatensample-Teilbänder werden nach inverser Quantisierung an die Leitungen 406, die zugleich als einzelne Leitungen SM₀, SM₁, SM₂ ..., SM_N–1 abgebildet sind, übertragen. Die Bezeichnung „SM" zeigt an, dass dabei de Mantisse der Teilbandsamples bereitgestellt wird. Optional wird ein Normalisator 408 für den Fall zur Verfügung gestellt, dass die Teilbandsamples nicht bereits normalisiert sind. Der Normalisator 408 berechnet die durchschnittliche Energie einer kleinen Zahl von Samples und teilt jedes einzelne Sample durch die Quadratwurzel der Durchschnittsenergie, um ein über alle Teilbänder hinweg uniformes Energiespektrum bereitzustellen.
Normalisierte Audio-Teilbandsamples werden auf den mit SS₀, SS₁, SS₂ ..., SS_N–1 bezeichneten Leitungen bereitgestellt. Danach werden die normalisierten Audio-Teilbandsamples an Combinern 446, 444, 442 bzw. 440 mit Hilfsdaten-Teilbandsamples SPD₀, SPD₁, SPD₂ ..., SPD_N–1 kombiniert. Die Combiner können zum Beispiel XOR-Tore umfassen. Ganz speziell wird SS₀ am Combiner 446 mit SPD₀ kombiniert, SS₁ wird am Combiner 444 mit SPD, kombiniert, SS₂ wird am Combiner 442 mit SPD₂ kombiniert, und SS_N–1 wird am Combiner 440 mit SPD_N–1 kombiniert. Die übrigen Audio-Teilbandsamples und Hilfsdaten-Teilbandsamples (nicht gesondert gezeigt) werden in einer ähnlichen Weise kombiniert.
Die Hilfsdaten-Teilbandsamples SPD₀, SPD₁, SPD₂ ..., SPD_N–1 können Spread-Spectrum-Signale sein, die aus einer Teilband-gefilterten Pseudorauschen-(PN-)Sequenz und aus einer Hilfsdatenwellenform heraus generiert werden. Insbesondere wird einer Teilbandfilterbank 410 über Leitung 412 eine PN-Sequenz zur Verfügung gestellt. Die Teilbandfilterbank entspricht derjenigen Teilbandfilterbank, die zum Filtern des digitalen Audio verwendet wird (z. B. Filterbank 120, gezeigt in 1). Das Hilfsdatensignal wird über Leitung 414 einem herkömmlichen Forward-Error-Correction-(FEC-)Encoder 416 zur Verfügung gestellt, der – auch wenn nicht erforderlich – im Hilfsdatenstrom redundante Datenbits zur späteren Fehlerkorrektur bereitstellt.
Man beachte, dass die Datenrate der Hilfsdaten-Teilbandsamples bedeutend niedriger als diejenige der Audio-Teilbandsamples ist. Bei einem Verarbeitungsgewinn G_P bzw. einer Spread-Rate von 2048, einer PN-Sequenz-Taktrate (Chipfrequenz) von 44,1 kHz und unter Annahme einer Encoder-Fehlerkorrekturrate R = 1/2 zum Beispiel beträgt die Hilfsdatenbitrate, die sich unterbringen lässt, 44100/2048/2 ≈ 10 Bits pro Sekunde (bps).
Das FEC-enkodierte Hilfsdatensignal wird über Leitungen 418 und 422 mehreren Modulatoren 430, 432, 434 und 436 zur Verfügung gestellt, die die Datentransport-Teilbandsamples SP₀, SP₁, SP₂ ..., SP_N–1 modulieren, um die jeweiligen Hilfsdaten-Teilbandsamples SPD₀, SPD₁, SPD₂ ..., SPD_N–1 bereitzustellen. Die Sequenzen SPD₀, SPD₁, SPD₂ ..., SPD_N–1 transportieren die Hilfsdaten-Teilbandsamples.
Optional wird dem Modulator 420 über Leitung 419 ein Leistungsreglersignal zur Verfügung gestellt, um die Stärke des auf Leitung 418 übertragenen Hilfsdatensignals einzuregeln. Das Leistungsreglersignal stellt sicher, dass die Energie des Hilfsdatensignals schwächer als die untere Schwelle des Quantisierungsrauschens der Audio-Teilbandsamples ist, und kann möglichen Nichtlinearitäten im anschließenden Quantisierer 454 nahe Null Rechnung tragen, so dass das Hilfssignal adäquat quantisiert wird. Die Leistungsregelung kann zum Beispiel einen Signal-Quantisierungsrauschenergie-Abstand (SNR) von 33 bzw. ein Leistungsverhältnis von 1000 (z. B. 30 dB) aufrechterhalten.
Die modulierten Hilfsdaten-Spread-Spectrum-Signale SPD₀, SPD₁, SPD₂ ..., SPD_N–1 und die Audio-Teilbandsamples SS₀, SS₁, SS₂ ..., SS_N–1 verbinden sich, um jeweils kombinierte Samples SS'₀, SS'₁, SS'₂ ..., SS'_N–1 herzustellen, in denen die Hilfsdaten-Teilbandsamples im Wesentlichen unhörbar transportiert werden. Im Allgemeinen wird ein zunehmender Betrag von Verzerrung vorliegen, wenn man die Datenrate des Hilfssignals erhöht.
Die kombinierten Samples werden einem optionalen Denormalisator 450 zur Verfügung gestellt, der zu den Operationen des Normalisators 408 inverse Operationen durchführt, um das Energiespektrum der Audio-Teilbandsamples in den kombinierten Samples wiederherzustellen. Darüber hinaus kann der Denormalisator 450 vom Normalisator erhaltene und zeitweilig in einem Speicher (nicht gezeigt) abgelegte Nomralisierungsdaten (Skalierungsfaktoren) abrufen.
Man beachte, dass der vorliegenden Erfindung gemäß der Normalisator 450 die Hilfsdaten-Teilbandsamples in den kombinierten Samples SS'₀, SS'₁, SS'₂ ..., SS'_N–1 dem Energiespektrum der Audiodaten entsprechend spektral formt. Diese spektrale Formung verbessert vorteilhaft die Tarnung der Hilfsdaten.
Für den Fall, dass die Audio-Teilbandsamples bei Eingang an Klemme 400 bereits normalisiert sind, werden die Hilfsdaten dem Energiespektrum der Audiodaten entsprechend spektral geformt, wenn das komprimierte Signal dekomprimiert und auf Basisband demoduliert wird. In beiden Fällen werden jedenfalls normalisierte kombinierte Teilbandsamples SM'₀, SM'₁, SM'₂ ..., SM'_N–1 über Leitungen 452 dem Quantisierer 454 zur Verfügung gestellt. Der Quantisierer 454 quantisiert die kombinierten Samples unter Verwendung der über Leitungen 407 und 459 bereitgestellten Bitzuweisungsdaten, um an Leitung 456 quantisierte Daten zur Verfügung zu stellen. Die quantisierten Daten, die auf Leitung 407 bereitgestellten entpackten Kompressionsparameter und die Steuerdaten von Leitung 458 werden in ein neues Frame gepackt. Alternativ kann selbstverständlich auch dasselbe Frame mit den quantisierten Daten bereitgestellt werden, statt ein neues Frame zu schaffen. Die Steuerdaten beinhalten zum Beispiel Synchronisierungsdaten und Zyklische-Redundanzprüfung-(CRC-)Bits. Das neue Frame wird über Leitung 462 zur Übertragung an einen Decoder bereitgestellt. Der offenbarte PC-HDT-Encoder ist somit vollständig kompatibel mit existierenden Paketformaten und -protokollen.
Andererseits können verschiedene Hilfsdatensignale darstellende Teilbandsamples in verschiedenen Teilbändern transportiert werden. Die Datensamples in den verschiedenen Teilbändern können unter Verwendung ein und derselben PN-Sequenz, einer zeitversetzten Version dieser PN-Sequenz, verschiedener PN-Sequenzen oder einer Kombination selbiger generiert werden. Außerdem können Samples aus mehr als einem Hilfsdatensignal in einem beliebigen Teilband transportiert werden. Diese als „Layering" bekannte Methode lässt sich durch den Transport von Hilfsdaten-Teilbandsamples, die unter Verwendung ein und derselben PN-Sequenz, einer zeitversetzten Version dieser PN-Sequenz, verschiedener PN-Sequenzen oder einer Kombination selbiger generiert wurden, realisieren.
Zudem ist es nicht erforderlich, dass alle Teilbänder Hilfsdaten-Teilbandsamples transportieren. Beispielsweise kann es wünschenswert sein, ausgewählte Sequenzen der Teilband-gefilterten PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 unmittelbar mit den entsprechenden Samples der Audio-Teilbandsamples SS₀, SS₁, SS₂ ..., SS_N–1 zu kombinieren, um kombinierte Samples SS'₀, SS'₁, SS'₂ ..., SS'_N–1 herzustellen. Auf diese Weise umgehen die ausgewählten Teilband-gefilterten PN-Sequenzen die Modulation durch das Hilfsdatensignal. Dies kann zum Beispiel bei der Bereitstellung eines Referenzsignals oder sonstiger Informationen an einen Decoder von Vorteil sein.
Da die PN-Periode endlich ist und die Kennlinien der Teilbandfilterbank 410 bekannt sind, können die Teilband-gefilterten PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 darüber hinaus vorberechnet und in einer Referenztabelle hinterlegt werden. Und wenn der PC-HDT-Encoder wiederholt bekannte Daten hinzufügt, können ebenso die Hilfsdaten-Teilbandsamples SPD₀, SPD₁, SPD₂ ..., SPD_N–1 im Voraus berechnet und hinterlegt werden. Auf diese Weise lässt sich die Implementierung des erfindungsgemäßen PC-HDT-Encoders vereinfachen und der Rechenaufwand reduzieren.
5 ist ein Blockschaltbild einer alternativen Ausführungsform des Encoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung. Sofern nicht anders angegeben, entsprechen die Elemente von 5 den mit gleichen Zahlen nummerierten Elementen von 4. In der vorliegenden Ausführungsform haben die über Leitungen 406 bereitgestellten Audio-Teilbandsamples SS₀, SS₁, SS₂ ..., SS_N–1 nichtuniforme Energiespektren. Dementsprechend werden die Audio-Teilbandsamples, um die Hilfsdaten-Teilbandsamples SPD₀, SPD₁, SPD₂ ..., SPD_N–1 auf das Spektrum der Audio-Teilbandsamples zu formen, über Leitungen 409, 411, 413 bzw. 415 Teilband-Leistungsreglern (SPC) 425, 427, 429 bzw. 431 zur Verfügung gestellt.
Die SPC bestimmen Leistungsmodulationssignale (P) auf Grundlage des gewünschten Rauschabstands (SNR) zwischen den Hilfsdaten-Teilbandsamples und den Audiodaten-Teilbandsamples in jedem Teilband sowie der Quadratwurzel des Durchschnitts der Quadrate der Energie (E_i) jedes der M Audio-Teilbandsamples. Für jedes Teilband ist demzufolge
Die Leistungsmodulationssignale werden Modulatoren 433, 435, 437 und 439 über Leitungen 417, 419, 421 bzw. 423 zur Verfügung gestellt. An den Modulatoren 433, 435, 437 und 439 wird die Energie der Hilfsdaten-Teilbandsamples SPD₀, SPD₁, SPD₂ ..., SPD_N–1 eingeregelt, so dass Leistungs-angepasste Hilfsdaten-Teilbandsamples SPP₀, SPP₁, SPP₂ ..., SPP_N–1 das Ergebnis sind. Die Leistungs-angepassten Hilfsdaten-Teilbandsamples, die den Audio-Teilbandsamples entsprechend spektral geformt sind, werden danach an Combinern (z. B. XOR-Toren) 446, 444, 442 bzw. 440 mit den Audio-Teilbandsamples SS₀, SS₁, SS₂ ..., SS_N–1, kombiniert, um die kombinierten Samples SS'₀, SS'₁, SS'₂ ..., SS'_N–1 bereitzustellen. Die quantisierten Daten, die auf Leitung 407 bereitgestellten entpackten Kompressionsparameter und die Steuerdaten von Leitung 458 werden in ein neues Frame gepackt und über Leitung 462 zur Übertragung an einen Decoder zur Verfügung gestellt.
Tatsächlich kann die Ausführungsform von 5 den Rechenaufwand beträchtlich reduzieren, wenn die Audio-Teilbandsamples nicht normalisiert werden. Dies wird ersichtlich, wenn man bedenkt, dass Normalisierung und Denormalisierung der Audio-Teilbandsamples insgesamt 2N Rechenoperationen erfordert, während die Leistungsanpassung über die Teilbandleistungsregelung nur N Rechenoperationen benötigt (wobei N = Zahl der Teilbänder). Der Rechenaufwand wird somit um 50% reduziert, wenn man die SPC von 5 einsetzt.
6 ist ein Blockschaltbild eines Decoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung. Der komprimierte digitale paketierte Strom wird an Eingangsklemme 600 des Decoders 368 empfangen und über Leitung 602 einer Entpack- und Demultiplexierfunktion 604 zur Verfügung gestellt. Ein Invers-Quantisierer 610 empfängt die Teilbandsamples über Leitungen 608 und die Bitzuweisungsdaten über Leitung 606. Invers quantisierte Audio- Teilbandsamples SM₀, SM₁, SM₂ ..., SM_N–1, werden über Leitungen 612 zur Verfügung gestellt. Falls die Audio-Teilbandsamples SM₀, SM₁, SM₂ ..., SM_N–1, nicht bereits normalisiert sind, wird ein Normalisator 614 zur Verfügung gestellt, um die Audio-Teilbandsamples zu normalisieren, damit ein annähernd uniformes Energiespektrum über alle Teilbänder hinweg bereitgestellt wird.
Falls die Audio-Teilbandsamples in den kombinierten Teilbandsamples SM₀, SM₁, SM₂ ..., SM_N–1, bereits normalisiert sind, ist der Normalisator 614 nicht erforderlich. Kombinierte Audio-Teilbandsamples einschließlich der normalisierten Audio-Teilbandsamples SS₀, SS₁, SS₂ ..., SS_N–1, werden mit Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 an Demodulatoren 620, 622, 624 bzw. 626 kombiniert.
Die Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 in der vorliegenden Ausführungsform sind Spread-Spectrum-Trägersignale, die aus einer Teilband-gefilterten Pseudorauschen-(PN-)Sequenz, die der am PC-HDT-Encoder verwendeten PN-Sequenz entspricht, generiert werden. Die PN-Sequenz wird über Leitung 630 einer Teilbandfilterbank 640, die der Teilbandfilterbank des Encoders entspricht, zur Verfügung gestellt. Die gefilterten PN-Sequenzen werden auf jeder der Leitungen SP₀, SP₁, SP₂ ..., SP_N–1 den Demodulatoren 620, 622, 624 bzw. 626 zur Verfügung gestellt. Wie schon beim PC-HDT-Encoder können die Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 des PC-HDT-Decoders im Voraus berechnet und in einer Referenztabelle hinterlegt werden.
Das Produkt aus den gefilterten PN-Sequenzen und den kombinierten Teilbandsamples wird über Leitungen SSP₀, SSP₁, SSP₂ ..., SSP_N–1 an Integratoren 650, 652, 654 bzw. 656 geleitet. Durch Integrieren der Daten in jedem der Teilbänder über L aufeinander folgende Samples wird das Hilfssignal in jedem Teilband entspreizt. Die Zahl der Samples L für die Integration sollte so gewählt werden, dass L × N (d. h. Verarbeitungsgewinn) größer als der SNR zwischen PN-Sequenz und Audio-Teilbandsamples vor Entspreizen der Signale SSP₀, SSP₁, SSP₂ ..., SSP_N–1 ist.
Die entspreizten Hilfsdatensamples werden über Leitungen SC₀, SC₁, SC₂ ..., SC_N–1 einem Summierer 660 zur Verfügung gestellt, und über die N Teilbänder verteilt aufsummiert, um die enkodierten Hilfsdatensamples an Leitung 662 rückzuerlangen. Zudem kann der SNR zwischen PN-Sequenz und Audio-Teilbandsamples nach Entspreizen durch Erhöhen der Zahl der Teilbänder vergrößert werden, da der SNR zur Quadratwurzel von N proportional ist. Ein FEC-Decoder 670 dekodiert die Hilfsdatensamples von Leitung 662 und korrigiert Kanalfehler, womit er dekodierte Hilfsdaten an Leitung 672 zur Verfügung stellt.
Die dekodierten Hilfsdaten können danach in verschiedensten Anwendungen Gebrauch finden. Beispielsweise können die Hilfsdaten einem Kopiermanagementgerät zur Verfügung gestellt werden, um die Vervielfältigung der Audio- und zugehörigen Datensignale zu steuern.
Der zuvor erwähnte Rückerlangungs- und Entspreizprozess wird leicht abgewandelt, wenn Hilfsdaten-Teilbandsamples aus verschiedenen Hilfssignalen in den verschiedenen Teilbändern transportiert werden bzw. wenn Hilfsdaten-Teilbandsamples aus mehr als einem Hilfssignal in genau einem Teilband transportiert werden. Auch sind Situationen sowohl teilweiser als auch vollständiger Überlappung möglich, ebenso wie verschiedene Kombinationen der genannten Fälle. Im Allgemeinen stellt der PC-HDT-Decoder jedoch Operationen bereit, die zu denen des PC-HDT-Encoders invers sind. Werden in den kombinierten Teilbandsamples zum Beispiel Hilfsdaten-Teilbandsamples transportiert, die verschiedenen Hilfssignalen entsprechen, muss die Integration abweichend von der Ausführungsform in 6 so modifiziert werden, dass nur Samples gemeinsamer Hilfsdaten miteinander summiert werden. Gleichfalls müssen die Teilband-gefilterten PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1, falls Hilfsdaten-Teilbandsamples unter Verwendung verschiedener PN-Sequenzen, zeitversetzter Versionen ein und derselben PN-Sequenz oder einer beliebigen Kombination selbiger enkodiert werden, unter Verwendung einer entsprechenden PN-Sequenz generiert werden.
Alternativ kann der FEC-Decoder 670 durch ein Schwellenwertgerät ersetzt werden, das die Energie des Hilfssignals von Leitung 662 erkennt und diese Energie mit einem geeigneten Schwellenwert vergleicht. Der Decoder kann somit bestimmen, ob ein Hilfssignal anliegt, ohne eine FEC-Decodierung vornehmen zu müssen. Um die Erkennungsgenauigkeit noch zu erhöhen, kann der Decoder zudem vor Meldung einer Erkennung eine Folge von Hilfsdatenwerten untersuchen. Die Erkennung lässt sich noch weiter verbessern, wenn der Encoder ein eindeutiges Muster für die Hilfsdaten verwendet.
Zusätzlich lässt sich die Erfassung des komprimierten digitalen Audiobitstroms und die Synchronisation mit den Teilband-gefilterten PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 verbessern und vereinfachen, wenn der zum Generieren der PN-Sequenz genutzte PN-Generator nach einem vorher festgelegten Muster mit dem Audiobitstrom „verriegelt" ist. Das heißt, da alle zeitgemäßen Audiokomprimierer eine Frame-Struktur verwenden, bei der jedes Bit-Frame eine feststehende Zahl von Audiosamples darstellt, gibt es in einem gegebenen Zeitraum eine feststehende Zahl von Frames. Wählt man somit für die gefilterten PN-Sequenzen eine Wiederholfrequenz, die ein ganzzahliges Vielfaches der Audiodaten-Frame-Periode ist, reduziert sich die Zahl der zum Demodulieren des Hilfssignals erforderlichen PN-Sequenz-Hypothesen. Hat die PN-Sequenz-Periode zum Beispiel eine Dauer von 4096 Samples und hat die Frame-Periode eine Dauer von 256 Samples, dann müssen nur 4096/256 = 16 Hypothesen für jedes Teilband überprüft werden.
In noch einer weiteren Ausführungsform des PC-HDT-Decoders von 6, der sich in Verbindung mit dem PC-HDT-Encoder von 5 nutzen lässt, wenn die rückerlangten Hilfsdaten-Teilbandsamples ein nichtuniformes Energiespektrum aufweisen, kann es wünschenswert sein, das Energiespektrum über alle Teilbänder hinweg, in denen Hilfsdaten-Teilbandsamples transportiert werden, vor der Integration zu normalisieren. Dies lässt sieh erreichen, indem man de Energie der Teilband-gefilterten PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 unter Verwendung ähnlichen Regler wie der SPC 425, 427, 429 und 431 von 5 anpasst.
7 ist ein Blockschaltbild einer weiteren alternativen Ausführungsform eines Encoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung. Sofern nicht anders angegeben, entsprechen die Elemente von 7 den mit gleichen Zahlen nummerierten Elementen von 4. In der vorliegenden Ausführungsform haben die über Leitungen 406 bereitgestellten Audio-Teilbandsamples SS₀, SS₁, SS₂ ..., SS_N–1 uniforme Energiespektren. Statt jedoch Teilband-gefilterte Spread-Spectrum-PN-Sequenzen bereitzustellen, die aus einer pseudozufällig variierenden Folge von Werten mit der Große +1 bzw. –1 generiert werden, werden die Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 als „spärlich besetzte", d. h. Sparse-PN-Sequenzen bereitgestellt.
Bei einer Sparse-PN-Sequenz wird eine pseudozufällige Wertefolge generiert, die zumeist Nullen enthält, zwischen die jedoch Werte von zum Beispiel +1 und –1 zufällig gesetzt sind. Die Sparse-PN-Sequenz wird an speziellen Orten, die dem PC-HDT-Encoder und -Decoder bekannt sind, hinzugefügt. Eine Sparse-PN-Sequenz führt zu einer niedrigeren Datenrate, da der Verarbeitungsgewinn G_P im Verhältnis zum durchschnittlichen Auftreten von Nicht-Null-Samples reduziert wird. Ist zum Beispiel einer von zehn Werten der Sparse-PN-Sequenz nicht Null, wird der Verarbeitungsgewinn G_P gegenüber einer gewöhnlichen PN-Sequenz um den Faktor Zehn herabgesetzt. Außerdem werden jedoch, was von Vorteil ist, der Güteverlust der Audio-Teilbandsamples und die Kompliziertheit der Implementierung vermindert. Zudem kann dies trotz der sich ergebenden niedrigeren Datenrate in bestimmten Situationen, wenn zum Beispiel einzig die Anwesenheit oder Abwesenheit der Hilfsdaten selbst von Belang ist, annehmbar sein.
Dieser Ausführungsform der vorliegenden Erfindung gemäß werden Sparse-PN-Sequenz-Generatoren 715, 710, 705 und 700 zur Verfügung gestellt. Entsprechende Sparse-PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 werden an mehrere Modulatoren 430, 432, 434 bzw. 436 gekoppelt. Die Modulatoren modulieren die Sparse-PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1, um die Hilfsdaten-Teilbandsamples SPD₀, SPD₁, SPD₂ ..., SPD_N–1 bereitzustellen. Die Hilfsdaten-Teilbandsamples werden danach an Combinern 446, 444, 442 bzw. 440 mit Audio-Teilbandsamples SS₀, SS₁, SS₂ ..., SS_N–1 kombiniert, um die kombinierten Samples SS'₀, SS'₁, SS'₂ ..., SS'_N–1 bereitzustellen. Die kombinierten Samples werden dann quantisiert, gepackt und in das neue Frame multiplexiert.
In alternativen Ausführungsformen können Sparse-PN-Generatoren 715, 710, 705 und 700 verschiedene Sparse-PN-Sequenzen, ein und dieselbe Sparse-PN-Sequenz, zeitversetzte Versionen ein und derselben PN-Sequenz oder eine Kombination selbiger zur Verfügung stellen. Gleichfalls können ausgewählte Modulatoren der Modulatoren 430, 432, 434 und 436 so umgangen werden, dass einige der Signale SPD₀, SPD₁, SPD₂ ..., SPD_N–1 keine Hilfsdaten transportieren.
In noch einer weiteren Ausführungsform der vorliegenden Erfindung lassen sich sowohl Spread-Spectrum-PN-Sequenzen als auch Sparse-PN-Sequenzen zum Transport der Hilfsdaten-Teilbandsamples nutzen. Spread-Spectrum-PN-Sequenzen und Sparse-PN-Sequenzen können im gleichen Zeitintervall ablaufend oder zeitlich abwechselnd in ein und demselben bzw. in verschiedenen Teilbändern genutzt werden. Beispielsweise kann eine erste Sequenz von Hilfsdaten-Teilbandsamples in einem ersten Teilband durch eine Spread-Spectrum-PN-Sequenz transportiert werden, während eine zweite Sequenz von Hilfsdaten-Teilbandsamples in einem zweiten Teilband durch eine Sparse-PN-Sequenz transportiert wird.
Analog zu dem bereits besprochenen Layering-Verfahren könnten erste und zweite Hilfsdaten-Teilbandsamples jedoch auch in ein und demselben Teilband durch eine Spread-Spectrum-PN-Sequenz bzw. eine Sparse-PN-Sequenz transportiert werden. Des Weiteren wird in einem Zeitmultiplexverfahren eine gegebene Sequenz von Hilfsdaten- Teilbandsamples in einem gegebenen Teilband zuerst durch eine Spread-Spectrum-PN- Sequenz und danach (im selben Teilband) durch eine Sparse-PN-Sequenz transportiert und so weiter. Andererseits kann eine erste Sequenz von Hilfsdaten-Teilbandsamples durch eine Spread-Spectrum-PN-Sequenz in einem ersten Teilband transportiert werden, danach in einem zweiten Teilband (durch dieselbe Spread-Spectrum-PN-Sequenz) und so weiter. Darüber hinaus können in den verschiedenen Zeitsegmenten ein und dieselbe Sequenz, zeitversetzte Versionen ein und derselben Sequenz, unterschiedliche Sequenzen oder eine Kombination selbiger verwendet werden.
Des Weiteren kann der PC-HDT-Encoder auch noch Entscheidungsmöglichkeiten zum Umschalten zwischen Spread-Spectrum- und Sparse-PN-Sequenzen beinhalten. Zum Beispiel kann es wünschenswert sein, beim Einbetten von Hilfsdaten in eine ruhige HiFi-Musikpassage, bei der Verzerrungen auf ein Mindestmaß beschränkt werden sollten, Sparse-PN-Sequenzen zu nutzen, während für reine Sprachprogramme wie Nachrichtensendungen, bei denen absolute Wiedergabetreue weniger wichtig ist, Spread-Spectrum-PN-Sequenzen Verwendung finden können.
In noch einer weiteren Ausführungsform der vorliegenden Erfindung wird zusammen mit der oben besprochenen Sparse-PN-Sequenz eine „Sample-Twiddling"-Sequenz generiert. Speziell werden dabei Audio-Teilbandsamples aus dem Transportdatenstrom pseudozufällig ausgewählt. Man nehme zum Beispiel an, vier Bits in der Zweierkomplement-Notation werden verwendet, um ein Teilbandsample mit dem Wert „+5" (z. B. binär 0101) darzustellen. Dann wird der Wert der aktuellen Sparse-PN-Sequenz, die unabhängig generiert wurde, dem Teilbandsample hinzuaddiert, um eine neue Datenträgersequenz zu schaffen.
Ist der aktuelle Sparse-PN-Sequenz-Wert zum Beispiel „–1", wird das modifizierte Teilbandsample 5 – 1 = 4 (binär 0100) sein. Ist der aktuelle Sparse-PN-Sequenz-Wert „+1", wird das modifizierte Teilbandsample 5 + 1 = 6 (binär 0110) sein. Ist der aktuelle Sparse-PN-Sequenz-Wert hingegen „0", wird das modifizierte Teilbandsample unverändert sein. Wenn vier Bits zugewiesen sind, ist das Teilbandsample zudem darauf beschränkt, Werte zwischen „+7" und „–8" anzunehmen (z. B. binär zwischen 0111 und 1000). Somit wird sich, wenn das aktuelle Teilbandsample einen Wert „+7" hat und die aktuelle Sparse-PN-Sequenz einen Wert „+1" hat, das Teilbandsample nicht ändern. In der bereits zuvor besprochenen Art und Weise wird eine Sample-Twiddling-Sequenz generiert und zum Transport der Hilfsdaten-Teilbandsamples verwendet. Zudem werden durch Sample-Twiddling die benötigten Invers-Quantisierungsschritte beträchtlich reduziert, da es nicht erforderlich ist, Skalierungsfaktoren oder eine Invers-Quantisierungsgleichung auf die Teilbandsamples anzuwenden. Das einzige Erfordernis ist, dass die Teilbandsamples in einer Zweierkomplement-Darstellung vorliegen.
In noch einer weiteren Ausführungsform der vorliegenden Erfindung wird zusammen mit der oben besprochenen Sparse-PN-Sequenz eine „Bit-Twiddling"-Sequenz generiert. Ein Audio-Teilbandsample wird aus dem Transportdatenstrom pseudozufällig ausgewählt. Man nehme zum Beispiel wieder an, vier Bits in der Zweierkomplement-Notation werden verwendet, um ein Teilbandsample mit dem Wert „+5" (z. B. binär 0101) darzustellen. Dann wird der aktuelle Zustand der Sparse-PN-Sequenz dem am wenigsten signifikanten Bit (LSB) der binären Darstellung des Teilbandsamples hinzuaddiert.
Das am wenigsten signifikante Bit des Teilbandsamples „0101" sei zum Beispiel „1". Ist der aktuelle Sparse-PN-Sequenz-Wert „–1", wird das LSB des modifizierten Teilbandsamples auf 1 – 1 = 0 gekippt bzw. geflippt. Ist der aktuelle Sparse-PN-Sequenz Wert „+1", wird das modifizierte Teilbandsample unverändert sein, da das LSB nur einen Wert Null oder Eins annehmen kann. Ist im Weiteren das LSB des ausgewählten Audio-Teilbandsamples „0" und hat die entsprechende Sparse-PN-Sequenz den Wert „1", dann wird das LSB des Samples auf „1" geflippt. Falls LSB = 1 ist und die entsprechende Sparse-PN-Sequenz den Wert „–1" hat, dann wird das LSB auf „0" geflippt. In weiteren Fällen, einschließlich dem, dass die Sparse-PN-Sequenz den Wert „0" hat, bleibt das LSB des Teilbandsamples unverändert. Die resultierende Bit-Twiddling-Sequenz wird durch die Hilfsdaten-Teilbandsamples in der zuvor besprochenen Art und Weise moduliert. Zudem können durch Bit-Twiddling die benötigten Invers-Quantisierungsschritte eliminiert werden, da es nicht erforderlich ist, die Teilbandsamples in einem Zweierkomplement-Format bereitzustellen oder Skalierungsfaktoren bzw. eine Invers-Quantisierungsgleichung auf die Teilbandsamples anzuwenden. Dadurch wird die Kompliziertheit der Implementierung vorteilhaft reduziert.
Des Weiteren lassen sich Sample-Twiddling und Bit-Twiddling in Verbindung mit der Spread-Spectrum-PN-Sequenz und Sparse-PN-Sequenz in den bereits besprochenen Varianten und Kombinationen anwenden.
8 ist ein Blockschaltbild einer alternativen Ausführungsform eines Decoders für das System zum Transport von versteckten Daten nach Komprimierung gemäß der vorliegenden Erfindung. Dieser Decoder kann in Verbindung mit dem Encoder von 7 genutzt werden. Sofern nicht anders angegeben, entsprechen die Elemente von 8 den mit gleichen Zahlen nummerierten Elementen von 6. In der vorliegenden Ausführungsform beinhalten die auf Leitungen 412 bereitgestellten kombinierten Samples SS₀, SS₁, SS₂ ..., SS_N–1 Hilfsdaten-Teilbandsamples, die mit Hilfe von Sparse-PN-Sequenzen transportiert wurden. Dem entsprechend müssen durch den Decoder dieselben Sparse-PN-Sequenzen genutzt werden, die durch den Encoder genutzt wurden. Ebenso selbstverständlich werden, falls zum Transport der Hilfsdaten-Teilbandsamples Sample-Twiddling- oder Bit-Twiddling-Sequenzen genutzt wurden, diesen entsprechende Demodulationssequenzen im Decoder erforderlich.
Sparse-PN-Sequenz-Generatoren 815, 810, 805 bzw. 800 stellen Sparse-PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 zur Verfügung. Die Sparse-PN-Sequenzen SP₀, SP₁, SP₂ ..., SP_N–1 werden zum Demodulieren der kombinierten Teilbandsamples SS₀, SS₁, SS₂ ..., SS_N–1 an Demodulatoren 620, 622, 624 bzw. 626 genutzt, um die Hilfsdaten-Teilbandsamples SSP₀, SSP₁, SSP₂ ..., SSP_N–1 bereitzustellen. Die Hilfsdaten-Teilbandsamples werden daraufhin durch Integratoren 650, 652, 654 bzw. 656 entspreizt, am Summierer 660 aufsummiert und einem FEC-Decoder 670 wie weiter oben besprochen zur Verfügung gestellt.
Es sollte nunmehr anerkannt werden, dass die Erfindung im Wesentlichen unhörbare Hilfsdaten-Teilbandsamples in einem bereits vorhandenen, Teilband-kodierten komprimierten digitalen Audiodatenstrom bereitstellt. Audio-Teilbandsamples werden aus komprimierten, digitalisierten Audiodaten in einem paketierten Strom entnommen und normalisiert, falls erforderlich, vor Kombinieren mit Hilfsdaten-Teilbandsamples. Die Hilfsdaten-Teilbandsamples werden über Teilband-gefilterte PN-Sequenzen, Sparse-PN-Sequenzen, Sample-Twiddle-Sequenzen oder Bit-Twiddle-Sequenzen bzw. eine Kombination selbiger zur Verfügung gestellt. Außerdem müssen nicht sämtliche Audio-Teilbänder die Hilfsdaten transportieren.
Kombinierte Teilbandsamples, die die Hilfsdaten-Teilbandsamples beinhalten, werden denormalisiert, falls erforderlich, vor Rekombinieren mit dem paketierten Strom als ein neues Frame oder als Teil eines vorhandenen Frame. Die Hilfsdaten-Teilbandsamples werden dem Audio gemäß spektral geformt, und zwar entweder während dem Denormalisieren oder während der Basisband-Wiederherstellung der digitalen Audiodaten.
Obgleich die Erfindung in Verbindung mit verschiedenen speziellen Ausführungsformen beschrieben wurde, wird der mit der Technik vertraute Fachmann erkennen, dass noch zahlreiche weitere Adaptionen und Modifizierungen derselben vorgenommen werden können, ohne sich aus dem Erfassungsbereich der Erfindung, wie in den vorliegenden Ansprüchen ausgeführt, zu entfernen.

1 STAND DER TECHNIK

105: ANALOGES AUDIO
115: DIGITALES AUDIO
120: TEILBANDFILTERBANK
130: NORMALISIERUNG
140: BITZUWEISUNG UND QUANTISIERUNG
145: QUANTISIERTE TEILBANDSAMPLES
150: BITSTROMFORMATIERUNG UND ENCODER
160: PSYCHOAKUSTISCHES MODELL
170: DIGITALES AUDIO

2 STAND DER TECHNIK

220: BITZUWEISUNG
230: SKALIERUNGSFAKTOREN
240: TEILBANDSAMPLES

3a

305: DIGITALES AUDIO
310: PC-HDT-ENCODER
315: HILFSDATEN
325: MULTIPLEXIEREN
330: DIGITALES VIDEO
345: AUFZEICHNEN
355: QUELLENDATENTRÄGER

3b

355: QUELLENDATENTRÄGER
360: LESEGERÄT
364: DEMULTIPLEXIEREN
368: PC-HDT-DECODER
380: KOPIERMANAGEMENT
386: AUFZEICHNEN

4

401: BITZUWEISUNG
405: ENTPACKEN UND DEMULTIPLEXIEREN
407: ENTPACKTE KOMPRESSIONSPARAMETER
408: NORMALISATOR
410: TEILBANDFILTERBANK
414: HILFSDATEN
416: FEC-ENCODER
419: LEISTUNGSREGLER
450: DENORMALISATOR
458: STEUERDATEN
459: BITZUWEISUNG
460: PACKEN UND MULTIPLEXIEREN
462: AUSGANGSSTROM MIT PC-HDT

5

401: BITZUWEISUNG
405: ENTPACKEN UND DEMULTIPLEXIEREN
407: ENTPACKTE KOMPRESSIONSPARAMETER
410: TEILBANDFILTERBANK
414: HILFSDATEN
416: FEC-ENCODER
419: LEISTUNGSREGLER
458: STEUERDATEN
459: BITZUWEISUNG
460: PACKEN UND MULTIPLEXIEREN
462: AUSGANGSSTROM MIT PC-HDT

6

604: ENTPACKEN UND DEMULTIPLEXIEREN
606: BITZUWEISUNG
614: NORMALISATOR
640: TEILBANDFILTERBANK
670: FEC-DECODER
672: DEKODIERTE HDT-DATEN

7

401: BITZUWEISUNG
405: ENTPACKEN UND DEMULTIPLEXIEREN
407: ENTPACKTE KOMPRESSIONSPARAMETER
414: HILFSDATEN
416: FEC-ENCODER
419: LEISTUNGSREGLER
458: STEUERDATEN
459: BITZUWEISUNG
460: PACKEN UND MULTIPLEXIEREN
462: AUSGANGSSTROM MIT PC-HDT

8

604: ENTPACKEN UND DEMULTIPLEXIEREN
606: BITZUWEISUNG
614: NORMALISATOR
670: FEC-DECODER
672: DEKODIERTE HDT-DATEN

Claims

Eine Methode zum Bereitstellen von Hilfsdaten-Teilbandsamples in einem komprimierten Teilband-kodierten digitalen Audiodatenstrom, umfassend die Schritte: Bereitstellen mehrerer Audio-Teilbandsamples (SS₀–SS_N–1) aus dem Datenstrom; Bereitstellen einer Daten-Trägersequenz (SP₀–SP_N–1); Modulieren der Daten-Trägersequenz durch ein Hilfsdatensignal, um die Hilfsdaten-Teilbandsamples (SPD₀–SPD_N–1) bereitzustellen; Kombinieren der Hilfsdaten-Teilbandsamples mit entsprechenden Audio-Teilbandsamples, um kombinierte Teilbandsamples (SS'₀–SS'_N–1) herzustellen, in denen die Hilfsdaten-Teilbandsamples im Wesentlichen unhörbar transportiert werden; und Bereitstellen der kombinierten Teilbandsamples für den Transport im digitalen Audiodatenstrom.
Methode nach Anspruch 1, bei der die Audio-Teilbandsamples ein nichtuniformes Energiespektrum besitzen, umfassend die weiteren Schritte: Normalisieren der Audio-Teilbandsamples, um ein annähernd uniformes Energiespektrum derselben bereitzustellen; und Denormalisieren der kombinierten Teilbandsamples im Anschluss an den Normalisierungsschritt, um das nichtuniforme Energiespektrum der Audio-Teilbandsamples wiederherzustellen und die Hilfsdaten-Teilbandsamples in den kombinierten Teilbandsamples dem nichtuniformen Energiespektrum gemäß spektral zu formen.
Methode nach Anspruch 1, bei der die Audio-Teilbandsamples ein nichtuniformes Energiespektrum besitzen, umfassend den weiteren Schritt: Formen der Hilfsdaten-Teilbandsamples entsprechend dem nichtuniformen Energiespektrum.
Methode nach Anspruch 1, bei der die Daten-Trägersequenz durch verschiedene Hilfsdatensignale moduliert wird, was kombinierte Teilbandsamples zulässt, in denen den verschiedenen Hilfsdatensignalen entsprechende Hilfsdaten-Teilbandsamples transportiert werden.
Methode nach Anspruch 1, bei der aus mehreren Hilfsdatensignalen stammende Hilfsdaten-Teilbandsamples in einem der Audio-Teilbänder transportiert werden.
Methode nach Anspruch 1, umfassend die weiteren Schritte: inverses Quantisieren der Audio-Teilbandsamples; Quantisieren der kombinierten Teilbandsamples im Anschluss an den Schritt des inversen Quantisierens; und Zuweisen von Bits für die Schritte inverses Quantisieren und Quantisieren.
Methode nach Anspruch 1, bei der die Daten-Trägersequenz zumindest eine der folgenden Sequenzen umfasst: (a) eine Pseudorauschen-(PN-)Teilbandsequenz, die über mindestens ein Teilband bereitgestellt wird; (b) verschiedene PN-Teilbandsequenzen, die über genau ein Teilband bereitgestellt werden; (c) zeitversetzte Versionen ein- und derselben PN-Teilbandsequenz, die über genau ein Teilband bereitgestellt wird; (d) eine Sparse-PN-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (e) verschiedene Sparse-PN-Sequenzen, die über genau ein Teilband bereitgestellt werden; (f) zeitversetzte Versionen ein- und derselben Sparse-PN-Sequenz, die über genau ein Teilband bereitgestellt wird; (g) eine Sample-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (h) verschiedene Sample-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (i) zeitversetzte Versionen ein- und derselben Sample-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird; (j) eine Bit-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (k) verschiedene Bit-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (l) zeitversetzte Versionen ein- und derselben Bit-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird.
Methode nach Anspruch 1, umfassend den weiteren Schritt: Kombinieren der Daten-Trägersequenz mit den Audio-Teilbandsamples, um kombinierte Teilbandsamples herzustellen, in denen die Daten-Trägersequenz im Wesentlichen unhörbar übertragen wird.
Methode nach Anspruch 1, bei der die Daten-Trägersequenz über mehrere Teilbänder, die den mehreren Audio-Teilbandsamples entsprechen, aufgefiltert wird.
Methode nach Anspruch 9, bei der die Hilfsdaten-Teilbandsamples in mehreren Teilbändern der kombinierten Teilbandsamples transportiert werden.
Eine Methode zum Rückerlangen von ein Hilfsdatensignal repräsentierenden Hilfsdaten-Teilbandsamples aus einem komprimierten digitalen Datenstrom, wobei die Hilfsdaten-Teilbandsamples bereitgestellt werden, indem eine erste Daten-Trägersequenz durch das Hilfsdatensignal moduliert wird, und wobei die Hilfsdaten-Teilbandsamples gemeinsam mit Audio-Teilbandsamples in kombinierten Teilbandsamples im komprimierten digitalen Datenstrom transportiert werden, umfassend die Schritte: Rückerlangen der kombinierten Teilbandsamples (SS₀–SS_N–1) aus dem Datenstrom; Bereitstellen einer der ersten Daten-Trägersequenz entsprechenden Rückerlangungsdaten-Trägersequenz (SP₀–SP_N–1); Demodulieren der kombinierten Teilbandsamples unter Verwendung der Rückerlangungsdaten-Trägersequenz, um die Hilfsdaten-Teilbandsamples (SSP₀–SS_N–1) aus den rückerlangten kombinierten Teilbandsamples zurückzuerlangen.
Methode nach Anspruch 11, bei der die Rückerlangungsdaten-Trägersequenz zumindest eine der folgenden Sequenzen umfasst: (a) eine Pseudorauschen-(PN-)Teilbandsequenz, die über mindestens ein Teilband bereitgestellt wird; (b) verschiedene PN-Teilbandsequenzen, die über genau ein Teilband bereitgestellt werden; (c) zeitversetzte Versionen ein- und derselben PN-Teilbandsequenz, die über genau ein Teilband bereitgestellt wird; (d) eine Sparse-PN-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (e) verschiedene Sparse-PN-Sequenzen, die über genau ein Teilband bereitgestellt werden; (f) zeitversetzte Versionen ein- und derselben Sparse-PN-Sequenz, die über genau ein Teilband bereitgestellt wird; (g) eine Sample-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (h) verschiedene Sample-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (i) zeitversetzte Versionen ein- und derselben Sample-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird; (j) eine Bit-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (k) verschiedene Bit-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (l) zeitversetzte Versionen ein- und derselben Bit-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird; wobei die Methode als weitere Schritte umfasst: Entspreizen der rückerlangten Hilfsdaten-Teilbandsamples unter Verwendung der Rückerlangungsdaten-Trägersequenz; und Aufsummieren der entspreizten Hilfsdaten-Teilbandsamples auf ausgewählte Teilbandkanäle, um das Hilfsdatensignal zurückzuerlangen.
Methode nach Anspruch 12, bei der der Schritt des Entspreizens die rückerlangten Hilfsdaten-Teilbandsamples integriert, um die entspreizten Hilfsdaten-Teilbandsamples bereitzustellen.
Methode nach Anspruch 11, bei der die Audio-Teilbandsamples ein nichtuniformes Energiespektrum besitzen, umfassend den weiteren Schritt: Normalisieren der kombinierten Teilbandsamples, um ein annähernd uniformes Energiespektrum für die Audio-Teilbandsamples in den kombinierten Teilbandsamples bereitzustellen.
Methode nach Anspruch 1, umfassend die weiteren Schritte: inverses Quantisieren der kombinierten Teilbandsamples; Zuweisen von Bits für den Schritt des inversen Quantisierens.
Methode nach Anspruch 1, bei der die Rückerlangungsdaten-Trägersequenz über mehrere Teilbänder, die den mehreren Audio-Teilbandsamples entsprechen, aufgefiltert wird.
Methode nach Anspruch 16, bei der die Hilfsdaten-Teilbandsamples in mehreren Teilbändern der kombinierten Teilbandsamples transportiert werden.
Ein Encoder zum Bereitstellen von ein Hilfsdatensignal repräsentierenden Hilfsdaten-Teilbandsamples in einem komprimierten Teilband-kodierten digitalen Audiodatenstrom, umfassend: eine Eingangsklemme (400) zum Empfangen des digitalen Audiodatenstroms und zum Bereitstellen mehrerer Audio-Teilbandsamples; einen Daten-Trägergenerator zum Bereitstellen einer Daten-Trägersequenz; einen Modulator (430, 432, 434, 436) zum Modulieren der Daten-Trägersequenz durch das Hilfsdatensignal, um die Hilfsdaten-Teilbandsamples bereitzustellen; einen mit dem Modulator gekoppelten Combiner (440, 442, 444, 446) zum Kombinieren der Hilfsdaten-Teilbandsamples mit den entsprechenden Audio-Teilbandsamples, um kombinierte Teilbandsamples herzustellen, in denen die Hilfsdaten-Teilbandsamples im Wesentlichen unhörbar transportiert werden; und eine mit dem Combiner gekoppelte Ausgangsklemme (462) zum Bereitstellen der kombinierten Teilbandsamples für den Transport im digitalen Audiodatenstrom.
Encoder nach Anspruch 18, bei dem die Audio-Teilbandsamples ein nichtuniformes Energiespektrum besitzen, weiterhin umfassend: einen Normalisator (408) zum Normalisieren der Audio-Teilbandsamples, um ein annähernd uniformes Energiespektrum derselben bereitzustellen; und einen Denormalisator (450) zum Denormalisieren der kombinierten Audio-Teilbandsamples im Anschluss an den Schritt des Normalisierens, um das nichtuniforme Energiespektrum wiederherzustellen und die Hilfsdaten-Teilbandsamples in den kombinierten Teilbandsamples dem nichtuniformen Energiespektrum gemäß spektral zu formen.
Encoder nach Anspruch 18, bei dem die Audio-Teilbandsamples ein nichtuniformes Energiespektrum besitzen, weiterhin umfassend: einen Normalisator zum Normalisieren der Hilfsdaten-Teilbandsamples, um die Hilfsdaten-Teilbandsamples dem nichtuniformen Energiespektrum gemäß spektral zu formen.
Encoder nach Anspruch 18, weiterhin umfassend: einen Paketierer (460) zum Paketieren der kombinierten Teilbandsamples; und einen Multiplexer (460) zum Multiplexen der paketierten kombinierten Teilbandsamples in einen paketierten Transportstrom.
Encoder nach Anspruch 18, bei dem die Daten-Trägersequenz durch verschiedene Hilfsdatensignale moduliert wird, um Hilfsdaten-Teilbandsamples bereitzustellen, was kombinierte Teilbandsamples zulässt, in denen den verschiedenen Hilfsdatensignalen entsprechende Hilfsdaten-Teilbandsamples transportiert werden.
Encoder nach Anspruch 18, weiterhin umfassend: einen Invers-Quantisierer (404) zum inversen Quantisieren der kombinierten Teilbandsamples; einen Quantisierer (454) zum Quantisieren der kombinierten Teilbandsamples; und eine an den Invers-Quantisierer und den Quantisierer gekoppelte Bitzuweisungsmöglichkeit, um Bits für inverses Quantisieren und Quantisieren zuzuweisen.
Encoder nach Anspruch 18, bei dem die Daten-Trägersequenz zumindest eine der folgenden Sequenzen umfasst: (a) eine Pseudorauschen-(PN-)Teilbandsequenz, die über mindestens ein Teilband bereitgestellt wird; (b) verschiedene PN-Teilbandsequenzen, die über genau ein Teilband bereitgestellt werden; (c) zeitversetzte Versionen ein- und derselben PN-Teilbandsequenz, die über genau ein Teilband bereitgestellt wird; (d) eine Sparse-PN-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (e) verschiedene Sparse-PN-Sequenzen, die über genau ein Teilband bereitgestellt werden; (f) zeitversetzte Versionen ein- und derselben Sparse-PN-Sequenz, die über genau ein Teilband bereitgestellt wird; (g) eine Sample-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (h) verschiedene Sample-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (i) zeitversetzte Versionen ein- und derselben Sample-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird; (j) ein Bit-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (k) verschiedene Bit-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (l) zeitversetzte Versionen ein- und derselben Bit-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird.
Encoder nach Anspruch 18, weiterhin umfassend: Möglichkeiten (440, 442, 444, 446) zum Kombinieren der Daten-Trägersequenz mit den Audio-Teilbandsamples, um kombinierte Teilbandsamples herzustellen, in denen die Daten-Trägersequenz im Wesentlichen unhörbar transportiert wird.
Encoder nach Anspruch 18, bei dem die Daten-Trägersequenz über mehrere Teilbänder, die den mehreren Audio-Teilbandsamples entsprechen, aufgefiltert wird.
Encoder nach Anspruch 26, bei dem die Hilfsdaten-Teilbandsamples in mehreren Teilbändern der kombinierten Teilbandsamples transportiert werden.
Ein Decoder zum Rückerlangen von ein Hilfsdatensignal repräsentierenden Hilfsdaten-Teilbandsamples aus einem komprimierten digitalen Datenstrom, wobei die Hilfsdaten-Teilbandsamples bereitgestellt werden, indem eine erste Daten-Trägersequenz durch das Hilfsdatensignal moduliert wird, und wobei die Hilfsdaten-Teilbandsamples gemeinsam mit Audio-Teilbandsamples in kombinierten Teilbandsamples im komprimierten digitalen Datenstrom transportiert werden, umfassend: Möglichkeiten (604, 610, 614) zum Rückerlangen der kombinierten Teilbandsamples aus dem komprimierten digitalen Datenstrom; Möglichkeiten (800, 805, 810, 815) zum Bereitstellen einer der ersten Daten-Trägersequenz entsprechenden Rückerlangungsdaten-Trägersequenz; und einen Demodulator (620, 622, 624, 626) zum Demodulieren der kombinierten Teilbandsamples unter Verwendung der Rückerlangungsdaten-Trägersequenz, um die Hilfsdaten-Teilbandsamples aus den rückerlangten kombinierten Teilbandsamples zurückzuerlangen.
Decoder nach Anspruch 28, weiterhin umfassend: Möglichkeiten (650, 652, 654, 656) zum Entspreizen der rückerlangten Hilfsdaten-Teilbandsamples, um eine entsprechende Zahl von entspreizten Hilfsdaten-Teilbandsamples bereitzustellen; und einen Summierer (660) zum Aufsummieren der entspreizten Hilfsdaten-Teilbandsamples auf die Teilbandkanäle, um das Hilfsdatensignal zurückzuerlangen
Decoder nach Anspruch 28, bei dem die Möglichkeit zum Entspreizen Integratoren zum Integrieren der rückerlangten Hilfsdaten-Teilbandsamples umfasst, um die entspreizten Hilfsdaten-Teilbandsamples bereitzustellen.
Decoder nach Anspruch 28, weiterhin umfassend: einen Normalisator zum Normalisieren der Audio-Teilbandsamples in den kombinierten Teilbandsamples vor dem Demodulieren, um ein annähernd uniformes Energiespektrum der Audio-Teilbandsamples bereitzustellen.
Decoder nach Anspruch 28, weiterhin umfassend: einen Normalisator (614) zum Normalisieren der kombinierten Audio-Teilbandsamples vor dem Demodulieren, um ein annähernd uniformes Energiespektrum der Hilfsdaten-Teilbandsamples bereitzustellen.
Decoder nach Anspruch 28, bei dem den verschiedenen Hilfsdatensignalen entsprechende Hilfsdaten-Teilbandsamples in den kombinierten Teilbändern des digitalen Audiodatenstroms transportiert werden; und der Demodulator die Hilfsdaten-Teilbandsamples unter Verwendung verschiedener Rückerlangungsdaten-Trägersequenzen zurückerlangt.
Decoder nach Anspruch 28, weiterhin umfassend: einen Invers-Quantisierer (610) zum inversen Quantisieren der kombinierten Teilbandsamples; und Bitzuweisungsmöglichkeiten, um Bits für das inverse Quantisieren zuzuweisen.
Decoder nach Anspruch 28, bei dem die Rückerlangungsdaten-Trägersequenz zumindest eine der folgenden Sequenzen umfasst: (a) eine Pseudorauschen-(PN-)Teilbandsequenz, die über mindestens ein Teilband bereitgestellt wird; (b) verschiedene PN-Teilbandsequenzen, die über genau ein Teilband bereitgestellt werden; (c) zeitversetzte Versionen ein- und derselben PN-Teilbandsequenz, die über genau ein Teilband bereitgestellt wird; (d) eine Sparse-PN-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (e) verschiedene Sparse-PN-Sequenzen, die über genau ein Teilband bereitgestellt werden; (f) zeitversetzte Versionen ein- und derselben Sparse-PN-Sequenz, die über genau ein Teilband bereitgestellt wird; (g) eine Sample-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (h) verschiedene Sample-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (i) zeitversetzte Versionen ein- und derselben Sample-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird; (j) eine Bit-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (k) verschiedene Bit-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (l) zeitversetzte Versionen ein- und derselben Bit-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird.
Decoder nach Anspruch 28, bei dem die Rückerlangungsdaten-Trägersequenz über mehrere Teilbänder, die den mehreren Audio-Teilbandsamples entsprechen, aufgefiltert wird.
Decoder nach Anspruch 36, bei dem die Hilfsdaten-Teilbandsamples in mehreren Teilbändern der kombinierten Teilbandsamples transportiert werden.
Ein Speichermedium für komprimierte digitale Daten, umfassend: (i) Speichermöglichkeiten (355) zum Speichern der kombinierten Teilbandsamples einschließlich der Audio-Teilbandsamples, die ein Audiosignal darstellen, und Hilfsdaten-Teilbandsamples, die ein Hilfsdatensignal darstellen, wobei die Hilfsdaten-Teilbandsamples bereitgestellt werden, indem eine Daten-Trägersequenz durch das Hilfsdatensignal auf zumindest ein den Audio-Teilbandsamples entsprechendes Teilband moduliert wird; das Hilfsdatensignal im Wesentlichen unhörbar in dem Audiosignal transportiert wird; das Hilfsdatensignal dem Audiosignal entsprechend spektral geformt wird; und (ii) Möglichkeiten, die die Rückerlangung des Hilfsdatensignals aus den Hilfsdaten-Teilbandsamples zulassen.
Speichermedium nach Anspruch 38, bei dem verschiedenen Hilfsdatensignalen entsprechende Hilfsdaten-Teilbandsamples in den kombinierten Teilbandsamples transportiert werden.
Speichermedium nach Anspruch 38, bei dem verschiedenen Hilfsdatensignalen entsprechende Hilfsdafen-Teilbandsamples in einem der Audioteilbänder transportiert werden.
Speichermedium nach Anspruch 38, bei dem die Daten-Trägersequenz zumindest eine der folgenden Sequenzen umfasst: (a) eine Pseudorauschen-(PN-)Teilbandsequenz, die über mindestens ein Teilband bereitgestellt wird; (b) verschiedene PN-Teilbandsequenzen, die über genau ein Teilband bereitgestellt werden; (c) zeitversetzte Versionen ein- und derselben PN-Teilbandsequenz, die über genau ein Teilband bereitgestellt wird; (d) eine Sparse-PN-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (e) verschiedene Sparse-PN-Sequenzen, die über genau ein Teilband bereitgestellt werden; (f) zeitversetzte Versionen ein- und derselben Sparse-PN-Sequenz, die über genau ein Teilband bereitgestellt wird; (g) eine Sample-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (h) verschiedene Sample-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (i) zeitversetzte Versionen ein- und derselben Sample-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird; (j) eine Bit-Twiddling-Sequenz, die über mindestens ein Teilband bereitgestellt wird; (k) verschiedene Bit-Twiddling-Sequenzen, die über genau ein Teilband bereitgestellt werden; (l) zeitversetzte Versionen ein- und derselben Bit-Twiddling-Sequenz, die über genau ein Teilband bereitgestellt wird.
Speichermedium nach Anspruch 38, bei dem die Daten-Trägersequenz über mehrere Teilbänder, die den Audio-Teilbandsamples entsprechen, aufgefiltert wird.
Speichermedium nach Anspruch 42, bei dem die Hilfsdaten-Teilbandsamples in mehreren Teilbändern der kombinierten Teilbandsamples transportiert werden.