DE19947877A1

DE19947877A1 - Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals

Info

Publication number: DE19947877A1
Application number: DE19947877A
Authority: DE
Inventors: Christian Neubauer; Juergen Herre; Karlheinz Brandenburg; Eric Allamanche
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 1999-10-05
Filing date: 1999-10-05
Publication date: 2001-05-10
Anticipated expiration: 2019-10-06
Also published as: DE50001467D1; US20090138259A1; ATE234533T1; WO2001026262A2; US8117027B2; EP1212857A2; DE19947877C2; US20090076801A1; EP1212857B1; US7454327B1; WO2001026262A3; US20120065964A1

Abstract

Ein erfindungsgemäßes Verfahren zum Einbringen von Informationen in einen Datenstrom, der Daten über Spektralwerte aufweist, die ein Kurzzeitspektrum eines Audiosignals darstellen, führt zuerst eine Verarbeitung des Datenstroms durch, um die Spektralwerte des Kurzzeitspektrums des Audiosignals zu erhalten. Außerdem werden die einzubringenden Informationen mit einer Spreizsequenz beaufschlagt, um ein gespreiztes Informationssignal zu erhalten, woraufhin eine spektrale Darstellung des gespreizten Informationssignals erzeugt wird, die dann mit einer ermittelten psychoakustisch maskierbaren Störenergie gewichtet wird, um ein gewichtetes Informationssignal zu erzeugen, bei dem die Energie der eingebrachten Informationen im wesentlichen gleich oder unterhalb der psychoakustischen Maskierungsschwelle liegt. Das gewichtete Informationssignal und die Spektralwerte des Kurzzeitspektrums des Audiosignals werden dann summiert und anschließend wieder verarbeitet, um einen verarbeiteten Datenstrom zu erhalten, der sowohl die Audioinformationen als auch die einzubringenden Informationen umfaßt. Dadurch, daß die einzubringenden Informationen in den Datenstrom eingebracht werden, ohne daß in den Zeitbereich übergegangen werden muß, wird die Blockrasterung, die dem Kurzzeitspektrum zugrunde liegt, nicht angetastet, so daß das Einbringen eines Wasserzeichens zu keinen Tandem-Codiereffekten führt.

Description

Die vorliegende Erfindung bezieht sich allgemein auf Audio signale und insbesondere auf das Einbringen von Informatio nen in einen Datenstrom, der Spektralwerte aufweist, die ein Kurzzeitspektrum eines Audiosignals darstellen. Insbesondere auf dem Gebiet der Urheberrechtsschutzes für Audiosignale dient die vorliegende Erfindung dazu, beispielsweise Urhe berrechtsinformationen in ein Audiosignal möglichst unhörbar einzubringen.

Mit zunehmender Verbreitung des Internets hat auch die Mu sikpiraterie drastisch zugenommen. An vielen Stellen im In ternet können Musikstücke bzw. allgemein Audiosignale herun tergeladen werden. In den allerwenigsten Fällen werden hier bei Urheberrechte beachtet. Insbesondere wird sehr selten die Erlaubnis des Urhebers eingeholt, sein Werk zur Verfü gung zu stellen. Noch seltener werden Gebühren an den Urhe ber bezahlt, die der Preis für ein rechtmäßiges Kopieren sind. Darüberhinaus findet ein unkontrolliertes Kopieren von Werken statt, was in den allermeisten Fällen ebenfalls ohne Berücksichtigung von Urheberrechten geschieht.

Wenn Musikstücke über das Internet von einem Provider für Musikstücke rechtmäßig erworben werden, erzeugt der Provider üblicherweise einen Header, in dem Copyright-Informationen sowie beispielsweise eine Kundennummer eingebracht sind, wo bei die Kundennummer eindeutig auf den aktuell vorliegenden Käufer hinweist. Es ist ferner bekannt, Kopiererlaubnisin formationen in diesen Header einzufügen, welche die ver schiedensten Arten von Kopierrechten signalisieren, wie z. B. daß das Kopieren des aktuellen Stücks vollständig unter sagt ist, daß das Kopieren des aktuellen Stücks nur ein einziges Mal erlaubt ist, daß das Kopieren des aktuellen Stücks völlig frei ist, etc.

Der Kunde verfügt über einen Decodierer, der den Header ein liest und unter Beachtung der erlaubten Handlungen bei spielsweise nur eine einzige Kopie zuläßt und weitere Kopien verweigert.

Dieses Konzept zur Beachtung der Urheberrechte funktioniert jedoch nur für Kunden, die sich legal verhalten.

Illegale Kunden haben üblicherweise ein wesentliches Poten tial an Kreativität, um mit einem Header versehene Musik stücke zu "knacken". Hier zeigt sich bereits der Nachteil der beschriebenen Vorgehensweise zum Schutz von Urheberrech ten. Ein solcher Header kann einfach entfernt werden. Alter nativ könnte ein illegaler Benutzer auch einzelne Einträge in dem Header modifizieren, um beispielsweise aus dem Ein trag "Kopieren untersagt" einen Eintrag "Kopieren völlig frei" zu machen. Denkbar ist auch der Fall, daß ein ille galer Kunde seine eigene Kundennummer aus dem Header ent fernt und dann das Musikstück auf seiner oder einer anderen Homepage im Internet anbietet. Ab diesem Moment ist es nicht mehr möglich, den illegalen Kunden zu ermitteln, da er seine Kundennummer entfernt hat. Versuche, solche Verletzungen des Urheberrechts zu unterbinden, werden daher zwangsläufig ins Leere laufen, da die Kopierinformationen aus dem Musikstück entfernt worden sind bzw. modifiziert worden sind, und da der illegale Kunde, der dies tat, nicht mehr ermittelt werden kann, um ihn zur Verantwortung zu ziehen. Wäre stattdessen eine sichere Einbringung von Informationen in das Audiosignal vorhanden, so könnten staatliche Behörden, die Urheberrechtsverletzungen verfolgen, verdächtige Musik stücke im Internet ermitteln und beispielsweise die Be nutzeridentifikation solcher illegalen Stücke feststellen, um den illegalen Benutzern das Handwerk zu legen.

Aus der WO 97/33391 ist ein Codierverfahren zur Einbringung eines nicht hörbaren Datensignals in ein Audiosignal be kannt. Dabei wird das Audiosignal, in das das nicht hörbare Datensignal eingebracht werden soll, in den Frequenzbereich umgewandelt, um mittels eines psychoakustischen Modells die Maskierungsschwelle des Audiosignals zu bestimmen. Das Da tensignal, das in das Audiosignal eingebracht werden soll, wird mit einem Pseudorauschsignal multipliziert, um ein fre quenzmäßig gespreiztes Datensignal zu schaffen. Das fre quenzmäßig gespreizte Datensignal wird dann mit der psycho akustischen Maskierungsschwelle gewichtet, derart, daß die Energie des frequenzmäßig gespreizten Datensignals immer un terhalb der Maskierungsschwelle liegt. Schließlich wird das gewichtete Datensignal dem Audiosignal überlagert, wodurch ein Audiosignal erzeugt wird, in das das Datensignal unhör bar eingebracht ist. Das Datensignal kann zum einen dazu verwendet werden, die Reichweite eines Senders zu ermitteln. Alternativ kann das Datensignal zur Kennzeichnung von Audio signalen verwendet werden, um eventuelle Raubkopien ohne weiteres zu identifizieren, da jeder Tonträger beispielswei se in Form einer CompactDisc ab Werk mit einer individuellen Kennung versehen wird. Weitere beschriebene Anwendungsmög lichkeiten des Datensignals bestehen im Fernsteuern von Audiogeräten in Analogie zum "VPS"-Verfahren beim Fernsehen.

Dieses Verfahren liefert bereits eine hohe Sicherheit gegen über Musikpiraten, da sie zum einen unter Umständen gar nicht wissen, daß das Musikstück, das sie gerade vervielfäl tigen, gekennzeichnet ist. Darüberhinaus ist es nahezu un möglich, ohne einen autorisierten Decodierer das Datensi gnal, das unhörbar in dem Audiosignal vorhanden ist, zu ex trahieren.

Audiosignale liegen, wenn sie von einer CompactDisc stammen, als 16-Bit-PCM-Abtastwerte vor. Ein Musikpirat könnte bei spielsweise die Abtastrate bzw. die Pegel oder Phasen der Abtastwerte manipulieren, um das Datensignal unlesbar, d. h. undecodierbar zu machen, wodurch die Urheberrechtsinforma tionen ebenfalls aus dem Audiosignal entfernt wären. Dies wird jedoch nicht ohne signifikante Qualitätseinbußen mög lich sein. Solchermaßen in Audiosignale eingebrachte Daten können daher auch in Analogie zu Banknoten als "Wasserzei chen" bezeichnet werden.

Das in der WO 97/33391 beschriebene Verfahren zur Einbrin gung eines nicht hörbaren Datensignals in ein Audiosignal arbeitet unter Verwendung der Audioabtastwerte, die als Zeitbereichs-Abtastwerte vorliegen. Dies macht es erforder lich, daß Audiostücke, d. h. Musikstücke, Hörspiele und ähn liches, als Folge von zeitlichen Abtastwerten vorliegen müs sen, um mit einem Wasserzeichen versehen zu werden. Dies hat den Nachteil, daß dieses Verfahren nicht für bereits kompri mierte Datenströme, die beispielsweise einer Verarbeitung nach einem der MPEG-Verfahren unterzogen worden sind, einge setzt werden kann. Dias bedeutet, daß ein Anbieter von Mu sikstücken, der die Musikstücke vor der Auslieferung an den Kunden mit einem Wasserzeichen versehen möchte, die Musik stücke als Folge von PCM-Abtastwerten speichern muß. Dies führt dazu, daß ein Anbieter für Musikstücke eine überaus große Speicherkapazität zur Verfügung haben muß. Es wäre je doch wünschenswert, die äußerst effektiven Audiokomprimie rungsverfahren bereits zum Speichern der Audiodaten bei dem Anbieter einzusetzen.

Selbstverständlich könnte ein Anbieter für Audiodaten der oben beschriebenen Art einfach hergehen, sämtliche Musik stücke beispielsweise unter Verwendung des Standards MPEG-2 AAC 13818-7 komprimieren und dann, bevor das Audiostück mit einem Wasserzeichen versehen werden soll, wieder vollständig dekomprimieren, um wieder eine Folge von Audio-Abtastwerten ("Samples") zu haben, die dann in eine bekannte Vorrichtung zum Einbringen eines nicht hörbaren Datensignals eingespeist werden, um ein Wasserzeichen einzubringen. Dies bringt je doch einen wesentlichen Aufwand dahingehend mit sich, daß vor dem Einbringen der Informationen in das Audiosignal eine vollständige Dekomprimierung bzw. Decodierung erforderlich ist. Eine solche Decodierung kostet Zeit und Geld. Wesentlich gravierender ist jedoch die Tatsache, daß bei einer solchen Vorgehensweise Tandem-Codiereffekte auftreten.

Ein weiterer Nachteil dieser Vorgehensweise besteht darin, daß aufgrund der Tatsache, daß das Wasserzeichen in die PCM-Daten eingebracht wird, keine Sicherheit darüber gegeben ist, ob das Wasserzeichen nach einer Audio-Komprimierung noch vorhanden ist. Wenn mit Wasserzeichen versehene PCM- Daten mit relativ niedriger Bitrate codiert werden, führt der Codierer beim Quantisieren aufgrund der relativ niedri gen Bitrate viel Quantisierungsrauschen ein, das im extremen Fall dazu führen wird, daß kein Wasserzeichen mehr decodiert werden kann. Problematisch ist also, daß bei dieser Vorge hensweise die Bitrate des Audiocodierers, der die mit Was serzeichen versehenen PCM-Daten codiert, nicht von vornehe rein bekannt ist, weshalb keine sichere Steuerung des Ver hältnisses zwischen Wasserzeichenenergie und Störenergie aufgrund des Quantisierungsrauschens möglich ist.

Es ist bekannt, daß Audio-Codierverfahren nach einem der MPEG-Standards keine verlustlosen Codierverfahren, sondern verlustbehaftete Codierverfahren sind. Biteinsparungen im Vergleich zur direkten Übertragung von Audio-Abtastwerten im Zeitbereich werden zu einem Großteil dadurch erreicht, daß psychoakustische Maskierungseffekte ausgenutzt werden. Ins besondere wird für einen Block von beispielsweise 2048 Au dio-Abtastwerten die psychoakustische Maskierungsschwelle als Funktion der Frequenz ermittelt, woraufhin nach einer Zeit-Frequenz-Transformation der Audio-Abtastwerte die Quan tisierung der Spektralwerte, die das Kurzzeitspektrum ent hält, unter Berücksichtigung dieser psychoakustischen Mas kierungsschwelle durchgeführt wird. Anders ausgedrückt wird die Quantisierer-Schrittweite so gesteuert, daß die durch das Quantisieren eingefügte Störenergie kleiner oder gleich der psychoakustischen Maskierungsschwelle ist. In Bereichen des Audiosignals, in denen das Verdeckungsmaß, d. h. das Verhältnis der Audiosignalenergie und der psychoakustischen Maskierungsschwelle, sehr klein ist, wie z. B. in sehr rauschhaften Bereichen des Audiosignals, müssen die Spek tralwerte lediglich grob quantisiert werden, ohne daß es nach einem anschließenden Decodieren zu hörbaren Störungen kommt. In anderen Bereichen, in denen das Audiosignal sehr tonal ist, muß feiner quantisiert werden, derart, daß eine relativ kleine Störenergie aufgrund des Quantisierens ent steht, da das Verdeckungsmaß hier sehr groß ist.

Aus dem Vorstehenden wird deutlich, daß aufgrund der Quanti sierungsvorgehensweise Informationen des ursprünglichen Au diosignals verloren gehen. Dies spielt noch keine Rolle, wenn das quantisierte Audiosignal wieder decodiert wird, da die Störenergie aufgrund des Quantisierens so verteilt wur de, daß sie unter der psychoakustischen Maskierungsschwelle bleibt und somit, wenn ein ideales psychoakustisches Modell verwendet wurde, unhörbar sein wird. Diese Betrachtungen gelten jedoch immer nur für ein bestimmtes Kurzzeitspektrum bzw. für einen Block von z. B. 2.048 aufeinanderfolgenden Audio-Abtastwerten. Nach der Decodierung enthält der Block von Audio-Abtastwerten jedoch keine Informationen mehr da rüber, wie die Blockbildung durchgeführt wurde. Wenn die bekannte Vorrichtung zum Einbringen von Informationen ver wendet wird, die in den allermeisten Fällen eine bestimmte Verzögerung im Vergleich zu einem Audio-Codierer, der keine Informationen einbringt, hat, kann nicht davon ausgegangen werden, daß rein zufällig die gleiche Blockeinteilung statt findet. Stattdessen werden die Blockeinteilung, die Kurz zeit-Spektrum-Bildung und die Quantisierung in einem völlig anderen Blockraster stattfinden. Eine erneute Decodierung wird dann üblicherweise zu deutlich hörbaren Störungen führen, da sie sich nicht auf das gleiche Kurzzeitspektrum sondern auf unterschiedliche Kurzzeitspektren bezieht. Dieses Auftreten von hörbaren Störungen durch zwei Codie rer/Decodierer-Stufen aufgrund ihrer unterschiedlichen Ein teilung des Stroms von Audio-Abtastwerten in Blöcke wird als Tandem-Codiereffekt bezeichnet.

Es sei hier darauf hingewiesen, daß im allgemeinen Fall durch das Einbringen des nicht hörbaren Datensignals Stör energie in das Audiosignal eingeführt wird, das ohnehin schon Störenergie aufgrund des nicht unendlich feinen Quan tisierungsverfahrens hat. Das Einbringen des nicht hörbaren Datensignals führt damit tendenziell zu einer Verschlechte rung der Audioqualität, es sei denn, daß besondere Vorkeh rungen unternommen werden. In diesem Zusammenhang ist eine zusätzliche Einführung von Störenergie aufgrund der Tan dem-Codiereffekte, die vorstehend ausgeführt wurden, umso weniger wünschenswert, da dieser Qualitätsverlust einfach systembedingt ohne Nutzen auftritt, während kleine Quali tätsverschlechterungen aufgrund des Wasserzeichens eher in Kauf genommen werden, da das Wasserzeichen einen Nutzen mit sich bringt. Tandem-Codiereffekte bringen jedoch nur Störun gen, aber überhaupt keinen Nutzen mit sich.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zu schaffen, das es ermöglicht, Audiostücke mit ei nem Wasserzeichen zu versehen, während die Auswirkungen des Wasserzeichens auf die Audioqualität möglichst gering sein sollen.

Diese Aufgabe wird durch ein Verfahren zum Einbringen von Informationen in einen Datenstrom nach Patentanspruch 1, durch ein Verfahren zum Codieren eines Audiosignals nach Pa tentanspruch 10 oder 11, durch eine Vorrichtung zum Einbrin gen von Informationen nach Patentanspruch 12 und durch eine Vorrichtung zum Codieren eines Audiosignals nach Patentan spruch 14 oder Patentanspruch 15 gelöst.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß davon abgegangen werden muß, vor dem Einbringen des Was serzeichens eine vollständige Decodierung durchzuführen. Stattdessen wird erfindungsgemäß ein Datenstrom, der Spek tralwerte aufweist, die ein Kurzzeitspektrum eines Audiosi gnals darstellen, lediglich teilweise "entpackt", bis die Spektralwerte vorliegen. Die Entpackung ist jedoch keine vollständige Decodierung sondern lediglich eine teilweise Decodierung, bei der die Informationen über die Blockbildung bzw. das im ursprünglichen Codierer eingesetzte Blockraster nicht angetastet werden.

Dies wird dadurch erreicht, daß das erfindungsgemäße Verfah ren mit Spektralwerten und nicht mit zeitlichen Abtastwerten (Samples) durchgeführt wird. Die Informationen, die in das Audiosignal eingebracht werden sollen, werden im Sinne eines Spread-Spectrum-Modulation mit einer Spreizsequenz beauf schlagt, um ein gespreiztes Informationssignal zu erhalten. Anschließend wird eine spektrale Darstellung des gespreizten Informationssignals beispielsweise durch eine Filterbank, eine FFT, einer MDCT oder ähnliches erzeugt, um ein spektra les gespreiztes Informationssignal zu erhalten. Nun wird ei ne psychoakustisch maskierbare Störung als Funktion der Fre quenz für das Kurzzeitspektrum des Audiosignals ermittelt, um dann das spektrale gespreizte Informationssignal unter Verwendung der ermittelten Störenergie zu gewichten, so daß ein gewichtetes Informationssignal erzeugt werden kann, des sen Energie im wesentlichen gleich oder unterhalb der psy choakustischen Maskierungsschwelle liegt. Daran anschließend wird das gewichtete Informationssignal mit den Spektralwer ten des Kurzzeitspektrums des Audiosignals summiert, um Sum men-Spektralwerte zu erhalten, die das Kurzzeitspektrum des Audiosignals und zusätzlich die eingebrachten Informationen umfassen. Schließlich werden die Summen-Spektralwerte wieder verarbeitet, um einen verarbeiteten Datenstrom zu erhalten, der die Daten über die Spektralwerte des Kurzzeitspektrums des Audiosignals und die einzubringenden Informationen um faßt. Im Falle eines MPEG-AAC-Codierers wird das Verarbeiten der Summen-Spektralwerte wieder das Quantisieren und Entro pie-Codieren beispielsweise unter Verwendung eines Huffman- Codes zum Gegenstand haben.

Es sei darauf hingewiesen, daß dadurch nicht die Blockraste rung, die der ursprüngliche Codierer festgelegt hat, der den Datenstrom erzeugt hat, angetastet wird. Dadurch entstehen keine Tandem-Effekte, die zu einem Verlust der Audioqualität führen würden. Darüberhinaus wird es bevorzugt, daß bei der nach dem Gewichten erfolgenden Verarbeitung, die ein Quanti sieren umfaßt, die gleiche Quantisierungsschrittweite wie im ursprünglichen Bitstrom verwendet wird, was den Vorteil mit sich bringt, daß die sehr rechenaufwendigen Iterations schleifen des Quantisierers nicht erneut berechnet werden müssen.

Das erfindungsgemäße Einbringen eines Wasserzeichens direkt in einen Datenstrom ermöglicht beispielsweise das Einbringen einer Kundennummer während der Auslieferung der Musik an ei nen Kunden, da das Verfahren auf modernen Personalcomputern in mehrfacher Echtzeit ablaufen kann, da u. a. zusätzlich auf die aufwendige Frequenz-Zeit-Transformation verzichtet werden kann, die bei einer vollständigen Decodierung erfor derlich sein würde.

Ein weiterer Vorteil der vorliegenden Erfindung besteht dar in, daß der Musikanbieter, d. h. der Musikprovider, nicht mehr die PCM-Abtastwerte speichern muß, sondern vorcodierte Datenströme speichern kann, was im Speicherplatz durchaus einen Faktor in der Größenordnung von 12 mit sich bringen kann, und daß der Provider trotzdem kundenspezifische Was serzeichen einbringen kann, ohne daß zusätzlich Tandem-Co diereffekte auftreten würden, die einen Audioqualitätsver lust zur Folge hätten.

Das erfindungsgemäße Verfahren kann einfach implementiert werden, da nur eine zusätzliche Zeit/Frequenz-Transformation des gespreizten Informationssignals erforderlich ist. Ein weiterer wesentlicher Vorteil besteht darin, daß das erfin dungsgemäße Verfahren eine gute Interoperabilität besitzt, d. h. daß Standard-Datenströme verarbeitet werden können, und daß für Wasserzeichen gemäß den bekannten Verfahren und für Wasserzeichen gemäß dem erfindungsgemäßen Verfahren der gleiche Wasserzeichendecodierer verwendet werden kann. Schließlich besteht ein weiterer Vorteil darin, daß ein Au diocodierer das Wasserzeichen nicht mehr auslöschen kann, da eine genaue Steuerung des Verhältnisses zwischen Quantisie rungsrauschen und Wasserzeichenenergie besteht.

Es sei darauf hingewiesen, daß es selbstverständlich möglich ist, das Wasserzeichen unbefugt wieder zu entfernen, wenn der mit einem Wasserzeichen versehene Datenstrom decodiert wird und dann wieder codiert wird, jedoch nun mit niedriger Bitrate. In diesem Fall wird die durch den Quantisierer ein geführte Störenergie die Wasserzeichenenergie übersteigen, so daß dann kein Wasserzeichen mehr aus dem Audiosignal ex trahiert werden kann. Dies ist jedoch unproblematisch, da die Audioqualität des Audiosignals aufgrund des hohen Quan tisierungsrauschen derart stark abgenommen hat, daß ein sol ches schlechtes Audiosignal auch nicht mehr geschützt werden muß. Ist nämlich in einem Audiosignal das Wasserzeichen zer stört, so ist auch seine Qualität zerstört.

Die psychoakustisch maskierbare Störenergie kann auf ver schiedene Arten und Weisen ermittelt werden. Eine erste Op tion besteht darin, zum Ermitteln der psychoakustisch mas kierbaren Störenergie ein psychoakustisches Modell einzu setzen, das aus dem Kurzzeitspektrum die psychoakustische Maskierungsschwelle als Funktion der Frequenz erzeugt. Es existiert eine Vielzahl von psychoakustischen Modellen, wo bei hier die psychoakustischen Modelle besonders von Vorteil sind, die ohnehin mit Spektralwerten des Kurzzeitspektrums arbeiten, da diese Spektralwerte direkt aufgrund des teil weisen Entpackens des Datenstroms vorliegen. Alternativ kön nen jedoch auch psychoakustische Modelle zum Einsatz kommen, die für Zeitbereichsdaten ausgestaltet sind, wobei hier im Gegensatz zu der oben beschriebenen Option eine Frequenz- Zeit-Transformation erforderlich sein würde. Obwohl die Mög lichkeit des Berechnens eines psychoakustischen Modells, um die psychoakustische Maskierungsschwelle des Kurzzeitspek trums zu erhalten, relativ rechenzeitaufwendig ist, liefert jedoch bereits diese Möglichkeit den entscheidenden Vorteil, daß keine Tandem-Codiereffekte erzeugt werden, da die Block rasterung nicht angetastet wird.

Eine weitere, im Rechenzeitaufwand günstigere Option zum Er mitteln der psychoakustisch maskierbaren Störenergie besteht darin, daß der Datenstrom derart erzeugt worden ist, daß er neben den Spektralwerten und den üblichen Seiteninforma tionen auch für jedes Kurzzeitspektrum die psychoakustische Maskierungsschwelle als Funktion der Frequenz enthält. Ein Ermitteln der psychoakustisch maskierbaren Störenergie funk tioniert dann einfach durch Extrahieren der im Datenstrom übertragenen psychoakustischen Maskierungsschwelle. Bei die ser Möglichkeit und der vorher beschriebenen Möglichkeit, bei der das psychoakustische Maskierungsmodell berechnet wird, ist die psychoakustisch maskierbare Störenergie die psychoakustische Maskierungsschwelle selbst. Nachteilig an dem Verfahren des Übertragens der psychoakustischen Maskie rungsschwelle im Datenstrom ist die Tatsache, daß ein Spe zial-Audiocodierer benötigt wird, da bei üblichen Audio-Co dierern die psychoakustische Maskierungsschwelle nicht über tragen wird, sondern lediglich die Spektralwerte und die entsprechenden Skalenfaktoren. In geschlossenen Systemen ist jedoch Kompatibilität zu Standard-Datenströmen nicht er forderlich. Hier kann diese Option daher mit einfachem Auf wand und rechenzeitgünstig implementiert werden.

Eine weitere Möglichkeit besteht darin, einen Spezial-Audio codierer vorzusehen, dessen Quantisierer immer so arbeitet, daß das Quantisierungsrauschen um einen vorbestimmten Betrag geringer als die psychoakustische Maskierungsschwelle ist. Dies bedeutet, daß der Codierer so ausgelegt ist, daß sein Quantisierer etwas feiner quantisiert, als er eigentlich müßte, derart, daß zusätzliche Störenergie hinzugefügt wer den kann, ohne daß eine Störung hörbar wird. Diese zusätz liche Störenergie kann dann beim Einbringen von Informatio nen in den Datenstrom "aufgebraucht" werden, um die Informa tionen einzubringen. Im Falle eines optimalen psychoakusti schen Modells führt diese Möglichkeit zu einem Datenstrom mit eingebrachtem Wasserzeichen, der überhaupt keine Quali tätsverschlechterung erlitten hat. Nachteilig an diesem Verfahren ist ebenso wie beim direkten Übertragen der psycho akustischen Maskierungsschwelle die Tatsache, daß dieses Verfahren nicht mit üblichen Codierern kompatibel ist.

Eine weitere Möglichkeit zum Ermitteln der psychoakustisch maskierbaren Störenergie besteht darin, die tatsächlich durch das Quantisieren des Codierers, der den Datenstrom erzeugt hat, eingebrachte Störenergie zu ermitteln und daraus die psychoakustisch maskierbare Störenergie, die die Informationen beim Gewichten erhalten werden, abzuleiten. Diese Option geht davon aus, daß der Codierer so quantisiert hat, daß die Störenergie unter der psychoakustischen Maskie rungsschwelle oder lediglich knapp darüber gelegen hat. Die ses Verfahren kommt ebenfalls wie das als erste Möglichkeit beschriebene Verfahren mit den Standard-Bitströmen aus, da lediglich die Spektralwerte und die Skalenfaktoren, die beide im Datenstrom vorhanden sind, benötigt werden, um die psychoakustisch maskierbare Störenergie zu erhalten. Aus den Skalenfaktoren kann die Schrittgröße des Quantisierers, der dem entsprechenden Skalenfaktor zugeordnet ist, ermittelt werden, um damit die in einem Skalenfaktorband eingebrachte Störenergie zu errechnen, die typischerweise gleich der psy choakustischen Maskierungsschwelle sein wird oder darunter liegen wird. Die beim Gewichten verwendete psychoakustisch maskierbare Störenergie für die eingebrachten Informationen kann gleich der Quantisierungsstörenergie sein, sie kann aber auch einen Faktor zwischen größer als Null und kleiner als Eins haben, wobei ein Faktor näher bei Null zu weniger hörbaren Störungen aufgrund des Wasserzeichens führen wird, aber beim Extrahieren problematischer sein könnte als ein Faktor näher bei Eins.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeich nungen detailliert erläutert. Es zeigen:

Fig. 1 ein Blockdiagramm einer erfindungsgemäßen Vorrich tung zum Einbringen von Informationen in einen Datenstrom;

Fig. 2 ein detailliertes Blockdiagramm der Wasserzeichen einrichtung von Fig. 1;

Fig. 3a eine schematische Darstellung eines Verfahrens zum Ermitteln der maskierbaren Störenergie unter Ver wendung eines psychoakustischen Modell;

Fig. 3b eine schematische Darstellung eines Verfahrens zum Ermitteln der maskierbaren Störenergie, wenn die psychoakustische Maskierungsschwelle im Datenstrom übertragen wird;

Fig. 3c eine schematische Darstellung eines Verfahrens zum Ermitteln der maskierbaren Störenergie, wenn die Störenergie unter Kenntnis der Spektralwerte und der Skalenfaktoren geschätzt wird;

Fig. 3d eine schematische Darstellung eines Verfahrens zum Ermitteln der psychoakustisch maskierbaren Stör energie, wenn im Datenstrom Energie für das Wasser zeichen freigehalten wird; und

Fig. 4 ein Blockdiagramm eines erfindungsgemäßen Audioco dierers, der entweder die psychoakustische Maskie rungsschwelle in den Datenstrom schreibt, oder den vorbestimmten Betrag für das in Fig. 3d beschrie bene Verfahren in den Datenstrom schreibt und des sen Quantisierer entsprechend gesteuert ist.

Bevor detaillierter auf die einzelnen Figuren eingegangen wird, wird der systemtheoretische Hintergrund der vorliegen den Erfindung kurz beleuchtet. Generell darf das Einbringen der Informationen in das Audiosignal zu keiner bzw. nur ei ner sehr schwer hörbaren Qualitätsverschlechterung des Audiosignals führen. Um festzustellen, wieviel Energie das Signal, das die einzubringenden Informationen darstellt, haben darf, wird unter Verwendung eines psychoakustischen Mo dells die Maskierungsschwelle des Audiosignals fortlaufend berechnet. Die frequenzselektive Berechnung der Maskierungs schwelle unter Verwendung beispielsweise der kritischen Bän der sowie eine Vielzahl weiterer psychoakustischer Modelle sind in der Technik bekannt. Beispielhaft wird auf den Stan dard MPEG2-AAC (ISO/IEC 13818-7) verwiesen.

Das psychoakustische Modell führt zu einer Maskierungs schwelle für ein Kurzzeitspektrum des Audiosignals. Übli cherweise wird die Maskierungsschwelle über der Frequenz va riieren. Per Definition wird angenommen, daß ein in das Audiosignal eingebrachtes Signal dann unhörbar sein wird, wenn die Energie dieses Signals unterhalb der Maskierungs schwelle ist. Die Maskierungsschwelle hängt stark von der Zusammensetzung des Audiosignals ab. Rauschhafte Signale ha ben eine höhere Maskierungsschwelle als sehr tonale Signale. Die Energie des Signals, das in das Audiosignal eingebracht wird, variiert daher stark über der Zeit. Üblicherweise wird zum Decodieren der in ein Audiosignal eingebrachten Informa tionen ein bestimmtes Signal/Rausch-Verhältnis benötigt. Da bei kann es vorkommen, daß bei sehr tonalen Audiosignalab schnitten die Energie des zusätzlich eingebrachten Signals derart gering wird, daß das Signal/Rausch-Verhältnis zum sicheren Decodieren nicht mehr ausreicht. Ein Decodierer kann daher in solchen Bereichen einzelne Bits nicht mehr korrekt decodieren. Systemtheoretisch gesehen kann daher das Einbringen von Informationen in ein Audiosignal in Abhängig keit von der psychoakustischen Maskierungsschwelle als das Übertragen eines Datensignals über einen Kanal mit stark va riierender Störenergie betrachtet werden, wobei das Audiosi gnal, d. h. das Musiksignal, als Störsignal aufgefaßt wird.

Fig. 1 zeigt ein Blockdiagramm einer erfindungsgemäßen Vor richtung bzw. eines erfindungsgemäßen Verfahrens zum Ein bringen von Informationen in einen Datenstrom, der Spektral werte aufweist, die ein Kurzzeitspektrum eines Audiosignals darstellen. Der Datenstrom, der am Eingang eines Datenstrom-Demultiplexers 10 anliegt, wird, wenn er gemäß dem er wähnten MPEG-AAC-Standard verarbeitet ist, zunächst allge mein in Spektralwerte auf einer Leitung 12 und Seiteninfor mationen auf einer Leitung 14 zerlegt, wobei von den Seiten informationen hier die Skalenfaktoren speziell genannt sei en. Die Spektralwerte, die hinter dem Demultiplexer 10 noch Entropie-codiert sind, werden dann einem Entropie-Decodierer 16 zugeführt und dann einem inversen Quantisierer 18, der unter Verwendung der quantisierten Spektralwerte und der da zu gehörigen Skalenfaktoren, die über die Leitung 14 dem inversen Quantisierer 18 zu Verfügung gestellt werden, die Spektralwerte des Audiosignals erzeugt, die das Kurzzeit spektrum desselben darstellen. Die Spektralwerte werden dann in eine Wasserzeicheneinrichtung 20 eingespeist, die Sum men-Spektralwerte erzeugt, die das Kurzzeitspektrum des Au diosignals und darüber hinaus die einzubringenden Informa tionen umfassen. Diese Summen-Spektralwerte werden dann wieder in einen Quantisierer 22 gespeist und in einem daran anschließenden Entropie-Codierer 24 Entropie-codiert, um schließlich einem Datenstrom-Multiplexer 26 zugeführt zu werden, der auch wieder die nötigen Seiteninformationen, wie z. B. die Skalenfaktoren, erhält. Am Ausgang des Multiple xers 26 liegt dann ein verarbeiteter Datenstrom vor, der sich vom Datenstrom am Eingang des Demultiplexers 10 darin unterscheidet, daß er nun ein Wasserzeichen hat, d. h. daß in ihn Informationen eingebracht worden sind.

Bevor näher auf Fig. 2 eingegangen wird, die eine detail liertere Darstellung der Wasserzeicheneinrichtung 20 auf weist, sei zum Verständnis auf einen MPEG-2 AAC-Audiocodie rer eingegangen, wie er beispielsweise im Anhang B des Stan dard ISO/IEC 13818-7: 1997(E) als informativer Teil be schrieben ist. Einem solchen Codierer liegt grundsätzlich die Idee zugrunde, das Quantisierungsrauschen unter die sogenannte psychoakustische Maskierungsschwelle zu bringen, d. h. zu verstecken. Zur Transformation der Audio-Abtastwer te in den Frequenzbereich, d. h. zum Erzeugen der spektralen Darstellung des Audiosignals wird eine Analysefilterbank eingesetzt, die als kritisch-unterabgetastete DCT (DCT = diskrete Cosinustransformation) realisiert ist, und die ei nen Überlappungsgrad von 50% hat. Ihr Zweck besteht darin, eine spektrale Darstellung des Eingangssignals zu schaffen, das schließlich quantisiert und codiert wird. Zusammen mit einer entsprechenden Filterbank im Decodierer entsteht somit ein Synthese/Analyse-System.

Das psychoakustische Modell, das in solchen Codierern ver wendet wird, basiert auf dem psychoakustischen Phänomen der Maskierung. Sowohl Frequenzbereichsmaskierungseffekte als auch Zeitbereichmaskierungseffekte können dabei modelliert werden. Das psychoakustische Modell liefert einen Schätzwert für "Rausch"-Energie, die dem ursprünglichen Audiosignal hinzugefügt werden kann, ohne daß hörbare Störungen auftre ten. Diese maximal zulässige Energie wird als psychoakusti sche Maskierungsschwelle bezeichnet.

Der Quantisierer 22 sowie der Codierer 24 in Fig. 1 werden im nachfolgenden beschrieben. Typischerweise wird mehr als eine Spektrallinie mit derselben Quantisierer-Schrittgröße quantisiert. Daher werden mehrere benachbarte Spektrallinien in sogenannte Skalenfaktorbänder gruppiert. Der Quantisierer optimiert die Quantisiererschrittgröße für jedes Skalenfak torband. Die Quantisiererschrittgröße wird so bestimmt, daß der Quantisierungsfehler unter oder gleich der berechneten psychoakustischen Maskierungsschwelle ist, um sicherzustel len, daß das Quantisierungsrauschen unhörbar ist. Es ist zu sehen, daß zwei Begrenzungen berücksichtigt werden müssen, zwischen denen ein Kompromiß gefunden werden muß. Einerseits sollte der Bitverbrauch so niedrig als möglich gehalten wer den, um hohe Kompressionsverhältnisse, d. h. einen hohen Co diergewinn, zu erreichen. Andererseits muß sichergestellt werden, daß das Quantisierungsrauschen unter der psychoaku stischen Maskierungsschwelle ist, damit im codierten und wieder decodierten Audiosignal keine Störungen hörbar sind. Typischerweise wird dieses Optimierungsverfahren in einer iterativen Schleife berechnet. Das Resultat dieser Schleife ist eine Quantisiererschrittgröße, die mit einem Skalenfak tor für ein Skalenfaktorband eindeutig korrespondiert. An ders ausgedrückt werden die Spektralwerte eines Skalenfak torbandes mit einer Quantisiererschrittgröße quantisiert, die dem für das Skalenfaktorband maßgeblichen Skalenfaktor eindeutig zugeordnet ist. Das heißt, daß zwei verschiedene Skalenfaktoren auch zwei verschiedene Quantisiererschritt größen zur Folge haben können.

Der Bitstrom wird durch einen Bitstrommultiplexer zusammen gesetzt, der im wesentlichen Formatierungsaufgaben erfüllt. Der Datenstrom, der im Falle eines Binärsystems ein Bitstrom ist, enthält somit die quantisierten und codierten Spektral werte oder Spektralkoeffizienten sowie die Skalenfaktoren und weitere Seiteninformationen, die im erwähnten MPEG-AAC- Standard detailliert dargestellt und erläutert sind.

Fig. 2 zeigt ein detaillierteres Blockdiagramm der Wasser zeicheneinrichtung 20 von Fig. 1. An einer Quelle 30 für Informationseinheiten werden Informationseinheiten, vorzugs weise in Form von Bits, einer Einrichtung 32 zum Spreizen zugeführt. Die Einrichtung 32 zum Spreizen basiert grund sätzlich auf einer Spread-Spektrum-Modulation, die insbeson dere unter Verwendung einer Pseudo-Noise-Spreizsequenz bei einer Korrelation im Wasserzeichenextraktor günstig ist. Die Informationen werden Bit für Bit mit der Spreizsequenz be aufschlagt. Das Beaufschlagen findet vorzugsweise so statt, daß für ein Informationsbit mit einem logischen Pegel von +1 die Spreizsequenz unverändert am Ausgang der Einrichtung 32 erzeugt wird, während für ein Informationsbit mit einem lo gischen Pegel von 0, was beispielsweise einem Spannungspegel von -1 entsprechen kann, die umgekehrte Spreizsequenz am Ausgang der Einrichtung 32 erzeugt wird. Damit entsteht ein "Zeitsignal" am Ausgang der Einrichtung 32, das die ge spreizten Informationen aus der Quelle 30 für Informationen enthält. Dieses gespreizte Informationssignal wird dann durch eine Einrichtung 34 zum Transformieren in seine spek trale Darstellung überführt, die ein FFT-Algorithmus, eine MDCT, etc., aber auch eine Filterbank sein kann. Die spek trale Darstellung des gespreizten Informationssignals wird in einer Einrichtung 36 gewichtet, um dann mit den Spektral werten in einer Einrichtung 38 summiert zu werden, derart, daß am Ausgang der Einrichtung 38 die Summen-Spektralwerte anliegen, die dann bezugnehmend auf Fig. 1 quantisiert (22) und codiert (24) werden können, um dem Bitstrom-Multiplexer 26 zugeführt zu werden. Die Wasserzeicheneinrichtung 20 ent hält ferner eine Einrichtung 40 zum Ermitteln der maskierba ren Störenergie für das Kurzzeitspektrum, das durch die Spektralwerte gegeben ist.

Es sei darauf hingewiesen, daß die Einrichtung 34 zum Trans formieren des gespreizten Informationssignals vorzugsweise eine Spektraltransformation durchführt, die der dem Daten strom am Eingang des Demultiplexers 10 (Fig. 1) zugrunde liegenden Transformation entspricht. Das heißt, daß die Ein richtung 34 zum Transformieren vorzugsweise dieselbe modifi zierte diskrete Cosinustransformation durchführt, die ur sprünglich zum Erzeugen des nicht-verarbeiteten Datenstroms verwendet wurde. Dies ist ohne weiteres möglich, da Informa tionen, wie z. B. Fenstertyp, Fensterform, Fensterlänge usw., als Seiteninformationen im Bitstrom übertragen werden. Diese Verknüpfung ist durch die in Fig. 2 gestrichelt dar gestellte Linie vom Bitstrom-Demultiplexer 10 (Fig. 1) ange deutet.

Wie es bereits bezugnehmend auf Fig. 1 ausgeführt worden ist, werden die Summen-Spektralwerte nach der Addition im Summierer 38 wieder einer Quantisierung und Codierung unter zogen. Hier stellt sich die Frage, wie das Quantisiererin tervall, d. h. die Quantisiererschrittgröße, auf die bereits eingegangen worden ist, bestimmt werden soll, d. h. ob die Iterationen erneut durchgeführt werden müssen, oder ob dar auf verzichtet werden kann. Aufgrund der Tatsache, daß die Wasserzeichenenergie im Vergleich zur Audiosignalenergie üb licherweise sehr klein ist, können vorzugsweise dieselben Skalenfaktoren wie im ursprünglichen Bitstrom eingesetzt werden. Dies ist in Fig. 1 durch die Verbindungslinie 14 vom Demultiplexer 10 zum Multiplexer 26 dargestellt. Das heißt, daß das Quantisieren durch den Quantisierer 22 wesentlich einfacher durchgeführt werden kann, da es nicht mehr notwen dig ist (aber dennoch möglich ist), die Iterationsschleifen auszuführen, um einen optimalen Kompromiß zwischen Bitrate und Quantisiererschrittgröße zu bestimmen. Stattdessen wer den vorzugsweise einfach die bereits bekannten Skalenfakto ren verwendet.

Im nachfolgenden wird auf verschiedene Möglichkeiten einge gangen, um die durch das Kurzzeitspektrum maskierbare Stör energie zu ermitteln, die beim Gewichten der spektralen Dar stellung des gespreizten Informationssignals benötigt wird. Hierzu existieren verschiedene Möglichkeiten, die nachfol gend bezugnehmend auf die Fig. 3a-3d erläutert sind.

In Fig. 3a wird ein psychoakustisches Modell eingesetzt, um unter Verwendung der Spektralwerte des Audiosignals die psy choakustische Maskierungsschwelle des entsprechenden Kurz zeitspektrums zu errechnen. Aufgrund der Tatsache, daß psy choakustische Modelle in der Literatur und dem erwähnten Standard beschrieben sind, sei hier lediglich erwähnt, daß vorzugsweise psychoakustische Modelle verwendet werden kön nen, die ohnehin mit Spektraldaten arbeiten bzw. eine Zeit/Frequenz-Transformation beinhalten. In diesem Fall ist das psychoakustische Modell zum ursprünglichen psychoaku stischen Modell, das einem jedem Codierer zugrunde liegt, darin vereinfacht, daß dasselbe gleich mit Spektralwerten "gefüttert" werden kann, so daß überhaupt keine Fre quenz/Zeit-Transformation im psychoakustischen Modell erfor derlich ist. Das psychoakustische Modell schließlich wird die psychoakustische Maskierungsschwelle für das Kurzzeit spektrum ausgeben, derart, daß im Block 36 (Fig. 2) das Spektrum des gespreizten Informationssignals so geformt werden kann, daß es in jedem Skalenfaktorband eine Energie hat, die gleich der psychoakustischen Maskierungsschwelle bzw. unterhalb der psychoakustischen Maskierungsschwelle in diesem Skalenfaktorband ist. Es sei darauf hingewiesen, daß die psychoakustische Maskierungsschwelle eine Energie ist, wobei es angestrebt wird, daß die spektrale Darstellung des Informationssignals möglichst gleich der psychoakustischen Maskierungsschwelle ist, um die Informationen in das Audio signal durch möglichst viel Energie einzubringen, um in ei nem Extraktor des Wasserzeichens möglichst gute Korrelati onsspitzen zu erhalten.

Die in Fig. 3a gezeigte erste Möglichkeit hat den Vorteil, daß die psychoakustische Maskierungsschwelle sehr genau be rechnet werden kann, und daß dieses Verfahren mit üblichen Datenströmen vollständig kompatibel ist. Nachteilig darin ist jedoch die Tatsache, daß die Berechnung eines psycho akustischen Modells üblicherweise relativ zeitaufwendig sein kann, so daß gesagt werden kann, daß diese Möglichkeit zwar sehr genau und interoperabel ist, jedoch relativ viel Zeit benötigt.

Eine weitere Möglichkeit, die in Fig. 3b gezeigt ist, um die psychoakustisch maskierbare Störenergie zu erhalten, besteht darin, daß im Codierer, der den Datenstrom am Eingang des Demultiplexers 10 (Fig. 1) erzeugt hat, die psychoakustische Maskierungsschwelle für jedes Kurzzeitspektrum in den Bit strom geschrieben wird, derart, daß die erfindungsgemäße Vorrichtung zum Einbringen von Informationen in einen Daten strom lediglich die psychoakustische Maskierungsschwelle für jedes Kurzzeitspektrum aus den Seiteninformationen des Da tenstroms zu extrahieren braucht (40b), um die psychoaku stische Maskierungsschwelle zur Einrichtung 36 zum Gewichten der spektralen Darstellung des gespreizten Informationssi gnals (Fig. 2) auszugeben. Diese Möglichkeit hat den Vor teil, daß sie ebenfalls sehr genau ist und darüberhinaus sehr schnell ist, da lediglich zugegriffen und nicht gerech net werden muß, es wird jedoch die Interoperabilität beein trächtigt, d. h. Standardbitströme können nicht mehr nach träglich mit Wasserzeichen versehen werden, da sie keine psychoakustischen Maskierungsschwellen enthalten. Man benötigt hier somit einen erfindungsgemäßen Spezialcodierer, wie er in Fig. 4 beschrieben ist.

In Fig. 3c ist eine weitere Möglichkeit zum Ermitteln der psychoakustisch maskierbaren Störenergie gezeigt. Hier wird die psychoakustisch maskierbare Störenergie unter Verwendung der Spektralwerte und der Skalenfaktoren berechnet (40c). Es wird davon ausgegangen, daß der ursprüngliche Codierer, der den Datenstrom, in den das Wasserzeichen eingebracht werden soll, erzeugt hat, die durch die Quantisierung eingeführte Störenergie bereits so gewählt hat, daß sie unter der psy choakustischen Maskierungsschwelle bzw. auf der psychoaku stischen Maskierungsschwelle liegt. Dieses Verfahren ist zwar etwas ungenauer als das direkte Berechnen der psycho akustischen Maskierungsschwelle, ist jedoch im Vergleich zum direkten Berechnen der psychoakustischen Maskierungsschwelle sehr schnell und hält gleichzeitig die Interoperabilität aufrecht, d. h. arbeitet auch mit Standard-Bitströmen zu sammen.

Im nachfolgenden wird darauf eingegangen, wieso diese dritte Möglichkeit etwas ungenauer ist. Es existieren verschiedene Codiereransätze, die sich beispielsweise in den verwendeten Quantisiererimplementationen unterscheiden. Wie es bereits ausgeführt worden ist, darf ein Quantisierer die vorge schriebene Bitrate nicht überschreiten. Andererseits soll er die psychoakustische Maskierungsschwelle einhalten. So kann der Fall auftreten, daß ein Quantisierer die zur Verfügung stehende Bitrate gar nicht benötigt, da beispielsweise eine hohe Bitrate vorliegt, oder wenn ein Musikstück zu codieren ist, bei dem der Codiergewinn sehr hoch ist, wie es bei spielsweise bei tonalen Stücken der Fall ist. Bestimmte Quantisierer arbeiten hier so, daß sie feiner als nötig quantisieren und somit wesentlich weniger Störenergie durch Quantisieren in das Audiosignal einführen, als sie dürften. Es ist daher einsichtig, daß die erfindungsgemäße Vorrich tung, wie sie in Fig. 3c beschrieben ist, davon ausgeht, daß die psychoakustische Maskierungsschwelle wesentlich geringer ist als sie tatsächlich sein dürfte, was schließlich dazu führt, daß die spektrale Darstellung des gespreizten Infor mationssignals nach dem Gewichten wesentlich weniger Energie hat als sie haben dürfte, wodurch nicht die ganze verfügbare Energie, die das Wasserzeichen haben dürfte, ausgenutzt wird. Dies würde jedoch nicht der Fall sein, wenn ein Quan tisierer eingesetzt wird, der immer die maximal zulässige Störenergie durch das Quantisieren einführt und eventuell verbleibende Bits nicht beschreibt bzw. mit irgendwelchen bei einer Decodierung nicht berücksichtigten Werten füllt. In diesem Fall wäre die in Fig. 3c dargestellte Option ge nauso genau wie die beiden ersten Möglichkeiten. Im Falle des variablen Quantisierers entsteht jedoch auch eine va riable Bitrate. In diesem Fall könnte die Wasserzeichenein richtung auch dazu verwendet werden, die Bitrate konstant zu machen, durch Auffüllen von Bits, die das Wasserzeichen dar stellen, so daß die konstante Bitrate gleich der höchsten Bitrate des ursprünglichen Datenstroms mit variabler Bitrate ist.

Im nachfolgenden wird darauf eingegangen, wie unter Verwen dung der Spektralwerte und der Skalenfaktoren und darüber hinaus der Charakteristik des Quantisierers die Störenergie berechnet wird, die durch Quantisieren in ein Skalenfaktor band eingeführt worden ist. Hierbei gilt folgende Gleichung für die Energie Fxi des Quantisierungsfehlers für einen Spektralwert x_i:

|Fxi|² = (q^2α/12α²) . x_i ^2(1-α)

Es sei darauf hingewiesen, daß diese Gleichung für ungleich mäßige Quantisierer gilt, wie sie beispielsweise bei dem Standard MPEG-AAC vorgesehen sind. Für gleichmäßige Quanti sierer würde der zweite Term einfach wegfallen, wenn für α = 1 gesetzt wird.

Der in der Gleichung auftretende Faktor q hängt mit der Quantisiererschrittgröße QS folgendermaßen zusammen:

q = 2^QS/4

Der Faktor α lautet für den MPEG-AAC-Quantisierer 3/4.

Die Energie des Quantisierungsfehlers in einem Skalenfak torband ist dann die Summe der |Fxi|² in einem Skalenfak torband. Diese Energie muß, damit sie nicht hörbar ist, kleiner oder gleich der psychoakustischen Maskierungsschwel le in diesem Skalenfaktorband sein. Es sei darauf hingewie sen, daß die psychoakustische Maskierungsschwelle in einem Skalenfaktorband konstant ist, jedoch für unterschiedliche Skalenfaktorbänder unterschiedliche Werte einnimmt. Für die Energie des Quantisierungsfehlers x_min ergibt sich folgender Wert:

Der Index i soll anzeigen, daß immer über die Spektralwerte in einem Skalenfaktorband summiert werden muß, da die psy choakustische Maskierungsschwelle üblicherweise als Energie für dieses Skalenfaktorband gegeben ist.

Es sei darauf hingewiesen, daß in den Seiteninformationen des Datenstroms nicht direkt die Quantisiererschrittgrößen für die einzelnen Skalenfaktoren gegeben sind, daß jedoch gemäß Vereinbarung, wie sie im AAC-Standard aufgeführt ist, die Quantisiererschrittgröße, die jedem Skalenfaktor zuge ordnet ist, eindeutig abgeleitet werden kann. Darüberhinaus muß die Charakteristik des im ursprünglichen Codierer zum Erzeugen des Datenstroms verwendeten Quantisierers bekannt sein, d. h., wenn er ein ungleichmäßiger Quantisierer ist, der Kompressionsfaktor desselben, der beim AAC-Standard der Faktor 3/4 ist.

Die Spektrallinien der spektralen Darstellung des gespreiz ten Informationssignals werden nun, wie es bereits ausgeführt worden ist, so gewichtet, daß sie zusammen eine Ener gie haben, die kleiner oder gleich der psychoakustisch mas kierbaren Störenergie, und im Falle der in Fig. 3c beschrie benen Option gleich der Störenergie des Quantisierungspro zesses ist.

Wenn der Fall betrachtet wird, daß die durch die Quanti sierung in Skalenfaktorband eingeführte Störenergie bereits gleich der psychoakustischen Maskierungsschwelle ist, und dann dieselbe Energie noch einmal, jedoch nun für die ein zubringenden Informationen in das Audiosignal eingebracht wird, so ist zu sehen, daß die insgesamte Energie, d. h. die Störenergie aufgrund des Quantisierens und die Energie für die Informationen, die psychoakustische Maskierungsschwelle überschreiten können, was zu hörbaren Qualitätsverlusten führen kann, die jedoch aufgrund der Begrenzung der Energie der Informationen auf die psychoakustische Maskierungs schwelle klein sein werden, da die psychoakustische Maskie rungsschwelle um einen Faktor größer als 1 verletzt wird. Wie es bereits ausgeführt worden ist, wird eine Wasserzei chenenergie in der Größenordnung der psychoakustischen Mas kierungsschwelle dann zu Störungen führen, wenn auch das Quantisierungsrauschen bereits in der Größenordnung der psychoakustischen Maskierungsschwelle liegt. Es wird daher bevorzugt, die psychoakustisch maskierbare Störenergie, mit der gewichtet wird, so zu wählen, daß die gesamte Störener gie (Quantisierungsrauschen plus "Störenergie" der Informa tionen) kleiner als das 1,5-fache der psychoakustischen Maskierungsschwelle ist, wobei noch kleinere Faktoren bis nahe 1,0 möglich sind. Es sei darauf hingewiesen, daß auch kleine Faktoren sinnvoll sind, da aufgrund der Spreizung des Informationssignals bereits eine hohe Informationsredundanz eingeführt worden ist.

Anders ausgedrückt wird das Einbringen eines Wasserzeichens in ein Audiosignal, dessen psychoakustische Maskierungs schwelle bereits vollständig durch Störenergie aufgrund des Quantisierens verbraucht ist, zu einer geringen Verschlechterung der Audioqualität führen, die jedoch durch die Vor teile des Wasserzeichens leicht aufgehoben wird.

Um diese Beeinträchtigung zu überwinden, kann das in Fig. 3d gezeigte Konzept eingesetzt werden, bei dem von vorneherein der Quantisierer im Codierer derart gesteuert wird, daß die durch die Quantisierung eingeführte Störenergie durch Ein stellen der Quantisiererschrittgröße so gewählt wird, daß sie immer einen vorbestimmten Betrag unter der psychoakusti schen Maskierungsschwelle bleibt. Mit anderen Worten arbei tet ein Audiocodierer für ein solches Konzept so, daß er feiner quantisiert als nötig, wodurch ein Energiepotential für die einzubringenden Informationen, d. h. für das Wasser zeichen freibleibt. Dies hat den Vorteil, daß ein Wasserzei chen vollständig ohne Qualitätsverlust eingebracht werden kann, wenn beim Ermitteln der psychoakustisch maskierbaren Störenergie (40d) die ja nun um einen vorbestimmten Betrag kleiner als die psychoakustische Maskierungsschwelle ist, in der Einrichtung 40d der vorbestimmte Betrag berücksichtigt wird, so daß die Störenergie aufgrund des Quantisierens und die Energie aufgrund der einzubringenden Informationen zu sammen gleich oder kleiner als die psychoakustische Maskie rungsschwelle sind. Da die gewichteten Spektralwerte des ge spreizten Informationssignals mit den Spektralwerten des Audiosignals summiert werden, sind die Spektralwerte des In formationssignals nach ihrer Gewichtung gleich oder kleiner als der vorbestimmte Betrag.

Diese Option hat den Vorteil, daß ein Wasserzeichen ohne jeglichen Qualitätsverlust in einen Datenstrom eingebracht werden kann, daß jedoch einerseits die Interoperabilität leidet, und da der Quantisierer im Codierer immer um den vorbestimmten Betrag unter der psychoakustischen Maskie rungsschwelle bei der Einstellung der Störenergie durch das Quantisieren bleiben muß. Andererseits ist diese Möglichkeit in der Implementation sehr effizient, da kein psychoakusti sches Modell berechnet werden muß.

Im nachfolgenden wird auf Fig. 4 eingegangen, wobei Fig. 4 zwei Möglichkeiten für einen Codierer für Audiosignale zeigt, um einen Datenstrom zu erzeugen, der erfindungsgemäß besonders für ein Einbringen von Informationen geeignet ist. Ein solcher Audiocodierer kann grundsätzlich so aufgebaut sein, wie ein bekannter Audiocodierer, derart, daß er eine Einrichtung 50 zum Erzeugen einer spektralen Darstellung des Audiosignals, einen Quantisierer 52 zum Quantisieren der spektralen Darstellung des Audiosignals, einen Entropie-Co dierer 54 zum Entropie-Codieren der quantisierten Spektral werte und schließlich einen Datenstrommultiplexer 56 umfaßt. Der Datenstrom, der von dem Datenstrom-Multiplexer 56 ausge geben wird, erhält von einem ebenfalls bekannten psychoaku stischen Modell 58 über den Datenstrommultiplexer 56 die psychoakustische Maskierungsschwelle, die im Gegensatz zu einem bekannten Audiocodierer nun in den Datenstrom ge schrieben wird, derart, daß die erfindungsgemäße Vorrichtung zum Einbringen von Informationen einfach auf die psychoaku stische Maskierungsschwelle in dem Datenstrom zugreifen kann. Der in Fig. 4 durch die durchgezogene Linie 60 darge stellte Codierer ist somit das Gegenstück zu der in Fig. 1 gezeigten Vorrichtung zum Einbringen von Informationen, die als Einrichtung zum Ermitteln der maskierbaren Störenergie die in Fig. 3b gezeigte Option enthält.

In Fig. 4 gestrichelt ist die Audiocodierermöglichkeit gemäß der vorliegenden Erfindung dargestellt, die zu der in Fig. 3d gezeigten Option für die Einrichtung 40 zum Ermitteln der maskierbaren Störenergie in der in Fig. 1 gezeigten erfin dungsgemäßen Vorrichtung korrespondiert. Hierbei wird der Quantisierer durch einen vorbestimmten Betrag derart gesteu ert, daß die durch die Quantisierung eingeführte Störenergie um den vorbestimmten Betrag unterhalb der psychoakustischen Maskierungsschwelle ist, wobei der Wert des vorbestimmten Betrags über die gestrichelte Leitung 62 in den Datenstrom multiplexer 56 eingespeist wird, um in dem Datenstrom ent halten zu sein, derart, daß die erfindungsgemäße Vorrichtung zum Einbringen von Informationen auf den vorbestimmten Betrag zugreifen kann, um entsprechend gewichten zu können (Block 36 in Fig. 2).

Claims

1. Verfahren zum Einbringen von Informationen in einen Da tenstrom, der Daten über Spektralwerte aufweist, die ein Kurzzeitspektrum eines Audiosignals darstellen, mit folgenden Schritten:
Verarbeiten (10, 16, 18) des Datenstroms, um die Spek tralwerte des Kurzzeitspektrums des Audiosignals zu er halten;
Beaufschlagen (32) der Informationen mit einer Spreiz sequenz, um ein gespreiztes Informationssignal zu er halten;
Erzeugen (34) einer Spektraldarstellung des gespreizten Informationssignals, um ein spektrales gespreiztes In formationssignal zu erhalten;
Ermitteln (40a; 40b; 40c; 40d) einer psychoakustisch maskierbaren Störenergie als Funktion der Frequenz für das Kurzzeitspektrum des Audiosignals, wobei die psy choakustisch maskierbare Störenergie kleiner oder gleich der psychoakustischen Maskierungsschwelle des Kurzzeitspektrums ist;
Gewichten (36) des spektralen gespreizten Informations signals unter Verwendung der ermittelten Störenergie, um ein gewichtetes Informationssignal zu erzeugen, bei dem die Energie der eingebrachten Informationen im we sentlichen gleich oder unterhalb der psychoakustischen Maskierungsschwelle liegt;
Summieren (38) des gewichteten Informationssignals mit den Spektralwerten des Kurzzeitspektrums des Audiosi gnals, um Summen-Spektralwerte zu erhalten, die das Kurzzeitspektrum des Audiosignals und die Informationen umfassen; und
Verarbeiten (22, 24, 26) der Summen-Spektralwerte, um einen verarbeiteten Datenstrom zu erhalten, der die Daten über die Spektralwerte des Kurzzeitspektrums des Audiosignals und die einzubringenden Informationen um faßt.

2. Verfahren nach Anspruch 1, bei dem der Datenstrom als Daten über Spektralwerte quantisierte Spektralwerte enthält, wobei der Schritt des Verarbeitens des Daten stroms folgenden Teilschritt aufweist:
inverses Quantisieren (18) der quantisierten Spektral werte, um die Spektralwerte zu erhalten; und
bei dem der Schritt des Verarbeitens der Summen-Spek tralwerte folgende Schritte aufweist:
Quantisieren (22) der Summen-Spektralwerte, um quanti sierte Summen-Spektralwerte zu erhalten; und
Bilden (26) des verarbeiteten Datenstroms unter Verwen dung der quantisierten Summen-Spektralwerte.

3. Verfahren nach Anspruch 2, bei dem die quantisierten Spektralwerte im Datenstrom Entropie-codiert sind, wo bei der Schritt des Verarbeitens des Datenstroms fol genden Teilschritt aufweist:
Entropie-Decodieren (18) der Entropie-codierten Spek tralwerte, um die quantisierten Spektralwerte zu erhal ten; und
bei dem der Schritt des Verarbeitens der Summen-Spek tralwerte folgenden Schritt aufweist:
Entropie-Codieren (24) der quantisierten Summen-Spek tralwerte.

4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt des Ermittelns der psychoakustisch mas kierbaren Störenergie folgenden Schritt aufweist: Berechnen (40a) der psychoakustischen Maskierungs schwelle als Funktion der Frequenz unter Verwendung eines psychoakustischen Modells, das basierend auf den Spektralwerten des Audiosignals arbeitet.

5. Verfahren nach einem der Ansprüche 1 bis 3, bei dem im Datenstrom als Seiteninformationen eine beim Erzeugen des Datenstroms verwendete Maskierungsschwelle als Funktion der Frequenz für das Kurzzeitspektrum vor handen ist, wobei der Schritt des Ermittelns folgenden Schritt aufweist: Extrahieren (40b) der psychoakustischen Maskierungs schwelle aus dem Datenstrom, wobei die psychoakustisch maskierbare Störenergie gleich der psychoakustischen Maskierungsschwelle ist.

6. Verfahren nach einem der Ansprüche 1 bis 3, bei dem der Datenstrom ferner Seiteninformationen aufweist, die Skalenfaktoren (14) beinhalten, mit denen die Spektral werte vor dem Quantisieren in einem Audiocodierer grup penweise multipliziert wurden, wobei der Schritt des Verarbeitens des Datenstroms ferner folgenden Teil schritt aufweist:
Extrahieren der Skalenfaktoren aus dem Datenstrom; und
bei dem der Schritt des Ermittelns folgenden Schritt aufweist:
Berechnen der beim Quantisieren im Audiocodierer eingeführten Störenergie als Funktion der Frequenz unter Verwendung der Skalenfaktoren für das Kurzzeitspektrum und unter Verwendung der Spektralwerte sowie unter Kenntnis eines im Audiocodierer verwendeten Quantisie rers, wobei die eingebrachte Störenergie ein Maß für die psychoakustisch maskierbare Störenergie ist, die beim Gewichten verwendet wird.

7. Verfahren nach Anspruch 6, bei dem der Datenstrom gemäß ISO/IEC 13818-7 (MPEG-2 AAC) ausgebildet ist, und bei dem der Schritt des Schätzens der Störenergie folgende Schritte aufweist:
Ermitteln eines Quantisierungsschritts für die Spek tralwerte aus einem Skalenfaktorband unter Verwendung des diesem Skalenfaktorband zugeordneten Skalenfaktors;
Auswerten der folgenden Gleichung, um die durch die Quantisierung eingeführte Störenergie für das Skalen faktorband zu erhalten,
wobei x_i die i-te Spektrallinie in einem Skalenfaktor band darstellt, wobei QS der Quantisierungsschritt für dieses Skalenfaktorband ist, und wobei xmin die durch die Quantisierung in das Skalenfaktorband eingeführte Störenergie ist;
und bei dem der Schritt des Gewichtens (36) folgenden Schritt aufweist:
Einstellen der Spektralwerte der spektralen Darstellung des gespreizten Informationssignals in dem Skalenfak torband so, daß die Gesamtenergie der eingestellten Spektralwerte gleich der im Schritt des Auswertens er haltenen Störenergie in diesem Skalenfaktorband ist.

8. Verfahren nach einem der Ansprüche 1 bis 3, bei dem die Spektralwerte des Datenstroms derart quantisiert sind,
daß die durch die Quantisierung eingeführte Störenergie um einen vorbestimmten Betrag kleiner als die psycho akustische Maskierungsschwelle ist, und bei dem im Schritt des Ermittelns (40d) eine Energie bestimmt wird, die dem vorbestimmten Betrag entspricht; und
bei dem im Schritt des Gewichtens (36) die Spektralwer te der spektralen Darstellung des gespreizten Informa tionssignals derart eingestellt werden, daß sie eine Energie haben, die dem vorbestimmten Betrag entspricht.

9. Verfahren nach Anspruch 8, bei dem der Wert des vorbe stimmten Betrags als Seiteninformationen in dem Daten strom vorhanden ist, wobei im Schritt des Ermittelns (40d) der Wert für den vorbestimmten Betrag aus den Seiteninformationen des Datenstroms extrahiert wird.

10. Verfahren zum Codieren eines Audiosignals mit folgenden Schritten:
Erzeugen (50) eines Kurzzeitspektrums des Audiosignals, das eine Mehrzahl von Spektralwerten umfaßt;
Berechnen der psychoakustischen Maskierungsschwelle des Audiosignals unter Verwendung eines psychoakustischen Modells (58);
Quantisieren (52) der Spektralwerte unter Berücksichti gung der psychoakustischen Maskierungsschwelle, so daß die durch die Quantisierung eingeführte Störenergie gleich oder kleiner als die psychoakustische Maskie rungsschwelle ist; und
Bilden (56) eines Bitstroms, der Werte enthält, die den quantisierten Spektralwerten des Kurzzeitspektrums entsprechen, und der darüberhinaus die berechnete psycho akustische Maskierungsschwelle (60) für das Kurzzeit spektrum des Audiosignals aufweist.

11. Verfahren zum Codieren eines Audiosignals, mit folgen den Schritten:
Erzeugen (50) eines Kurzzeitspektrums des Audiosignals, das eine Mehrzahl von Spektralwerten umfaßt;
Berechnen der psychoakustischen Maskierungsschwelle des Audiosignals unter Verwendung eines psychoakustischen Modells (58);
Quantisieren der Spektralwerte unter Berücksichtigung der psychoakustischen Maskierungsschwelle, so daß die durch die Quantisierung eingeführte Störenergie um ei nen vorbestimmten Betrag kleiner als die psychoakusti sche Maskierungsschwelle ist;
Bilden (56) eines Bitstroms, der Werte enthält, die den quantisierten Spektralwerten des Kurzzeitspektrums ent sprechen.

12. Verfahren nach Anspruch 11, bei dem im Schritt des Bil dens ferner eine Anzeige für den Wert (62) des vorbe stimmten Betrags in den Bitstrom aufgenommen wird.

13. Vorrichtung zum Einbringen von Informationen in einen Datenstrom, der Daten über Spektralwerte aufweist, die ein Kurzzeitspektrum eines Audiosignals darstellen, mit folgenden Merkmalen:
einer Einrichtung zum Verarbeiten (10, 16, 18) des Da tenstroms, um die Spektralwerte des Kurzzeitspektrums des Audiosignals zu erhalten;
einer Einrichtung zum Beaufschlagen (32) der Informationen mit einer Spreizsequenz, um ein gespreiztes In formationssignal zu erhalten;
einer Einrichtung zum Erzeugen (34) einer Spektraldar stellung des gespreizten Informationssignals, um ein spektrales gespreiztes Informationssignal zu erhalten;
einer Einrichtung zum Ermitteln (40a; 40b; 40c; 40d) einer psychoakustisch maskierbaren Störenergie als Funktion der Frequenz für das Kurzzeitspektrum des Au diosignals, wobei die psychoakustisch maskierbare Stör energie kleiner oder gleich der psychoakustischen Mas kierungsschwelle des Kurzzeitspektrums ist;
einer Einrichtung zum Gewichten (36) des spektralen ge spreizten Informationssignals unter Verwendung der er mittelten Störenergie, um ein gewichtetes Informations signal zu erzeugen, bei dem die Energie der einge brachten Informationen im wesentlichen gleich oder un terhalb der psychoakustischen Maskierungsschwelle liegt;
einer Einrichtung zum Summieren (38) des gewichteten Informationssignals mit den Spektralwerten des Kurz zeitspektrums des Audiosignals, um Summen-Spektralwerte zu erhalten, die das Kurzzeitspektrum des Audiosignals und die Informationen umfassen; und
einer Einrichtung zum Verarbeiten (22, 24, 26) der Sum men-Spektralwerte, um einen verarbeiteten Datenstrom zu erhalten, der die Daten über die Spektralwerte des Kurzzeitspektrums des Audiosignals und die einzubrin genden Informationen umfaßt.

14. Vorrichtung zum Codieren eines Audiosignals mit fol genden Merkmalen:
einer Einrichtung zum Erzeugen (50) eines Kurzzeitspektrums des Audiosignals, das eine Mehrzahl von Spektral werten umfaßt;
einer Einrichtung zum Berechnen der psychoakustischen Maskierungsschwelle des Audiosignals unter Verwendung eines psychoakustischen Modells (58);
einer Einrichtung zum Quantisieren (52) der Spektral werte unter Berücksichtigung der psychoakustischen Mas kierungsschwelle, so daß die durch die Quantisierung eingeführte Störenergie gleich oder kleiner als die psychoakustische Maskierungsschwelle ist; und
einer Einrichtung zum Bilden (56) eines Bitstroms, der Werte enthält, die den quantisierten Spektralwerten des Kurzzeitspektrums entsprechen, und der darüberhinaus die berechnete psychoakustische Maskierungsschwelle (60) für das Kurzzeitspektrum des Audiosignals auf weist.

15. Vorrichtung zum Codieren eines Audiosignals, mit fol genden Merkmalen:
einer Einrichtung zum Erzeugen (50) eines Kurzzeit spektrums des Audiosignals, das eine Mehrzahl von Spek tralwerten umfaßt;
einer Einrichtung zum Berechnen der psychoakustischen Maskierungsschwelle des Audiosignals unter Verwendung eines psychoakustischen Modells (58);
einer Einrichtung zum Quantisieren der Spektralwerte unter Berücksichtigung der psychoakustischen Maskie rungsschwelle, so daß die durch die Quantisierung ein geführte Störenergie um einen vorbestimmten Betrag kleiner als die psychoakustische Maskierungsschwelle ist;
einer Einrichtung zum Bilden (56) eines Bitstroms, der Werte enthält, die den quantisierten Spektralwerten des Kurzzeitspektrums entsprechen.