DE69633633T2

DE69633633T2 - Mehrkanaliger prädiktiver subband-kodierer mit adaptiver, psychoakustischer bitzuweisung

Info

Publication number: DE69633633T2
Application number: DE69633633T
Authority: DE
Inventors: M. Stephen SMYTH; H. Michael SMYTH; Paul William Smith
Original assignee: Digital Theater Systems Inc
Current assignee: DTS Inc
Priority date: 1995-12-01
Filing date: 1996-11-21
Publication date: 2005-10-27
Anticipated expiration: 2016-11-22
Also published as: KR100277819B1; ATE279770T1; PL183498B1; US5974380A; US5956674A; KR19990071708A; US5978762A; CA2331611A1; PL327082A1; CN1208489A; EP0864146A4; MX9804320A; CN1303583C; CN1132151C; CN1848242A; PL183092B1; CA2238026C; HK1149979A1; AU1058997A; CN1848241B

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Diese Erfindung bezieht sich auf die qualitativ hochwertige Codierung und Decodierung von Mehrkanal-Audiosignalen und insbesondere auf einen Subband-Codierer, der Filter für die vollständige/unvollständige Rekonstruktion, die prädiktive/nicht prädiktive Codierung, die Transient-Analyse sowie die psychoakustische/MMSE (MMSE = minimaler mittlerer quadratischer Fehler) Bitzuweisung über die Zeit, die Frequenz und die Mehrfachaudiokanäle verwendet, um einen Datenstrom mit einem begrenzten Decodier-Berechnungsaufwand zu erzeugen.
Beschreibung des Standes der Technik
Bekannte qualitativ hochwertige Audio- und Musikcodierer können in zwei Schemataklassen unterteilt werden. Erstens, Subband-/Transformations-Codierer mit mittel- bis hochfrequenter Auflösung, die die Subband- oder Koeffizientenabtastungen innerhalb des Analysefensters gemäß einer psychoakustischen Maskenberechnung adaptiv quantisieren. Zweitens, Subband-Codierer mit geringer Auflösung, die ihre geringe Frequenzauflösung durch Verarbeitung der Subband-Abtastungen unter Verwendung von ADPCM ausgleichen.
Die Codierer der ersten Klasse nutzen die großen kurzzeitigen Spektralstreuungen gängiger Musiksignale, indem sie es den Bitzuweisungen gestatten, sich der Spektralenergie des Signals anzupassen. Die hohe Auflösung dieser Codierer ermöglicht es, dass das frequenztransformierte Signal direkt auf das psychoakustische Model angewendet werden kann, das auf einer Theorie eines kritischen Bandes des Hörens basiert. Dolbys AC-3-Audiocodierer, Todd et al., „AC-3: Flexible Perceptual Coding for Audio Transmission and Storage" Convention of the Audio-Engineering Society, Februar 1994, berechnet normalerweise 1024-FFTs an den entsprechenden PCM-Signalen und wendet ein psychoakustisches Modell auf die 1024 Frequenzkoeffizienten in jedem Kanal an, um die Bitrate für jeden Koeffizient zu ermitteln. Das Dolby-System verwendet eine Transient-Analyse, die die Fenstergröße auf 256 Abtastungen verringert, um die Transienten zu isolieren. Der AC-3-Codierer verwendet einen geschützten Rückwärts-Adaptionsalgorithmus, um die Bitzuweisung zu dekodieren. Dadurch wird die Menge der Bitzuweisungs-Informationen verringert, die zusammen mit den codierten Audiodaten gesendet werden. Infolge dessen wird die Bandbreite, die dem Audio zur Verfügung steht, über vorwärtsgerichtete adaptive Schemata vergrößert, was zu einer Verbesserung der Klangqualität führt.
Bei der zweiten Klasse der Codierer ist die Quantisierung der Differential-Subbandsignale entweder unveränderlich oder passt sich an, um die Quantisierungs-Rauschleistung über sämtliche oder einen Teil der Subbänder zu minimieren, ohne dass explizit auf die psychoakustische Maskierungstheorie bezuggenommen wird. Es wird allgemein akzeptiert, dass ein direkter psychoakustischer Verzerrungs-Schwellenwert nicht auf die prädiktiven/differentiellen Subbandsignale angewendet werden kann, da es Schwierigkeiten bei der Einschätzung der Prädiktor-Leistung vor dem Bitzuweisungsvorgang gibt. Diese Probleme nehmen durch die Einwirkung des Quantisierungsrauschens auf den Prädiktionsvorgang zu.
Die Codierer funktionieren, weil wahrnehmbar kritische Audiosignale über lange Zeiträume im allgemeinen periodisch sind. Diese Periodizität wird von der prädiktiven differentiellen Quantisierung genutzt. Das Teilen das Signal in eine geringe Zahl von Subbändern verringert die hörbaren Auswirkungen der Rauschmodulation und gestattet die Nutzung langzeitiger Spektralstreuungen bei Audiosignalen. Wird die Zahl der Subbänder erhöht, wird der Prädiktionsgewinn innerhalb jedes Subbandes verringert, wobei an einem gewissen Punkt der Prädiktionsgewinn gegen Null geht.
Digital Theater Systems, L. P. (DTS) verwendet einen Audiocodierer, bei dem jeder PCM-Audiokanal zu vier Subbändern gefiltert wird und jedes Subband unter Verwendung eines Rückwärts-ADPCM-Codierers codiert wird, der die Pädiktor-Koeffizienten den Subbanddaten anpasst. Die Bitzuweisung ist unveränderlich und für jeden Kanal dieselbe, wobei den Subbändern mit geringerer Frequenz mehr Bits als den Subbändern mit höherer Frequenz zugewiesen wird. Die Bitzuweisung liefert ein unveränderliches Kompressionsverhältnis, wie etwa 4 : 1. Der DTS-Codierer ist von Mike Smyth und Stephen Smyth, "APT-X100: A LOW DELAY, LOW BIT-RATE, SUB-BAND ADPCM AUDIO CODER FOR BROADCASTING", Proceedings of the 10th International AES Conference 1991, Seite 41–56 beschrieben.
Beide Arten der Audiocodierer weisen unterschiedliche bekannte Einschränkungen auf. Erstens codieren/decodieren bekannte Audiocodierer mit einer unveränderlichen Framegröße, d. h. die Zahl der Abtastungen oder die Zeitperiode, die von einem Frame dargestellt wird, ist unveränderlich. Wenn die codierte Senderate relativ zur Abtastrate zunimmt, nimmt infolge dessen die Datenmenge (Bytes) im Frame ebenfalls zu. Somit muss die Decoderpuffergröße derart ausgelegt sein, dass sie dem Szenario des schlimmsten Falles standhält, um einen Datenüberlauf zu vermeiden. Dadurch nimmt die Menge des RAM zu, der einen primären Kostenfaktor des Decoders darstellt. Zweitens können die bekannten Audiodecoder nicht ohne weiteres auf Abtastfrequenzen erweitert werden, die größer als 48 kHz sind. Würde man diese tun, wären die bestehenden Decoder inkompatibel mit dem Format, das für die neuen Decoder erforderlich ist. Dieser Mangel an langfristiger Kompatibilität stellt eine ernstzunehmende Einschränkung dar. Weiterhin verlangen es die bekannten Formate, die für die Codierung der PCM-Daten verwendet werden, dass der gesamte Frame vom Decoder eingelesen wird, bevor die Wiedergabe initiiert werden kann. Dies erfordert, dass die Puffergröße auf Datenblöcke von etwa 100 ms derart begrenzt ist, dass die Verzögerung oder Wartzeit den Zuhörer nicht stört.
Obwohl diese Decoder mit bis zu 24 kHz codieren können, werden darüber hinaus die höheren Subbänder bisweilen ausgelassen. Dadurch wird die Hochfrequenzwidergabe oder der Raumklang des wiederhergestellten Signals verringert. Bekannte Codierer verwenden normalerweise zwei Typen von Fehlererfassungsschemata. Das am meisten bekannte ist die Read-Solomon-Codierung, bei der der Codierer Fehlerkorrekturbits den Nebeninformationen im Datenstrom hinzufügt. Dadurch wird die Erfassung und Korrektur von Fehlern in den Nebeninformationen ermöglicht. Fehler in den Audiodaten bleiben jedoch unerkannt. Ein weiterer Ansatz besteht in der Prüfung des Frames und der Audioheader auf ungültige Codezustände. Beispielsweise kann ein spezieller 3-Bit-Parameter lediglich 3 gültige Zustände haben. Wenn einer der anderen 5 Zustände identifiziert wird, dann muss ein Fehler aufgetreten sein. Dadurch ist lediglich die Fähigkeit der Erfassung gegeben, wobei jedoch keine Fehler in den Audiodaten erfasst werden.
ÜBERSICHT ÜBER DIE ERFINDUNG
Im Hinblick auf die oben erwähnten Probleme gibt die vorliegende Erfindung einen Mehrkanal-Audiocodierer an, mit der Flexibilität, sich einem großen Bereich von Kompressionspegeln mit einer besseren als der CD-Qualität bei hohen Bitraten und verbesserten Wahrnehmungsqualitäten bei geringeren Bitraten anzupassen, mit einer geringeren Wiedergabeverzögerung, einer vereinfachten Fehlererfassung, einer verbesserten Prä-Echo-Verzerrung und einer besseren langfristigeren Erweiterbarkeit für höhere Abtastraten.
Dies wird mit einem Subband-Codierer erreicht, der jeden Audiokanal in eine Sequenz von Audioframes zerlegt, die Frames zu Basisband- und Hochfrequenzbereiche filtert und jedes Basisbandsignal in mehrere Subbänder zerlegt. Der Subband-Codierer wählt normalerweise ein nicht perfektes Filter, um das Basisbandsignal zu zerlegen, wenn die Bitrate niedrig ist, jedoch ein perfektes Filter, wenn die Bitrate ausreichend hoch ist. Eine Hochfrequenz-Codierstufe codiert das Hochfrequenzsignal unabhängig vom Basisbandsignal. Eine Basisband-Codierstufe enthält einen VQ- und einen ADPCM-Codierer, die die hochfrequenten bzw. niederfrequenten Subbänder codieren. Jeder Subband-Frame enthält wenig stens einen Subframe, der weiterhin in mehrere Teil-Subframes unterteilt ist. Jeder Subframe wird analysiert, um den Prädiktionsgewinn des ADPCM-Codierers zu schätzen, wobei die Prädiktionsfähigkeit außerkraftgesetzt wird, wenn der Prädiktionsgewinn gering ist, und um Transienten zu erfassen und die SFs vor und nach dem Transient zu erfassen.
Ein Global-Bit-Management- (GBM-) System weist Bits jedem Subframe zu, indem es die Differenzen zwischen den zahlreichen Audiokanälen, den zahlreichen Subbändern und den Subframes im momentanen Frame nutzt. Das GBM-System ordnet zu Beginn Bits jedem Subframe zu, indem es sein SMR berechnet, das durch den Prädiktionsgewinn modifiziert wird, um einem psychoakustischen Modell gerecht zu werden. Anschließend weist das GBM-System verbleibende Bits gemäß einem MMSE-Ansatz zu, um entweder unverzüglich zu einer MMSE-Zuweisung zu wechseln, das gesamte Grundrauschen zu verringern, oder allmählich zu einer MMSE-Zuweisung überzugehen.
Ein Multiplexer erzeugt Ausgabe-Frames, die ein Sync-Wort, einen Frame-Header, einen Audioheader und wenigstens einen Subframe enthalten, und die in einen Datenstrom bei einer Senderate multiplexiert werden. Der Frame-Header enthält die Fenstergröße und die Größe des momentanen Ausgabe-Frames. Der Audioheader kennzeichnet eine Packanordnung und ein Codierformat für den Audioframe. Jeder Audio-Subframe enthält Nebeninformationen zum Decodieren des Audio-Subframes ohne Bezugnahme auf einen anderen Subframe, Hochfrequenz-VQ-Codes, mehrere Basisband-Audio-Subframes, in denen Audiodaten für die niederfrequenten Subbänder jedes Kanals gepackt und mit den anderen Kanälen multiplexiert sind, einen Hochfrequenz-Audioblock, in dem die Audiodaten im Hochfrequenzbereich für jeden Kanal gepackt und mit den anderen Kanälen multiplexiert sind, so dass das Mehrkanal-Audiosignal bei einer Vielzahl von Decodier-Abtastraten decodierbar ist, sowie ein Entpack-Sync zum Verifizieren des Endes des Subframes.
Die Fenstergröße wird als Funktion des Verhältnisses der Senderate zur Codier-Abtastrate gewählt, so dass die Größe des Ausgabe-Frames derart beschränkt ist, dass sie in einem gewünschten Bereich liegt. Wenn der Kompressionsum fang relativ gering ist, wird die Fenstergröße derart verringert, dass die Framegröße ein oberes Maximum nicht überschreitet. Infolge dessen kann ein Decoder einen Eingabepuffer mit einer festen relativ geringen RAM-Größe verwenden. Ist der Kompressionsumfang relativ hoch, wird die Fenstergröße vergrößert. Infolge dessen kann das GBM-System Bits über einen größeres Zeitfenster verteilen, wodurch die Codiererleistung verbessert wird.
Diese und andere Merkmale sowie Vorteile der Erfindung werden dem Fachmann aus der folgenden detaillierten Beschreibung der bevorzugten Ausführungsformen in Verbindung mit den beiliegenden Zeichnungen und Tabellen deutlich.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockschaltbild eines 5-Kanal-Audiocodierers gemäß der vorliegenden Erfindung;
2 ist ein Blockschaltbild eines Mehrkanal-Codierers;
3 ist ein Blockschaltbild des Basisband-Codierers und -Decoders;
4a und 4b sind Blockschaltbilder eines Codierers bzw. eines Decoders mit hoher Abtastrate;
5 ist ein Blockschaltbild eines Einzelkanal-Codierers;
6 ist ein Diagramm der Bytes pro Frame gegenüber der Framegröße für variable Senderaten;
7 ist ein Diagramm des Amplitudengangs für NPR- und PR-Rekonstruktionsfilter;
8 ist ein Diagramm des Subband-Aliasing für ein Rekonstruktionsfilter;
9 ist ein Diagramm der Verzerrungskurven für NPR- und PR-Filter;
10 ist eine schematische Darstellung eines Einzel-Suband-Codierers;
11a und 11b zeigen die Transient-Erfassung bzw. die Skalierfaktor-Berechnung für einen Subframe;
12 zeigt den Skalierungsfaktor-Quantisierungsvorgang;
14 zeigt die Faltung einer Signalmaske mit dem Frequenzgang des Signals für die Erzeugung der SMRs;
15 ist ein Diagramm des menschlichen Hörfrequenzgangs;
16 ist ein Diagramm der SMRs für die Subbänder;
17 ist ein Diagramm der Fehlersignale für die psychoakustische Bitzuweisung und die MMSE-Bitzuweisung;
18a und 18b sind ein Diagramm der Subband-Energiepegel bzw. ein invertiertes Diagramm, das den MMSE-"Waterfill"-Bitzuweisungsvorgang zeigt;
19 ist ein Blockschaltbild eines einzelnen Frames im Datenstrom;
20 ist eine schematische Darstellung des Decoders;
21 ist ein Blockschaltbild einer Hardwareanwendung für den Codierer; und
22 ist ein Blockschaltbild einer Hardwareanwendung für den Decoder;
KURZE BESCHREIBUNG DER TABELLEN

Tabelle 1 führt die maximale Framegröße gegenüber der Abtastrate und der Senderate auf;
Tabelle 2 zeigt die maximal zulässige Framegröße (Bytes) gegenüber der Abtastrate und der Senderate; und
Tabelle 3 stellt die Beziehung zwischen dem ABIT-Indexwert, der Zahl der Quantisierungspegel und dem resultierenden Subband-SNR.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Mehrkanal-Audiocodiersystem
Wie in 1 gezeigt, kombiniert die vorliegende Erfindung die Merkmale der bekannten Codierschemata mit den zusätzlichen Merkmalen in einem einzigen Mehrkanal-Audiocodierer 10. Der Codierungsalgorithmus ist derart beschaffen, dass bei Studioqualitätspegeln, d. h. bei "besser als CD-Qualität", gearbeitet wird und ein großer Anwendungsbereich zum Ändern der Kompressionspegel, Abtastraten, Wortlängen, Zahl von Kanälen und der wahrnehmbaren Qualität gegeben ist.
Der Codierer 12 codiert mehrere Kanäle von PCM-Audiodaten 14, die normalerweise bei 48 kHz mit Wortlängen von 16 und 24 Bits abgetastet werden, zu einem Datenstrom 16 bei einer bekannten Senderate, die in geeigneter Weise im Bereich von 32–4096 kB/s liegt. Im Gegensatz zu anderen Audiocodierern kann die vorliegende Architektur auf höhere Abtastraten (48–192 kHz) ausgeweitet werden, ohne dass die vorhandenen Decoder, die auf die Basisband-Abtastrate oder eine mittlere Abtastrate ausgelegt wurden, inkompatibel werden. Weiterhin werden die PCM-Daten 14 zu Fenstern umgearbeitet und Frame für Frame codiert, wobei jeder Frame vorzugsweise in 1–4 Subframes zerlegt wird. Die Größe des Audiofensters, d. h. die Zahl der PCM-Abtastungen, basiert auf den relativen Werten der Abtastrate und der Senderate, so dass die Größe eines Ausgabeframes, d. h. die Zahl von Bytes, die durch den Decoder 18 pro Frame ausgelesen wird, in geeigneter Weise zwischen 5,3 und 8 kB liegt.
Infolge dessen wird der RAM-Bedarf, der beim Decoder erforderlich ist, um den eintreffenden Datenstrom zu puffern, relativ gering gehalten, wodurch die Kosten des Decoders verringert werden. Bei niedrigen Raten können größere Fenstergrößen für einen Frame der PCM-Daten verwendet werden, wodurch sich die Codierleistung verbessert. Bei höheren Bitraten müssen kleinere Fenstergrößen verwendet werden, um die Datenbegrenzung zu erfüllen. Dadurch verringert sich zwangsläufig die Codierleistung, wobei dies jedoch bei höheren Raten unbedeutend ist. Zudem ermöglicht es die Art und Weise, in der die PCM-Daten zu Frames umgearbeitet werden, dass der Decoder 18 eine Wiedergabe beginnt, bevor der gesamte Ausgabe-Frame in den Puffer gelesen ist. Dadurch wird die Verzögerung oder die Wartezeit des Audiocodierers verringert.
Der Codierer 12 verwendet eine hochauflösende Filterbank, die vorzugsweise zwischen Filtern für nicht perfekte Rekonstruktion (NPR) und Filtern für perfekte Rekonstruktion (PR) auf der Basis der Bitrate umschaltet, um jeden Audiokanal 14 in mehrere Subbandsignale zu zerlegen. Es werden Codierer mit prädiktiver Quantisierung und Vektorquantisierung (VQ) verwendet, um das untere bzw. das obere Frequenz-Subband zu kodieren. Das Start-VQ-Subband kann unveränderlich sein oder dynamisch als eine Funktion der momentanen Signaleigenschaften ermittelt werden. Die Frequenzvereinigungs-Codierung kann bei niedrigen Bitraten verwendet werden, um gleichzeitig mehrere Kanäle in den hochfrequenten Subbändern zu codieren.
Der prädiktive Codierer schaltet vorzugsweise zwischen APCM- und ADPCM-Betriebsarten auf der Basis des Subband-Prädiktionsgewinns um. Eine Transient-Analysiereinrichtung segmentiert jeden Subband-Subframe in Prä- und Post-Echosignale (Teil-Subframes) und berechnet entsprechende Skalierungsfaktoren für die Prä- und Post-Echo-Teil-Subframes, wodurch die Post-Echoverzerrung verringert wird. Der Codierer ordnet die verfügbare Bitrate über sämtliche PCM-Kanäle und Subbänder für den momentanen Frame gemäß ihrer jeweiligen Bedürfnisse (psychoakustisch oder mse) zu, um die Codierleistung zu verbessern. Durch Kombination prädiktiver Codierung und psychoakustischer Modellierung wird die Codierleistung der niedrigen Bitrate verbessert, wodurch sich die Bitrate absenkt, bei der eine subjektive Transparenz erreicht wird. Ein programmierbarer Controller 19, wie etwa ein Computer oder ein Tastenfeld, ist mit dem Codierer 12 verbunden, um Audiomodus-Informationen einschließlich Parametern, wie etwa die gewünschte Bitrate, die Zahl der Kanäle, PR- oder NPR-Rekonstruktion, Abtastrate und Senderate weiterzugeben.
Die codierten Signale und Nebeninformationen, werden derart in den Datenstrom 16 gepackt und multiplexiert, dass der Berechnungsaufwand bei der Decodierung so beschränkt wird, dass er im gewünschten Bereich liegt. Der Datenstrom 16 wird auf ein Sendemedium 20, wie etwa eine CD, eine digitale Videoplatte (DVD) codiert oder über einen Rundfunksatelliten gesendet. Der Decoder 18 dekodiert die einzelnen Subbandsignale und führt den Umkehr-Filtervorgang aus, um ein Mehrkanal-Audiosignal 22 zu erzeugen, das subjektiv äquivalent zum ursprünglichen Mehrkanal-Audiosignal 14 ist. Ein Audiosystem 24, wie etwa ein Heimkinosystem oder ein Multimediacomputer spielen das Audiosignal für den Benutzer ab.
Mehrkanal-Codierer
Wie in 2 gezeigt, enthält der Codierer mehrere individuelle Kanalcodierer 26, in geeigneter Weise 5 Stück (links vorne, Mitte, rechts vorne, link hinten und rechts hinten), die entsprechende Gruppen codierter Subbandsignale 28 erzeugen, nämlich 32 Subband-Signale pro Kanal. Der Codierer 12 verwendet ein Global-Bit-Management- (GBM-) System 30, das die Bits aus einem gemeinsamen Bitvorrat unter den Kanälen zwischen den Subbändern innerhalb eines Kanals und innerhalb eines einzigen Frames in einem gegebenen Subband dynamisch zuweist. Der Codierer 12 kann ebenfalls Vereinigungsfrequenz-Codiertechniken anwenden, um Korrelationen zwischen den Kanälen in den höherfrequenten Subbändern zu nutzen. Weiterhin kann der Codierer 12 VQ auf den höherfrequenten Subbändern verwenden, die nicht spezifisch wahrnehmbar sind, um eine grundlegende hohe Frequenzwidergabetreue oder -umgebung bei einer äußerst geringen Bitrate zu erzeugen. Auf diese Weise nutzt der Codierer die ungleichartigen Signalanforderungen, wie etwa die rms-Werte und psychoakustischen Maskierungspegel des Subbands, der Mehrfachkanäle und die uneinheitliche Verteilung der Signalenergie über die Frequenz in jedem Kanal und über die Zeit in einem gegebenen Frame.
Bitzuweisungs-Übersicht
Das GMB-System 30 entscheidet zunächst, welche Kanalsubbänden durch Frequenzvereinigung codiert werden sollen, und berechnet einen Durchschnitt dieser Daten, worauf es ermittelt, welche Subbänder unter Verwendung der VQ codiert werden, und subtrahiert diese Bits von der verfügbaren Bitrate. Die Entscheidung darüber, welchen Subbändern für die VQ eine Priorität dahingehend verliehen werden kann, dass sämtliche Subbänder über einem Frequenzschwellenwert durch VQ bearbeitet werden, kann auf den psychoakustischen Maskierungseffekten der einzelnen Subbänder in jedem Frame getroffen werden. Anschließend weist das GBM-System 30 Bits (ABIT) unter Verwendung der psychoakustischen Maskierung auf den übrigen Subbändern zu, um die subjektive Qualität des dekodierten Audiosignals zu optimieren. Sind zusätzliche Bits verfügbar, kann der Co dierer zu einem reinen MMSE-Schema, d. h. "waterfilling" wechseln und sämtliche der Bits auf der Basis der Relativ-rms-Werte erneut zuweisen, um den rms-Wert des Fehlersignals zu minimieren. Dies ist bei sehr hohen Bitraten anwendbar. Der bevorzugte Ansatz besteht darin, die psychoakustische Bitzuweisung zurückzuhalten und lediglich die zusätzlichen Bits gemäß dem MMSE-Schema zuzuweisen. Dadurch bleibt die Form des Rauschsignals erhalten, das durch die psychoakustische Maskierung erzeugt wird, wobei jedoch das Grundrauschen gleichmäßig nach unten verschoben wird.
Alternativ dazu kann der bevorzugte Ansatz derart abgeändert werden, dass die zusätzlichen Bits gemäß der Differenz zwischen den rms- und psychoakustischen Pegeln zugewiesen werden. Infolge dessen geht die psychoakustische Zuweisung zu einer MMSE-Zuweisung über, wenn die Bitrate zunimmt, wodurch ein sanfter Übergang zwischen beiden Techniken erzeugt wird. Die oben beschriebenen Techniken sind insbesondere bei Systemen mit unveränderter Bitrate anwendbar. Alternativ kann der Codierer 12 einen Verzerrungspegel, subjektiv oder mse, einstellen und es der gesamten Bitrate gestatten, sich zu ändern, um den Verzerrungspegel beizubehalten. Ein Multiplexer 32 multiplexiert die Subbandsignale und die Nebeninformationen zu einem Datenstrom 16 in Übereinstimmung mit einem festgelegten Datenformat. Details des Datenformates sind unten in 20 beschrieben.
Basisband-Codierung
Für Abtastraten im Bereich von 8 bis 48 kHz verwendet der Kanalcodierer 26, wie in 3 dargestellt eine einheitliche 512-tap-32-Band-Analysefilterbank 34, die mit einer Abtastrate von 48 kHz arbeitet, um das Audiospektrum, 0 bis 24 kHz, jedes Kanals in 32 Subbänder mit einer Bandbreite von 750 Hz pro Subband zu zerlegen. Die Codierstufe 36 codiert jedes Subbandsignal und multiplexiert 38 diese in den komprimierten Datenstrom 16. Der Decoder 18 empfängt den komprimierten Datenstrom, sortiert die codierten Daten für jedes Subband unter Verwendung eines Entpackers 40, decodiert jedes Subbandsignal 42 und stellt die digitalen PCM-Audiosignale (Fsamp = 48 kHz) unter Verwendung einer einheitlichen 512-tap-32-Band-Interpolationsfilterbank 44 für jeden Kanal wieder her.
Bei der vorliegenden Architektur verwenden sämtliche Codierstrategien, wie etwa Abtastraten von 48, 96 oder 192 kHz den 32-Band Codier-/Decodiervorgang bei den niedrigsten (Basisband-) Audiofrequenzen, wie etwa zwischen 0–24 kHz. Somit werden Decoder, die heute auf Basis einer 48 kHz Abtastrate entwickelt und gebaut werden, mit zukünftigen Codierern kompatibel sein, die darauf ausgelegt sind, höherfrequente Komponenten zu nutzen. Der bestehende Decoder wird das Basisbandsignal (0 bis 24 kHz) lesen und die codierten Daten bei den höheren Frequenzen ignorieren.
Codieren mit hoher Abtastrate
Bei Abtastraten im Bereich von 48 bis 96 kHz zerlegt der Kanalcodierer 26 vorzugsweise das Audiospektrum in zwei Spektren und verwendet eine einheitliche 32-Band-Analysefilterbank für. die untere Hälfte und eine 8-Band-Analysefilterbank für die obere Hälfte. Wie es in 4a und 4b gezeigt ist, wird das Audio-Sektrum, 0 bis 48 kHz, zu Beginn unter Verwendung einer 256-tap-2-Band-Dezimierungs-Vorfilterbank 46 aufgeteilt, die eine Audiobandbreite von 24 kHz pro Band liefert. Das untere Band (0 bis 24 kHz) wird in 32 einheitliche Bänder aufgeteilt und codiert, wie es oben in 3 beschrieben ist. Das obere Band (24 bis 48 kHz) jedoch, wird in 8 einheitliche Bänder aufgeteilt und codiert. Sofern die Verzögerung der 8-Band-Dezimierungs-/Interpolations-Filterbank 48 nicht mit jener der 32-Band-Filterbänke übereinstimmt, muss eine Verzögerungs-Kompensationsstufe 50 an einer Stelle im 24–48-kHz-Signalweg verwendet werden, um sicherzustellen, dass beide Zeitwellenformen vor der 2-Band-Rekombinationsfilterbank beim Decoder abgeglichen sind. Beim Codiersystem mit 96 kHz Abtastrate wird das 24–48-kHz-Audioband um 384 Abtastungen verzögert und anschließend in die acht einheitlichen Bänder unter Verwendung einer 128-tap-Interpolations-Filterbank zerlegt. Jedes der 3-kHz-Subbänder wird mit den codierten Daten vom 0–24-kHz-Band codiert 52 und gepackt 54, um den komprimierten Datenstrom auszubilden.
Beim Eintreffen am Decoder 18 wird der komprimierte Datenstrom 16 entpackt 56 und die Codes sowohl für den 32-Band-Decoder (Bereich von 0 bis 24 kHz) als auch den 8-Band-Decoder (24 bis 48 kHz) aussortiert und ihren entsprechenden Decodierstufen 42 bzw. 58 zugeführt. Die 8 und 32 decodierten Subbänder werden unter Verwendung einer einheitlichen 128-tap- und einer 512-tap-Interpolations-Filterbank 60 bzw. 44 rekonstruiert. Die decodierten Subbänder werden anschließend unter Verwendung einer einheitlichen 256-tap-2-Band-Interpolations-Filterbank 62 rekombiniert, um ein einziges digitales PCM-Audiosignal mit einer Abtastrate von 96 kHz zu erzeugen. Für den Fall, dass der Decoder mit der Hälfte der Abtastrate des komprimierten Datenstroms arbeiten soll, kann dies auf einfache Weise dadurch ausgeführt werden, dass die codierten Daten des oberen Bandes (24 bis 48 kHz) verworfen werden und lediglich der 32 Subbänder im Audiobereich von 0 bis 24 kHz decodiert werden.
Kanalcodierer
Bei allen beschriebenen Codierstrategien wird der 32-Band-Codier/Decodiervorgang für den Basisbandabschnitt einer Audiobandbreite zwischen 0 und 24 kHz ausgeführt. Wie in 5 gezeigt, wendet ein Frame-Grabber 64 ein Fenster aus den PCM-Audiokanal 14 an, um ihn in aufeinanderfolgende Daten-Frames 66 zu segmentieren. Das PCM-Audiofenster definiert die Zahl der zusammenhängenden Eingabeabtastungen, für die der Codiervorgang einen Ausgabe-Frame im Datenstrom erzeugt. Die Fenstergröße wird auf der Basis des Kompressionsumfangs, d. h. des Verhältnisses der Senderate zur Abtastrate, derart eingestellt, dass die Datenmenge, die in jedem Frame codiert wird, begrenzt ist. Jeder nachfolgende Daten-Frame 66 wird in 23 einheitliche Frequenzbänder 68 durch eine 32-Band-512-tap-FIR-Dezimierungs-Filterbank 34 zerlegt. Die Abtastungen, die von jedem Subband ausgegeben werden, werden gepuffert und der 32-Band-Codierstufe 36 zugeführt.
Eine Analysestufe 70 (die detailliert in 10 bis 19 beschrieben wird), erzeugt optimale Prädiktor-Koeffizienten, Differential-Quantisier-Bitzuweisungen und optimale Quantisier-Skalierfaktoren für die gepufferten Subbandabtastungen. Die Analysestufe 70 kann zudem entscheiden, welche Subbänder vektorquantisiert werden und welche durch Frequenzvereinigung codiert werden, sofern diese Entscheidungen nicht festgelegt sind. Diese Daten oder Nebeninformationen werden zur gewählten ADPCM-Stufe 72, VQ-Stufe 73 oder Frequenzvereinigungs-Codier- (JFC-) Stufe 74 und zum Datenmultiplexer 32 (Packer) weitergeleitet. Anschließend werden die Subbandabtastungen durch den ADPCM- oder VQ-Vorgang codiert und die Quantisierungscodes in den Multiplexer eingegeben. Die JFC-Stufe 74 codiert die Subbandabtastungen eigentlich nicht, sondern erzeugt Codes, die anzeigen, welche Subbänder des Kanals vereinigt werden und wo diese im Datenstrom angeordnet werden. Die Quantisierungscodes und die Nebeninformationen jedes Subbandes werden in den Datenstrom 16 gepackt und zum Decoder gesendet.
Beim Eintreffen im Decoder 18 wird der Datenstrom in die einzelnen Subbänder zurück demultiplexiert 40 oder entpackt. Die Skalierungsfaktoren und Bitzuweisungen werden zuerst in den Umkehr-Quantisierern 75 zusammen mit den Prädiktor-Koeffizienten für jedes Subband gespeichert. Die Differentialcodes werden anschließend entweder unter Verwendung des ADPCM-Vorgangs 76 oder des Umkehr-VQ-Vorgangs 77 direkt oder des Umkehr-JFC-Vorgang 78 für bestimmte Subbänder wiederhergestellt. Die Subbänder werden schließlich zurück zu einem einzigen PCM-Audiosignal 22 unter Verwendung der 32-Band-Interpolations-Filterbank 44 verschmolzen.
PCM-Signal-Framing
Wie in 6 gezeigt, variiert der Frame-Grabber 64, der in 5 dargestellt ist, die Größe des Fensters 79, wenn sich die Senderate für eine gegebene Abtastrate ändert, so dass die Zahl der Bytes je Ausgabe-Frame 80 auf einen Bereich zwischen 5,3 kB und 8 kB begrenzt ist. Tabelle 1 und 2 sind Entwicklertabellen, die es dem Entwickler gestatten, die optimale Fenstergröße bzw. die Decoder-Puffergröße (Framegröße) für eine gegebene Abtastrate und eine gegebene Senderate zu wählen. Bei geringen Senderaten kann die Framegröße relativ groß sein. Dadurch kann der Codierer die nicht flache Streuung des Audiosignals über die Zeit nutzen und die Leistungsfähigkeit des Audiocodierers verbessern. Bei hohen Raten, wird die Framegröße derart verringert, dass die Gesamtzahl der Bytes den Decoderpuffer nicht zum überlaufen bringt. Infolge dessen kann ein Entwickler den Decoder mit 8 kB RAM ausstatten, um sämtlichen Senderaten gerecht zu werden. Dadurch werden die Kosten des Decoders verringert. Im allgemeinen, ist die Größe des Audiofensters gegeben durch:
wobei die Framegröße die Größe des Decoderpuffers, F_samp die Abtastrate und T_rate die Senderate ist. Die Größe des Audiofensters ist von der Zahl der Audiokanäle unabhängig. Wenn jedoch die Zahl der Kanäle zunimmt, muss der Kompressionsumfang zunehmen, damit die gewünschte Senderate beibehalten werden kann.
Tabelle 1
Tabelle 2
Subbandfilterung
Die einheitliche 32-Band-512-tap-Dezimierungs-Filterbank 34 wählt aus zwei Polyphasen-Filterbänken, um die Datenframes 66 in die 32 einheitlichen Subbänder 68 zu zerlegen, wie es in 5 gezeigt ist. Die beiden Filterbänke weisen unterschiedliche Wiederherstellungseigenschaften auf, die die Subbandcodierung mit der Wiederherstellungspräzision abwägen. Eine Filterklasse wird als Filter für perfekte Rekonstruktion (PR) bezeichnet. Wenn das PR-Dezimierung- (Codier-) Filter und sein Interpolations- (Codier-) Filter direkt hintereinander angeordnet sind, ist das rekonstruierte Signal "perfekt", wobei perfekt als im Bereich von 0,5 lsb liegend bei 24 Bits Auflösung definiert ist. Die andere Filterklasse wird Filter für nicht perfekte Rekonstruktion (NPR) genannt, weil das rekonstruierte Signal ein nicht Null Grundrauschen aufweist, das mit den nicht perfekten Aliasing-Löscheigenschaften des Filtervorgangs zusammenhängt.
Die Transferfunktionen 82 und 84 der NPR- bzw. PR-Filter sind für ein einzelnes Subband in 7 gezeigt. Da die NPR-Filter nicht darauf beschränkt sind, eine vollständige Rekonstruktion zu erzeugen, weisen sie weitaus größere Near-Stop-Band-Rejection- (NSBR-) Abstände, d. h. der Abstand des Durchlassbereiches zur ersten Nebenkeule, auf als die PR-Filter (110 dB gegenüber 85 dB). Wie es in 8 dargestellt ist, bewirken die Nebenkeulen des Filters, das ein Signal 86, das normalerweise im dritten Subband liegt, durch den Alias-Effekt in die banchbarten Subbänder gerät. Der Subbandgewinn misst die Zurückweisung des Signals in den benachbarten Subbändern und gibt somit die Fähigkeit des Filters an, das Audiosignal zu dekorrelieren. Da NPR-Filter eine weitaus größeren NSBR-Abstand haben als die PR-Filter, haben sie auch einen weitaus größeren Subbandgewinn. Infolge dessen haben die NPR-Filter eine bessere Codierleistung.
Wie in 9 dargestellt, wird die Gesamtverzerrung im komprimierten Datenstrom verringert, wenn sich die Gesamtbitrate für die PR- und NPR-Filter erhöht. Bei niedrigen Raten ist die Differenz des Subband-Verstärkungsgewinns zwischen den beiden Filtertypen größer als das Grundrauschen, das mit dem NPR-Filter in Verbindung steht. Somit liegt die Verzerrungskurve 90 des NPR-Filters unter der Verzerrungskurve 92 des PR-Filters. Daher wählt bei geringen Raten der Audiocodierer die NPR-Filterbank. An einem gewissen Punkt fällt der Quantisierungsfehler des Codierers unter das Grundrauschen des NPR-Filters, so dass das Hinzufügen zusätzlicher Bits zum ADPCM-Codierer keine zusätzlichen Gewinne bringt. An diesem Punkt schaltet der Audiocodierer zur PR-Filterbank um.
ADPCM-Codierung
Der ADPCM-Codierer 72 erzeugt eine vorhergesagte Abtastung p(n) aus einer linearen Kombination von H zuvor rekonstruierten Abtastungen. Diese Prädiktionsabtastung wird anschließend von der Eingabe x(n) abgezogen, um eine Differenzabtastung d(n) zu ergeben. Diese Differenzabtastungen werden skaliert, indem sie durch den RMS- (oder PEAK-) Sklalierungsfaktor geteilt werden, um die RMS-Amplituden der Differenzabtastungen mit jenen der Quantisierercharakteristik Q zur Deckung zu bringen. Die skalierte Differenzabtastung ud(n) wird auf die Quantisierercharakteristik mit L Pegeln der Schrittgröße SZ angewandt, wie es durch die Zahl der Bits ermittelt wurde, die ABIT für die momentane Abtastung zugewiesen hat. Der Quantisierer erzeugt einen Pegelcode QL(n) für die skalierte Differenzabtastung ud(n). Diese Pegelcodes werden schließlich zur Decoder-ADPCM-Stufe gesendet. Um die Prädiktorhistorie zu aktualisieren, werden die Quantisierer-Pegelcodes QL(n) unter Verwendung eines Umkehr-Quantisierers 1/Q mit identischen Charakteristika wie Q lokal decodiert, um eine quantisierte skalierte Differenzabtastung u^d(n) zu erzeugen. Die Abtastung u^d(n) wird durch Multiplizieren derselben mit dem RMS- (oder PEAK-) Skalierungsfaktor reskaliert, um d^(n) zu erzeugen. Eine quantisierte Version x^(n) der urssprünglichen Eingangsabtastung x(n) wird rekonstruiert, indem die anfängliche Prädiktionsabtastung p(n) zur quantisierten Differenzabtastung d^(n) hinzugefügt wird. Diese Abtastung wird anschließend verwendet, um die Prädiktorhistorie zu aktualisieren.
Vektorquantisierung
Die Prädiktor-Koeffizienten und Hochfrequenz-Subbandabtastungen werden unter Verwendung der Vektorquantisierung (VQ) codiert. Die Pädiktor-VQ hat eine Vektordimension von 4 Abtastungen und eine Bitrate von 3 Bits pro Abtastung. Das finale Codebuch besteht somit aus 4.096 Codevektoren mit der Dimension 4. Die Suche der übereinstimmenden Vektoren ist als Zweiebenen-Baum aufgebaut, bei dem jeder Knoten im Baum 64 Zweige aufweist. Die obere Ebene speichert 64 Knoten-Codevektoren, die lediglich beim Codierer benötigt werden, um beim Suchvorgang zu helfen. Die untere Ebene kontaktiert 4096 finale Codevektoren, die sowohl vom Codierer als auch vom Decoder benötigt werden. Das Codebuch und die Knotenvektoren werden mit Hilfe des LBG-Verfahrens mit über 5 Millionen Prädiktions-Koeffizient-Trainingsvektoren trainiert. Die Trainingsvektoren werden für jedes Subband akkumuliert, das einen positiven Prädiktionsgewinn aufweist, während ein großer Bereich des Audiomaterials codiert wird. Für Testvektoren in einem Trainingssatz erhält man durchschnittliche SNRs von etwa 30 dB.
Die Hochfrequenz-VQ hat eine Vektordimension von 32 Abtastungen (die Länge eines Subframes) und eine Bitrate von 0,3125 Bits pro Abtastung. Das finale Codebuch besteht somit aus 1024 Codevektoren der Dimension 32. Die Suche nach übereinstimmenden Vektoren ist als Zweiebenen-Baum aufgebaut, wobei jeder Knoten im Baum 32 Zweige aufweist. Die obere Ebene speichert 32 Knoten-Codevektoren, die lediglich beim Codierer benötigt werden. Die untere Ebene enthält 1024 finale Codevektoren, die sowohl vom Codierer als auch vom Decoder benötigt werden. Für jede Suche sind 64 MSE-Berechnungen der Dimension 32 erforderlich. Das Codebuch und die Knotenvektoren auf der oberen Ebene werden unter Verwendung des LGB-Verfahrens mit über 7 Millionen Hochfrequenz-Subbandabtastungs-Trainingsvektoren trainiert. Die Abtastungen, die die Vektoren bilden, werden von den Ausgaben der Subbänder 16 bis 32 für eine Abtastrate von 48 kHz für einen großen Bereich des Audiomaterials akkumuliert. Bei einer Abtastrate von 48 kHz repräsentieren die Traningabtastungen Audiofrequenzen im Bereich von 12 bis 24 kHz. Für die Testvektoren im Trainingssatz wird ein durchschnittliches SNR von etwa 3 dB erwartet. Wenngleich 3 dB ein kleines SNR ist, reicht es aus, eine hohe Frequenzwiedergabetreue oder Raumklang bei diesen Frequenzen zu erzeugen. Es ist wahrnehmbar weitaus besser als die bekannten Techniken, die die hochfrequenten Subbänder schlichtweg auslassen.
Codierung durch Frequenzvereinigung
Bei Anwendungen mit einer sehr geringen Bitrate kann die gesamte Rekonstruktions-Wiedergabetreue dadurch verbessert werden, dass lediglich eine Summierung hochfrequenter Subbandsignale von zwei oder mehr Audiokanälen codiert wird, anstelle diese unabhängig voneinander zu codieren. Die Frequenzvereinigungscodierung ist möglich, weil die hochfrequenten Subbänder oftmals ähnliche Energieverteilungen aufweisen und weil das menschliche Hörsystem in erster Linie auf die "Intensität" der hochfrequenten Komponenten anstelle ihrer feinen Struktur empfindlich ist. Somit verfügt das rekonstruierte Durchschnittsignal über eine gute Gesamtwiedergabetrue, da bei einer beliebigen Bitrate mehr Bits zur Verfügung stehen, um die für die Wahrnehmung wichtigen tiefen Frequenzen zu codieren.
Frequenzvereinigungs-Codierindizes (JOINX) werden direkt zum Decoder gesendet, um anzuzeigen, welche Kanäle und Subbänder vereinigt wurden und wo sich im Datenstrom das codierte Signal befindet. Der Decoder rekonstruiert das Signal im gekennzeichneten Kanal und kopiert es anschließend in jeden der anderen Kanäle. Anschließend wird jeder Kanal gemäß seinem speziellen RMS-Skalierungsfaktor skaliert. Da die Frequenzvereinigungs-Codierung den Durchschnitt der Zeitsignale auf der Basis der Ähnlichkeit ihrer Energieverteilungen durchführt, wird die Rekonstruktions-Wiedergabetreue verringert. Daher ist ihre Anwendung normalerweise auf niedrige Bitraten und hauptsächlich auf die Si gnale mit 10 bis 20 kHz beschränkt. Bei den Anwendungen mit mittleren und hohen Bitraten wird die Frequenzvereinigungs-Codierung außer Kraft gesetzt.
Subbandcodierer
Der Codiervorgang für ein einzelnes Seitenband, das unter Verwendung der ADPCM-/APCM-Verfahren codiert wird, und insbesondere die Interaktion der Analysestufe 70 und des ADPCM-Codierers 72, der in 5 gezeigt ist, sowie das Global-Bit-Managementsystem 30, das in 2 gezeigt ist, werden detailliert in 10 dargestellt. 11 bis 19 zeigen detailliert den Teilvorgang aus 13. Die Filterbank 34 zerlegt das PCM-Audiosignal 14 in 32 Subbandsignale x(n), die in entsprechende Subband-Abtastpuffer 96 geschrieben werden. Von einer Audiofenstergröße von 4096 Abtastungen ausgehend, speichert jedes Subband-Abtasfilter 96 einen kompletten Frame von 128 Abtastungen, die in 4 32-Abtast-Subframes unterteilt sind. Eine Fenstergröße von 1024 Abtastungen würde einen einzigen 32-Abtast-Subframe erzeugen. Die Abtastungen x(n) werden zur Analysestufe 70 geleitet, um die Prädiktionskoeffizienten, die Prädiktorart (PMODE), die Transientart (TMODE) und die Skalierungsfaktoren (SF) für jeden Subframe zu ermitteln. Die Abtastungen x(n) werden zudem dem GBM-System 30 zugeführt, das die Bitzuweisung (ABIT) für jeden Subframe pro Subband je Audiokanal ermittelt. Anschließend werden die Abtastungen x(n) zum ADPCM-Codierer 72 Subframe für Subframe weitergeleitet.
Schätzung des optimalen Prädiktions-Koeffizienten
Die H, vorzugsweise die vierte Ordnung, Prädiktions-Koeffizienten werden separat für jeden Subframe unter Verwendung des Standard-Autokorrelationsverfahrens 98, das über einen Block von Subband-Abtastungen x(n) optimiert ist, d. h. die Weiner-Hopf- oder Yule-Walker-Gleichung, erzeugt.
Qunatisierung optimaler Prädiktions-Koeffizienten
Jeder Satz aus vier Prädiktor-Koeffizienten wird vorzugsweise unter Verwendung eines 4-Element-Baumsuch-12-Bit-Vectorcodebuchs (3 Bits je Koeffizient), wie es oben beschrieben wurde, quantisiert. Das 12-Bit-Vektorcodebuch enthält 4096 Koeffizenten-Vektoren, die für eine gewünschte Wahrscheinlichkeitsverteilung unter Verwendung eines Standard-Cluster-Algorithmus' optimiert sind. Eine Vektorquantisierungs- (VQ-) Suche 100 wählt den Koeffizienten-Vektor, der den geringstgewichtigen mittleren quadratischen Fehler zwischen sich selbst und den optimalen Koeffizienten aufweist. Die optimalen Koeffizienten für jeden Subframe werden anschließend durch die "quantisierten" Vektoren ersetzt. Eine umgekehrte VQ-LUT 101 wird verwendet, um die quantisierten Prädiktor-Koeffizienten dem ADPCM-Codierer 72 bereitzustellen.
Schätzen des Prädiktions-Differenz-Signals d(n)
Ein beträchtliches Dilemma mit der ADPCM besteht darin, dass die Differenz-Abtastsequenz d(n) vor dem eigentlichen rekursiven Vorgang 72 nicht einfach vorhergesagt werden kann. Eine fundamentale Anforderung der vorausberechnenden adaptiven Subband-ADPCM besteht darin, dass die Energie die Differenzsignals vor der ADPCM-Codierung bekannt sein muss, um eine geeignete Bitzuweisung für den Quantisierer zu berechnen, der einen bekannten Quantisierungsfehler oder Rauschpegel im rekonstruierten Signal erzeugen wird. Die Kenntnis der Energie des Differenzsignals ist ebenfalls erforderlich, um einen optimalen Differenz-Skalierungsfaktor vor der Codierung ermitteln zu können.
Leider hängt die Energie des Differenzsignals nicht nur von den Charakteristika des Eingangssignals sondern auch von der Leistungsfähigkeit des Prädiktors ab. Abgasehen von den bekannten Einschränkungen, wie etwa der Prädiktorordnung und der Optimalität der Prädiktor-Koeffizienten, wird die Leistungsfähigkeit des Prädiktors zudem durch den Pegel des Quantisierungsfehlers oder das Rauschen beeinflusst, das in den rekonstruierten Abtastungen erzeugt wird. Da das Quantierungsrauschen durch die finale Bitzuweisung ABIT und die Werte des Dif ferenz-Skalierungsfaktors RMS (oder PEAK) an sich diktiert wird, muss die Schätzung der Energie des Differenzsignals iterativ erreicht werden 102.
Schritt 1 Annehmen des Quantisierungs-Null-Fehlers
Die erste Schätzung des Differenzsignals erfolgt mit einem Durchlauf der gepufferten Subbandabtastungen x(n) durch einen ADPCM-Vorgang, der das Differenzsignal nicht quantisiert. Dies wird durch Außerkraftsetzen der Quantisierung und der RMS-Skalierung in der ADPCM-Codierschleife erreicht. Durch Schätzen des Differenzsignals d(n) auf diese Weise werden die Auswirkungen des Skalierungsfaktors und die Bitzuweisungswerte aus der Berechnung entfernt. Die Auswirkung des Quantisierungsfehlers auf die Prädiktor-Koeffizienten wird durch den Vorgang berücksichtigt, indem die vektorquantisierten Prädiktions-Koeffizienten verwendet werden. Eine umgekehrte VQ-LUT 104 wird verwendet, um die quantisierten Prädiktions-Koeffizienten zu erzeugen. Um die Genauigkeit des Schätz-Prädiktors weiter zu erhöhen, werden die Historien-Abtastungen vom tatsächlichen ADPCM-Prädiktor, die am Ende der vorangehenden Blocks akkumuliert wurden, in den Prädiktor von der Berechnung kopiert. Dadurch ist sichergestellt, dass der Prädiktor an der Stelle beginnt, an der der reale ADPCM-Prädiktor am Ende des vorangehenden Eingangspuffers ausgestiegen ist.
Die Hauptdiskrepanz zwischen diesem Schätzvorgang ed(n) und dem tatsächlichen Vorgang d(n) besteht darin, dass die Auswirkung des Quantisierungsrauschens auf die rekonstruierten Abtastungen x(n) und auf die reduzierte Prädiktionsgenauigkeit ignoriert wird. Bei Quantisierern mit einer großen Zahl von Pegeln ist der Rauschpegel im allegemeinen gering (eine geeignete Skalierung vorausgesetzt), und somit stimmt die tatsächliche Energie des Differenzsignals eng mit jener überein, die bei der Schätzung berechnet wurde. Wenn jedoch die Zahl der Quantisiererpegel gering ist, wie es bei typischen Audiocodierern mit geringer Bitrate der Fall ist, kann das tatsächliche vorhergesagte Signal und somit die Energie des Differenzsignals deutlich von der geschätzten Energie abweichen. Dies erzeugt Codier-Grundrauschen, die sich von jenen unterscheiden, die zuvor beim adaptiven Bitzuweisungsvorgang vorhergesagt wurden.
Trotzdem muss die Schwankung der Prädiktionsleistung für die Anwendung oder Bitrate nicht von Bedeutung sein. Somit kann die Schätzung direkt für die Berechnung der Bitzuweisungen und die Skalierungsfaktoren ohne Iteration verwendet werden. Eine zusätzliche Verfeinerung würde darin bestehen, den Leitungsverlust dadurch zu kompensieren, dass die Energie des Differenzsignals absichtlich über-schätzt wird, wenn die Wahrscheinlichkeit besteht, dass ein Quantisierer mit einer geringen Zahl von Pegeln diesem Subband zugewiesen werden soll. Die Über-Schätzung kann auch gemäß einer Änderungszahl der Quantisierpegel für eine verbesserte Genauigkeit eingestuft werden.
Schritt 2 Neuberechnung unter Verwendung geschätzter Bitzuweisungen und Skalierungsfaktoren
Nachdem die Bitzuweisungen (ABIT) und Skalierungsfaktoren (SF) unter Verwendung des ersten Schätz-Differenzsignals erzeugt wurden, kann deren Optimalität getestete werden, indem ein weiterer ADPCM-Schätzvorgang unter Verwendung der geschätzten ABIT- und RMS- (oder PEAK-) Werte in der ADPCM-Schleife 72 ausgeführt wird. Wie bei der ersten Schätzung, wird die Schätz-Prädiktorhistorie aus dem tatsächlichen ADPCM-Prädiktor vor dem Beginn der Berechnung kopiert, um sicherzustellen, dass beide Prädiktoren an derselben Stelle beginnen. Nachdem die gepufferten Eingangsabtastungen allesamt diese zweite Schätzschleife durchlaufen haben, wird das resultierende Grundrauschen in jedem Subband mit dem angenomenen Grundrauschen im adaptiven Bitzuweisungsvorgang verglichen. Deutliche Diskrepanzen können kompensiert werden, indem die Bitzuweisung und/oder die Skalierungsfaktoren modifiziert werden.
Schritt 2 kann wiederholt werden, um in geeigneter Weise das verteilte Grundrauschen über die Subbänder zu verfeinern, wobei jedesmal die aktuellste Differenzsignalschätzung verendet wird, um den nächsten Satz von Bitzuweisungen und Skalierungsfaktoren zu berechnen. Wenn sich die Skalierungsfaktoren um mehr als etwa 2 bis 3 dB ändern, werden sie im allgemeinen neu berechnet. Andernfalls würde die Bitzuweisung eine Beschädigung der Signal-Maskierungs- Verhältnisse riskieren, die durch den psychoakustischen Maskierungsvorgang oder alternativ durch den MMSE-Vorgang erzeugt werden. Normalerweise ist eine einzige Iteration ausreichend.
Berschnung der Subband-Prädiktionsarten (PMODE)
Um die Leistungsfähigkeit der Codierung zu verbessern, kann ein Controller 106 willkürlich den Prädiktionsvorgang abschalten, wenn der Prädiktionsgewinn im momentanen Subframe unter einen Schwellenwert fällt, indem er ein PMODE-Kennzeichen einstellt. Das PMODE-Kennzeichen wird auf Eins eingestellt, wenn der Prädiktionsgewinn (Verhältnis der Energie des Eingangssignals zur geschätzten Energie des Differenzsignals), der während der Schätzstufe für einen Block von Eingangsabtastungen gemessen wird, einen bestimmten positiven Schwellenwert überschreitet. Wenn im Gegensatz dazu gemessen wird, dass der Prädiktionsgewinn geringer ist als der positive Schwellenwert, werden die ADPCM-Prädiktor-Koeffizienten sowohl beim Codierer als auch beim Decoder für dieses Subband auf Null gestellt und die entsprechende PMODE auf Null gestellt. Der Prädiktionsgewinn-Schwellenwert ist derart eingestellt, dass er der Verzerrungsrate des gesendeten Prädiktor-Koeffizienten-Vektor-Overheads gleicht. Dies erfolgt bei einem Versuch sicherzustellen, dass, wenn PMODE = 1, der Codiergewinn für den ADPCM-Vorgang immer größer oder gleich jenem eines vorausberechnenden adaptiven PCM- (APCM-) Codiervorgangs ist. Beim Einstellen von PMODE auf Null und Rücksetzten der Prädiktor-Koeffizienten kehrt der ADPCM-Vorgang einfach zur APCM zurück.
Die PMODEs können in beliebigen oder sämtlichen Subbändern hoch eingestellt werden, sofern die Schwankungen des ADPCM-Codiergewinns für die Anwendung nicht wichtig sind. Im Gegensatz dazu können die PMODES niedrig eingestellt werden, wenn beispielsweise bestimmte Subbänder nicht codiert werden, die Bitrate der Anwendung hoch genug ist, dass keine Prädiktionsgewinne erforderlich sind, um die subjektive Qualität des Audios beizubehalten, der Transientinhalt des Signals hoch ist, oder die Splicing-Charakteristik des ADPMC- codierten Audio einfach nicht erwünscht ist, wie es der Fall bei Audioschnitt-Anwendungen der Fall sein könnte.
Es werden separate Prädiktionsarten (PMODEs) für jedes Subband bei einer Rate gleich der Aktualisierungsrate der linearen Prädiktoren bei den Codierer- und Decoder-ADPCM-Vorgängen gesendet. Der Zweck des PMODE-Paramters besteht darin, dem Decoder anzuzeigen, ob das spezielle Subband eine Prädiktions-Koeffizient-Vektoradresse aufweist, die seinem codierten Audiodatenblock zugewiesen ist. Befindet sich PMODE = 1 in einem Subband, dann ist eine Prädiktor-Koeffizient-Vektoradresse immer im Datenstrom enthalten. Wenn PMODE = 0 in einem Subband ist, dann ist eine Prädiktor-Koeffizient-Vektoradresse niemals im Datenstrom, und es werden die Prädiktor-Koeffizienten sowohl bei der Codiererals auch bei der Decoder-ADPCM-Stufe auf Null gestellt.
Die Berechnung der PMODEs beginnt mit der Analyse der gepufferten Subband-Eingangssignal-Energien im Bezug auf die entsprechenden gepufferten geschätzten Differenzsignal-Energien, die man bei der Schätzung der ersten Stufe erhält, wobei kein Quantisierungsfehler angenommen wird. Sowohl die Eingangsabtastungen x(n) als auch die geschätzten Differenzabtastungen ed(n) werden für jedes Subband separat gepuffert. Die Puffergröße gleicht der Zahl der Abtastungen, die in jeder Prädiktor-Aktualisierungsperiode enthalten sind, wie etwa die Größe eines Subframes. Der Prädiktionsgewinn wird anschließend wie folgt berechnet: PGewinn(dB) = 20,0*Log10(RMSx(n)/RMSed(n))wobei RMS_x(n) = der durchschnittliche Quadratwurzelwert der gepufferten Eingangsabtastungen x(n) und RMS_ed(n) = der Durchschnittliche Quadratwurzelwert der gepufferten geschätzten Differenzabtastungen ed(n) ist.
Für positive Prädiktionsgewinne ist das Differenzsignal im Durchschnitt schwächer als das Eingangssignal, und somit kann ein reduziertes Rekonstruktions-Grundrauschen erreicht werden, wenn der ADPCM-Vorgang über die APCM für dieselbe Bitrate verwendet wird. Für negative Gewinne macht der ADPCM- Codierer das Differenzsignal im Durchschnitt stärker als das Eingangssignal, was zu höheren Grundrauschen als die APCM für dieselbe Bitrate führt. Normalerwiese ist der Prädiktionsgewinn-Schwellenwert, der PMODE einschaltet, posititv und hat einen Wert, der die zusätzliche Kanalkapazität berücksichtigt, die durch die Sendung der Prädiktor-Koeffizienten-Vektoradresse verbraucht wird.
Berechnung der Subband-Transien-Betriebstarten (TMODE)
Der Controller 106 berechnet die Transient-Betriebsarten (TMODE) für jeden Subframe in jedem Subband. Die TMODEs kennzeichnen die Zahl der Skalierungsfaktoren und der Abtastungen im Puffer des geschätzten Differenzsignals ed(n), wenn PMODE = 1 ist, oder im Puffer des Eingangs-Subbandsignals x(n), wenn PMODE = 0 ist, für die sie gültig sind. Die TMODEs werden mit derselben Rate aktualisiert wie die Prädiktions-Koeffizient-Vektoradressen und werden zum Decoder gesendet. Der Zweck der Transient-Betriebsarten besteht in der Verringerung der hörbaren Codier-"Prä-Echo"-Artefakte bei Signaltransienten.
Ein Transient ist als schneller Übergang zwischen einem Signal mit geringer Amplitude und einem Signal mit hoher Amplitude definiert. Da für die Skalierungsfaktoren über einen Block von Subband-Differenzabtastungen der Durchschnitt gebildet wird, ist, wenn eine schnelle Änderung der Signalamplitude in einem Block, d. h. ein Transient, auftritt, der berechnete Skalierungsfaktor weitaus größer, als dies für die Abtastungen mit der geringen Amplitude optimal wäre, die dem Transient vorausgehen. Somit kann der Quantisierungsfehler in den Abtastungen, die den Transienten vorausgehen, sehr hoch sein. Dieses Rauschen wird als Prä-Echo-Verzerrung wahrgenommen.
In der Praxis wird die Transient-Betriebsart verwendet, um die durchschnittliche Blocklänge des Subband-Skalierungsfaktors abzuändern und so den Einfluss eines Transienten auf die Skalierung der Differntial-Abtastungen zu beeinflussen, die ihm unmittelbar vorausgehen. Die Motivation dafür ist das Prä-Maskierungsphänomen, das dem menschlichen Gehör zueigen ist, wodurch suggeriert wird, dass in der Gegenwart von Transienten Rauschen vor einem Transienten maskiert werden kann, vorausgesetzt, dass dessen Dauer kurzgehalten wird.
In Abhängigkeit des Wertes von PMODE werden entweder die Inhalte, d. h. der Subframe, des Subband-Abtastpuffers x(n) oder jene des geschätzten Differenzpuffers ed(n) in einen Transient-Analyspuffer kopiert. Hier sind die Pufferinhalte einheitlich in 2, 3 oder 4 Teil-Subframes in Abhängigkeit der Abtastgröße des Analysepuffers unterteilt. Wenn der Analysepuffer beispielsweise 32 Subband-Abtastungen (21,3 ms @ 1500 Hz) enthält, wird der Puffer in 4 Teil-Subframes mit jeweils 8 Abtastungen unterteilt, was zu einer Zeitauflösung von 5,3 ms für eine Subband-Abtastrate von 1500 Hz führt. Wenn alternativ dazu das Analysefenster mit 16 Subband-Abtastungen konfiguriert war, dann muss der Puffer nur in zwei Subframes unterteilt werden, damit dieselbe Zeitauflösung erreicht wird.
Das Signal in jedem Subframe wird analysiert und der Transientstatus jedes einzelnen, anders als der erste, ermittelt. Sind Subframes als Transient deklariert, werden zwei separate Skalierungsfaktoren für den Analysepuffer, d. h. den momentanen Subframe, erzeugt. Der erste Skalierungsfaktor wird aus den Abtastungen in den Teil-Subframes berechnet, die den transienten Teil-Subframe vorausgehen. Der zweite Skalierungsfaktor wird aus Abtastungen im transienten Teil-Subframe zusammen mit sämtlichen weiteren Teil-Subframes berechnet.
Der Transientstatus des ersten Teil-Subframes wird nicht berechnet, da das Quantisierungsrauschen automatisch durch den Beginn des Analysefensters an sich begrenzt wird. Werden mehr als ein Teil-Subframe als transient deklariert, dann wird nur derjenige berücksichtigt, der als erster auftritt. Werden überhaupt keine transienten Sub-Puffer erfasst, dann wird lediglich ein einziger Skalierungsfaktor unter Verwendung sämtlicher Abtastungen im Analysepuffer berechnet. Auf diese Weise werden Skalierungsfaktoren, die transiente Abtastungen enthalten, nicht dazu verwendet, frühere Abtastungen zu skalieren, die länger als eine Teil-Subframe-Periode zeitlich zurückliegen. Somit wird das Rauschen der Prä-Transient-Quantisierung auf eine Teil-Subframe-Periode begrenzt.
Transient-Deklarierung
Ein Teil-Subframe wird als transient deklariert, wenn das Verhältnis seiner Energie über dem vorausgehenden Sub-Puffer einen Transient-Schwellenwert (TT) überschreitet und die Energie im vorausgehenden Teil-Subframe unter einem Prä-Transient-Schwellenwert (PTT) ist. Die Werte von TT und PTT hängen von der Bitrate und dem Grad der erforderlichen Prä-Echo-Unterdrückung ab. Sie werden normalerweise variiert, bis die erkannte Prä-Echo-Verzerrung mit dem Pegel anderer Codier-Artefakte übereinstimmt, sofern diese vorhanden sind. Zunehmende TT- und/oder abnehmende PTT-Werte verringern die Wahrscheinlichkeit, dass Teil-Subframes als transient deklariert werden, und verringern somit die Bitrate, die der Sendung der Skalierungsfaktoren zugewiesen ist. Im Gegensatz dazu erhöht die Verringerung der TT- und/oder Zunahme der PTT-Werte die Wahrscheinlichkeit, das Teil-Subframes als transient deklariert werden, wodurch die Bitrate zunimmt, die der Sendung der Skalierungsfaktoren zugewiesen ist.
Da TT und PTT für jedes Subband individuell eingestellt werden, kann die Empfindlichkeit der Transientenerfassung beim Decoder für jedes Subband willkürlich eingestellt werden. Wenn beispielsweise herausgefunden wird, dass das Prä-Echo in den hochfrequenten Subbändern weniger wahrnehmbar ist als in den niederfrequenten Subbändern, dann können die Schwellenwerte so eingestellt werden, dass die Wahrscheinlichkeit verringert wird, mit der Transienten in den höheren Subbändern deklariert werden. Da darüber hinaus die TMODEs im komprimierten Datenstrom eingebettet sind, muss dem Decoder niemals der Transienten-Erfassungsalgrorithmus bekannt sein, der beim Codierer in Verwendung ist, um die TMODE-Informationen ordnungsgemäß zu decodieren.
Vier Subpuffer Konfigurationen
Wenn, wie in 11a dargestellt, der erste Teil-Subframe 108 im Subband-Analysepuffer 109 transient ist, oder wenn keine transienten Teil-Subframes erfasst werden, dann ist TMODE = 0. Ist der zweite Teil-Subframe transient, aber nicht der erste, dann ist TMODE = 1. Ist der dritte Teil-Subframe transient, aber nicht der erste oder der zweite, dann ist TMODE = 2. Ist lediglich der vierte Teil-Subframe transient, dann ist TMODE = 3.
Berechnung der Skalierfaktoren
Wenn, wie in 11b dargestellt, TMODE = 0 ist, werden die Skalierungsfaktoren 110 über alle Teil-Subframes berechnet. Wenn TMODE = 1 ist, wird der erste Skalierungsfaktor über den ersten Teil-Subframe und der zweite Skalierungsfaktor über sämtliche nachfolgenden Teil-Subframes berechnet. Wenn TMODE = 3 ist, wird der erste Skalierungsfaktor über den ersten, zweiten und dritten Teil-Subframe und der zweite Skalierungsfaktor über den vierten Teil-Subframe berechnet.
ADPCM-Codierung und -Decodierung unter Verwendung von TMODE
Wenn TMODE = 0 ist, wird der einzelne Skalierungsfaktor verwendet, um die Subband-Differenzabtastungen für die Dauer des gesamten Analysepuffers, d. h. einen Subframe, zu skalieren, und zum Decoder gesendet, um eine umgekehrte Skalierung zu ermöglichen. Wenn TMODE > 0 ist, dann werden zwei Skalierungsfaktoren verwendet, um die Subband-Differenzabtastungen zu skalieren, und beide zum Decoder gesendet. Für ein beliebiges TMODE wird jeder Skalierungsfaktor zur Skalierung der Differentialabtastungen verwendet, der verwendet wurde, um diese zuerst zu erzeugen.
Berechnung der Subband-Skalierungsfaktoren (RMS oder PEAK)
In Abhängigkeit des Wertes von PMODE für dieses Subband werden entweder die geschätzten Differenzabtastungen ed(n) oder die Eingangs-Subbandabtastungen x(n) verwendet, um den geeigneten Skalierungsfaktor (s) zu berechnen. Die TMODEs werden bei dieser Berechnung benutzt, um sowohl die Zahl der Skalie rungsfaktoren zu ermitteln, als auch die entsprechenden Teil-Subframes im Puffer zu identifizieren.
RMS-Skalierungsfaktor-Berechnung
Für das j-te Subband werden die rms-Skalierungsfaktoren wie folgt berechnet:
Wenn TMODE = 0 ist, dann ist der einzelne rms-Wert;
wobei L die Zahl der Abtastungen im Subframe ist.
Wenn TMODE > 0 ist, dann sind die beiden rms-Werte;
wobei k = (TMODE*L/NSB) und NSB die Zahl der einheitlichen Subframes ist.
Wenn PMODE = 0 ist, dann werden die ed_j(n) Abtastungen durch die Eingangsabtastungen x_j(n) ersetzt.
Berechnung des PEAK-Skalierungsfaktors

Für das j-te Subband werden die Spitzen-Skalierungsfaktoren wie folgt berechnet;
Wenn TMODE = 0 ist, dann ist der einzelne Spitzenwert; PEAK_j = MAX(ABS(ed_j(n)) für n = 1, (TMODE*L/NSB) PEAK_j = MAX(ABSed_j(N)) für n = (1 + TMODE*LNSB), L
Wenn PMODE = 0, dann werden die ed_j(n) Abtastungen durch die Eingangsabtastungen x_j(n) ersetzt.

Quantisierung von PMODE, TMODE und der Skalierungsfaktoren
Quantiesierung der PMODEs
Die Prädiktions-Betriebsartkennzeichen haben lediglich zwei Werte, ein oder aus, und werden direkt zum Decoder als 1-Bit-Codes gesendet.
Quantisierung der TMODESs
Die Transient-Betriebsart-Kennzeichen haben ein Maximum von 4 Werten, 0, 1, 2 und 3, und werden entweder direkt unter Verwendung vorzeichenloser ganzzahliger Codewörter, oder wahlweise über eine 4-Ebenen-Entropietabelle als Versuch, die durchschnittliche Wortlänge der TMODEs unter 2 Bits zu verringern, zum Decoder gesendet. Normalerweise wird die optionale Entropiecodierung für Anwendungen mit geringer Bitrate verwendet, um Bits zu erhalten.
Der Entropiecodiervorgang 112, der im Detail in 12 gezeigt ist, läuft wie folgt ab; die Transient-Betriebsartcodes TMODE(j) für die j Subbänder werden mit einer Zahl (p) des 4-Ebenen-Mittenanhebungs-Codebuches variabler Länge abgestimmt, wobei jedes Codebuch für eine andere statistische Eingabecharakteristik optimiert ist. Die TMODE-Werte werden mit den 4-Ebenentabellen 114 abgestimmt und die Gesamtbitverwendung, die jeder Tabelle (NB_p) zugewiesen ist, berechnet 116. Die Tabelle, die die niedrigste Bitverwendung über den Abstimmungsvorgang erzeugt, wird unter Verwendung des THUFF-Index gewählt 118. Die abgestimmten Codes, VTMODE(j), werden aus dieser Tabelle extrahiert, gepackt und zum Decoder zusammen mit dem THUFF-Indexwort gesendet. Der Decoder, in dem sich dieselbe Gruppe der umgekehrten 4-Ebenen-Tabellen befin det, verwendet den THUFF-Index, um die eintreffenden variablen Codelängen, VTMODE(j), der richtigen Tabelle zuzuweisen, um die TMODE-Indizes rückzucodieren.
Quantisierung von Subband-Skalierungsfaktoren
Um die Skalierungsfaktoren zum Decoder zu senden, müssen sie zu einem bekannten Codeformat quantisiert werden. Bei diesem System werden sie entweder unter Verwendung einer einheitlichen logarithmischen 64-Ebenen-Charakteristik, einer einheitlichen logarithmischen 128-Ebenen-Charakteristik oder einer mit varaibler Rate codierten einheitlichen logarithmischen 64-Ebenen-Charakterisitk quantisiert. Der 64-Pegel-Quantisierer weist eine 2,25 dB Schrittgröße in beiden Fällen auf, und der 128-Pegel-Quantisierer eine 1,25 dB Schrittgröße. Die 64-Ebenen-Quantisierung wird bei niedrigen bis mittleren Bitraten verwendet, die zusätzliche Codierung mit variabler Rate wird bei Anwendungen mit geringer Bitrate benutzt und die 128-Ebenen-Quantisierung in der Regel bei hohen Bitraten.
Der Quantisierungsvorgang 120 ist in 13 dargestellt. Die Skalierungsfaktoren RMS oder PEAK werden aus einem Puffer 121 gelesen, zur Log-Domain 122 konvertiert und anschließend entweder auf den einheitlichen 64-Ebenen- oder den 128-Ebenen-Quantisierer 124, 126 angewendet, wie es durch die Codierer-Betriebsartsteuerung 128 festgelegt ist. Die logarithmisch quantisierten Skalierungsfaktoren werden anschließend in einen Puffer 130 geschrieben. Der Bereich des 128- und des 64-Ebenen-Quantisierers ist ausreichend, um Skalierungsfaktoren mit einem Dynamikbereich von etwa 160 dB bzw. 144 dB abzudecken. Die 128-Ebenen-Obergrenze ist so eingestellt, dass sie den Dynamikbereich eines digitalen 24-Bit-PCM-Digitalaudioeingangssignals abdeckt. Die 64-Ebenen-Obergrenze ist so eingestellt, dass sie den Dynamikbereich eines 20-Bit-Digitalaudioeingangssignals abdeckt.
Die logarithmischen Skalierungsfaktoren werden mit dem Quantisierer abgestimmt und der Skalierungsfaktor durch den nächstgelegenen Quantisierungs-Ebenencode RMS_QL (oder PEAK_QL) ersetzt. Im Falle des 64-Ebenen-Quantisierers sind diese Codes 6 Bits lang und reichen von 0 bis 63. Im Fall des 128-Ebenen-Quantisierers sind die Codes 7 Bits lang und reichen von 0 bis 127.
Die umgekehrte Quantisierung 131 wird erreicht, indem die Ebenencodes zurück auf die entsprechende umgekehrte Quantisierungscharakteristik abgestimmt werden, um RMS_q- (oder PEAK_q-) Werte zu erzeugen. Quantisierte Skalierungsfaktoren werden sowohl beim Codierer als auch beim Decoder für die Differential-Abtastskalierung der ADPCM (oder APCM, wenn PMODE = 0) verwendet, wodurch sichergestellt ist, dass sowohl der Skalierungs- als auch der umgekehrte Skalierungsvorgang identisch ist.
Wenn die Bitrate der 64-Ebenen-Quantisierercodes verringert werden muss, wird die zusätzliche Entropiecodierung oder die Codierung mit variabler Länge durchgeführt. Die 64-Ebenen-Codes werden differential in der ersten Ordnung über die j Subbänder codiert 132, beginnend beim zweiten Subband (j = 2) bis zum höchsten aktiven Subband. Der Vorgang kann ebenfalls dazu verwendet werden, PEAK-Skalierungsfaktoren zu codieren. Die gekennzeichneten Differentialcodes DRMS_QL(j) (oder DPEAK_QL(j)) haben einen Maximalbereich von +/–63 und werden in einem Puffer 134 gespeichert. Um deren Bitrate über die ursprünglichen 6-Bit-Codes zu verringern, werden die Differentialcodes mit einer Zahl (p) von 127-Ebenen-Mittenanhebungs-Codebüchern variabler Länge abgeglichen. Jedes Codebuch ist für eine andere statistische Eingabeeigenschaft optimiert.
Der Vorgang für die Entropiecodierung der gekennzeichneten Differentialcodes ist derselbe wie der Entropiecodiervorgang für die Transient-Betriebsarten, der in 12 dargestellt ist, mit der Ausnahme, dass p Tabellen von 127-Ebenen-Codes variabler Länge verwendet werden. Die Tabelle, die die geringste Bitverwendung über den Abstimmvorgang liefert, wird unter Verwendung des SHUFF-Index gewählt. Die abgestimmten Codes VDRMS_QL(j) werden aus dieser Tabelle extrahiert, gepackt und zum Decoder zusammen mit dem SHUFF-Indexwort gesendet. Der Decoder, der denselben Satz von (p) 127-Pegel-Umkehrtabellen aufweist, verwendet den SHUFF-Index, um die eintreffenden Codes variabler Länge der geeigneten Tabelle zum Rückcodieren auf Differentialquantisier-Codeebenen zuzuwei sen. Die Differentialcodeebenen kehren zu absoluten Werten unter Verwendung der folgenden Routinen zurück; RMSQL(1) = DRMSQL(1) RMSQL(j) = DRMSQL(j) + RMSQL(j – 1)für j = 2, ... K
und die PEAK-Differential-Codeebenen kehren zu absoluten Werten unter Verwendung der folgenden Routinen zurück; PEAKQL(1) = DPEAKQL(1) PEAKQL(j) = DPEAKQL(j) + PEAKQL(j – 1)für j = 2, ... K
wobei in beiden Fällen K die Zahl der aktiven Subbänder ist.
Globale Bitzuweisung
Das Global-Bit-Management-System 30 aus 10 verwaltet die Bitzuweisung (ABIT) und ermittelt die Zahl der aktiven Subbänder (SUBS) sowie die Frequenzvereinigungs-Strategie (JOINX) und die VQ-Strategie für den Mehrkanal-Audiocodierer, um eine subjektiv transparente Codierung bei einer reduzierten Bitrate zu erzeugen. Dadurch wird die Zahl der Audiokanäle und/oder die Wiedergabezeit, die auf einem unveränderbaren Medium codiert und gespeichert wird, erhöht, während die Audio-Wiedergabetreue verbessert wird. Im allgemeinen weist das GBM-System 30 zunächst Bits jedem Subband gemäß einer psychoakustischen Analyse zu, die durch den Prädiktionsgewinn des Codierers abgeändert wird. Die verbleibenden Bits werden anschließend gemäß einem MMSE-Schema zugewiesen, um das gesamte Grundrauschen zu verringern. Um die Leistungsfähigkeit beim Codieren zu optimieren, weist das GBM-System Bits über sämtliche Audiokanäle sämtlicher Subbänder und über den gesamten Frame gleichzeitig zu. Weiterhin kann die Frequenzvereinigungs-Codierstrategie verwendet werden. Auf diese Weise nutzt das System die ungleichmäßige Verteilung der Signalenergie zwischen den Audio-Kanälen über die Frequenz und über die Zeit.
Psychoakustische Analyse
Psychoakustische Messungen werden verwendet, um für die Wahrnehmung irrelevante Informationen im Audiosignal zu ermitteln. Für die Wahrnehmung irrelevante Informationen sind jene Teile des Audiosignals, die von menschlichen Zuhörern nicht gehört und in der Zeitdomäne, der Frequenzdomäne oder auf einer anderen Basis gemessen werden können. J. D. Johnston: "Transform Coding of Audio Signals Using Perceptual Noise Criteria" IEEE Journal on Selected Areas in Communications, vol JSAC-6, no. 2 pp. 314–323, Feb. 1988 beschriebt die allgemeinen Prinzipien der psychoakustischen Codierung.
Zwei Hauptfaktoren beeinflussen die psychoakustische Messung. Der eine ist der frequenzabhängige absolute Schwellenwert des Hörens, der bei Menschen zutrifft. Der andere ist der Maskierungseffekt, den ein Ton auf die Fähigkeit von Menschen hat, einen zweiten Ton zu hören, der gleichzeitig mit oder sogar nach dem ersten Ton abgespielt wurde. Mit anderen Worten hindert uns der erste Ton daran, den zweiten Ton zu hören, was als Ausblendung bezeichnet wird.
Bei einem Subbandcodierer ist das finale Ergebnis einer psychoakustischen Berechnung ein Zahlensatz, der den nicht hörbaren Rauschpegel für jedes Subband bei diesem Augenblick festlegt. Diese Berechnung ist hinlänglich bekannt und im MPEG 1 Kompressionsstandard ISO/IEC DIS 11172 "Information technology – Coding of moving pictures and associated audio for digital storage media up to about 1,5 MBits/s" 1992 enthalten. Diese Zahlen ändern sich dynamisch mit dem Audiosignal. Der Code versucht, das Quantisierungs-Grundrauschen in den Subbändern mit Hilfe des Bitzuweisungsvorgangs derart einzustellen, dass das Quantisierungsrauschen in diesen Subbändern geringer ist als der hörbare Pegel.
Eine präzise psychoakustische Berechnung erfordert normalerweise eine hohe Frequenzauflösung bei der Zeit-Frequenz-y-Transformation. Dies impliziert ein großes Analysefenster für die Zeit-Frequenz-Transformation. Die herkömmliche Analysefenstergröße beträgt 1024 Abtastungen, was einem Teilframe von kom primierten Audiodaten entspricht. Die Frequenzauflösung einer Länge-1024-FFT stimmt in etwa mit der Zeitauflösung des menschlichen Ohres überein.
Die Ausgabe des psychoakustischen Modells ist ein Signal-Maskierungs-Verhältnis (SMR) für jedes der 32 Subbänder. Das SMR ist für den Umfang des Quantisierungsrauschens kennzeichnend, das ein spezielles Subband ertragen kann, und ist somit ebenfalls für die Zahl von Bits kennzeichnend, die erforderlich sind, die Abtastungen im Subband zu quantisieren. Insbesondere zeigt ein großes SMR (>> 1) an, dass eine große Zahl von Bits erforderlich ist, und ein kleines SMR (> 0), dass weniger Bits notwendig sind. Ist SMR < 0, dann liegt das Audiosignal unter dem Rauschmaskierungs-Schwellenwert, wobei keine Bits für die Quantisierung erforderlich sind.
Wie in 14 gezeigt, werden die SMRs für jeden nachfolgenden Frame im allgemeinen durch 1) Anwenden einer FFT, vorzugsweise in einer Länge von 1024, auf die PCM-Audioabtastungen zum Erzeugen einer Sequenz von Frequenzkoeffizienten 142, 2) Falten der Frequenzkoeffizienten mit frequenzabhängigen psychoakustische Ton- und Rauschmasken 144 für jedes Subband, 3) Durchschnittberechnung der resultierenden Koeffizienten über jedes Subband zur Erzeugung der SMR-Pegel und 4) wahlweises Normalisieren der SMRs gemäß dem menschlichen Hörverhalten 146, wie in 15 gezeigt, erzeugt.
Die Empfindlichkeit des menschlichen Ohres hat ihr Maximum bei Frequenzen in der Nähe von 4 kHz und fällt ab, wenn die Frequenz zunimmt oder abnimmt. Somit muss für eine ebenbürtige Wahrnehmung ein 20-kHz-Signal weitaus stärker sein als ein 4-kHz-Signal. Daher sind die SMRs bei Frequenzen in der Nähe von 4 kHz relativ wichtiger als die abseits gelegenen Frequenzen. Die präzise Gestalt der Kurve hängt jedoch von der durchschnittlichen Leistung des Signals ab, das dem Zuhörer zugeführt wird. Wenn die Lautstärke zunimmt wird die Hörempfindlichkeit 146 komprimiert. Somit ist ein System, das für eine spezielle Lautstärke optimiert ist, bei anderen Lautstärken suboptimal. Infolge dessen wird entweder ein nominaler Leistungspegel für die Normalisierung der SMR-Pegel gewählt oder die Normalisierung außerkraftgesetzt. Die resultierenden SMRs 148 für die 32 Subbänder sind in 16 gezeigt.
Bitzuweisungsroutine
Das GBM-System 30 wählt zunächst die geeignete Codierstrategie, welche Subbänder mit der VQ und den ADPCM-Algorithmen codiert werden und ob die JFC aktiviert wird. Anschließend wählt das GBM-System entweder einen psychoakustischen Ansatz oder einen MMSE-Bitzuweisungs-Ansatz. Bei hohen Bitraten könnte das System beispielsweise die psychoakustische Modellierung außerkraftsetzen und ein echtes MMSE-Zuweisungsschema verwenden. Dadurch wird die Berechnungskomplexität verringert, ohne dass es wahrnehmbare Veränderungen im rekonstruierten Audiosignal gibt. Im Gegensatz dazu kann bei niedrigen Raten das System das Frequenzvereinigungs-Codierschema, das oben beschrieben wurde, aktivieren, um die Rekonstruktions-Wiedergabetreue bei niedrigen frequenzen zu verbessern. Das GBM-System kann zwischen der normalen psychoakustischen Zuweisung und der MMSE-Zuweisung auf der Basis des Transienten-Inhalts des Signals auf einer Frame-für-Frame-Basis umschalten. Ist der Transienten-Inhalt groß, ist die Voraussetzung der Unveränderlichkeit, die zur Berechnung der SMRs verwendet wird, nicht länger zutreffend, und somit liefert das MMSE-Schema bessere Ergebnisse.
Für eine psychoakustische Zuweisung weist das GBM-System zunächst die verfügbaren Bits zu, um den psychoakustischen Wirkungen gerecht zu werden, und weist die verbleibenden Bits zu, um das gesamte Grundrauschen zu verringern. Der erste Schritt besteht darin, die SMRs für jedes Subband für den momentanen Frame zu ermitteln, wie es oben erläutert wurde. Der nächste Schritt ist die Einstellung der SMRs auf den Prädiktionsgewinn (Pgewinn) in den entsprechenden Subbändern, um die Maskierungs-Rausch-Verhältnisse (MNRs) zu erzeugen. Das Prinzip besteht darin, dass der ADPCM-Codierer einen Teil des erforderlichen SMR liefert. Infolge dessen können nicht hörbare psychoakustische Rauschpegel mit weniger Bits erreicht werden.
Das MNR für das j-te Subband, vorausgesetzt PMODE = 1, ist gegeben durch MNR(j) = SMRQ) – Pgewinn(j)*PEF(ABIT)wobei PEF(ABIT) der Prädiktions-Effizienzfaktor des Quantisierers ist. Um MNR(j) zu berechnen, muss der Entwickler eine Schätzung der Bitzuweisung (ABIT) haben, die dadurch erzeugt werden kann, dass entweder Bits lediglich auf der Basis von SMR(j) zugewiesen werden, oder unter der Voraussetzung, dass PEF(ABIT) = 1 ist. Bei mittleren bis hohen Bitraten ist der effektive Prädiktionsgewinn etwa gleich dem berechneten Prädiktionsgewinn. Bei niedrigen Bitraten verringert sich jedoch der wirksame Prädiktionsgewinn. Der effektive Prädiktionsgewinn, der beispielsweise unter Verwendung eines 5-Ebenen-Quantisierers erreicht wird, ist etwa 0,7 des geschätzten Prädiktionsgewinns, während ein 65-Ebenen-Quantisierer gestattet, dass der effektive Prädiktionsgewinn etwa gleich dem geschätzten Prädiktionsgewinn PEF = 1,0 ist. In der Grenze, wenn die Bitrate Null ist, ist die prädiktive Codierung im wesentlichen außerkraftgesetzt und der effektive Prädiktionsgewinn Null.
Beim nächsten Schritt erzeugt das GBM-System 30 ein Bitzuweisungsschema, das dem MNR für jedes Subband gerecht wird. Dies geschieht unter Verwendung der Annäherung, dass 1 Bit gleich. 6 dB der Signalverzerrung ist. Um sicherzustellen, das die Codierverzerrung geringer ist als der psychoakustische hörbare Schwellenwert, ist die zugewiesene Bitrate die größte ganze Zahl des MNR geteilt durch 6 dB, was gegeben ist durch:
Durch Zuweisen der Bits auf diese Art und Weise neigt der Rauschpegel 156 im rekonstruierten Signal dazu, dem Signal an sich 157 zu folgen, wie es in 17 gezeigt ist. Somit ist bei Frequenzen, bei denen das Signal sehr stark ist, der Rauschpegel relativ hoch, bleibt jedoch unhörbar. Bei Frequenzen, bei denen das Signal relativ schwach ist, ist das Grundrauschen sehr gering und nicht hörbar. Der durchschnittliche Fehler, der mit dieser psychoakustischen Modellierung in Verbindung steht, ist immer größer als ein MMSE-Rauschpegel 158, wobei jedoch die hörbare Leistung insbesondere bei niedrigen Bitraten besser sein kann.
Für den Fall, dass die Summe der zugewiesenen Bits für jedes Subband über sämtliche Audiokanäle größer oder kleiner als die Soll-Bitrate ist, verringert oder erhöht die GBM-Routine iterativ die Bitzuweisung für einzelnen Subbänder. Alternativ kann die Sollbitrate für jeden Audiokanal berechnet werden. Dies ist suboptimal, insbesondere bei Hardwareanwendungen jedoch einfacher. Beispielsweise können die verfügbaren Bits gleichmäßig auf die Audiokanäle oder proportional zum durchschnittlichen SMR oder RMS jedes Kanals verteilt werden.
Für den Fall, dass die Soll-Bitrate durch die Summe der lokalen Bitzuweisungen einschließlich der VQ-Codebits und der Nebeninformationen überschritten wird, verringert die Global-Bit-Management-Routine progressiv die lokalen Subband-Bitzuweisungen. Zunächst können die Bitraten, die durch die größte ganzzahlige Funktion aufgerundet wurden, abgerundet werden. Dann kann ein Bit von den Subbändern weggenommen werden, die die kleinsten MNRs aufweisen. Weiterhin können die höherfrequenten Subbänder abgeschaltet oder die Frequenzvereinigungs-Codierung angewandt werden. Sämtliche Bitraten-Verringerungsstrategien folgen dem allgemeinen Prinzip, der allmählichen Verringerung der Codierauflösung in eleganter Art und Weise, wobei die wahrnehmbar am wenigsten eingreifende Strategie zuerst und die am stärksten eingreifende Strategie zum Schluss verwendet wird.
Für den Fall, dass die Soll-Bitrate größer ist als die Summe der lokalen Bitzuweisungen einschließlich der VQ-Codebits und der Nebeninformationen, erhöht die Global-Bit-Management-Routine progressiv und iterativ die lokalen Subband-Bitzuweisungen, um das gesamte Grundrauschen der rekonstruierten Signale zu verringern. Dies kann eine Codierung der Subbänder zur Folge haben, denen zuvor Null-Bits zugeordnet worden war. Der Bit-Overhead beim "Einschalten" von Subbändern auf diese Art und Weise kann die Kosten beim Senden von Prädiktorkoeffizienten wiederspiegeln, sofern PMODE aktiviert ist.
Die GBM-Routine kann aus einem von drei verschiedenen Schemata zum Zuweisen der verbleibenden Bits wählen. Eine Option besteht darin, einen MMSE-Ansatz zu verwenden, der sämtliche Bits derart zuordnet, dass das resultierende Grundrauschen in etwa flach ist. Dies ist äquivalent zum anfänglichen Außerkraftsetzen des psychoakustischen Modellierens. Um ein MMSE-Grundrauschen zu erreichen, wird die Kurve 160 der Subband-RMS-Werte, die in 18a dargestellt ist, umgedreht, wie dies in 18b gezeigt ist, und "wasserbefüllt", bis sämtliche der Bits erschöpft sind. Diese hinlänglich bekannte Technik wird Wasserfüllen genannt, weil der Verzerrungspegel gleichmäßig abfällt, wenn die Zahl der zugewiesenen Bits zunimmt. Beim dargestellten Beispiel wird das erste Bit dem Subband 1 zugewiesen, werden das zweite und dritte Bit den Subbändern 1 und 2 zugewiesen, und das vierte bis siebte Bit den Subbändern 1, 2, 4 und 7 usw. zugewiesen. Alternativ dazu kann ein Bit jedem Subband zugewiesen werden, um zu garantieren, dass jedes Subband codiert wird, worauf die übrigen Bits wassergefüllt werden.
Eine zweite und bevorzugte Option besteht darin, die übrigen Bits gemäß dem MMSE-Ansatz und der RMS-Kurve, wie oben beschrieben, zuzuweisen. Der Effekt dieses Verfahrens besteht darin, das Grundrauschen 157, das in 17 dargestellt ist, gleichmäßig abzusenken, während die Form beibehalten wird, die mit der psychoakustischen Maskierung in Verbindung steht. Dadurch wird ein guter Kompromiss zwischen der psychoakustischen Verzerrung und der mse-Verzerrung erzielt.
Der dritte Ansatz besteht darin, die verbleibenden Bits unter Verwendung des mms-Ansatzes zuzuweisen, wenn er auf eine Kurve der Differenz zwischen den RMS- und den MNR-Werten für die Subbänder angewandt wird. Die Wirkung dieses Ansatzes besteht darin, einen sanften Übergang der Form des Grundrauschens von der optimalen psychoakustischen Form 157 zur optimalen (flachen) MMSE-Form 158 zu erzeugen, wenn die Bitrate zunimmt. Wenn bei einem dieser Schemata der Codierfehler in einem Subband unter 0,5 LSB im Bezug auf die Quellen-PCM abfällt, dann werden diesem Subband keine weiteren Bits zugewiesen. Wahlweise können feste Maximalwerte der Subband-Bitzuweisungen ver wendet werden, um die Maximalzahl der Bits zu begrenzen, die speziellen Subbändern zugewiesen werden.
Beim oben beschriebenen Codiersystem haben wir vorausgesetzt, dass die durchschnittliche Bitrate pro Abtastung unveränderlich ist und haben die Bitzuweisung erzeugt, um die Wiedergabetreue des rekonstruierten Audiosignals zu maximieren. Alternativ dazu kann der Verzerrungspegel, mse oder wahrnehmbar, unveränderlich und es der Bitrate gestattet sein, sich zu ändern, um dem Verzerrungspegel gerecht zu werden. Beim MMSE-Ansatz wird die RMS-Kurve einfach wasserbefüllt, bis der Verzerrungspegel erfüllt ist. Die erforderliche Bitrate wird auf der Basis der RMS-Pegel des Subbands variieren. Beim psychoakustischen Ansatz werden die Bits zugewiesen, um den einzelnen MNRs gerecht zu werden. Infolge dessen wird die Bitrate auf der Basis der einzelnen SMRs und der Prädiktionsgewinne variieren. Diese Art der Zuweisung ist momentan nicht geeignet, da derzeitige Decoder bei unveränderlichen Raten arbeiten. Dennoch können alternative Systeme, wie etwa ATM- oder RAM-Speichermedien die variable Codierung in der nahen Zukunft praktikabel machen.
Quantisierung von Bitzuweisungs-Indizes (ABIT)
Die Bitzuweisungs-Indizes (ABIT) werden für jedes Subband und jeden Audiokanal durch eine adaptive Bitzuweisungsroutine beim Global-Bit-Management-Vorgang erzeugt. Der Zweck der Indizes beim Codierer besteht darin, die Zahl der Ebenen 162, die in 10 gezeigt sind, zu kennzeichnen, die erforderlich sind, um das Differenzsignal zu quantisieren, um ein subjektiv optimales Rekonstruktions-Grundrauschen im Decoder-Audio zu erhalten. Am Decoder kennzeichnen sie die Zahl der Ebenen, die für eine umgekehrte Quantisierung erforderlich sind. Indizes werden für jeden Analysepuffer erzeugt, wobei deren Werte im Bereich von 0 bis 27 liegen können. Die Beziehung zwischen dem Indexwert, der Zahl der Quantisierer-Ebenen und des näherungsweise resultierenden Differential-Subbandes SN_QR ist in Tabelle 3 gezeigt. Da das Differenzsignal normalisiert wird, ist die Schrittgröße 164 gleich 1.
Tabelle 3
Die Bitzuweisungs-Indizes (ABIT) werden entweder unter Verwendung vorzeichenloser ganzzahliger 4-Bit-Codewörter und vorzeichenloser ganzzahliger 5-Bit-Codewörter direkt zum Decoder gesendet, oder unter Verwendung 12-Ebenen-Entropie-Tabelle. Normalerweise wird die Entropie-Codierung bei Anwendungen mit geringer Bitrate verwendet, um Bits zu erhalten. Das Verfahren der Codierung von ABIT wird durch die Betriebsartsteuerung beim Codierer eingestellt und zum Decoder gesendet. Der Entropie-Codierer 166 stimmt die ABIT-Indizes mit einem speziellen Codebuch, das durch einen BHUFF-Index und speziellen Code VABIT im Codebuch identifiziert ist, unter Verwendung des Vorgangs, der in 12 dargestellt ist, durch 12-Ebenen-ABIT-Tabellen ab.
Globale Bitraten-Steuerung
Da sowohl die Nebeninformationen als auch die Differential-Subbandabtastungen optional unter Verwendung der Entropie-Codebücher variabler Länge codiert werden können, muss ein Mechanismus eingesetzt werden, um die resultierende Bitrate des Codierers einzustellen, wenn der komprimierte Datenstrom- mit einer unveränderlichen Rate gesendet werden soll. Da es normalerweise erwünscht ist, die Nebeninformationen, die einmal berechnet wurden, zu modifizieren, werden die Einstellungen der Bitraten am besten erreicht, indem der Differential-Subbandabtast-Quantisierungsvorgang innerhalb des ADPCM-Decoders iterativ verändert wird, bis die Beschränkung der Rate erreicht ist.
Beim beschriebenen System stellt ein Globales Ratensteuerungs- (GRC-) System 178 in 10 die Bitrate, die aus dem Vorgang der Abstimmung der Quantisierungsebenencodes mit der Entropietabelle resultiert, durch Verändern der statistischen Verteilung der Ebenencodewerte ein. Es wird davon ausgegangen, dass sämtliche Entropietabellen eine ähnliche Neigung zu höheren Codelängen für höhere Ebenencodewerte aufweisen. In diesem Fall wird die Bitrate verringert, da die Möglichkeit von Codeebenen geringer Werte zunimmt, und umgekehrt. Beim ADPCM- (oder APCM-) Vorgang legt die Größe des Skalierungsfaktors die Verteilung oder Verwendung der Ebenencodewerte fest. Wenn beispielsweise die Skalierungsfaktorgröße zunimmt, neigen die Differentialabtastungen dazu, durch die niedrigeren Ebenen quantisiert zu werden, und somit werden die Codewerte stufenweise kleiner. Dies führt wiederum zu kleineren Entropiecode-Wortlängen und zu einer geringeren Bitrate.
Der Nachteil dieses Verfahrens besteht darin, dass durch Erhöhung der Skalierungsfaktorgröße das Rekonstruktionsrauschen in den Subbandabtastungen in gleichem Maße ansteigt. In der Praxis ist jedoch die Einstellung der Skalierungsfaktoren normalerweise nicht größer als 1 db bis 3 dB. Ist eine größere Einstellung erforderlich, wäre es besser, zur Bitzuweisung zurückzukehren und die gesamte Bitzuweisung zu reduzieren, anstelle die Möglichkeit zu riskieren, dass ein hörbares Quantisierungsrauschen in den Subbändern auftritt, das den erhöhten Skalierungsfaktor verwenden würde.
Um die entropiecodierte ADPCM-Bitzuweisung einzustellen, werden die Prädiktorhistorien-Abtastungen für jedes Subband in einem temporären Puffer für den Fall gespeichert, dass der ADPCM-Codierzyklus wiederholt wird. Als. nächstes werden die Subband-Abtastungspuffer sämtlich durch den vollen ADPCM-Vorgang unter Verwendung der Pärdiktionskoeffizienten A_H, die aus der Subband-LPC-Analyse gewonnen werden, zusammen mit den Skalierungsfaktoren RMS (oder PEAK), den Quantisierer-Bitzuweisungen ABIT, den Transient-Betriebsarten TMODE und den Prädiktions-Betriebsarten PMODE codiert, die aus dem geschätzen Differenzsignal gewonnen werden. Die resultierenden Quantisiererebenencodes werden gepuffert und mit dem Entropie-Codebuch variabler Länge abgestimmt, das die geringste Bitverwendung aufweist, wobei wiederum der Bitzuweisungsindex verwendet wird, um die Codebuchgrößen zu bestimmen.
Das GRC-System analysiert anschließend die Zahl der Bits, die für jedes Subband verwendet wird, unter Verwendung desselben Bitzuweisungsindex über sämtliche Indizes. Wenn beispielsweise ABIT = 1 ist, könnte die Bitzuweisungs-Berechnung im Global-Bit-Management eine durchschnittliche Rate von 1,4 pro Subbandabtastung angenommen haben (d. h. die durchschnittliche Rate für das Entropiecodebuch, eine optimale Ebenencode-Amplitudenverteilung vorausgesetzt). Wenn die gesamte Bitverwendung sämtlicher Subbänder für die ABIT = 1 ist, größer ist als 1,4/(Gesamtzahl der Subbandabtastungen), dann können die Ska lierungsfaktoren in allen diesen Subbänder erhöht werden, um eine Bitratenreduktion zu beeinflussen. Die Entscheidung, die Subband-Skalierungsfaktoren einzustellen, erfolgt vorzugsweise erst, wenn auf sämtliche ABIT-Indexraten zugegriffen wurde. Infolge dessen können die Indizes mit Bitraten, der geringer sind, als im Bitzuweisungsvorgang angenommen, jene mit Bitraten kompensieren, die über diesem Pegel liegen. Diese Abschätzung kann auch ausgedehnt werden, um sämtliche Audiokanäle abzudecken, wo dies geeignet ist.
Das empfohlene Verfahren zum Verringern der Gesamtbitrate besteht darin, mit der geringsten ABIT-Index-Bitrate zu beginnen, die den Schwellenwert überschreitet, und die Skalierungsfaktoren in jedem Subband zu erhöhen, die über diese Bitzuweisungen verfügen. Die tatsächliche Bitverwendung wird durch die Zahl von Bits verringert, die diese Subbänder ursprünglich über der Nominalrate für die Zuweisung lagen. Wenn die abgeänderte Bitverwendung weiterhin über der maximal zulässigen liegt, dann werden die Subband-Skalierungsfaktoren für den nächsten höchsten ABIT-Index erhöht, für den die Bitverwendung die nominale überschreitet. Dieser Vorgang wird fortgeführt, bis die abgeänderte Bitverwendung unter dem Maximum liegt.
Sobald dies erreicht wurde, werden die alten Historiendaten in die Prädiktoren geladen und der ADPCM-Codiervorgang 72 für jene Subbänder wiederholt, deren Skalierungsfaktoren modifiziert wurden. Anschließend werden die Ebenencodes wiederum mit den optimalen Entropie-Codebüchern abgestimmt und die Bitverwendung neu berechnet. Wenn eine der Bitverwendungen weiterhin die nominalen Raten übersteigt, werden die Skalierungsfaktoren weiter erhöht und wird der Zyklus wiederholt.
Die Abänderung der Skalierungsfaktoren kann auf zwei Arten erfolgen. Die erste besteht darin, zum Decoder einen Einstellfaktor für jeden ABIT-Index zu senden. Beispielsweise könnte ein 2-Bit-Wort einen Einstellbereich von etwa 0, 1, 2 und 3 dB signalisieren. Da derselbe Einstellfaktor für sämtliche Subbänder verwendet wird, die den ABIT-Index verwenden, und lediglich die Indizes 1 bis 10 die Entropie-Codierung benutzen können, ist die Maximalzahl der Einstellfaktoren, die für sämtliche Subbänder gesendet werden müssen, 10. Alternativ dazu kann der Skalierungsfaktor in jedem Subband geändert werden, indem eine höhere Quantisiererebene gewählt wird. Da jedoch die Skalierungsfaktor-Quantisierer Schrittgrößen von 1,25 bzw. 2,5 dB haben, ist die Skalierungsfaktoreinstellung auf diese Schritte beschränkt. Wenn diese Technik verwendet wird, müssen darüber hinaus die Differentialcodierung der Skalierungsfaktoren und die resultierende Bitverwendung gegebenenfalls neu berechnet werden, wenn die Entropiecodierung aktiviert wird.
Allgemein gesagt kann derselbe Vorgang auch verwendet werden, um die Bitrate zu erhöhen, d. h. wenn die Bitrate niedriger ist als die gewünschte Bitrate. In diesem Fall würden die Skalierungsfaktoren verringert werden, um zu bewirken, dass die Differentialabtastungen die äußeren Quantisierungsebenen besser nutzen und somit längere Codewörter in der Entropietabelle verwenden.
Sofern die Bitverwendung für Bitzuweisungsindizes innerhalb einer angemessenen Zahl von Iterationen nicht verringert werden kann, oder für den Fall, dass, wenn die Skalierungsfaktor-Einstellfaktoren gesendet werden, die Zahl der Einstellungsschritte die Grenze erreicht hat, gibt es zwei Möglichkeiten der Abhilfe. Erstens können die Skalierungsfaktoren der Subbänder, die innerhalb der Nominalrate liegen, erhöht werden, wodurch die Gesamtbitrate verringert wird. Alternativ dazu kann der gesamte ADPCM-Codiervorgang abgebrochen werden und können die adaptiven Bitzuweisungen über die Subbänder diesmal unter Verwendung weniger Bits neuberechnet werden.
Datenstromformat
Der Multiplexer 32, der in 10 gezeigt ist, packt die Daten für jeden Kanal und multiplexiert anschließend die gepackten Daten für jeden Kanal zu einem Ausgabeframe, um den Datenstrom 16 auszubilden. Das Verfahren zum Packen und Multiplexieren der Daten, d. h. des Frameformates 186, das in 19 dargestellt ist, wurde derart entwickelt, dass der Audiocodierer über einen weiten Bereich von Anwendungen verwendet und auf höhere Abtastfrequenzen ausgedehnt werden kann, die Datenmenge in jedem Frame beschränkt ist, die Wiedergabe bei jedem Teil-Subframe unabhängig gestartet werden kann, um die Verzögerung zu verringern, und Decodierfehler verringert werden.
Wie dargestellt definiert ein einziger Frame 186 (4096 PCM-Abtastungen/ch) die Bitstromgrenzen, in denen ausreichend Informationen vorhanden sind, um einen Audioblock in geeigneter Weise zu decodieren, und besteht aus 4 Subframes 188 (1024 PCM-Abtastungen/ch), die wiederum jeweils aus 4 Teil-Subframes 190 (256 PCM-Abtastungen/ch) bestehen. Das Frame-Synchronisationswort 192 befindet sich am Anfang jedes Audioframes. Die Frameheader-Informationen 194 geben in erster Linie Auskunft über den Aufbau des Frames 186, die Konfiguration des Codierers, der den Strom erzeugt hat, und unterschiedliche optionale Betriebsmerkmale, wie etwa die eingebettete Dynamikbereichs-Steuerung und den Zeitcode. Die optionalen Header-Informationen 196 teilen dem Decoder mit, ob ein Heruntermischen notwendig ist, ob die Dynamikbereichs-Kompensation durchgeführt wurde, und ob Hilfsdatenbytes im Datenstrom enthalten sind. Die Audiocodierheader 198 kennzeichnen die Packanordnung und Codierformate, die beim Codierer verwendet werden, um die Codier-"Nebeninformationen", d. h. Bitzuweisungen, Skalierfaktoren, PMODES, TMODES, Codebücher und dergleichen, zusammenzustellen. Der Rest des Frames besteht aus SUBFS nachfolgenden Audioframes 188.
Jeder Subframe beginnt mit den Audiocodier-Nebeninformationen 200, die Informationen über eine Zahl von Schlüssel-Codiersystemen für die Kompression des Audio an den Decoder weitergeben. Diese beinhalten die Transient-Erfassung, das prädiktive Codieren, die adaptive Bitzuweisung, die Hochfrequenz-Vektorquantisierung, die Intensitätscodierung und das adaptive Skalieren. Ein Großteil dieser Daten wird aus dem Datenstrom unter Verwendung der oben beschriebenen Audiocodier-Headerinformationen entpackt. Die Hochfrequenz-VQ-Codieranordnung 202 besteht aus 10-Bit-Indizes pro Hochfrequenz-Subband, gekennzeichnet durch VQSUB-Indizes. Die Niederfrequenz-Effektanordnung 204 ist optional und steht für die Daten sehr niedriger Frequenzen, die beispielsweise verwendet werden können, um einen Subwoofer anzusteuern.
Die Audioanordnung 206 wird unter Verwendung von unveränderlichen Huffman-Umkehrquantisierern decodiert und in eine Anzahl von Subframes (SSC) zerlegt, die jeweils bis zu 256 PCM-Abtastungen pro Audiokanal decodieren. Die Oversampling-Audioanordnung 208 ist lediglich vorhanden, wenn die Abtasfrequenz größer ist als 48 kHz. Um kompatibel zu bleiben, sollten Decoder, die nicht bei Abtastraten über 48 kHz arbeiten können, diese Audiodatenanordnung auslassen. DSYNC 210 wird verwendet, um das Ende der Subframe-Position im Audioframe zu verifizieren. Kann die Position nicht verifiziert werden, wird das Audio, das im Subframe decodiert wurde, als unzuverlässig deklariert. Infolge dessen wird dieser Frame entweder ausgeblendet oder der vorhergehende Frame wiederholt.
Subband-Decoder
20 ist ein Blockschaltbild des Subband-Abtastdecoders 18. Der Decoder hat einen sehr einfachen Aufbau im Vergleich zum Codierer und beinhaltet keine Berechnungen, die von fundamentaler Bedeutung für die Qualität des rekonstruierten Audios ist, wie etwa Bitzuweisungen. Nach der Synchronisierung entpackt der Entpacker den komprimierten Audiodatenstrom 16, erfasst und korrigiert, sofern notwendig, sendebedingte Fehler und demultiplexiert die Daten in einzelne Audiokanäle. Die Subband-Differenzsignale werde zu PCM-Signalen requantisiert, und jeder Audiokanal wird umgekehrt gefiltert, um das Signal in die Zeitdomäne zurückzuwandeln.
Empfang des Audioframes und Entpacken von Headern
Der codierte Datenstrom wird beim Codierer gepackt (oder zu Frames umgearbeitet) und enthält in jedem Frame zusätzliche Daten für die Synchronisation des Decoders sowie die Fehlererfassung und -korrektur, abgesehen von den tatsächlichen Audiocodes an sich. Der Entpacker 40 erfasst das SYNC-Wort und extrahiert die Framegröße FSIZE. Der zweite Bitstrom besteht aus aufeinanderfolgenden Audioframes, die jeweils mit einem 32-Bit- (0xffex8001) Synchronisationswort (SYNC) beginnen. Die physikalische Größe des Aufioframes FSIZE wird aus den Bytes extrahiert, die dem Sync-Wort folgen. Dadurch kann der Programmierer einen "Ende-des-Frames"-Zeitgeber einstellen, um Software-Overheads zu verringern. Als nächstes wird NBlks extrahiert, wodurch der Decoder die Audiofenstergröße (32 (Nblks + 1)) berechnen kann. Dadurch wird dem Decoder mitgeteilt, welche Nebeninformationen extrahiert und wie viele rekonstruierte Abtastungen erzeugt werden sollen.
Sobald die Frameheader-Bytes (sync, ftype, surp, nblks, fsize, amode, sfreq, rate, mixt, dynf, dynct, time, auxcnt, Iff, hflag) empfangen wurden, kann die Gültigkeit der ersten 12 Bytes unter Verwendung der Reed-Solomon-Prüfbytes HCRC geprüft werden. Diese korrigieren 1 fehlerhaftes Byte aus den 14 Bytes oder kennzeichnen 2 fehlerhafte Bytes. Nachdem die Fehlerprüfung abgeschlossen ist, werden die Headerinformationen verwendet, um die Decoderkennzeichen zu aktualisieren.
Die Header (filts, vernum, chist, pcms, unspec), die HCRC folgen, und jene bis zu den optionalen Informationen können extrahiert und verwendet werden, um die Decoder-Kennzeichen zu aktualisieren. Da sich diese Informationen von Frame zu Frame nicht ändern, kann ein Mehrheitsauswahlsystem verwendet werden, um die Bitfehler zu korrigieren. Die optionalen Headerdaten (times, mcoeff, dcoeff, auxd, ocrc) werden gemäß der mixct-, dynf-, time- und auxcnt-Header extrahiert. Die optionalen Daten können unter Verwendung der optionalen Reed-Solomen-Prüfbytes OCRC verfifiziert werden.
Die Audiocodier-Frameheader (subfs, subs, chs, vgsub, joinx, thuff, shuff, se15, se17, se19, se13, se17, se125, se133, se165, se1129, ahcrc) werden in jedem Frame einmal gesendet. Sie können unter Verwendung der Audio-Reed-Solomon-Prüfbytes AHCRC verifiziert werden. Die meisten Header werden für jeden Audiokanal wiederholt, wie es durch CHS definiert ist.
Entpack-Subframe-Codierungs-Nebeninformationen
Der Audio-Codierframe wird in mehrere Subframes (SUBFS) unterteilt. Sämtliche notwendigen Nebeninformationen (pmode, pvq, tmode, scales, abits, hefreq) sind enthalten, um jeden Subframe des Audios ohne Bezugnahme auf einen anderen Subframe zu decodieren. Jeder nachfolgende Subframe wird decodiert, indem zunächst dessen Seiteninformationen entpackt werden.
Ein 1-Bit-Prädiktionsbetriebsart- (PMODE-) Kennzeichen wird für jedes aktive Subband und über sämtliche Audiokanäle gesendet. Die PMODE-Kennzeichen sind für den momentanen Subframe gültig. PMODE = 0 impliziert, dass die Prädiktorkoeffizienten nicht im Audioframe für dieses Subband enthalten sind. In diesem Fall werden die Prädiktorkoeffizienten in diesem Band für die Dauer des Subframes auf Null zurückgesetzt. PMODE = 1 impliziert, das die Nebeninformationen Prädiktokoeffizienten für dieses Subband enthalten. In diesem Fall werden die Prädiktorkoeffizenten extrahiert und in seinem Prädiktor für die Dauer des Subframes installiert.
Für jedes PMODE = 1 in der pmode-Anordnung befindet sich ein entsprechender Prädiktionskoeffizienten-VQ-Adressindex in der Anordnung PVQ. Die Indizes sind unveränderliche vorzeichenlose ganzzahlige 12-Bit-Wörter, und die 4 Prädiktionskoeffizienten werden aus der Suchtabelle extrahiert, indem die 12-Bit-Ganzahl mit der Vektortabelle 266 abgestimmt wird.
Die Bitzuweisungsindizes (ABIT) kennzeichnen die Zahl der Ebenen im Umkehr-Quantisierer, der die Subband-Audiocodes zu Absolutwerten rückwandelt. Das Entpackformat unterscheidet sich hinsichtlich der ABITs in jedem Audiokanal in Abhängigkeit des BHUFF-Index und eines entsprechenden VABIT-Codes 256.
Die Transientbetriebsart-Nebeninformationen (TMODE) 238 werden verwendet, um die Position von Transienten in jedem Subband im Bezug auf den Subframe zu kennzeichnen. Jeder Subframe ist in 1 bis 4 Teil-Subframes unterteilt. Hinsichtlich der Subbandabtastungen besteht jeder Subframe aus 8 Abtastungen. Die maximale Subframegröße beträgt 32 Subbandabtastungen. Wenn ein Transient im ersten Teil-Subframe auftritt, dann ist tmode = 0. Ein Transient im zweiten Subframe ist gekennzeichnet, wenn tmode = 1, uws.. Um die Transientverzerrung, wie etwa das Prä-Echo, zu steuern, werden zwei Skalierungsfaktoren für Subframe-Subbänder gesendet, wobei TMODE größer als 0 ist. Die THUFF-Indizes, die aus den Audioheadern extrahiert werden, bestimmen das Verfahren, das erforderlich ist, um die TMODEs zu dekodieren. Wenn THUFF = 3, werden die TMODEs als vorzeichenlose 2-Bit-Ganzzahlen entpackt.
Skalierungsfaktor-Indizes werden gesendet, um die geeignete Skalierung der Subband-Audiocodes in jedem Subframe zu ermöglichen. Wenn TMODE gleich Null ist, dann wird ein Skalierungsfaktor gesendet. Wenn TMODE für ein Subband größer als Null ist, dann werden zwei Skalierungsfaktoren zusammen gesendet. Die SNUFF-Indizes 240, die aus den Audioheadern extrahiert werden, bestimmen das Verfahren, das erforderlich ist, um die SCALES für jeden separaten Audokanal zu decodieren. Die VDRMS_QL-Indizes legen den Wert des RMS-Skalierungsfaktors fest.
Bei bestimmten Betriebsarten werden SCALES-Indizes unter Verwendung einer Wahl von fünf vorzeichenbehafteten 129-Ebenen-Huffmann-Umkehrquantisierern entpackt. Die resultierende umgekehrt quantisierten Indizes sind jedoch unterschiedlich codiert und werden wie folgt zu absolut konvertiert:
ANS_SCALE(n + 1) = SCALES(n) – SCALES(n + 1), wobei n der n-te Differential-Skalierungsfaktor im Audiokanal ist, der beim ersten Subband beginnt.
Bei Audiocodier-Betriebsarten mit niedriger Bitrate verwendet der Audiocodierer die Vektorquantisierung, um die hochfrequenten Subband-Audioabtastungen wirkungsvoll direkt zu codieren. Es erfolgt keine Differential-Codierung in diesen Subbändern, wobei sämtliche Anordnungen, die sich auf die normalen ADPCM-Vorgänge beziehen, in Rückstellung gehalten werden müssen. Das erste Subband, das unter Verwendung der VQ codiert wird, wird durch VQSUB gekennzeichnet, wobei sämtliche Subbänder bis SUBS ebenfalls auf diese Weise codiert werden.
Die Hochfrequenz-Indizes (HFREQ) werden als unveränderliche vorzeichenlose 10-Bit-Ganzzahlen entpackt 248. Die 32 Abtastungen, die für jeden Subband-Subframe erforderlich sind, werden aus der Q4-Bruch-Binär-LUT durch Anwenden der geeigneten Indizes extrahiert. Dies wird für jeden Kanal wiederholt, in dem die Hochfrequenz-VQ-Betriebsart aktiv ist.
Der Dezimierungsfaktor für den Effektekanal ist immer X128. Die Zahl von 8-Bit-Effekt-Abtastungen, die im LFE vorhanden sind, ist durch SSC*2 gegeben, wenn PSC = 0, oder durch (SSC + 1)*2, wenn PSC nicht Null ist. Ein zusätzlicher 7-Bit-Skalierungsfaktor (vorzeichenlose Ganzzahl) ist ebenfalls am Ende der LFE-Anordnung vorhanden, wobei diese zu rms unter Verwendung einer 7-Bit-LUT umgewandelt wird.
Entpack-Teil-Subframe-Audiocodeanordnung
Der Extraktionsvorgang für die Subband-Audiocodes wird durch die ABIT-Indizes gesteuert, und für den Fall, das ABIT < 11 ist, zudem durch die SEL-Indizes. Die Audiocodes werden entweder unter Verwendung von Huffman-Codes variabler Länge oder unveränderlicher Linearcodes formatiert. Im allgemeinen implizieren ABIT-Indizes von 10 oder weniger Huffman-Codes variabler Länge, die durch Codes VQL(n) 258 gewählt werden, während ABIT über 10 immer unveränderliche Codes kennzeichnet. Sämtliche Quantisierer haben eine einheitliche Mid-Tread-Charakteristik. Für Quantisierer mit unveränderlichem Code (y²) wird die Ebene mit dem größten Negativwert ausgelassen. Die Audiocodes werden zu Teil-Subframes gepackt, wobei jeder für ein Maximum von 8 Subbandabtastungen steht, und diese Teil-Subframes werden im momentanen Subframe bis zu viermal wiederholt.
Wenn das Abtastraten-Kennzeichen (SFREQ) eine Rate kennzeichnet, die höher ist als 48 kHz, dann ist die Over_Audio Datenanordnung im Audioframe vorhanden. Die ersten beiden Bytes in dieser Anordnung kennzeichnen die Bytegröße des Over_Audio. Weiterhin sollte die Abtastrate der Decoderhardware derart ein gestellt sein, dass sie bei SFREQ/2 oder SFREQ/4 in Abhängigkeit der Hochfrequenz-Abtastrate arbeitet.
Entpackungs-Synchronisationsprüfung
Ein Datenentpackungs-Synchronisations-Prüfword DSYN C = 0xffff wird am Ende jedes Subframes empfangen, um eine Verifizierung der Entpackungs-Intergrität zu gestatten. Die Verwendung von variablen Codewörtern in den Nebeninformationen und Audiocodes, wie es der Fall für niedrige Audio-Bitraten ist, kann zu einer Entpackungsfehlanordnung führen, wenn entweder die Header, die Nebeninformationen oder Audioanordnungen mit Bitfehlern beschädigt wurden. Wenn der Entpackungs-Adressenverweis nicht auf den Beginn von DSYNC verweist, dann kann davon ausgegangen werden, dass das vorangehende Subframe-Audio nicht zuverlässig ist.
Sobald sämtliche Nebeninformationen und Audiodaten entpackt sind, rekonstruiert der Decoder das Mehrkanal-Audiosignal Subframe für Subframe. 20 zeigt den Basisband-Decoderabschnitt für ein einzelnes Subband in einem einzelnen Kanal.
Wiederherstellungs-RMS-Skalierfaktoren
Der Decoder rekonstruiert die RMS-Skalierungsfaktoren (SCALES) für die ADPCM-, VQ- und JFC-Algorithmen. Insbesondere werden die VTMODE- und THUFF-Indizes umgekehrt zugeordnet, um die Transient-Betriebsart (TMODE) für den momentanen Subframe zu identifizieren. Anschließend werden der SHUFF-Index, die VDRMS_QL-Codes und TMODE umgekehrt zugeordnet, um den Differential-RMS-Code zu rekonstruieren. Der Differential-RMS-Code wird umgekehrt differential codiert 242, um den RMS-Code zu wählen, der anschließend umgekehrt quantisiert wird 244, um den RMS-Skalierungsfaktor zu erzeugen.
Hochfrequenz-Umkehrquantisier-Vektoren
Der Decoder quantisiert in umgekehrter Richtung die Hochfrequenzvektoren, um die Subband-Audiosignale zu rekonstruieren. Insbesondere werden die extrahierten Hochfrequenzabtastungen (HFREQ), die eine vorzeichenbehaftete 8-Bit-Bruch-(Q4)-Binärzahl sind, wie sie durch das Start-VQ-Subband (VQSUBS) identifiziert sind, einer umgekehrten VQ-LUT 248 zugeordnet. Der gewählte Tabellenwert wird umgekehrt quantisiert 250 und durch den RMS-Skalierungsfaktor skaliert 252.
Umkehr-Quantisierungs-Audiocodes
Bevor sie in die ADPCM-Schleife eintreten, werden die Audiocodes umgekehrt quantisiert und skaliert, um rekonstruierte Subband-Differenzabtastungen zu erzeugen. Die umgekehrte Quantisierung wird erreicht, indem zuerst der VABIT- und der SHUFF-Index umgekehrt zugeordnet werden, um den ABIT-Index festzulegen, der die Schrittgröße und die Zahl der Quantisierungsebenen bestimmt, und der SEL-Index sowie die VQL(n)-Audiocodes umgekehrt zugeordnet werden, wodurch die Quantisierebenen-Codes QL(n) erzeugt werden. Anschließend werden die Codewörter QL(n) der Umkehr-Quantisier-Suchtabelle 260 zugeordnet, die durch die ABIT- und SEL-Indizes festgelegt ist. Wenngleich die Codes durch ABIT angeordnet werden, hat jeder separate Audiokanal ein separates SEL-Spezifikationselement. Der Suchvorgang führt zu einer vorzeichenlosen Quantisierebenenzahl, die in Einheits-rms umgewandelt werden kann, indem sie mit der Quantisierschrittgröße multipliziert wird. Die Einheitts-rms-Werte werden anschließend zu den Volldifferenz-Abtastungen umgewandelt, indem sie mit dem gekennzeichneten RMS-Skalierungsfaktor (SCALES) 262 multipliziert werden.

1. QL[n] = 1/Q[code[n]], wobei 1/Q die Umkehr-Quantisier-Suchtabelle ist.
2. Y[n] = QL[n]*Schrittgröße[abits]
3. Rd[n] = Y[n]*Skalierungsfaktor, wobei Rd = Rekonstrierte Differenzabtastungen ist.

Umkehr-ADPCM
Der ADPCM-Decodiervorgang wird für jede Subband-Differenzabtastung wie folgt ausgeführt.

1. Laden der Prädiktions-Koeffizienten aus der Umkehr-VQ-LUT 268.
2. Erzeugen der Prädiktionsabtastung durch Falten der momentanen Prädiktor-Koeffizienten mit den vorhergehenden 4 rekonstruierten Subband-Abtastungen, die in der Prädiktor-Historienanordnung 268 gehalten wird. P[n] = Summe (Koeff[i]*R[n – i]) für i = 1, 4wobei n = momentane Abtastperiode
3. Addieren der Prädiktions-Abtastung zur rekonstruierten Differenzabtastung, um eine rekonstruierte Subbandabtastung 270 zu erzeugen. R[n] = Rd[n] + P[n]
4. Aktualisieren der Historie des Prädiktors, d. h. Kopieren der momentanen rekonstruierten Subbandabtastung an die Spitze der Historienliste. R[n – i] = R[n – i + 1] für I = 4, 1

Für den Fall, dass PMODE = 0 ist, sind die Prädiktorkoeffizienten Null, die Prädiktions-Abtastung Null und ist die rekonstruierte Subband-Abtastung gleich der Differential-Subbandabtastung. Wenngleich in diesem Fall die Berechnung der Prädiktion nicht erforderlich ist, ist es wesentlich, dass die Prädiktionshistorie aktualisiert wird, für den Fall, dass PMODE in den weiteren Subframes aktiv werden sollte. Wenn weiterhin HFLAG im momentanen Audioframe aktiv ist, sollte die Prädiktorhistorie vor dem Decodieren des ersten Teil-Subframes in diesem Frame gelöscht werden. Die Historie sollte wie gewöhnlich ab diesem Punkt aktualisiert werden.
Im Fall der Hochfrequenz-VQ-Subbänder, oder wenn Subbänder abgewählt werden (d. h. über der SUES-Grenze), sollte die Pädiktorhistorie bis zu dem Zeitpunkt gelöscht bleiben, zu dem der Subbandprädiktor aktiv wird.
Auswahlsteuerung der ADPCM, VQ und JFC-Decodierung
Der erste "Schalter" steuert die Wahl entweder der ADPCM- oder VQ-Ausgabe. Der VQSUBS-Index kennzeichnet das Start-Subband für die VQ-Codierung. Wenn das momentane Subband niedriger ist als VQSUBS, wählt somit der Schalter die ADPCM-Ausgabe. Andernfalls wählte er die VQ-Ausgabe. Ein zweiter "Schalter" 278 steuert die Auswahl entweder der direkten Kanalausgabe oder der JFC-Codierausgabe. Der JOINX-Index kennzeichnet, welche Kanäle vereinigt werden und in welchem Kanal das rekonstruierte Signal erzeugt wird. Das rekonstruierte JFC-Signal bildet die Intensitätsquelle für die JFC-Eingaben in den anderen Kanälen. Wenn das momentane Subband Teil einer JFC ist und nicht der gekennzeichnete Kanal ist, dann wählt der Schalter somit die JFC-Ausgabe. Normalerweise wählt der Schalter die Kanalausgabe.
Abwärts-Matrizieren
Die Audiocodier-Betriebsrate für den Datenstrom wird durch AMODE gekennzeichnet. Die decodierten Audiokanäle können anschließend zurückgeleitet werden, um die physikalische Ausgangskanalanordnung auf der Decoderhardware 280 abzustimmen.
Dynamikbereichs-Steuerdaten
Die Dynamikbereichs-Koeffizienten DCOEFF können wahlweise in den Audioframe an der Codierstufe 282 eingebettet werden. Der Zweck dieses Merkmals besteht darin, eine unkomplizierte Kompression des Audio-Dynamikbereiches am Ausgang des Decoders zu ermöglichen. Die Kompression des Dynamikbereiches ist insbesondere in Hörumgebungen von Bedeutung, in denen es hohe Umgebungsgeräuschpegel unmöglich machen, Signale mit geringem Pegel zu unterscheiden, ohne die Beschädigung der Lautsprecher während lauter Passagen zu riskieren dieses Problem steht weiterhin mit der wachsenden Verwendung von 20-Bit-PCM-Audioaufzeichnungen in Verbindung, die Dynamikbereiche bis zu 110 dB aufweisen.
Abhängig von der Fenstergröße des Frames (NBLKS) werden ein, zwei oder vier Koeffizienten pro Audiokanal für eine Codierbetriebsart (DYNF) gesendet. Wird ein einziger Koeffizient gesendet, wird dieser für den gesamten Frame verwendet. Bei zwei Koeffizienten wird der erste für die erste Hälfte des Frames und der zweite für die zweite Hälfte des Frames verwendet. Vier Koeffizienten werden auf die Quadranten des Frames verteilt. Ein höhere Zeitauflösung ist möglich, indem zwischen den gesendeten Werten lokal interpoliert wird.
Jeder Koeffizient ist eine vorzeichenbehaftete 8-Bit-Bruch-Q2-Binärzahl und stellt einen Logarithmischen Gewinnwert dar, wie es in Tabelle (53) gezeigt ist, die einen Bereich von +/–31,75 dB in Schritten von 0,25 dB beschreibt. Die Koeffizienten werden durch die Kanalnummer geordnet. Die Kompression des Dynamikbereiches wird durch Multiplizieren der decodierten Audioabtastungen mit dem Linearkoeffizient beeinflusst.
Der Grad der Kompression kann mit der geeigneten Einstellung der Koeffizientenwerte am Decoder verändert werden oder vollständig abgeschaltet werden, indem die Koeffizienten ignoriert werden.
32-Band-Interpolationsfilterbank
Die 32-Band-Interpolationsfilterbank 44 konvertiert die 32 Subbänder für jeden Audiokanal in ein einziges PCM-Zeitdomänensignal. Koeffizienten für nicht perfekte Rekonstruktion (512-tap-FIR-Filter) werden verwendet, wenn FILTS = 0. Koeffizienten für perfekte Rekonstruktion werden verwendet, wenn FILTS = 1. Normalerweise werden die Kosinus-Modulationskoeffizienten vorberechnet und im ROM gespeichert. Der Interpolationsvorgang kann ausgedehnt werden, um größere Datenblöcke zu rekonstruieren und die Schleifen-Overheads zu verringern. Im Fall von Abschlussrahmen ist die minimale Auflösung, die aufgerufen werden kann, 32-PCM-Abtastungen. Der Interpolationsalgorithmus stellt sich wie folgt dar: Er zeugung von Kosinus-Modulationskoeffizienten, Einlesen 32 neuer Subband-Abtastungen zu Anordnung XIN, Multiplizieren mit den Kosinus-Modulationskoeffizienten und erzeugen temporärer Anordnungen SUM und DIFF, Speichern der Historie, Multiplizieren mit Filterkoeffizienten, Erzeugen von 32-PCM-Ausgangsabtastungen, Aktualisieren der Arbeitsanordnungen und Ausgeben der 32 neuen PCM-Abtastungen.
In Abhängigkeit der Bitrate und des Codierschemas während des Betriebs kann der Bitstrom Interpolations-Filterbankkoeffizienten entweder für nicht perfekte oder perfekte Rekonstruktion (FILTS) festlegen. Da die Codierer-Dezimierungs-Filterbänke mit 40-Bit-Fließ-Präzision berechnet werden, hängt die Fähigkeit des Decoders, die maximal theoretische Rekonstruktionspräzision zu erreichen, von der Quellen-PCM-Wortlänge und der Präzision des DSP-Kerns ab, der verwendet wird, um die Faltungen zu berechnen, und von der Art, in der die Operationen skaliert werden.
Niederfrequenz-Effekt-PCM-Interpolation
Die Audiodaten, die dem Niedertrequenz-Effektkanal zugeordnet sind, sind von den Hauptaudiokanälen unabhängig. Dieser Kanal wird unter Anwendung eines 8-Bit-APCM-Vorgangs codiert, der auf einer X128-dezimierten (120 Hz Bandbreite) 20-Bit-PCM-Eingabe arbeitet. Das effektdezimierte Audio wird mit dem momentanen Subframe-Audio in den Haupt-Audiokanälen zeitlich ausgerichtet. Da die Verzögerung über die 32-Band-Interpolations-Filterbank 256 Abtastungen (512 Taps) beträgt, muss somit darauf geachtet werden, dass sichergestellt ist, dass der interpolierte Niederfrequenz-Effektkanal ebenfalls mit dem Rest der Audiokanäle vor der Ausgabe ausgerichtet ist. Es ist keine Kompensation erforderlich, wenn die Effektinterpolation FIR ebenfalls 512 Taps beträgt.
Der LFT-Algoirthmus verwendet einen 512-Tap-128X-Interpolations-FIR in folgender Art und Weise: Zuordnen des 7-Bit-Skalierungsfaktors zu rms, Multiplizieren mit der Schrittgröße des 7-Bit-Quantisierers, Erzeugen von Subabtastwerten aus den normalisierten Werten und Interpolation mit 128 unter Verwendung eines Tiefpassfilters, wie etwa jenem, der für jede Subabtastung gegeben ist.
Hardwareanwendung
21 und 22 beschreiben den grundlegenden Funktionsaufbau der Hardwareanwendung einer Sechskanalversion des Codierers und Decoders für den Betriebs bei Abtastraten mit 32, 44,1 und 48 kHz. Unter Bezugnahme auf 22 werden acht Analog Devices ADSP21020 40-Bit digitale Fließkomma-Signalprozessorchips DSP 296 verwendet, um einen digitalen Sechskanal-Audiocodierer 298 auszuführen. Sechs DSPs werden verwendet, um jeden der Kanäle zu codieren, während der siebte und achte verwendet werden, um die Funktionen der Globalen Bit-Zuweisung und -Management bzw. der Datenstrom-Formatierung und Fehlercodierung auszuführen. Jeder ADSP21020 ist mit 33 Mhz getaktet und verwendet externen 48 Bit × 32 k Program-RAM (PRAM) 300 40 Bit × 32 k Daten-RAM (SRAM) 302, um den Algorithmus ablaufen zu lassen. Im Fall der Codierer findet zudem ein 8 bit × 512 k EPROM 304 für die Speicherung unveränderlicher Konstanten, wie etwa der Entropie-Codebücher variabler Länge, Anwendung. Der Datenstrom-Formatierungs-DSP verwendet einen Reed-Solomon-CRC-Chip 306, um die Fehlererfassung und -schutz beim Decoder zu ermöglichen. Die Kommunikation zwischen den Codierer-DSPs und der globalen Bit-Zuweisung und -Management erfolgt durch Verwendung eines statischen Dualport-RAM 308.
Der Codiervorgang läuft folgendermaßen ab. Ein 2-Kanal-Digitalaudio-PCM-Datenstrom 310 wird jeweils am Ausgang der drei AES/EBU-Digital-Audioempfänger extrahiert. Der erste Kanal jedes Paars bezieht sich auf die CH1, 3 bzw. 5 Codierer-DSPs, während sich der zweite Kanal auf CH2, 4 bzw. 6 bezieht. Die PCM-Abtastungen werden in die DSPs eingelesen, indem die seriellen PCM-Wörter in parallel (s/p) umgewandelt werden. Jeder Codierer akkumuliert einen Frame von PCM-Abtastungen und schreitet mit der Codierung fort, wie es zuvor beschrieben wurde. Informationen, die das geschätzte Differenzsignal (ed(n) und die Subband-Abtastungen (x(n)) für jeden Kanal betreffen, werden zum Global-Bit- Zuweisungs und -Management-DSP über den Dualport-RAM gesendet. Die Bitzuweisungs-Strategien für jeden Codierer werden anschließend in derselben weise zurückgelesen. Sobald der Codiervorgang abgeschlossen ist, werden die codierten Daten und Nebeninformationen für die sechs Kanäle zum Datenstrom-Formatier-DSP über den Global-Bit-Zuweisungs und -Management-DSP gesendet. An dieser Stufe werden CRC-Prüfbytes selektiv erzeugt und den codierten Daten zum Zweck des Fehlerschutzes am Decoder hinzugefügt. Schließlich wird das gesamte Datenpaket 16 zusammengefügt und ausgegeben.
Die Sechskanal-Hardwaredecoder-Anwendung ist in 22 beschrieben. Ein einzelner Analog Devices ADSP21020 40-Bit digitaler Fließkomma-Signalprozessorchip (DSP) 324 wird verwendet, um den digitalen Sechskanal-Audiodecoder auszuführen. Der ADSP21020 ist mit 33 MHz getaktet und verwendet externen 48 Bit × 32 k Program-RAM (PRAM) 326, 40 Bit × 32 k Daten-RAM (SRAM) 328, um den Decodierungsalgorithmus ablaufen zu lassen. Ein zusätzlicher 8 Bit × 512 k EPROM 330 wird zudem für die Speicherung von festen Konstanten, wie etwa der Entropie- und Prädiktionscodevektor-Codebücher variabler Länge, verwendet.
Der Decodiervorgang läuft folgendermaßen ab. Der komprimierte Datenstrom 16 wird in den DSP über einen Seriell-Parallel-Wandler (s/p) eingegeben. Die Daten werden entpackt und decodiert, wie zuvor ausgeführt wurde. Die Subband-Abtastungen werden zu einem einzigen PCM-Datenstrom 22 für jeden Kanal rekonstruiert und an drei AES/EBU-Digital-Audiosender-Chips 334 über drei Parallel-Seriell-Wandler (p/s) 335 ausgegeben.
Wenngleich unterschiedliche beispielhafte Ausführungsformen der Erfindung dargestellt und beschrieben wurden, werden zahlreiche Abänderungen und alternative Ausführungsformen dem Fachmann begegnen. Wenn beispielsweise die Prozessorgeschwindigkeiten zunehmen und die Speicherkosten fallen, werden die Abtastfrequenzen, Senderaten und die Puffergröße wahrscheinlich zunehmen. Derartige Abänderungen und alternative Ausführungsformen sind berücksichtigt.

Claims

Mehrkanal-Audiocodierer, der umfasst: einen Framegrabber (64), der so eingerichtet ist, dass er ein Audio-Fenster auf jeden Kanal eines Mehrkanal-Audio-Signals anwendet, das mit einer Samplingrate gesampelt wird, um entsprechende Sequenzen von Audio-Frames zu erzeugen; eine Vielzahl von Filtern (34), die so eingereichtet sind, dass sie die Audio-Frames der Kanäle in entsprechende Vielzahlen von Frequenz-Subbändern über einen Basisband-Frequenzbereich aufteilen, wobei die Frequenz-Subbänder jeweils eine Frequenz von Subband-Frames umfassen, die wenigstens jeweils einen Sub-Frame von Audio-Daten pro Subband-Frame aufweisen; eine Vielzahl von Subband-Codierern (26), die so eingerichtet sind, dass sie die Audiodaten in den entsprechenden Frequenz-Subbändern jeweils pro Sub-Frame in codierte Subband-Signale codieren; einen Multiplexer (32), der so eingerichtet ist, dass er die codierten Subband-Signale zu einem Ausgabe-Frame für jeden aufeinanderfolgenden Daten-Frame packt und multiplexiert und so einen Datenstrom mit einer Übertragungsrate ausbildet; und einen Controller (19), der die Größe des Audio-Fensters einstellt, dadurch gekennzeichnet, dass die Größe des Audio-Fensters durch den Controller in Reaktion auf die Samplingrate und die Übertragungsrate eingestellt wird, so dass die Größe der Ausgabe-Frames so beschränkt wird, dass sie in einem gewünschten Bereich liegt.
Mehrkanal-Audiocodierer nach Anspruch 1, wobei der Controller die Größe des Audio-Fensters als das größte Vielfache von zwei einstellt, das kleiner ist als
wobei Frame-Größe die maximale Größe des Ausgabe-Frames ist, F_Samp die Samplingrate ist und T_Rate die Übertragungsrate ist.
Mehrkanal-Audiocodierer nach Anspruch 1, wobei das Mehrkanal-Audiosignal mit einer Soll-Bitrate codiert wird und die Subband-Codierer prädiktive Coder umfassen, und der des Weiteren umfasst: einen Global-Bit-Manager (GMB) (30), der ein psychoakustisches Signal-Maskierungs-Verhältnis (signal-to-mask ratio – SMR) und eine geschätzte Prädiktions-Verstärkung (P_Verstärkung) für jeden Sub-Frame berechnet, Maskierungs-Rausch-Verhältnisse (mask-to-noise ratios – NMR) berechnet, indem die SMR um entsprechende Bruchteile ihrer dazugehörigen Prädiktions-Verstärkungen verringert werden, Bits zuweist, die jedes NMR erfüllen, die Zuweisungs-Bitrate über alle Subbänder berechnet und die einzelnen Zuweisungen so reguliert, dass die Ist-Bitrate sich der Soll-Bitrate nähert.
Mehrkanal-Audiocodierer nach den Ansprüchen 1 oder 3, wobei der Subband-Codierer jeden Sub-Frame in eine Vielzahl von Teil-Sub-Frames unterteilt und jeder Subband-Codierer einen prädiktiven Coder (72) umfasst, der ein Fehlersignal für jeden Sub-Frame erzeugt und quanitisiert, und der des Weiteren umfasst: einen Analysator (98, 100, 102, 104, 106), der ein geschätztes Fehlersignal vor dem Codieren für jeden Sub-Frame erzeugt, Transienten in jedem Teil-Sub-Frame des geschätzten Fehlersignals erfasst, einen Transienten-Code erzeugt, der anzeigt, ob eine Transiente in jedem Teil-Sub-Frame außer dem ersten vorhanden ist, und in welchem Teil-Sub-Frame die Transiente auftritt, und, wenn eine Transiente erfasst wird, einen Prä-Transienten-Skalenfaktor für die Sub-Frames vor der Transiente und einen Post-Transienten-Skalenfaktor für die Teil-Sub-Frames ein schließlich der Transiente und nach ihr erzeugt und ansonsten einen einheitlichen Skalenfaktor für den Sub-Frame erzeugt, wobei der prädiktive Coder den Prä-Transienten-, den Post-Transienten- und den einheitlichen Skalenfaktor verwendet, um das Fehlersignal vor dem Codieren zu skalieren und den Codierfehler in den Teil-Sub-Frames entsprechend den Prä-Transienten-Skalenfaktoren zu verringern.
Mehrkanal-Audiocodierer nach Anspruch 1, wobei die Audio-Frames eine Audio-Bandbreite haben; die sich von DC bis ungefähr zur Hälfte der Samplingrate erstreckt, und wobei der Codierer des Weiteren umfasst: ein Vorfilter (46), das jeden der Audio-Frames in Basisband-Frames, die einen Basisbandabschnitt der Audio-Bandbreite darstellen, sowie in Frames mit hoher Samplingrate aufteilt, die den verbleibenden Abschnitt der Audio-Bandbreite darstellen; und einen Codierer (48, 50, 52) mit hoher Samplingrate, der die Frames der Audio-Kanäle mit hoher Samplingrate zu entsprechenden codierten Signalen mit hoher Samplingrate codiert; wobei: die Vielzahl von Filtern (34) die Basisband-Frames der Kanäle in entsprechende Vielzahlen von Frequenz-Subbändern aufteilen, und der Multiplexer (32) die codierten Subband-Signale und Signale mit hoher Samplingrate zu einem Ausgabe-Frame für jeden aufeinanderfolgenden Daten-Frame packt und multiplexiert und so einen Datenstrom mit einer Übertragungsrate aufbildet, so dass die Basisband-Abschnitte und die Abschnitt mit hoher Samplingrate des Mehrkanal-Audiosignals unabhängig decodiert werden können.
Mehrkanal-Audiocodierer nach Anspruch 1, der des Weiteren umfasst: einen Global-Bit-Manager (GBM) (30), der ein psychoakustisches Signal-Maskierungs-Verhältnis (SMR) und eine geschätzte Prädiktions-Verstärkung (P_Verstärkung) für jeden Sub-Frame berechnet, Maskierungs-Rausch-Verhältnisse (MNR) berechnet, indem die SMR um entsprechende Bruchteile ihrer dazugehörigen Prädiktions-Verstärkungen verringert werden, Bits zuweist, die jedes NMR erfüllen, eine Zuweisungs-Bitrate über die Subbänder berechnet und die einzelnen Zuweisungen so reguliert, dass die Zuweisungs-Bitrate sich einer Soll-Bitrate nähert; wobei: die Vielzahl von Subband-Codierern (26) die Audiodaten in den entsprechenden Frequenz-Subbändern jeweils pro Sub-Frame gemäß der Bit-Zuweisung codieren, um codierte Subband-Signale zu erzeugen; und der Multiplexer (32) die codierten Subband-Signale und die Bitzuweisung zu einem Ausgabe-Frame für jeden aufeinanderfolgenden Daten-Frame packt und multiplexiert und so einen Datenstrom mit einer Übertragungsrate ausbildet.
Mehrkanal-Audiocodierer nach Anspruch 6, wobei der GBM (30) die verbleibenden Bits entsprechend einem Verfahren des minimalen mittleren quadratischen Fehlers (minimum mean square error) zuweist, wenn die Zuweisungs-Bitrate geringer ist als die Soll-Bitrate.
Mehrkanal-Audiocodierer nach Anspruch 6, wobei der GMB (30) einen quadratischen Mittelwert für jeden Sub-Frame berechnet, und, wenn die Zuweisungs-Bitrate geringer ist als die Soll-Bitrate, der GBM alle verfügbaren Bits entsprechend dem Verfahren des minimalen mittleren quadratischen Fehlers auf die quadratischen Mittelwerte angewandt neu zuweist, bis sich die Zuweisungs-Bitrate der Soll-Bitrate nähert.
Mehrkanal-Audiocodierer nach Anspruch 6, wobei der GBM (30) einen quadratischen Mittelwert für jeden Sub-Frame berechnet und alle verbleibenden Bits entsprechend dem Verfahren des minimalen mittleren quadratischen Fehlers auf die quadratischen Mittelwerte angewandt zuweist, bis sich die Zuweisungs-Bitrate der Soll-Bitrate nähert.
Mehrkanal-Audiocodierer nach Anspruch 6, wobei der GBM (30) den quadratischen Mittelwert für jeden Sub-Frame berechnet und alle verbleibenden Bits ent sprechend dem Verfahren des minimalen mittleren quadratischen Fehlers auf die Differenzen zwischen den quadratischen Mittelwerten und den NMR-Werten der Sub-Frames angewendet zuweist, bis sich die Zuweisungs-Bitrate der Soll-Bitrate nähert.
Mehrkanal-Audiocodierer nach Anspruch 6, wobei der GBM (30) das SMR auf einen einheitlichen Wert festlegt, so dass die Bits entsprechend einem Verfahren des minimalen mittleren quadratischen Fehlers zugewiesen werden.
Mehrkanal-Audiocodierer nach Anspruch 1, der vom Typ mit fester Verzerrung und variabler Rate ist und wobei: das Mehrkanal-Audiosignal eine N-Bit-Auflösung hat; die Filter Filter für perfekte Rekonstruktion sind; und die Subband-Codierer prädiktive Subband-Codierer (26) sind und der Codierer des Weiteren umfasst: einen Global-Bit-Manager (GBM) (30), der einen quadratischen Mittelwert für jeden Sub-Frame berechnet und Sub-Frames auf Basis der quadratischen Mittelwerte Bits zuweist, so dass der codierte Verzerrungspegel geringer ist als die Hälfte des niedrigstwertigen Bits der N-Bit-Auflösung des Audiosignals; wobei: die prädiktiven Codierer die Audiodaten in den entsprechenden Frequenzbändern jeweils pro Sub-Frame gemäß der Bitzuweisung codieren, um codierte Subband-Signale zu erzeugen; und der Multiplexer (32) die codierten Subband-Signale und die Bitzuweisung zu einem Ausgabe-Frame für jeden aufeinanderfolgenden Daten-Frame packt und multiplexiert und so einen Datenstrom mit einer Übertragungsrate ausbildet, wobei der Datenstrom zu einem decodierten Mehrkanal-Audiosignal, das dem Mehrkanal-Audiosignal entspricht, auf die N-Bit-Auflösung decodiert werden kann.
Mehrkanal-Audiocodierer nach Anspruch 12, wobei der Basisband-Frequenzbereich eine maximale Frequenz hat, und der des Weiteren umfasst: ein Vorfilter (46), das jeden der Audio-Frames in ein Basisband-Signal und ein Signal mit hoher Samplingrate bei Frequenzen in dem Basisband-Frequenzbereich bzw. über der maximalen Frequenz aufteilt, wobei der GBM dem Signal mit hoher Samplingrate Bits zuweist, die die ausgewählte feste Verzerrung erfüllen; und einen Codierer (48, 50, 52) mit hoher Samplingrate, der die Signale der Audio-Kanäle mit hoher Samplingrate zu entsprechenden codierten Signalen mit hoher Samplingrate codiert, wobei der Multiplexer die codierten Signale der Kanäle mit hoher Samplingrate zu den entsprechenden Ausgabe-Frames packt, so dass die Basisband-Abschnitte und die Abschnitte mit hoher Samplingrate des Mehrkanal-Audiosignals unabhängig decodiert werden können.
Mehrkanal-Audiocodierer nach Anspruch 1, der ein Audiocodierer mit fester Verzerrung und variabler Rate ist und des Weiteren umfasst: einen programmierbaren Controller (19), der eine feste Wahrnehmungs-Verzerrung und eine feste Verzerrung des minimalen mittleren quadratischen Fehlers auswählt; und einen Global-Bit-Manager (GBM) (30), der auf die Verzerrungs-Auswahl anspricht, indem er aus einem dazugehörigen Verfahren des minimalen mittleren quadratischen Fehlers auswählt, das einen quadratischen Mittelwert für jeden Sub-Frame berechnet und Sub-Frames Bits auf Basis der quadratischen Mittelwerte zuweist, bis die feste Verzerrung des minimalen mittleren quadratischen Fehlers erfüllt ist, und aus einem psychoakustischen Verfahren auswählt, das ein Signal-Maskierungs-Verhältnis (SMR) und eine geschätzte Prädiktions-Verstärkung (P_Verstärkung) für jeden Sub-Frame berechnet, Maskierungs-Rausch-Verhältnisse (MNR) berechnet, indem die SMR um entsprechende Bruchteile ihrer dazugehörigen Prädik tions-Verstärkung verringert werden, und Bits zuweist, die jedes MNR erfüllen; wobei: die Vielzahl von Subband-Codierern (26) die Audiodaten in den entsprechenden Frequenzbändern jeweils pro Sub-Frame gemäß der Bitzuweisung codieren, um codierte Subband-Signale zu erzeugen; und der Multiplexer (32) die codierten Subband-Signale und die Bitzuweisung zu einem Ausgabe-Frame für jeden aufeinanderfolgenden Daten-Frame packt und multiplexiert und so einen Datenstrom mit einer Übertragungsrate ausbildet.
Mehrkanal-Audiocodierer zum Rekonstruieren mehrerer Audiokanäle bis zu einer Decodierer-Samplingrate aus einem empfangenen Datenstrom; wobei der Datenstrom die Audiokanäle darstellt, die jeweils mit einer Codierer-Samplingrate abgetastet werden, die wenigstens so hoch ist wie die Decodierer-Samplingrate und in eine Vielzahl von Frequenz-Subbändern unterteilt, und zu dem Datenstrom mit einer Übertragungsrate komprimiert und multiplexiert werden; wobei der Datenstrom Frames umfasst, die ein Sync-Wort, einen Frame-Header, einen Audio-Header und wenigstens einen Sub-Frame enthalten, wobei jeder der Sub-Frames Audio-Nebeninformationen, eine Vielzahl von Teil-Sub-Frames mit Basisband-Audiocodes über einen Basisband-Frequenzbereich, einen Block von Audio-Codes mit hoher Samplingrate über einen Frequenzbereich mit hoher Samplingrate und ein Entpack-Sync enthält; wobei der Frame-Header Fenstergrößen-Informationen, die die Anzahl von Audio-Samples in dem Frame anzeigen, und Frame-Größen-Informationen umfasst, die die Anzahl von Bytes in dem Frame anzeigen, wobei die Fenstergröße als eine Funktion des Verhältnisses der Übertragungsrate zu der Codierer-Samplingrate eingestellt wird, so dass die Frame-Größe so beschränkt wird, dass sie geringer ist als die Größe des Eingangs-Puffers; und der Audio-Header Informationen bezüglich der Anzahl von Sub-Frames in einem Rahmen und der Anzahl codierter Audio-Kanäle umfasst; wobei der Decodierer umfasst: einen Eingabe-Puffer (324), der so eingerichtet ist, dass er in dem Datenstrom jeweils einen Frame liest und speichert; einen Demultiplexer (40), der so eingerichtet ist, dass er: a) das Sync-Wort erfasst, b) den Frame-Header entpackt, um die Fenstergröße und die Frame-Größe zu extrahieren, c) den Audio-Header entpackt, um die Anzahl von Sub-Frames in dem Frame und die Anzahl codierter Audio-Kanäle zu extrahieren, und d) sequenziell jeden Sub-Frame entpackt, um die Audio-Nebeninformation zu extrahieren, die Basisband-Audicodes in jedem Sub-Sub-Rahmen zu den mehreren Audiokanälen demultiplexiert und jeden Audio-Kanal in seinen Subband-Audio-Code entpackt, die Audio-Codes mit hoher Samplingrate zu den mehreren Audio-Kanälen bis zu der Decodierer-Samplingrate demultiplexiert und die verbleibenden Audio-Codes mit hoher Samplingrate bis zu der Codierer-Samplingrate überspringt und das Entpack-Sync erfasst, um das Ende des Sub-Frames zu bestätigen; einen Basisband-Decodierer (42, 44), der so eingerichtet ist, dass er die Nebeninformationen nutzt, um die Subband-Audio-Codes jeweils pro Sub-Frame ohne Bezugnahme auf andere Sub-Frames zu rekonstruierten Subband-Signalen zu decodieren; ein Basisband-Rekonstruktionsfilter (44), das so eingerichtet ist, dass es die rekonstruierten Subband-Signale jedes Kanals jeweils pro Sub-Frame zu einem rekonstruierten Basisband-Signal kombiniert; eine Decodierer (58, 60) mit hoher Samplingrate, der so eingerichtet ist, dass er die Nebeninformationen nutzt, um die Audio-Codes mit hoher Samplingrate jeweils pro Sub-Frame zu einem rekonstruierten Signal mit hoher Samplingrate für jeden Audio-Kanal zu decodieren; und ein Kanal-Rekonstruktionsfilter (62), das so eingerichtet ist, dass es die rekonstruierten Basisband-Signale und die Signale mit hoher Samplingrate jeweils pro Sub-Frame zu einem rekonstruierten Mehrkanal-Audiosignal kombiniert.
Mehrkanal-Audiodecodierer nach Anspruch 15, wobei das Basisband-Rekonstruktionsfilter (44) eine Filterbank für nicht perfekte Rekonstruktion (non-pertect reconstruction – NRP) und eine Filterbank für perfekte Rekonstruktion (perfect reconstruction – PR) umfasst und der Frame-Header einen Filter-Code enthält, der die NPR-Filterbank oder die PR-Filterbank auswählt.
Mehrkanal-Audiodecodierer nach Anspruch 15, wobei der Basisband-Decodierer eine Vielzahl von Codern (268, 270) mit inverser differenzieller Pulscodemodulation (inverse adaptive pulse code modulation – ADPCM) umfasst, die so eingerichtet sind, dass sie die entsprechenden Subband-Audio-Codes decodieren, wobei die Nebeninformationen Prädiktions-Koeffizienten für die entsprechenden ADPCM-Coder und einen Prädiktions-Modus (PMODE) zum Steuern der Anwendung der Prädiktions-Koeffizienten auf die jeweiligen ADPCM-Coder enthalten, um ihre Prädiktionsfähigkeiten wahlweise freizugeben und zu sperren.
Mehrkanal-Audiodecodierer nach Anspruch 15, wobei die Nebeninformationen umfassen: eine Bit-Zuweisungstabelle für die Subbänder jedes Kanals, wobei die Bitrate jedes Subbands über den Sub-Frame fest ist; wenigstens einen Skalenfaktor für jedes Subband in jedem Kanal; und einen Transienten-Modus (TMODE) für jedes Subband in jedem Kanal, der die Anzahl von Skalenfaktoren und ihre zugehörigen Teil-Sub-Frames angibt, wobei der Basisband-Decodierer die Audio-Codes der Subbänder um die entsprechenden Skalenfaktoren entsprechend ihrem TMODE skaliert, um das Decodieren zu erleichtern.