DE60012198T2 - Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung - Google Patents

Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung Download PDF

Info

Publication number
DE60012198T2
DE60012198T2 DE60012198T DE60012198T DE60012198T2 DE 60012198 T2 DE60012198 T2 DE 60012198T2 DE 60012198 T DE60012198 T DE 60012198T DE 60012198 T DE60012198 T DE 60012198T DE 60012198 T2 DE60012198 T2 DE 60012198T2
Authority
DE
Germany
Prior art keywords
signal
spectral envelope
resolution
frequency
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60012198T
Other languages
English (en)
Other versions
DE60012198D1 (de
Inventor
Gustaf Lars LILJERYD
Kristofer KJÖRLING
Per Ekstrand
Fredrik Henn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Coding Technologies Sweden AB
Original Assignee
Coding Technologies Sweden AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=20417226&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60012198(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Priority claimed from SE9903552A external-priority patent/SE9903552D0/xx
Application filed by Coding Technologies Sweden AB filed Critical Coding Technologies Sweden AB
Publication of DE60012198D1 publication Critical patent/DE60012198D1/de
Application granted granted Critical
Publication of DE60012198T2 publication Critical patent/DE60012198T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Description

  • Gebiet der Technik
  • Die vorliegende Erfindung bezieht sich auf ein neues Verfahren und eine Vorrichtung zum effizienten Codieren von Spektralhüllkurven in Audiocodiersystemen. Das Verfahren kann sowohl für ein natürliches Audiocodieren als auch ein Sprachcodieren verwendet werden und ist besonders für Codierer, die SBR [WO 98/57436] oder andere Hochfrequenzrekonstruktionsverfahren verwenden, geeignet.
  • Hintergrund der Erfindung
  • Audioquellcodiertechniken können in zwei Klassen eingeteilt werden: natürliche Audiocodierung und Sprachcodierung. Natürliche Audiocodierung wird allgemein für Musik oder beliebige Signale bei mittleren Bitraten verwendet und bietet allgemein eine breite Audiobandbreite. Sprachcodierer sind im Grunde auf eine Sprachreproduktion begrenzt, können aber jedoch bei sehr niedrigen Bitraten verwendet werden, wenn auch mit einer niedrigen Audiobandbreite. In beiden Klassen ist das Signal allgemein in zwei Hauptsignalkomponenten getrennt, die „Spektralhüllkurve" und das entsprechende „Rest"-Signal. Überall in der folgenden Beschreibung bezieht sich der Ausdruck „Spektralhüllkurve" auf die grobe Spektralverteilung des Signals in einem allgemeinen Sinn, z. B. Filterkoeffizienten in einem linearprädiktionsbasierten Codierer oder ein Satz von Zeit-Frequenz-Durchschnitten von Subbandabtastwerten in einem Subbandcodierer. Der Ausdruck „Rest" bezieht sich auf die feine Spektralverteilung in einem allgemeinen Sinn, z. B. das LPC-Fehlersignal oder Subbandabtastwerte, die unter Verwendung der obigen Zeit-Frequenz-Durchschnitte normiert sind. Der Ausdruck „Hüllkurvendaten" bezieht sich auf die quantisierte und codierte Spektralhüllkurve und der Ausdruck „Restdaten" bezieht sich auf den quantisierten und codierten Rest. Bei mittleren und hohen Bitraten bilden die Restdaten den Hauptteil des Bitstroms. Bei sehr niedrigen Bitraten bilden die Hüllkurvendaten einen größeren Teil des Bitstroms. Daher ist es in der Tat wichtig, die Spektralhüllkurve kompakt darzustellen, wenn niedrigere Bitraten verwendet werden.
  • Audiocodierer des Stands der Technik und die meisten Sprachcodierer verwenden relativ kurze Zeitsegmente konstanter Länge bei der Erzeugung von Hüllkurvendaten, um eine gute zeitliche Auflösung zu erreichen. Dies verhindert jedoch eine optimale Ausnutzung der Frequenzbereichmaskierung, die aus der Psychoakustik bekannt ist. Um einen Codiergewinn durch die Verwendung von schmalen Filterbändern mit steilen Steigungen zu verbessern und immer noch eine gute zeitliche Auflösung während Transientendurchgängen zu erreichen, setzen moderne Audiocodierer ein adaptives Fensterschalten ein, d. h. dieselben schalten Zeitsegmentlängen abhängig von der Signalstatistik. Selbstverständlich ist eine minimale Verwendung der kurzen Segmente eine Vorbedingung für einen maximalen Codiergewinn. Leider werden lange Übergangsfenster benötigt, um die Segmentlängen zu ändern, was die Schaltflexibilität begrenzt.
  • Die Spektralhüllkurve ist eine Funktion zweier Variablen Zeit und Frequenz. Das Codieren kann durch ein Ausnutzen einer Redundanz in eine Richtung der Zeit-/Frequenzebene vorgenommen werden. Allgemein wird ein Codieren der Spektralhüllkurve in die Frequenzrichtung durchgeführt, wobei ein Deltacodieren (DPCM) oder eine Vektorquantisierung (VQ) verwendet wird.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung stellt ein neues Verfahren und eine Vorrichtung zum Spektralhüllkurvencodieren gemäß Anspruch 1 und 17 und eine Vorrichtung zum Spektralhüllkur vencodieren und ein Verfahren zum Spektralhüllkurvendecodieren gemäß den Ansprüchen 18 und 19 bereit. Das Codierungsschema ist entworfen, um die speziellen Erfordernisse von Systemen einzuhalten, bei denen das Restsignal innerhalb bestimmter Frequenzregionen von den gesendeten Daten ausgeschlossen ist. Beispiele sind Systeme, die HFR (Hochfrequenzrekonstruktion) einsetzen, insbesondere SBR (Spektralbandreplikation), oder parametrische Codierer. Bei einer Implementierung wird ein nicht-einheitliches Zeit- und Frequenzabtasten der Spektralhüllkurve durch ein adaptives Gruppieren von Subbandabtastwerten aus einer Filterbank fester Größe in Frequenzbänder und Zeitsegmente erhalten, von denen jedes einen Hüllkurvenabtastwert erzeugt. Dies ermöglicht eine momentane Auswahl einer beliebigen Zeit- und Frequenzauflösung innerhalb der Begrenzungen der Filterbank. Bei dem System sind lange Zeitsegmente und eine hohe Frequenzauflösung vorgegeben. In der Nähe von Transienten werden kürzere Zeitsegmente verwendet, wodurch größere Frequenzschritte verwendet werden können, um die Datengröße innerhalb Begrenzungen zu halten. Um die Vorteile aus dem nicht-einheitlichen zeitmäßigen Abtasten zu maximieren, wird eine variable Länge von Bitstromrahmen oder Granalien bzw. Granularitäten verwendet. Das Variable-Zeit-/Frequenzauflösung-Verfahren ist auch auf ein Hüllkurvencodieren anwendbar, das auf einer Voraussage bzw. Prädiktion basiert. Anstelle eines Gruppierens von Subbandabtastwerten werden Prädiktorkoeffizienten für Zeitsegmente variierender Längen gemäß dem System erzeugt.
  • Die Erfindung beschreibt zwei Schemata zum Signalisieren der verwendeten Zeit- und Frequenzauflösung. Das erste Schema ermöglicht eine beliebige Auswahl durch ein explizites Signalisieren von Zeitsegmentgrenzen und Frequenzauflösungen. Um den Signalisierungsmehraufwand zu reduzieren, werden vier Klassen von Granalien verwendet, wobei unterschiedliche Kosten-/Flexibilitätskompromisse geboten werden. Das zweite Schema nutzt die Eigenschaft eines typischen Programmmaterials aus, dass Transienten zumindest durch eine Zeit Tnmin getrennt sind, um die Anzahl von Steuerbits weiter zu reduzieren. Hierdurch bestimmt ein Transientendetektor in dem Codierer, der an einem Zeitintervall Tdet <= Tnmin wirksam ist, das gleich der Nenngranalienlänge ist, die Position des Aufkommens einer möglichen Transiente. Die Position innerhalb des Intervalls wird codiert und zu dem Decodierer gesendet. Der Codierer und der Decodierer verwenden Regeln gemeinschaftlich, die die Zeit-/Frequenzverteilung der Spektralhüllkurvenabtastwerte spezifizieren, eine bestimmte Kombination von nachfolgenden Steuersignalen vorausgesetzt, was ein unzweideutiges Decodieren der Hüllkurvendaten sicherstellt.
  • Die vorliegende Erfindung legt ein neues und effizientes Verfahren für ein Skalierungsfaktor-Redundanzcodieren vor. Ein Dirac-Puls in dem Zeitbereich transformiert sich zu einer Konstante in dem Frequenzbereich und ein Dirac in dem Frequenzbereich, d. h. eine einzige Sinuskurve, entspricht einem Signal mit einem konstanten Betrag in dem Zeitbereich. Vereinfacht gesagt zeigt das Signal kurzfristig weniger Variationen in einem Bereich als in dem anderen. Wenn daher ein Prädiktions- oder Deltacodieren verwendet wird, wird die Codiereffizienz erhöht, falls die Spektralhüllkurve entweder in eine Zeit- oder Frequenzrichtung abhängig von den Signalcharakteristika codiert ist.
  • Kurze Beschreibung der Zeichnungen
  • Die vorliegende Erfindung wird nun durch darstellende Beispiele, wobei der Schutzbereich oder die Wesensart der Erfindung nicht begrenzt wird, mit Bezug auf die zugehörigen Zeichnungen beschrieben, in denen:
  • 1a1b ein einheitliches bzw. nicht-einheitliches zeitmäßiges Abtasten der Spektralhüllkurve darstellen.
  • 2a2b eine Verwendung von vier Klassen von Granalien definieren und darstellen.
  • 3a3b zwei Beispiele von Granalien und der entsprechenden Steuersignale sind.
  • 4a4c das Positionssignalisierungssystem darstellen.
  • 5 ein Zeit-/Frequenz-geschaltetes Deltacodieren darstellt.
  • 6 ein Blockdiagramm eines Codierers ist, der das Hüllkurvencodieren gemäß der Erfindung verwendet.
  • 7 ein Blockdiagramm eines Decodierers ist, der das Hüllkurvencodieren gemäß der Erfindung verwendet.
  • Beschreibung der bevorzugten Ausführungsbeispiele
  • Die unten beschriebenen Ausführungsbeispiele sind lediglich darstellend für die Grundlagen der vorliegenden Erfindung zu einem effizienten Hüllkurvencodieren. Es ist klar, dass Modifikationen und Variationen der Anordnungen und der Details, die hierin beschrieben sind, Fachleuten auf dem Gebiet ersichtlich sind. Es ist deshalb die Absicht, lediglich durch den Schutzbereich der bevorstehenden Patentansprüche und nicht durch die spezifischen Details begrenzt zu sein, die durch eine Beschreibung und Erläuterung der Ausführungsbeispiele hierin vorgelegt sind.
  • Erzeugung von Hüllkurvendaten
  • Die meisten Audio- und Sprachcodierer haben miteinander gemein, dass sowohl Hüllkurvendaten als auch Restdaten während der Synthese bei dem Decodierer gesendet und kombiniert werden. Zwei Ausnahmen sind Codierer, die PNS [„Improving Audio Codecs by Noise Substitution", D. Schultz, JAES, Bd. 44, Nr. 7/8, 1996] einsetzen, und Codierer, die SBR einsetzen. Im Fall von SBR muss unter Betrachtung des Hochbands lediglich die grobe Spektralstruktur gesendet werden, da ein Restsignal aus dem Tiefband rekonstruiert wird. Dies legt höhere Anforderungen darauf, wie Hüllkurvendaten zu erzeugen sind, insbesondere auf Grund eines Fehlens von „Zeitsteuerungs"-Informationen, die in dem ursprünglichen Restsignal enthalten sind. Dieses Problem wird nun durch ein Beispiel gezeigt:
  • 1 zeigt die Zeit-/Frequenzdarstellung eines Musiksignals, bei dem dauerhafte Akkorde mit scharfen Transienten mit hauptsächlich Hochfrequenzgehalt kombiniert sind. In dem Tiefband weisen die Akkorde eine hohe Leistung auf und die Transientenleistung ist niedrig, während in dem Hochband das Gegenteil zutrifft ist. Die Hüllkurvendaten, die während Zeitintervallen erzeugt werden, in denen Transienten vorliegen, sind durch die hohe intermittierende Transientenleistung dominiert. Bei dem SBR-Prozess in dem Decodierer wird die Spektralhüllkurve des transponierten Signals unter Verwendung der gleichen momentanen Zeit-/Frequenzauflösung geschätzt, wie dieselbe für die Analyse des ursprünglichen Hochbands verwendet wird. Dann wird ein Abgleich des transponierten Signals durchgeführt, basierend auf Unähnlichkeiten bei den Spektralhüllkurven. Gewinnfaktoren in einer Hüllkurveneinstellungsfilterbank werden z. B. als die Quadratwurzel der Quotienten zwischen einem ursprünglichen Signal und einer Durchschnittsleistung eines transponierten Signals berechnet. Für diese Art von Signal entsteht ein Problem: das transponierte Signal weist das gleiche „Akkord-zu-Transiente"-Leistungsverhältnis wie das Tiefband auf. Die Gewinne, die benötigt werden, um die transponierten Transienten auf den korrekten Pegel einzu stellen, bewirken somit, dass die transponierten Akkorde relativ zu dem ursprünglichen Hochbandpegel für die volle Dauer der Hüllkurvendaten, die eine Transientenenergie enthalten, verstärkt sind. Diese im Augenblick zu lauten Akkordfragmente werden als Vor- und Nachechos zu der Transiente wahrgenommen, siehe 1a. Diese Art von Verzerrung wird hier in dem Folgenden als „gewinnbewirkte Vor- und Nachechos" bezeichnet. Das Phänomen kann durch ein andauerndes Aktualisieren der Hüllkurvendaten bei einer derartig hohen Rate eliminiert werden, das die Zeit zwischen einer Aktualisierung und einer beliebig positionierten Transiente garantiert kurz genug ist, um durch das menschliche Hören nicht aufgelöst zu werden. Dieser Ansatz würde jedoch die Menge an Daten, die gesendet werden sollen, drastisch erhöhen und ist somit nicht durchführbar.
  • Deshalb wird ein neues Hüllkurvendatenerzeugungsschema vorgelegt. Die Lösung besteht darin, während tonaler Passagen, die die größeren Teile eines typischen Programmmaterials ausmachen, eine niedrige Aktualisierungsrate beizubehalten und mittels eines Transientendetektors die Transientenposition zu lokalisieren und die Hüllkurvendaten nahe der vorauseilenden Flanken zu aktualisieren, siehe 1b. Dies eliminiert gewinnbewirkte Vorechos. Um das Abklingen der Transienten gut darzustellen, wird die Aktualisierungsrate momentan in einem Zeitintervall nach dem Transientenanfang erhöht. Dies eliminiert gewinnbewirkte Nachechos. Das Zeitsegmentieren während des Abklingens ist nicht so entscheidend wie ein Finden des Anfangs der Transiente, wie es später erläutert wird. Um die kleineren Zeitschritte zu kompensieren, können während der Transiente größere Frequenzschritte verwendet werden, was die Datengröße in Grenzen hält. Ein zeit- und frequenzmäßig nicht-einheitliches Abtasten, wie es oben umrissen ist, ist sowohl auf ein Filterbank- als auch Linearprädiktions-basiertes Hüllkurvencodieren anwendbar. Unterschiedliche Prädiktorordnungen können für transiente und quasi stationäre (tonale) Segmente verwendet werden.
  • Im Fall von prädiktionsbasierten Codierern sind keine ausgearbeiteten Zeit-/Frequenzauflösungsschaltschemata aus dem Stand der Technik bekannt. Gewisse filterbankbasierte Codierer setzen jedoch eine variable Zeit-/Frequenzauflösung ein. Dies wird allgemein durch ein Umschalten der Filterbankgröße erreicht. Eine derartige Größenänderung kann nicht unmittelbar stattfinden, so genannte Übergangsfenster sind erforderlich, und somit können die Aktualisierungspunkte nicht frei gewählt werden. Unter Verwendung von SBR oder einem anderen HFR-Verfahren ist das Ziel unterschiedlich – eine Filterbank kann entworfen sein, um sowohl die höchste zeitliche als auch die höchste Frequenzauflösung, die benötigt wird, einzuhalten, um eine angemessene Hüllkurvendarstellung zu extrahieren. Somit kann das nichteinheitliche Zeit- und Frequenzabtasten der Spektralhüllkurve durch ein adaptives Gruppieren der Subbandabtastwerte aus einer Filterbank fester Größe in „Frequenzbänder" und „Zeitsegmente" erhalten werden. Ein Hüllkurvenabtastwert wird dann pro Band und Segment berechnet. Überall in dieser Beschreibung bezieht sich unten „Frequenzauflösung" auf einen spezifischen Satz von Frequenzbändern, LPC-Koeffizienten oder ähnliches, die bei dem Hüllkurvenschätzwert für ein spezielles Zeitsegment verwendet werden. Mit anderen Worten kann aus einer Hüllkurvencodierperspektive eine hohe Frequenzauflösung oder eine hohe Zeitauflösung momentan erhalten werden.
  • Von einem syntaktischen Standpunkt aus weisen alle praktischen Codec-Bitströme Datenperioden auf, von denen jede einem kurzen Zeitsegment des Eingangssignals entspricht. Das Zeitsegment, das einer derartigen Datenperiode zugeordnet ist, wird hierin als eine „Granalie" bzw. Granularität bezeichnet. Typische Codierer verwenden Granalien fester Länge. Das Vorhandensein von Granaliengrenzen erlegt dem Entwurf der Zeitsegmente, die für eine Hüllkurvenschätzung verwendet werden, Beschränkungen auf. Der Algorithmus, der diese Zeitsegmente erzeugt, kann angeben, dass eine Segment-„Grenze" bei einer speziellen Position erforderlich ist und dass das nachfolgende Segment eine bestimmte Länge aufweisen sollte. Falls jedoch eine Granaliengrenze auf Grund von Granalien fester Länge in dieses Intervalls fällt, muss das Segment in zwei Teile geteilt werden. Dies hat zwei Implikationen: erstens erhöht sich die Anzahl von zu codierenden Segmenten, was möglicherweise die Menge an zu sendenden Daten erhöht. Zweitens können Zwangsgrenzen Segmente erzeugen, die für zuverlässige Durchschnittsleistungsschätzwerte zu kurz sind. Um diese Mängel zu vermeiden, verwendet die vorliegende Erfindung Granalien variabler Länge. Dies erfordert ein Vorausschauen bei dem Codierer sowie ein zusätzliches Puffern bei dem Decodierer.
  • Man lasse den Ausdruck „Gitter" die Zeitsegmente und die entsprechenden Frequenzauflösungen bezeichnen, die für ein spezielles Signal zu verwenden sind, und „lokales Gitter" das Gitter einer Granalie bezeichnen. Selbstverständlich muss das Gitter zu dem Decodierer für ein korrektes Decodieren der Hüllkurvenabtastwerte signalisiert werden. Bei Anwendungen mit niedriger Bitrate jedoch muss die Anzahl von Bits für dieses „Steuersignal" bei einem Minimum gehalten werden. Die zwei Signalisierungsschemata sind in der vorliegenden Erfindung vorgeschlagen. Vor einem detaillierten Beschreiben derselben werden ein „Basissystem" und einige Entwurfskriterien eingerichtet.
  • Man lasse den Zeitquantisierungsschritt für die Spektralhüllkurve Tq sein. Diese Schritte können als „Subgranalien" betrachtet werden, die in die zuvor erwähnten Zeitsegmente gruppiert sind. In dem allgemeinen Fall weist eine Granalie S Subgranalien auf, wobei S von Granalie zu Granalie variiert. Die Anzahl von möglichen Segmentkombinationen innerhalb einer Granalie in einem Bereich von einem Segment für die gesamte Granalie zu S Segmenten ist gegeben durch
    Figure 00090001
    Um C Zustände zu signalisieren, sind ceil () In2 (C)) = ceil (In2(25)) = S Bits erforderlich, entsprechend einem Bit pro Subgranalie. Eine beliebige Unterteilung der Granalie kann durch S-1 Bits signalisiert werden, wobei die aufeinander folgenden Subgranalien dargestellt werden, wobei angegeben wird, ob bei der entsprechenden Subgranalie eine vordere Segmentgrenze vorhanden ist oder nicht. (Die erste und die letzte Granaliengrenze müssen hier nicht signalisiert werden.) Da S variabel ist, muss dasselbe signalisiert werden, und falls dieses Schema mit einem Tiefbandcodec mit einer Granalie fester Länge kombiniert ist, muss auch die Position relativ zu den Granalien konstanter Länge signalisiert werden. Die Segmentfrequenzauflösungen können dynamisch zugewiesenen Steuerbits signalisiert werden, z. B. ein Bit pro Segment. Selbstverständlich kann ein derart einfaches Verfahren zu einer unannehmbar hohen Anzahl von Steuersignalbits führen.
  • Wie es unten gezeigt wird, sind viele der durch Gl. 1 beschriebenen Zustände nicht sehr wahrscheinlich und würden auch zu große Mengen an Hüllkurvendaten erzeugen, um bei einer begrenzten Bitrate praktisch zu sein.
  • Die minimale Zeitspanne zwischen aufeinander folgenden Transienten in einem Musikprogrammmaterial kann auf die folgende Weise geschätzt werden: in einer Musiknotation ist der rhythmische „Puls" durch eine Zeitsignatur beschrieben, die als ein Bruch A/B ausgedrückt ist, wobei A die Anzahl von „Schlägen" pro Takt bezeichnet und 1/B der Notentyp ist, der einem Schlag entspricht, z. B. einer 1/4-Note, die allgemein als eine Viertelnote bezeichnet wird. Man lasse t das Tempo in Schlägen pro Minute (BPM = Beats Per Minute) bezeichnen. Die Zeit pro Note eines Typs 1/C ist gegeben durch Tn = (60/t) * (B/C) [s] (Gl. 2)
  • Die meisten Musikstücke fallen in den 70–160 BPM-Bereich und in einer 4/4-Zeitsignatur sind für die meisten praktischen Fälle die schnellsten rhythmischen Muster aus 1/32- oder 32-stel Noten gebildet. Dies ergibt eine minimale Zeit Tnmin = (60/160) * (4 /32) = 47 ms. Natürlich können niedrigere Zeitperioden als diese auftreten, aber derartige schnelle Sequenzen (> 21 Ereignisse pro Sekunde) bekommen beinahe den Charakter eines Summens und müssen nicht voll aufgelöst werden.
  • Die notwendige Zeitauflösung Tq muss ebenfalls eingerichtet werden. In einigen Fällen weist ein Transientensignal die Hauptenergie desselben in dem Hochband auf, das rekonstruiert werden soll. Dies bedeutet, dass die codierte Spektralhüllkurve alle „Zeitsteuerungs"-Informationen tragen muss. Die erwünschte Zeitsteuerungsgenauigkeit bestimmt somit die Auflösung, die für ein Codieren von vorauseilenden Flanken benötigt wird. Tq ist viel kleiner als die minimale Notenperiode Tnmin, da kleine Zeitabweichungen innerhalb der Periode deutlich gehört werden können. In den meisten Fällen jedoch weist die Transiente eine erhebliche Energie in dem Tiefband auf. Die oben beschriebenen gewinnbewirkten Vorechos müssen in die so genannte Vor- oder Rückwärts-Maskierungszeit Tm des menschlichen Hörsystems fallen, um unhörbar zu sein. Daher muss Tq zwei Bedingungen erfüllen: Tq « Tnmin (Gl. 3) Tq < Tm (Gl. 4)
  • Offensichtlich Tm < Tnmin (andernfalls wären die Noten so schnell, dass dieselben nicht aufgelöst werden könnten) und gemäß [„Modeling the Additivity of Nonsimultaneous Masking", Hearing Res., Bd. 80, S. 105–118 (1994)] beläuft sich Tm auf 10–20ms. Da sich Tnmin in dem 50ms-Bereich befindet, resultiert eine vernünftige Auswahl von Tq gemäß Gl. 3 darin, dass die zweite Bedingung ebenfalls erfüllt ist. Natürlich muss auch die Genauigkeit der Transientenerfassung in dem Codierer und der Zeitauflösung der Analyse-/Synthesefilterbank bei einem Auswählen von Tq betrachtet werden.
  • Ein Verfolgen von nacheilenden Flanken ist aus mehreren Gründen weniger entscheidend: erstens weist die Note-aus-Position (oder Note-off-Position) eine geringe oder keine Wirkung auf den wahrgenommenen Rhythmus auf. Zweitens zeigen die meisten Instrumente keine scharfen nacheilenden Flanken, sondern vielmehr eine glatte Abklingkurve, d. h. eine gut definierte Note-aus-Zeit existiert nicht. Drittens ist die Nach- oder Vorwärts-Maskierungszeit wesentlich länger als die Vormaskierungszeit.
  • Um zusammenzufassen, können die folgenden Vereinfachungen ohne oder mit geringen Qualitätseinbußen für praktische Signale vorgenommen werden:
    • 1. Es muss lediglich die Transientenstartposition mit der höchsten Genauigkeit Tq gesendet werden.
    • 2. Es müssen lediglich Transienten, die durch Tp » Tq getrennt sind, in den Hüllkurvendaten vollständig aufgelöst werden.
  • Um den Signalisierungsmehraufwand zu reduzieren, setzen beide Systeme gemäß der vorliegenden Erfindung zwei Zeitabtastmodi ein; ein einheitliches und ein nicht-einheitliches zeitmäßiges Abtasten. Der einheitliche Modus wird während quasi-stationären Passagen verwendet, wodurch Segmente fester Länge verwendet werden und wenig zusätzliches Signalisieren erforderlich ist. In der Nähe von Transienten schaltet das System zu einem nicht-einheitlichen Betrieb um und Granalien variabler Länge werden verwendet, was eine gute Anpassung an das ideale globale Gitter ermöglicht.
  • Klassensignalisierungssystem
  • Bei dem ersten System sind die Granalien in vier Klassen eingeteilt und die Steuersignale sind auf die spezifischen Bedürfnisse jeder Klasse zugeschnitten. Die Klassen sind in 2a definiert. Eine Klasse „FixFix" entspricht herkömmlichen Granalien konstanter Länge. Eine Klasse „FixVar" weist eine bewegbare Stoppgrenze auf, was ermöglicht, dass die Granalienlänge variiert. Eine Klasse „VarFix" weist eine variable Startgrenze auf, während die Stoppgrenze fest ist. Die letzte Klasse „VarVar" weist variable Grenzen an beiden Enden auf. Alle variablen Grenzen können um –a/+b gegenüber den „Nennpositionen" versetzt werden.
  • 2b gibt ein Beispiel einer Sequenz von Granalien. Das System geht vorgabemäßig zu der Klasse FixFix über. Ein Transientendetektor (oder ein psychoakustisches Modell) ist an einer Zeitregion vor der aktuellen Granalie wirksam, wie es in der Figur umrissen ist. Wenn eine Transiente erfasst wird, wird eine Granalie der Klasse FixVar verwendet – das System schaltet von einem einheitlichen zu einem nichteinheitlichen Betrieb um. Typischerweise ist diese Granalie durch eine Granalie der Klasse VarFix gefolgt, da Transienten meistens durch eine Anzahl von Granalien für alle praktischen Auswahlen von Granalienlängen getrennt sind. Im Fall von Transienten in aufeinander folgenden Rahmen können die Rahmen der Klasse VarVar verwendet werden.
  • 3a ist ein Beispiel eines Paars der Klasse FixVar-VarFix und des entsprechenden Steuersignals. Eine Transiente ist vorhanden und die vorauseilende Flanke (zu Tq quantisiert) ist durch t bezeichnet. Der erste Teil des Bitstroms ist das „Klasse"-Signal. Da vier Klassen verwendet werden, werden für dieses Signal zwei Bits verwendet. Im Fall von FixVar- oder VarFix-Klassen beschreibt das nächste Signal die Position der variablen Grenze, ausgedrückt als der Versatz von der Nennposition. Diese Grenze wird als die „absolute Grenze" bezeichnet. Die Segmentgrenzen innerhalb der Granalien werden mittels „relativer Grenzen" beschrieben: die absolute Grenze wird als eine Referenz verwendet und die anderen Grenzen sind als kumulative Abstände zu der Referenz beschrieben. Die Anzahl von relativen Grenzen ist variabel und wird dem Decodierer nach der absoluten Grenze signalisiert. Eine Anzahl von 0 bedeutet, dass die Granalie lediglich ein Zeitsegment aufweist. Somit werden in dem Fall der Klasse FixVar die Segmentlängen in einer umgekehrten Sequenz signalisiert, wobei man sich von der absoluten Grenze am Ende der Granalie weg bewegt. Die Länge des ersten Segments in einer FixVar-Granalie ist aus den relativen Grenzen und der gesamten Länge abgeleitet und wird nicht signalisiert. Klasse-VarFix-relative-Grenze-Signale werden in den Bitstrom in einer Vorwärtssequenz eingefügt, wodurch die letzte Segmentlänge ausgeschlossen ist. Die Bitstromsignalordnung ist identisch zu derselben der Klasse FixVar, d. h.: [Klasse, abs. Grenze, Anzahl von rel. Grenzen, rel. Grenze 0, rel. Grenze 1, ...., rel. Grenze N – 1]. In der Figur sind die Signale in „Klartext" anstelle der tatsächlichen Binärcodewörter gezeigt, die in dem Bitstrom gesendet werden.
  • 3b zeigt ein alternatives Codieren des Signals. Die variable Grenze bietet bei einem Gruppieren der Segmente bei einem gegebenen globalen Gitter eine Vielseitigkeit. Somit kann auf dieser Ebene eine gewisse Nutzlaststeuerung durchgeführt werden, z. B. um die Anzahl von Bits pro Granalie abzugleichen. Dies kann den Betrieb des Tiefbandcodierers erleichtern. Genügend Vorausschau vorausgesetzt, kann ein Mehrpasscodieren durchgeführt werden und die optimale Kombination von lokalen Gittern kann verwendet werden.
  • Um den Symbolsatz zum Signalisieren von relativen Grenzen zu reduzieren und dadurch die Anzahl von Bits pro Symbol, können diese Längen zu einem ganzzahligen Mehrfachen (> 1) von Tq quantisiert werden, falls die absolute Grenze die Genauigkeit Tq aufweist. In diesem Fall dient die absolute Grenze zusätzlich zu der obigen Funktion dazu, eine Gruppe von Grenzen um die Transiente herum mit der Genauigkeit Tq auszurichten. Mit anderen Worten ist immer die höchste Genauigkeit zum Codieren von vorauseilenden Transientenflanken verfügbar und eine grobere Auflösung wird bei dem Verfolgen des Abklingens verwendet.
  • Die Rahmen der Klasse VarVar verwenden eine Kombination der FixVar- und VarFix-Signalisierung, z. B. verschachtelt: [Klasse, abs. Grenze links, d:o rechts, Anz. rel. Grenzen links, d:o rechts, [rel. Grenze links 0, ..., rel. Grenze links N – 1], [d:o rechts]]. Diese Klasse bietet die größte Flexibilität bei der Lokalgitterauswahl auf Kosten eines erhöhten Signalisierungsmehraufwands. Die FixFix-Klasse schließlich erfordert keine anderen Signale als das Klasse-Signal an sich, in welchem Fall z. B. zwei (gleich lange) Segmente verwendet werden. Es ist jedoch durchführbar, ein Signal hinzuzufügen, das eine Auswahl innerhalb eines Satzes von vordefinierten Gittern ermöglicht. Zum Beispiel kann die Spektralhüllkurve für zwei Segmente berechnet werden, und falls die zwei Hüllkurven sich nicht mehr als eine bestimmte Größe unterscheiden, wird lediglich ein Satz von Hüllkurvendaten gesendet.
  • Bis jetzt wurde lediglich das zeitmäßige Segmentieren beschrieben. Aus vielen Gründen kann es erwünscht sein, dem Decodierer zu signalisieren, welche der Grenzen einer vorauseilenden Transientenflanke entspricht. Dies kann durch ein Senden eines „Zeigers" erzielt werden, der zu der relevanten Grenze zeigt. Die Referenzrichtung kann derselben der relativen Grenzen folgen und ein Wert von 0 kann implizieren, dass kein Transientenbeginn innerhalb der aktuellen Granalie vorliegt. Ferner muss auch die Frequenzauflösung (Anzahl von Leistungsschätzwerten oder eine Prädiktorordnung), die für die einzelnen Segmente verwendet wird, definiert werden. Dies kann explizit signalisiert werden, wie bei dem „Basissystem", oder implizit, d. h. die Auflösung ist mit den Segmentlängen und möglicherweise der Zeigerposition gekoppelt.
  • Wenn fehleranfällige Sendekanäle verwendet werden, ist es wichtig, eine Fehlerausbreitung zu vermeiden. Bei dem obigen System ist das lokale Gitter durch das Steuersignal der entsprechenden Granalie vollständig beschrieben. Somit existieren keine Zwischen-Rahmen-Abhängigkeiten bei dem Steuersignal. Dies bedeutet, dass die Granaliengrenzen „übercodiert" sind, da die Granalienschnitte bei beiden aufeinander folgenden Granalien signalisiert werden. Diese Redundanz kann für eine einfache Fehlererfassung verwendet werden – falls die Grenzen nicht übereinstimmen, ist ein Sendefehler aufgetreten und eine Fehlerverschleierung könnte aktiviert werden.
  • Positionssignalisierungssystem
  • Das zweite System, hierin im Folgenden als das „Positionssignalisierungssystem" bezeichnet, ist für Anwendungen mit sehr niedriger Bitrate bestimmt. Die vorhergehend eingerichteten Entwurfsregeln werden zu einem größeren Ausmaß verwendet, um die Anzahl von Steuersignalbits noch weiter zu reduzieren. Gemäß der vorliegenden Erfindung können die Transientenanfangsinformationen zum impliziten Signalisieren von Segmentgrenzen und Frequenzauflösungen in der Nähe von Transienten verwendet werden. Dies wird nun unter der Annahme einer Nenngranaliengröße von N Subgranalien, ausgewählt gemäß NTq <= Tnmin, beschrieben, d. h. ein Maximum einer Transiente tritt wahrscheinlich innerhalb einer Granalie auf, siehe 4a, wobei N = B. Ein Transientendetektor, der an Intervallen einer Länge N wirksam ist und N/2 vor der aktuellen Granalie positioniert ist, wird eingesetzt, 4b. Wenn eine Transiente erfasst wird, wird ein Flag gesetzt, das dieser Region zugeordnet ist. Bei dem Beispiel hat der Transientendetektor eine Transiente in einer Subgranalie 2 zu einer Zeit n – 1 erfasst und eine Transiente in einer Subgranalie 3 zu einer Zeit n. Diese Positionen, pos(n – 1) und pos(n), sowie die entsprechenden Flags, flag(n – 1) und flag(n), werden als ein Eingang zu dem Gittererzeugungsalgorithmus verwendet und das entsprechende lokale Gitter für eine Granalie n könnte so sein, wie es in 4c gezeigt ist. Wie es aus der Figur zu sehen ist, ist die Subgranalie 3 der Granalie zu der Zeit n – 1 in dem Zeit-/Frequenzgitter der Granalie n enthalten. Die einzigen Signale, die dem Bitstrom zugeführt werden, sind flag(n) [1 Bit] und pos(n) [ceil(In2(N))Bits]. Der Gitteralgorithmus ist auch dem Decodierer bekannt, sodass diese Signale, zusammen mit den entsprechenden Signalen der vorhergehenden Granalie n – 1, für eine unzweideutige Rekonstruktion des Gitters ausreichen, das durch den Codierer verwendet wird. Wenn keine Transiente erfasst wird, ist das Positionssignal obsolet und kann z. B. durch 1-Bit-Signal ersetzt werden, das angibt, ob ein oder zwei Segmente verwendet werden. Somit ist eine Einheitlicher-Modus-Operation identisch zu derselben des Klassensignalisierungssystems.
  • Dieses System kann als eine Finiter-Zustand-Maschine betrachtet werden, bei der die oben beschriebenen Signale die Übergänge von Zustand zu Zustand steuern und die Zustände die lokalen Gitter definieren. Selbstverständlich können die Zustände durch Tabellen dargestellt werden, die sowohl in dem Codierer als auch dem Decodierer gespeichert sind. Da die Gitter fest codiert sind, wurde die Fähigkeit geopfert, die Nutzlast adaptiv zu ändern. Ein vernünftiger Ansatz besteht darin, die Zeit-/Frequenzdatenmatrixgröße (z. B. Anzahl von Leistungsschätzwerten) näherungsweise konstant zu halten. Angenommen dass die Anzahl von Skalierungsfaktoren oder Koeffizienten in einem Segment hoher Auflösung zweimal dieselbe eines Segments niedriger Auflösung beträgt, kann ein Segment hoher Auflösung gegen zwei Segmente niedriger Auflösung ausgetauscht werden.
  • Zeit-/Frequenz-geschaltete Skalierungsfaktorcodierung Unter Verwendung einer Zeit-zu-Frequenz-Transformation kann gezeigt werden, dass ein Puls in dem Zeitbereich einem fla chen Spektrum in dem Frequenzbereich entspricht und ein „Puls" in dem Frequenzbereich, d. h. eine einzige Sinuskurve, einem quasistationären Signal in dem Zeitbereich entspricht. Mit anderen Worten zeigt ein Signal gewöhnlich in einem Bereich mehr Transienteneigenschaften als in dem anderen. In einem Spektrogramm, d. h. einer Zeit-/Frequenzmatrixanzeige, ist diese Eigenschaft offensichtlich und kann bei einem Codieren von Spektralhüllkurven vorteilhaft verwendet werden.
  • Ein stationäres Tonalsignal kann ein sehr dünn besetztes Spektrum aufweisen, das für ein Deltacodieren in die Frequenzrichtung nicht geeignet ist aber für ein Deltacodieren in die Zeitrichtung gut geeignet ist, und umgekehrt. Dies ist in 5 angezeigt. Überall in der folgenden Beschreibung stellt ein Vektor von Skalierungsfaktoren, der bei einem Zeitpunkt n0 berechnet ist, die Spektralhüllkurve dar Y(k, n0) = [a1, a2, a3, ..., ak, ... aN], (Gl. 5)wobei a1 ... aN die Amplitudenwerte für unterschiedliche Frequenzen sind. Es ist eine allgemeine Praxis, die Differenz zwischen benachbarten Werten zu einer gegebenen Zeit in die Frequenzrichtung zu codieren, was ergibt: D(k, n0) = [a2 – a1, a3 – a2, ..., aN – a(N–1)]. (Gl. 6)
  • Um in der Lage zu sein, dies zu decodieren, muss der Startwert a1 gesendet werden. Wie es oben dargelegt ist, kann sich dieses Deltacodierungsschema als das ineffizienteste erweisen, falls das Spektrum lediglich einige stationäre Töne enthält. Dies kann darin resultieren, dass eine Deltacodierung eine höhere Bitrate als eine gewöhnliche PCM-Codierung ergibt. Um mit diesem Problem umzugehen, ist ein Zeit-/Frequenzschaltverfahren, das hierin im Folgenden als T/F-Codierung bezeichnet ist, vorgeschlagen: die Skalierungsfaktoren werden quantisiert und sowohl in die Zeit- als auch die Frequenzrichtung codiert. Für beide Fälle ist die erforderliche Anzahl von Bits für einen gegebenen Codierungsfehler berechnet oder der Fehler ist für eine gegebene Anzahl von Bits berechnet. Basierend darauf wird die vorteilhafteste Codierungsrichtung ausgewählt.
  • Als ein Beispiel können eine DPCM- und eine Huffman-Redundanzcodierung verwendet werden. Zwei Vektoren werden berechnet, Df und Dt: Df(k, n0) = [a2 – a1, a3 – a2, ..., aN – a(N–1)], (Gl. 7) Dt(k, n0) = [a1(n0)–a1(n0–1), a2(n0)–a2(n0–1), ..., aN(n0) –aN(n0–1)] (Gl. 8)
  • Die entsprechenden Huffman-Tabellen, eine für die Frequenzrichtung und eine für die Zeitrichtung, geben die Anzahl von Bits an, die erforderlich sind, um die Vektoren zu codieren. Der codierte Vektor, der die geringste Anzahl von Bits benötigt, um zu codieren, stellt die bevorzugte Codierungsrichtung dar. Die Tabellen können anfänglich unter Verwendung eines gewissen minimalen Abstands als ein Zeit-/Frequenzschaltkriterium erzeugt werden.
  • Startwerte werden gesendet, wann immer die Spektralhüllkurve in die Frequenzrichtung codiert ist, aber nicht, wenn dieselbe in die Zeitrichtung codiert ist, da dieselben bei dem Decodierer durch die vorhergehende Hüllkurve verfügbar sind. Der vorgeschlagene Algorithmus erfordert ebenfalls, dass zusätzliche Informationen gesendet werden, nämlich ein Zeit-/Frequenz-Flag, das angibt, in welche Richtung die Spektralhüllkurve codiert war. Der T/F-Algorithmus kann vorteilhafterweise bei mehreren unterschiedlichen Codierungsschemata der Skalierungsfaktor-Hüllkurve-Darstellung außer DPCM und Huffman verwendet werden, wie beispielsweise ADPCM, LPC und einer Vektorquantisierung. Der vorgeschlagene T/F-Algorithmus ergibt eine erhebliche Bitratenreduzierung für die Spektralhüllkurvendaten.
  • Praktische Implementierungen
  • Ein Beispiel der Codiererseite der Erfindung ist in 6 gezeigt. Das analoge Eingangssignal wird einem A/D-Wandler 601 zugeführt, wobei ein Digitalsignal gebildet wird. Das digitale Audiosignal wird einem Wahrnehmungsaudiocodierer 602 zugeführt, wo ein Quellcodieren durchgeführt wird. Zusätzlich wird das Digitalsignal einem Transientendetektor 603 und einer Analysefilterbank 604 zugeführt, die das Signal in die Spektraläquivalente desselben (Subbandsignale) teilt. Der Transientendetektor könnte an den Subbandsignalen aus der Analysefilterbank wirksam sein, aber für Allgemeinheitszwecke wird hier angenommen, dass derselbe direkt an den digitalen Zeitbereichsabtastwerten wirksam ist. Der Transientendetektor teilt das Signal in Granalien auf und bestimmt gemäß der Erfindung, ob Subgranalien innerhalb der Granalien als transient markiert bzw. geflagt werden sollen. Diese Informationen werden zu dem Hüllkurvengruppierblock 605 gesendet, der das Zeit-/Frequenzgitter spezifiziert, das für die aktuelle Granalie verwendet werden soll. Gemäß dem Gitter kombiniert der Block die einheitlich abgetasteten Subbandsignale, um die nicht-einheitlich abgetasteten Hüllkurvenwerte zu bilden. Als ein Beispiel können diese Werte die durchschnittliche Leistungsdichte der gruppierten Subbandsignale darstellen. Die Hüllkurvenwerte werden zusammen mit den Gruppierungsinformationen dem Hüllkurvencodiererblock 606 zugeführt. Dieser Block entscheidet, in welche Richtung (Zeit oder Frequenz) die Hüllkurvenwerte zu codieren sind. Die resultierenden Signale, der Ausgang von dem Audiocodierer, die Breitbandhüllkurveninformationen und die Steuersignale werden dem Multiplexer 607 zugeführt, wobei ein serieller Bitstrom gebildet wird, der gesendet oder gespeichert wird.
  • Die Decodiererseite der Erfindung ist in 7 gezeigt, wobei eine SBR-Transposition als ein Beispiel einer Erzeugung des fehlenden Restsignals verwendet wird. Der Demultiplexer 701 stellt die Signale wieder her und führt den geeigneten Teil einem Audiodecodierer 702 zu, der ein digitales Tiefbandaudiosignal erzeugt. Die Hüllkurveninformationen werden von dem Demultiplexer dem Hüllkurvendecodierblock 703 zugeführt, der durch eine Verwendung von Steuerdaten bestimmt, in welche Richtung die aktuelle Hüllkurve codiert ist, und die Daten decodiert. Das Tiefbandsignal aus dem Audiodecodierer wird zu dem Transpositionsmodul 704 geführt bzw. geleitet, das ein repliziertes Hochbandsignal aus dem Tiefband erzeugt. Das Hochbandsignal wird einer Analysefilterbank 706 zugeführt, die von dem gleichen Typ wie auf der Codiererseite ist. Die Subbandsignale werden in der Skalierungsfaktorgruppiereinheit 707 kombiniert. Durch eine Verwendung von Steuerdaten aus dem Demultiplexer wird der gleiche Typ einer Kombination und einer Zeit-/Frequenzverteilung der Subbandabtastwerte wie auf der Codiererseite übernommen. Die Hüllkurveninformationen aus dem Demultiplexer und die Informationen aus der Skalierungsfaktorgruppiereinheit werden in dem Gewinnsteuermodul 708 verarbeitet. Das Modul berechnet Gewinnfaktoren, die an die Subbandabtastwerte vor einer Rekombination in dem Synthesefilterbankblock 709 angewendet werden sollen. Der Ausgang aus der Synthesefilterbank ist somit ein Hüllkurveneingestelltes Hochbandaudiosignal. Dieses Signal wird zu dem Ausgangssignal aus der Verzögerungseinheit 705 addiert, der das Tiefbandaudiosignal zugeführt wird. Die Verzögerung kompensiert die Verarbeitungszeit des Hochbandsignals. Schließlich wird das erhaltene digitale Breitbandsignal in dem Digital-zu-Analog-Wandler 710 in ein analoges Audiosignal umgewandelt.

Claims (19)

  1. Ein Verfahren zum Spektralhüllkurvencodieren für ein Eingangssignal, wobei das Eingangssignal eine Bandbreite aufweist, wobei die Bandbreite bestimmte Frequenzregionen umfaßt, wobei das Eingangssignal durch eine quellcodierte Version desselben dargestellt ist, wobei die quellcodierte Version eine Bandbreite aufweist, die nicht die bestimmten Frequenzregionen umfaßt, wobei eine Spektralhüllkurve des Eingangssignals in den bestimmten Frequenzbereichen durch eine grobe Spektralhüllkurvendarstellung und eine feine Spektralhüllkurvendarstellung darstellbar ist, wobei die feine Spektralhüllkurvendarstellung ein Restsignal ist, wobei das Verfahren folgende Schritte aufweist: Durchführen (603) einer statischen Analyse des Eingangssignals; gekennzeichnet durch basierend auf einem Ergebnis der statischen Analyse, Erzeugen (604, 605, 606) von Daten über die grobe Spektralhüllkurvendarstellung für die bestimmten Frequenzregionen durch ein Abtasten der Spektralhüllkurve in den bestimmten Frequenzregionen mit einer variierenden Zeitauflösung oder einer variierenden Frequenzauflösung, wobei eine Zeitauflösung oder eine Frequenzauflösung, die für einen Zeitpunkt ausgewählt ist, von dem Ergebnis der statistischen Analyse des Eingangssignals bei dem Zeitpunkt abhängt; Erzeugen eines Steuersignals, das die variierende Zeitauflösung oder die variierende Frequenzauflösung beschreibt; und Erzeugen (607) eines codierten Eingangssignals durch ein Multiplexen der quellcodierten Version, der Daten über die grobe Spektralhüllkurvendarstellung und des Steuersignals, wobei das codierte Eingangssignal das Restsignal nicht umfaßt.
  2. Verfahren gemäß Anspruch 1, bei dem der Schritt des Erzeugens (604, 605, 606) der Daten über die grobe Hüllkurvendarstellung für die bestimmten Frequenzregionen den Schritt eines Auswählens eines Zeit-/Frequenzauflösungsgitters umfaßt, das für die grobe Spektralhüllkurvendarstellung verwendet werden soll, und bei dem das Steuersignal erzeugt wird, um das Gitter zu beschreiben.
  3. Ein Verfahren gemäß Anspruch 1 oder 2, bei dem der Schritt des Erzeugens der groben Hüllkurveninformationen die folgenden Schritte umfaßt: Erhalten von Elementen einer Zeit-/Frequenzdarstellung des Eingangssignals; Gruppieren von Elementen in der Zeit-/Frequenzdarstellung des Eingangssignals, und Berechnen eines Skalierungsfaktors für jede Gruppe.
  4. Ein Verfahren gemäß Anspruch 3, bei dem der Schritt des Erhaltens den Schritt eines Verwendens einer Filterbank umfaßt.
  5. Ein Verfahren gemäß Anspruch 4, bei dem die Filterbank von einer festen Größe ist.
  6. Ein Verfahren gemäß Anspruch 1, bei dem der Schritt des Erzeugens der Daten über die grobe Spektralhüllkurvendarstellung für die bestimmten Frequenzregionen den Schritt eines Verwendens eines linearen Prädiktors umfaßt.
  7. Ein Verfahren gemäß Anspruch 1, bei dem der Schritt des Durchführens einer statistischen Analyse den Schritt eines Verwendens eines Transientendetektors umfaßt.
  8. Ein Verfahren gemäß Anspruch 1, bei dem der Schritt des Erzeugens der Daten über die grobe Spektralhüllkurvendarstellung den Schritt eines Schattens einer momentanen Auflösung von einer vorgegebenen Kombination einer höheren Frequenzauflösung und einer niedrigeren Zeitauflösung zu einer Kombination einer niedrigeren Frequenzauflösung und einer höheren Zeitauflösung bei dem Aufkommen einer Transiente umfaßt, um die variierende Zeitauflösung und die variierende Frequenzauflösung zu erhalten.
  9. Ein Verfahren gemäß Anspruch 1, bei dem der Schritt des Erzeugens des Steuersignals wirksam ist, um das Steuersignal zu erzeugen, derart, daß das Steuersignal Positionen innerhalb einer Granalie einer konstanten Aktualisierungsrate beschreibt, bei dem der Schritt des Durchführens der statistischen Analyse wirksam ist, um die konstante Aktualisierungsrate anzuwenden, und bei dem der Schritt des Erzeugens (604, 605, 606) von Daten über die grobe Spektralhüllkurvendarstellung wirksam ist, um basierend auf Positionen von Transienten in den Eingangssignalen innerhalb aktueller und benachbarter Granalien durch die Verwendung von einem Codierer und einem Decodierer verfügbaren Regeln eine momentane Auflösung zu wählen.
  10. Ein Verfahren gemäß Anspruch 9, bei dem der Schritt des Erzeugens des Steuersignals wirksam ist, um das Steuersignal zu erzeugen, derart, daß höchstens eine Position pro Granalie signalisiert wird.
  11. Ein Verfahren gemäß Anspruch 1, bei dem der Schritt des Erzeugens (604, 605, 606) von Daten über die grobe Spektralhüllkurvendarstellung wirksam ist, um Granalien variabler Länge zu verwenden.
  12. Ein Verfahren gemäß Anspruch 11, bei dem vier Klassen von Granalien verwendet werden, wobei die erste Klasse Granaliengrenzen mit fester Position und die Länge L aufweist, die zweite Klasse eine Startgrenze mit fester Position und eine Stoppgrenze mit variabler Position aufweist, die dritte Klasse eine Startgrenze mit variabler Position und eine Stoppgrenze mit fester Position aufweist, die vierte Klasse eine Start- und eine Stoppgrenze mit variabler Position aufweist, und die festen Positionen mit Referenzpositionen zusammenfallen, getrennt durch den Abstand L, und wobei die variablen Positionen gegenüber den Referenzpositionen versetzt werden können [–a,b].
  13. Ein Verfahren gemäß Anspruch 3, bei dem der Schritt des Erzeugens (604, 605, 606) von Daten über die grobe Spektralhüllkurvendarstellung ferner den Schritt eines Codierens der Skalierungsfaktoren sowohl in der Zeit- als auch der Frequenzrichtung aufweist, wobei eine momentan vorteilhafteste Richtung bestimmt wird und wo bei die vorteilhafteste Richtung bei dem Schritt des Codierens gewählt wird.
  14. Ein Verfahren gemäß Anspruch 3, bei dem der Schritt des Erzeugens (604, 605, 606) von Daten über die grobe Spektralhüllkurvendarstellung ferner den Schritt eines Codierens der Skalierungsfaktoren sowohl in der Zeit- als auch der Frequenzrichtung aufweist, wobei eine Richtung, die für eine gegebene Anzahl von Bits einen geringsten Codierungsfehler erzeugt, für den Schritt des Codierens gewählt wird.
  15. Ein Verfahren gemäß Anspruch 3, bei dem der Schritt des Erzeugens (604, 605, 606) von Daten über die grobe Spektralhüllkurvendarstellung ferner den Schritt eines Codierens der Skalierungsfaktoren sowohl in der Zeit- als auch der Frequenzrichtung aufweist, wobei eine Richtung, die für einen gegebenen Codierungsfehler die geringste Anzahl von Bits erzeugt, für den Schritt des Codierens gewählt wird.
  16. Ein Verfahren gemäß Anspruch 13, 14 oder 15, bei dem der Schritt des Codierens den Schritt eines Verwendens eines verlustfreien Codierens umfaßt, wobei für die Zeitrichtung und die Frequenzrichtung getrennte Tabellen verwendet werden, wobei ein Ergebnis eines Codierens unter Verwendung der Tabellen zu einem Wählen der Richtung zum Codieren verwendet wird.
  17. Eine Vorrichtung zum Spektralhüllkurvencodieren für ein Eingangssignal, wobei das Eingangssignal eine Bandbreite aufweist, wobei die Bandbreite bestimmte Frequenzregionen umfaßt, wobei das Eingangssignal durch eine quellcodierte Version desselben dargestellt ist, wobei die quellcodierte Version eine Bandbreite aufweist, die nicht die bestimmten Frequenzregionen umfaßt, wobei eine Spektralhüllkurve des Eingangssignals in den bestimmten Frequenzbereichen durch eine grobe Spektralhüllkurvendarstellung und eine feine Spektralhüllkurvendarstellung darstellbar ist, wobei die feine Spektralhüllkurvendarstellung ein Restsignal ist, wobei das Verfahren folgende Schritte aufweist: eine Einrichtung (603) zum Durchführen einer statistischen Analyse des Eingangssignals; gekennzeichnet durch eine Einrichtung zum Erzeugen (604, 605, 606) von Daten, basierend auf einem Ergebnis der statischen Analyse, über der groben Spektralhüllkurvendarstellung für die bestimmten Frequenzregionen durch ein Abtasten der Spektralhüllkurve in den bestimmten Frequenzregionen mit einer variierenden Zeitauflösung oder einer variierenden Frequenzauflösung, wobei eine Zeitauflösung oder eine Frequenzauflösung, die für einen Zeitpunkt ausgewählt ist, von dem Ergebnis der statistischen Analyse des Eingangssignals bei dem Zeitpunkt abhängt; eine Einrichtung zum Erzeugen eines Steuersignals, das die variierende Zeitauflösung oder die variierende Frequenzauflösung beschreibt; und eine Einrichtung zum Erzeugen (607) eines codierten Eingangssignals durch ein Multiplexen der quellcodierten Version, der Daten über die grobe Spektralhüllkurvendarstellung und des Steuersignals, wobei das codierte Eingangssignal das Restsignal nicht umfaßt.
  18. Eine Vorrichtung zum Spektralhüllkurvendecodieren eines codierten Signals, wobei das codierte Signal eine quellcodierte Version eines ursprünglichen Signals umfaßt, wobei das ursprüngliche Signal eine Bandbreite aufweist, die bestimmte Frequenzregionen umfaßt, wobei die quellcodierte Version eine Bandbreite aufweist, die nicht die bestimmten Frequenzregionen umfaßt, wobei das codierte Signal Daten über eine grobe Spektralhüllkurvendarstellung für die bestimmten Frequenzregionen umfaßt, dadurch gekennzeichnet, daß die Daten über die grobe Spektralhüllkurvendarstellung die Spektralhüllkurve mit einer variierenden Zeitauflösung oder einer variierenden Frequenzauflösung darstellen, und wobei das codierte Signal ein Steuersignal umfaßt, das die variierende Zeitauflösung oder die variierende Frequenzauflösung angibt, wobei das quellcodierte Signal nach einem Quelldecodieren (702) in einer decodierten Version des ursprünglichen Signals resultiert, wobei die decodierte Version des ursprünglichen Signals eine Bandbreite aufweist, die nicht die bestimmten Frequenzregionen umfaßt, wobei die Vorrichtung folgende Merkmale aufweist: einen Demultiplexer (701) zum Demultiplexen des codierten Signals, um die quellcodierte Version, die Daten über die grobe Spektralhüllkurvendarstellung und das Steuersignal zu erhalten; eine Einrichtung (704) zum Erzeugen eines spektralbandreplizierten Signals für die bestimmten Frequenzregionen; eine Einrichtung zum Interpretieren des Steuersignals, um die variierende Zeitauflösung oder die variierende Frequenzauflösung zu bestimmen; eine Einrichtung (708, 709) zum Hüllkurveneinstellen des spektralbandreplizierten Signals unter Verwendung der Daten über die groben Spektralhüllkurveninformationen und der variierenden Zeitauflösung oder der variierenden Frequenzauflösung; und eine Einrichtung zum Addieren des hüllkurveneingestellten Signals und der decodierten Version des ur sprünglichen Signals, um ein decodiertes Signal zu erhalten, das eine Bandbreite aufweist, die die bestimmten Frequenzregionen umfaßt.
  19. Ein Verfahren zum Spektralhüllkurvendecodieren eines codierten Signals, wobei das codierte Signal eine quellcodierte Version eines ursprünglichen Signals umfaßt, wobei das ursprüngliche Signal eine Bandbreite aufweist, die bestimmte Frequenzregionen umfaßt, wobei die quellcodierte Version eine Bandbreite aufweist, die nicht die bestimmten Frequenzregionen umfaßt, wobei das codierte Signal Daten über eine grobe Spektralhüllkurvendarstellung für die bestimmten Frequenzregionen umfaßt, dadurch gekennzeichnet, daß die Daten über die grobe Spektralhüllkurvendarstellung die Spektralhüllkurve mit einer variierenden Zeitauflösung oder einer variierenden Frequenzauflösung darstellen, wobei das codierte Signal ein Steuersignalumfaßt, das die variierende Zeitauflösung oder die variierende Frequenzauflösung angibt, wobei das quellcodierte Signal nach einem Quelldecodieren (702) in einer decodierten Version des ursprünglichen Signals resultiert, wobei die decodierte Version des ursprünglichen Signals eine Bandbreite aufweist, die nicht die bestimmten Frequenzregionen umfaßt, wobei das Verfahren folgende Schritte aufweist: Demultiplexen (701) des codierten Signals, um die quellcodierte Version, die Daten über die grobe Spektralhüllkurvendarstellung und das Steuersignal zu erhalten; Erzeugen (704) eines spektralbandreplizierten Signals für die bestimmten Frequenzregionen; Interpretieren (703) des Steuersignals, um die variierende Zeitauflösung oder die variierende Frequenzauflösung zu bestimmen; Hüllkurveneinstellen (708, 709) des spektralbandreplizierten Signals unter Verwendung der Daten über die groben Spektralhüllkurveninformationen und der variierenden Zeitauflösung oder der variierenden Frequenzauflösung; und Addieren des hüllkurveneingestellten Signals und der decodierten Version des ursprünglichen Signals, um ein decodiertes Signal zu erhalten, das eine Bandbreite aufweist, die die bestimmten Frequenzregionen umfaßt.
DE60012198T 1999-10-01 2000-09-29 Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung Expired - Lifetime DE60012198T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
SE9903552 1999-10-01
SE9903552A SE9903552D0 (sv) 1999-01-27 1999-10-01 Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching
WOPCT/SE00/00158 2000-01-26
PCT/SE2000/000158 WO2000045378A2 (en) 1999-01-27 2000-01-26 Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
PCT/SE2000/001887 WO2001026095A1 (en) 1999-10-01 2000-09-29 Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching

Publications (2)

Publication Number Publication Date
DE60012198D1 DE60012198D1 (de) 2004-08-19
DE60012198T2 true DE60012198T2 (de) 2005-08-18

Family

ID=20417226

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60012198T Expired - Lifetime DE60012198T2 (de) 1999-10-01 2000-09-29 Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung

Country Status (14)

Country Link
US (3) US6978236B1 (de)
EP (1) EP1216474B1 (de)
JP (3) JP4035631B2 (de)
CN (1) CN1172293C (de)
AT (1) ATE271250T1 (de)
AU (1) AU7821200A (de)
BR (1) BRPI0014642B1 (de)
DE (1) DE60012198T2 (de)
DK (1) DK1216474T3 (de)
ES (1) ES2223591T3 (de)
HK (1) HK1049401B (de)
PT (1) PT1216474E (de)
RU (1) RU2236046C2 (de)
WO (1) WO2001026095A1 (de)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
WO2002058052A1 (en) * 2001-01-19 2002-07-25 Koninklijke Philips Electronics N.V. Wideband signal transmission system
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
JP3469567B2 (ja) * 2001-09-03 2003-11-25 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
EP1423847B1 (de) * 2001-11-29 2005-02-02 Coding Technologies AB Wiederherstellung von hochfrequenzkomponenten
KR100949232B1 (ko) 2002-01-30 2010-03-24 파나소닉 주식회사 인코딩 장치, 디코딩 장치 및 그 방법
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7536305B2 (en) 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7328150B2 (en) * 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
CN101800049B (zh) * 2003-09-16 2012-05-23 松下电器产业株式会社 编码装置和译码装置
DE602004030594D1 (de) 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
WO2005043511A1 (en) * 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
US7587313B2 (en) * 2004-03-17 2009-09-08 Koninklijke Philips Electronics N.V. Audio coding
JP4741476B2 (ja) 2004-04-23 2011-08-03 パナソニック株式会社 符号化装置
JP2008503766A (ja) * 2004-06-21 2008-02-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオエンコードの方法
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
JP5046654B2 (ja) * 2005-01-14 2012-10-10 パナソニック株式会社 スケーラブル復号装置及びスケーラブル復号方法
US7991610B2 (en) * 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
US20060235683A1 (en) 2005-04-13 2006-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Lossless encoding of information with guaranteed maximum bitrate
US7788106B2 (en) * 2005-04-13 2010-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Entropy coding with compact codebooks
CA2574468C (en) * 2005-04-28 2014-01-14 Siemens Aktiengesellschaft Noise suppression process and device
EP1742509B1 (de) * 2005-07-08 2013-08-14 Oticon A/S Vorrichtung und Verfahren zum Eliminieren von Feedback-Rauschen in einem Hörgerät
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US8473298B2 (en) * 2005-11-01 2013-06-25 Apple Inc. Pre-resampling to achieve continuously variable analysis time/frequency resolution
JP4876574B2 (ja) 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
EP2040252A4 (de) 2006-07-07 2013-01-09 Nec Corp Audiokodierungseinrichtung, audiokodierungsverfahren und programm dafür
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
CN101523486B (zh) * 2006-10-10 2013-08-14 高通股份有限公司 用于编码和解码音频信号的方法和设备
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US8126721B2 (en) * 2006-10-18 2012-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8041578B2 (en) 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
US8295507B2 (en) 2006-11-09 2012-10-23 Sony Corporation Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium
JP5141180B2 (ja) 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
JP4967618B2 (ja) * 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
WO2008114080A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation Audio decoding
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
US8788264B2 (en) * 2007-06-27 2014-07-22 Nec Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
CN103594090B (zh) * 2007-08-27 2017-10-10 爱立信电话股份有限公司 使用时间分辨率能选择的低复杂性频谱分析/合成
ES2619277T3 (es) * 2007-08-27 2017-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Detector de transitorio y método para soportar la codificación de una señal de audio
CN101471072B (zh) * 2007-12-27 2012-01-25 华为技术有限公司 高频重建方法、编码装置和解码装置
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
EP2242047B1 (de) * 2008-01-09 2017-03-15 LG Electronics Inc. Verfahren und vorrichtung zur identifizierung von rahmentypen
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
EP2293294B1 (de) * 2008-03-10 2019-07-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Vorrichtung und Verfahren zur Manipulation eines Audiosignals mit einem Vorübergehenden Ereignis
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
RU2494477C2 (ru) * 2008-07-11 2013-09-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ генерирования выходных данных расширения полосы пропускания
JP5244971B2 (ja) * 2008-07-11 2013-07-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号合成器及びオーディオ信号符号器
MX2011000370A (es) 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
US8326640B2 (en) * 2008-08-26 2012-12-04 Broadcom Corporation Method and system for multi-band amplitude estimation and gain control in an audio CODEC
JP5555707B2 (ja) * 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
CN101751926B (zh) * 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
EP2360687A4 (de) * 2008-12-19 2012-07-11 Fujitsu Ltd Sprachbanderweiterungseinrichtung und sprachbanderweiterungsverfahren
CA3231911A1 (en) 2009-01-16 2010-07-22 Dolby International Ab Cross product enhanced harmonic transposition
RU2542668C2 (ru) * 2009-01-28 2015-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Звуковое кодирующее устройство, звуковой декодер, кодированная звуковая информация, способы кодирования и декодирования звукового сигнала и компьютерная программа
EP2214165A3 (de) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Änderung eines Audiosignals mit einem Transientenereignis
WO2010102446A1 (zh) 2009-03-11 2010-09-16 华为技术有限公司 一种线性预测分析方法、装置及系统
BR122019023947B1 (pt) 2009-03-17 2021-04-06 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN101866649B (zh) * 2009-04-15 2012-04-04 华为技术有限公司 语音编码处理方法与装置、语音解码处理方法与装置、通信系统
WO2011047887A1 (en) 2009-10-21 2011-04-28 Dolby International Ab Oversampling in a combined transposer filter bank
US11657788B2 (en) 2009-05-27 2023-05-23 Dolby International Ab Efficient combined harmonic transposition
TWI484481B (zh) 2009-05-27 2015-05-11 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
EP2273493B1 (de) * 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandbreitenerweiterungscodierung und -decodierung
US9105300B2 (en) 2009-10-19 2015-08-11 Dolby International Ab Metadata time marking information for indicating a section of an audio object
MY160807A (en) 2009-10-20 2017-03-31 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Audio encoder,audio decoder,method for encoding an audio information,method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values
TWI484473B (zh) 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
TWI476757B (zh) * 2010-01-12 2015-03-11 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、用以將音訊資訊編碼及解碼之方法、以及基於先前解碼頻譜值之範數來獲取脈絡子區值之電腦程式
EP2372704A1 (de) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signalprozessor und Verfahren zur Verarbeitung eines Signals
JP5850216B2 (ja) * 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101501664B1 (ko) * 2010-08-25 2015-03-12 인디안 인스티투트 오브 싸이언스 비균일하게 이격된 주파수에서 유한 길이 시퀀스의 스펙트럼 샘플 결정
WO2012037515A1 (en) * 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
JP5707842B2 (ja) * 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP5633431B2 (ja) 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122297A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
CN106941003B (zh) 2011-10-21 2021-01-26 三星电子株式会社 能量无损编码方法和设备以及能量无损解码方法和设备
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
EP2717261A1 (de) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codierer, Decodierer und Verfahren für rückwärtskompatibles Spatial-Audio-Object-Coding mit mehreren Auflösungen
PL2951815T3 (pl) 2013-01-29 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodery audio, dekodery audio, systemy, sposoby i programy komputerowe wykorzystujące zwiększoną rozdzielczość czasową w otoczeniu czasowym początków lub końców spółgłosek szczelinowych lub spółgłosek zwarto-szczelinowych
CA3029037C (en) 2013-04-05 2021-12-28 Dolby International Ab Audio encoder and decoder
EP2985762A4 (de) * 2013-04-11 2016-11-23 Nec Corp Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und signalverarbeitungsprogramm
WO2014185569A1 (ko) 2013-05-15 2014-11-20 삼성전자 주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
RU2660633C2 (ru) * 2013-06-10 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем разделения огибающей аудиосигнала с использованием квантования и кодирования распределения
PL3008726T3 (pl) 2013-06-10 2018-01-31 Fraunhofer Ges Forschung Urządzenie i sposób kodowania obwiedni sygnału audio, przetwarzania i dekodowania przez modelowanie reprezentacji sumy skumulowanej z zastosowaniem kwantyzacji i kodowania rozkładu
EP2830058A1 (de) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequenzbereichsaudiocodierung mit Unterstützung von Transformationslängenschaltung
EP2830054A1 (de) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierer, Audiodecodierer und zugehörige Verfahren unter Verwendung von Zweikanalverarbeitung in einem intelligenten Lückenfüllkontext
EP2830055A1 (de) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kontextbasierte Entropiecodierung von Probenwerten einer spektralen Hüllkurve
CN110767241B (zh) * 2013-10-18 2023-04-21 瑞典爱立信有限公司 谱峰位置的编码与解码
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
CN106030693A (zh) 2014-02-18 2016-10-12 杜比国际公司 从音频比特流估计节奏度量
GB2528460B (en) * 2014-07-21 2018-05-30 Gurulogic Microsystems Oy Encoder, decoder and method
EP3182412B1 (de) * 2014-08-15 2023-06-07 Samsung Electronics Co., Ltd. Tonqualitätverbesserungsverfahren und -vorrichtung, tondecodierungsverfahren und -vorrichtung und multimediavorrichtung damit
CN105261373B (zh) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
CN105280190B (zh) * 2015-09-16 2018-11-23 深圳广晟信源技术有限公司 带宽扩展编码和解码方法以及装置
JP6763194B2 (ja) * 2016-05-10 2020-09-30 株式会社Jvcケンウッド 符号化装置、復号装置、通信システム
EP3382700A1 (de) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur nachbearbeitung eines audiosignals mit transienten-positionserkennung
JP7257975B2 (ja) * 2017-07-03 2023-04-14 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
CN108828427B (zh) * 2018-03-19 2020-10-27 深圳市共进电子股份有限公司 信号完整性测试的判据查找方法、装置、设备及存储介质
CN111210832A (zh) * 2018-11-22 2020-05-29 广州广晟数码技术有限公司 基于频谱包络模板的带宽扩展音频编解码方法及装置
CN113571073A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种线性预测编码参数的编码方法和编码装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6439897A (en) 1987-08-06 1989-02-10 Canon Kk Communication control unit
DE69127842T2 (de) * 1990-03-09 1998-01-29 At & T Corp Hybride wahrnehmungsgebundene Kodierung von Audiosignalen
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3144009B2 (ja) 1991-12-24 2001-03-07 日本電気株式会社 音声符号復号化装置
JP3088580B2 (ja) * 1993-02-19 2000-09-18 松下電器産業株式会社 変換符号化装置のブロックサイズ決定法
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3277692B2 (ja) 1994-06-13 2002-04-22 ソニー株式会社 情報符号化方法、情報復号化方法及び情報記録媒体
US6141353A (en) * 1994-09-15 2000-10-31 Oki Telecom, Inc. Subsequent frame variable data rate indication method for various variable data rate systems
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5852806A (en) 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JP3464371B2 (ja) 1996-11-15 2003-11-10 ノキア モービル フォーンズ リミテッド 不連続伝送中に快適雑音を発生させる改善された方法
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
EP0878790A1 (de) 1997-05-15 1998-11-18 Hewlett-Packard Company Sprachkodiersystem und Verfahren
KR100330196B1 (ko) * 1997-05-16 2002-03-28 다치카와 게이지 가변길이 프레임 전송방법과 전송장치 및 수신장치
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP4216364B2 (ja) 1997-08-29 2009-01-28 株式会社東芝 音声符号化/復号化方法および音声信号の成分分離方法
DE19747132C2 (de) 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
JP2000221988A (ja) * 1999-01-29 2000-08-11 Sony Corp データ処理装置、データ処理方法、プログラム提供媒体及び記録媒体
US6658382B1 (en) * 1999-03-23 2003-12-02 Nippon Telegraph And Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals

Also Published As

Publication number Publication date
JP4334526B2 (ja) 2009-09-30
DE60012198D1 (de) 2004-08-19
US6978236B1 (en) 2005-12-20
RU2236046C2 (ru) 2004-09-10
HK1049401B (zh) 2005-11-18
JP4628921B2 (ja) 2011-02-09
JP2006031053A (ja) 2006-02-02
CN1172293C (zh) 2004-10-20
BRPI0014642B1 (pt) 2016-04-26
PT1216474E (pt) 2004-11-30
ES2223591T3 (es) 2005-03-01
HK1049401A1 (en) 2003-05-09
CN1377499A (zh) 2002-10-30
US20060031064A1 (en) 2006-02-09
JP4035631B2 (ja) 2008-01-23
BR0014642A (pt) 2002-06-18
JP2003529787A (ja) 2003-10-07
JP2006065342A (ja) 2006-03-09
US7181389B2 (en) 2007-02-20
ATE271250T1 (de) 2004-07-15
US20060031065A1 (en) 2006-02-09
EP1216474B1 (de) 2004-07-14
US7191121B2 (en) 2007-03-13
EP1216474A1 (de) 2002-06-26
WO2001026095A1 (en) 2001-04-12
AU7821200A (en) 2001-05-10
DK1216474T3 (da) 2004-10-04

Similar Documents

Publication Publication Date Title
DE60012198T2 (de) Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69821089T2 (de) Verbesserung von quellenkodierung unter verwendung von spektralbandreplikation
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE69531642T2 (de) Synthese eines Anregungssignals bei Ausfall von Datenrahmen oder Verlust von Datenpaketen
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE19730130C2 (de) Verfahren zum Codieren eines Audiosignals
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE60120766T2 (de) Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE60316396T2 (de) Interoperable Sprachkodierung
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
DE69923555T2 (de) Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals
DE60012760T2 (de) Multimodaler sprachkodierer
DE602004005784T2 (de) Verbesserte Anregung für Höherband-Kodierung in einem Codec basierend auf Frequenzbandtrennungs-Kodierungsverfahren
DE60128479T2 (de) Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
R082 Change of representative

Ref document number: 1216474

Country of ref document: EP

Representative=s name: SCHOPPE, ZIMMERMANN, STOECKELER, ZINKLER & PARTNER