DE60308336T2 - Verfahren und system zur messung der übertragungsqualität eines systems - Google Patents

Verfahren und system zur messung der übertragungsqualität eines systems Download PDF

Info

Publication number
DE60308336T2
DE60308336T2 DE60308336T DE60308336T DE60308336T2 DE 60308336 T2 DE60308336 T2 DE 60308336T2 DE 60308336 T DE60308336 T DE 60308336T DE 60308336 T DE60308336 T DE 60308336T DE 60308336 T2 DE60308336 T2 DE 60308336T2
Authority
DE
Germany
Prior art keywords
signal
equal
input
input signal
audio system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60308336T
Other languages
English (en)
Other versions
DE60308336D1 (de
Inventor
Gerard John BEERENDDS
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke KPN NV
Original Assignee
Koninklijke KPN NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP02075973A external-priority patent/EP1343145A1/de
Application filed by Koninklijke KPN NV filed Critical Koninklijke KPN NV
Publication of DE60308336D1 publication Critical patent/DE60308336D1/de
Application granted granted Critical
Publication of DE60308336T2 publication Critical patent/DE60308336T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Description

  • Technisches Gebiet der Erfindung
  • Die Erfindung betrifft ein Verfahren und ein System zur Messung der Übertragungsqualität eines im Test befindlichen Systems, wobei ein Eingangs-Signal, welches in das Testsystem eingegeben wurde, in ein Ausgangs-Signal, welches aus dem Testsystem resultiert, verarbeitet und miteinander verglichen werden.
  • Technischer Hintergrund der Erfindung
  • Der Vorschlag der ITU-T Empfehlung P.862, „Telephone transmission quality, telephone installations, local line networks-Methods for objective and subjective assessment of quality – Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs", ITU-T 02.2001, beschreibt PESQ-Verfahren und Systeme des Standes der Technik (PESQ = Wahrnehmungs-Bestimmung der Sprach-Qualität).
  • Die Messung der Qualität von Audio-Signalen, die bei der Audio-Verarbeitung oder in Übertragungs-Systemen verschlechtert wurden, kann schlechte Ergebnisse für sehr schwache oder stille Abschnitte in dem Eingangs-Signal hervorbringen. Die Verfahren und Systeme, die aus der Empfehlung P.862 bekannt sind, haben den Nachteil, dass sie nicht für Unterschiede in den Leistungsniveaus eines Rahmens auf der Rahmenbasis korrekt kompensieren. Diese Unterschiede werden wiederum durch Verstärkungs-Änderungen oder Rauschen in dem Eingangs-Signal bewirkt. Die nicht korrekte Kompensierung führt zu geringen Korrelationen zwischen subjektiven und objektiven Werten, insbesondere, wenn das originale Referenz-Eingangs-Sprachsignal geringe Niveaus an Geräuschen ent hält.
  • Gemäss einem Verfahren und System nach dem Stand der Technik, welches in der europäischen Patentanmeldung EP 01 200 945 (Veröffentlichungs-Nummer EP 1 241 663 A1 ) beschrieben worden ist, können Verbesserungen dadurch erreicht werden, dass zuerst ein Skalier-Schritt in einem Vorverarbeitungsschritt mit einem ersten Skalierfaktor angewandt wird, welcher eine Funktion des Reziprok-Wertes der Leistung des Ausgangs-Signals ist, verstärkt durch einen Einstellungswert. Ein zweiter Skalier-Schritt wird dann mit einem zweiten Skalier-Faktor angewandt, der im Wesentlichen gleich zu dem ersten Skalierfaktor ist, welcher mit einem Exponenten potenziert wird, welcher einen Einfüllungswert zwischen Null und Eins hat. Der zweite Skalier-Schritt kann an verschiedenen Orten in der Vorrichtung ausgeführt werden, während die Einstellungswerte unter Einsatz von Testsignalen mit wohldefinierten subjektiven Qualitätswerten eingestellt werden.
  • In den Verfahren und Systemen von sowohl der Empfehlung P.862 als auch der EP 01 200 945 wird das verschlechterte Ausgangs-Signal lokal skaliert, um das Referenz-Eingangs-Signal in dem Leistungsbereich anzupassen.
  • Es ist dabei gefunden worden, dass die Ergebnisse der „wahrgenommenen" Qualitätsmessungs-Verfahren durch Anwendung eines „Weich-Skalierens" in zumindest einer Stufe des Verfahrens beziehungsweise Systems verbessert werden können. Die Einführung einer „Weich-Skalierung" anstelle einer „Hart-Skalierung" (wobei „hart-skalierte" Schwellwerte verwendet werden), basiert auf der Betrachtung und dem Verständnis, dass, da das Gebiet der Erfindung sich auf die Feststellung von Audio-Qualität durch erfahrene menschliche Benutzer bezogen ist, menschliche Audio-Wahrnehmungs-Mechanismen eher „weiche" Schwellwerte als „harte" Schwellwerte einsetzen. Basierend auf dieser Betrachtung und einem besseren Verständnis, wie menschliche Audio-Skalier-Mechanismen arbeiten, stellt die vorliegende Erfindung solche „weiche" Skalier-Mechanismen vor, die in das Verfahren oder das System nach dem Stand der Technik hinzugefügt, beziehungsweise eingefügt werden.
  • Das Dokument „Perceptual Evaluation of Speech Quality (PESQ), the new ITU standard for end-to-end speech quality assessment. Part II-Psychoacoustic model" durch J.G. Beerends, A.P. Hekstra, A.W. Rix und M.P. Hollier, www.psytechnics.com/papers, Juni 2001, Seiten 1–27, beschreibt das PESQ-Verfahren, wie oben erwähnt. Eine Stördichte wird aus dem verzerrten und den originalen Lautstärke-Dichten abgeleitet. Dieses Verfahren benutzt „harte" Skalier-Schwellwerte.
  • Das Dokument „Perceptual Evaluation of Speech Quality (PESQ), a new method for speech quality assessment of telephone networks and codecs" durch A.W. Rix et al., IEEE International Conference on Acoustics, Speech and Signal Processing, Proceedings (Kat. Nr. 01CH37221), Band 2, 7.–11. Mai 2001, Seiten 749–752, beschreibt auch das PESQ-Verfahren und offenbart im Wesentlichen dieselbe Offenbarung wie das vorgenannte Papier.
  • Das Dokument „Perceptual Evaluation of Speech Quality (PESQ), the new ITU standard for end-to-end speech quality assessment. Part I-Time alignment" durch J.G. Beerends, A.P. Hekstra, A.W. Rix und M.P. Hollier, www.psytechnics.com/papers, Juni 2001, Seiten 1–9, liefert eine Diskussion der Zeitanordnungs-Aspekte der PESQ.
  • Zusammenfassung der Erfindung
  • Die Erfindung ist in den unabhängigen Ansprüchen 1, 2, 4, 5, 6, 8 de finiert. Gemäss einem Aspekt der Erfindung wird das Ausgangssignal und/oder das Eingangssignal eines Systems skaliert, in einer Weise, dass kleine Abweichungen von der Leistung kompensiert werden, während grössere Abweichungen partiell in einer weise kompensiert werden, die auf dem Leistungsverhältnis beruht.
  • Gemäss einer weiteren Ausarbeitung der Erfindung kann ein künstliches Sprachreferenzsignal erzeugt werden, für das Geräuschniveaus, wie sie in dem ursprünglichen Eingangssprachsignal vorhanden gewesen sind, durch einen Skalierfaktor abgesenkt werden, der auf dem lokalen Niveau des Geräusches an diesem Eingang abhängt.
  • Das Ergebnis dieser erfinderischen Massnahme ist eine korrektere Vorhersage der subjektiv wahrgenommenen Ende-zuEnde-Sprachqualität für Sprachsignale, die Veränderungen in der lokalen Skalierung aufweisen, insbesondere in dem Fall, in dem ruhige Sprachanteile und Stille durch geringe Geräuschniveaus verschlechtert werden.
  • In dem Algorithmus zur weichen Skalierung werden zwei unterschiedliche Typen von Signalverarbeitung eingesetzt, um die Korrelation zwischen subjektiv wahrgenommener Qualität und objektiv gemessener Qualität zu verbessern.
  • In der ersten weich skalierenden Verarbeitung, gesteuert durch einen ersten Unteralgorithmus, wird die Kompensation, wie sie in der Empfehlung P.862 eingesetzt wird, um lokale Gewinnveränderungen im Ausgangssignal zu korrigieren, durch Skalieren des Ausgangs (oder des Eingangs) in solch einer Weise verbessert, dass kleine Abweichungen der Leistung kompensiert werden (vorzugsweise je Zeitrahmen oder Dauer), während grössere Abweichungen partiell kompensiert werden, abhängig von dem Leistungsver hältnis.
  • Eine bevorzugte einfache und wirksame Implementierung nimmt die lokalen Leistungen, d.h. die Leistung in jedem Rahmen (von beispielsweise 30 Millisekunden) und berechnet ein lokales Kompensationsverhältnis F: F = (PX + Δ)/(PY + Δ) *),wobei F die an den Niveaus mm und MM abgeschnittene Amplitude ist, um ein abgeschnittenes Verhältnis C zu erhalten: C = mm wann immer F < mm ≤ 1.0und C = MM wann immer F > MM ≥ 1.0während ansonsten C = Fist.
    • *) „Δ" wird eingesetzt, um den Wert für C für kleine Werte von PY zu optimieren.
  • Das abgeschnittene Verhältnis C wird dann eingesetzt, um ein weich skaliertes Verhältnis S durch Einsatz von Faktoren m und M zu berechnen, wobei mm < m ≤ 1.0 und MM > M ≥ 1.0 ist: S = Ca + C – C(m)a-1 wann immer C < m mit 0.5 < a < 1.0und S = Ca + C – C(M)a-1 wann immer C > M mit 0.5 < a < 1.0während ansonsten S = Cist.
    • "a" kann als ein (erster) Einstellungsparameter eingesetzt werden.
  • In dieser Art und Weise ist die lokale Skalierung in der vorliegenden Erfindung äquivalent zur Skalierung, wie sie in der Empfehlung P.862 und EP 01 200 945 als Dokumente des Standes der Technik gegeben worden ist, solange m ≤ F ≤ M. Für Werte von F < m oder F > M weicht die Skalierung progressiv von 1.0 ab, wie sie im Stand der Technik vorgegeben worden ist. Der Weichskalierfaktor S wird in der selben Art und Weise wie F in den Verfahren und Systemen des Standes der Technik eingesetzt, um die Ausgangsleistung in jedem Rahmen lokal zu kompensieren.
  • Bei der zweiten weichskalierenden Verarbeitung, gesteuert durch einen zweiten Unteralgorithmus, wird die Kompensation auf Geringniveauanteile des Eingangssignals fokussiert.
  • Wenn das Eingangssignal (Referenzsignal) geringe Niveaus an Geräusch enthält, wird ein transparentes Sprachtransportsystem ein Ausgangssprachsignal ergeben, das auch nur geringe Geräuschniveaus enthält. Der Ausgang des Sprachtransportsystems wird dann beurteilt, dass er auf der Basis des durch das Transportsystem eingeführte Geräusch eine geringere Qualität als erwartet hat. Man würde nur sich der Tatsache bewusst sein, dass das Geräusch nicht durch das Transportsystem bewirkt wird, wenn man dem Eingangssprachsignal zuhören könnte und einen Vergleich anstellen würde. Jedoch wird die Eingangsreferenz in den meisten subjektiven Sprachqualitätstests nicht dem getesteten Subjekt vorgelegt und dementsprechend beurteilt dieses Subjekt geringe Geräuschniveauunterschiede im Eingangssignal als Qualitätsunterschiede des Sprachtransportsystems. Um hohe Korrelationen zu erhalten, in objektiven Testsystemen, mit subjektiven Tests, hat dieser Effekt in einem fortgeschrittenen objektiven Sprachqualitätsbewertungsalgorithmus emuliert zu werden.
  • Die vorliegende bevorzugte Option der Erfindung emuliert dies durch das effektive Kreieren eines neuen, virtuellen, künstlichen Sprachreferenzsignals in dem Leistungsdarstellungsbereich, für den die Geräuschleistungsniveaus durch einen Skalierfaktor vermindert werden, der von dem lokalen Niveau des Geräusches in dem Eingangssignal abhängen. Daher konvergiert das neu erzeugte künstliche Referenzsignal schneller zu Null als das originale Eingangssignal für geringe Niveaus dieses Eingangssignals. Wenn die Störungen in dem verschlechterten Ausgangssignal während geringen Niveausignalanteilen berechnet werden, wie diese in dem Referenzeingangssignal vorliegen, führt die Differenzberechnung in dem inneren Darstellungslautstärkebereich nach der Skalierung des Eingangslautsprechersignals zu einem Niveau, welche schneller zu Null geführt wird als die Lautstärke des Eingangssignals, wenn dieser sich Null annähert.
  • Gemäss dem Verfahren nach dem Stand der Technik, wie es in der EP 01 200 945 beschrieben worden ist, impliziert die Verarbeitung das Abbilden des (verschlechterten) Ausgangssignals (Y(t)) und des Referenzsignals (X(t)) auf die Darstellungssignale LY und LX gemäss einem psychophysikalischen Wahrnehmungsmodell des menschlichen Hörsystems. Ein Differenz- oder Störsignal (D) wird durch „Differenziermittel" von jenen Repräsentationssignalen bestimmt, wobei das Störsignal dann durch Modelliermittel in Übereinstimmung mit einem kognitiven Modell verarbeitet wird, in welchem bestimmte Eigenschaften von menschlichen Testpersonen modelliert worden sind, um das Qualitätssignal Q zu erhalten.
  • Wie oben gesagt, ist die Differenzberechnung in dem internen Darstellungslautstärkebereich innerhalb des Rahmens der vorliegenden Erfindung vorzugsweise ausgeführt nach der Skalierung des Eingangslautstärkesignals auf ein Niveau, welches schneller auf Null zugeht, als die Lautstärke des Eingangssignals auf Null zu geht.
  • Eine effektive Implementierung hiervon wird erreicht durch Einsatz der Differenz der internen Darstellung in der Zeit-Frequenz-Ebene, berechnet aus LX(f)n und LY(f)n, siehe EP 01 200 945 , wie D(f)n = |LY(f)n – LX(f)n|und durch dies ersetzt wird: D(f)n = |LY(f)n – H(t, f)|mit H(t, f) = LX(f)nb/Kb-1 für alle LX(f)n < Kund H(t, f) = LX(f)n für alle LX(f)n ≥ K
  • In dieser Formel ist b > 1, während K das Niedrigniveaugeräuschleistungskriterium pro Zeitfrequenzzelle darstellt, abhängig von der spezifischen Implementierung.
  • Dieser zweite weichskalierende Verarbeitungs-Unteralgorithmus kann auch implementiert werden durch Ersetzen des LX(f)n < K Kriteriums durch ein Leistungskriterium in einem einzelnen Zeitrahmen, d.h.: D(f)n = |LY(f)n – H(t, f)|mit H(t, f) = LX(f)nb/Kb-1 für alle LX(f) < K'und H(t, f) = LX(f)n für alle LX(t) ≥ K'
  • In dieser Formel ist b > 1, während K' das Niedrigniveaugeräuschleistungskriterium je Zeitrahmen darstellt, welches von der spezifischen Implementierung abhängt.
  • Kurze Beschreibung der Zeichnungen
  • 1 zeigt schematisch ein PESQ-System nach dem Stand der Technik, wie es in der ITU-T Empfehlung P.862 beschrieben worden ist.
  • 2 zeigt dasselbe PESQ-System, welches modifiziert worden ist, um das Verfahren wie oben beschrieben durch Einsatz eines ersten und vorzugsweise eines zweiten neuen Moduls auszuführen.
  • 3 zeigt das erste neue Modul des PESQ-Systems.
  • 4 zeigt das zweite neue Modul des PESQ-Systems.
  • Detaillierte Beschreibung der Zeichnungen
  • Das PESQ-System, welches in der 1 dargestellt wird, vergleicht ein ursprüngliches Signal (Eingangs-Signal) X(t) mit einem verschlechterten Signal (Ausgangssignal) Y(t), welches das Ergebnis des Hindurchführens von X(t) durch beispielsweise ein Kommunikationssystem ist. Der Ausgang des PESQ-Systems ist eine Vorhersage der wahrgenommenen Qualität, die Y(t) durch Subjekte in einem subjektiven Hörtest gegeben würden.
  • In dem ersten Schritt, welcher von dem PESQ-System ausgeführt wird, wird eine Abfolge von Verzögerungen zwischen dem ursprünglichen Eingangs- und dem verschlechterten Ausgangssignal berechnet, eine für jedes Zeitintervall, von denen sich die Verzögerung in wesentlicher Weise von dem vorausgehenden Zeitintervall unterscheidet. Für jedes dieser Intervalle wird ein entsprechender Start- und Stopp-Punkt berechnet. Der Ausrichtungs-Algorithmus basiert auf dem Prinzip des Vergleichs des Vertrauens, dass zwei Verzögerungen in einem bestimmten Zeitintervall auftreten mit dem Vertrauen, eine einzige Verzögerung für dieses Intervall zu haben. Der Algorithmus kann Verzögerungs-Änderungen sowohl während stiller Teile als auch während aktiver Sprachteile behandeln.
  • Basierend auf dem Satz von Verzögerungen, die aufgefunden worden sind, vergleicht das PESQ-System das ursprüngliche (Eingangs-) Signal mit dem ausgerichteten verschlechterten Ausgang der im Test stehenden Vorrichtung unter einem Wahrnehmungsmodell. Der Schlüssel zu diesem Verfahren ist die Transformation von sowohl dem ursprünglichen als auch dem verschlechterten Signal auf interne Repräsentationen (LX, LY), analog zu der psychophysikalischen Darstellung der Audiosignale in dem menschlichen Hörsystem, unter Aufnahme der Wahrnehmungsfrequenz (Bark) und Lautstärke (Sone). Dies wird in verschiedenen Stufen erreicht: Zeitausrichtung, Niveauausrichtung auf ein kalibriertes Hörniveau, Zeit-Frequenz Abbildung, Frequenz-Warping, und kompressive Lautstärken-Skalierung.
  • Die interne Darstellung wird verarbeitet, um Effekte zu berücksichtigen, wie lokale Gewinnveränderungen und Linear-Filterungen, die, falls sie nicht zu stark sind, wenig Wahrnehmungs-Einfluss haben. Dies wird erreicht durch das Begrenzen der Menge der Kompensation und dass die Kompensation hinter dem Effekt hinterherhinkt. Somit werden geringe, stationäre Unterschiede zwischen dem Original und der Verschlechterung kompensiert. Schwerere Effekte oder schnelle Variationen werden dagegen nur teilweise kompensiert, so dass ein residueller Effekt verbleibt und zu der gesamthaft wahrgenommenen Störung beiträgt. Dies gestattet, dass eine kleine Anzahl von Qualitätshinweisen eingesetzt wird, um alle subjektiven Effekte zu modellieren. In dem PESQ-System werden zwei Fehler-Parameter in dem Wahrnehmungsmodell berechnet; diese werden kombiniert, um einen objektiven Hörqualität-MOS (Mean Opinion Score = Mittlerer Meinungswert) zu ergeben. Die Basis-Ideen, die in dem PESQ-System eingesetzt werden, sind in den Druckschriften zum Stand der Technik [1] bis [5] beschrieben.
  • Das Wahrnehmungsmodell in dem PESQ-System nach dem Stand der Technik
  • Das Wahrnehmungssystems des PESQ-Systems, wie es in der 1 dargestellt ist, wird eingesetzt, um einen Abstand zwischen dem ursprünglichen und dem verschlechterten Sprachsignal zu berechnen („PESQ-Wert"). Dieser kann durch eine monotone Funktion hindurchlaufen, um eine Vorhersage eines subjektiven MOS für einen gegebenen subjektiven Test zu erhalten. Der PESQ-Wert wird auf einer MOS-artigen Skala abgebildet, wobei sich eine einzelne Zahl im Bereich zwischen –0.5 und 4.5 ergibt, obwohl in den meisten Fällen der Ausgabebereich zwischen 1.0 und 4.5 liegen wird, dem normalen Bereich für MOS-Werte, wie in einem ACR Zuhör-Qualitäts-Experiment gefunden wurde.
  • Vorberechnung von konstanten Einstellungen
  • Bestimmte konstante Werte und Funktionen werden vorab berechnet. Für solche, die auf einer Proben-Frequenz beruhen, werden Versionen für sowohl 8 als auch 16 kHz Proben-Frequenzen in dem Programm gespeichert.
  • FFT Fenstergrösse und Proben-Frequenz
  • In dem PESQ-System werden die Zeitsignale auf die Zeit-Frequenz Bereiche unter Einsatz einer Kurz-Term-FFT (FFT steht für Fast Fourier Transformation) mit einem Hann-Fenster der Grösse 32 Millisekunden abgebildet. Für 8 kHz beträgt dieses 256 Proben per Fenster und für 16 kHz zählt das Fenster 512 Proben, während benachbarte Rahmen sich um 50 % überlappen.
  • Absoluter Hör-Schwellwert
  • Der absolute Hör-Schwellwert P0(f) wird interpoliert, um Werte im Zentrum der Bark-Bänder zu erhalten, die eingesetzt werden. Diese werte werden in einer Matrix gespeichert und in Zwickers Lautstärkeformel eingesetzt.
  • Der Leistungs-Skalier-Faktor
  • Es besteht eine willkürliche Gewinn-Konstante, die der FFT für die Zeit-Frequenz-Analyse folgt. Diese Konstante wird aus einer Sinus-Welle mit einer Frequenz von 1'000 Hz berechnet, wobei eine Amplitude von 29.54 (40 dB SPL) in den Frequenz-Bereich unter Einsatz eines gefensterten FFT über 32 Millisekunden transformiert wird. Die (diskrete) Frequenz-Achse wird dann gewandelt, um eine modifizierte Bark-Skala durch Binnen der FFT-Bänder zu erhalten. Die Spitzen-Amplitude des Spektrums, welches auf die Bark-Frequenz Skala gebinnt worden ist (genannt „Tonhöhen-Leistungs-Stärke") muss dann 10'000 sein (40 dB SPL). Letztere wird erzwungen durch eine Nachmultiplikation mit einer Konstanten, dem Leistungs-Skalier-Faktor SP.
  • Der Lautstärke-Skalier-Faktor
  • Derselbe 40 dB SPL Referenz-Ton wird eingesetzt, um die psychoakustische (Sone) Lautstärke-Skala zu kalibrieren. Nach dem Binnen auf die modifizierte Bark-Skala wird die Intensitäts-Achse auf eine Lautstärke-Skala unter Einsatz des Zwicker-Gesetzes, basierend auf dem absoluten Hör-Schwellwert, gewarpt. Das Integral der Lautstärkedichte über die Bark-Frequenz-Skala, unter Einsatz eines Kalibrierungs-Tons von 1'000 Hz und 40 dB SPL, muss dann einen Wert von 1 Sone ergeben. Letzterer wird erzwungen durch eine Nachmultiplikation mit einer Konstante, dem Lautstärke-Skalier-Faktor Sl.
  • IRS-Empfangs-Filter
  • Wie in Abschnitt 10.1.2 berichtet, wird angenommen, dass die Hörtests unter Einsatz einer IRS-Empfangs- oder einer modifizierten IRS-Empfangs-Charakteristik im Handgerät ausgeführt werden. Die notwendige Filterung der Sprachsignale wird bereits in der Vorverarbeitung durchgeführt.
  • Berechnung der aktiven Sprachzeit-Intervalle
  • Falls das Original und die verschlechterte Sprach-Datei mit einem grossen, ruhigen Intervall startet oder endet, könnte dies die Berechnung von bestimmten mittleren Verzerrungswerten über die Dateien beeinflussen. Daher wird eine Schätzung auf die ruhigen Teile zu Beginn und zu Ende dieser Dateien durchgeführt. Die Summe von fünf aufeinanderfolgenden absoluten Proben-Werten muss 500 von dem Beginn und von dem Ende des originalen Sprach-Files übersteigen, so dass die Position als Start oder Ende des aktiven Intervalls betrachtet werden kann. Das Intervall zwischen diesem Start und diesem Ende wird als das aktive Sprachintervall definiert. Um Berechnungs-Zyklen und/oder Speicherplatz zu vermindern, werden einige Berechnungen auf das aktive Intervall beschränkt.
  • Kurz-Term FFT
  • Das menschliche Ohr führt eine Zeit-Frequenz-Transformation durch. In dem PESQ-System wird dies durch eine Kurz-Term-FFT mit einer Fenstergrösse von 32 Millisekunden implementiert. Die Überlappung zwischen aufeinanderfolgenden Zeitfenstern (Rahmen) ist 50 %. Die Leistungsdichte, die Summe der quadrierten realen und quadrierten imaginären Teile der komplexen FFT-Komponenten, werden in getrennten Realwert-Matritzen für das Original und die verschlechterten Signale gespeichert. Phasen-Information innerhalb eines einzelnen Hann-Fensters wird in dem PESQ-System ausgesondert und alle Berechnungen basieren nur auf den Leistungs-Darstellungen PXWIRSS(f)n und PYWIRSS(f)n. Die Startpunkte der Fenster in dem verschlechterten Signal werden über die Verzögerung verschoben. Die Zeitachse des originalen Sprachsignals wird wie es ist gelassen. Falls die Verzögerung ansteigt, werden Teile des verschlechterten Signals von der Bearbeitung fortgelassen, während für Verminderungen in der Verzögerung Teile wiederholt werden.
  • Berechnung der Tonhöhenlautstärke-Dichte
  • Die Bark-Skala reflektiert, dass bei geringen Frequenzen das menschliche Hörsystem eine feinere Frequenzauflösung als bei hohen Frequenzen hat. Dies wird implementiert durch das Binnen der FFT-Bänder und das Aufsummieren der entsprechenden Leistungen der FFT-Bänder mit einer Normalisierung der aufsummierten Teile. Die Warp-Funktion, welche die Frequenz-Skala in Hertz auf die Tonhöhen-Skala in Bark abbildet, folgt nicht exakt den in der Literatur gegebenen Werten. Diese sich ergebenden Signale sind als Tonhöhen-Leistungs-Dichten PPXWIRSS(f)n und PPYWIRSS(f)n bekannt.
  • Teilweise Kompensation der originalen Tonhöhen-Leistungs-Dichte
  • Um mit der Filterung in dem Testsystem zu arbeiten, werden das Leistungsspektrum der originalen und der verschlechterten Tonhöhen-Leistungs-Dichten über die Zeit gemittelt. Diese Mittelung wird über sprachaktive Rahmen berechnet, die nur Zeit-Frequenz-Zellen einsetzt, deren Leistung mehr als 1'000 mal grösser ist als der absolute Hör-Schwellwert. Je modifiziertem Bark-Bin ist ein partieller Kompensations-Faktor aus dem Verhältnis des verschlechterten Spektrums zu dem Original-Spektrum berechnet. Die maximale Kompensation beträgt nie mehr als 20 dB. Die originale Tonhöhen-Leistungs-Dichte PPXWIRSS(f)n von jedem Rahmen n wird dann mit diesem teilweisen Kompensationsfaktor multipliziert, um das Original dem verschlechterten Signal gleichzumachen. Dies resultiert in einer invers gefilterten originalen Tonhöhen-Leistungs-Dichte PPX'WIRSS(f)n. Diese partielle Kompensation wird eingesetzt, weil eine schwere Filterung für den Zuhörer störend sein kann. Die Kompensation wird auf dem Original-Signal ausgeführt, weil das verschlechterte Signal dasjenige ist, welches durch die Subjekte in einem ACR-Experiment zu bewerten ist.
  • Partielle Kompensation der gestörten Tonhöhen-Leistungs-Dichte
  • Kurz-Term Gewinn-Variationen werden teilweise kompensiert durch Bearbeitung der Tonhöhen-Leistungs-Dichten Rahmen für Rahmen. Für die originalen und die verschlechterten Tonhöhen-Leistungs-Dichten wird die Summe in jedem Rahmen n von allen Werten, welche den absoluten Hör-Schwellwert überschreiten, berechnet. Das Verhältnis der Leistung in den originalen und den verschlechterten Dateien wird berechnet und auf den Bereich [3 × 10–4, 5] zurückgebunden. Ein Tiefpass-Filter erster Ordnung (entlang der Zeitachse) wird auf dieses Verhältnis angewandt. Die gestörte Tonhöhen-Leistungs-Dichte in jedem Rahmen, n, wird dann mit diesem Verhältnis multipliziert, was in einer partiell verstärkungskompensierten verzerrten Tonhöhen-Leistungs-Dichte PPY'WIRSS(f)n resultiert.
  • Berechnung der Lautstärke-Dichte
  • Nach der partiellen Kompensierung für die Filterung und die Kurz-Term-Veränderungen werden die originalen und verschlechterten Tonhöhen-Leistungs-Dichten in eine Sone-Lautstärke-Skala unter Einsatz von Zwickers Gesetz [7] transformiert.
    Figure 00150001
    wobei Po(f) der absolute Schwellwert und Sl der Lautstärke-Skalier-Faktor ist. Oberhalt von 4 Bark ist die Zwicker-Leistung, y, 0.23, der Wert, der in der Literatur angegeben wird. Unterhalb von 4 Bark steigt die Zwicker-Leistung leicht auf eine Höhe an, die dem sogenannten Rekrutierungs-Effekt entspricht. Die sich ergebenden zweidimensionalen Matritzen LX(f)n und LY(f)n werden als Lautstärke-Dichten bezeichnet.
  • Berechnung der Störungs-Dichte
  • Der Vorzeichen-behaftete Unterschied zwischen der verzerrten und der originalen Lautstärke-Dichte wird berechnet. Wenn diese Differenz positiv ist, sind Komponenten wie Geräusche hinzugefügt worden. Wenn diese Differenz negativ ist, sind Komponenten aus dem ursprünglichen Signal entfernt worden. Diese Differenz-Matrix wird dann rohe Störmatrix genannt.
  • Das Minimum der originalen und verschlechterten Lautstärke-Dichten wird für jede Zeit-Frequenz-Zelle berechnet. Diese Minima werden mit 0.25 multipliziert. Die sich ergebende zweidimensionale Matrix wird Masken-Matrix genannt. Die folgenden Regeln werden für jede Zeit-Frequenz-Zelle angewandt:
    • – Falls die rohe Stördichte positiv und grösser als der Maskenwert ist, wird der Maskenwert von der rohen Störung abgezogen.
    • – Falls die rohe Stördichte zwischen plus und minus der Grösse des Maskenwertes liegt, wird die Störungsdichte auf Null gesetzt.
    • – Falls die rohe Störungsdichte negativer als der negative Maskenwert ist, wird der Maskenwert zu der rohen Störungsdichte hinzuaddiert.
  • Der Netto-Effekt ist derjenige, dass die rohen Störungsdichten auf Null hin gezogen werden. Dies stellt einen toten Bereich dar, bevor eine tatsächliche Zeit-Frequenz-Zelle als verzerrt wahrgenommen wird. Dies modelliert das Verfahren von kleinen Unterschieden, die in Gegenwart von lauten Signalen (Maskierung) in jeder Zeit-Frequenz-Zelle unhörbar sind. Das Ergebnis ist eine Stördichte als Funktion der Zeit (Fenster-Nummer n) und Frequenz D(f)n.
  • Zellenweise Multiplikation mit einem Asymmetrie-Faktor
  • Der Asymmetrie-Effekt wird durch die Tatsache bewirkt, dass, wenn ein Codec ein Eingangssignal verzerrt, es im Wesentlichen sehr schwierig sein wird, eine neue Zeit-Frequenz-Komponente einzuführen, die mit dem Eingangssignal integriert, wobei das sich ergebende Ausgangs-Signal somit in zwei unterschiedliche Wahrnehmungen aufgeteilt werden wird, das Eingangssignal und die Verzerrung, was zu einer klar hörbaren Verzerrung führt [2]. Wenn der Codec eine Zeit-Frequenz-Komponente auslöscht, kann das sich ergebende Ausgangssignal nicht in derselben Art und Weise zerlegt werden und die Verzerrung ist weniger feststellbar. Diese Wirkung wird modelliert durch Berechnen einer asymmetrischen Störungsdichte DA(f)n je Rahmen durch Multiplikation mit der Störungsdichte D(f)n mit einem Asymmetrie-Faktor. Dieser Asymmetrie-Faktor ist gleich zum Verhältnis der gestörten und originalen Tonhöhen-Leistungsdichten, die zur Potenz 1,2 erhoben worden sind. Falls der Asymmetrie-Faktor kleiner als 3 ist, wird er auf Null gesetzt. Falls er grösser als 12 ist, wird er auf diesen Wert abgeschnitten. Somit verbleiben nur die Zeit-Frequenz-Zellen, als Nicht-Null-Werte, für die die verschlechterte Tonhöhen-Leistungsdichte die originale Tonhöhen-Leistungsdichte übertrifft.
  • Aggregation der Störungsdichten
  • Die Störungsdichte D(f)n und die asymmetrische Störungsdichte DA(f)n werden integriert (aufsummiert) entlang der Frequenz-Achse, unter Einsatz von zwei unterschiedlichen Lp-Normen und einer Gewichtung auf weichen Rahmen (mit geringer Lautstärke):
    Figure 00170001
    Figure 00180001
    wobei Mn ein Multiplikations-Faktor ist, 1/(Leistung des ursprünglichen Rahmens plus eine Konstante)0.04, was in einer Betonung der Störungen resultiert, die während Stille in dem originalen Sprachfragment auftreten, und Wf eine Abfolge von Konstanten ist, die proportional zur Breite der modifizierten Bark-Bins ist. Nachdem diese Multiplikation die Rahmen-Störwerte auf ein Maximum von 45 begrenzt haben, werden diese aggregierten Werte, Dn und DAn, Rahmenstörungen genannt.
  • Ausnullen der Rahmenstörung
  • Falls das gestörte Signal eine Verminderung in der Verzögerung enthält, die grösser als 16 Millisekunden ist (ein halbes Fenster), wird die Wiederholungsstrategie, wie sie in 10.2.4 angegeben worden ist, modifiziert. Es ist befunden worden, dass es besser ist, Rahmenstörungen während solchen Ereignissen in der Berechnung der objektiven Sprachqualität zu ignorieren. Als eine Konsequenz werden diese Rahmenstörungen ausgenullt, wenn dies auftritt. Die sich ergebenden Rahmenstörungen werden D'n und DA'n genannt.
  • Erneute Ausrichtung der schlechten Intervalle
  • Aufeinanderfolgende Rahmen mit einer Rahmenstörung oberhalb eines Schwellwertes werden schlechte Intervalle genannt. In einer Minderheit von Fällen sagt die objektive Messung grosse Verzerrungen über eine minimale Anzahl von schlechten Rahmen aufgrund von unrichtigen Zeitverzögerungen voraus, die durch die Vorverarbeitung beobachtet worden sind. Für solche sogenannte schlechte Intervalle wird ein neuer Verzögerungswert geschätzt, durch Maximieren der Kreuz-Korrelation zwischen dem absoluten Original-Signal und dem absoluten verschlechterten Signal, gemäss den durch die Vorverarbeitung beobachteten Verzögerungen eingestellt. Wenn die maximale Kreuz-Korrelation unterhalb eines Schwellwertes ist, wird davon ausgegangen, dass das Intervall Geräusch gegen Geräusch anpasst und dass das Intervall nicht länger schlecht genannt werden kann, und dass die Verarbeitung für dieses Intervall angehalten wird. Ansonsten würde die Rahmenstörung für diese Rahmen während der schlechten Intervalle wieder berechnet werden, und, falls es kleiner wäre, die originalen Rahmenstörungen ersetzen. Das Ergebnis sind die endgültigen Rahmenstörungen D''n und DA''n, die eingesetzt werden, um die wahrgenommene Qualität zu berechnen.
  • Aggregation der Störung innerhalb von aufgeteilten zweiten Intervallen
  • Dann werden die Rahmen-Störungswerte und die asymmetrischen Rahmenstörungswerte über geteilte zweite Intervalle von 20 Rahmen aggregiert (unter Berücksichtigung der Überlappung der Rahmen: ungefähr 320 Millisekunden), unter Einsatz von L6-Normen, wobei ein höherer p-Wert als in der Aggregation über die Sprachdatei-Länge eingesetzt wird. Diese Intervalle überlappen 50 % und keine Fenster-Funktion wird eingesetzt.
  • Aggregation der Störung über die Dauer des Signals
  • Die aufgeteilten zweiten Störwerte und die asymmetrisch aufgeteilten zweiten Störwerte werden über das aktive Intervall der Sprachdateien aggregiert (die entsprechenden Rahmen) unter Einsatz von L2-Normen. Je höher der Wert von p für die Aggregation innerhalb der geteilten zweiten Intervalle ist im Vergleich zu dem niedrigen p-Wert der Aggregation über die Sprachdatei, liegt aufgrund der Tatsache vor, dass, wenn Teile der aufgeteilten zweiten Intervalle verzerrt sind, diese aufgeteilten zweiten Intervalle ihre Bedeutung verlieren, wohingegen, falls ein erster Satz in einer Sprach-Datei verzerrt wird, die Qualität der ande ren Sätze intakt bleibt.
  • Berechnung des PESQ-Wertes
  • Der endgültige PESQ-Wert ist eine lineare Kombination des durchschnittlichen Störungswertes und des durchschnittlichen asymmetrischen Störungswertes. Der Bereich des PESQ-Wertes liegt zwischen –0.5 und 4.5, obwohl er in den meisten Fällen als Ausgangswert einen MOS-ähnlichen Hörqualitäts-Wert zwischen 1.0 und 4.5 aufweisen wird, welches die normalen Bereiche von MOS-Werten sind, die in einem ACR-Experiment aufgefunden werden (ACR = Absolute Category Rating).
  • 2 ist gleich zu 1 mit der Ausnahme, dass ein erstes neues Modell, ersetzend die Module des Standes der Technik zur Berechnung des lokalen Skalier-Faktors und ein neues zweites Modul, ersetzend die Module des Standes der Technik für die Wahrnehmungs-Subtraktion.
  • Das erste neue Modul ist ausgelegt, um das Verfahren gemäss der Erfindung auszuführen, umfassend Mittel zur Skalierung des Ausgangs-Signals und/oder des Eingangs-Signals des Systems im Test, unter Steuerung eines neuen „soft-skalierenden" Algorithmus, kompensierend kleine Abweichungen der Leistung, während das Kompensieren von grösseren Abweichungen teilweise, basierend auf dem Leistungsverhältnis, geschieht. Das erste Modul ist in der 3 dargestellt.
  • Das zweite neue Modul ist bereit für die Ausführung einer weiteren Ausführungsform der Erfindung, umfassend Mittel zur Herstellung eines künstlichen Sprach-Signals, für welches die Gräuschniveaus, die in dem originalen Eingangs-Sprachsignal vorhanden sind, durch einen Skalier-Faktor abgesenkt werden, der von dem lokalen Niveau des Geräusches an diesem Eingang abhängt.
  • Die Betätigung von beiden neuen Modulen wird in Gestalt von Flussdiagrammen erläutert, darstellend die Operation der jeweiligen Module. Beide Module können als Hardware oder als Software implementiert werden.
  • 3 zeigt die Wirkungsweise des ersten neuen Moduls, welches in der 2 dargestellt ist. Die Wirkungsweise des Moduls in der 3 wird durch den ersten Unter-Algorithmus kontrolliert, der durch das vorliegende Flussdiagramm dargestellt wird, welches die Kompensations-Funktion verbessert, um lokale Gewinnwechsel im Ausgangs-Signal zu korrigieren, indem das Ausgangssignal beziehungsweise das Eingangssignal in solch einer Weise skaliert wird, dass kleine Abweichungen der Leistung kompensiert werden, vorzugsweise je Zeitrahmen oder Periode, während grössere Abweichungen teilweise kompensietr werden, abhängend von dem Leistungsverhältnis. Die bevorzugte einfache und effektive Implementierung der Erfindung nimmt die lokalen Leistungen, d.h. die Leistungen in jedem Rahmen (von beispielsweise 30 Millisekunden), und berechnet ein lokales Kompensations-Verhältnis F = (PX + Δ)/(PY + Δ)
    • Anmerkung: PX und PY sind die kürzeren Bezeichnungen für PPXWIRSS(f)n und PPXWIRSS(f)n, wie dies in den 1, 2 und 3 dargestellt ist.
    • F ist die Amplitude, die bei den Niveaus mm und MM abgeschnitten wird, um ein abgeschnittenes Verhältnis C = mm für F < mm ≤ 1.0 oder C = MM für F > MM ≥ 1.0 oder C = F zu erhalten.
    • („Δ" zur Optimierung von C für kleine Werte von PX und/oder PY)
  • Das abgeschnittene Verhältnis C wird eingesetzt, um ein Weich-Skalier-Verhältnis S durch Einsatz der Faktoren m und M zu berechnen, wobei mm < m ≤ 1.0 und MM > M ≥ 1.0 ist.
  • Weich-Skalier-Verhältnis S = Ca + C – C(m)a-1 für C < m (0.5 < a < 1.0) oder S = Ca + C – C(M)a-1 für C > M oder S = C
  • In dieser Art und Weise ist die lokale Skalierung gemäss der vorliegenden Erfindung gleich zu der Skalierung, wie sie in den Dokumenten des Standes der Technik, Empfehlung P.862 und EP 01 200 945 , gegeben ist, so lange m ≤ F ≤ M. Für Werte von F < m oder F > M weicht die Skalierung in progressiver Weise immer weniger von 1.0 ab als die Skalierung, wie sie im Stand der Technik angegeben wird. Der Weich-Skalier-Faktor S wird in derselben Art und Weise wie F bei dem Verfahren nach dem Stand der Technik eingesetzt, um die Ausgangsleistung in jedem Rahmen lokal zu kompensieren.
  • In dem zweiten Weich-Skalier Verarbeitungs-Schritt, kontrolliert durch einen zweiten Unter-Algorithmus, wird ein fortgeschrittenes Skalieren auf Gering-Niveau-Teilen des Eingangs-Signals angewandt. Wenn das Eingangssignal (Referenz-Signal) Niedrig-Niveaus eines Geräusches enthält, wird ein transparentes Sprach-Transport-System ein Ausgangssignal ergeben, das auch geringe Niveaus an Geräusch enthält. Der Ausgang des Sprach-Transport-Systems wird dann als eine geringere Qualität aufweisend bewertet als auf der Basis des Geräusches erwartet, welches durch das Transport-System eingeführt wird. Man wäre sich nur aufgrund der Tatsache bewusst, dass das Geräusch nicht durch den Transport verursacht wird, falls man dem Eingangs-Sprachsignal zuhören könnte und einen Vergleich machen könnte. In den meisten subjektiven Sprachqualitäts-Tests wird die Eingangsreferenz nicht dem testenden Subjekt vorgelegt und daher bewertet das Subjekt geringe Geräusch-Niveau-Unterschiede im Eingangs-Signal als Qualitäts-Unterschiede im Sprach-Transport-System. Um hohe Korrelationen zu haben, in objektiven Test-System, mit solchen subjektiven Tests, muss dieser Effekt in einem fortgeschrittenen objektiven Sprachqualitäts-Bewertungs-Algorithmus emuliert werden. Das Ausführungsbeispiel gemäss der bevorzugten Option der Erfindung, dargestellt in der 4, emuliert dies durch Erzeugen eines künstlichen Referenz-Sprachsignals in dem Leistungs-Darstellungs-Bereich, für den die Geräusch-Leistungs-Niveaus durch einen Skalier-Faktor abgesenkt werden, der von dem lokalen Niveau des Geräusches in dem Eingangs-Signal abhängt. Somit konvergiert das künstliche Referenz-Signal schneller zu Null als das originale Eingangs-Signal für geringe Niveaus dieses Eingangs-Signals. Wenn die Störungen in dem verschlechterten Ausgangs-Signal während der Niedrig-Niveau Signalteile berechnet werden, wie sie im Referenz-Eingangssignal vorliegen, wird der Unterschied in der Berechnung in der internen Darstellung des Lautstärke-Bereichs nach der Skalierung des Eingangslautstärke-Signals auf ein Niveau skaliert, welches schneller auf Null zugeht, als die Lautstärke des Eingangssignals, wenn es Null anspricht.
  • Der Unterschied in der internen Darstellung im Zeit-Frequenz-Ebene Bereich wird auf D(f)n = |LY(f)n – LX(f)nb/Kb-1| für LX(f)n < K oder D(f)n = |LY(f)n – LX(f)n| für LX(f)n ≥ K gesetzt.
  • In dieser Formel ist b > 1, während K das Niedrig-Geräusch Leistungs-Kriterium je Zeit-Frequenz-Zelle darstellt.
  • Als Alternative kann der zweite Weich-Skalier-Verarbeitungs-Unter-Algorithmus auch implementiert werden durch Ersetzen des LX(f)n < K Kriteriums durch ein Leistungs-Kriterium in einem einzelnen Zeitrahmen. In dieser alternativen Option wird der Unterschied in der internen Darstellung in der Zeit-Frequenz-Ebene auf D(f)n = |LY(f)n – LX(f)nb/Kb-1| für LX (t) < K' oder D(f)n = |LY(f)n – LX(f)n| für LX(t) ≥ K' gesetzt.
  • Bei dieser alternativen Formel ist b > 1, während K' das Niedrig-Niveau-Geräusch-Leistungs-Kriterium je Zeitrahmen darstellt.
  • Druckschriften, die durch Bezugnahme eingeschlossen sind
    • [1] BEERENDS (J.G.), STEMERDINK (J.A.): A Perceptual Speech-Quality Measure Based on a Psychoacoustic Sound Representation, J. Audio Eng. Soc., Band 42, Nr. 3, Seiten 115–123, März 1994.
    • [2] BEERENDS (J.G.): Modelling Cognitive Effects that Play a Role in the Perception of Speech Quality, Speech Quality Assessment, Workshop papers, Bochum, Seiten 1–9, November 1994.
    • [3] BEERENDS (J.G.): Measuring the quality of speech and music codecs, an integrated psychoacoustic approach, 98th AES Convention, Vordruck Nr. 3945, 1995
    • [4] HOLLIER (M.P.), HAWKSFORD (M.O.), GUARD (D.R.): Error activity and error entropy as a measure of psychoacoustic significance in the perceptual domain, IEE Proceedings – Vision, Image and Signal Processing, 141 (3), 203–208, Juni 1994.
    • [5] RIX (A.W.), REYNOLDS (R.), HOLLIER (M.P.): Perceptual measurement of end-to-end speech quality over audio and packet-based networks, 106th AES Convention, Vordruck Nr. 4873, Mai 1999.
    • [6] HOLLIER (M.P.), HAWKSFORD (M.O.), GUARD (D.R.), Characterisation of communication systems using a speech-like test stimulus, Journal of the AES, 41 (12), 1008–1021, Dezember 1993.
    • [7] ZWICKER (Feldtkeller): Das Ohr als Nachrichtenempfänger, S. Hirzel Verlag, Stuttgart, 1967.
    • [8] Draft ITU-T recommendation P.862, „Telephone transmission quality, telephone installations, local line networks – Methods for objective and subjective assessment of quality – Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrow-bank telephone networks and speech codecs", ITU-T 02.2001.
    • [9] Europäische Patentanmeldung EP 01 200 945 , Koninklijke KPN n.v.

Claims (8)

  1. Verfahren zur Messung der Übertragungsqualität eines Audiosystems, wobei ein Eingangs-Signal (X), welches in das Audiosystem eingegeben wurde, in einem Ausgangs-Signal (Y) resultiert, welches durch das Audiosystem ausgegeben wird, wobei das Eingangs-Signal (X) und das Ausgangs-Signal (Y) verarbeitet und vorzugsweise miteinander verglichen werden, wobei ein künstliches Sprachreferenzsignal erzeugt wird, für das die Geräuschniveaus, wie sie in dem ursprünglichen Eingangssprachsignal (X) vorhanden gewesen sind, durch einen Skalierfaktor abgesenkt werden, der von dem lokalen Niveau des Geräusches an diesem Eingang abhängt, und wobei der Unterschied D(f)n in internen Darstellungen LY(f)n und LX(f)n von jeweils dem Eingangs-Signal (X) und Ausgangs-Signal (Y) in der Zeit-Frequenz-Ebene gleichgesetzt werden zu |LY(f)n – LX(f)n b/Kb-1| für LX(f)n < K,oder gleich zu |LY(f)n = LX(f)n| für LX(f)n ≥ K,wobei b ein zweiter Einstellungsparameter ist, der auf einen Wert grösser als 1 gesetzt ist, während K ein Niedrigniveaugeräuschleistungskriteriumswert pro Zeitfrequenzzelle ist, welcher ein gewünschtes Niedrigniveaugeräuschleistungskriterium darstellt.
  2. Verfahren zur Messung der Übertragungsqualität eines Audiosystems, wobei ein Eingangs-Signal (X), welches in das Audiosystem eingegeben wurde, in einem Ausgangs-Signal (Y) resultiert, welches durch das Audiosystem ausgegeben wird, wobei das Eingangs-Signal (X) und das Ausgangs-Signal (Y) verarbeitet und vorzugsweise miteinander verglichen werden, wobei ein künstliches Sprachreferenzsignal erzeugt wird, für das die Geräuschniveaus, wie sie in dem ursprünglichen Eingangssprachsignal (X) vorhanden gewesen sind, durch einen Skalierfaktor abgesenkt werden, der von dem lokalen Niveau des Geräusches an diesem Eingang abhängt, und wobei der Unterschied D(f)n in internen Darstellungen LY(f)n und LX(f)n von jeweils dem Eingangs-Signal (X) und Ausgangs-Signal (Y) in der Zeit-Frequenz-Ebene gleichgesetzt werden zu |LY(f)n – LX(f)n b/Kb-1| für LX(f)n < K',oder gleich zu |LY(f)n = LX(f)n| für LX(f)n ≥ K',wobei b ein zweiter Einstellungsparameter ist, der auf einen Wert grösser als 1 gesetzt ist, während K' ein Niedrigniveaugeräuschleistungskriteriumswert pro Zeitrahmen ist, welcher ein gewünschtes Niedrigniveaugeräuschleistungskriterium darstellt.
  3. Verfahren nach einem der Ansprüche 1 oder 2, wobei ein Kompensationsverhältnis F aus den Leistungsdarstellungen PX beziehungsweise PY des besagten Eingangs-Signals (X) und Ausgangs-Signals (Y) berechnet wird, wobei F gleich ist zu dem Verhältnis PX/PY, wobei das Ausgangs-Signal und/oder das Eingangs-Signal des Audiosystems in einer Weise skaliert werden, dass kleine Abweichungen der Leistung kompensiert werden, während grössere Abweichungen partiell kompensiert werden, abhängig von dem Leistungsverhältnis, wobei ein abgeschnittenes Verhältnis C berechnet wird, wobei C gleich ist zu dem ersten abgeschnittenen Wert mm für F < mm, oder wobei C gleich ist zu einem zweiten abgeschnittenen Wert MM für F > MM, oder ansonsten C gleich zu F ist, und wobei ein Weichskalierverhältnis S von einem ersten Skalierfaktor m und einem zweiten Skalierfaktor M ausgehend berechnet wird, wobei mm < m ≤ 1.0 und MM > M ≥ 1.0 ist, wobei S gleich ist zu: Ca + C – C(m)a-1 für C < mwobei der Parameter a ein erster Einstellungsparameter ist, der auf einen Wert von grösser als 0 und kleiner als 1 gesetzt wird, oder wobei S gleich ist zu: Ca + C – C(M)a-1 für C > M,während ansonsten S = C ist.
  4. Verfahren zur Messung der Übertragungsqualität eines Audiosystems, wobei ein Eingangs-Signal (X), welches in das Audiosystem eingegeben wurde, in einem Ausgangs-Signal (Y) resultiert, welches durch das Audiosystem ausgegeben wird, wobei das Eingangs-Signal und das Ausgangs-Signal verarbeitet und vorzugsweise miteinander verglichen werden, wobei das Ausgangs-Signal und/oder das Eingangs-Signal des Audiosystems in einer Weise skaliert werden, dass kleine Abweichungen der Leistung kompensiert werden, während grössere Abweichungen partiell kompensiert werden, abhängig von dem Leistungsverhältnis, wobei ein Kompensationsverhältnis F aus den Leistungsdarstellungen PX beziehungsweise PY des besagten Eingangs-Signals (X) und Ausgangs-Signals (Y) berechnet wird, wobei F gleich ist zu dem Verhältnis PX/PY, wobei ein abgeschnittenes Verhältnis C berechnet wird, wobei C gleich ist zu einem ersten abgeschnittenen Wert mm für F < mm, oder wobei C gleich ist zu einem zweiten abgeschnittenen Wert MM für F > MM, oder ansonsten C gleich zu F ist, wobei ein Weichskalierverhältnis S von einem ersten Skalierfaktor m und einem zweiten Skalierfaktor M ausgehend berechnet wird, wobei mm < m ≤ 1.0 und MM > M ≥ 1.0 ist, wobei S gleich ist zu: Ca + C – C(m)a-1 für C < mwobei der Parameter a ein erster Einstellungsparameter ist, der auf einen Wert von grösser als 0 und kleiner als 1 gesetzt wird, oder wobei S gleich ist zu: Ca + C – C(M)a-1 für C > M,während ansonsten S = C ist.
  5. System zur Messung der Übertragungsqualität eines Audiosystems, wobei ein Eingangs-Signal (X), welches in das Audiosystem eingegeben wurde, in einem Ausgangs-Signal (Y) resultiert, welches durch das Audiosystem ausgegeben wird, wobei das Eingangs-Signal und das Ausgangs-Signal miteinander verglichen werden, wobei das System umfasst: – Mittel zur Erzeugung eines künstlichen Sprachreferenzsignals, für das die Geräuschniveaus, wie sie in dem ursprünglichen Eingangssprachsignal (X) vorhanden gewesen sind, durch einen Skalierfaktor abgesenkt werden, der von dem lokalen Niveau des Geräusches an diesem Eingang abhängt, und – Mittel zur Einstellung des Unterschiedes D(f)n in internen Darstellungen LY(f)n und LX(f)n von jeweils dem Eingangs-Signal (X) und Ausgangs-Signal (Y) in der Zeit-Frequenz-Ebene gleich zu |LY(f)n – LX(f)n b/Kb-1| für LX(f)n < K,oder gleich zu |LY(f)n = LX(f)n| für LX(f)n ≥ K,wobei b ein zweiter Einstellungsparameter ist, der auf einen Wert grösser als 1 gesetzt ist, während K ein Niedrigniveaugeräuschleistungskriteriumswert pro Zeitfrequenzzelle ist, welcher ein gewünschtes Niedrigniveaugeräuschleistungskriterium darstellt.
  6. System zur Messung der Übertragungsqualität eines Audiosystems, wobei ein Eingangs-Signal (X), welches in das Audiosystem eingegeben wurde, in einem Ausgangs-Signal (Y) resultiert, welches durch das Audiosystem ausgegeben wird, wobei das Eingangs-Signal (X) und das Ausgangs-Signal (Y) verarbeitet werden, vor zugsweise miteinander verglichen werden, wobei das System umfasst: – Mittel zur Erzeugung eines künstlichen Sprachreferenzsignals, für das die Geräuschniveaus, wie sie in dem ursprünglichen Eingangssprachsignal (X) vorhanden gewesen sind, durch einen Skalierfaktor abgesenkt werden, der von dem lokalen Niveau des Geräusches an diesem Eingang abhängt, und – Mittel zur Einstellung des Unterschiedes D(f)n in internen Darstellungen LY(f)n und LX(f)n von jeweils dem Eingangs-Signal (X) und Ausgangs-Signal (Y) in der Zeit-Frequenz-Ebene gleich zu |LY(f)n – LX(f)n b/Kb-1| für LX(f)n < K,oder gleich zu |LY(f)n = LX(f)n| für LX(f)n ≥ K,wobei b ein zweiter Einstellungsparameter ist, der auf einen Wert grösser als 1 gesetzt ist, während K ein Niedrigniveaugeräuschleistungskriteriumswert pro Zeitrahmen ist, welcher ein gewünschtes Niedrigniveaugeräuschleistungskriterium darstellt.
  7. System nach einem der Ansprüche 5 oder 6, weiterhin umfassend – Mittel zum Berechnen eines Kompensationsverhältnisses F aus den Leistungsdarstellungen PX beziehungsweise PY des besagten Eingangs-Signals (X) und Ausgangs-Signals (Y), wobei F gleich ist zu dem Verhältnis PX/PY, – Mittel zum Skalieren des Ausgangs-Signals und/oder des Eingangs-Signals des Audiosystems in einer weise, dass kleine Abweichungen der Leistung kompensiert werden, während grössere Abweichungen partiell kompensiert werden, abhängig von dem Leistungsverhältnis, – Mittel zum Berechnen eines abgeschnittenen Verhältnisses C, wobei C gleich ist zu einem ersten abgeschnittenen Wert mm für F < mm, oder wobei C gleich ist zu einem zweiten abgeschnit tenen Wert MM für F > MM, oder ansonsten C gleich zu F ist, und – Mittel zum Berechnen eines Weichskalierverhältnisses S von einem ersten Skalierfaktor m und einem zweiten Skalierfaktor M ausgehend, wobei mm < m ≤ 1.0 und MM > M ≥ 1.0 ist, wobei S gleich ist zu: Ca + C – C(m)a-1 für C < mwobei der Parameter a ein erster Einstellungsparameter ist, der auf einen Wert von grösser als 0 und kleiner als 1 gesetzt wird, oder wobei S gleich ist zu: Ca + C – C(M)a-1 für C > M,während ansonsten S = C ist.
  8. System zur Messung der Übertragungsqualität eines Audiosystems, wobei ein Eingangs-Signal (X), welches in das Audiosystem eingegeben wurde, in einem Ausgangs-Signal (Y) resultiert, welches durch das Audiosystem ausgegeben wird, wobei das Eingangs-Signal und das Ausgangs-Signal verarbeitet und vorzugsweise miteinander verglichen werden, wobei das System umfasst: Mittel zum Skalieren des Ausgangs-Signals und/oder des Eingangs-Signals des Audiosystems in einer Weise, dass kleine Abweichungen der Leistung kompensiert werden, während grössere Abweichungen partiell kompensiert werden, abhängig von dem Leistungsverhältnis, – Mittel zum Berechnen eines Kompensationsverhältnisses F aus den Leistungsdarstellungen PX beziehungsweise PY des besagten Eingangs-Signals (X) und Ausgangs-Signals (Y), wobei F gleich ist zu dem Verhältnis PX/PY, – Mittel zum Berechnen eines abgeschnittenen Verhältnisses C, wobei C gleich ist zu einem ersten abgeschnittenen Wert mm für F < mm, oder wobei C gleich ist zu einem zweiten abgeschnittenen Wert MM für F > MM, oder ansonsten C gleich zu F ist, – Mittel zum Berechnen eines Weichskalierverhältnisses S von einem ersten Skalierfaktor m und einem zweiten Skalierfaktor M ausgehend, wobei mm < m ≤ 1.0 und MM > M ≥ 1.0 ist, wobei S gleich ist zu: Ca + C – C(m)a-1 für C < mwobei der Parameter a ein erster Einstellungsparameter ist, der auf einen Wert von grösser als 0 und kleiner als 1 gesetzt wird, oder wobei S gleich ist zu: Ca + C – C(M)a-1 für C > M,während ansonsten S = C ist.
DE60308336T 2002-03-08 2003-02-26 Verfahren und system zur messung der übertragungsqualität eines systems Expired - Lifetime DE60308336T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP02075973 2002-03-08
EP02075973A EP1343145A1 (de) 2002-03-08 2002-03-08 System und Verfahren zur Messung der Qualität eines Übertragungssystems
EP02075997 2002-03-11
EP02075997 2002-03-11
PCT/EP2003/002058 WO2003076889A1 (en) 2002-03-08 2003-02-26 Method and system for measuring a system's transmission quality

Publications (2)

Publication Number Publication Date
DE60308336D1 DE60308336D1 (de) 2006-10-26
DE60308336T2 true DE60308336T2 (de) 2007-09-20

Family

ID=27806525

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60308336T Expired - Lifetime DE60308336T2 (de) 2002-03-08 2003-02-26 Verfahren und system zur messung der übertragungsqualität eines systems

Country Status (9)

Country Link
US (1) US7689406B2 (de)
EP (1) EP1485691B1 (de)
JP (1) JP4263620B2 (de)
AT (1) ATE339676T1 (de)
AU (1) AU2003212285A1 (de)
DE (1) DE60308336T2 (de)
DK (1) DK1485691T3 (de)
ES (1) ES2272952T3 (de)
WO (1) WO2003076889A1 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7327985B2 (en) * 2003-01-21 2008-02-05 Telefonaktiebolaget Lm Ericsson (Publ) Mapping objective voice quality metrics to a MOS domain for field measurements
US7353002B2 (en) * 2003-08-28 2008-04-01 Koninklijke Kpn N.V. Measuring a talking quality of a communication link in a network
BRPI0515128A (pt) * 2004-08-31 2008-07-08 Matsushita Electric Ind Co Ltd aparelho de geração de sinal estéreo e método de geração de sinal estéreo
AU2005285694B2 (en) * 2004-09-20 2010-09-16 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno Frequency compensation for perceptual speech analysis
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
EP1975924A1 (de) * 2007-03-29 2008-10-01 Koninklijke KPN N.V. Verfahren und System zur Sprachqualitätsvorhersage des Einflusses von zeitlokalisierten Verzerrungen eines Audioübertragungssystems
ES2403509T3 (es) * 2007-09-11 2013-05-20 Deutsche Telekom Ag Método y sistema para la evaluación integral y diagnóstica de la calidad de la voz de escucha
DE602007007090D1 (de) * 2007-10-11 2010-07-22 Koninkl Kpn Nv Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems
WO2010140940A1 (en) * 2009-06-04 2010-12-09 Telefonaktiebolaget Lm Ericsson (Publ) A method and arrangement for estimating the quality degradation of a processed signal
US9025780B2 (en) 2009-08-14 2015-05-05 Koninklijke Kpn N.V. Method and system for determining a perceived quality of an audio system
WO2011018430A1 (en) 2009-08-14 2011-02-17 Koninklijke Kpn N.V. Method and system for determining a perceived quality of an audio system
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
EP2595145A1 (de) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Verfahren und Vorrichtung zur Untersuchung der Verständlichkeit eines verrauschten Sprachsignals
EP2595146A1 (de) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Verfahren und Vorrichtung zur Untersuchung der Verständlichkeit eines verrauschten Sprachsignals
US20150179181A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
KR102366988B1 (ko) * 2014-07-03 2022-02-25 한국전자통신연구원 레이어드 디비전 멀티플렉싱을 이용한 신호 멀티플렉싱 장치 및 신호 멀티플렉싱 방법
CA3062640C (en) * 2015-01-08 2022-04-26 Electronics And Telecommunications Research Institute An apparatus and method for broadcast signal reception using layered divisional multiplexing
KR102362788B1 (ko) * 2015-01-08 2022-02-15 한국전자통신연구원 레이어드 디비전 멀티플렉싱을 이용한 방송 신호 프레임 생성 장치 및 방송 신호 프레임 생성 방법

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4110692A (en) * 1976-11-12 1978-08-29 Rca Corporation Audio signal processor
IT1121496B (it) * 1979-12-14 1986-04-02 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per l effettuazione di misure oggettive di qualita su apparecchiature di trasmissione di segnali fonici
GB2116801A (en) * 1982-03-17 1983-09-28 Philips Electronic Associated A system for processing audio frequency information for frequency modulation
WO1995001011A1 (en) * 1993-06-21 1995-01-05 British Telecommunications Public Limited Company Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal
GB9213459D0 (en) * 1992-06-24 1992-08-05 British Telecomm Characterisation of communications systems using a speech-like test stimulus
IN184794B (de) * 1993-09-14 2000-09-30 British Telecomm
JPH10504695A (ja) * 1994-08-18 1998-05-06 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 試験方法
NL9500512A (nl) * 1995-03-15 1996-10-01 Nederland Ptt Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal.
FI97837C (fi) * 1995-04-11 1997-02-25 Nokia Mobile Phones Ltd Tiedonsiirtomenetelmä sekä lähetin
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
MX9800434A (es) * 1995-07-27 1998-04-30 British Telecomm Evaluacion de calidad de señal.
US5672999A (en) * 1996-01-16 1997-09-30 Motorola, Inc. Audio amplifier clipping avoidance method and apparatus
DE69842181D1 (de) * 1997-05-16 2011-04-28 British Telecomm Prüfung einer telekommunikationsvorrichtung
JP4076202B2 (ja) * 2000-08-07 2008-04-16 富士通株式会社 スペクトラム拡散信号受信機及び受信方法
JP2002215192A (ja) * 2001-01-17 2002-07-31 Nec Corp オーディオ情報処理装置及び処理方法
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio

Also Published As

Publication number Publication date
US20050159944A1 (en) 2005-07-21
JP2005519339A (ja) 2005-06-30
ATE339676T1 (de) 2006-10-15
AU2003212285A1 (en) 2003-09-22
EP1485691B1 (de) 2006-09-13
EP1485691A1 (de) 2004-12-15
DE60308336D1 (de) 2006-10-26
JP4263620B2 (ja) 2009-05-13
WO2003076889A1 (en) 2003-09-18
DK1485691T3 (da) 2007-01-22
US7689406B2 (en) 2010-03-30
ES2272952T3 (es) 2007-05-01

Similar Documents

Publication Publication Date Title
DE60308336T2 (de) Verfahren und system zur messung der übertragungsqualität eines systems
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
EP1088300B1 (de) Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen
DE60212696T2 (de) Bandbreitenvergrösserung für audiosignale
DE602004008455T2 (de) Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
DE60029453T2 (de) Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
DE60205232T2 (de) Verfahren und vorrichtung zur bestimmung der qualität eines sprachsignals
DE602004010634T2 (de) Verfahren und system zur sprachqualitätsvorhersage eines audioübertragungssystems
DE19647399C1 (de) Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
DE60222770T2 (de) Verbessertes verfahren zur ermittlung der qualität eines sprachsignals
DE60311754T2 (de) Verfahren und Vorrichtung zur Schätzung der Gesamtgüte eines Sprachsignals
EP0772764B1 (de) Verfahren und vorrichtung zum bestimmen der tonalität eines audiosignals
DE60004403T2 (de) Vorrichtung und verfahren zur signalqualitätserfassung
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
DE60305306T2 (de) Vorrichtung und Verfahren zur binauralen Qualitätsbeurteilung
EP0535425B1 (de) Verfahren zur Verstärkung von akustischen Signalen für Hörbehinderte, sowie Vorrichtung zur Durchführung des Verfahrens
EP1382034A1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
EP1343145A1 (de) System und Verfahren zur Messung der Qualität eines Übertragungssystems
DE10361954B4 (de) Hörsystem und Verfahren zur Einstellung eines solchen, Verfahren zur Erkennung von charakteristischen Schallspektren, sowie entsprechende Computerprogramme und entsprechende computerlesbare Speichermedien
EP3796676A1 (de) Verfahren zum betrieb eines hörgeräts und hörgerät
Brandt et al. Optimal spectral smoothing in short-time spectral attenuation (STSA) algorithms: Results of objective measures and listening tests
DE102019126509A1 (de) Verbesserung der subjektiven bass-wahrnehmung eines audiosignals mit hilfe höherer harmonischer
DE102005019903A1 (de) Vorrichtung und Verfahren für eine gehöradäquate objektive Qualitätsschätzung von Audiosignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition