EP1279164A1 - Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) - Google Patents

Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)

Info

Publication number
EP1279164A1
EP1279164A1 EP01933720A EP01933720A EP1279164A1 EP 1279164 A1 EP1279164 A1 EP 1279164A1 EP 01933720 A EP01933720 A EP 01933720A EP 01933720 A EP01933720 A EP 01933720A EP 1279164 A1 EP1279164 A1 EP 1279164A1
Authority
EP
European Patent Office
Prior art keywords
signal
signal section
stage
stationary
statl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP01933720A
Other languages
English (en)
French (fr)
Inventor
Kyrill Alexander Fischer
Christoph Erdmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE10026872A external-priority patent/DE10026872A1/de
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Publication of EP1279164A1 publication Critical patent/EP1279164A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the present invention relates to a method for determining the speech activity in a signal section of an audio signal, the result as to whether speech activity is present in the signal section under consideration depends both on the spectral and on the temporal steadiness of the signal section and / or on previous signal sections.
  • CELP Code Excited Linear Prediction
  • the approximation describing the signal section is essentially obtained from three components that are used on the decoder side to reconstruct the signal: firstly, a filter that approximately describes the spectral structure of the respective signal section, secondly, a so-called excitation signal that is filtered by this filter and, thirdly, an amplification factor (“gain”) by which the excitation signal is multiplied before the filtering.
  • the amplification factor is responsible for the volume of the respective section of the reconstructed signal.
  • the result of this filtering then represents the approximation of the one to be transmitted For each section, the information about the filter settings and the information about the excitation signal to be used and its scaling ("gain”), which describes the volume, must be transmitted.
  • these parameters are taken from various, the encoder and decoder i n identical copies of existing codebooks are obtained, so that only the number of the most suitable codebook entries has to be transmitted for the reconstruction.
  • the most suitable codebook entries are to be determined for each section, whereby all relevant codebook entries are searched in all relevant combinations, and those entries are selected which deliver the smallest deviation from the original signal in terms of a reasonable distance measure.
  • VAD voice activity detection
  • the decision of the VAD is equated with a decision about the stationarity of the current signal, so that the extent of the change in the essential signal properties is used as the basis for determining the stationarity and the associated speech activity.
  • a signal area without speech which, for example, only has a consistently loud and spectrally unchanging or only slightly changing background noise, can be described as stationary.
  • a signal section with a speech signal (with and without the presence of the background noise) can be described as non-stationary, i.e. unsteady.
  • the result presented here is equated with the result "transient" with speech activity, while "stationary" means that there is no speech activity. Since the stationarity of a signal is not a clearly defined measurement variable, it is defined in more detail below.
  • the method presented here assumes that a determination of the stationarity should ideally be based on the temporal change in the short-term mean value of the energy of the signal.
  • the energy also depends on the absolute volume of the speaker, which should have no influence on the decision.
  • the energy value is also influenced, for example, by the background noise.
  • the use of a criterion based on energy considerations is only meaningful if the influence of these possible disruptive effects can be excluded. For this reason, the procedure is structured in two stages: In the first stage, a valid decision about the stationarity is made.
  • the filter describing this stationary signal section is recalculated and thus adapted to the last stationary signal.
  • this decision is made again according to another criteria, and is therefore checked and, if necessary, modified using the values provided in the first stage.
  • This second stage works using an energy measure.
  • the second level also provides a result that the first level takes into account when analyzing the subsequent language frame. In this way there is a feedback between these two stages, which ensures that the ones supplied by the first stage values form an optimal basis for the decision of the second stage.
  • the first stage is presented, which provides a first decision based on the investigation of the spectral stationarity. If one looks at the frequency spectrum of a signal section, it has a characteristic shape for the period under consideration. Is the change in the frequency spectra of temporally successive signal sections sufficiently small, i.e. the characteristic shape of the respective spectra is more or less preserved, so one can speak of spectral stationarity.
  • STAT1 The result of the first stage is called STAT1 and the result of the second stage is called STAT2.
  • STAT2 also corresponds to the final decision of the VAD procedure presented here.
  • This first stage of the stationarity process receives the following values as input values:
  • the first stage supplies the values as the initial value
  • the decision of the first stage is based primarily on the consideration of the so-called spectral distance ("spectral distance”, “spectral distortion”) between the current and the previous frame.
  • the decision also includes the values of a voicing measure that was calculated for the last frames.
  • the calculation is based on:
  • the value of SD is limited down to a minimum value of 1.6.
  • the value limited in this way is then saved as the current value in a list of the past values SD_MEM [0..9], the longest past value having been removed from the list beforehand.
  • VOICE [0..1] The results of a voicing measure (VOICE [0..1]) were also provided as an input value in the first stage. (These values are between 0 and 1 and were previously after
  • VOTE [0] for the first half of the frame
  • VOTE [1] for the second half of the frame. If VOICE [k] has a value close to 0, the signal is clearly unvoiced, while a value close to 1 characterizes a clearly voiced speech area. )
  • STIMM_MEM [] The last four values of STIMM_MEM [], namely the values STIMM_MEM [16] to STIMM_MEM [19] are averaged again and saved in STIMM4.
  • N_INSTAT2 If occasional unsteady frames have occurred during the analysis of the past frames, this is recognized by the value of N_INSTAT2. In this case, a transition to the "stationary" state occurred only a few frames ago.
  • TRES_SD_MEAN 4.0 (if N_INSTAT2> 0)
  • the second stage works using a list of linear prediction coefficients prepared in this stage, which describe the signal piece that was last classified as "stationary" by this stage.
  • LPC_STAT1 is overwritten by the current LPC_NOW (update):
  • the second stage uses the values as input variables
  • the second stage provides the values as the initial value
  • the temporal change in the energy of the residual signal is used, which was calculated with the LPC filter LPC_STAT1 [] adapted to the last stationary signal section and the current input signal SIGNAL []. Both an estimate of the last remaining signal energy E_RES_REF as the lower reference value and a previously selected tolerance value E_TOL are included in the decision. The current residual signal energy value is then no longer allowed as E_TOL are above the reference value E_RES_REF if the signal is to be regarded as "stationary".
  • the input signal SIGNAL [0 ... FRAME_LEN-1] of the current frame is inversely filtered using the linear prediction coefficients stored in LPC_STATl [0 .. ORDER-1].
  • the result of this filtering is referred to as a "residual signal" and stored in SPEECH_RES [0..FRAME_LEN-1].
  • E_RES total ⁇ SIGNAL_RES [k] * SIGNAL_RES [k] / FRAME_LEN ⁇ ,
  • E_RES 10 * log (E_RES / E_MAX),
  • SIGNAL_MAX describes the maximum possible amplitude value of a single sample. This value depends on the implementation environment; in the prototype on which the invention is based, it was, for example
  • SIGNAL_MAX 32767
  • SIGNAL_MAX 1.0
  • E_RES calculated in this way is expressed in dB with respect to the maximum value. It is therefore always below 0, typical values are around -100 dB for signals with very low energy and around -30 dB for signals with comparatively high energy.
  • the energy of the residual signal By using the energy of the residual signal, an adaptation is implicitly made to the spectral form that was last classified as stationary. If the current signal has changed compared to this spectral form, the residual signal will have a measurably higher energy than in the case of an unchanged, uniformly continued signal.
  • E_RES_REF envelope frequency response described by LPC_STAT1 [] of the frame last classified as "stationary” by the first stage
  • E_RES_REF This value is called E_RES_REF. It is always redefined here when the first stage has classified the current frame as "stationary". In this case, the previously calculated value E_RES is used as the new value for this reference energy E_RES_REF:
  • E_RES_REF E_RES if
  • STAT1 "stationary", because the tolerance value of 12dB is deliberately chosen generously.
  • the other conditions are special cases; they ensure an adjustment at the beginning of the algorithm and a re-estimation at very low input values, which should in any case serve as a new reference value for stationary signal sections.
  • the tolerance value E_T0L specifies for the decision criterion a maximum permitted change in the energy of the physical signal compared to that of the previous frames, so that the current frame can be considered to be "stationary".
  • E TOL 6. 5
  • the first condition ensures that it is very easy to leave a stationarity that has existed only for a short time, since the low tolerance E_TOL makes it easier to decide on "unsteady”.
  • the other cases include adjustments that provide the most favorable values for different special cases (sections with very low energy should be classified more heavily as “unsteady”, sections with comparatively high energy should be classified more easily as “unsteady”).
  • the counter of the past stationary frames N_STAT2 is therefore set to 0 immediately when a transient frame occurs, while the counter for the past transient frames N_INSTAT2 only after a certain number (in the implemented prototype: 16) of successive stationary frames to 0 is set.
  • N_INSTAT2 is used as the input value of the first stage and influences the decision of the first stage. Specifically, N_INSTAT2 prevents the first stage from redetermining the coefficient set LPC_STAT1 [] describing the envelope spectrum before it is ensured that a new stationary signal section actually exists.
  • Short-term or isolated STAT2 "stationary” decisions can occur, but only after a certain number of consecutive frames classified as "stationary” is the coefficient set LPC_STATl [] describing the envelope spectrum for the stationary signal section then present newly determined in the first stage Right.
  • STAT1 unsteady "decision of the first stage
  • Threshold values and functions are only examples and usually have to be found out by own experiments.

Abstract

Die Erfindung betrifft ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals, wobei das Ergebnis, ob Sprachaktivität im betrachteten Signalabschnitt vorliegt sowohl von der spektralen als auch von der zeitlichen Stationarität des Signalabschnitts und/oder von vorangegangenen Signalabschnitten abhängt, wobei das Verfahren in einer ersten Stufe beurteilt, ob im betrachteten Signalabschnitt spektrale Stationarität vorliegt, und dass in einer zweiten Stufe beurteilt wird, ob im betrachteten Signalabschnitt zeitliche Stationarität vorliegt, wobei die endgültige Entscheidung über das Vorhandensein von Sprachaktivität im betrachteten Signalabschnitt von den Ausgangswerten der beiden Stufen abhängig ist.

Description

Verfahren zur Berechnung einer SprachaktivitätsentScheidung (Voice Activity Detector)
Die vorliegende Erfindung betrifft ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals, wobei das Ergebnis, ob Sprachaktivität im betrachteten Signalabschnitt vorliegt sowohl von der spektralen als auch von der zeitlichen Stationarität des Signalabschnitts und/oder von vorangegangenen Signalabschnitten abhängt.
Im Bereich der Sprachübertragung und im Bereich der digitalen Signal- und Sprachspeicherung ist die Anwendung spezieller digitaler Codierungsverfahren zu Datenkompressionszwecken weit verbreitet und aufgrund der hohen Datenaufkommen sowie der begrenzten Übertragungskapazitäten zwingend notwendig. Ein für die Übertragung von Sprache besonders geeignetes Verfahren ist das aus der US 4133976 bekannte Code Excited Linear Prediction (CELP) -Verfahren. Bei diesem Verfahren wird das Sprachsignal in kleinen zeitlichen Abschnitten ("Sprachrahmen", "Rahmen", "zeitlicher Ausschnitt", "zeitlicher Abschnitt") von jeweils ca. 5 ms bis 50 ms Länge codiert und übertragen. Jeder dieser zeitlichen Abschnitte bzw. Rahmen wird nicht exakt, sondern nur durch eine Annäherung an die tatsächliche Signalform dargestellt. Die den Signalabschnitt beschreibende Approximation wir dabei im wesentlichen aus drei Komponenten gewonnen, die Decoder-Seitig zur Rekonstruktion des Signals verwendet werden: Erstens einem Filter, das die spektrale Struktur des jeweiligen Signalausschnittes annähernd beschreibt, zweitens einem sog. Anregungssignal, das durch dieses Filter gefiltert wird, und drittens einem Verstärkungsfaktor („gain"), mit dem das Anregungssignal vor der Filterung multipliziert wird. Der Verstärkungsfaktor ist für die Lautstärke des jeweiligen Abschnitts des rekonstruierten Signals verantwortlich. Das Ergebnis dieser Filterung, stellt dann die Ap- proximation des zu übertragenden Signalstückes dar. Für jeden Abschnitt muß die Information über die Filtereinstellungen und die Information über das zu verwendende Anregungssignal und dessen Skalierung ("gain"), die die Lautstärke beschreibt, übertragen werden. Im allgemeinen werden diese Parameter aus verschiedenen, dem Encoder und Decoder in identischen Kopien vorliegenden Codebüchern gewonnen, so daß zur Rekonstruktion nur die Nummer der am besten geeigneten Codebucheinträge übertragen werden muß. Bei der Codierung eines Sprachsignals sind also für jeden Abschnitt diese am besten geeigneten Codebucheinträge zu bestimmen, wobei alle relevanten Codebucheinträge in allen relevanten Kombinationen durchsucht werden, und diejenigen Einträge ausgewählt werden, die die im Sinne eines sinnvollen Abstandsmaßes kleinste Abweichung zum Ori- ginalsignal liefern.
Es existieren verschiedene Verfahren zur Optimierung der Struktur der Codebücher (z.B. Mehrstufigkeit, Lineare Prädiktion basierend auf den vergangenen Werten, spezifi- sehe Abstandsmaße, optimierte Suchverfahren, etc.). Außerdem gibt es verschiedene Verfahren, die den Aufbau und das Durchsuchungsverfahren für die Bestimmung der Anregungsvektoren beschreiben.
Häufig stellt sich die Aufgabe, den Charakter des im vorliegenden Rahmen befindliche Signales zu klassifizieren, damit die Details der Codierung, z. B. der zu verwendenden Codebücher, etc. bestimmt werden können. Dabei wird häufig auch eine sog. Sprach-Aktivitäts-Entscheidung ("voice activity detection", VAD) getroffen, die angibt, ob der aktuell vorliegende Signalauschnitt ein Sprachsegment oder kein Sprachsegment enthält. Eine solche Entscheidung muss auch bei Anwesenheit von Hintergrundgeräuschen richtig getroffen werden, was die Klassifikation erschwert.
In dem hier vorgestellten Ansatz wird die Entscheidung der VAD gleichgesetzt mit einer Entscheidung über die Stationarität des aktuellen Signals, so dass also das Ausmaß der Änderung der wesentlichen Signaleigenschaften als Grundlage für die Bestimmung der Stationarität und der damit zusammenhängenden Sprachaktivität verwendet wird. In diesem Sinne ist dann z.B. ein Signalbereich ohne Sprache, der z.B. nur ein gleichbleibend lautes und spektral sich nicht oder nur gering änderndes Hinter- grundgeräusch aufweist, als stationär zu bezeichnen. Umgekehrt ist ein Signalauschnitt mit einem Sprachsignal (mit und ohne Anwesenheit des Hintergrundgeräusches) als nicht stationär, also instationär zu bezeichnen. Im Sinne der VAD wird also beim hier vorgestellten Verfahren das Ergebnis "instationär" mit Sprachaktivität gleichgesetzt, während "stationär" bedeutet, dass keine Sprachaktivität vorliegt. Da die Stationarität eines Signals keine eindeutig festgelegte Meßgröße ist, wird sie nachfolgend genauer definiert.
Das vorgestellte Verfahren geht dabei davon aus, dass ei- ne Bestimmung der Stationarität idealerweise von der zeitlichen Änderung des Kurzzeit-Mittelwertes der Energie des Signals ausgehen sollte. Eine solche Schätzung ist aber im allgemeinen nicht direkt möglich, denn sie kann durch verschiedene störende Randbedingungen beeinflußt werden. So hängt die Energie z.B. auch von der absoluten Lautstärke des Sprechers ab, die auf die Entscheidung a- ber keinen Einfluß haben sollte. Darüber hinaus wird der Energiewert z.B. auch durch das Hintergrundgeräusch beeinflußt. Der Einsatz eines auf einer Energiebetrach- tung basierenden Kriteriums ist also nur sinnvoll, wenn der Einfluß dieser möglichen störenden Effekte ausgeschlossen werden kann. Aus diesem Grund ist das Verfahren zweistufig gestaltet: In der ersten Stufe wird bereits eine gültige Entscheidung über die Stationarität getroffen. Falls in der ersten Stufe auf "stationär" entschieden wird, so wird das diesen stationären Signalabschnitt beschreibende Filter neu berechnet und somit an das jeweils letzte stationäre Signal angepaßt. In der zweiten Stufe wird diese Entscheidung jedoch noch einmal nach einem anderen Kriterien getroffen, und damit unter Verwendung der in der ersten Stufe bereitgestellten Werte kontrolliert und gegebenenfalls abgeändert. Diese zweite Stufe arbeitet dabei unter Verwendung eines Energiemaßes . Die zweite Stufe liefert außerdem ein Ergebnis, das von der ersten Stufe bei der Analyse des nachfolgenden Sprachrahmens berücksichtigt wird. Auf diese Weise besteht eine Rückkopplung zwischen diesen beiden Stufen, die sicherstellt, das die von der ersten Stufe geliefer- ten Werte eine optimale Grundlage für die Entscheidung der zweiten Stufe bilden.
Die Arbeitsweise der beiden Stufen wird im folgenden einzeln vorgestellt.
Zunächst wird die erste Stufe vorgestellt, die eine erste Entscheidung basierend auf der Untersuchung der spektralen Stationarität liefert. Betrachtet man das Frequenzspektrum eines Signalabschnitts, so weist es für den betrachteten Zeitraum eine charakteristische Form auf. Ist die Änderung der Frequenzspektren zeitlich aufeinanderfolgender Signalabschnitte hinreichend gering, d.h. die charakteristische Form der jeweiligen Spektren bleibt mehr oder weniger erhalten, so kann man von spektraler Stationarität sprechen.
Das Ergebnis der Ersten Stufe wird mit STATl bezeichnet und das Ergebnis der zweiten Stufe mit STAT2. STAT2 entspricht auch der endgültigen Entscheidung des hier vorgestellten VAD-Verfahrens . Im folgenden werden Listen mit mehreren Werten in der Form "Listenname [0..N-l] " be- schrieben, wobei über Listenname [k] , k=0...N~l ein einzelner Wert, nämlich der Wert mit dem Index k der Werteliste "Listenname" bezeichnet wird.
Spektrale Stationarität (1. Stufe)
Diese erste Stufe des Stationaritätsverfahrens erhält als Eingangswerte die folgenden Größen:
• Lineare Prädiktionskoeffizienten des aktuellen Rahmens (LPC_NOW[0...ORDER-1] ; ORDER=14) • ein Mass für die Stimmhaftigkeit des aktuellen Rahmens (STIMM[0..1] )
• Die Anzahl der in der Analyse der zurückliegenden Rahmen durch die zweite Stufe des Algorithmus als "insta- tionär" klassifizierten Rahmen (N_INSTAT2, Werte =0, 1, 2, usw. )
• verschiedene für die zurückliegenden Rahmen berechnete Werte (STIMM_MEM[0..1] , LPC_STATl [0... ORDER-1] )
Als Ausgangswert liefert die erste Stufe die Werte
• erste Entscheidung über Stationarität: STATl (mögliche Werte: "stationär", "instationär")
• Lineare Prädiktionskoeffizienten des letzten als "stationär" klassifizierten Rahmens (LPC_STAT1)
Die Entscheidung der ersten Stufe basiert primär auf der Betrachtung der sog. spektralen Distanz ("spektraler Abstand", "spektrale Verzerrung", engl . : "spectral distor- tion" , ) zwischen dem aktuellen und dem vorangegengenen Rahmen. In die Entscheidung gehen außerdem auch die Werte eines Stimmhaftigkeitsmaßes ein, das für die letzten Rah- men berechnet wurde. Die für die Entscheidung verwendeten Schwellenwerte werden außerdem von der Anzahl der unmittelbar zurückliegenden, in der zweiten Stufe als "stationär" klassifizierten Rahmen (d.h. STAT2="stationär" ) beeinflußt. Die einzelnen Berechnungen werden im folgen- den erläutert: a) Berechnung der spektralen Distanz:
Die Berechnung ergibt sich gemäß:
Dabei bezeichnet
den logarithmierten Einhüllendenfrequenzgang des aktuellen Signalabschnitts, der aus LPC_NOW berechnet wird.
bezeichnet den logarithmierten Einhüllendenfrequenzgang des vorangegangenen Signalabschnitts, der aus LPC_STATl berechnet wird.
Der Wert von SD wird nach der Berechnung nach unten auf einen Minimalwert von 1.6 begrenzt. Der so begrenzte Wert wird dann als aktueller Wert in eine Liste der vergangenen Werte SD_MEM[0..9] gespeichert, wobei der am längsten zurückliegende Wert zuvor aus der Liste entfernt wurde.
Neben dem aktuellen Wert für SD wird auch ein Mittelwert der vergangenen 10 Werte von SD berechnet, der in SD_MEAN gespeichert wird, wobei zur Berechnung die Werte aus SD MEM verwendet werden. b) Berechnung der mittleren Stiπtrahaftigkeit:
Als Eingangswert in die erste Stufe wurden auch die Ergebnisse eines Stimmhaftigkeitsmasses (STIMM[0..1] ) bereitgestellt. (Diese Werte liegen zwischen 0 und 1 und wurden zuvor nach
berechnet. Durch Bildung des kurzzeitigen Mittelwertes von χ über den letzten 10 Signalabschnitten ( maιr : Index des momentanen Signalabschnitts) folgen die Werte:
1 mcur
STIMM[k] = — χi , k=0, 1 10,-=„, ιo
wobei für jeden Rahmen zwei Werte berechnet werden; STIMM[0] für die erste Rahmenhälfte, und STIMM[1] für die zweite Rahmenhälfte. Hat STIMM[k] einen Wert nahe 0, so ist das Signal eindeutig stimmlos, während ein Wert nahe 1 einen eindeutig stimmhaften Sprachbereich charakterisiert. )
Um zunächst Störungen im Sonderfall sehr leiser Signale (z.B. vor Signalbeginn) auszuschließen, werden die daraus resultierenden sehr kleinen Werte von STIMM[k] auf 0.5 gesetzt, nämlich dann, wenn ihr Wert zuvor unter 0.05 lag (für k=0, 1) .
Die so begrenzten Werte werden dann als aktuellste Werte an der Stelle 19 in eine Liste der vergangenen Werte STIMM_MEM[0..19] gespeichert, wobei die am längsten zurückliegenden Werte zuvor aus der Liste entfernt wurden. Über die zurückliegenden 10 Werte von STIMM_MEM[] wird nun ge ittelt, und das Ergebnis wird in STIMM_MEAN abgelegt.
Die letzten vier Werte von STIMM_MEM[ ] , nämlich die Werte STIMM_MEM[16] bis STIMM_MEM[19] werden noch einmal gemittelt und in STIMM4 gespeichert.
c) Berücksichtigung der Anzahl eventuell vorliegender vereinzelter "stimmhaft"-Rahmen:
Sollten bei der Analyse der zurückliegenden Rahmen vereinzelt instationäre Rahmen aufgetreten sein, so wird dies Anhand des Wertes von N_INSTAT2 erkannt. In diesem Fall liegt ein Übergang in den "stationär"-Zustand nur einige wenige Rahmen zurück. Die für die zweite Stufe notwendigen LPC_STATl [] -Werte, die in der ersten Stufe bereitgestellt werden, sollen in diesem Übergangsbereich aber noch nicht sofort, sondern erst nach einigen abzuwartenden "Sicherheitsrahmen" auf einen neuen Wert gebracht werden. Aus diesem Grund wird für den Fall, dass N_INSTAT2>0 ist, der interne Schwellwert TRES_SD_MEAN, der für die nachfolgende Entscheidung verwendet wird, auf einen anderen Wert gesetzt als sonst:
TRES_SD_MEAN = 4.0 (wenn N_INSTAT2 > 0 )
TRES_SD_MEAN = 2.6 (sonst)
d) Entscheidung
Zur Entscheidung wird zunächst sowohl SD selbst als auch sein kurzzeitlicher Mittelwert über den letzten 10 Sig- nalabschnitten SD_MEAN betrachtet. Liegen beide Maße SD und SD_MEAN unterhalb eines für sie spezifischen Schwellwertes TRES_SD bzw. TRES__SD_MEAN, so wird spektrale Stationarität angenommen.
Konkret gilt für die Schwellenwerte:
TRES_SD = 2.6 dB
TRES_SD_MEAN = 2.6 oder 4.0 dB (vgl. c)
und es wird entschieden
STATl = "stationär" wenn (SD < TRES_SD) UND (SD_MEAN < TRES_SD_MEAN) ,
STATl = "instationär" (sonst) .
Innerhalb eines Sprachsignales, das gemäß der Zielsetzung der VAD als "instationär" klassifiziert werden sollte, können allerdings kurzzeitig auch Abschnitte auftreten, die nach obigem Kriterium als "stationär" betrachtet werden. Solche Abschnitte können allerdings dann über das Stimmhaftigkeitsmass STIMM_MEAN erkannt und ausgeschlossen werden: Falls der aktuelle Rahmen nach obiger Regel als "stationär" klassifiziert wurde, so kann nach folgen- der Regel eine Korrektur erfolgen:
STATl = "instationär" wenn
(STIMM_MEAN > 0.7) UND (STIMM4<=0.56) oder (STIMM_MEAN < 0.3) UND (STIMM4<=0.56 ) oder STIMM_MEM[19] > 1.5,
Damit liegt das Ergebnis der ersten Stufe vor. e) Vorbereiten der Werte für die zweite Stufe
Die zweite Stufe arbeitet unter Verwendung einer in dieser Stufe vorbereiteten Liste von Linearen- Prädiktionskoeffizienten, die das zuletzt von dieser Stu- fe als "stationär" klassifizierte Signalstück beschreiben. In diesem Fall wird LPC_STAT1 durch das aktuelle LPC_NOW überschrieben (update) :
LPC_STATl[k] = LPC_NOW[k], k=0... ORDER-1 wenn
STATl = "stationär"
Anderenfalls werden die Werte in LPC_STAT1[] nicht geändert und beschreiben somit weiterhin den letzten von der ersten Stufe als "stationär" klassifizierten Signalausschnitt.
Zeitliche Stationarität (2. Stufe):
Betrachtet man einen Signalabschnitt im Zeitbereich, so weist es einen für den betrachteten Zeitraum charakteristischen Amplituden- bzw. Energieverlauf auf. Bleibt die Energie zeitlich aufeinanderfolgender Signalabschnitte konstant, bzw. die Abweichung der Energie ist auf ein hinreichend kleines Toleranzintervall begrenzt, so kann man von zeitlicher Stationarität sprechen. Das Vorliegen einer zeitlichen Stationarität wird in der zweiten Stufe analysiert .
Als Eingangsgrößen verwendet die zweite Stufe die Werte
• das aktuelle Sprachsignal in abgetasteter Form (SIGNAL [0...FRAME_LEN-1] , FRAME_LEN = 240) • VAD-Entscheidung der ersten Stufe: STATl (mögliche Werte: "stationär", "instationär")
• die linearen Prädiktionskoeffizienten, die den letzten "stationären" Rahmen beschrieben (LPC_STAT1 [0..13] )
• die Energie des Residualsignales des vorherigen stationären Rahmens (E_RES_REF)
• Eine Variable ANFANG, die einen Neubeginn der Werteanpassung steuert (ANFANG, Werte = "true", "false")
Als Ausgangswert liefert die zweite Stufe die Werte
• abschliessende Entscheidung über Stationarität: STAT2 (mögliche Werte: "stationär", "instationär")
• Die Anzahl der in der Analyse der zurückliegenden Rahmen durch die zweite Stufe des Algorithmus als "instationär" klassifizierten Rahmen (N_INSTAT2, Werte =0, 1, 2, usw.) und die Anzahl der unmittelbar zurückliegenden stationären Rahmen N_STAT2 (Werte =0, 1, 2, usw. ) .
• Die Variable ANFANG, die ggf. auf einen neuen Wert gesetzt wurde.
Zur VAD-Entscheidung der zweiten Stufe wird die zeitliche Änderung der Energie des Residualsignales verwendet, das mit dem an den letzten stationären Signalabschnitt ange- passten LPC-Filters LPC_STAT1[] und dem aktuellen Eingangssignal SIGNAL [] berechnet wurde. Dabei gehen sowohl eine Schätzung der zuletzt vorliegenden Restsignalenergie E_RES_REF als unterer Referenzwert und ein vorher ausgewählter Toleranzwert E_TOL in die Entscheidung ein. Der aktuelle Restsignal-Energiewert darf dann um nicht mehr als E_TOL über dem Referenzwert E_RES_REF liegen, wenn das Signal als "stationär" gelten soll.
Die Bestimmung der relevanten Grossen wird im folgenden dargestellt.
a) Berechnung der Energie des Residualsignals
Das Eingagssignal SIGNAL[0...FRAME_LEN-1] des aktuelle Rahmens wird unter Verwendung der in LPC_STATl [0.. ORDER- 1] gespeicherten Linearen Prädiktionskoeffizienten invers gefiltert. Das Resultat dieser Filterung wird als "Resi- dualsignal" bezeichnet und in SPEECH_RES [0..FRAME_LEN-1] gespeichert .
Darauf wird die Energie E_RES dieses Residualsignals SIGNAL_RES [ ] berechnet :
E_RES = Summe { SIGNAL_RES [k] * SIGNAL_RES [k] / FRAME_LEN },
k=0...FRAME_LEN-1
und dann logarithmisch dargestellt:
E_RES = 10 * log ( E_RES / E_MAX) ,
wobei
E_MAX = SIGNAL_MAX * SIGNAL_MAX
SIGNAL_MAX beschreibt den maximal möglichen Amplitudenwert eines einzelnen Abtastwertes . Dieser Wert ist abhängig von der Implementierungsumgebung; in dem der Erfindung zugrundeliegenden Prototyp betrug er beispielsweise
SIGNAL_MAX = 32767;
in anderen Anwendungsfällen ist gegebenenfalls z.B. SIGNAL_MAX = 1.0;
zu setzten.
Der so berechnete Wert E_RES ist in dB bezüglich des Maximalwertes ausgedrückt. Er liegt somit stets unterhalb von 0, typische Werte betragen etwa -100 dB für Signale mit sehr niedriger Energie und etwa -30 dB für Signale mit vergleichsweise hoher Energie.
Falls der berechnete Wert E_RES sehr klein ist, so liegt ein Anfangszustand vor, und der Wert von E_RES wird nach unten begrenzt:
wenn (E_RES < -200) : E_RES = -200 ANFANG = true
Diese Bedingung ist effektiv nur zu Beginn des Algorith- mus oder bei sehr langen, sehr ruhigen Pausen erfüllbar, so dass nur zu Beginn der Wert ANFANG = true gesetzt werden kann.
Der Wert von ANFANG wird unter dieser Bedingung auf false gesetzt :
wenn (N_INSTAT2 > 4) : ANFANG = false
Um die Berechnung der Referenz-Restsignalenergie auch für den Fall niedriger Signalenergie sicherzustellen, wird folgende Bedingung eingeführt:
wenn (ANFANG=false) UND (E_RES < -65.0): STAT1="stationär" Damit wird die Bedingung für die Anpassung von E_RES_RΞF auch für sehr ruhige Signalpausen erzwungen.
Durch die Verwendung der Energie des Residualsignales wird implizit eine Anpassung an die zuletzt als stationär klassifizierte Spektralform vorgenommen. Sollte sich das aktuelle Signal gegenüber dieser Spektralform geändert haben, so wird das Residualsignal eine messbar höhere E- nergie besitzen als in dem Fall eines ungeänderten, gleichmässig fortgesetzten Signals .
b) Berechnung der Referenz-Restsignalenergie E_RES_REF
Neben dem durch LPC_STAT1[] beschriebenen Einhüllendenfrequenzgang des zuletzt von der ersten Stufe als "stationär" klassififierten Rahmens wird in der zweiten Stufe auch die Residualenergie dieses Rahmens gespeichert und als Referenzwert verwendet. Dieser Wert wird mit E_RES_REF bezeichnet. Sie wird hier immer genau dann neu festgesetzt, wenn die erste Stufe den aktuellen Rahmen als "stationär" klassifiziert hat. In diesem Fall wird als neuer Wert für diese Referenzenergie E_RES_REF der zuvor berechnete Wert E_RES verwendet:
Wenn STAT1=" stationär" dann setze
E_RES_REF = E_RES wenn
(E_RES < E_RES_REF + 12dB) ODER (E_RES_REF < -200 dB) ODER
(E_RES < -65 dB)
Die erste Bedingung beschreibt den Normalfall: Eine Anpassung von E_RES_REF findet somit fast immer statt, wenn lö
STAT1="stationär" ist, denn der Toleranzwert von 12dB ist bewußt grosszügig gewählt. Die anderen Bedingungen sind Spezialfälle; sie sorgen für eine Anpassung zu Beginn des Algorithmus und für eine Neuschätzung bei sehr niedrigen Eingangswerten, die in jedem Falle als neuer Referenzwert für stationäre Signalabschnitte gelten sollen.
c) Bestimmung des Toleranzwertes E_TOL
Der Toleranzwert E_T0L gibt für das Entscheidungskriteri- um eine maximale erlaubte Änderung der Energie des Resi- dialsignales gegenüber derjenigen der vorherigen Rahmens an, damit der aktuelle Rahmen als "stationär" gelten kann. Zunächst wird gesetzt
E_TOL = 12 dB
Dieser vorläufige Wert wird nachfolgend jedoch unter bestimmten Bedingungen korrigiert:
wenn N_STAT2 <= 10: E_TOL = 3.0
sonst wenn E_RES < -60 :
E_TOL = 13 . 0 sonst wenn E_RES > -40 : E_TOL = 1 . 5 sonst
E TOL = 6 . 5 Mit der ersten Bedingung wird sichergestellt, dass eine bisher nur kurz bestehende Stationarität sehr leicht verlassen werden kann, indem durch die niedrige Toleranz E_TOL leichter auf "instationär" entschieden wird. Die anderen Fälle beinhalten Anpassungen, die für verschiedene Spezialfälle jeweils günstigste Werte vorsehen (Abschnitte mit sehr niedriger Energie sollen schwerer als "instationär" klassifiziert werden, Abschnitte mit vergleichsweise hoher Energie sollen leichter als "instatio- när" klassifiziert werden) .
d) Entscheidung
Die eigentliche Entscheidung findet nun unter Verwendung der zuvor berechneten und angepassten Werte E_RES, E_RES_REF und E_TOL statt. Ausserde wird sowohl die Anzahl aufeinanderfolgender "stationärer" Rahmen N_STAT2 als auch die Anzahl zurückliegender instationärer Rahmen N_INSTAT2 auf aktuelle Werte gesetzt.
Die Entscheidung erfolgt nach:
wenn ( E_RES > E_RES_REF + E_TOL) : STAT2 = "instationär" N_STAT2 = 0 N_INSTAT2 = N_INSTAT2 + 1 sonst STAT2 = "stationär"
N_STAT2 = N_STAT2 + 1 wenn N_STAT2 > 16: N INSTAT = 0 Der Zähler der zurückliegenden stationären Rahmen N_STAT2 wird also sofort beim Auftreten eines instationären Rahmens auf 0 gesetzt, während der Zähler für die zurückliegenden instationären Rahmen N_INSTAT2 erst nach dem Vor- liegen einer bestimmten Anzahl (im realisierten Prototyp: 16) von aufeinanderfolgenden stationären Rahmen auf 0 gesetzt wird. N_INSTAT2 wird als Eingangswert der ersten Stufe verwendet, und hat dort Einfluß auf die Entscheidung der ersten Stufe. Konkret wird über N_INSTAT2 ver- hindert, dass die erste Stufe den das Einhüllendenspektrum beschreibenden Koeffizientensatz LPC_STAT1[] neu bestimmt, bevor gesichert ist, dass tatsächlich ein neuer stationärer Signalabschnitt vorliegt. Kurzzeitige oder vereinzelte STAT2="stationär"-Entscheidungen können also auftreten, aber erst nach einer bestimmten Anzahl aufeinanderfolgender als "stationär" klassifizierter Rahmen wird auch der das Einhüllendenspektrum beschreibenden Koeffizientensatz LPC_STATl[] für den dann vorliegenden stationären Signalabschnitt in der ersten Stufe neu be- stimmt.
Entsprechend der für die zweite Stufe vorgestellten Arbeitsweise und der vorgestellten Parameter wird die zweite Stufe eine STAT1="stationär"-Entscheidung der ersten Stufe niemals zu "instationär" abändern, sondern wird in diesem Falle immer ebenfalls auf STAT2="stationär" entscheiden.
Eine "STAT1=" instationär"-Entscheidung der ersten Stufe kann dagegen von der zweiten Stufe zu einer STAT2="stationär" -Entscheidung korrigiert werden, oder auch als STAT2="instationär" bestätigt werden. Dies ist insbesondere dann der Fall, wenn die spektrale Instatio- narität, die in der ersten Stufe zu STATl="instationär" geführt hat, lediglich durch vereinzelte spektrale Schwankungen des Hintergrundsignales verursacht wurde. Dieser Fall wird jedoch in der zweiten Stufe unter Berücksichtigung der Energie neu entschieden.
Es versteht sich von selbst, daß die Algorithmen zur Bestimmung der Sprachaktivität, der Stationarität und der Periodizität den jeweils gegebenen Umständen entsprechend angepaßt werden müssen bzw. können. Die einzelnen o.a. Schwellwerte und Funktionen sind lediglich exemplarisch und müssen in der Regel durch eigene Versuche herausgefunden werden.

Claims

Patentansprüche
1. Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals, wobei das Ergeb- nis, ob Sprachaktivität im betrachteten Signalabschnitt vorliegt sowohl von der spektralen als auch von der zeitlichen Stationarität des Signalabschnitts und/oder von vorangegangenen Signalabschnitten abhängt, dadurch gekennz ei chnet , daß das Verfahren in einer ersten Stufe beurteilt, ob im betrachteten Signalabschnitt spektrale Stationarität vorliegt, und daß in einer zweiten Stufe beurteilt wird, ob im betrachteten Signalabschnitt zeitliche Stationarität vorliegt, wobei die endgültige Ent- scheidung über das Vorhandensein von Sprachaktivität im betrachteten Signalabschnitt von den Ausgangswerten der beiden Stufen abhängig ist.
2. Verfahren nach Anspruch 1 , dadurch ge kennz ei chnet , daß zur Ermittlung der spekt- ralen Stationarität sowie der Energieveränderung (zeitliche Stationarität) mindestens ein zeitlich vorangegangener Signalabschnitt berücksichtigt wird.
3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennze ichne t , daß jeder Signalabschnitt in mindestens zwei Unterabschnitte aufgeteilt wird, die sich überlappen können, wobei für jeden Unterabschnitt die Sprachaktivität bestimmt wird.
4. Verfahren nach Anspruch 3, dadurch ge kennz e i chnet , daß für die Beurteilung der Sprachaktivität eines zeitlich nachfolgenden Signalabschnitts die ermittelten Werte für die Sprachaktivität der einzelnen Unterabschnitte jedes vorangegan- gen Signalabschnitts berücksichtigt werden.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennz ei chnet , daß in der ersten Stufe die spektrale Verzerrung (engl.: spectral distortion) zwischen dem aktuell betrachte- ten Signalabschnitt und dem oder den vorangegangenen Signalabschnitten ermittelt wird.
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennz ei chnet , daß die erste Stufe eine erste Entscheidung über die Statio- narität des betrachteten Signalabschnitts trifft, wobei eine Ausgangsgröße STATl die Werte „stationär" o- der „instationär" annehmen kann.
7. Verfahren nach Anspruch 6, dadurch ge kennzei chnet , daß die Entscheidung über die Stationarität auf Basis der zuvor ermittelten linearen Prädikationfskoeffizienten des aktuellen Signalabschnitts LPC_NOW[] und einem zuvor ermittelten Maß für die Stimmhaftigkeit des betrachteten Signalab- schnitts erfolgt.
8. Verfahren nach Anspruch 7, dadurch ge kennz ei chnet , daß zusätzlich die Anzahl der in der Analyse der zurückliegenden Signalabschnitte durch die zweite Stufe als „instationär" klassifi- zierten Signalabschnitte N_INSTAT2 für die Bewertung von STATl berücksichtigt werden.
9. Verfahren nach Anspruch 7 oder 8, dadurch gekennze ichnet , daß zusätzlich für die zurückliegenden Rahmen berechnete Werte wie z.B. STIMM_MEM[0..1] , LPC_STATl [ ] bei der Berechnung eines Wertes für STATl berücksichtigt werden.
10. Verfahren nach einem der vorherigen Ansprüche, da durch gekennze i chnet , daß die erste Stufe zusätzlich zu dem Ausgangswert STATl einen wei- teren Ausgangswert LPC_STATl[] liefert, der von LPC_NOW[] und STATl abhängig ist.
11. Verfahren nach einem der vorherigen Ansprüche, da durch gekennz e i chnet , daß in der zweiten Stufe zur Beurteilung, ob zeitliche Stationa- rität vorliegt, zumindest folgende Eingangsgrößen verwendet werden:
Signalabschnitt in abgetasteter Form;
STATl (Entscheidung der ersten Stufe) ;
12. Verfahren nach Anspruch 11, dadurch g e - kennz ei chnet , daß zusätzlich folgende Eingangsgrößen in der zweiten Stufe verwendet werden:
- die linearen Prädikationskoefizienten LPC_STAT1[], die den letzten stationären Signalabschnitt beschreiben; die Energie E_RES_REF des Residualsignales des vorherigen stationären Signalabschnitts;
eine Variable ANFANG, die einen Neubeginn der Werteanpassung steuert, wobei die Variable ANFANG die Werte „wahr" und „falsch" annehmen kann.
13. Verfahren nach einem der vorherigen Ansprüche, da durch gekennz ei chnet , daß immer wenn STATl gleich "stationär" die zweite Stufe als Ergebnis für STAT2 „stationär" ausgibt.
14. Verfahren nach einem der vorherigen Ansprüche, da durch gekennz e i chnet , daß der Wert von STAT2 das Maß für die Sprachaktivität des betrachteten Signalabschnitts ist.
EP01933720A 2000-04-28 2001-03-16 Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) Withdrawn EP1279164A1 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
DE10020863 2000-04-28
DE10020863 2000-04-28
DE10026872 2000-05-31
DE10026872A DE10026872A1 (de) 2000-04-28 2000-05-31 Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)
PCT/EP2001/003056 WO2001084536A1 (de) 2000-04-28 2001-03-16 Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)

Publications (1)

Publication Number Publication Date
EP1279164A1 true EP1279164A1 (de) 2003-01-29

Family

ID=26005502

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01933720A Withdrawn EP1279164A1 (de) 2000-04-28 2001-03-16 Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)

Country Status (3)

Country Link
US (1) US7254532B2 (de)
EP (1) EP1279164A1 (de)
WO (1) WO2001084536A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421047B1 (ko) * 2001-07-18 2004-03-04 삼성전자주식회사 광 구동기에 있어서 광량 검출장치 및 방법
KR100463657B1 (ko) * 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
US20090316870A1 (en) * 2008-06-19 2009-12-24 Motorola, Inc. Devices and Methods for Performing N-Way Mute for N-Way Voice Over Internet Protocol (VOIP) Calls
US9535450B2 (en) 2011-07-17 2017-01-03 International Business Machines Corporation Synchronization of data streams with associated metadata streams using smallest sum of absolute differences between time indices of data events and metadata events
US8725508B2 (en) * 2012-03-27 2014-05-13 Novospeech Method and apparatus for element identification in a signal
US9484045B2 (en) * 2012-09-07 2016-11-01 Nuance Communications, Inc. System and method for automatic prediction of speech suitability for statistical modeling
PL3309784T3 (pl) 2014-07-29 2020-02-28 Telefonaktiebolaget Lm Ericsson (Publ) Szacowanie szumu tła w sygnałach audio
US9613640B1 (en) 2016-01-14 2017-04-04 Audyssey Laboratories, Inc. Speech/music discrimination
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals

Family Cites Families (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE6901707U (de) 1969-01-17 1969-06-04 Buessing Automobilwerke Ag Kuppelbare, flexible leitung fuer kraftfahrzeuge
DE6942002U (de) 1969-10-27 1970-02-12 Tschatsch Metallwarenfab Rahmen fuer etuis, z.b. manikuere-etuis, schmuckkaesten, o.dgl.
US4133976A (en) 1978-04-07 1979-01-09 Bell Telephone Laboratories, Incorporated Predictive speech signal coding with reduced noise effects
FR2646978B1 (fr) 1989-05-11 1991-08-23 France Etat Procede et installation a codage de signaux sonores
DE4020633A1 (de) 1990-06-26 1992-01-02 Volke Hans Juergen Dr Sc Nat Schaltungsanordnung zur zeitvariaten spektralanalyse elektrischer signale
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
SG49709A1 (en) 1993-02-12 1998-06-15 British Telecomm Noise reduction
US5459814A (en) 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5404394A (en) * 1993-05-24 1995-04-04 Comsat Corporation Secure communication system
SE501305C2 (sv) 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5892900A (en) * 1996-08-30 1999-04-06 Intertrust Technologies Corp. Systems and methods for secure transaction management and electronic rights protection
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
CN1225736A (zh) * 1996-07-03 1999-08-11 英国电讯有限公司 语音活动检测器
US6253188B1 (en) * 1996-09-20 2001-06-26 Thomson Newspapers, Inc. Automated interactive classified ad system for the internet
US20050010475A1 (en) * 1996-10-25 2005-01-13 Ipf, Inc. Internet-based brand management and marketing communication instrumentation network for deploying, installing and remotely programming brand-building server-side driven multi-mode virtual Kiosks on the World Wide Web (WWW), and methods of brand marketing communication between brand marketers and consumers using the same
FR2762464B1 (fr) * 1997-04-16 1999-06-25 France Telecom Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere"
DE19716862A1 (de) 1997-04-22 1998-10-29 Deutsche Telekom Ag Sprachaktivitätserkennung
US6003003A (en) * 1997-06-27 1999-12-14 Advanced Micro Devices, Inc. Speech recognition system having a quantizer using a single robust codebook designed at multiple signal to noise ratios
US20020002488A1 (en) * 1997-09-11 2002-01-03 Muyres Matthew R. Locally driven advertising system
US6134524A (en) * 1997-10-24 2000-10-17 Nortel Networks Corporation Method and apparatus to detect and delimit foreground speech
US6338067B1 (en) * 1998-09-01 2002-01-08 Sector Data, Llc. Product/service hierarchy database for market competition and investment analysis
US6192335B1 (en) 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US7130807B1 (en) * 1999-11-22 2006-10-31 Accenture Llp Technology sharing during demand and supply planning in a network-based supply chain environment
JP2003517166A (ja) * 1999-12-06 2003-05-20 イーダブリュティー トレード アンド ビジネス コンサルタンツ エヌジー リミテッド 出版物に広告を載せる方法
US6629081B1 (en) * 1999-12-22 2003-09-30 Accenture Llp Account settlement and financing in an e-commerce environment
US20010029523A1 (en) * 2000-01-21 2001-10-11 Mcternan Brennan J. System and method for accounting for variations in client capabilities in the distribution of a media presentation
US20010037205A1 (en) * 2000-01-29 2001-11-01 Joao Raymond Anthony Apparatus and method for effectuating an affiliated marketing relationship
US6512996B1 (en) * 2000-03-08 2003-01-28 University Corporation For Atmospheric Research System for measuring characteristic of scatterers using spaced receiver remote sensors
US7747465B2 (en) * 2000-03-13 2010-06-29 Intellions, Inc. Determining the effectiveness of internet advertising
US7870579B2 (en) * 2000-04-07 2011-01-11 Visible Worl, Inc. Systems and methods for managing and distributing media content
US20020123994A1 (en) * 2000-04-26 2002-09-05 Yves Schabes System for fulfilling an information need using extended matching techniques
US6954728B1 (en) * 2000-05-15 2005-10-11 Avatizing, Llc System and method for consumer-selected advertising and branding in interactive media
AU2001272992A1 (en) * 2000-06-23 2002-01-08 Ecomsystems, Inc. System and method for computer-created advertisements
US6839681B1 (en) * 2000-06-28 2005-01-04 Right Angle Research Llc Performance measurement method for public relations, advertising and sales events
US20030036944A1 (en) * 2000-10-11 2003-02-20 Lesandrini Jay William Extensible business method with advertisement research as an example
US7206854B2 (en) * 2000-12-11 2007-04-17 General Instrument Corporation Seamless arbitrary data insertion for streaming media
US20020141584A1 (en) * 2001-01-26 2002-10-03 Ravi Razdan Clearinghouse for enabling real-time remote digital rights management, copyright protection and distribution auditing
US7330717B2 (en) * 2001-02-23 2008-02-12 Lucent Technologies Inc. Rule-based system and method for managing the provisioning of user applications on limited-resource and/or wireless devices
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US7200565B2 (en) * 2001-04-17 2007-04-03 International Business Machines Corporation System and method for promoting the use of a selected software product having an adaptation module
US7058624B2 (en) * 2001-06-20 2006-06-06 Hewlett-Packard Development Company, L.P. System and method for optimizing search results
US20030229507A1 (en) * 2001-07-13 2003-12-11 Damir Perge System and method for matching donors and charities
US20030023598A1 (en) * 2001-07-26 2003-01-30 International Business Machines Corporation Dynamic composite advertisements for distribution via computer networks
US7039931B2 (en) * 2002-05-30 2006-05-02 Nielsen Media Research, Inc. Multi-market broadcast tracking, management and reporting method and system
US20060026067A1 (en) * 2002-06-14 2006-02-02 Nicholas Frank C Method and system for providing network based target advertising and encapsulation
BR0314303A (pt) * 2002-09-17 2005-07-05 Mobiqa Ltd Mensagens otimizadas contendo informações de código de barras para dispositivos de recepção móveis
US20040059996A1 (en) * 2002-09-24 2004-03-25 Fasciano Peter J. Exhibition of digital media assets from a digital media asset management system to facilitate creative story generation
US20040186776A1 (en) * 2003-01-28 2004-09-23 Llach Eduardo F. System for automatically selling and purchasing highly targeted and dynamic advertising impressions using a mixture of price metrics
US20040216157A1 (en) * 2003-04-25 2004-10-28 Richard Shain System and method for advertising purchase verification
US7890363B2 (en) * 2003-06-05 2011-02-15 Hayley Logistics Llc System and method of identifying trendsetters
US7003420B2 (en) * 2003-10-31 2006-02-21 International Business Machines Corporation Late binding of variables during test case generation for hardware and software design verification
US10417298B2 (en) * 2004-12-02 2019-09-17 Insignio Technologies, Inc. Personalized content processing and delivery system and media
US20070067297A1 (en) * 2004-04-30 2007-03-22 Kublickis Peter J System and methods for a micropayment-enabled marketplace with permission-based, self-service, precision-targeted delivery of advertising, entertainment and informational content and relationship marketing to anonymous internet users
US7596571B2 (en) * 2004-06-30 2009-09-29 Technorati, Inc. Ecosystem method of aggregation and search and related techniques
US20080126476A1 (en) * 2004-08-04 2008-05-29 Nicholas Frank C Method and System for the Creating, Managing, and Delivery of Enhanced Feed Formatted Content
US7590589B2 (en) * 2004-09-10 2009-09-15 Hoffberg Steven M Game theoretic prioritization scheme for mobile ad hoc networks permitting hierarchal deference
US8335785B2 (en) * 2004-09-28 2012-12-18 Hewlett-Packard Development Company, L.P. Ranking results for network search query
US20080126178A1 (en) * 2005-09-10 2008-05-29 Moore James F Surge-Based Online Advertising
US7676405B2 (en) * 2005-06-01 2010-03-09 Google Inc. System and method for media play forecasting
US20060277105A1 (en) * 2005-06-02 2006-12-07 Harris Neil I Method for customizing multi-media advertisement for targeting specific demographics
WO2006138484A2 (en) * 2005-06-15 2006-12-28 Revver, Inc. Media marketplaces
US8914301B2 (en) * 2005-10-28 2014-12-16 Joyce A. Book Method and apparatus for dynamic ad creation
JP2009521736A (ja) * 2005-11-07 2009-06-04 スキャンスカウト,インコーポレイテッド リッチメディアと共に広告をレンダリングするための技術
US20070143186A1 (en) * 2005-12-19 2007-06-21 Jeff Apple Systems, apparatuses, methods, and computer program products for optimizing allocation of an advertising budget that maximizes sales and/or profits and enabling advertisers to buy media online
US20070157228A1 (en) * 2005-12-30 2007-07-05 Jason Bayer Advertising with video ad creatives
US20070162335A1 (en) * 2006-01-11 2007-07-12 Mekikian Gary C Advertiser Sponsored Media Download and Distribution Using Real-Time Ad and Media Matching and Concatenation
US20070260520A1 (en) * 2006-01-18 2007-11-08 Teracent Corporation System, method and computer program product for selecting internet-based advertising
US7756720B2 (en) * 2006-01-25 2010-07-13 Fameball, Inc. Method and system for the objective quantification of fame
US20070198344A1 (en) * 2006-02-17 2007-08-23 Derek Collison Advertiser interface for entering user distributed advertisement-enabled advertisement information
US8438170B2 (en) * 2006-03-29 2013-05-07 Yahoo! Inc. Behavioral targeting system that generates user profiles for target objectives
US8326686B2 (en) * 2006-03-30 2012-12-04 Google Inc. Automatically generating ads and ad-serving index
US8645991B2 (en) * 2006-03-30 2014-02-04 Tout Industries, Inc. Method and apparatus for annotating media streams
US20070282684A1 (en) * 2006-05-12 2007-12-06 Prosser Steven H System and Method for Determining Affinity Profiles for Research, Marketing, and Recommendation Systems
WO2007139857A2 (en) * 2006-05-24 2007-12-06 Archetype Media, Inc. Storing data related to social publishers and associating the data with electronic brand data
US7831586B2 (en) * 2006-06-09 2010-11-09 Ebay Inc. System and method for application programming interfaces for keyword extraction and contextual advertisement generation
US20080167957A1 (en) * 2006-06-28 2008-07-10 Google Inc. Integrating Placement of Advertisements in Multiple Media Types
US20080086432A1 (en) * 2006-07-12 2008-04-10 Schmidtler Mauritius A R Data classification methods using machine learning techniques
US8775237B2 (en) * 2006-08-02 2014-07-08 Opinionlab, Inc. System and method for measuring and reporting user reactions to advertisements on a web page
US7809602B2 (en) * 2006-08-31 2010-10-05 Opinionlab, Inc. Computer-implemented system and method for measuring and reporting business intelligence based on comments collected from web page users using software associated with accessed web pages
US20080059208A1 (en) * 2006-09-01 2008-03-06 Mark Rockfeller System and Method for Evaluation, Management, and Measurement of Sponsorship
US20080077574A1 (en) * 2006-09-22 2008-03-27 John Nicholas Gross Topic Based Recommender System & Methods
US20080091516A1 (en) * 2006-10-17 2008-04-17 Giovanni Giunta Response monitoring system for an advertising campaign
JP5312771B2 (ja) * 2006-10-26 2013-10-09 株式会社エム・シー・エヌ クエリに応答して、関連性のある広告を決定する技術
US20080120325A1 (en) * 2006-11-17 2008-05-22 X.Com, Inc. Computer-implemented systems and methods for user access of media assets
CA2672938A1 (en) * 2006-12-18 2008-06-26 Razz Serbanescu System and method for electronic commerce and other uses
US20080172293A1 (en) * 2006-12-28 2008-07-17 Yahoo! Inc. Optimization framework for association of advertisements with sequential media
US20080209001A1 (en) * 2007-02-28 2008-08-28 Kenneth James Boyle Media approval method and apparatus

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FREEMAN D K ET AL: "The voice activity detector for the Pan-European digital cellular mobile telephone service", PROC. OF IEEE ICASSP, 1989, pages 369 - 372 *
See also references of WO0184536A1 *
SRINIVASAN K ET AL: "Voice activity detection for cellular networks", PROC. OF THE IEEE WORKSHOP ON SPEECH CODING FOR TELECOMMUNICATIONS, 13 October 1993 (1993-10-13), pages 85 - 86 *

Also Published As

Publication number Publication date
US20030078770A1 (en) 2003-04-24
WO2001084536A1 (de) 2001-11-08
US7254532B2 (en) 2007-08-07

Similar Documents

Publication Publication Date Title
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69814517T2 (de) Sprachkodierung
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69917181T2 (de) Verfahren zur Bestimmung und zur Anpassung der Blockgrösse für Audiotransformationskodierung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1869671B1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
WO2001084536A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE19500494C2 (de) Merkmalsextraktionsverfahren für ein Sprachsignal
DE60028500T2 (de) Sprachdekodierung
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE19840548C2 (de) Verfahren zur instrumentellen Sprachqualitätsbestimmung
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
EP1382034A1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
DE10026872A1 (de) Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20021128

AK Designated contracting states

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20060704