WO2001084536A1 - Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) - Google Patents

Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) Download PDF

Info

Publication number
WO2001084536A1
WO2001084536A1 PCT/EP2001/003056 EP0103056W WO0184536A1 WO 2001084536 A1 WO2001084536 A1 WO 2001084536A1 EP 0103056 W EP0103056 W EP 0103056W WO 0184536 A1 WO0184536 A1 WO 0184536A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
signal section
stage
stationary
statl
Prior art date
Application number
PCT/EP2001/003056
Other languages
English (en)
French (fr)
Inventor
Kyrill Alexander Fischer
Christoph Erdmann
Original Assignee
Deutsche Telekom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE10026872A external-priority patent/DE10026872A1/de
Application filed by Deutsche Telekom Ag filed Critical Deutsche Telekom Ag
Priority to US10/258,643 priority Critical patent/US7254532B2/en
Priority to EP01933720A priority patent/EP1279164A1/de
Publication of WO2001084536A1 publication Critical patent/WO2001084536A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

Die Erfindung betrifft ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals, wobei das Ergebnis, ob Sprachaktivität im betrachteten Signalabschnitt vorliegt sowohl von der spektralen als auch von der zeitlichen Stationarität des Signalabschnitts und/oder von vorangegangenen Signalabschnitten abhängt, wobei das Verfahren in einer ersten Stufe beurteilt, ob im betrachteten Signalabschnitt spektrale Stationarität vorliegt, und daß in einer zweiten Stufe beurteilt wird, ob im betrachteten Signalabschnitt zeitliche Stationarität vorliegt, wobei die endgültige Entscheidung über das Vorhandensein von Sprachaktivität im betrachteten Signalabschnitt von den Ausgangswerten der beiden Stufen abhängig ist.

Description

Verfahren zur Berechnung einer SprachaktivitätsentScheidung (Voice Activity Detector)
Die vorliegende Erfindung betrifft ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals, wobei das Ergebnis, ob Sprachaktivität im betrachteten Signalabschnitt vorliegt sowohl von der spektralen als auch von der zeitlichen Stationarität des Signalabschnitts und/oder von vorangegangenen Signalabschnitten abhängt.
Im Bereich der Sprachübertragung und im Bereich der digitalen Signal- und Sprachspeicherung ist die Anwendung spezieller digitaler Codierungsverfahren zu Datenkompressionszwecken weit verbreitet und aufgrund der hohen Datenaufkommen sowie der begrenzten Übertragungskapazitäten zwingend notwendig. Ein für die Übertragung von Sprache besonders geeignetes Verfahren ist das aus der US 4133976 bekannte Code Excited Linear Prediction (CELP) -Verfahren. Bei diesem Verfahren wird das Sprachsignal in kleinen zeitlichen Abschnitten ("Sprachrahmen", "Rahmen", "zeitlicher Ausschnitt", "zeitlicher Abschnitt") von jeweils ca. 5 ms bis 50 ms Länge codiert und übertragen. Jeder dieser zeitlichen Abschnitte bzw. Rahmen wird nicht exakt, sondern nur durch eine Annäherung an die tatsächliche Signalform dargestellt. Die den Signalabschnitt beschreibende Approximation wir dabei im wesentlichen aus drei Komponenten gewonnen, die Decoder-Seitig zur Rekonstruktion des Signals verwendet werden: Erstens einem Filter, das die spektrale Struktur des jeweiligen Signalausschnittes annähernd beschreibt, zweitens einem sog. Anregungssignal, das durch dieses Filter gefiltert wird, und drittens einem Verstärkungsfaktor („gain"), mit dem das Anregungssignal vor der Filterung multipliziert wird. Der Verstärkungsfaktor ist für die Lautstärke des jeweiligen Abschnitts des rekonstruierten Signals verantwortlich. Das Ergebnis dieser Filterung, stellt dann die Ap- proximation des zu übertragenden Signalstückes dar. Für jeden Abschnitt muß die Information über die Filtereinstellungen und die Information über das zu verwendende Anregungssignal und dessen Skalierung ("gain"), die die Lautstärke beschreibt, übertragen werden. Im allgemeinen werden diese Parameter aus verschiedenen, dem Encoder und Decoder in identischen Kopien vorliegenden Codebüchern gewonnen, so daß zur Rekonstruktion nur die Nummer der am besten geeigneten Codebucheinträge übertragen werden muß. Bei der Codierung eines Sprachsignals sind also für jeden Abschnitt diese am besten geeigneten Codebucheinträge zu bestimmen, wobei alle relevanten Codebucheinträge in allen relevanten Kombinationen durchsucht werden, und diejenigen Einträge ausgewählt werden, die die im Sinne eines sinnvollen Abstandsmaßes kleinste Abweichung zum Ori- ginalsignal liefern.
Es existieren verschiedene Verfahren zur Optimierung der Struktur der Codebücher (z.B. Mehrstufigkeit, Lineare Prädiktion basierend auf den vergangenen Werten, spezifi- sehe Abstandsmaße, optimierte Suchverfahren, etc.). Außerdem gibt es verschiedene Verfahren, die den Aufbau und das Durchsuchungsverfahren für die Bestimmung der Anregungsvektoren beschreiben.
Häufig stellt sich die Aufgabe, den Charakter des im vorliegenden Rahmen befindliche Signales zu klassifizieren, damit die Details der Codierung, z. B. der zu verwendenden Codebücher, etc. bestimmt werden können. Dabei wird häufig auch eine sog. Sprach-Aktivitäts-Entscheidung ("voice activity detection", VAD) getroffen, die angibt, ob der aktuell vorliegende Signalauschnitt ein Sprachsegment oder kein Sprachsegment enthält. Eine solche Entscheidung muss auch bei Anwesenheit von Hintergrundgeräuschen richtig getroffen werden, was die Klassifikation erschwert.
In dem hier vorgestellten Ansatz wird die Entscheidung der VAD gleichgesetzt mit einer Entscheidung über die Stationarität des aktuellen Signals, so dass also das Ausmaß der Änderung der wesentlichen Signaleigenschaften als Grundlage für die Bestimmung der Stationarität und der damit zusammenhängenden Sprachaktivität verwendet wird. In diesem Sinne ist dann z.B. ein Signalbereich ohne Sprache, der z.B. nur ein gleichbleibend lautes und spektral sich nicht oder nur gering änderndes Hinter- grundgeräusch aufweist, als stationär zu bezeichnen. Umgekehrt ist ein Signalauschnitt mit einem Sprachsignal (mit und ohne Anwesenheit des Hintergrundgeräusches) als nicht stationär, also instationär zu bezeichnen. Im Sinne der VAD wird also beim hier vorgestellten Verfahren das Ergebnis "instationär" mit Sprachaktivität gleichgesetzt, während "stationär" bedeutet, dass keine Sprachaktivität vorliegt. Da die Stationarität eines Signals keine eindeutig festgelegte Meßgröße ist, wird sie nachfolgend genauer definiert.
Das vorgestellte Verfahren geht dabei davon aus, dass ei- ne Bestimmung der Stationarität idealerweise von der zeitlichen Änderung des Kurzzeit-Mittelwertes der Energie des Signals ausgehen sollte. Eine solche Schätzung ist aber im allgemeinen nicht direkt möglich, denn sie kann durch verschiedene störende Randbedingungen beeinflußt werden. So hängt die Energie z.B. auch von der absoluten Lautstärke des Sprechers ab, die auf die Entscheidung a- ber keinen Einfluß haben sollte. Darüber hinaus wird der Energiewert z.B. auch durch das Hintergrundgeräusch beeinflußt. Der Einsatz eines auf einer Energiebetrach- tung basierenden Kriteriums ist also nur sinnvoll, wenn der Einfluß dieser möglichen störenden Effekte ausgeschlossen werden kann. Aus diesem Grund ist das Verfahren zweistufig gestaltet: In der ersten Stufe wird bereits eine gültige Entscheidung über die Stationarität getroffen. Falls in der ersten Stufe auf "stationär" entschieden wird, so wird das diesen stationären Signalabschnitt beschreibende Filter neu berechnet und somit an das jeweils letzte stationäre Signal angepaßt. In der zweiten Stufe wird diese Entscheidung jedoch noch einmal nach einem anderen Kriterien getroffen, und damit unter Verwendung der in der ersten Stufe bereitgestellten Werte kontrolliert und gegebenenfalls abgeändert. Diese zweite Stufe arbeitet dabei unter Verwendung eines Energiemaßes . Die zweite Stufe liefert außerdem ein Ergebnis, das von der ersten Stufe bei der Analyse des nachfolgenden Sprachrahmens berücksichtigt wird. Auf diese Weise besteht eine Rückkopplung zwischen diesen beiden Stufen, die sicherstellt, das die von der ersten Stufe geliefer- ten Werte eine optimale Grundlage für die Entscheidung der zweiten Stufe bilden.
Die Arbeitsweise der beiden Stufen wird im folgenden einzeln vorgestellt.
Zunächst wird die erste Stufe vorgestellt, die eine erste Entscheidung basierend auf der Untersuchung der spektralen Stationarität liefert. Betrachtet man das Frequenzspektrum eines Signalabschnitts, so weist es für den betrachteten Zeitraum eine charakteristische Form auf. Ist die Änderung der Frequenzspektren zeitlich aufeinanderfolgender Signalabschnitte hinreichend gering, d.h. die charakteristische Form der jeweiligen Spektren bleibt mehr oder weniger erhalten, so kann man von spektraler Stationarität sprechen.
Das Ergebnis der Ersten Stufe wird mit STATl bezeichnet und das Ergebnis der zweiten Stufe mit STAT2. STAT2 entspricht auch der endgültigen Entscheidung des hier vorgestellten VAD-Verfahrens . Im folgenden werden Listen mit mehreren Werten in der Form "Listenname [0..N-l] " be- schrieben, wobei über Listenname [k] , k=0...N~l ein einzelner Wert, nämlich der Wert mit dem Index k der Werteliste "Listenname" bezeichnet wird.
Spektrale Stationarität (1. Stufe)
Diese erste Stufe des Stationaritätsverfahrens erhält als Eingangswerte die folgenden Größen:
• Lineare Prädiktionskoeffizienten des aktuellen Rahmens (LPC_NOW[0...ORDER-1] ; ORDER=14) • ein Mass für die Stimmhaftigkeit des aktuellen Rahmens (STIMM[0..1] )
• Die Anzahl der in der Analyse der zurückliegenden Rahmen durch die zweite Stufe des Algorithmus als "insta- tionär" klassifizierten Rahmen (N_INSTAT2, Werte =0, 1, 2, usw. )
• verschiedene für die zurückliegenden Rahmen berechnete Werte (STIMM_MEM[0..1] , LPC_STATl [0... ORDER-1] )
Als Ausgangswert liefert die erste Stufe die Werte
• erste Entscheidung über Stationarität: STATl (mögliche Werte: "stationär", "instationär")
• Lineare Prädiktionskoeffizienten des letzten als "stationär" klassifizierten Rahmens (LPC_STAT1)
Die Entscheidung der ersten Stufe basiert primär auf der Betrachtung der sog. spektralen Distanz ("spektraler Abstand", "spektrale Verzerrung", engl . : "spectral distor- tion" , ) zwischen dem aktuellen und dem vorangegengenen Rahmen. In die Entscheidung gehen außerdem auch die Werte eines Stimmhaftigkeitsmaßes ein, das für die letzten Rah- men berechnet wurde. Die für die Entscheidung verwendeten Schwellenwerte werden außerdem von der Anzahl der unmittelbar zurückliegenden, in der zweiten Stufe als "stationär" klassifizierten Rahmen (d.h. STAT2="stationär" ) beeinflußt. Die einzelnen Berechnungen werden im folgen- den erläutert: a) Berechnung der spektralen Distanz:
Die Berechnung ergibt sich gemäß:
Figure imgf000008_0001
Dabei bezeichnet
Figure imgf000008_0002
den logarithmierten Einhüllendenfrequenzgang des aktuellen Signalabschnitts, der aus LPC_NOW berechnet wird.
Figure imgf000008_0003
bezeichnet den logarithmierten Einhüllendenfrequenzgang des vorangegangenen Signalabschnitts, der aus LPC_STATl berechnet wird.
Der Wert von SD wird nach der Berechnung nach unten auf einen Minimalwert von 1.6 begrenzt. Der so begrenzte Wert wird dann als aktueller Wert in eine Liste der vergangenen Werte SD_MEM[0..9] gespeichert, wobei der am längsten zurückliegende Wert zuvor aus der Liste entfernt wurde.
Neben dem aktuellen Wert für SD wird auch ein Mittelwert der vergangenen 10 Werte von SD berechnet, der in SD_MEAN gespeichert wird, wobei zur Berechnung die Werte aus SD MEM verwendet werden. b) Berechnung der mittleren Stiπtrahaftigkeit:
Als Eingangswert in die erste Stufe wurden auch die Ergebnisse eines Stimmhaftigkeitsmasses (STIMM[0..1] ) bereitgestellt. (Diese Werte liegen zwischen 0 und 1 und wurden zuvor nach
Figure imgf000009_0001
berechnet. Durch Bildung des kurzzeitigen Mittelwertes von χ über den letzten 10 Signalabschnitten ( maιr : Index des momentanen Signalabschnitts) folgen die Werte:
1 mcur
STIMM[k] = — χi , k=0, 1 10,-=„, ιo
wobei für jeden Rahmen zwei Werte berechnet werden; STIMM[0] für die erste Rahmenhälfte, und STIMM[1] für die zweite Rahmenhälfte. Hat STIMM[k] einen Wert nahe 0, so ist das Signal eindeutig stimmlos, während ein Wert nahe 1 einen eindeutig stimmhaften Sprachbereich charakterisiert. )
Um zunächst Störungen im Sonderfall sehr leiser Signale (z.B. vor Signalbeginn) auszuschließen, werden die daraus resultierenden sehr kleinen Werte von STIMM[k] auf 0.5 gesetzt, nämlich dann, wenn ihr Wert zuvor unter 0.05 lag (für k=0, 1) .
Die so begrenzten Werte werden dann als aktuellste Werte an der Stelle 19 in eine Liste der vergangenen Werte STIMM_MEM[0..19] gespeichert, wobei die am längsten zurückliegenden Werte zuvor aus der Liste entfernt wurden. Über die zurückliegenden 10 Werte von STIMM_MEM[] wird nun ge ittelt, und das Ergebnis wird in STIMM_MEAN abgelegt.
Die letzten vier Werte von STIMM_MEM[ ] , nämlich die Werte STIMM_MEM[16] bis STIMM_MEM[19] werden noch einmal gemittelt und in STIMM4 gespeichert.
c) Berücksichtigung der Anzahl eventuell vorliegender vereinzelter "stimmhaft"-Rahmen:
Sollten bei der Analyse der zurückliegenden Rahmen vereinzelt instationäre Rahmen aufgetreten sein, so wird dies Anhand des Wertes von N_INSTAT2 erkannt. In diesem Fall liegt ein Übergang in den "stationär"-Zustand nur einige wenige Rahmen zurück. Die für die zweite Stufe notwendigen LPC_STATl [] -Werte, die in der ersten Stufe bereitgestellt werden, sollen in diesem Übergangsbereich aber noch nicht sofort, sondern erst nach einigen abzuwartenden "Sicherheitsrahmen" auf einen neuen Wert gebracht werden. Aus diesem Grund wird für den Fall, dass N_INSTAT2>0 ist, der interne Schwellwert TRES_SD_MEAN, der für die nachfolgende Entscheidung verwendet wird, auf einen anderen Wert gesetzt als sonst:
TRES_SD_MEAN = 4.0 (wenn N_INSTAT2 > 0 )
TRES_SD_MEAN = 2.6 (sonst)
d) Entscheidung
Zur Entscheidung wird zunächst sowohl SD selbst als auch sein kurzzeitlicher Mittelwert über den letzten 10 Sig- nalabschnitten SD_MEAN betrachtet. Liegen beide Maße SD und SD_MEAN unterhalb eines für sie spezifischen Schwellwertes TRES_SD bzw. TRES__SD_MEAN, so wird spektrale Stationarität angenommen.
Konkret gilt für die Schwellenwerte:
TRES_SD = 2.6 dB
TRES_SD_MEAN = 2.6 oder 4.0 dB (vgl. c)
und es wird entschieden
STATl = "stationär" wenn (SD < TRES_SD) UND (SD_MEAN < TRES_SD_MEAN) ,
STATl = "instationär" (sonst) .
Innerhalb eines Sprachsignales, das gemäß der Zielsetzung der VAD als "instationär" klassifiziert werden sollte, können allerdings kurzzeitig auch Abschnitte auftreten, die nach obigem Kriterium als "stationär" betrachtet werden. Solche Abschnitte können allerdings dann über das Stimmhaftigkeitsmass STIMM_MEAN erkannt und ausgeschlossen werden: Falls der aktuelle Rahmen nach obiger Regel als "stationär" klassifiziert wurde, so kann nach folgen- der Regel eine Korrektur erfolgen:
STATl = "instationär" wenn
(STIMM_MEAN > 0.7) UND (STIMM4<=0.56) oder (STIMM_MEAN < 0.3) UND (STIMM4<=0.56 ) oder STIMM_MEM[19] > 1.5,
Damit liegt das Ergebnis der ersten Stufe vor. e) Vorbereiten der Werte für die zweite Stufe
Die zweite Stufe arbeitet unter Verwendung einer in dieser Stufe vorbereiteten Liste von Linearen- Prädiktionskoeffizienten, die das zuletzt von dieser Stu- fe als "stationär" klassifizierte Signalstück beschreiben. In diesem Fall wird LPC_STAT1 durch das aktuelle LPC_NOW überschrieben (update) :
LPC_STATl[k] = LPC_NOW[k], k=0... ORDER-1 wenn
STATl = "stationär"
Anderenfalls werden die Werte in LPC_STAT1[] nicht geändert und beschreiben somit weiterhin den letzten von der ersten Stufe als "stationär" klassifizierten Signalausschnitt.
Zeitliche Stationarität (2. Stufe):
Betrachtet man einen Signalabschnitt im Zeitbereich, so weist es einen für den betrachteten Zeitraum charakteristischen Amplituden- bzw. Energieverlauf auf. Bleibt die Energie zeitlich aufeinanderfolgender Signalabschnitte konstant, bzw. die Abweichung der Energie ist auf ein hinreichend kleines Toleranzintervall begrenzt, so kann man von zeitlicher Stationarität sprechen. Das Vorliegen einer zeitlichen Stationarität wird in der zweiten Stufe analysiert .
Als Eingangsgrößen verwendet die zweite Stufe die Werte
• das aktuelle Sprachsignal in abgetasteter Form (SIGNAL [0...FRAME_LEN-1] , FRAME_LEN = 240) • VAD-Entscheidung der ersten Stufe: STATl (mögliche Werte: "stationär", "instationär")
• die linearen Prädiktionskoeffizienten, die den letzten "stationären" Rahmen beschrieben (LPC_STAT1 [0..13] )
• die Energie des Residualsignales des vorherigen stationären Rahmens (E_RES_REF)
• Eine Variable ANFANG, die einen Neubeginn der Werteanpassung steuert (ANFANG, Werte = "true", "false")
Als Ausgangswert liefert die zweite Stufe die Werte
• abschliessende Entscheidung über Stationarität: STAT2 (mögliche Werte: "stationär", "instationär")
• Die Anzahl der in der Analyse der zurückliegenden Rahmen durch die zweite Stufe des Algorithmus als "instationär" klassifizierten Rahmen (N_INSTAT2, Werte =0, 1, 2, usw.) und die Anzahl der unmittelbar zurückliegenden stationären Rahmen N_STAT2 (Werte =0, 1, 2, usw. ) .
• Die Variable ANFANG, die ggf. auf einen neuen Wert gesetzt wurde.
Zur VAD-Entscheidung der zweiten Stufe wird die zeitliche Änderung der Energie des Residualsignales verwendet, das mit dem an den letzten stationären Signalabschnitt ange- passten LPC-Filters LPC_STAT1[] und dem aktuellen Eingangssignal SIGNAL [] berechnet wurde. Dabei gehen sowohl eine Schätzung der zuletzt vorliegenden Restsignalenergie E_RES_REF als unterer Referenzwert und ein vorher ausgewählter Toleranzwert E_TOL in die Entscheidung ein. Der aktuelle Restsignal-Energiewert darf dann um nicht mehr als E_TOL über dem Referenzwert E_RES_REF liegen, wenn das Signal als "stationär" gelten soll.
Die Bestimmung der relevanten Grossen wird im folgenden dargestellt.
a) Berechnung der Energie des Residualsignals
Das Eingagssignal SIGNAL[0...FRAME_LEN-1] des aktuelle Rahmens wird unter Verwendung der in LPC_STATl [0.. ORDER- 1] gespeicherten Linearen Prädiktionskoeffizienten invers gefiltert. Das Resultat dieser Filterung wird als "Resi- dualsignal" bezeichnet und in SPEECH_RES [0..FRAME_LEN-1] gespeichert .
Darauf wird die Energie E_RES dieses Residualsignals SIGNAL_RES [ ] berechnet :
E_RES = Summe { SIGNAL_RES [k] * SIGNAL_RES [k] / FRAME_LEN },
k=0...FRAME_LEN-1
und dann logarithmisch dargestellt:
E_RES = 10 * log ( E_RES / E_MAX) ,
wobei
E_MAX = SIGNAL_MAX * SIGNAL_MAX
SIGNAL_MAX beschreibt den maximal möglichen Amplitudenwert eines einzelnen Abtastwertes . Dieser Wert ist abhängig von der Implementierungsumgebung; in dem der Erfindung zugrundeliegenden Prototyp betrug er beispielsweise
SIGNAL_MAX = 32767;
in anderen Anwendungsfällen ist gegebenenfalls z.B. SIGNAL_MAX = 1.0;
zu setzten.
Der so berechnete Wert E_RES ist in dB bezüglich des Maximalwertes ausgedrückt. Er liegt somit stets unterhalb von 0, typische Werte betragen etwa -100 dB für Signale mit sehr niedriger Energie und etwa -30 dB für Signale mit vergleichsweise hoher Energie.
Falls der berechnete Wert E_RES sehr klein ist, so liegt ein Anfangszustand vor, und der Wert von E_RES wird nach unten begrenzt:
wenn (E_RES < -200) : E_RES = -200 ANFANG = true
Diese Bedingung ist effektiv nur zu Beginn des Algorith- mus oder bei sehr langen, sehr ruhigen Pausen erfüllbar, so dass nur zu Beginn der Wert ANFANG = true gesetzt werden kann.
Der Wert von ANFANG wird unter dieser Bedingung auf false gesetzt :
wenn (N_INSTAT2 > 4) : ANFANG = false
Um die Berechnung der Referenz-Restsignalenergie auch für den Fall niedriger Signalenergie sicherzustellen, wird folgende Bedingung eingeführt:
wenn (ANFANG=false) UND (E_RES < -65.0): STAT1="stationär" Damit wird die Bedingung für die Anpassung von E_RES_RΞF auch für sehr ruhige Signalpausen erzwungen.
Durch die Verwendung der Energie des Residualsignales wird implizit eine Anpassung an die zuletzt als stationär klassifizierte Spektralform vorgenommen. Sollte sich das aktuelle Signal gegenüber dieser Spektralform geändert haben, so wird das Residualsignal eine messbar höhere E- nergie besitzen als in dem Fall eines ungeänderten, gleichmässig fortgesetzten Signals .
b) Berechnung der Referenz-Restsignalenergie E_RES_REF
Neben dem durch LPC_STAT1[] beschriebenen Einhüllendenfrequenzgang des zuletzt von der ersten Stufe als "stationär" klassififierten Rahmens wird in der zweiten Stufe auch die Residualenergie dieses Rahmens gespeichert und als Referenzwert verwendet. Dieser Wert wird mit E_RES_REF bezeichnet. Sie wird hier immer genau dann neu festgesetzt, wenn die erste Stufe den aktuellen Rahmen als "stationär" klassifiziert hat. In diesem Fall wird als neuer Wert für diese Referenzenergie E_RES_REF der zuvor berechnete Wert E_RES verwendet:
Wenn STAT1=" stationär" dann setze
E_RES_REF = E_RES wenn
(E_RES < E_RES_REF + 12dB) ODER (E_RES_REF < -200 dB) ODER
(E_RES < -65 dB)
Die erste Bedingung beschreibt den Normalfall: Eine Anpassung von E_RES_REF findet somit fast immer statt, wenn lö
STAT1="stationär" ist, denn der Toleranzwert von 12dB ist bewußt grosszügig gewählt. Die anderen Bedingungen sind Spezialfälle; sie sorgen für eine Anpassung zu Beginn des Algorithmus und für eine Neuschätzung bei sehr niedrigen Eingangswerten, die in jedem Falle als neuer Referenzwert für stationäre Signalabschnitte gelten sollen.
c) Bestimmung des Toleranzwertes E_TOL
Der Toleranzwert E_T0L gibt für das Entscheidungskriteri- um eine maximale erlaubte Änderung der Energie des Resi- dialsignales gegenüber derjenigen der vorherigen Rahmens an, damit der aktuelle Rahmen als "stationär" gelten kann. Zunächst wird gesetzt
E_TOL = 12 dB
Dieser vorläufige Wert wird nachfolgend jedoch unter bestimmten Bedingungen korrigiert:
wenn N_STAT2 <= 10: E_TOL = 3.0
sonst wenn E_RES < -60 :
E_TOL = 13 . 0 sonst wenn E_RES > -40 : E_TOL = 1 . 5 sonst
E TOL = 6 . 5 Mit der ersten Bedingung wird sichergestellt, dass eine bisher nur kurz bestehende Stationarität sehr leicht verlassen werden kann, indem durch die niedrige Toleranz E_TOL leichter auf "instationär" entschieden wird. Die anderen Fälle beinhalten Anpassungen, die für verschiedene Spezialfälle jeweils günstigste Werte vorsehen (Abschnitte mit sehr niedriger Energie sollen schwerer als "instationär" klassifiziert werden, Abschnitte mit vergleichsweise hoher Energie sollen leichter als "instatio- när" klassifiziert werden) .
d) Entscheidung
Die eigentliche Entscheidung findet nun unter Verwendung der zuvor berechneten und angepassten Werte E_RES, E_RES_REF und E_TOL statt. Ausserde wird sowohl die Anzahl aufeinanderfolgender "stationärer" Rahmen N_STAT2 als auch die Anzahl zurückliegender instationärer Rahmen N_INSTAT2 auf aktuelle Werte gesetzt.
Die Entscheidung erfolgt nach:
wenn ( E_RES > E_RES_REF + E_TOL) : STAT2 = "instationär" N_STAT2 = 0 N_INSTAT2 = N_INSTAT2 + 1 sonst STAT2 = "stationär"
N_STAT2 = N_STAT2 + 1 wenn N_STAT2 > 16: N INSTAT = 0 Der Zähler der zurückliegenden stationären Rahmen N_STAT2 wird also sofort beim Auftreten eines instationären Rahmens auf 0 gesetzt, während der Zähler für die zurückliegenden instationären Rahmen N_INSTAT2 erst nach dem Vor- liegen einer bestimmten Anzahl (im realisierten Prototyp: 16) von aufeinanderfolgenden stationären Rahmen auf 0 gesetzt wird. N_INSTAT2 wird als Eingangswert der ersten Stufe verwendet, und hat dort Einfluß auf die Entscheidung der ersten Stufe. Konkret wird über N_INSTAT2 ver- hindert, dass die erste Stufe den das Einhüllendenspektrum beschreibenden Koeffizientensatz LPC_STAT1[] neu bestimmt, bevor gesichert ist, dass tatsächlich ein neuer stationärer Signalabschnitt vorliegt. Kurzzeitige oder vereinzelte STAT2="stationär"-Entscheidungen können also auftreten, aber erst nach einer bestimmten Anzahl aufeinanderfolgender als "stationär" klassifizierter Rahmen wird auch der das Einhüllendenspektrum beschreibenden Koeffizientensatz LPC_STATl[] für den dann vorliegenden stationären Signalabschnitt in der ersten Stufe neu be- stimmt.
Entsprechend der für die zweite Stufe vorgestellten Arbeitsweise und der vorgestellten Parameter wird die zweite Stufe eine STAT1="stationär"-Entscheidung der ersten Stufe niemals zu "instationär" abändern, sondern wird in diesem Falle immer ebenfalls auf STAT2="stationär" entscheiden.
Eine "STAT1=" instationär"-Entscheidung der ersten Stufe kann dagegen von der zweiten Stufe zu einer STAT2="stationär" -Entscheidung korrigiert werden, oder auch als STAT2="instationär" bestätigt werden. Dies ist insbesondere dann der Fall, wenn die spektrale Instatio- narität, die in der ersten Stufe zu STATl="instationär" geführt hat, lediglich durch vereinzelte spektrale Schwankungen des Hintergrundsignales verursacht wurde. Dieser Fall wird jedoch in der zweiten Stufe unter Berücksichtigung der Energie neu entschieden.
Es versteht sich von selbst, daß die Algorithmen zur Bestimmung der Sprachaktivität, der Stationarität und der Periodizität den jeweils gegebenen Umständen entsprechend angepaßt werden müssen bzw. können. Die einzelnen o.a. Schwellwerte und Funktionen sind lediglich exemplarisch und müssen in der Regel durch eigene Versuche herausgefunden werden.

Claims

Patentansprüche
1. Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals, wobei das Ergeb- nis, ob Sprachaktivität im betrachteten Signalabschnitt vorliegt sowohl von der spektralen als auch von der zeitlichen Stationarität des Signalabschnitts und/oder von vorangegangenen Signalabschnitten abhängt, dadurch gekennz ei chnet , daß das Verfahren in einer ersten Stufe beurteilt, ob im betrachteten Signalabschnitt spektrale Stationarität vorliegt, und daß in einer zweiten Stufe beurteilt wird, ob im betrachteten Signalabschnitt zeitliche Stationarität vorliegt, wobei die endgültige Ent- scheidung über das Vorhandensein von Sprachaktivität im betrachteten Signalabschnitt von den Ausgangswerten der beiden Stufen abhängig ist.
2. Verfahren nach Anspruch 1 , dadurch ge kennz ei chnet , daß zur Ermittlung der spekt- ralen Stationarität sowie der Energieveränderung (zeitliche Stationarität) mindestens ein zeitlich vorangegangener Signalabschnitt berücksichtigt wird.
3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennze ichne t , daß jeder Signalabschnitt in mindestens zwei Unterabschnitte aufgeteilt wird, die sich überlappen können, wobei für jeden Unterabschnitt die Sprachaktivität bestimmt wird.
4. Verfahren nach Anspruch 3, dadurch ge kennz e i chnet , daß für die Beurteilung der Sprachaktivität eines zeitlich nachfolgenden Signalabschnitts die ermittelten Werte für die Sprachaktivität der einzelnen Unterabschnitte jedes vorangegan- gen Signalabschnitts berücksichtigt werden.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennz ei chnet , daß in der ersten Stufe die spektrale Verzerrung (engl.: spectral distortion) zwischen dem aktuell betrachte- ten Signalabschnitt und dem oder den vorangegangenen Signalabschnitten ermittelt wird.
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennz ei chnet , daß die erste Stufe eine erste Entscheidung über die Statio- narität des betrachteten Signalabschnitts trifft, wobei eine Ausgangsgröße STATl die Werte „stationär" o- der „instationär" annehmen kann.
7. Verfahren nach Anspruch 6, dadurch ge kennzei chnet , daß die Entscheidung über die Stationarität auf Basis der zuvor ermittelten linearen Prädikationfskoeffizienten des aktuellen Signalabschnitts LPC_NOW[] und einem zuvor ermittelten Maß für die Stimmhaftigkeit des betrachteten Signalab- schnitts erfolgt.
8. Verfahren nach Anspruch 7, dadurch ge kennz ei chnet , daß zusätzlich die Anzahl der in der Analyse der zurückliegenden Signalabschnitte durch die zweite Stufe als „instationär" klassifi- zierten Signalabschnitte N_INSTAT2 für die Bewertung von STATl berücksichtigt werden.
9. Verfahren nach Anspruch 7 oder 8, dadurch gekennze ichnet , daß zusätzlich für die zurückliegenden Rahmen berechnete Werte wie z.B. STIMM_MEM[0..1] , LPC_STATl [ ] bei der Berechnung eines Wertes für STATl berücksichtigt werden.
10. Verfahren nach einem der vorherigen Ansprüche, da durch gekennze i chnet , daß die erste Stufe zusätzlich zu dem Ausgangswert STATl einen wei- teren Ausgangswert LPC_STATl[] liefert, der von LPC_NOW[] und STATl abhängig ist.
11. Verfahren nach einem der vorherigen Ansprüche, da durch gekennz e i chnet , daß in der zweiten Stufe zur Beurteilung, ob zeitliche Stationa- rität vorliegt, zumindest folgende Eingangsgrößen verwendet werden:
Signalabschnitt in abgetasteter Form;
STATl (Entscheidung der ersten Stufe) ;
12. Verfahren nach Anspruch 11, dadurch g e - kennz ei chnet , daß zusätzlich folgende Eingangsgrößen in der zweiten Stufe verwendet werden:
- die linearen Prädikationskoefizienten LPC_STAT1[], die den letzten stationären Signalabschnitt beschreiben; die Energie E_RES_REF des Residualsignales des vorherigen stationären Signalabschnitts;
eine Variable ANFANG, die einen Neubeginn der Werteanpassung steuert, wobei die Variable ANFANG die Werte „wahr" und „falsch" annehmen kann.
13. Verfahren nach einem der vorherigen Ansprüche, da durch gekennz ei chnet , daß immer wenn STATl gleich "stationär" die zweite Stufe als Ergebnis für STAT2 „stationär" ausgibt.
14. Verfahren nach einem der vorherigen Ansprüche, da durch gekennz e i chnet , daß der Wert von STAT2 das Maß für die Sprachaktivität des betrachteten Signalabschnitts ist.
PCT/EP2001/003056 2000-04-28 2001-03-16 Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) WO2001084536A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/258,643 US7254532B2 (en) 2000-04-28 2001-03-16 Method for making a voice activity decision
EP01933720A EP1279164A1 (de) 2000-04-28 2001-03-16 Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE10020863 2000-04-28
DE10020863.0 2000-04-28
DE10026872.2 2000-05-31
DE10026872A DE10026872A1 (de) 2000-04-28 2000-05-31 Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)

Publications (1)

Publication Number Publication Date
WO2001084536A1 true WO2001084536A1 (de) 2001-11-08

Family

ID=26005502

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2001/003056 WO2001084536A1 (de) 2000-04-28 2001-03-16 Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)

Country Status (3)

Country Link
US (1) US7254532B2 (de)
EP (1) EP1279164A1 (de)
WO (1) WO2001084536A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421047B1 (ko) * 2001-07-18 2004-03-04 삼성전자주식회사 광 구동기에 있어서 광량 검출장치 및 방법
KR100463657B1 (ko) * 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
US20090316870A1 (en) * 2008-06-19 2009-12-24 Motorola, Inc. Devices and Methods for Performing N-Way Mute for N-Way Voice Over Internet Protocol (VOIP) Calls
US9535450B2 (en) 2011-07-17 2017-01-03 International Business Machines Corporation Synchronization of data streams with associated metadata streams using smallest sum of absolute differences between time indices of data events and metadata events
US8725508B2 (en) * 2012-03-27 2014-05-13 Novospeech Method and apparatus for element identification in a signal
US9484045B2 (en) * 2012-09-07 2016-11-01 Nuance Communications, Inc. System and method for automatic prediction of speech suitability for statistical modeling
PL3309784T3 (pl) 2014-07-29 2020-02-28 Telefonaktiebolaget Lm Ericsson (Publ) Szacowanie szumu tła w sygnałach audio
US9613640B1 (en) 2016-01-14 2017-04-04 Audyssey Laboratories, Inc. Speech/music discrimination
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
WO1998001847A1 (en) * 1996-07-03 1998-01-15 British Telecommunications Public Limited Company Voice activity detector

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE6901707U (de) 1969-01-17 1969-06-04 Buessing Automobilwerke Ag Kuppelbare, flexible leitung fuer kraftfahrzeuge
DE6942002U (de) 1969-10-27 1970-02-12 Tschatsch Metallwarenfab Rahmen fuer etuis, z.b. manikuere-etuis, schmuckkaesten, o.dgl.
US4133976A (en) 1978-04-07 1979-01-09 Bell Telephone Laboratories, Incorporated Predictive speech signal coding with reduced noise effects
FR2646978B1 (fr) 1989-05-11 1991-08-23 France Etat Procede et installation a codage de signaux sonores
DE4020633A1 (de) 1990-06-26 1992-01-02 Volke Hans Juergen Dr Sc Nat Schaltungsanordnung zur zeitvariaten spektralanalyse elektrischer signale
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
SG49709A1 (en) 1993-02-12 1998-06-15 British Telecomm Noise reduction
US5459814A (en) 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5404394A (en) * 1993-05-24 1995-04-04 Comsat Corporation Secure communication system
SE501305C2 (sv) 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5892900A (en) * 1996-08-30 1999-04-06 Intertrust Technologies Corp. Systems and methods for secure transaction management and electronic rights protection
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US6253188B1 (en) * 1996-09-20 2001-06-26 Thomson Newspapers, Inc. Automated interactive classified ad system for the internet
US20050010475A1 (en) * 1996-10-25 2005-01-13 Ipf, Inc. Internet-based brand management and marketing communication instrumentation network for deploying, installing and remotely programming brand-building server-side driven multi-mode virtual Kiosks on the World Wide Web (WWW), and methods of brand marketing communication between brand marketers and consumers using the same
FR2762464B1 (fr) * 1997-04-16 1999-06-25 France Telecom Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere"
DE19716862A1 (de) 1997-04-22 1998-10-29 Deutsche Telekom Ag Sprachaktivitätserkennung
US6003003A (en) * 1997-06-27 1999-12-14 Advanced Micro Devices, Inc. Speech recognition system having a quantizer using a single robust codebook designed at multiple signal to noise ratios
US20020002488A1 (en) * 1997-09-11 2002-01-03 Muyres Matthew R. Locally driven advertising system
US6134524A (en) * 1997-10-24 2000-10-17 Nortel Networks Corporation Method and apparatus to detect and delimit foreground speech
US6338067B1 (en) * 1998-09-01 2002-01-08 Sector Data, Llc. Product/service hierarchy database for market competition and investment analysis
US6192335B1 (en) 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US7130807B1 (en) * 1999-11-22 2006-10-31 Accenture Llp Technology sharing during demand and supply planning in a network-based supply chain environment
JP2003517166A (ja) * 1999-12-06 2003-05-20 イーダブリュティー トレード アンド ビジネス コンサルタンツ エヌジー リミテッド 出版物に広告を載せる方法
US6629081B1 (en) * 1999-12-22 2003-09-30 Accenture Llp Account settlement and financing in an e-commerce environment
US20010029523A1 (en) * 2000-01-21 2001-10-11 Mcternan Brennan J. System and method for accounting for variations in client capabilities in the distribution of a media presentation
US20010037205A1 (en) * 2000-01-29 2001-11-01 Joao Raymond Anthony Apparatus and method for effectuating an affiliated marketing relationship
US6512996B1 (en) * 2000-03-08 2003-01-28 University Corporation For Atmospheric Research System for measuring characteristic of scatterers using spaced receiver remote sensors
US7747465B2 (en) * 2000-03-13 2010-06-29 Intellions, Inc. Determining the effectiveness of internet advertising
US7870579B2 (en) * 2000-04-07 2011-01-11 Visible Worl, Inc. Systems and methods for managing and distributing media content
US20020123994A1 (en) * 2000-04-26 2002-09-05 Yves Schabes System for fulfilling an information need using extended matching techniques
US6954728B1 (en) * 2000-05-15 2005-10-11 Avatizing, Llc System and method for consumer-selected advertising and branding in interactive media
AU2001272992A1 (en) * 2000-06-23 2002-01-08 Ecomsystems, Inc. System and method for computer-created advertisements
US6839681B1 (en) * 2000-06-28 2005-01-04 Right Angle Research Llc Performance measurement method for public relations, advertising and sales events
US20030036944A1 (en) * 2000-10-11 2003-02-20 Lesandrini Jay William Extensible business method with advertisement research as an example
US7206854B2 (en) * 2000-12-11 2007-04-17 General Instrument Corporation Seamless arbitrary data insertion for streaming media
US20020141584A1 (en) * 2001-01-26 2002-10-03 Ravi Razdan Clearinghouse for enabling real-time remote digital rights management, copyright protection and distribution auditing
US7330717B2 (en) * 2001-02-23 2008-02-12 Lucent Technologies Inc. Rule-based system and method for managing the provisioning of user applications on limited-resource and/or wireless devices
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US7200565B2 (en) * 2001-04-17 2007-04-03 International Business Machines Corporation System and method for promoting the use of a selected software product having an adaptation module
US7058624B2 (en) * 2001-06-20 2006-06-06 Hewlett-Packard Development Company, L.P. System and method for optimizing search results
US20030229507A1 (en) * 2001-07-13 2003-12-11 Damir Perge System and method for matching donors and charities
US20030023598A1 (en) * 2001-07-26 2003-01-30 International Business Machines Corporation Dynamic composite advertisements for distribution via computer networks
US7039931B2 (en) * 2002-05-30 2006-05-02 Nielsen Media Research, Inc. Multi-market broadcast tracking, management and reporting method and system
US20060026067A1 (en) * 2002-06-14 2006-02-02 Nicholas Frank C Method and system for providing network based target advertising and encapsulation
BR0314303A (pt) * 2002-09-17 2005-07-05 Mobiqa Ltd Mensagens otimizadas contendo informações de código de barras para dispositivos de recepção móveis
US20040059996A1 (en) * 2002-09-24 2004-03-25 Fasciano Peter J. Exhibition of digital media assets from a digital media asset management system to facilitate creative story generation
US20040186776A1 (en) * 2003-01-28 2004-09-23 Llach Eduardo F. System for automatically selling and purchasing highly targeted and dynamic advertising impressions using a mixture of price metrics
US20040216157A1 (en) * 2003-04-25 2004-10-28 Richard Shain System and method for advertising purchase verification
US7890363B2 (en) * 2003-06-05 2011-02-15 Hayley Logistics Llc System and method of identifying trendsetters
US7003420B2 (en) * 2003-10-31 2006-02-21 International Business Machines Corporation Late binding of variables during test case generation for hardware and software design verification
US10417298B2 (en) * 2004-12-02 2019-09-17 Insignio Technologies, Inc. Personalized content processing and delivery system and media
US20070067297A1 (en) * 2004-04-30 2007-03-22 Kublickis Peter J System and methods for a micropayment-enabled marketplace with permission-based, self-service, precision-targeted delivery of advertising, entertainment and informational content and relationship marketing to anonymous internet users
US7596571B2 (en) * 2004-06-30 2009-09-29 Technorati, Inc. Ecosystem method of aggregation and search and related techniques
US20080126476A1 (en) * 2004-08-04 2008-05-29 Nicholas Frank C Method and System for the Creating, Managing, and Delivery of Enhanced Feed Formatted Content
US7590589B2 (en) * 2004-09-10 2009-09-15 Hoffberg Steven M Game theoretic prioritization scheme for mobile ad hoc networks permitting hierarchal deference
US8335785B2 (en) * 2004-09-28 2012-12-18 Hewlett-Packard Development Company, L.P. Ranking results for network search query
US20080126178A1 (en) * 2005-09-10 2008-05-29 Moore James F Surge-Based Online Advertising
US7676405B2 (en) * 2005-06-01 2010-03-09 Google Inc. System and method for media play forecasting
US20060277105A1 (en) * 2005-06-02 2006-12-07 Harris Neil I Method for customizing multi-media advertisement for targeting specific demographics
WO2006138484A2 (en) * 2005-06-15 2006-12-28 Revver, Inc. Media marketplaces
US8914301B2 (en) * 2005-10-28 2014-12-16 Joyce A. Book Method and apparatus for dynamic ad creation
JP2009521736A (ja) * 2005-11-07 2009-06-04 スキャンスカウト,インコーポレイテッド リッチメディアと共に広告をレンダリングするための技術
US20070143186A1 (en) * 2005-12-19 2007-06-21 Jeff Apple Systems, apparatuses, methods, and computer program products for optimizing allocation of an advertising budget that maximizes sales and/or profits and enabling advertisers to buy media online
US20070157228A1 (en) * 2005-12-30 2007-07-05 Jason Bayer Advertising with video ad creatives
US20070162335A1 (en) * 2006-01-11 2007-07-12 Mekikian Gary C Advertiser Sponsored Media Download and Distribution Using Real-Time Ad and Media Matching and Concatenation
US20070260520A1 (en) * 2006-01-18 2007-11-08 Teracent Corporation System, method and computer program product for selecting internet-based advertising
US7756720B2 (en) * 2006-01-25 2010-07-13 Fameball, Inc. Method and system for the objective quantification of fame
US20070198344A1 (en) * 2006-02-17 2007-08-23 Derek Collison Advertiser interface for entering user distributed advertisement-enabled advertisement information
US8438170B2 (en) * 2006-03-29 2013-05-07 Yahoo! Inc. Behavioral targeting system that generates user profiles for target objectives
US8326686B2 (en) * 2006-03-30 2012-12-04 Google Inc. Automatically generating ads and ad-serving index
US8645991B2 (en) * 2006-03-30 2014-02-04 Tout Industries, Inc. Method and apparatus for annotating media streams
US20070282684A1 (en) * 2006-05-12 2007-12-06 Prosser Steven H System and Method for Determining Affinity Profiles for Research, Marketing, and Recommendation Systems
WO2007139857A2 (en) * 2006-05-24 2007-12-06 Archetype Media, Inc. Storing data related to social publishers and associating the data with electronic brand data
US7831586B2 (en) * 2006-06-09 2010-11-09 Ebay Inc. System and method for application programming interfaces for keyword extraction and contextual advertisement generation
US20080167957A1 (en) * 2006-06-28 2008-07-10 Google Inc. Integrating Placement of Advertisements in Multiple Media Types
US20080086432A1 (en) * 2006-07-12 2008-04-10 Schmidtler Mauritius A R Data classification methods using machine learning techniques
US8775237B2 (en) * 2006-08-02 2014-07-08 Opinionlab, Inc. System and method for measuring and reporting user reactions to advertisements on a web page
US7809602B2 (en) * 2006-08-31 2010-10-05 Opinionlab, Inc. Computer-implemented system and method for measuring and reporting business intelligence based on comments collected from web page users using software associated with accessed web pages
US20080059208A1 (en) * 2006-09-01 2008-03-06 Mark Rockfeller System and Method for Evaluation, Management, and Measurement of Sponsorship
US20080077574A1 (en) * 2006-09-22 2008-03-27 John Nicholas Gross Topic Based Recommender System & Methods
US20080091516A1 (en) * 2006-10-17 2008-04-17 Giovanni Giunta Response monitoring system for an advertising campaign
JP5312771B2 (ja) * 2006-10-26 2013-10-09 株式会社エム・シー・エヌ クエリに応答して、関連性のある広告を決定する技術
US20080120325A1 (en) * 2006-11-17 2008-05-22 X.Com, Inc. Computer-implemented systems and methods for user access of media assets
CA2672938A1 (en) * 2006-12-18 2008-06-26 Razz Serbanescu System and method for electronic commerce and other uses
US20080172293A1 (en) * 2006-12-28 2008-07-17 Yahoo! Inc. Optimization framework for association of advertisements with sequential media
US20080209001A1 (en) * 2007-02-28 2008-08-28 Kenneth James Boyle Media approval method and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
WO1998001847A1 (en) * 1996-07-03 1998-01-15 British Telecommunications Public Limited Company Voice activity detector

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GARNER N R ET AL: "Robust noise detection for speech detection and enhancement", ELECTRONICS LETTERS,IEE STEVENAGE,GB, vol. 33, no. 4, 13 February 1997 (1997-02-13), pages 270 - 271, XP006007087, ISSN: 0013-5194 *
LEE I D ET AL: "A VOICE ACTIVITY DETECTION ALGORITHM FOR COMMUNICATION SYSTEMS WITHDYNAMICALLY VARYING BACKGROUND ACOUSTIC NOISE", OTTAWA, CANADA, MAY 18 - 21, 1998,NEW YORK, NY: IEEE,US, vol. CONF. 48, 18 May 1998 (1998-05-18), pages 1214 - 1218, XP000895091, ISBN: 0-7803-4321-2 *
See also references of EP1279164A1 *

Also Published As

Publication number Publication date
EP1279164A1 (de) 2003-01-29
US20030078770A1 (en) 2003-04-24
US7254532B2 (en) 2007-08-07

Similar Documents

Publication Publication Date Title
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69814517T2 (de) Sprachkodierung
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69917181T2 (de) Verfahren zur Bestimmung und zur Anpassung der Blockgrösse für Audiotransformationskodierung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1869671B1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP1279164A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE19500494C2 (de) Merkmalsextraktionsverfahren für ein Sprachsignal
DE60028500T2 (de) Sprachdekodierung
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE19840548C2 (de) Verfahren zur instrumentellen Sprachqualitätsbestimmung
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
EP1382034A1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
DE10026872A1 (de) Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2001933720

Country of ref document: EP

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10258643

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2001933720

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2001933720

Country of ref document: EP