EP0874352A2 - Voice activity detection - Google Patents

Voice activity detection Download PDF

Info

Publication number
EP0874352A2
EP0874352A2 EP98102842A EP98102842A EP0874352A2 EP 0874352 A2 EP0874352 A2 EP 0874352A2 EP 98102842 A EP98102842 A EP 98102842A EP 98102842 A EP98102842 A EP 98102842A EP 0874352 A2 EP0874352 A2 EP 0874352A2
Authority
EP
European Patent Office
Prior art keywords
speech
output
circuit
switch
background noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP98102842A
Other languages
German (de)
French (fr)
Other versions
EP0874352A3 (en
EP0874352B1 (en
Inventor
Joachim Dipl.-Ing. Stegmann
Gerhard Dipl.-Ing. Schröder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Publication of EP0874352A2 publication Critical patent/EP0874352A2/en
Publication of EP0874352A3 publication Critical patent/EP0874352A3/en
Application granted granted Critical
Publication of EP0874352B1 publication Critical patent/EP0874352B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • the invention relates to a method and Circuit arrangement for automatic Voice activity recognition according to the generic term of Claims 1 and 5 respectively.
  • Known methods for automatic Speech activity detection usually use Decision parameters based on time averages Based windows of constant length.
  • the autocorrelation coefficients Called zero crossing rate or basic speech period, where these parameters have limited flexibility in the Have selection of time / frequency domain resolution, which is usually determined by the frame length of the associated Speech encoder / decoder is fixed.
  • the well-known wavelet transformation calculates a breakdown into the time / frequency domain too low frequency but high time domain resolution at high frequencies and too low time - but high Frequency domain resolution at low frequencies leads.
  • the invention is therefore based on the object Method and a circuit arrangement for Voice activity detection based on the wavelet transformation to create, it should be decided whether language for the time segment to be considered at all or speech sounds.
  • the present procedure for automatic Speech activity detection for speech encoders / decoders for source-controlled reduction of the middle one Transmission rate is characterized in that after the Segmentation of the speech signal for each frame one Wavelet transformation is calculated from the one sentence Parameters are determined from which using fixed Thresholds are calculated using a set of binary decision variables that control a decision logic, the result After smoothing the time, a statement for each frame "Language available / no language available" returns. In that it is determined whether for the contemplating time segment there is language at all a source-controlled reduction of the middle one Transfer rate reached.
  • the procedure decides whether to do so contemplating time segment there is language at all. This allows it to function control or in general as Preliminary stage for a variable-rate speech coder / decoder Bit rate can be used.
  • 1 is a block diagram for voice activity recognition as a preliminary stage for one variable rate speech encoder / decoder shown on its input 1 receives the respective input language.
  • the input language is both on lines 2 and 3 a switch 4 as well as the input of a Voice activity detection circuit or module 5 given.
  • the switch 4 directs the input language depending on the output signal of the voice activity detection circuit 5, which is used to control the switch 4 is connected to it via a feedback line 6, either on line 7 or on line 8. Die Line 7 leads to a speech encoder 9 and the line 8 to a background noise encoder 10.
  • the bit stream of the speech encoder 9 is connected via a line 11 to the given an input of a switch 13 and the bit stream the background noise encoder 10 via a line 12 to the other input of the switch 13.
  • the switch 13 also receives the output signals via a line 14 the voice activity detection circuit 5, whereby the Switch 13 is controlled.
  • the output of the switch 13 is connected to a transmission channel 16 via a line 15 connected, also on the input side to line 14 for the output signals of the voice activity detection module 5 is connected.
  • the output of the transmission channel 16 reaches the entrance once via a line 17 a further switch 19 and via a line 18 the control input of the switch 19 and the control input a switch 26.
  • the switch 19 is over Output lines 20 and 21 with a speech decoder 22 and with a background noise decoder 23 connected, the outputs on lines 24 and 25 on the Get input of the switch 26 already mentioned, the depending on the control signals on line 18 at the output 27 either signals for the decoded speech or the provides decoded background noise.
  • FIG. 2 is a block diagram of an automatic Voice activity recognizer represented, which in turn on its input 1 receives the input language and to one Segmentation circuit 28 passes on.
  • the exit of this Segmentation circuit 28 is connected via a line 29 transmit a wavelet transform circuit 30 which again via a line 31 with the input of a Processor 32 connected to calculate the energy quantities is.
  • the output of processor 32 or one Computing circuit is connected in parallel with a via a line 33 Pause detector 34, with a circuit for calculating a Stationarity measure 35, with a first Background detector 36 and with a second Background detector 37 connected.
  • the outputs of the mentioned circuits 34 to 37 are about corresponding Lines 38 to 41 with decision logic 42 connected, the output via a line 43 with a Smoothing circuit 44 connected for temporal smoothing whose output 45 is also the output of the speech activity recognizer is.
  • the M 2 L-2 past and the M 2 L-2 future samples of the speech frame are also taken into account and the filter impulse responses - as far as possible - centered around the temporal origin. This increases the algorithmic delay of the method in principle by M 2 L-2 samples. If this is to be avoided, the input frame can alternatively be continued periodically or symmetrically.
  • the frame energies E 1 ..., E L of the detail coefficients D 1 , ..., D L and the frame energy E L + 1 of the approximation coefficients A L are calculated by the processor 32.
  • the total energy of the frame E tot can now be determined efficiently by summing all partial energies if the underlying wavelet basis is orthogonal. All energy values are represented in the logarithmic range.
  • a binary decision variable f sil is set according to the following formula:
  • the binary decision variable f stat is now set using the threshold T 2 taking into account the last K frames:
  • the goal is to obtain a decision criterion that is insensitive to the current level of background noise.
  • the properties of the DWT or wavelet transformation circuit 30 are used efficiently for this by considering the detail coefficients D Q1 in the coarse time interval N and the detail coefficients D Q2 in the finer time interval N / P.
  • P denotes the number of subframes, Q1 a level for coarse and Q2 a level for fine time resolution, whereby the relationships Q1, Q2 ⁇ ⁇ 1, L ⁇ and Q1> Q2 must apply.
  • an estimate B i , i ⁇ ⁇ Q1, Q2 ⁇ for the current level of the background noise is carried out for both stages calculated, the time constant ⁇ being limited by 0 ⁇ ⁇ 1.
  • the P subframe energies ⁇ ( k ,1) Q2 , ..., ⁇ ( k , P ) Q2 determined from the detailed coefficients D 2 and, using the fixed thresholds T 3 and T 4, each determine a binary decision variable f Q1 for stage Q1 and f Q2 for stage Q2 according to the following two formulas:
  • the temporal smoothing takes place in the circuit 44.

Abstract

The speech activity identification method involves using segmentation of a speech signal with a wavelet transformation calculated for each frame, from which a set of parameters are extracted. A set of decision variables is provided for controlling a decision logic, providing a signal indicating whether or not speech is present. The speech activity identification method is employed by a speech activity identification module (5) controlling a speech coder (7) and a speech decoder (22) and a background noise coder (10) and background noise decoder (23).

Description

Die Erfindung betrifft ein Verfahren und eine Schaltungsanordnung zur automatischen Sprachaktivitätserkennung nach dem Oberbegriff des Patentanspruchs 1 bzw. 5.The invention relates to a method and Circuit arrangement for automatic Voice activity recognition according to the generic term of Claims 1 and 5 respectively.

Für den digitalen Mobilfunk oder Sprachspeichersysteme und eine große Anzahl anderer Anwendungen ist es vorteilhaft, eine diskontinuierliche Übertragung der Sprachcodierungsparameter vorzunehmen. Dadurch kann während der Sprachpausen oder Zeitintervallen, die im wesentlichen durch Hintergrundgeräusche dominiert werden, die Bitrate deutlich gesenkt werden. Vorteile ergeben sich daraus unter anderem durch einen niedrigen Energieverbrauch in mobilen Endgeräten, durch eine höhere mittlere Bitrate für simultane Dienste, wie Datenübertragung oder durch eine höhere Speicherkapazität auf Speicherchips. Das Ausmaß der Vorteile hängt vom Anteil der Pausen im Sprachsignal sowie von der Güte des automatischen Sprachaktivitätserkenners ab, der zur Detektion solcher Intervalle nötig ist. Zum einen ist eine niedrige Sprachaktivitätsrate vorteilhaft, zum anderen sollte aktive Sprache nicht abgeschnitten werden, um die Sprachqualität nicht zu beeinträchtigen. Dieses Problem ist das grundsätzliche Problem von automatischen Sprachaktivitätserkennern, besonders bei der Präsenz von Hintergrundgeräuschen hohen Pegels.For digital mobile radio or voice storage systems and a large number of other applications it is beneficial a discontinuous transfer of the Make speech coding parameters. This allows during of speech pauses or time intervals that are essentially be dominated by background noise, the bit rate be significantly reduced. Advantages arise from this among other things through low energy consumption in mobile End devices, due to a higher average bit rate for simultaneous services, such as data transmission or through a higher memory capacity on memory chips. The extent of Benefits depends on the percentage of breaks in the speech signal as well on the quality of the automatic voice activity recognizer that is necessary for the detection of such intervals. To the a low voice activity rate is beneficial, on the other hand, active language should not be cut off in order not to impair the speech quality. This problem is the fundamental problem of automatic voice activity detectors, especially at the Presence of high level background noise.

Bekannte Verfahren zur automatischen Sprachaktivitätserkennung benutzen in der Regel Entscheidungsparameter, die auf Zeitmittelwerten über Fenster konstanter Länge basieren. Als Beispiel hierfür werden die Autokorrelationskoeffizienten, Nulldurchgangsrate oder Sprachgrundperiode genannt, wobei diese Parameter nur eine beschränkte Flexibilität in der Auswahl der Zeit-/Frequenzbereichsauflösung besitzen, welche normalerweise durch die Rahmenlänge des zugehörigen Sprachcodierers/-decodierers fest vorgegeben ist. Im Gegensatz dazu berechnet die bekannte Wavelet-Transformation eine Zerlegung in den Zeit-/Frequenzbereich der zu niedriger Frequenz- aber hoher Zeitbereichsauflösung bei hohen Frequenzen und zu niedriger Zeit- aber hoher Frequenzbereichsauflösung bei niedrigen Frequenzen führt. Für die Analyse von Sprachsignalen sind diese Eigenschaften gut geeignet und deshalb zur Klassifizierung von aktiver Sprache in die Klassen stimmhaft, stimmlos und Übergänge bereits genutzt worden, wie in der Offenlegungsschrift DE 195 38 852 A1 "Verfahren und Anordnung zur Klassifizierung von Sprachsignalen", 1997, ausgeführt wird.Known methods for automatic Speech activity detection usually use Decision parameters based on time averages Based windows of constant length. As an example of this the autocorrelation coefficients, Called zero crossing rate or basic speech period, where these parameters have limited flexibility in the Have selection of time / frequency domain resolution, which is usually determined by the frame length of the associated Speech encoder / decoder is fixed. in the In contrast, the well-known wavelet transformation calculates a breakdown into the time / frequency domain too low frequency but high time domain resolution at high frequencies and too low time - but high Frequency domain resolution at low frequencies leads. These are properties for the analysis of speech signals well suited and therefore for the classification of active Speech in the classes voiced, unvoiced and transitions have already been used, as in the published patent application DE 195 38 852 A1 "Method and arrangement for Classification of Speech Signals ", 1997.

Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren und eine Schaltungsanordnung zur Sprachaktivitätserkennung auf Basis der Wavelet-Transformation zu schaffen, wobei entschieden werden soll, ob für das zu betrachtende Zeitsegment überhaupt Sprache oder Sprachlaute vorliegen.The invention is therefore based on the object Method and a circuit arrangement for Voice activity detection based on the wavelet transformation to create, it should be decided whether language for the time segment to be considered at all or speech sounds.

Die erfindungsgemäße Lösung des Verfahrens ist im Kennzeichen des Patentanspruchs 1 charakterisiert.The solution of the method according to the invention is in Characteristic of claim 1 characterized.

Weitere Ausgestaltungen des erfindungsgemäßen Verfahrens ergeben sich aus den Patentansprüchen 2 bis 4.Further refinements of the method according to the invention result from the patent claims 2 to 4.

Die Lösung für die erfindungsgemäße Schaltungsanordnung ist in den Kennzeichen des Patentanspruchs 5 charakterisiert.The solution for the circuit arrangement according to the invention is characterized in the characterizing part of claim 5.

Weitere Merkmale bzw. Ausgestaltungen der Schaltungsanordnungen sind im Patentanspruch 6 charakterisiert. Further features or configurations of the Circuit arrangements are in claim 6 characterized.

Das vorliegende Verfahren zur automatischen Sprachaktivitätserkennung für Sprachcodierer/-decodierer zur quellengesteuerten Reduktion der mittleren Übertragungsrate zeichnet sich dadurch aus, daß nach der Segmentierung des Sprachsignals für jeden Rahmen eine Wavelet-Transformation berechnet wird, aus der ein Satz Parameter ermittelt wird, aus denen mit Hilfe fester Schwellen ein Satz binärer Entscheidungsvariablen berechnet wird, die eine Entscheidungslogik steuern, deren Resultat nach zeitlicher Glättung für jeden Rahmen eine Aussage "Sprache vorhanden / keine Sprache vorhanden" liefert. Dadurch, daß hiermit festgestellt wird, ob für das zu betrachtende Zeitsegment überhaupt Sprache vorliegt, wird eine quellengesteuerte Reduktion der mittleren Übertragungsrate erreicht.The present procedure for automatic Speech activity detection for speech encoders / decoders for source-controlled reduction of the middle one Transmission rate is characterized in that after the Segmentation of the speech signal for each frame one Wavelet transformation is calculated from the one sentence Parameters are determined from which using fixed Thresholds are calculated using a set of binary decision variables that control a decision logic, the result After smoothing the time, a statement for each frame "Language available / no language available" returns. In that it is determined whether for the contemplating time segment there is language at all a source-controlled reduction of the middle one Transfer rate reached.

Weitere Vorteile des Verfahrens zur Sprachaktivitätserkennung sowie der entsprechenden Schaltungsanordnung werden anhand von Ausführungsbeispielen, die im folgenden näher beschrieben werden, aufgezeigt.Further advantages of the method for voice activity detection and the corresponding circuit arrangement are based on exemplary embodiments, the following are described in more detail.

In der Beschreibung, in den Patentansprüchen, in der Zusammenfassung und in der Zeichnung werden die in der hinten angeführten Liste der Bezugszeichen verwendeten Begriffe und Bezugszeichen verwendet.In the description, in the claims, in the Summary and in the drawing are those in the list of reference numerals given below Terms and reference symbols used.

Die Erfindung wird nun anhand von Ausführungsbeispielen, die in den Zeichnungen dargestellt sind, beschrieben.The invention will now be described on the basis of exemplary embodiments, shown in the drawings.

In der Zeichnung bedeuten:

Fig. 1
ein Blockschaltbild für die Sprachaktivitätserkennung als Vorstufe für einen variabelratigen Sprachcodierer-/decodierer und
Fig. 2
ein Blockschaltbild eines automatischen Sprachaktivitätserkenners.
In the drawing:
Fig. 1
a block diagram for voice activity detection as a preliminary stage for a variable-rate speech encoder / decoder and
Fig. 2
a block diagram of an automatic voice activity recognizer.

Durch das Verfahren wird entschieden, ob für das zu betrachtende Zeitsegment überhaupt Sprache vorliegt. Dadurch kann es zur Funktionssteuerung oder allgemein als Vorstufe für einen Sprachcodierer-/decodierer mit variabler Bitrate verwendet werden. In Fig. 1 ist ein Blockschaltbild für die Sprachaktivitätserkennung als Vorstufe für einen variabelratigen Sprachcodierer-/decodierer gezeigt, der auf seinem Eingang 1 die jeweilige Eingangssprache empfängt. Über Leitungen 2 und 3 wird die Eingangssprache sowohl auf einen Umschalter 4 als auch auf den Eingang einer Sprachaktivitätserkennungsschaltung bzw. ein -modul 5 gegeben. Der Umschalter 4 leitet die Eingangssprache abhängig vom Ausgangssignal der Sprachaktivitätserkennungsschaltung 5, die zur Steuerung des Umschalters 4 über eine Rückmeldeleitung 6 mit ihm verbunden ist, entweder auf die Leitung 7 oder auf die Leitung 8. Die Leitung 7 führt auf einen Sprachcodierer 9 und die Leitung 8 auf einen Hintergrundgeräuschcodierer 10. Der Bitstrom des Sprachcodierers 9 wird über eine Leitung 11 auf den einen Eingang eines Umschalters 13 gegeben und der Bitstrom des Hintergrundgeräuschcodierers 10 über eine Leitung 12 auf den anderen Eingang des Umschalters 13. Der Umschalter 13 empfängt über eine Leitung 14 auch die Ausgangssignale der Sprachaktivitätserkennungsschaltung 5, wodurch der Umschalter 13 gesteuert wird. Der Ausgang des Umschalters 13 ist über eine Leitung 15 mit einem Übertragungskanal 16 verbunden, der eingangsseitig auch noch mit der Leitung 14 für die Ausgangssignale des Sprachaktivitätserkennungsmoduls 5 verbunden ist. Der Ausgang des Übertragungskanals 16 gelangt einmal über eine Leitung 17 auf den Eingang eines weiteren Umschalters 19 und über eine Leitung 18 auf den Steuereingang des Umschalters 19 und den Steuereingang eines Umschalters 26. Der Umschalter 19 ist über Ausgangsleitungen 20 und 21 mit einem Sprachdekodierer 22 und mit einem Dekodierer für Hintergrundgeräusche 23 verbunden, deren Ausgänge über Leitungen 24 bzw. 25 auf den Eingang des bereits genannten Umschalters 26 gelangen, der in Abhängigkeit der Steuersignale auf Leitung 18 am Ausgang 27 entweder Signale für die decodierte Sprache oder die decodierten Hintergrundgeräusche bereitstellt.The procedure decides whether to do so contemplating time segment there is language at all. This allows it to function control or in general as Preliminary stage for a variable-rate speech coder / decoder Bit rate can be used. 1 is a block diagram for voice activity recognition as a preliminary stage for one variable rate speech encoder / decoder shown on its input 1 receives the respective input language. The input language is both on lines 2 and 3 a switch 4 as well as the input of a Voice activity detection circuit or module 5 given. The switch 4 directs the input language depending on the output signal of the voice activity detection circuit 5, which is used to control the switch 4 is connected to it via a feedback line 6, either on line 7 or on line 8. Die Line 7 leads to a speech encoder 9 and the line 8 to a background noise encoder 10. The bit stream of the speech encoder 9 is connected via a line 11 to the given an input of a switch 13 and the bit stream the background noise encoder 10 via a line 12 to the other input of the switch 13. The switch 13 also receives the output signals via a line 14 the voice activity detection circuit 5, whereby the Switch 13 is controlled. The output of the switch 13 is connected to a transmission channel 16 via a line 15 connected, also on the input side to line 14 for the output signals of the voice activity detection module 5 is connected. The output of the transmission channel 16 reaches the entrance once via a line 17 a further switch 19 and via a line 18 the control input of the switch 19 and the control input a switch 26. The switch 19 is over Output lines 20 and 21 with a speech decoder 22 and with a background noise decoder 23 connected, the outputs on lines 24 and 25 on the Get input of the switch 26 already mentioned, the depending on the control signals on line 18 at the output 27 either signals for the decoded speech or the provides decoded background noise.

In Fig. 2 ist ein Blockschaltbild eines automatischen Sprachaktivitätserkenners dargestellt, der wiederum auf seinem Eingang 1 die Eingangssprache empfängt und an eine Segmentierungsschaltung 28 weiterleitet. Der Ausgang dieser Segmentierungsschaltung 28 wird über eine Leitung 29 an eine Wavelet-Transformationsschaltung 30 übertragen, die wiederum über eine Leitung 31 mit dem Eingang eines Prozessors 32 zur Berechnung der Energiegrößen verbunden ist. Der Ausgang des Prozessors 32 bzw. einer Rechenschaltung ist über eine Leitung 33 parallel mit einem Pausendetektor 34, mit einer Schaltung zur Berechnung eines Stationaritätsmaßes 35, mit einem ersten Hintergrunddetektor 36 und mit einem zweiten Hintergrunddetektor 37 verbunden. Die Ausgänge der genannten Schaltungen 34 bis 37 sind über entsprechende Leitungen 38 bis 41 mit einer Entscheidungslogik 42 verbunden, deren Ausgang über eine Leitung 43 mit einer Glättungsschaltung 44 zur zeitlichen Glättung verbunden ist, deren Ausgang 45 auch Ausgang des Sprachaktivitätserkenners ist.2 is a block diagram of an automatic Voice activity recognizer represented, which in turn on its input 1 receives the input language and to one Segmentation circuit 28 passes on. The exit of this Segmentation circuit 28 is connected via a line 29 transmit a wavelet transform circuit 30 which again via a line 31 with the input of a Processor 32 connected to calculate the energy quantities is. The output of processor 32 or one Computing circuit is connected in parallel with a via a line 33 Pause detector 34, with a circuit for calculating a Stationarity measure 35, with a first Background detector 36 and with a second Background detector 37 connected. The outputs of the mentioned circuits 34 to 37 are about corresponding Lines 38 to 41 with decision logic 42 connected, the output via a line 43 with a Smoothing circuit 44 connected for temporal smoothing whose output 45 is also the output of the speech activity recognizer is.

Anhand des Blockschaltbildes des automatischen Sprachaktivitätserkenners nach Fig. 2 wird nun das Verfahren zur automatischen Sprachaktivitätserkennung näher beschrieben. Nach der Segmentierung des Eingangssignals in der Segmentierungsschaltung 28 wird für jedes Segment die Wavelet-Transformation in der Wavelet-Transformationsschaltung 30 berechnet. Im Anschluß daran wird ein Satz von Energieparametern im Prozessor 32 aus den Transformationskoeffizienten ermittelt und mit festen Schwellwerten verglichen. Dadurch entstehen binäre Entscheidungsvariablen, mit denen die Entscheidungslogik 42 gesteuert wird, die ein vorläufiges Resultat für jeden Rahmen ausgibt. Diese vorläufige Entscheidung wird zum Abschluß noch mittels zeitlicher Glättung in der Schaltung 44 nachverarbeitet, wodurch das endgültige Resultat "Sprache oder keine Sprache" am Ausgang 45 für den aktuellen Rahmen zur Verfügung steht. Im nachfolgenden werden nun die einzelnen Verarbeitungsschaltungen bzw. -blöcke des Blockdiagramms nach Fig. 2 näher beschrieben. Die Wavelet-Transformationsschaltung 30 führt folgende Operationen aus: Die Eingangssprache wird in Rahmen der Länge N Abtastwerte eingeteilt, wobei N an ein bestimmtes Sprachcodierverfahren angepaßt werden kann. Für jeden Rahmen wird die diskrete Wavelet-Transformation berechnet. Für viele Basisfunktionen der Wavelet-Transformation kann eine Filterbank mit jeweils einem Hochpaßfilter oder einem Tiefpaßfilter abgeleitet werden, mit denen die Transformation rekursiv durchgeführt werden kann. Auf die Klassen der Daubechies Wavelets und der Spline Wavelets wird hingewiesen, die zu einer besonders effizienten Implementierung der Transformation mittels Filter kurzer Länge führen. Im nachfolgenden werden zwei Verfahren beschrieben, die sich zur Berechnung der Transformation eignen.

  • 1. Im ersten Verfahren wird die Filterbank direkt auf den Eingangs-Sprachrahmen s=(s(O),...,s(N-1))T angewandt und die beiden Filterausgänge um den Faktor zwei unterabgetastet. Dadurch entsteht am Tiefpaßfilterausgang ein Satz von Approximationskoeffizienten A 1=(A1(O),...A1(N/2-1))T sowie am Hochpaßfilterausgang ein Satz von Detailkoeffizienten D 1=(D1(O),...D1(N/2-1))T. Dieses Verfahren wird nun rekursiv immer auf die Approximationskoeffizienten der vorherigen Stufe angewandt, wodurch sich in der letzten Stufe L als Ergebnis der Transformation der Vektor DWT(s)=(D 1 T,D2 T...,D L T,A L T)T mit insgesamt N Koeffizienten ergibt.
  • 2. Die zweite Variante zur Berechnung der Transformation beruht wie die erste auf einer Filterbankzerlegung. Der Unterschied besteht aber darin, daß die Filterausgänge nicht mehr unterabgetastet werden. Dadurch entstehen nach jeder Stufe Vektoren der Länge N und nach der letzten Stufe ein Ausgangsvektor mit insgesamt (L+1)N Koeffizienten. Um die Auflösungseigenschaften der Wavelet-Transformation zu erhalten, müssen die Filterimpulsantworten für jede Stufe durch Überabtastung um den Faktor zwei aus der vorherigen Stufe gewonnen werden. In der ersten Stufe werden die gleichen Filter benutzt wie für Variante 1. Durch den insgesamt höheren Aufwand - höhere Redundanz in der Darstellung im Bildbereich - gegenüber Variante 1 kann eine Verbesserung der Leistungsfähigkeit des Verfahrens erreicht werden.
  • The method for automatic speech activity detection will now be described in more detail with reference to the block diagram of the automatic speech activity detector according to FIG. 2. After segmenting the input signal in the segmentation circuit 28, the wavelet transformation in the wavelet transformation circuit 30 is calculated for each segment. Subsequently, a set of energy parameters is determined in the processor 32 from the transformation coefficients and compared with fixed threshold values. This creates binary decision variables that control decision logic 42 that outputs a preliminary result for each frame. At the end, this provisional decision is further processed by means of temporal smoothing in the circuit 44, as a result of which the final result "language or no language" is available at the output 45 for the current frame. The individual processing circuits or blocks of the block diagram according to FIG. 2 will now be described in more detail below. The wavelet transform circuit 30 carries out the following operations: The input speech is divided into frames of length N samples, N being adaptable to a specific speech coding method. The discrete wavelet transformation is calculated for each frame. For many basic functions of the wavelet transformation, a filter bank with a high-pass filter or a low-pass filter can be derived, with which the transformation can be carried out recursively. Attention is drawn to the classes of the Daubechies Wavelets and the Spline Wavelets, which lead to a particularly efficient implementation of the transformation by means of filters of short length. Two methods are described below that are suitable for calculating the transformation.
  • 1. In the first method, the filter bank is applied directly to the input speech frame s = (s (O), ..., s (N-1)) T and the two filter outputs are subsampled by a factor of two. This results in a set of approximation coefficients A 1 = (A 1 (O), ... A 1 (N / 2-1)) T at the low-pass filter output and a set of detail coefficients D 1 = (D 1 (O), at the high-pass filter output. ..D 1 (N / 2-1)) T. This method is now always applied recursively to the approximation coefficients of the previous stage, whereby in the last stage L the vector DWT ( s ) = ( D 1 T , D 2 T ..., D L T , A L T ) T with a total of N coefficients.
  • 2. Like the first, the second variant for calculating the transformation is based on a filter bank decomposition. The difference is that the filter outputs are no longer subsampled. This results in vectors of length N after each stage and an output vector with a total of (L + 1) N coefficients after the last stage. In order to obtain the resolution properties of the wavelet transformation, the filter impulse responses for each stage must be obtained by oversampling by a factor of two from the previous stage. In the first stage, the same filters are used as for variant 1. Due to the overall higher effort - higher redundancy in the display in the image area - compared to variant 1, an improvement in the performance of the method can be achieved.
  • Um Randeffekte aufgrund der Filterlänge M zu vermeiden, werden die M 2L-2 vergangenen sowie die M 2L-2 zukünftigen Abtastwerte des Sprachrahmens ebenfalls berücksichtigt und die Filter-Impulsantworten - soweit wie möglich - um den zeitlichen Ursprung zentriert. Dadurch erhöht sich die algorithmische Verzögerung des Verfahrens prinzipiell um M 2L-2 Abtastwerte. Soll dies vermieden werden, so kann der Eingangsrahmen alternativ auch periodisch oder symmetrisch fortgesetzt werden.In order to avoid edge effects due to the filter length M, the M 2 L-2 past and the M 2 L-2 future samples of the speech frame are also taken into account and the filter impulse responses - as far as possible - centered around the temporal origin. This increases the algorithmic delay of the method in principle by M 2 L-2 samples. If this is to be avoided, the input frame can alternatively be continued periodically or symmetrically.

    Zunächst werden die Rahmenenergien E1...,EL der Detailkoeffizienten D 1,...,D L und die Rahmenenergie EL+1 der Approximationskoeffizienten A L vom Prozessor 32 berechnet. First, the frame energies E 1 ..., E L of the detail coefficients D 1 , ..., D L and the frame energy E L + 1 of the approximation coefficients A L are calculated by the processor 32.

    Die Gesamtenergie des Rahmens Etot kann man nun effizient durch Summation aller partieller Energien ermitteln, wenn die zugrundeliegende Wavelet-Basis orthogonal ist. Alle Energiewerte werden im logarithmischen Bereich repräsentiert.The total energy of the frame E tot can now be determined efficiently by summing all partial energies if the underlying wavelet basis is orthogonal. All energy values are represented in the logarithmic range.

    Für die Pausendetektion in der Schaltung 34 wird die Rahmenenergie Etot mit einer festen Schwelle T1 verglichen, um Rahmen mit sehr niedriger Energie zu erkennen. Dazu wird eine binäre Entscheidungsvariable fsil gemäß der folgenden Formel gesetzt:

    Figure 00080001
    For the pause detection in the circuit 34, the frame energy E tot is compared with a fixed threshold T 1 in order to identify frames with very low energy. For this purpose, a binary decision variable f sil is set according to the following formula:
    Figure 00080001

    Um bei der Detektion von stationären Rahmen ein Maß für stationäre oder instationäre Rahmen zu erhalten, wird für jeden Rahmen k das Differenzmaß Δ(k)= 1 L i=1 L (Ei (k)-Ei (k-1))2 berechnet, in das die Rahmenenergien der Detailkoeffizienten aller Stufen einfließen. Die binäre Entscheidungsvariable fstat wird nun unter Verwendung der Schwelle T2 unter Berücksichtigung der letzten K Rahmen gesetzt:

    Figure 00080002
    In order to obtain a measure for stationary or unsteady frames when stationary frames are detected, k is the difference measure for each frame Δ ( k ) = 1 L i = 1 L ( E i ( k ) - E i ( k -1) ) 2nd calculated, into which the frame energies of the detail coefficients of all levels flow. The binary decision variable f stat is now set using the threshold T 2 taking into account the last K frames:
    Figure 00080002

    Bei der Detektion von Hintergrundrauschen in den Schaltungen 36 und 37 ist das Ziel, ein Entscheidungskriterium zu erhalten, daS unempfindlich gegenüber dem momentanen Pegel des Hintergrundgeräusches ist. Die Eigenschaften der DWT oder Wavelet-Transformationsschaltung 30 werden hierzu effizient ausgenutzt, indem die Detailkoeffizienten D Q1 im groben Zeitintervall N und die Detailkoeffizienten D Q2 im feineren Zeitintervall N/P betrachtet werden. Dabei bezeichnen P die Anzahl der Subrahmen, Q1 eine Stufe für grobe und Q2 eine Stufe für feine Zeitauflösung, wobei die Beziehungen Q1,Q2∈{1,L} sowie Q1>Q2 gelten müssen. Vorab wird für beide Stufen ein Schätzwert Bi, i∈{Q1,Q2}, für den momentanen Pegel des Hintergrundgeräusches durch

    Figure 00090001
    berechnet, wobei die Zeitkonstante α durch 0<α<1 begrenzt ist. Danach werden die P Subrahmenenergien (k,1) Q2 ,...,∈(k,P) Q2 aus den Detailkoeffizienten D 2 bestimmt und mit Hilfe der festen Schwellen T3 und T4 jeweils eine binäre Entscheidungsvariable fQ1 für die Stufe Q1 sowie fQ2 für die Stufe Q2 gemäß den folgenden beiden Formeln bestimmt:
    Figure 00090002
    When detecting background noise in circuits 36 and 37, the goal is to obtain a decision criterion that is insensitive to the current level of background noise. The properties of the DWT or wavelet transformation circuit 30 are used efficiently for this by considering the detail coefficients D Q1 in the coarse time interval N and the detail coefficients D Q2 in the finer time interval N / P. P denotes the number of subframes, Q1 a level for coarse and Q2 a level for fine time resolution, whereby the relationships Q1, Q2∈ {1, L} and Q1> Q2 must apply. In advance, an estimate B i , i∈ {Q1, Q2} for the current level of the background noise is carried out for both stages
    Figure 00090001
    calculated, the time constant α being limited by 0 <α <1. Then the P subframe energies ( k ,1) Q2 , ..., ∈ ( k , P ) Q2 determined from the detailed coefficients D 2 and, using the fixed thresholds T 3 and T 4, each determine a binary decision variable f Q1 for stage Q1 and f Q2 for stage Q2 according to the following two formulas:
    Figure 00090002

    In der Entscheidungslogik 42 wird unter Verwendung der Gleichungen (1), (3), (5) und (6) das vorläufige Resultat vad(pre) des automatischen Sprachaktivitätserkenners durch die logische Verknüpfung vad(pre)=!(fsil|fQ1&fQ2&fstat)), gewonnen, wobei '!,|,&' die logischen Operatoren 'nicht, oder, und' bezeichnen.In decision logic 42, using equations (1), (3), (5) and (6), the preliminary result vad (pre) of the automatic speech activity recognizer is determined by the logical combination vad (pre) =! (f sil | f Q1 & f Q2 & f stat )), won, where '!, |, &' do not denote the logical operators ', or, and'.

    Es können auch weitere Stufen Q3, Q4,..., etc. definiert werden, für die eine Detektion des Hintergrundrauschens in gleicher Weise vorgenommen werden kann. Es sind dann weitere binäre Entscheidungsparamter fQ3, fQ4,... zu definieren, die ebenso in Gleichung (7) zu berücksichtigen sind.Further stages Q3, Q4, ..., etc. can also be defined, for which background noise detection can be carried out in the same way. Further binary decision parameters f Q3 , f Q4 , ... are then to be defined, which are also to be taken into account in equation (7).

    Die zeitliche Glättung erfolgt in der Schaltung 44. Um die Langzeit-Stationarität von Sprache in Betracht zu ziehen, wird die vorläufige Entscheidung der VAD in einer nachverarbeitenden Stufe noch zeitlich geglättet. Übersteigt die Anzahl der letzten zusammenhängend als aktiv gekennzeichneten Rahmen den Wert CB, so werden, solange vad(pre)=0, noch maximal CH aktive Rahmen angehängt. Damit liegt die endgültige Entscheidung vad∈{0,1} des Sprachaktivitätserkenners fest. The temporal smoothing takes place in the circuit 44. In order to take into account the long-term stationarity of speech, the preliminary decision of the VAD is smoothed over time in a post-processing stage. If the number of the last frames marked contiguously as active exceeds the value C B , as long as vad (pre) = 0, a maximum of C H active frames are appended. The final decision vad∈ {0,1} of the voice activity recognizer is now made.

    Liste der BezugszeichenList of reference numbers

    11
    Eingangentrance
    2,32.3
    Leitungencables
    44th
    Umschalterswitch
    55
    Sprachaktivitätserkennungsmodul oder -schaltungVoice activity detection module or circuit
    66
    RückmeldeleitungFeedback line
    7,87.8
    Leitungen bzw. Ausgänge des Umschalters 4Lines or outputs of the switch 4
    99
    SprachcodiererSpeech coder
    1010th
    HintergrundgeräuschcodiererBackground noise encoder
    11,1211.12
    Leitungencables
    1313
    Umschalterswitch
    14,1514.15
    Leitungencables
    1616
    ÜbertragungskanalTransmission channel
    17,1817.18
    Leitungencables
    1919th
    Umschalterswitch
    20,2120.21
    Leitungencables
    2222
    SprachdecodiererSpeech decoder
    2323
    HintergrundgeräuschdecodiererBackground noise decoder
    24,2524.25
    Leitungencables
    2626
    Umschalterswitch
    2727
    Ausgangexit
    2828
    SegmentiererSegmenter
    29,31,3329,31,33
    Leitungencables
    3030th
    Wavelet-Transformationsschaltung 32 ProzessorWavelet transform circuit 32 processor
    3434
    PhasendetektorPhase detector
    3535
    Schaltung zur Ermittlung für das StationaritätsmaßCircuit for determination for the Stationarity measure
    36,3736.37
    HintergrunddetektorBackground detector
    38 - 4138-41
    Leitungencables
    4242
    EntscheidungslogikDecision logic
    4343
    Leitungmanagement
    4444
    GlättungsschaltungSmoothing circuit
    4545
    Ausgangexit

    Claims (6)

    Verfahren zur automatischen Sprachaktivitätserkennung auf Basis der Wavelet-Transformation, dadurch gekennzeichnet, daß zur quellengesteuerten Reduktion der mittleren Übertragungsrate eine Sprachaktivitätserkennungsschaltung bzw. ein -modul (5) zur Steuerung eines Sprachcodierers (7) und eines Sprachdecodierers (22) sowie zur Steuerung eines Hintergrundgeräuschcodierers (10) und eines Hintergrundgeräuschdecodierers (23) dient, wobei nach der Segmentierung eines Sprachsignals für jeden Rahmen eine Wavelet-Transformation berechnet wird, aus der ein Satz Parameter ermittelt wird, aus denen mit Hilfe fester Schwellen ein Satz binärer Entscheidungsvariablen in einer Rechenschaltung oder einem Prozessor (32) berechnet wird, die eine Entscheidungslogik (42) steuern, deren Resultat nach zeitlicher Glättung für jeden Rahmen eine Aussage "Sprache vorhanden / keine Sprache" liefert. Method for automatic speech activity recognition based on the wavelet transformation, characterized in that that a voice activity detection circuit or module (5) for controlling a speech encoder (7) and a speech decoder (22) and for controlling a background noise encoder (10) and a background noise decoder (23) is used for the source-controlled reduction of the average transmission rate, after segmentation of a speech signal, a wavelet transformation is calculated for each frame, from which a set of parameters is determined, from which a set of binary decision variables in a computing circuit or processor (32) that control decision logic (42) is calculated with the aid of fixed thresholds, the result of which, after smoothing the time, provides a statement "language available / no language" for each frame. Verfahren zur Sprachaktivitätserkennung nach Patentanspruch 1, dadurch gekennzeichnet, daß nach der Wavelet-Transformation für jedes Segment ein Satz von Energieparametern aus den Transformationskoeffizienten ermittelt und mit festen Schwellwerten verglichen wird, wodurch binäre Entscheidungsvariablen entstehen, mit denen die Entscheidungslogik (42) gesteuert wird, die ein vorläufiges Resultat für jeden Rahmen am Ausgang abgibt. Method for recognizing speech activity according to claim 1, characterized in that that after the wavelet transformation, a set of energy parameters is determined for each segment from the transformation coefficients and compared with fixed threshold values, which results in binary decision variables with which the decision logic (42) is controlled, which outputs a preliminary result for each frame at the output. Verfahren zur Sprachaktivitätserkennung nach einem der Patentansprüche 1 oder 2, dadurch gekennzeichnet, daß das vorläufige Resultat für jeden Rahmen, das von der Entscheidungslogik ermittelt wird, mittels zeitlicher Glättung nachverarbeitet wird, wodurch das endgültige Resultat "Sprache vorhanden oder keine Sprache" für den jeweils aktuellen Rahmen gebildet wird. Method for recognizing speech activity according to one of Claims 1 or 2, characterized in that that the preliminary result for each frame, which is determined by the decision logic, is post-processed by means of temporal smoothing, whereby the final result "language available or no language" is formed for the current frame. Verfahren zur Sprachaktivitätserkennung nach einem der Patentansprüche 1 bis 3, dadurch gekennzeichnet, daß zur Detektion von Hintergrundrauschen Hintergrundgeräuschdetektoren (36 und 37) mit Signalen gesteuert werden und die Detailkoeffizienten (D) im groben Zeitintervall (N) und Detailkoeffizienten (D2) im feineren Zeitintervall (N/P) analysiert werden, wobei P die Anzahl der Subrahmen darstellt und die Beziehungen Q1,Q2∈{1,L} sowie Q1>Q2 gelten. Method for recognizing speech activity according to one of Claims 1 to 3, characterized in that that background noise detectors (36 and 37) are controlled with signals for the detection of background noise and the detail coefficients (D) in the coarse time interval (N) and detail coefficients (D2) in the finer time interval (N / P) are analyzed, where P represents the number of subframes and the relationships Q1, Q2∈ {1, L} and Q1> Q2 apply. Schaltungsanordnung zur Durchführung des Verfahrens zur Sprachaktivitätserkennung nach einem der Patentansprüche 1 bis 4, dadurch gekennzeichnet, daß auf den Eingang (1) eines Umschalters (4) die Signale der Eingangssprache gelangen, daß mit dem Eingang (1) eine Sprachaktivitätserkennungsschaltung bzw. ein -modul (5) verbunden ist, deren Ausgang den genannten Umschalter (4), einen weiteren Umschalter (13) steuert und außerdem mit einem Übertragungskanal (16) verbunden ist, daß der Ausgang des Umschalters (4) über Leitungen (7 bzw. 8) mit einem Sprachcodierer (9) bzw. mit einem Hintergrundgeräuschcodierer (10) verbunden ist, deren Ausgänge über Leitungen (11 bzw. 12) mit den Eingängen des Umschalters (13) verbunden sind, dessen Ausgang über eine Leitung (15) mit dem Eingang des Übertragungskanals (16) verbunden ist, der einerseits mit einem weiteren Umschalter (19) und andererseits über eine Leitung (18) zur Steuerung des Umschalters (19) und zur Steuerung eines am Ausgang (27) angeordneten Umschalters (26) verbunden ist, und daß zwischen den beiden Umschaltern (19 bzw. 26) ein Sprachdecodierer (22) und ein Decodierer (23) für Hintergrundgeräusche angeordnet ist. Circuit arrangement for carrying out the method for voice activity detection according to one of the claims 1 to 4, characterized in that that the signals of the input language reach the input (1) of a switch (4), that a voice activity detection circuit or module (5) is connected to the input (1), the output of which controls the said switch (4), a further switch (13) and is also connected to a transmission channel (16), that the output of the switch (4) is connected via lines (7 or 8) to a speech encoder (9) or to a background noise encoder (10), the outputs of which are connected via lines (11 or 12) to the inputs of the switch (13 ) are connected, the output of which is connected via a line (15) to the input of the transmission channel (16), which on the one hand is connected to a further changeover switch (19) and on the other hand via a line (18) to control the changeover switch (19) and to control a switch (26) arranged at the output (27) is connected, and that between the two switches (19 and 26) a speech decoder (22) and a decoder (23) for background noise is arranged. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Patentansprüche 1 bis 4, dadurch gekennzeichnet, daß der Eingang (1) mit einer Segmentierungsschaltung (28) verbunden ist, deren Ausgang über eine Leitung (29) mit einer Wavelet-Transformationsschaltung (30) verbunden ist, die mit dem Eingang einer Rechenschaltung bzw. eines Prozessors (32) zur Berechnung der Energiegrößen verbunden ist, daß der Ausgang des Prozessors (32) über eine Leitung (33) parallel mit einem Pausendetektor (34), mit einer Schaltung zur Berechnung eines Stationaritätsmaßes (35), mit einem ersten Hintergrunddetektor (36) und mit einem zweiten Hintergrunddetektor (37) verbunden ist, daß die Ausgänge der genannten Schaltungen (34 bis 37) mit einer Entscheidungslogik (42) verbunden sind, deren Ausgang mit einer Glättungsschaltung (44) zur zeitlichen Glättung verbunden ist, und daß der Ausgang der Glättungsschaltung (44) auch der Ausgang (45) des Sprachaktivitätserkenners ist. Circuit arrangement for performing the method according to one of the claims 1 to 4, characterized in that that the input (1) is connected to a segmentation circuit (28), the output of which is connected via a line (29) to a wavelet transformation circuit (30) which is connected to the input of a computing circuit or a processor (32) for calculating the Energy quantities is connected that the output of the processor (32) is connected via a line (33) in parallel to a pause detector (34), to a circuit for calculating a stationarity measure (35), to a first background detector (36) and to a second background detector (37) , that the outputs of said circuits (34 to 37) are connected to a decision logic (42), the output of which is connected to a smoothing circuit (44) for temporal smoothing, and that the output of the smoothing circuit (44) is also the output (45) of the voice activity detector.
    EP98102842A 1997-04-22 1998-02-19 Voice activity detection Expired - Lifetime EP0874352B1 (en)

    Applications Claiming Priority (2)

    Application Number Priority Date Filing Date Title
    DE19716862 1997-04-22
    DE19716862A DE19716862A1 (en) 1997-04-22 1997-04-22 Voice activity detection

    Publications (3)

    Publication Number Publication Date
    EP0874352A2 true EP0874352A2 (en) 1998-10-28
    EP0874352A3 EP0874352A3 (en) 1999-06-02
    EP0874352B1 EP0874352B1 (en) 2003-10-15

    Family

    ID=7827317

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP98102842A Expired - Lifetime EP0874352B1 (en) 1997-04-22 1998-02-19 Voice activity detection

    Country Status (4)

    Country Link
    US (1) US6374211B2 (en)
    EP (1) EP0874352B1 (en)
    AT (1) ATE252265T1 (en)
    DE (2) DE19716862A1 (en)

    Families Citing this family (15)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    DE10026904A1 (en) 2000-04-28 2002-01-03 Deutsche Telekom Ag Calculating gain for encoded speech transmission by dividing into signal sections and determining weighting factor from periodicity and stationarity
    US7254532B2 (en) 2000-04-28 2007-08-07 Deutsche Telekom Ag Method for making a voice activity decision
    US7505594B2 (en) * 2000-12-19 2009-03-17 Qualcomm Incorporated Discontinuous transmission (DTX) controller system and method
    US6725191B2 (en) * 2001-07-19 2004-04-20 Vocaltec Communications Limited Method and apparatus for transmitting voice over internet
    US8315865B2 (en) * 2004-05-04 2012-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adaptive conversation detection employing minimal computation
    US7574353B2 (en) * 2004-11-18 2009-08-11 Lsi Logic Corporation Transmit/receive data paths for voice-over-internet (VoIP) communication systems
    US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
    KR100655953B1 (en) * 2006-02-06 2006-12-11 한양대학교 산학협력단 Speech processing system and method using wavelet packet transform
    US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
    KR100789084B1 (en) 2006-11-21 2007-12-26 한양대학교 산학협력단 Speech enhancement method by overweighting gain with nonlinear structure in wavelet packet transform
    US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
    CN104019885A (en) 2013-02-28 2014-09-03 杜比实验室特许公司 Sound field analysis system
    EP3515055A1 (en) 2013-03-15 2019-07-24 Dolby Laboratories Licensing Corp. Normalization of soundfield orientations based on auditory scene analysis
    US10917611B2 (en) 2015-06-09 2021-02-09 Avaya Inc. Video adaptation in conferencing using power or view indications
    WO2020252782A1 (en) * 2019-06-21 2020-12-24 深圳市汇顶科技股份有限公司 Voice detection method, voice detection device, voice processing chip and electronic apparatus

    Citations (2)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
    EP0751495A2 (en) * 1995-06-30 1997-01-02 Deutsche Telekom AG Method and device for coding speech

    Family Cites Families (8)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US5152007A (en) * 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
    GB2272554A (en) * 1992-11-13 1994-05-18 Creative Tech Ltd Recognizing speech by using wavelet transform and transient response therefrom
    US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
    JP3090842B2 (en) * 1994-04-28 2000-09-25 沖電気工業株式会社 Transmitter adapted to Viterbi decoding method
    FR2727236B1 (en) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France DETECTION OF VOICE ACTIVITY
    US5822726A (en) * 1995-01-31 1998-10-13 Motorola, Inc. Speech presence detector based on sparse time-random signal samples
    DE19538852A1 (en) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Method and arrangement for classifying speech signals
    US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters

    Patent Citations (2)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
    EP0751495A2 (en) * 1995-06-30 1997-01-02 Deutsche Telekom AG Method and device for coding speech

    Non-Patent Citations (3)

    * Cited by examiner, † Cited by third party
    Title
    "Digital cellular telecommunications system; Discontinuous Transmission (DTX) for Enhanced Full Rate (EFR) speech traffic channels (GSM 06.81)" EUROPEAN TELECOMMUNICATION STANDARD, FINAL DRAFT PRETS 300 729,November 1996, XP002098616 European Telecommunications Standards Institute (ETSI) *
    BENYASSINE A ET AL: "ITU-T RECOMMENDATION G.729 ANNEX B: A SILENCE COMPRESSION SCHEME FOR USE WITH G.729 OPTIMIZED FOR V.70 DIGITAL SIMULTANEOUS VOICE AND DATA APPLICATIONS" IEEE COMMUNICATIONS MAGAZINE, Bd. 35, Nr. 9, September 1997, Seiten 64-73, XP000704425 *
    STEGMANN J ET AL: "ROBUST VOICE-ACTIVITY DETECTION BASED ON THE WAVELET TRANSFORM" PROCEEDINGS OF THE IEEE WORKSHOP ON SPEECH CODING FOR TELECOMMUNICATIONS, 7. September 1997, Seiten 99-100, XP002073237 *

    Also Published As

    Publication number Publication date
    EP0874352A3 (en) 1999-06-02
    DE59809897D1 (en) 2003-11-20
    US20010014854A1 (en) 2001-08-16
    US6374211B2 (en) 2002-04-16
    EP0874352B1 (en) 2003-10-15
    DE19716862A1 (en) 1998-10-29
    ATE252265T1 (en) 2003-11-15

    Similar Documents

    Publication Publication Date Title
    EP0874352B1 (en) Voice activity detection
    DE69926851T2 (en) Method and apparatus for voice activity detection
    EP0690436B1 (en) Detection of the start/end of words for word recognition
    EP1386307B2 (en) Method and device for determining a quality measure for an audio signal
    DE3236832C2 (en) Method and device for speech analysis
    DE3101851C2 (en) Device for recognizing speech
    DE4320990A1 (en) Redundancy reduction procedure
    DE69918635T2 (en) Apparatus and method for speech processing
    DE102004023824B4 (en) Apparatus and method for evaluating a quality class of an object to be tested
    DE10234130B3 (en) Device and method for generating a complex spectral representation of a discrete-time signal
    EP0076233B1 (en) Method and apparatus for redundancy-reducing digital speech processing
    DE69920047T2 (en) DETECTION OF PURE LANGUAGE IN AN AUDIO SIGNAL, WITH THE HELP OF A DETECTION SIZE (VALLEY PERCENTAGE)
    EP0815553B1 (en) Method of detecting a pause between two signal patterns on a time-variable measurement signal
    DE60200632T2 (en) Method for voice activity detection in a signal, and voice encoder with device for carrying out the method
    DE602004004572T2 (en) Tracking vocal tract resonances using an objective constraint
    DE69922769T2 (en) Apparatus and method for speech processing
    DE19581667C2 (en) Speech recognition system and method for speech recognition
    DE19500494A1 (en) Speech signal symbol extraction method
    DE60018690T2 (en) Method and device for voiced / unvoiced decision
    EP1755110A2 (en) Method and device for adaptive reduction of noise signals and background signals in a speech processing system
    EP0658878B1 (en) System for transmitting a speech signal
    WO2001084536A1 (en) Method for detecting a voice activity decision (voice activity detector)
    DE60110541T2 (en) Method for speech recognition with noise-dependent normalization of the variance
    WO2019007820A1 (en) Device and method for determining the status of a spindle of a machine tool
    EP1279168B1 (en) Method for improving speech quality in speech transmission tasks

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    AK Designated contracting states

    Kind code of ref document: A2

    Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    AX Request for extension of the european patent

    Free format text: AL;LT;LV;MK;RO;SI

    PUAL Search report despatched

    Free format text: ORIGINAL CODE: 0009013

    AK Designated contracting states

    Kind code of ref document: A3

    Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    AX Request for extension of the european patent

    Free format text: AL;LT;LV;MK;RO;SI

    17P Request for examination filed

    Effective date: 19991202

    AKX Designation fees paid

    Free format text: AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    RIC1 Information provided on ipc code assigned before grant

    Ipc: 7G 10L 11/02 A

    RIC1 Information provided on ipc code assigned before grant

    Ipc: 7G 10L 11/02 A

    GRAS Grant fee paid

    Free format text: ORIGINAL CODE: EPIDOSNIGR3

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: IT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

    Effective date: 20031015

    Ref country code: IE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20031015

    Ref country code: FI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20031015

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20031015

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: FG4D

    Free format text: NOT ENGLISH

    Ref country code: CH

    Ref legal event code: EP

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FG4D

    Free format text: GERMAN

    REF Corresponds to:

    Ref document number: 59809897

    Country of ref document: DE

    Date of ref document: 20031120

    Kind code of ref document: P

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: SE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20040115

    Ref country code: GR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20040115

    Ref country code: DK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20040115

    GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

    Effective date: 20040123

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: LU

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040219

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: MC

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040228

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: LI

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040229

    Ref country code: CH

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040229

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FD4D

    ET Fr: translation filed
    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    26N No opposition filed

    Effective date: 20040716

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PL

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: PT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040315

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 19

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20160218

    Year of fee payment: 19

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: GB

    Payment date: 20160222

    Year of fee payment: 19

    Ref country code: NL

    Payment date: 20160222

    Year of fee payment: 19

    Ref country code: BE

    Payment date: 20160222

    Year of fee payment: 19

    Ref country code: AT

    Payment date: 20160218

    Year of fee payment: 19

    Ref country code: FR

    Payment date: 20160222

    Year of fee payment: 19

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: BE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20170228

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R119

    Ref document number: 59809897

    Country of ref document: DE

    REG Reference to a national code

    Ref country code: NL

    Ref legal event code: MM

    Effective date: 20170301

    REG Reference to a national code

    Ref country code: AT

    Ref legal event code: MM01

    Ref document number: 252265

    Country of ref document: AT

    Kind code of ref document: T

    Effective date: 20170219

    GBPC Gb: european patent ceased through non-payment of renewal fee

    Effective date: 20170219

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: AT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20170219

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: NL

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20170301

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: ST

    Effective date: 20171031

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: DE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20170901

    Ref country code: FR

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20170228

    REG Reference to a national code

    Ref country code: BE

    Ref legal event code: MM

    Effective date: 20170228

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20170219