EP1197952B1 - Procédé de codage de la prosodie pour un codeur de parole à très bas débit - Google Patents

Procédé de codage de la prosodie pour un codeur de parole à très bas débit Download PDF

Info

Publication number
EP1197952B1
EP1197952B1 EP01402684A EP01402684A EP1197952B1 EP 1197952 B1 EP1197952 B1 EP 1197952B1 EP 01402684 A EP01402684 A EP 01402684A EP 01402684 A EP01402684 A EP 01402684A EP 1197952 B1 EP1197952 B1 EP 1197952B1
Authority
EP
European Patent Office
Prior art keywords
pitch
speech
encoding
representatives
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP01402684A
Other languages
German (de)
English (en)
Other versions
EP1197952A1 (fr
Inventor
Philippe Thales Intellectual Property Gournay
Yves-Paul Thales Intellectual Property Nakache
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Publication of EP1197952A1 publication Critical patent/EP1197952A1/fr
Application granted granted Critical
Publication of EP1197952B1 publication Critical patent/EP1197952B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Definitions

  • the present invention relates to a very low rate speech coding method and the associated system. It applies in particular for speech coding / decoding systems by indexing units of variable size.
  • the method of speech coding implemented at low bit rate is generally that of the vocoder using a totally parametric model of the speech signal.
  • the parameters used concern the voicing which describes the periodic or random character of the signal, the fundamental frequency of the voiced sounds still known under the Anglo-Saxon term "PITCH", the temporal evolution of the energy, as well as the spectral envelope of the signal usually modeled by an LPC (Linear Predictive Coding) filter.
  • These different parameters are periodically estimated on the speech signal, typically every 10 to 30 ms. They are developed at the level of an analysis device and are generally transmitted remotely towards a synthesis device reproducing the speech signal from the quantized value of the parameters of the model.
  • the encoding procedure essentially uses an automatic speech recognition system in continuous flow, which segments and "labels" the speech signal according to a number of speech units of variable size. These phonetic units are encoded by indexing in a small dictionary. Decoding is based on the principle of concatenated speech synthesis from the index of phonetic units and prosody.
  • the term "prosody” mainly includes the following parameters: the signal energy, the pitch, a voicing information and possibly the temporal rhythm.
  • phonetic coders require important phonetic and linguistic knowledge, as well as a phonetic transcription phase of a learning database that is expensive and can be the source of errors.
  • phonetic coders have difficulty adapting to a new language or a new speaker.
  • this type of encoder is broken down mainly in two steps: a learning step and a coding-decoding step described in figure 1 .
  • an automatic procedure determines for example after a parametric analysis 1 and a segmentation step 2, a set of 64 classes of acoustic units designated "UA".
  • Each of these classes of acoustic units is associated with a statistical model 3, of the Markov Model (HMM) type, as well as a small number of representative units of a class, referred to as "representatives" 4.
  • HMM Markov Model
  • representatives are simply the 8 longest units belonging to the same acoustic class. They can also be determined as the N most representative units of the acoustic unit.
  • a recognition procedure (6, 7) using an algorithm of Viterbi, determines the succession of acoustic units of the speech signal and identifies the "best representative" to be used for speech synthesis.
  • This choice is made for example by using a spectral distance criterion, such as the DTW algorithm (Dynamic Time Warping abbreviation).
  • the number of the acoustic class, the index of this representative unit, the length of the segment, the DTW content and the prosodic information from the parametric analysis are transmitted to the decoder.
  • the synthesis of speech is done by concatenation of the best representatives, possibly using a parametric synthesizer LPC type.
  • This parametric method notably allows prosody modifications such as time evolution, fundamental frequency or pitch, compared to a simple concatenation of waveforms.
  • the parametric speech model used by the analysis / synthesis method may be LPC-type voiced / unvoiced binary excitation as described in the document entitled T.Tremain's "The standard standard linear predictive coding algorithm: LPC-10" published in Speech Technology, Vol.1, No. 2, pp 40-49 .
  • This technique makes it possible to encode the spectral envelope of the signal in approximately 185 bits / s for a monolocutor system, for an average of approximately 21 segments per second.
  • the object of the present invention relates to a coding method, decoding of the prosody for a very low speed speech coder using in particular the best representatives
  • the invention as defined by claim 1, relates to a speech coding / decoding method using a very low rate coder comprising a learning step for identifying "representatives" of the speech signal and a step encoding to segment the speech signal and determine the "best representative" associated with each recognized segment.
  • the prosody information of the representatives used is for example the energy contour or the voicing or the length of the segments or the pitch.
  • it comprises a step of encoding the temporal alignment of the best representatives using the DTW path and searching for the nearest neighbor in a shape table.
  • the voicing coding step comprises, for example, a step of determining the existing differences ⁇ T k for each end of a voicing zone of index k between the voicing curve of the recognized segments and that of the best representatives, and the step of For example, for each end of a voicing zone of index k, there is a step for correcting the temporal position of this end of a corresponding value ⁇ T k and / or a step of deleting or inserting a transition. .
  • the invention also relates to a speech coding-decoding system as defined by claim 7, comprising at least one memory for storing a dictionary comprising a set of representatives of the speech signal, a microprocessor adapted to determine the recognized segments, to reconstruct the speech from the "best representatives" and to implement the steps of the method according to one of the above characteristics.
  • the dictionary of representatives is for example common to the coder and the decoder of the coding-decoding system.
  • the method and the system according to the invention can be used for speech coding / decoding at rates of less than 800 bits / s and preferably less than 400 bits / s.
  • the method and the coding / decoding system according to the invention offer, in particular, the advantage of coding the prosody at very low speed and thus to provide a complete coder in this field of application.
  • the coding principle according to the invention is based on the use of the "best representatives", in particular their prosody information, for coding and / or decoding at least one of the prosody parameters of a speech signal, for example the pitch, the signal energy, the voicing, the length of the recognized segments.
  • the principle implemented uses encoder segmentation as well as the prosodic information of the "best representatives".
  • This dictionary is known to the coder and the decoder. It corresponds for example to one or more languages and to one or more speakers.
  • the coding / decoding system comprises for example a memory for storing the dictionary, a microprocessor adapted to determine the recognized segments, for the implementation of the different steps of the method according to the invention and to reconstruct speech from the best representatives.
  • the method according to the invention implements at least one of the following steps: the coding of the length of the segments, the coding of the temporal alignment of the "best representatives", the encoding and / or the decoding of the energy, the coding and / or decoding the voicing information and / or pitch coding and / or decoding and / or decoding the segment length and time alignment.
  • the coding system determines on average a number Ns of segments per second, for example 21 segments.
  • the size of these segments varies according to the class of acoustic units UA. It appears that for the majority of AUs, the number of segments decreases in a 1 / x 2.6 relationship , where x is the length of the segment.
  • An alternative embodiment of the method according to the invention consists in coding the difference in variable length between the "recognized segment” and the length of the "best representative" according to a diagram described in FIG. figure 2 .
  • the encoding of the absolute length of a recognized segment is performed using a variable length code similar to that of Huffman known to those skilled in the art, which allows to obtain a flow rate of the order of 55 bits / s.
  • variable length code the difference between the length of the recognized segment and the length of the best representative multiplied by a certain factor is coded, this factor being able to be between 0 (absolute coding) and 1 (coding of the difference).
  • the time alignment is for example made following the path of the DTW (Dynamic Time Warping abbreviation) which was determined during the search for the "best representative" to code the "recognized segment".
  • DTW Dynamic Time Warping abbreviation
  • the figure 4 represents the path (C) of the DTW corresponding to the temporal contour which minimizes the distortion between the parameter to be encoded (abscissa axis), for example the vector of the "cepstral” coefficients, and the "best representative” (ordinate axis).
  • This approach is described in the book titled “Treatment of the word”, for author René Boite and Murat Kunt published in Presses Polytechnique Romandes editions 1987 .
  • the coding of the "best representatives" alignment is done by searching for the nearest neighbor in a table containing standard shapes.
  • the choice of these standard forms is done for example by a statistical approach, such as learning on a speech database or by an algebraic approach, for example description by parametric mathematical equations, these various methods being known to the Skilled person.
  • the method performs an alignment of the segments along the diagonal rather than the exact path of the DTW. The flow is then zero.
  • the energy coding is described below in relation to the figures 5 and 6 , where the ordinate axis corresponds to the energy of the speech signal to be coded expressed in dB and the abscissa axis to the time expressed in frames.
  • the figure 5 represents the curve (III) gathering energy contours of the best aligned representatives and the curve (IV) of the energy contours of the recognized segments separated by * in the figure.
  • a recognized segment of index j is delimited by two points of respective coordinates [E sd (j); T sd (j)] and [E sf (j); T sf (j)] where E sd (j) is the start of segment energy and E sf (j) the end of segment energy, for the corresponding instants T df and T sf .
  • the references E rd (j) and E rf (j) are used for the energy values of the beginning and the end of a "best representative" and the reference ⁇ E (j) corresponds to the translation determined for a recognized segment. of index j.
  • the method comprises a first step of determining the translation to be performed.
  • the difference ⁇ E (j) existing between the energy value E rd (j) of the best representative (curve III) and the energy value E sd of the beginning of the segment is determined for each beginning of "recognized segment". recognized (curve IV).
  • ⁇ E (j) that is quantified for example uniformly so as to know the translation to be applied during decoding. The quantification is carried out for example using methods known to those skilled in the art.
  • the method consists in particular in using the energy contours of the best representatives (curve III) to reconstruct the energy contours of the signal to be encoded (curve IV).
  • a first step consists in translating the energy contour of the best representative to coincide with the first energy E rd (j) by applying to it the translation ⁇ E (j), defined in the coding step by for example, to determine the value E sd (j).
  • the method includes a step of modifying the slope of the energy contour of the best representative to connect the last energy value E rd (j) of the "best representative" to the first energy E sd (j + 1) of the next segment of index j + 1.
  • the figure 6 represents the curves (VI) and (VII) respectively corresponding to the original energy contour of the speech signal to be encoded and of the decoded energy contour after implementing the steps described above.
  • the coding of the start energies of each 4-bit segment makes it possible to obtain, for the segmental encoding of energy, a bit rate of the order of 80 bits / s.
  • the figure 7 represents the temporal evolution of a binary voicing information of four successive segments 35, 36, 37 for the signal to be encoded curve (VII) and for the best representatives (curve VIII) after temporal alignment by DTW.
  • the method performs a step of encoding the voicing information, for example by traversing the temporal evolution of the voicing information of the recognized segments and that of the best aligned representatives (curve VIII) and by coding the differences. existing ⁇ T k between these two curves.
  • These differences ⁇ T k may be: an advance a of the frame, a delay b of frame, the absence and / or the presence of a transition reference c (k corresponds to the index of an end of a zone of voicing).
  • variable length code an example of which is given in table I below, for coding the correction to be made to each of the voicing transitions for each of the recognized segments. Since all segments do not have a voicing transition, it is possible to reduce the rate associated with voicing by encoding only the voicing transitions existing in the voice to be coded and in the best representatives.
  • the voicing information is encoded on about 22 bits per second.
  • Table 1 Example Coding Table for Void Transitions: ⁇ / i> Code Interpretation 000 Transition to be deleted 001 Offset 1 frame on the right 010 Offset 1 frame on the left 011 Offset 2 Frames Right 100 Offset 2 fields on the left 101 Insert a transition (a code specifying the location of the transition follows this one) 110 No lag 111 Displacement greater than 3 frames (another code follows this one)
  • the coding of the voicing information also includes the coding of the variation of the voicing proportion.
  • the decoder has the voicing information of the "best aligned representatives" obtained at the coder.
  • the correction is carried out for example as follows:
  • the method provides additional information to the decoder which is the correction to be made at this end.
  • the correction may be an advance a or a delay b to bring to this end. This time difference is for example expressed in number of frames to obtain the exact position of the voicing end of the original speech signal.
  • the correction can also take the form of a deletion or insertion of a transition.
  • the experiment shows that, on speech recordings, the number of voiced zones obtained per second is on the average of the order of 3 or 4.
  • one way of proceeding consists in transmitting several values pitch per voiced area.
  • the pitch contour is approximated by a succession of linear segments.
  • the method uses for example a predictive scalar quantizer on for example 5 bits applied to the logarithm of the pitch.
  • the prediction is, for example, the first pitch value of the best representative corresponding to the position of the pitch to be decoded, multiplied by a prediction factor comprised for example between 0 and 1.
  • the prediction may be the minimum value of the speech record to be encoded.
  • this value can be transmitted to the decoder by scalar quantization on for example 8 bits.
  • the method includes a step where the time spacing is specified, for example in number of frames, between each of these pitch values.
  • a variable length code allows for example to code these spacings on 2 bits on average.
  • the decoding step first comprises a step of decoding the time spacing between the different pitch values transmitted in order to recover the pitch update times, as well as the pitch value for each of these times.
  • the pitch value for each of the frames of the voiced area is reconstructed for example by linear interpolation between the transmitted values.

Description

  • La présente invention concerne un procédé de codage de la parole à très bas débit et le système associé. Elle s'applique notamment pour des systèmes de codage-décodage de la parole par indexation d'unités de taille variable.
  • Le procédé de codage de la parole mis en oeuvre à bas débit, par exemple de l'ordre de 2400 bits/s, est généralement celui du vocodeur utilisant un modèle totalement paramétrique du signal de parole. Les paramètres utilisés concernent le voisement qui décrit le caractère périodique ou aléatoire du signal, la fréquence fondamentale des sons voisés encore connue sous le vocable anglo-saxon « PITCH », l'évolution temporelle de l'énergie, ainsi que l'enveloppe spectrale du signal généralement modélisée par un filtre LPC (abréviation anglo-saxonne de Linear Predictive Coding).
  • Ces différents paramètres sont estimés périodiquement sur le signal de parole, typiquement toutes les 10 à 30 ms. Ils sont élaborés au niveau d'un dispositif d'analyse et sont généralement transmis à distance en direction d'un dispositif de synthèse reproduisant le signal de parole à partir de la valeur quantifiée des paramètres du modèle.
  • Jusqu'à présent, le plus bas débit normalisé pour un codeur de parole utilisant cette technique est de 800 bits/s. Ce codeur, normalisé en 1994 est décrit par le standard OTAN STANAG 4479 et dans l'article intitulé « NATO STANAG 4479 : A standard for an 800 bps vocoder and channel coding in HF-ECCM system », IEEE Int. Conf. on ASSP, Detroit, pp 480-483, May 1995 ayant pour auteurs Mouy, B., De La Noue, P., et Goudezeune,G. Il repose sur une technique d'analyse trame par trame (22.5 ms) de type LPC 10 et exploite au maximum la redondance temporelle du signal de parole en regroupant les trames 3 par 3 avant encodage des paramètres.
  • Bien qu'intelligible, la parole reproduite par ces techniques de codage est d'assez mauvaise qualité et n'est plus acceptable à partir du moment où le débit est inférieur à 600 bits/s.
  • Une manière de réduire le débit est d'utiliser les vocodeurs segmentaux de type phonétiques avec des segments de durée variable qui combinent des principes de reconnaissance et de synthèse de la parole, voir par exemple "Very low bit rate speech coding using a diphone-based recognition and synthesis approach" from Felici et al. in Electronics Letters vol. 34 no. 9, 1998.
  • La procédure d'encodage utilise essentiellement un système de reconnaissance automatique de la parole en flot continu, qui segmente et « étiquète » le signal de parole selon un nombre d'unités de parole de taille variable. Ces unités phonétiques sont codées par indexation dans un petit dictionnaire. Le décodage repose sur le principe de la synthèse de la parole par concaténation à partir de l'index des unités phonétiques et de la prosodie. Le terme « prosodie » regroupe principalement les paramètres suivants : l'énergie du signal, le pitch, une information de voisement et éventuellement le rythme temporel.
  • Toutefois, le développement des codeurs phonétiques nécessite des connaissances importantes en phonétique et en liguistique, ainsi qu'une phase de transcription phonétique d'une base de données d'apprentissage qui est coûteuse et qui peut être la source d'erreurs. De plus, les codeurs phonétiques s'adaptent difficilement à une nouvelle langue ou à un nouveau locuteur.
  • Une autre technique, décrite par exemple dans la thèse de J.Cernocky, intitulée « Speech Processing Using Automatically Derived Segmental Units: Applications to very Low Rate Coding and Speaker Verification » de l'Université Paris XI Orsay, décembre 1998 permet de contourner les problèmes liés à la transcription phonétique de la base de données d'apprentissage en déterminant les unités de parole de façon automatique et indépendamment de la langue.
  • Le fonctionnement de ce type de codeur se décompose principalement en deux étapes : une étape d'apprentissage et une étape de codage-décodage décrites à la figure 1.
  • Lors de l'étape d'apprentissage (figure 1), une procédure automatique détermine par exemple après une analyse paramétrique 1 et une étape de segmentation 2, un ensemble de 64 classes d'unités acoustiques désignées « UA ». A chacune de ces classes d'unités acoustiques est associé un modèle statistique 3, de type modèle de Markov (HMM abréviation anglo-saxonne de Hidden Markov Model), ainsi qu'un petit nombre d'unités représentantes d'une classe, désignées sous le terme « représentants» 4. Dans le système actuel, les représentants sont simplement les 8 unités les plus longues appartenant à une même classe acoustique. Ils peuvent également être déterminés comme étant les N unités plus représentatives de l'unité acoustique. Lors du codage d'un signal de parole après une étape d'analyse paramétrique 5 permettant d'obtenir notamment les paramètres spectraux, les énergies, le pitch, une procédure de reconnaissance (6, 7), à l'aide d'un algorithme de Viterbi, détermine la succession d'unités acoustiques du signal de parole et identifie le « meilleur représentant » à utiliser pour la synthèse de parole. Ce choix se fait par exemple en utilisant un critère de distance spectrale, tel que l'algorithme de DTW (abréviation anglo-saxonne de Dynamic Time Warping).
    Le numéro de la classe acoustique, l'indice de cette unité représentante , la longueur du segment, le contenu de DTW et les informations prosodiques issues de l'analyse paramétrique sont transmises au décodeur. La synthèse de la parole se fait par concaténation des meilleurs représentants, éventuellement en utilisant un synthétiseur paramétrique de type LPC.
  • Pour concaténer les représentants lors du décodage de la parole, on fait appel, par exemple, à un procédé d'analyse/synthèse paramétrique de la parole. Ce procédé paramétrique permet notamment des modifications de prosodie telles que l'évolution temporelle, la fréquence fondamentale ou pitch, par rapport à une simple concaténation de formes d'onde.
  • Le modèle paramétrique de parole utilisé par le procédé d'analyse/synthèse peut être à excitation binaire voisé/ non voisé de type LPC 10 tel que décrit dans le document intitulé « The government standard linear predictive coding algorithm : LPC-10 » de T.Tremain publié dans la revue Speech Technology, vol.1, n°2, pp 40-49.
  • Cette technique permet de coder l'enveloppe spectrale du signal en 185 bits/s environ pour un système monolocuteur, pour une moyenne d'environ 21 segments par seconde.
  • Dans la suite de la description les termes ci-après ont les significations suivantes :
    • le terme « représentant » correspond à l'un des segments de la base d'apprentissage qui a été jugé représentatif d'une des classes d'unités acoustique,
    • l'expression « segment reconnu » correspond à un segment de la parole qui a été identifié comme appartenant à l'une des classes acoustiques, par le codeur,
    • l'expression « meilleur représentant » désigne le représentant déterminé au niveau du codage qui représente le mieux le segment reconnu.
  • L'objet de la présente invention concerne un procédé de codage, décodage de la prosodie pour un codeur de parole à très bas débit utilisant notamment les meilleurs représentants
  • Il concerne aussi la compression de données.
  • L'invention, telle que définie par la revendications 1, concerne un procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant » associé à chaque segment reconnu.
  • L'information de prosodie des représentants utilisée est par exemple le contour d'énergie ou le voisement ou la longueur des segments ou le pitch.
  • Selon un mode de réalisation, il comporte une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
  • L'étape de codage de voisement comporte par exemple une étape de détermination des différences existantes ΔTk pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants et l'étape de décodage comporte par exemple pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur ΔTk correspondante et/ou une étape de suppression ou d'insertion d'une transition.
  • L'invention concerne aussi un système de codage-décodage de la parole tel que défini par la revendication 7, comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des « meilleurs représentants » et pour mettre en oeuvre les étapes du procédé selon l'une des caractéristiques précitées.
  • Le dictionnaire des représentants est par exemple commun au codeur et au décodeur du système codage-décodage.
  • Le procédé et le système selon l'invention peuvent être utilisés pour le codage-décodage de la parole pour des débits inférieurs à 800 bits/s et de préférence inférieurs à 400 bits/s.
  • Le procédé et le système de codage-décodage selon l'invention offrent notamment l'avantage de coder à très bas débit la prosodie et de fournir ainsi un codeur complet dans ce domaine d'application.
  • D'autres caractéristiques et avantages apparaîtront à la lecture de la description détaillée d'un mode de réalisation pris à titre d'exemple non limitatif et illustré par les dessins annexés où :
    • la figure 1 représente un schéma d'apprentissage, de codage et de décodage de la parole selon l'art antérieur,
    • les figures 2 et 3 décrivent des exemples de codage de la longueur des segments reconnus,
    • la figure 4 schématise un modèle d'alignement temporel des « meilleurs représentants »,
    • les figures 5 et 6 montrent des courbes des énergies du signal à coder et des représentants alignés, ainsi que les contours des énergies initial et décodé obtenus en mettant en oeuvre le procédé selon l'invention,
    • la figure 7 schématise le codage du voisement du signal de parole, et
    • la figure 8 est un exemple de codage du pitch.
  • Le principe de codage selon l'invention repose sur l'utilisation des « meilleurs représentants », notamment leur information de prosodie, pour coder et/ou décoder au moins un des paramètres de prosodie d'un signal de parole, par exemple le pitch, l'énergie du signal, le voisement, la longueur des segments reconnus.
  • Pour compresser la prosodie à très bas débit, le principe mis en oeuvre utilise la segmentation du codeur ainsi que les informations prosodiques des « meilleurs représentants ».
  • La description qui suit donnée à titre illustratif et nullement limitatif décrit un procédé de codage de la prosodie dans un dispositif de codage-décodage de la parole à faible débit qui comporte un dictionnaire obtenu de façon automatique, par exemple, lors de l'apprentissage tel que décrit à la figure 1.
  • Le dictionnaire comprend les informations suivantes :
    • plusieurs classes d'unités acoustiques UA, chaque classe étant déterminée à partir d'un modèle statistique,
    • pour chaque classe d'unités acoustiques, un ensemble de représentants.
  • Ce dictionnaire est connu du codeur et du décodeur. Il correspond par exemple à une ou plusieurs langues et à un ou plusieurs locuteurs.
  • Le système de codage-décodage comporte par exemple une mémoire pour stocker le dictionnaire, un microprocesseur adapté pour déterminer les segments reconnus, pour la mise en oeuvre des différentes étapes du procédé selon l'invention et pour reconstruire la parole à partir des meilleurs représentants.
  • Le procédé selon l'invention met oeuvre au moins une des étapes suivantes: le codage de la longueur des segments, le codage de l'alignement temporel des « meilleurs représentants », le codage et/ou le décodage de l'énergie, le codage et/ou le décodage de l'information de voisement et/ou le codage et/ou le décodage du pitch et/ou le décodage de la longueur des segments et de l'alignement temporel.
  • Codage de la longueur des segments
  • Le système de codage détermine en moyenne un nombre Ns de segments par seconde, par exemple 21 segments. La taille de ces segments varie en fonction de la classe d'unités acoustiques UA. Il apparaît que pour la majorité des UA, le nombre de segments décroît selon une relation 1/ x2.6, où x est la longueur du segment.
  • Une variante de réalisation du procédé selon l'invention consiste à coder la différence de longueur variable entre le « segment reconnu » et la longueur du « meilleur représentant » selon un schéma décrit à la figure 2.
  • Sur ce schéma dans la colonne de gauche figure la longueur du mot de code à utiliser et dans la colonne de droite la différence de longueur entre la longueur du segment reconnu par le codeur pour le signal de parole et celle du meilleur représentant.
  • Selon un autre mode de réalisation donnée à la figure 3, le codage de la longueur absolue d'un segment reconnu est effectué à l'aide d'un code à longueur variable semblable à celui de Huffman connu de l'Homme du métier, ce qui permet d'obtenir un débit de l'ordre de 55 bits/s.
  • Le fait d'utiliser les longs mots de code pour coder les longueurs de grands segments reconnus, permet notamment de conserver la valeur de débit dans une plage de variation limitée. En effet, ces longs segments réduisent le nombre de segment reconnu par seconde et le nombre de longueurs à coder.
  • En résumé, on code par exemple avec un code à longueur variable la différence entre la longueur du segment reconnu et la longueur du meilleur représentant multiplié par un certain facteur, ce facteur pouvant être compris entre 0 (codage absolu) et 1 (codage de la différence).
  • Codage de l'alignement temporel des meilleurs représentants
  • L'alignement temporel est par exemple réalisé en suivant le chemin de la DTW (abréviation anglo-saxonne de Dynamic Time Warping) qui a été déterminé lors de la recherche du « meilleur représentant » pour coder le « segment reconnu ».
  • La figure 4 représente le chemin ( C) de la DTW correspondant au contour temporel qui minimise la distorsion entre le paramètre à coder (axe des abscisses), par exemple le vecteur des coefficients « cepstraux », et le « meilleur représentant » (axe des ordonnées). Cette approche est décrite dans le livre ayant pour titre « Traitement de la parole », pour auteur René Boite et Murat Kunt publié aux Presses Polytechnique Romandes éditions 1987.
  • Le codage de l'alignement des « meilleurs représentants » est effectué par recherche du plus proche voisin dans une table contenant des formes type. Le choix de ces formes type se fait par exemple par une approche statistique, telle que l'apprentissage sur une base de données de parole ou par une approche algébrique par exemple la description par des équations mathématiques paramétrables, ces différentes méthodes étant connues de l'Homme du métier.
  • Selon une autre approche, valable dans le cas où les segments de petite taille sont en proportion importante, le procédé effectue un alignement des segments suivant la diagonale plutôt que le chemin exact de la DTW. Le débit est alors nul.
  • Codage-décodage de l'énergie
  • Lorsque l'on classe et analyse les segments de la base de données de parole appartenant à chacune des classes d'unités acoustiques, on constate qu'il se dégage une certaine cohérence dans la forme des contours des énergies. De plus, il existe des ressemblances entre les contours d'énergie des meilleurs représentants alignés par DTW et les contours de l'énergie du signal à coder.
  • Le codage de l'énergie est décrit ci-après en relation aux figures 5 et 6, où l'axe des ordonnées correspond à l'énergie du signal de la parole à coder exprimée en dB et l'axe des abscisses au temps exprimé en trames.
  • La figure 5 représente la courbe (III) regroupant des contours d'énergie des meilleurs représentants alignés et la courbe (IV) des contours d'énergie des segments reconnus séparés par des * sur la figure. Un segment reconnu d'indice j est délimité par deux points de coordonnées respectives [Esd(j) ; Tsd(j)] et [Esf(j) ; Tsf(j)] où Esd(j) est l'énergie de début de segment et Esf(j) l'énergie de fin de segment, pour les instants Tdf et Tsf correspondant. Les références Erd(j) et Erf(j) sont utilisées pour les valeurs d'énergies du début et de la fin d'un « meilleur représentant » et la référence ΔE(j) correspond à la translation déterminée pour un segment reconnu d'indice j.
  • Codage de l'énergie
  • Le procédé comporte une première étape de détermination de la translation à réaliser.
  • Pour cela on détermine pour chaque début de « segment reconnu », la différence ΔE(j) existant entre la valeur d'énergie Erd(j) du meilleur représentant (courbe III) et la valeur d'énergie Esd du début du segment reconnu (courbe IV). On obtient un ensemble de valeurs ΔE(j) que l'on quantifie par exemple uniformément de manière à connaître la translation à appliquer lors du décodage. La quantification est réalisée par exemple en utilisant des méthodes connues de l'Homme du métier.
  • Décodage de l'énergie du signal de parole
  • Le procédé consiste notamment à utiliser les contours d'énergie des meilleurs représentants (courbe III) pour reconstruire les contours d'énergie du signal à coder (courbe IV).
  • Pour chaque segment reconnu, une première étape consiste à translater le contour d'énergie du meilleur représentant pour la faire coïncider avec la première énergie Erd(j) en lui appliquant la translation ΔE(j), définie à l'étape de codage par exemple, pour déterminer la valeur Esd(j). Après cette première étape de translation, le procédé comporte une étape de modification de la pente du contour d'énergie du meilleur représentant afin de relier la dernière valeur d'énergie Erd(j) du « meilleur représentant » à la première énergie Esd(j+1) du segment suivant d'indice j+1.
  • La figure 6 représente les courbes (VI) et (VII) correspondant respectivement au contour d'énergie original du signal de parole à coder et du contour d'énergie décodé après mise en oeuvre des étapes décrites précédemment.
  • Par exemple, le codage des énergies de début de chaque segment sur 4 bits permet d'obtenir pour le codage segmental de l'énergie un débit de l'ordre de 80 bits/s.
  • Codage de l'information de voisement
  • La figure 7 représente l'évolution temporelle d'une information de voisement binaire de quatre segments successifs 35, 36, 37 pour le signal à coder courbe (VII) et pour les meilleurs représentants (courbe VIII) après alignement temporel par DTW.
  • Codage de l'information de voisement
  • Lors du codage, le procédé exécute une étape de codage de l'information de voisement, par exemple en parcourant l'évolution temporelle de l'information de voisement des segments reconnus et celle des meilleurs représentants alignés (courbe VIII) et en codant les différences existantes ΔTk entre ces deux courbes. Ces différences ΔTk peuvent être : une avance a de la trame, un retard b de trame, l'absence et/ou la présence d'une transition référence c (k correspond à l'indice d'une extrémité d'une zone de voisement).
  • Pour cela, il est possible d'utiliser un code de longueur variable dont un exemple est donné dans la table I ci-dessous, pour coder la correction à apporter à chacune des transitions de voisement pour chacun des segments reconnus. Tous les segments ne comportant pas de transition de voisement, il est possible de réduire le débit associé au voisement en ne codant que les transitions de voisement existantes dans le voisement à coder et dans les meilleurs représentants.
  • Selon cette méthode, l'information de voisement est codée sur environ 22 bits par seconde. Table 1: Exemple de table de codage pour les transitions de voisement :
    Code Interprétation
    000 Transition à supprimer
    001 Décalage 1 trame à Droite
    010 Décalage 1 trame à Gauche
    011 Décalage 2 trames à Droite
    100 Décalage 2 trames à Gauche
    101 Insérer une transition (un code précisant l'emplacement de la transition suit celui-ci)
    110 Pas de décalage
    111 Déplacement supérieur à 3 trames (un autre code suit celui-ci)
  • Pour une information de voisement mixte telle que :
    • le taux de voisement en sous-bande, l'analyse de cette information fait appel à une méthode décrite par exemple dans le document suivant : "Multiband Excitation Vocoders", ayant pour auteurs D.W. Griffin and J.S. Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 36, no. 8, pp. 1223-1235, 1988 ;
    • la fréquence de transition entre une bande basse voisée et une bande haute non-voisée, le codage utilise une méthode telle que décrite dans le document ayant pour auteurs C. Laflamme, R. Salami, R. Matmti, and J-P. Adoul, intitulé "Harmonic Stochastic Excitation (HSX) speech coding below 4 kbits/s", IEEE International Conférence on Acoustics, Speech, and Signal Processing, Atlanta, May 1996, pp. 204-207.
  • Dans ces deux cas, le codage de l'information de voisement comporte également le codage de la variation de la proportion de voisement.
  • Décodage de l'information de voisement
  • Le décodeur dispose de l'information de voisement des « meilleurs représentants alignés » obtenu au niveau du codeur.
  • La correction s'effectue par exemple de la manière suivante :
  • A chaque détection de l'extrémité d'une zone de voisement sur les meilleurs représentants choisis pour la synthèse, le procédé apporte une information complémentaire au décodeur qui est la correction à effectuer à cette extrémité. La correction peut être une avance a ou un retard b à apporter à cette extrémité. Ce décalage temporel est par exemple exprimé en nombre de trames afin d'obtenir la position exacte de l'extrémité de voisement du signal de parole original. La correction peut aussi prendre la forme d'une suppression ou d'une insertion d'une transition.
  • Codage du pitch
  • L'expérience montre que, sur des enregistrements de parole, le nombre de zones voisées obtenues par seconde est en moyenne de l'ordre de 3 ou 4. Pour rendre compte fidèlement des variations du pitch, une manière de procéder consiste à transmettre plusieurs valeurs de pitch par zone voisée. Afin de limiter le débit, au lieu de transmettre toute la succession des valeurs de pitch sur une zone voisée, le contour du pitch est approximé par une succession de segments linéaires.
  • Codage du pitch
  • Pour chaque zone voisée du signal de parole, le procédé comporte une étape de recherche des valeurs du pitch à transmettre. Les valeurs de pitch au début et à la fin de la zone voisée sont systématiquement transmises. Les autres valeurs à transmettre sont déterminées de la manière suivante :
    • le procédé considère uniquement les valeurs du pitch au début des segments reconnus. Partant de la droite Di joignant les valeurs du pitch aux deux extrémités de la zone voisée, le procédé recherche le début de segment dont la valeur de pitch est la plus éloignée de cette droite, ce qui correspond à une distance dmax. Il compare cette valeur dmax à une valeur seuil dseuil. Si la distance dmax est supérieure à dseuil, le procédé décompose la droite initiale Di en deux droites Di1 et Di2, en prenant le début du segment trouvé comme nouvelle valeur de pitch à transmettre. Cette opération est réitérée sur ces deux nouvelles zones voisée délimitées par les droites Di1 et Di2 jusqu'à ce que la distance dmax trouvée soit inférieure à la distance dseuil.
  • Pour coder les valeurs du pitch ainsi déterminées, le procédé utilise par exemple un quantificateur scalaire prédictif sur par exemple 5 bits appliqué au logarithme du pitch.
  • La prédiction est par exemple la première valeur de pitch du meilleur représentant correspondant à la position du pitch à décoder, multipliée par un facteur de prédiction compris par exemple entre 0 et 1.
  • Selon une autre façon de procéder, la prédiction peut être la valeur minimale de l'enregistrement de parole à coder. Dans ce cas, cette valeur peut être transmise au décodeur par quantification scalaire sur par exemple 8 bits.
  • Les valeurs des pitchs à transmettre ayant été déterminées et codées, le procédé comporte une étape où l'espacement temporel est précisé, par exemple en nombre de trames, entre chacune de ces valeurs de pitch. Un code à longueur variable permet par exemple de coder ces espacements sur 2 bits en moyenne.
  • Cette façon de procéder permet d'obtenir un débit d'environ 65/bits par seconde pour une distance maximale sur la période pitch de 7 échantillons.
  • Décodage du pitch
  • L'étape de décodage comporte tout d'abord une étape de décodage de l'espacement temporel entre les différentes valeurs de pitch transmises afin de récupérer les instants de mise à jour du pitch, ainsi que la valeur du pitch pour chacun de ces instants. La valeur du pitch pour chacune des trames de la zone voisée est reconstituée par exemple par interpolation linéaire entre les valeurs transmises.

Claims (9)

  1. Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape de reconnaissance permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant » associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins :
    une étape de codage-décodage d'un des paramètres au moins de la prosodie des segments reconnus, dont le pitch, en utilisant une information de prosodie des « meilleurs représentants »,
    une étape de codage du pitch des segments reconnus consistant à :
    • transmettre les valeurs de pitch au début et à la fin de la zone voisée,
    • partant d'une droite Di joignant les valeurs du pitch aux deux extrémités de ladite zone voisée, le procédé recherche le début de segment dont la valeur de pitch est la plus éloignée de cette droite, ce qui correspond à une distance dmax.
    • puis comparer cette valeur dmax à une valeur seuil dseuil.
    ○ Si la distance dmax est supérieure à dseuil, décomposer la droite initiale Di en deux droites Di1 et Di2, en prenant le début du segment trouvé Di2 comme nouvelle valeur de pitch à transmettre,
    ○ réitérer l'opération de décomposition sur ces deux nouvelles zones voisées délimitées par les droites Di1 et Di2 jusqu'à ce que la distance dmax trouvée soit inférieure à la distance dseuil.
  2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
  3. Procédé selon la revendication 1, caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité ΔE(j) pour faire coïncider la première énergie Erd(j) du « meilleur représentant » avec la première énergie Esd(j+1) du segment reconnu d'indice j+1.
  4. Procédé selon l'une des revendications 1 à 2, caractérisé en ce que l'étape de codage du pitch est exécutée au moyen d'un quantificateur scalaire prédictif.
  5. Procédé selon la revendication 4 caractérisé en ce que la prédiction est la première valeur du pitch du meilleur représentant correspondant à la position du pitch à décoder, multipliée par un facteur de prédiction.
  6. Procédé selon la revendication 4, caractérisé en ce que la prédiction est la valeur minimale de l'enregistrement de parole à coder.
  7. Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des « meilleurs représentants » et pour mettre en oeuvre les étapes du procédé selon l'une des revendications 1 à 6.
  8. Système selon la revendication 7, caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
  9. Utilisation du procédé selon l'une des revendications 1 à 6 ou du système selon l'une des revendications 7 et 8 au codage-décodage de la parole pour des débits inférieurs à 800 bits/s et de préférence inférieurs à 400 bits/s.
EP01402684A 2000-10-18 2001-10-17 Procédé de codage de la prosodie pour un codeur de parole à très bas débit Expired - Lifetime EP1197952B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0013628 2000-10-18
FR0013628A FR2815457B1 (fr) 2000-10-18 2000-10-18 Procede de codage de la prosodie pour un codeur de parole a tres bas debit

Publications (2)

Publication Number Publication Date
EP1197952A1 EP1197952A1 (fr) 2002-04-17
EP1197952B1 true EP1197952B1 (fr) 2009-12-02

Family

ID=8855687

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01402684A Expired - Lifetime EP1197952B1 (fr) 2000-10-18 2001-10-17 Procédé de codage de la prosodie pour un codeur de parole à très bas débit

Country Status (10)

Country Link
US (1) US7039584B2 (fr)
EP (1) EP1197952B1 (fr)
JP (1) JP2002207499A (fr)
KR (1) KR20020031305A (fr)
AT (1) ATE450856T1 (fr)
CA (1) CA2359411C (fr)
DE (1) DE60140651D1 (fr)
ES (1) ES2337020T3 (fr)
FR (1) FR2815457B1 (fr)
IL (1) IL145992A0 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256710A (zh) * 2017-08-01 2017-10-17 中国农业大学 一种基于动态时间伸缩算法的哼唱旋律识别方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2388439A1 (fr) * 2002-05-31 2003-11-30 Voiceage Corporation Methode et dispositif de dissimulation d'effacement de cadres dans des codecs de la parole a prevision lineaire
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统
US11830473B2 (en) * 2020-01-21 2023-11-28 Samsung Electronics Co., Ltd. Expressive text-to-speech system and method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
US5305421A (en) * 1991-08-28 1994-04-19 Itt Corporation Low bit rate speech coding system and compression
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
EP0706172A1 (fr) * 1994-10-04 1996-04-10 Hughes Aircraft Company Codeur et décodeur de parole à faible débit binaire
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants
AU2002212992A1 (en) * 2000-09-29 2002-04-08 Lernout And Hauspie Speech Products N.V. Corpus-based prosody translation system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256710A (zh) * 2017-08-01 2017-10-17 中国农业大学 一种基于动态时间伸缩算法的哼唱旋律识别方法

Also Published As

Publication number Publication date
FR2815457B1 (fr) 2003-02-14
ATE450856T1 (de) 2009-12-15
CA2359411A1 (fr) 2002-04-18
JP2002207499A (ja) 2002-07-26
EP1197952A1 (fr) 2002-04-17
KR20020031305A (ko) 2002-05-01
FR2815457A1 (fr) 2002-04-19
US7039584B2 (en) 2006-05-02
IL145992A0 (en) 2002-07-25
ES2337020T3 (es) 2010-04-20
US20020065655A1 (en) 2002-05-30
CA2359411C (fr) 2010-07-06
DE60140651D1 (de) 2010-01-14

Similar Documents

Publication Publication Date Title
EP1372289B1 (fr) Création d'une trame de description de silence pour engendrer un bruit de confort
Kankanahalli End-to-end optimized speech coding with deep neural networks
EP1736967B1 (fr) Méthode et appareil pour modifier le débit de parole
FR2929466A1 (fr) Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP1197952B1 (fr) Procédé de codage de la prosodie pour un codeur de parole à très bas débit
WO2005066938A1 (fr) Procede de codage multiple optimise
EP1692687B1 (fr) Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
EP1051703A1 (fr) Procede decodage d'un signal audio avec correction des erreurs de transmission
EP2080194B1 (fr) Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
US20040176961A1 (en) Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
EP1526508B1 (fr) Procédé de sélection d'unités de synthèse
EP3138095B1 (fr) Correction de perte de trame perfectionnée avec information de voisement
US8719022B2 (en) Compressed phonetic representation
EP2203915B1 (fr) Dissimulation d'erreur de transmission dans un signal numerique avec repartition de la complexite
EP1756806B1 (fr) Procede de quantification d'un codeur de parole a tres bas debit
WO2023165946A1 (fr) Codage et décodage optimisé d'un signal audio utilisant un auto-encodeur à base de réseau de neurones
JP3019342B2 (ja) 音声符号化方式
Huong et al. A new vocoder based on AMR 7.4 kbit/s mode in speaker dependent coding system
Motta et al. Trellis vector residual quantization
FR2581272A1 (fr) Procede de codage mic differentiel et installation de transmission d'information utilisant un tel codage.
JPH03156498A (ja) 音声符号化方式
WO2001091106A1 (fr) Fenetres d'analyse adaptatives pour la reconnaissance de la parole

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

17P Request for examination filed

Effective date: 20021014

AKX Designation fees paid

Free format text: AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: THALES

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

REF Corresponds to:

Ref document number: 60140651

Country of ref document: DE

Date of ref document: 20100114

Kind code of ref document: P

REG Reference to a national code

Ref country code: SE

Ref legal event code: TRGR

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20091202

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2337020

Country of ref document: ES

Kind code of ref document: T3

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091202

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091202

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100402

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091202

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20100303

26N No opposition filed

Effective date: 20100903

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20091202

BERE Be: lapsed

Owner name: THALES

Effective date: 20101031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20101031

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20101031

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20101031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20101031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20101017

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20160927

Year of fee payment: 16

Ref country code: TR

Payment date: 20160926

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FI

Payment date: 20161010

Year of fee payment: 16

Ref country code: DE

Payment date: 20161011

Year of fee payment: 16

Ref country code: GB

Payment date: 20161005

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20161024

Year of fee payment: 16

Ref country code: SE

Payment date: 20161011

Year of fee payment: 16

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 17

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20170929

Year of fee payment: 17

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 60140651

Country of ref document: DE

REG Reference to a national code

Ref country code: SE

Ref legal event code: EUG

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20171017

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171017

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180501

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171017

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171018

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171017

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20181221

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171018

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20181031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171017