CA2359411C - Procede de codage de la prosodie pour un codeur de parole a tres bas debit - Google Patents
Procede de codage de la prosodie pour un codeur de parole a tres bas debit Download PDFInfo
- Publication number
- CA2359411C CA2359411C CA2359411A CA2359411A CA2359411C CA 2359411 C CA2359411 C CA 2359411C CA 2359411 A CA2359411 A CA 2359411A CA 2359411 A CA2359411 A CA 2359411A CA 2359411 C CA2359411 C CA 2359411C
- Authority
- CA
- Canada
- Prior art keywords
- coding
- energy
- representatives
- recognized
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Abstract
Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant » associé à chaque segment reconnu. Le procédé comporte au moins une étape de codage-décodage d'un des paramètres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ». Application pour des débits inférieurs à 400 bits par seconde.
Description
Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Prx: 2/21 e a ' 1 La présente invention concerne un procédé de codage de la parple à très bas débit et le système associé_ Elle s'applique notamment pour des systèmes de codage-décodage de la parole par indexation d'unités de taille variable_ Le procédé de codage de la parole mis en oeuvre à bas débit, par exemple de l'ordre de 2400 bitsls, est généralement celui du vocodeur utilisant un modèle totalement paramétrique du signal de parole. Les vo paramètres utilisés concernent le voisement qui décrit 1e caractère périodique ou aléatoire du signal, la fréquence fondamentale des sons voisés encore connue sous le vocable anglo-saxon n PITCH '>, l'évolution temporelle de l'énergie, ainsi que l'enveioppe spectrale du signal généralement modélisée par un filtre LPC {abréviation anglo-saxonne de ~ 5 Linear Predictive Coding).
Ces différents paramètres sont estimés périodiquement sur le signal de parole, typiquement toutes les 10 à 30 ms. Ils sont élaborés au niveau d'un dispositif d'analyse et sont généralement transmis à distance en direction d'un dispositif de synthèse reproduisant 1e signal de parole à
partir 20 de la valeur quantifiée des paramètres du modèle_ Jusqu'à présent, ie plus bas débit normalisé pour un codeur de parole utilisant cette technique est de 800 bitsls. Ce codeur, normalisé en 1994 est décrit par le standard QTAN STRNAG 4479 et dans l'article intitulé
K NA~O STANAG 44¿9 : A standard for an 800 bps vocoder and channel coding in HF-ECCM system ", IEi=E Int_ Conf. on ASSP, Detroit, pp 480-483, May 1995 ayant pour auteurs Mouy, B_, De La Noue, P., et .Goudezeune,G. II
repose sur une technique d'analyse trame par trame (22.5 ms) de type LPC 10 et exploite au maximum la redondance temporelle du signal de parole en regroupant les trames 3 par 3 avant encodage des paramètres_ 3o Bien qu'intelligible, la parole reproduite par ces techniques de codage est d'assez mauvaise qualité et n'est plus acceptable à partir du moment où le débit est inférieur à 800 bitsls.
Fax émis par : THOMSOH cSF TPI 15/18/81 12:17 Pq: 3/Z1 s Une manière de réduire le débit est d'utilisér les vpcodeurs segmentaux de type phonétiques avec dis segments de durée variable qui combinent des principes de reconnaissance et de synthèse de la parole.
La procédure d'encodage utilise essentiellement un systéme de reconnaissance automatique de la parole en flot continu, qui segmente et « étiquète » le signal de parole selon un nombre d'unités de parole de taille variable, Ces unités phonétiques sont codées par indexation dans ur~ petit dictionnaire. Le décodage repose sur le principe de la synthèse de la parole par concaténation à partir de l'index des unités phonétiques et de la prosodie. Le terme « prosodie » regroupe principalement les paramètres suivants v l'énergie du signal, !e pitch, une information de voisement et éventuellement le rythme temporel.
Toutefois, le développement des codeurs phonétiques nécessite des connaissances importances en phonétique et en liguistique, ainsi qu'une ~ 5 phase de transcription phonétique d'une base de données d'apprentissage qui est coüteuse et qui peut ètre ia source d'erreurs. De plus, les codeurs phonétiques s'adaptent difficilement à une nouvelle langue ou à un nouveau locuteur.
Une autre technique, décrite par exemple dans la thèse de 20 J.Gernocky, intitulée « Speech Processing Using Automatically Derived Segmentai Units v Applications to very Low Rate Goding and Speaker Verification » de l'Université Paris Xl Qrsay, décembre 199$ permet de contourner (ss problèmes liès à la transcription phonétique de la base de données d'apprentissage en déterminant les unités de parole de -féçvn 25 automatique et indépendamment de la tangue.
Le fonctionnement de ce type de codeur se décompose principalement ers deux étapes = une étape d'apprentissage et une étape de codage-décodage décrites à la figure 1 _ Lors de l'étape d'apprentissage (fïgure 1 ), une procédure ~0 automatique détermine par exemple après une analyse paramétrique 1 et une étape de segmentation 2, un ensemble de 64 classes d'unités acoustiques désignées « UA ». A chacune de ces classes d'unités acoustiques est associé un modèle statistique 3, de type modéle de Mar'kov (WMM ai~réviation anglo-saxonne de Hidden Markov Model), ainsi qu'un petit Fax émis tsar : TNOMSON CSF TPI 15/10/81 12:17 Pqr: 4/21 x ' nombre d'unités représentantes d'une Classe, dlésignées sous lé terme u représentants » 4. Dans le système actuel, les représentants sont simplement les S unités les plus longues appartenant à une mème classe acoustique. Ils peuvent également étre déterminés comme étant les N unités s plus représentatives de l'unité acoustique. Lors du codage d'un signal de parole après une étape d'analyse paramétrique 5 permettant d'obtenir notamment les paramètres spectraux, les énergies, le pitch, une procédure de reconnaïssance (6, 7), à l'aide d'un algorithme de Vïterbi, détermine la succession d'unités acoustiques du signa! de parole et identifie le « meilleur ~ o représentant » à utiliser pour la synthèse de parole_ Ce choix sa fait par exemple en utilisant un critère de distance spectrale, tel que l'algorithme de DTW (abréviation anglo-saxonne de Dynamic Time Warping).
Le numéro de la classe acoustique, l'indice de cette unité représentante , la longueur du segment, le contenu de DiIN et les informations prosodiques i 5 issues de l'analyse paramétrique sont transmises au décodeur. La synthèse de la parole se fait par concaténation des meilleurs représentants, éventuellement en utilisant un synthëtiseur paramétrique de type LPC_ Pour concaténer les représentants lors du décodage de la parole, on fait appel, par exemple, à un procédé d'analyselsynthèse paramétrique de 20 la parole_ Ce procédé paramétrique permet notamrnent des modificatïons de prosodie telles que l'ëvolution temporelle, la fréquence fondamentale ou pitch, par rapport à une sïrnple concaténation de formes d'onde.
Le modèle paramétrique de parole utilisé par le procédé
d'analyselsynthèse peut ètre à excitation binaire voisé! non voïsé de type 25 LPC 10 tel que décrit dans le document intitulé u The government standard lïnear predictive coding 2~Igorithm : l_PC-1 Cl » de -r.Tremain publié dans la revue Speech Technology, vol.1, n°2, pp 40-49. w Cette technique permet de coder l'enveloppe spectrale du signal en 185 bitsls environ pour un système monolocuteur, pour une moyenne 3o d'environ 21 segments par seconde_ Dans la suite de la description les termes ci-aprés ont les significations suivantes le terme K représentant » correspond à l'un des segments de la base d'apprentissage qui a été jugé représentatif d'une des classes d'unités 35 acoustique, Fax émis par : THOMSOH CSF TPI 15/10/01 12:17 Pq: 5/21 . ~- l'expression « segment reconnu » correspond à un segment de la .parole qui a été identifié comme appartenant à l'une des classes acoustiques, par le codeur, l'expression « meilleur représentant » désigne le représentant déterminé
au niveau du codage qui représente 1e mieux le segment reconnu.
L'objet de la présente invention concerne un procédé de codage, décodage de la prosodie pour un codeur de parole à trés bas débit utilisant notamment les meilleurs représentants.
II concerne aussi la compression de données.
L'invention concerne un procédé de codage-décodage de la parole utilisant un codeur à trés bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter (e signal de parole et déterminer le « meilleur ~ s représentant » associé é chaque segment reconnu. li est caractérisé en ce qu'il comporte au moïns une étape de codage-décodage d'un des paramètres au moins de fa prosodie des segments reconnus, tel que l'énergie etlou le pitch etlou le voisement etlou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2o L'information de prosodie des représentants utilisée est par exemple le contour d'énergie ou le voisement ou la langueur des segments ou le pitch_ .
L'ëtape de codage de la longueur des segments reconnus consiste par exemple à coder la différence de longueur entre la longueur 25 d'un segment reconnu et la longueur du u meilleur représentant » multiplié
par un facteur donné.
Selon un mode de réalisation, il compori;e une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
30 L'étape de Godage de ('énergie peut comporter une étape de détermination pour chaque début de « segment reconnu » de la différence ~E(j) entre la valeur d'énergie E~d(j) du « meilleur représentant » et la valeur Fax émis taar : THOMSON CSF TPI 15/18/81 12:17 Pq: 6/21 d'ënergie E~,{j) du début du « segment reconnu » et l'étàpe de décodage comporter pour chaque segment reconnu, une première étape consistant à
transtater le contour d'énergie du meilleur reprssentant d'une quantité ~E(j) pour faire coïncider la première énergie E~d{j) du « meilleur reprÉSentant »
avec (a première énergie Es~tj+1 ) du segment reconnu d'indice j+1.
L'étape de codage de voisement comporte par exemple une étape de détermination des différences existantes eTk pour chaque extrémitë d'une zone de voisement d'indice 1c entre la courbe du voisement des Segments reconnus et celle des meilleurs représentants et l'étape de décodage vo comporte par exemple pour chaque extrémité â'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'uns valeur OTk correspondante etlou une étape de suppression ou d'insertion d'une iransitian, Le procédé concerne aussi un système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des « meilleurs représentants » et pour mettre en aeuvre les étapes du procédé selon l'une des caractéristiques précitées.
20 Le dictionnaire des représentants est par exemple commun au codeur et au décodeur du système codage-décodage.
Le procédé et le système Selon l'invention peuvent étre utilisés pour 1e codage-décodage de la parole pour des débits inférieurs à 800 bitsls $t de préférence inférieurs à 40Q bitsls_
Ces différents paramètres sont estimés périodiquement sur le signal de parole, typiquement toutes les 10 à 30 ms. Ils sont élaborés au niveau d'un dispositif d'analyse et sont généralement transmis à distance en direction d'un dispositif de synthèse reproduisant 1e signal de parole à
partir 20 de la valeur quantifiée des paramètres du modèle_ Jusqu'à présent, ie plus bas débit normalisé pour un codeur de parole utilisant cette technique est de 800 bitsls. Ce codeur, normalisé en 1994 est décrit par le standard QTAN STRNAG 4479 et dans l'article intitulé
K NA~O STANAG 44¿9 : A standard for an 800 bps vocoder and channel coding in HF-ECCM system ", IEi=E Int_ Conf. on ASSP, Detroit, pp 480-483, May 1995 ayant pour auteurs Mouy, B_, De La Noue, P., et .Goudezeune,G. II
repose sur une technique d'analyse trame par trame (22.5 ms) de type LPC 10 et exploite au maximum la redondance temporelle du signal de parole en regroupant les trames 3 par 3 avant encodage des paramètres_ 3o Bien qu'intelligible, la parole reproduite par ces techniques de codage est d'assez mauvaise qualité et n'est plus acceptable à partir du moment où le débit est inférieur à 800 bitsls.
Fax émis par : THOMSOH cSF TPI 15/18/81 12:17 Pq: 3/Z1 s Une manière de réduire le débit est d'utilisér les vpcodeurs segmentaux de type phonétiques avec dis segments de durée variable qui combinent des principes de reconnaissance et de synthèse de la parole.
La procédure d'encodage utilise essentiellement un systéme de reconnaissance automatique de la parole en flot continu, qui segmente et « étiquète » le signal de parole selon un nombre d'unités de parole de taille variable, Ces unités phonétiques sont codées par indexation dans ur~ petit dictionnaire. Le décodage repose sur le principe de la synthèse de la parole par concaténation à partir de l'index des unités phonétiques et de la prosodie. Le terme « prosodie » regroupe principalement les paramètres suivants v l'énergie du signal, !e pitch, une information de voisement et éventuellement le rythme temporel.
Toutefois, le développement des codeurs phonétiques nécessite des connaissances importances en phonétique et en liguistique, ainsi qu'une ~ 5 phase de transcription phonétique d'une base de données d'apprentissage qui est coüteuse et qui peut ètre ia source d'erreurs. De plus, les codeurs phonétiques s'adaptent difficilement à une nouvelle langue ou à un nouveau locuteur.
Une autre technique, décrite par exemple dans la thèse de 20 J.Gernocky, intitulée « Speech Processing Using Automatically Derived Segmentai Units v Applications to very Low Rate Goding and Speaker Verification » de l'Université Paris Xl Qrsay, décembre 199$ permet de contourner (ss problèmes liès à la transcription phonétique de la base de données d'apprentissage en déterminant les unités de parole de -féçvn 25 automatique et indépendamment de la tangue.
Le fonctionnement de ce type de codeur se décompose principalement ers deux étapes = une étape d'apprentissage et une étape de codage-décodage décrites à la figure 1 _ Lors de l'étape d'apprentissage (fïgure 1 ), une procédure ~0 automatique détermine par exemple après une analyse paramétrique 1 et une étape de segmentation 2, un ensemble de 64 classes d'unités acoustiques désignées « UA ». A chacune de ces classes d'unités acoustiques est associé un modèle statistique 3, de type modéle de Mar'kov (WMM ai~réviation anglo-saxonne de Hidden Markov Model), ainsi qu'un petit Fax émis tsar : TNOMSON CSF TPI 15/10/81 12:17 Pqr: 4/21 x ' nombre d'unités représentantes d'une Classe, dlésignées sous lé terme u représentants » 4. Dans le système actuel, les représentants sont simplement les S unités les plus longues appartenant à une mème classe acoustique. Ils peuvent également étre déterminés comme étant les N unités s plus représentatives de l'unité acoustique. Lors du codage d'un signal de parole après une étape d'analyse paramétrique 5 permettant d'obtenir notamment les paramètres spectraux, les énergies, le pitch, une procédure de reconnaïssance (6, 7), à l'aide d'un algorithme de Vïterbi, détermine la succession d'unités acoustiques du signa! de parole et identifie le « meilleur ~ o représentant » à utiliser pour la synthèse de parole_ Ce choix sa fait par exemple en utilisant un critère de distance spectrale, tel que l'algorithme de DTW (abréviation anglo-saxonne de Dynamic Time Warping).
Le numéro de la classe acoustique, l'indice de cette unité représentante , la longueur du segment, le contenu de DiIN et les informations prosodiques i 5 issues de l'analyse paramétrique sont transmises au décodeur. La synthèse de la parole se fait par concaténation des meilleurs représentants, éventuellement en utilisant un synthëtiseur paramétrique de type LPC_ Pour concaténer les représentants lors du décodage de la parole, on fait appel, par exemple, à un procédé d'analyselsynthèse paramétrique de 20 la parole_ Ce procédé paramétrique permet notamrnent des modificatïons de prosodie telles que l'ëvolution temporelle, la fréquence fondamentale ou pitch, par rapport à une sïrnple concaténation de formes d'onde.
Le modèle paramétrique de parole utilisé par le procédé
d'analyselsynthèse peut ètre à excitation binaire voisé! non voïsé de type 25 LPC 10 tel que décrit dans le document intitulé u The government standard lïnear predictive coding 2~Igorithm : l_PC-1 Cl » de -r.Tremain publié dans la revue Speech Technology, vol.1, n°2, pp 40-49. w Cette technique permet de coder l'enveloppe spectrale du signal en 185 bitsls environ pour un système monolocuteur, pour une moyenne 3o d'environ 21 segments par seconde_ Dans la suite de la description les termes ci-aprés ont les significations suivantes le terme K représentant » correspond à l'un des segments de la base d'apprentissage qui a été jugé représentatif d'une des classes d'unités 35 acoustique, Fax émis par : THOMSOH CSF TPI 15/10/01 12:17 Pq: 5/21 . ~- l'expression « segment reconnu » correspond à un segment de la .parole qui a été identifié comme appartenant à l'une des classes acoustiques, par le codeur, l'expression « meilleur représentant » désigne le représentant déterminé
au niveau du codage qui représente 1e mieux le segment reconnu.
L'objet de la présente invention concerne un procédé de codage, décodage de la prosodie pour un codeur de parole à trés bas débit utilisant notamment les meilleurs représentants.
II concerne aussi la compression de données.
L'invention concerne un procédé de codage-décodage de la parole utilisant un codeur à trés bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter (e signal de parole et déterminer le « meilleur ~ s représentant » associé é chaque segment reconnu. li est caractérisé en ce qu'il comporte au moïns une étape de codage-décodage d'un des paramètres au moins de fa prosodie des segments reconnus, tel que l'énergie etlou le pitch etlou le voisement etlou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2o L'information de prosodie des représentants utilisée est par exemple le contour d'énergie ou le voisement ou la langueur des segments ou le pitch_ .
L'ëtape de codage de la longueur des segments reconnus consiste par exemple à coder la différence de longueur entre la longueur 25 d'un segment reconnu et la longueur du u meilleur représentant » multiplié
par un facteur donné.
Selon un mode de réalisation, il compori;e une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
30 L'étape de Godage de ('énergie peut comporter une étape de détermination pour chaque début de « segment reconnu » de la différence ~E(j) entre la valeur d'énergie E~d(j) du « meilleur représentant » et la valeur Fax émis taar : THOMSON CSF TPI 15/18/81 12:17 Pq: 6/21 d'ënergie E~,{j) du début du « segment reconnu » et l'étàpe de décodage comporter pour chaque segment reconnu, une première étape consistant à
transtater le contour d'énergie du meilleur reprssentant d'une quantité ~E(j) pour faire coïncider la première énergie E~d{j) du « meilleur reprÉSentant »
avec (a première énergie Es~tj+1 ) du segment reconnu d'indice j+1.
L'étape de codage de voisement comporte par exemple une étape de détermination des différences existantes eTk pour chaque extrémitë d'une zone de voisement d'indice 1c entre la courbe du voisement des Segments reconnus et celle des meilleurs représentants et l'étape de décodage vo comporte par exemple pour chaque extrémité â'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'uns valeur OTk correspondante etlou une étape de suppression ou d'insertion d'une iransitian, Le procédé concerne aussi un système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des « meilleurs représentants » et pour mettre en aeuvre les étapes du procédé selon l'une des caractéristiques précitées.
20 Le dictionnaire des représentants est par exemple commun au codeur et au décodeur du système codage-décodage.
Le procédé et le système Selon l'invention peuvent étre utilisés pour 1e codage-décodage de la parole pour des débits inférieurs à 800 bitsls $t de préférence inférieurs à 40Q bitsls_
2~
Le procédé et le système de codage-décodage selon l'invention offrent notamment l'avantage de coder à très bas débit la prosodie et de fournir ainsi un codeur complet dans ce domaine d'application.
3o D'autres caractéristiques et avantages apparaïtront à la lecture de la description dëtaillée d'un mode de réalisation pris à titre d'exemple non limitatif et illustré par les dessins annexés où
~ la figure 1 représente un schéma d'apprentissage, de codage et de décodage de la parole selon l'art antérieur, Fax émis par : THOMSON CSF TPI 15/18/01 12:1'7 Pqr: 7/21 ~ les figures 2 ~t 3 décrivent des exemples de codage de ts longueur des segments reconnus, ~ la figure 4 scf~ématise un modèle d'alignement temporel des u meilleurs représentants ~, ~ les figures 5 et 6 montrent des courbes des énergies du signal à coder et des représentants alignés, ainsi que les contours des énergies initia! et décodé obtenus en mettant en aeuvre le procédé selon l'invention, ~ la figure 7 schématise le codage du voisement du signal de parole, et la figure 8 est un exemple de codage du pitch.
he principe de codage selon l'inventior~ repose sur l'utilisation des ~ meilleurs représentants ~, notamment leur information de prosodie, pour Coder etlou décoder au moins un des paramètres de prosodie d'un signal de parole, par exemple le pitcY~, l'énergie du signal, le voisement, la langueur ~ 5 des segments reconnus.
Pour compresser la prosodie é très bas débit, le principe mis en oeuvre utilise la segmentation du codeur ainsi que les informations prosodiques des « meilleurs représer~tants ~.
t~a description qui suit donnée à titre illustratif et nullement limitatif 2o décrit un procédé de codage de la prosodie dans un dispositif de codage décodage de la parole à faible débit qui comporte un dictionnaire obtenu de façon automatique, par exemple, lors de l'apprentissage tel que décrit à la figure 1 _ Le dictionnaire comprend les informations suivantes z5 ~ plusieurs classes d'unités acoustiques UA, chaque classe étant déterminée à partir d'un modèle statistique, pour chaque classe d'unités acoustiques, un ensemble .de représentants.
Ce dictionnaire est connu du codeur et du décodeur. II
3o correspond par exemple â une ou plusieurs langues et à un Qu plusieurs locuteurs.
La systéme de codage-décodage comporte par exemple une mémoire pour stocker le dictionnaire, un microprocesseur adapté pour déterminer les segments reconnus, pour la mise en oeuvre des différentes Fax émis ~aar : THOMSOM CSF TPI 15/10/01 12:17 Pq: 8/21 étapes du procédé selon l'invention et pour reconstruire la parole à partir des meilleurs représentants.
Le procédé selon l'invention met ceuvre au moins une des étapes suivantes : le codage de la longueur des segments, le codage de l'alignement temporel des « meilleurs représentants b, le codage etlou le décodage de l'énergie, le codage etlou ie décodage de l'information de voisement etlou le codage etlou le décodage du pitch etlou le décodage de la longueur des segments et de l'alignement temporel.
Codage de la t~ngueur des segments t0 Le système de Godage détermine en moyenne un nombre Ns de segments par seconde, par exemple 21 segments. La taille de ces segments varie en fonction de la classe d'unités acoustiques UA. II apparait que pour la majorité des UA, le nombre de segments décroït selon une relation 1d x2~s, où
x est la langueur du segment.
t 5 Une variante de réalisation du procédé selon l'invention consiste à
coder la différence de longueur variable entre le « segment reconnu ~ et la longueur du « meilleur représentant ü selon un schéma décrit à la figure 2.
Sur ce schéma dans la colonne de gauche figure la longueur du mot de code à utiliser et dans la colonne de droite la différence de longueur 2o entre la longueur du segment reconnu par le codeur pour le signal de parole et celle du meilleur représentant.
Selon un autre mode de réalisation donnée à la figure 3, le codage de la longueur absolue d'un segment reconnu est effectué à l'aide d'un code à longueur variable semblable à celui de Huffman connu de l'Homme du 25 métier, Ce qui permet d'obtenir un débit de l'ordre de 55 bitsls.
Le fait d'utiliser les longs mots de code pour coder les longueurs de grands segments reconnus, permet notamment de conserver la valeur de débit dans une plage de variation limitée. En effet, ces longs segments réduisent le nombre de segment reconnu par seconde et le nombre de 30 longueurs à coder.
En résumé, on code par exemple avec un code à longueur variable la différence entre ia longueur du segment reconnu et la longueur du meilleur représentant multiplié par un certain facteur, ce facteur pouvant être compris entre 0 (codage absolu) et 1 (codage de fa différence).
Fax émis par : THOMSON CSF TPI 15/10/01 12:1? Pq: 9/21 Codage de l'alignement temporel des rneilieurs représentants L'alignement temporel est par exemple réalisé en suivant le chemin de la DTW tabréviation anglo-saxonne de Dynamic Time Warping) qui a été déterminé lors de la recherche du « meilleur représentant r pour coder le a segment reconnu ».
La figure 4 représente le chemin ( ç} de la DTW correspondant au contour temporel qui minimise la distorsion entre le paramètre é coder (axe des abscisses}, par exemple le vecteur des coefficients a oepstraux u, et le « meilleur représentant ~ (axe des ordonnées). Cette approche est décrite dans le livre ayant pour titre « Traitement de la parole », pour auteur René
Boite et Murat Kunt publié aux Presses Polytechnique Romandes éditions 1987.
Le codage de l'alignement des « meilleurs représentants ~ est effectué par recherche du plus proche voisin dans une table contenant des ~ 5 formes type. Le choix de ces formes type se fait par exemple par une approche statistique, telle que l'apprentissage sur une base de données de parole ou par une approche algébrique par exemple la description par des équations mathématiques paramétrables, ces diffërentes méthodes étant connues de l'Homme du métier.
zo Selon une autre approche, valable dans le cas où les segments de petite taille sont en proportion importante, le procédé effectue un alignement des segments suivant la diagonale piutc~t que le chemin exact de 1a DTW. Le débit est dors nul.
Codage-décodage de l'énergie zs Lorsque l'on classe et analyse les segments de la base de données de parole appartenant à chacune des classes d'unités acoustiques, on constate qu'il se dëgage une certaine cohérence dans la forme des contours des énergies. De plus, il existe des ressemblances entre les contours d'énergie des meilleurs représentants alignés par DTW et les 3o contours de l'énergie du signai à coder.
Le codage de l'énergie est décrit ci-après en relation aux figures 5 et 6, où l'axe des ordonnées correspond à l'énergie du signal de la parole a coder exprimée en dB et l'axe des abscisses au temps exprimé en trames.
Fax émis par : THOMSON CSF TPI 15/18/81 12:17 Pq: 18/21 La figûre 5 représente la courbe (III) regroupant des contours d'Gnergie des meilleurs représentants alignés et fa courbe (1V) des contours d'énergie des segments reconnus séparés par des * sur la figure. Un segment reconnu d'indice j est délimité par deux points de coordonnées respectives (Esa(~) ; Taa(~}] et (Es,(j) ; TS~(j}] où Esa(j) est l'énergie de début de segment et Es~(j) l'énergie de fin de segment, pour les instants Taf et T5~
correspondant. Les références E~d(j) et Erf(j) sont utilisées pour les valeurs d'énergies du début et de la fin d'un « meilleur représentant » et la référence ~1E(j) correspond à la translation déterminée pour un segment reconnu d'indice j.
Codage de l'éners~ie Le procédë comporte une première étape de détermination de la translation à réaliser-Pour cela on détermine pour chaque début de « segment t 5 reconnu », la différence DE(j) existant entre la valeur d'énergie E,a(j}
du meilleur représentant (courbe III} et la valeur d'énergie Egd du début du segment reconnu {courbe IV). On obtient un ensemble de valeurs oE(j) que l'on quantifie par exemple uniformément de menière à connaïtre la translation à appliquer lors du décodage. La quantification est réalisée par 2o exemple en utilisant des méthodes connues de 1°Homme du rnëtier, Décoda e de l'éner ie du si nal de arole Le procédé consiste notamment à utiliser les contours d'énergie des meilleurs représentants (courbe III) pour reconstruire fes contours d'énergie du signal à coder (courbe iV).
2~ Pour chaque segment reconnu, une première étape consiste à
translater le contour d'énergie du meilleur représentant poser la faire Coïncider avec fa premiére énergie E~d(j} en lui appliquant la translation ~E{j}, définie à
l'étape de codage par exemple, pour dëterminer la valeur Esa(j). Après cette première étape de translation, le procédé comporte une étape de modification de la pente du contour d'énergie du meilleur représentant afin de relier la dernière valeur d'énergie Erd(j} du ~ meilleur représentant ü à
la première énergie Esd(j+1 ) du segment suivant d'indics j+1.
La figure 6 représente les courbes (Vi) et (VII) correspondant respectivement au contour d'énergie original du signal de parole à coder et Fax émis par : THOMSON CSF TPI 15/10/81 12:17 Pq: il/Zl du -contour d'énergie décodé après mise en oeuvre des étapes décrites précédemment.
Par exemple, le codage des énergies de début de chaque segment sur ~ bits permet d'obtenir pour ie codage segmenta( de l'énergie un débit de l'ordre de 80 bitsls.
Codage de l'information de voisement La f:pure 7 représente l'ëvolution temporelle d'une information de voisement binaire de quatre segments successifs 35, 36, 37 pour le signal â
coder courbe (Vllj et pour les meilleurs représentants (courbe VIII) après alignement temporel par I~TW, Codage de !'information de voisement Lors du codage, le procédé exécute une étape de codage de ('information de voisement, par exemple en parcourant l'évolution temporelle de l'information de voisement des segments reconnus et celle des meilleurs ~ 5 représentants alignés (courbe VIII) et en codant les différences existantes dTk entre ces deux courbes. Ces différences aTK peuvent ètre : une avance a de la trame, un retard b de trame, l'absence etlou la présence d'une transition référence c (k correspond à l'indice d'une extrémité d'une zone de voisement). .
2o Pour cela, ü est possible d'utiliser un code de longueur variable dont un exemple est donné dans !a table I ci-dessous, pour coder la correction à apporter à chacune des transitions de voisement pour chacun des segments reconnus_ Tous les segments ne comportant pas de transition de voisement, il est possible de réduire le dëbit associé au voisement en ne 25 codant que les transitions de voisement existantes dans le voisement à
coder et dans les meilleurs représentants, Selon cette méthode, l'information de voisement est codée sur environ 22 bits par seconde.
Fax émis par : THOMSOH CSF TPI 15/10/91 12:17 Pq: 12/21 Table ~ : Exemple de fable de codage pour les i~rans~tians de voisement Code Interprtation _ OC?0 Transitio_ n__ _supprimer Q01 Dcala e 1trame ~ Droite 010 Dcala e 1 trame fauche 011 Dcala e 2 trames Droite 1 Ug Dcela e 2 trames Gauche 101 Insrer une transition (un code prcisant l'em lacement de la transition suit celui-ci 11 Pas de dcala e 117 Dplacement suprieur 3 trames (un autre code suit celui-ci s Pour une information de voisement mixte telle que ~ le taux de voisement en sous-bande, l'analyse de cette information fait appel à une méthode décrite par exemple dans le document suivant "Multiband Excitation Vocoders", ayant pQUr auteurs D.W. Griffin and J.S.
Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 3fi, no. 8, pp. 9 223-1235, 198$ ;
~ la fréquence de transition entre une bande basse voisée et une bande haute non-voisée, le codage utilise une méthode telle que décrite dans le document ayant pour auteurs C. Laflamme, R. Salami, R. Matmti, and J-P_ Adoul, intitulé "Harmonie Stochastic Excitation (HSX~ speech coding below 4 kbitsls", lE~~ International Conference on Acoustics, Speech, and Signal Processing, Atlanta, May 1996, pp. 204-207.
Dans ces deux cas, le codage de l'information de voisement comporte également le codage de la variation de la proportion de voisement.
Décodage de l'information de voisement 20 Le décodeur dispose de l'information de voisement des cc meilleurs représentants alignés » obtenu au niveau du codeur.
La correction s'effectue par exemple de la maniére suivante A chaque détection de l'extrémité d'une none de voisement sur les meilleurs représentants choisis pour la synthèse, le procédé apporte une 25 information complémentaire au décodeur c~ui est la correction à effectuer à
cette extrémité. La correction peut étre une avance a ou un retard b à
apporter à cette extrémité. Ce décalage temporel est par exemple exprimé
Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Pq: 13/21 en -nombre de trames afin d'obtenir la position exacte de l'extrémité de voisement du signal de parole original. La correction peut aussi prendre la forme d'une suppression ou d'une insertion d'une transition.
Coôage du pitch L'expérience montre que, sur des enregistrements de parole, le nombre de zones voisées obtenues par seconde est en moyenne de l'ordre de 3 ou 4. Pour rendre compte fidèlement des variations du pitch, une manière de procéder consiste à transmettre plusieurs valeurs de pitch par zone voisés. Afin de limiter le débit, au lieu de transmettre toute la t o succession des valeurs de pitch sur une zone voisée, le contour du pitch est approximé par une succession de segments linéaires.
Codage du pitçh Pour chaque zone voisée du signal de parole, le procédé
comporte une étape de recherche des valeurs du pitch à transmettre. Les ~ 5 valeurs de pitch au début et à la fin de la zone voisée sont systématiquement transmises. Les autres valeurs à transmettre sont déterminées de la manière suivante ~ le procédé considère uniquement les valeurs du pitch au début des segments reconnus. Partant de la droite Di joignant les valeurs du pitch zo aux deux extrémités de la zone voisée, le procédé recherche le début de segment dont la valeur de pïtch est la plus éloignée de cette droite, ce qui correspond à une distance d,~ax. II compare cette valeur dmex à une valeur seuil d~";,. Si la distance dmax est supérieure à dse~n, le procédé
décompose la droite initiale Di en deux droites D;~ et D;2, en prenant le 25 début du segment trouvé nomme nouvelle valeur de pitch à transmettre.
Cette opération est réitérée sur ces deux nouvelles zones voisée délimitées par les droites C7;1 et D;z jusqu'à ce que la distance dmax trouvée soit inférieure à la distance dge"~,, Pour coder les valeurs du pitch ainsi déterminées, le procëdé
utilise par exemple un quantificateur scalaire prédictif sur par exemple 5 bits appliqué au logarithme du pitch.
t.a prédiction est par exemple 1a première valeur de pitch du meilleur représentant correspondant à la position du pitch à décoder, multipliée par un facteur de prédiction compris par exemple entre 0 et '1.
Fax émis par : THOMSOM CSF TPI 15/18/81 12:17 Pq: 14/21 Selon une autre façon de procéder, fa prédiction peut étre la valeur minimale de l'enregistrement de parole à coder- Dans ce cas, cette valeur peut âtre transmise au décodeur par quantification scalaire sur par exemple 8 bits.
Les valeurs des pitchs à transmettre ayant été déterminées et codées, le procëdé comporte une étape où l'espacement temporel est précisé, par exemple en nombre de trames, entre chacune de ces valeurs de pitch_ Un code à longueur variable permet par exemple de coder ces espacements sur 2 bits en moyenne.
dette façon de procéder permet d'obtenir un débit d°anviron 651bits par seconde pour une distance maximale sur la période pitch de 7 échantillons.
Décodage du pitch L'étape de décodage comporte tout d'abord une étape de i 5 décodage de l'espacement temporel entre les différentes valeurs de pitch transmises afin de récupérer les instants de mise à~ jour du pitch, ainsi que la valeur du pitch pour chacun de ces instants. La valeur du pitch pour chacune des trames de la zone voisée est reconstituée par exemple par interpolation linéaire entre les valeurs transmises,
Le procédé et le système de codage-décodage selon l'invention offrent notamment l'avantage de coder à très bas débit la prosodie et de fournir ainsi un codeur complet dans ce domaine d'application.
3o D'autres caractéristiques et avantages apparaïtront à la lecture de la description dëtaillée d'un mode de réalisation pris à titre d'exemple non limitatif et illustré par les dessins annexés où
~ la figure 1 représente un schéma d'apprentissage, de codage et de décodage de la parole selon l'art antérieur, Fax émis par : THOMSON CSF TPI 15/18/01 12:1'7 Pqr: 7/21 ~ les figures 2 ~t 3 décrivent des exemples de codage de ts longueur des segments reconnus, ~ la figure 4 scf~ématise un modèle d'alignement temporel des u meilleurs représentants ~, ~ les figures 5 et 6 montrent des courbes des énergies du signal à coder et des représentants alignés, ainsi que les contours des énergies initia! et décodé obtenus en mettant en aeuvre le procédé selon l'invention, ~ la figure 7 schématise le codage du voisement du signal de parole, et la figure 8 est un exemple de codage du pitch.
he principe de codage selon l'inventior~ repose sur l'utilisation des ~ meilleurs représentants ~, notamment leur information de prosodie, pour Coder etlou décoder au moins un des paramètres de prosodie d'un signal de parole, par exemple le pitcY~, l'énergie du signal, le voisement, la langueur ~ 5 des segments reconnus.
Pour compresser la prosodie é très bas débit, le principe mis en oeuvre utilise la segmentation du codeur ainsi que les informations prosodiques des « meilleurs représer~tants ~.
t~a description qui suit donnée à titre illustratif et nullement limitatif 2o décrit un procédé de codage de la prosodie dans un dispositif de codage décodage de la parole à faible débit qui comporte un dictionnaire obtenu de façon automatique, par exemple, lors de l'apprentissage tel que décrit à la figure 1 _ Le dictionnaire comprend les informations suivantes z5 ~ plusieurs classes d'unités acoustiques UA, chaque classe étant déterminée à partir d'un modèle statistique, pour chaque classe d'unités acoustiques, un ensemble .de représentants.
Ce dictionnaire est connu du codeur et du décodeur. II
3o correspond par exemple â une ou plusieurs langues et à un Qu plusieurs locuteurs.
La systéme de codage-décodage comporte par exemple une mémoire pour stocker le dictionnaire, un microprocesseur adapté pour déterminer les segments reconnus, pour la mise en oeuvre des différentes Fax émis ~aar : THOMSOM CSF TPI 15/10/01 12:17 Pq: 8/21 étapes du procédé selon l'invention et pour reconstruire la parole à partir des meilleurs représentants.
Le procédé selon l'invention met ceuvre au moins une des étapes suivantes : le codage de la longueur des segments, le codage de l'alignement temporel des « meilleurs représentants b, le codage etlou le décodage de l'énergie, le codage etlou ie décodage de l'information de voisement etlou le codage etlou le décodage du pitch etlou le décodage de la longueur des segments et de l'alignement temporel.
Codage de la t~ngueur des segments t0 Le système de Godage détermine en moyenne un nombre Ns de segments par seconde, par exemple 21 segments. La taille de ces segments varie en fonction de la classe d'unités acoustiques UA. II apparait que pour la majorité des UA, le nombre de segments décroït selon une relation 1d x2~s, où
x est la langueur du segment.
t 5 Une variante de réalisation du procédé selon l'invention consiste à
coder la différence de longueur variable entre le « segment reconnu ~ et la longueur du « meilleur représentant ü selon un schéma décrit à la figure 2.
Sur ce schéma dans la colonne de gauche figure la longueur du mot de code à utiliser et dans la colonne de droite la différence de longueur 2o entre la longueur du segment reconnu par le codeur pour le signal de parole et celle du meilleur représentant.
Selon un autre mode de réalisation donnée à la figure 3, le codage de la longueur absolue d'un segment reconnu est effectué à l'aide d'un code à longueur variable semblable à celui de Huffman connu de l'Homme du 25 métier, Ce qui permet d'obtenir un débit de l'ordre de 55 bitsls.
Le fait d'utiliser les longs mots de code pour coder les longueurs de grands segments reconnus, permet notamment de conserver la valeur de débit dans une plage de variation limitée. En effet, ces longs segments réduisent le nombre de segment reconnu par seconde et le nombre de 30 longueurs à coder.
En résumé, on code par exemple avec un code à longueur variable la différence entre ia longueur du segment reconnu et la longueur du meilleur représentant multiplié par un certain facteur, ce facteur pouvant être compris entre 0 (codage absolu) et 1 (codage de fa différence).
Fax émis par : THOMSON CSF TPI 15/10/01 12:1? Pq: 9/21 Codage de l'alignement temporel des rneilieurs représentants L'alignement temporel est par exemple réalisé en suivant le chemin de la DTW tabréviation anglo-saxonne de Dynamic Time Warping) qui a été déterminé lors de la recherche du « meilleur représentant r pour coder le a segment reconnu ».
La figure 4 représente le chemin ( ç} de la DTW correspondant au contour temporel qui minimise la distorsion entre le paramètre é coder (axe des abscisses}, par exemple le vecteur des coefficients a oepstraux u, et le « meilleur représentant ~ (axe des ordonnées). Cette approche est décrite dans le livre ayant pour titre « Traitement de la parole », pour auteur René
Boite et Murat Kunt publié aux Presses Polytechnique Romandes éditions 1987.
Le codage de l'alignement des « meilleurs représentants ~ est effectué par recherche du plus proche voisin dans une table contenant des ~ 5 formes type. Le choix de ces formes type se fait par exemple par une approche statistique, telle que l'apprentissage sur une base de données de parole ou par une approche algébrique par exemple la description par des équations mathématiques paramétrables, ces diffërentes méthodes étant connues de l'Homme du métier.
zo Selon une autre approche, valable dans le cas où les segments de petite taille sont en proportion importante, le procédé effectue un alignement des segments suivant la diagonale piutc~t que le chemin exact de 1a DTW. Le débit est dors nul.
Codage-décodage de l'énergie zs Lorsque l'on classe et analyse les segments de la base de données de parole appartenant à chacune des classes d'unités acoustiques, on constate qu'il se dëgage une certaine cohérence dans la forme des contours des énergies. De plus, il existe des ressemblances entre les contours d'énergie des meilleurs représentants alignés par DTW et les 3o contours de l'énergie du signai à coder.
Le codage de l'énergie est décrit ci-après en relation aux figures 5 et 6, où l'axe des ordonnées correspond à l'énergie du signal de la parole a coder exprimée en dB et l'axe des abscisses au temps exprimé en trames.
Fax émis par : THOMSON CSF TPI 15/18/81 12:17 Pq: 18/21 La figûre 5 représente la courbe (III) regroupant des contours d'Gnergie des meilleurs représentants alignés et fa courbe (1V) des contours d'énergie des segments reconnus séparés par des * sur la figure. Un segment reconnu d'indice j est délimité par deux points de coordonnées respectives (Esa(~) ; Taa(~}] et (Es,(j) ; TS~(j}] où Esa(j) est l'énergie de début de segment et Es~(j) l'énergie de fin de segment, pour les instants Taf et T5~
correspondant. Les références E~d(j) et Erf(j) sont utilisées pour les valeurs d'énergies du début et de la fin d'un « meilleur représentant » et la référence ~1E(j) correspond à la translation déterminée pour un segment reconnu d'indice j.
Codage de l'éners~ie Le procédë comporte une première étape de détermination de la translation à réaliser-Pour cela on détermine pour chaque début de « segment t 5 reconnu », la différence DE(j) existant entre la valeur d'énergie E,a(j}
du meilleur représentant (courbe III} et la valeur d'énergie Egd du début du segment reconnu {courbe IV). On obtient un ensemble de valeurs oE(j) que l'on quantifie par exemple uniformément de menière à connaïtre la translation à appliquer lors du décodage. La quantification est réalisée par 2o exemple en utilisant des méthodes connues de 1°Homme du rnëtier, Décoda e de l'éner ie du si nal de arole Le procédé consiste notamment à utiliser les contours d'énergie des meilleurs représentants (courbe III) pour reconstruire fes contours d'énergie du signal à coder (courbe iV).
2~ Pour chaque segment reconnu, une première étape consiste à
translater le contour d'énergie du meilleur représentant poser la faire Coïncider avec fa premiére énergie E~d(j} en lui appliquant la translation ~E{j}, définie à
l'étape de codage par exemple, pour dëterminer la valeur Esa(j). Après cette première étape de translation, le procédé comporte une étape de modification de la pente du contour d'énergie du meilleur représentant afin de relier la dernière valeur d'énergie Erd(j} du ~ meilleur représentant ü à
la première énergie Esd(j+1 ) du segment suivant d'indics j+1.
La figure 6 représente les courbes (Vi) et (VII) correspondant respectivement au contour d'énergie original du signal de parole à coder et Fax émis par : THOMSON CSF TPI 15/10/81 12:17 Pq: il/Zl du -contour d'énergie décodé après mise en oeuvre des étapes décrites précédemment.
Par exemple, le codage des énergies de début de chaque segment sur ~ bits permet d'obtenir pour ie codage segmenta( de l'énergie un débit de l'ordre de 80 bitsls.
Codage de l'information de voisement La f:pure 7 représente l'ëvolution temporelle d'une information de voisement binaire de quatre segments successifs 35, 36, 37 pour le signal â
coder courbe (Vllj et pour les meilleurs représentants (courbe VIII) après alignement temporel par I~TW, Codage de !'information de voisement Lors du codage, le procédé exécute une étape de codage de ('information de voisement, par exemple en parcourant l'évolution temporelle de l'information de voisement des segments reconnus et celle des meilleurs ~ 5 représentants alignés (courbe VIII) et en codant les différences existantes dTk entre ces deux courbes. Ces différences aTK peuvent ètre : une avance a de la trame, un retard b de trame, l'absence etlou la présence d'une transition référence c (k correspond à l'indice d'une extrémité d'une zone de voisement). .
2o Pour cela, ü est possible d'utiliser un code de longueur variable dont un exemple est donné dans !a table I ci-dessous, pour coder la correction à apporter à chacune des transitions de voisement pour chacun des segments reconnus_ Tous les segments ne comportant pas de transition de voisement, il est possible de réduire le dëbit associé au voisement en ne 25 codant que les transitions de voisement existantes dans le voisement à
coder et dans les meilleurs représentants, Selon cette méthode, l'information de voisement est codée sur environ 22 bits par seconde.
Fax émis par : THOMSOH CSF TPI 15/10/91 12:17 Pq: 12/21 Table ~ : Exemple de fable de codage pour les i~rans~tians de voisement Code Interprtation _ OC?0 Transitio_ n__ _supprimer Q01 Dcala e 1trame ~ Droite 010 Dcala e 1 trame fauche 011 Dcala e 2 trames Droite 1 Ug Dcela e 2 trames Gauche 101 Insrer une transition (un code prcisant l'em lacement de la transition suit celui-ci 11 Pas de dcala e 117 Dplacement suprieur 3 trames (un autre code suit celui-ci s Pour une information de voisement mixte telle que ~ le taux de voisement en sous-bande, l'analyse de cette information fait appel à une méthode décrite par exemple dans le document suivant "Multiband Excitation Vocoders", ayant pQUr auteurs D.W. Griffin and J.S.
Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 3fi, no. 8, pp. 9 223-1235, 198$ ;
~ la fréquence de transition entre une bande basse voisée et une bande haute non-voisée, le codage utilise une méthode telle que décrite dans le document ayant pour auteurs C. Laflamme, R. Salami, R. Matmti, and J-P_ Adoul, intitulé "Harmonie Stochastic Excitation (HSX~ speech coding below 4 kbitsls", lE~~ International Conference on Acoustics, Speech, and Signal Processing, Atlanta, May 1996, pp. 204-207.
Dans ces deux cas, le codage de l'information de voisement comporte également le codage de la variation de la proportion de voisement.
Décodage de l'information de voisement 20 Le décodeur dispose de l'information de voisement des cc meilleurs représentants alignés » obtenu au niveau du codeur.
La correction s'effectue par exemple de la maniére suivante A chaque détection de l'extrémité d'une none de voisement sur les meilleurs représentants choisis pour la synthèse, le procédé apporte une 25 information complémentaire au décodeur c~ui est la correction à effectuer à
cette extrémité. La correction peut étre une avance a ou un retard b à
apporter à cette extrémité. Ce décalage temporel est par exemple exprimé
Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Pq: 13/21 en -nombre de trames afin d'obtenir la position exacte de l'extrémité de voisement du signal de parole original. La correction peut aussi prendre la forme d'une suppression ou d'une insertion d'une transition.
Coôage du pitch L'expérience montre que, sur des enregistrements de parole, le nombre de zones voisées obtenues par seconde est en moyenne de l'ordre de 3 ou 4. Pour rendre compte fidèlement des variations du pitch, une manière de procéder consiste à transmettre plusieurs valeurs de pitch par zone voisés. Afin de limiter le débit, au lieu de transmettre toute la t o succession des valeurs de pitch sur une zone voisée, le contour du pitch est approximé par une succession de segments linéaires.
Codage du pitçh Pour chaque zone voisée du signal de parole, le procédé
comporte une étape de recherche des valeurs du pitch à transmettre. Les ~ 5 valeurs de pitch au début et à la fin de la zone voisée sont systématiquement transmises. Les autres valeurs à transmettre sont déterminées de la manière suivante ~ le procédé considère uniquement les valeurs du pitch au début des segments reconnus. Partant de la droite Di joignant les valeurs du pitch zo aux deux extrémités de la zone voisée, le procédé recherche le début de segment dont la valeur de pïtch est la plus éloignée de cette droite, ce qui correspond à une distance d,~ax. II compare cette valeur dmex à une valeur seuil d~";,. Si la distance dmax est supérieure à dse~n, le procédé
décompose la droite initiale Di en deux droites D;~ et D;2, en prenant le 25 début du segment trouvé nomme nouvelle valeur de pitch à transmettre.
Cette opération est réitérée sur ces deux nouvelles zones voisée délimitées par les droites C7;1 et D;z jusqu'à ce que la distance dmax trouvée soit inférieure à la distance dge"~,, Pour coder les valeurs du pitch ainsi déterminées, le procëdé
utilise par exemple un quantificateur scalaire prédictif sur par exemple 5 bits appliqué au logarithme du pitch.
t.a prédiction est par exemple 1a première valeur de pitch du meilleur représentant correspondant à la position du pitch à décoder, multipliée par un facteur de prédiction compris par exemple entre 0 et '1.
Fax émis par : THOMSOM CSF TPI 15/18/81 12:17 Pq: 14/21 Selon une autre façon de procéder, fa prédiction peut étre la valeur minimale de l'enregistrement de parole à coder- Dans ce cas, cette valeur peut âtre transmise au décodeur par quantification scalaire sur par exemple 8 bits.
Les valeurs des pitchs à transmettre ayant été déterminées et codées, le procëdé comporte une étape où l'espacement temporel est précisé, par exemple en nombre de trames, entre chacune de ces valeurs de pitch_ Un code à longueur variable permet par exemple de coder ces espacements sur 2 bits en moyenne.
dette façon de procéder permet d'obtenir un débit d°anviron 651bits par seconde pour une distance maximale sur la période pitch de 7 échantillons.
Décodage du pitch L'étape de décodage comporte tout d'abord une étape de i 5 décodage de l'espacement temporel entre les différentes valeurs de pitch transmises afin de récupérer les instants de mise à~ jour du pitch, ainsi que la valeur du pitch pour chacun de ces instants. La valeur du pitch pour chacune des trames de la zone voisée est reconstituée par exemple par interpolation linéaire entre les valeurs transmises,
Claims
REVENDICATIONS
1 - Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant »
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2 - Procédé selon la revendication 1 caractérisé en ce que l'information de prosodie des représentants utilisée est le contour d'énergie ou le voisement ou la longueur des segments ou le pitch.
3 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte une étape de codage de la longueur des segments reconnus consistant à coder la différence de longueur entre la longueur d'un segment reconnu et la longueur du « meilleur représentant » multiplié par un facteur donné.
4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporté une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».
6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.
1 - Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant »
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2 - Procédé selon la revendication 1 caractérisé en ce que l'information de prosodie des représentants utilisée est le contour d'énergie ou le voisement ou la longueur des segments ou le pitch.
3 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte une étape de codage de la longueur des segments reconnus consistant à coder la différence de longueur entre la longueur d'un segment reconnu et la longueur du « meilleur représentant » multiplié par un facteur donné.
4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporté une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».
6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0013628 | 2000-10-18 | ||
FR0013628A FR2815457B1 (fr) | 2000-10-18 | 2000-10-18 | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
Publications (2)
Publication Number | Publication Date |
---|---|
CA2359411A1 CA2359411A1 (fr) | 2002-04-18 |
CA2359411C true CA2359411C (fr) | 2010-07-06 |
Family
ID=8855687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CA2359411A Expired - Fee Related CA2359411C (fr) | 2000-10-18 | 2001-10-17 | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
Country Status (10)
Country | Link |
---|---|
US (1) | US7039584B2 (fr) |
EP (1) | EP1197952B1 (fr) |
JP (1) | JP2002207499A (fr) |
KR (1) | KR20020031305A (fr) |
AT (1) | ATE450856T1 (fr) |
CA (1) | CA2359411C (fr) |
DE (1) | DE60140651D1 (fr) |
ES (1) | ES2337020T3 (fr) |
FR (1) | FR2815457B1 (fr) |
IL (1) | IL145992A0 (fr) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2388439A1 (fr) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | Methode et dispositif de dissimulation d'effacement de cadres dans des codecs de la parole a prevision lineaire |
US20040166481A1 (en) * | 2003-02-26 | 2004-08-26 | Sayling Wen | Linear listening and followed-reading language learning system & method |
JP4256189B2 (ja) * | 2003-03-28 | 2009-04-22 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
FR2861491B1 (fr) * | 2003-10-24 | 2006-01-06 | Thales Sa | Procede de selection d'unites de synthese |
KR101410230B1 (ko) * | 2007-08-17 | 2014-06-20 | 삼성전자주식회사 | 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치 |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
CN107256710A (zh) * | 2017-08-01 | 2017-10-17 | 中国农业大学 | 一种基于动态时间伸缩算法的哼唱旋律识别方法 |
CN110265049A (zh) * | 2019-05-27 | 2019-09-20 | 重庆高开清芯科技产业发展有限公司 | 一种语音识别方法及语音识别系统 |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802223A (en) * | 1983-11-03 | 1989-01-31 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable pitch patterns |
US5305421A (en) * | 1991-08-28 | 1994-04-19 | Itt Corporation | Low bit rate speech coding system and compression |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5682464A (en) * | 1992-06-29 | 1997-10-28 | Kurzweil Applied Intelligence, Inc. | Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values |
EP0706172A1 (fr) * | 1994-10-04 | 1996-04-10 | Hughes Aircraft Company | Codeur et décodeur de parole à faible débit binaire |
US6393391B1 (en) * | 1998-04-15 | 2002-05-21 | Nec Corporation | Speech coder for high quality at low bit rates |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US6456965B1 (en) * | 1997-05-20 | 2002-09-24 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
FR2784218B1 (fr) * | 1998-10-06 | 2000-12-08 | Thomson Csf | Procede de codage de la parole a bas debit |
FR2786908B1 (fr) * | 1998-12-04 | 2001-06-08 | Thomson Csf | Procede et dispositif pour le traitement des sons pour correction auditive des malentendants |
US7069216B2 (en) * | 2000-09-29 | 2006-06-27 | Nuance Communications, Inc. | Corpus-based prosody translation system |
-
2000
- 2000-10-18 FR FR0013628A patent/FR2815457B1/fr not_active Expired - Fee Related
-
2001
- 2001-10-17 CA CA2359411A patent/CA2359411C/fr not_active Expired - Fee Related
- 2001-10-17 IL IL14599201A patent/IL145992A0/xx unknown
- 2001-10-17 AT AT01402684T patent/ATE450856T1/de not_active IP Right Cessation
- 2001-10-17 DE DE60140651T patent/DE60140651D1/de not_active Expired - Lifetime
- 2001-10-17 EP EP01402684A patent/EP1197952B1/fr not_active Expired - Lifetime
- 2001-10-17 ES ES01402684T patent/ES2337020T3/es not_active Expired - Lifetime
- 2001-10-17 JP JP2001319231A patent/JP2002207499A/ja not_active Withdrawn
- 2001-10-18 KR KR1020010064436A patent/KR20020031305A/ko not_active Application Discontinuation
- 2001-10-18 US US09/978,680 patent/US7039584B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ATE450856T1 (de) | 2009-12-15 |
FR2815457B1 (fr) | 2003-02-14 |
ES2337020T3 (es) | 2010-04-20 |
EP1197952A1 (fr) | 2002-04-17 |
DE60140651D1 (de) | 2010-01-14 |
IL145992A0 (en) | 2002-07-25 |
US7039584B2 (en) | 2006-05-02 |
US20020065655A1 (en) | 2002-05-30 |
FR2815457A1 (fr) | 2002-04-19 |
EP1197952B1 (fr) | 2009-12-02 |
KR20020031305A (ko) | 2002-05-01 |
CA2359411A1 (fr) | 2002-04-18 |
JP2002207499A (ja) | 2002-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2277172B1 (fr) | Dissimulation d'erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique | |
Kankanahalli | End-to-end optimized speech coding with deep neural networks | |
EP1372289B1 (fr) | Création d'une trame de description de silence pour engendrer un bruit de confort | |
JP5208901B2 (ja) | 音声信号および音楽信号を符号化する方法 | |
EP1692689B1 (fr) | Procede de codage multiple optimise | |
US5067158A (en) | Linear predictive residual representation via non-iterative spectral reconstruction | |
EP2080195B1 (fr) | Synthèse de blocs perdus d'un signal audionumérique | |
JP5265853B2 (ja) | 処理装置、処理方法、記録媒体、符号化方法及び復号化方法 | |
US20070106513A1 (en) | Method for facilitating text to speech synthesis using a differential vocoder | |
CA2359411C (fr) | Procede de codage de la prosodie pour un codeur de parole a tres bas debit | |
EP2312851A2 (fr) | Procédé et appareil pour un codage et un décodage multiplexe | |
EP0428445B1 (fr) | Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit | |
US20040176961A1 (en) | Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method | |
WO2005066936A1 (fr) | Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques | |
EP1836699B1 (fr) | Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme | |
EP2795618B1 (fr) | Procédé de détection d'une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d'ordinateur correspondant | |
EP1526508B1 (fr) | Procédé de sélection d'unités de synthèse | |
EP2080194B1 (fr) | Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information | |
EP3138095B1 (fr) | Correction de perte de trame perfectionnée avec information de voisement | |
EP2203915B1 (fr) | Dissimulation d'erreur de transmission dans un signal numerique avec repartition de la complexite | |
EP1756806B1 (fr) | Procede de quantification d'un codeur de parole a tres bas debit | |
Chu | A scalable MELP coder based on embedded quantization of line spectral frequencies | |
Deshpande et al. | Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency Reconstruction of Long, Lossy Audio Sequences | |
Cheng et al. | Improvement of Packet Loss Concealment for EVS Codec Based on Deep Learning | |
FR3133265A1 (fr) | Codage et décodage optimisé d’un signal audio utilisant un auto-encodeur à base de réseau de neurones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EEER | Examination request | ||
MKLA | Lapsed |
Effective date: 20181017 |