CA2359411C

CA2359411C - Procede de codage de la prosodie pour un codeur de parole a tres bas debit

Info

Publication number: CA2359411C
Application number: CA2359411A
Authority: CA
Inventors: Philippe Gournay; Yves-Paul Nakache
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2000-10-18
Filing date: 2001-10-17
Publication date: 2010-07-06
Anticipated expiration: 2021-10-17
Also published as: ATE450856T1; FR2815457B1; ES2337020T3; EP1197952A1; DE60140651D1; IL145992A0; US7039584B2; US20020065655A1; FR2815457A1; EP1197952B1; KR20020031305A; CA2359411A1; JP2002207499A

Abstract

Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant » associé à chaque segment reconnu. Le procédé comporte au moins une étape de codage-décodage d'un des paramètres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ». Application pour des débits inférieurs à 400 bits par seconde.

Description

Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Prx: 2/21 e a ' 1 La présente invention concerne un procédé de codage de la parple à très bas débit et le système associé_ Elle s'applique notamment pour des systèmes de codage-décodage de la parole par indexation d'unités de taille variable_ Le procédé de codage de la parole mis en oeuvre à bas débit, par exemple de l'ordre de 2400 bitsls, est généralement celui du vocodeur utilisant un modèle totalement paramétrique du signal de parole. Les vo paramètres utilisés concernent le voisement qui décrit 1e caractère périodique ou aléatoire du signal, la fréquence fondamentale des sons voisés encore connue sous le vocable anglo-saxon n PITCH '>, l'évolution temporelle de l'énergie, ainsi que l'enveioppe spectrale du signal généralement modélisée par un filtre LPC {abréviation anglo-saxonne de ~ 5 Linear Predictive Coding).
Ces différents paramètres sont estimés périodiquement sur le signal de parole, typiquement toutes les 10 à 30 ms. Ils sont élaborés au niveau d'un dispositif d'analyse et sont généralement transmis à distance en direction d'un dispositif de synthèse reproduisant 1e signal de parole à
partir 20 de la valeur quantifiée des paramètres du modèle_ Jusqu'à présent, ie plus bas débit normalisé pour un codeur de parole utilisant cette technique est de 800 bitsls. Ce codeur, normalisé en 1994 est décrit par le standard QTAN STRNAG 4479 et dans l'article intitulé
K NA~O STANAG 44¿9 : A standard for an 800 bps vocoder and channel coding in HF-ECCM system ", IEi=E Int_ Conf. on ASSP, Detroit, pp 480-483, May 1995 ayant pour auteurs Mouy, B_, De La Noue, P., et .Goudezeune,G. II
repose sur une technique d'analyse trame par trame (22.5 ms) de type LPC 10 et exploite au maximum la redondance temporelle du signal de parole en regroupant les trames 3 par 3 avant encodage des paramètres_ 3o Bien qu'intelligible, la parole reproduite par ces techniques de codage est d'assez mauvaise qualité et n'est plus acceptable à partir du moment où le débit est inférieur à 800 bitsls.

Fax émis par : THOMSOH cSF TPI 15/18/81 12:17 Pq: 3/Z1 s Une manière de réduire le débit est d'utilisér les vpcodeurs segmentaux de type phonétiques avec dis segments de durée variable qui combinent des principes de reconnaissance et de synthèse de la parole.
La procédure d'encodage utilise essentiellement un systéme de reconnaissance automatique de la parole en flot continu, qui segmente et « étiquète » le signal de parole selon un nombre d'unités de parole de taille variable, Ces unités phonétiques sont codées par indexation dans ur~ petit dictionnaire. Le décodage repose sur le principe de la synthèse de la parole par concaténation à partir de l'index des unités phonétiques et de la prosodie. Le terme « prosodie » regroupe principalement les paramètres suivants v l'énergie du signal, !e pitch, une information de voisement et éventuellement le rythme temporel.
Toutefois, le développement des codeurs phonétiques nécessite des connaissances importances en phonétique et en liguistique, ainsi qu'une ~ 5 phase de transcription phonétique d'une base de données d'apprentissage qui est coüteuse et qui peut ètre ia source d'erreurs. De plus, les codeurs phonétiques s'adaptent difficilement à une nouvelle langue ou à un nouveau locuteur.
Une autre technique, décrite par exemple dans la thèse de 20 J.Gernocky, intitulée « Speech Processing Using Automatically Derived Segmentai Units v Applications to very Low Rate Goding and Speaker Verification » de l'Université Paris Xl Qrsay, décembre 199$ permet de contourner (ss problèmes liès à la transcription phonétique de la base de données d'apprentissage en déterminant les unités de parole de -féçvn 25 automatique et indépendamment de la tangue.
Le fonctionnement de ce type de codeur se décompose principalement ers deux étapes = une étape d'apprentissage et une étape de codage-décodage décrites à la figure 1 _ Lors de l'étape d'apprentissage (fïgure 1 ), une procédure ~0 automatique détermine par exemple après une analyse paramétrique 1 et une étape de segmentation 2, un ensemble de 64 classes d'unités acoustiques désignées « UA ». A chacune de ces classes d'unités acoustiques est associé un modèle statistique 3, de type modéle de Mar'kov (WMM ai~réviation anglo-saxonne de Hidden Markov Model), ainsi qu'un petit Fax émis tsar : TNOMSON CSF TPI 15/10/81 12:17 Pqr: 4/21 x ' nombre d'unités représentantes d'une Classe, dlésignées sous lé terme u représentants » 4. Dans le système actuel, les représentants sont simplement les S unités les plus longues appartenant à une mème classe acoustique. Ils peuvent également étre déterminés comme étant les N unités s plus représentatives de l'unité acoustique. Lors du codage d'un signal de parole après une étape d'analyse paramétrique 5 permettant d'obtenir notamment les paramètres spectraux, les énergies, le pitch, une procédure de reconnaïssance (6, 7), à l'aide d'un algorithme de Vïterbi, détermine la succession d'unités acoustiques du signa! de parole et identifie le « meilleur ~ o représentant » à utiliser pour la synthèse de parole_ Ce choix sa fait par exemple en utilisant un critère de distance spectrale, tel que l'algorithme de DTW (abréviation anglo-saxonne de Dynamic Time Warping).
Le numéro de la classe acoustique, l'indice de cette unité représentante , la longueur du segment, le contenu de DiIN et les informations prosodiques i 5 issues de l'analyse paramétrique sont transmises au décodeur. La synthèse de la parole se fait par concaténation des meilleurs représentants, éventuellement en utilisant un synthëtiseur paramétrique de type LPC_ Pour concaténer les représentants lors du décodage de la parole, on fait appel, par exemple, à un procédé d'analyselsynthèse paramétrique de 20 la parole_ Ce procédé paramétrique permet notamrnent des modificatïons de prosodie telles que l'ëvolution temporelle, la fréquence fondamentale ou pitch, par rapport à une sïrnple concaténation de formes d'onde.
Le modèle paramétrique de parole utilisé par le procédé
d'analyselsynthèse peut ètre à excitation binaire voisé! non voïsé de type 25 LPC 10 tel que décrit dans le document intitulé u The government standard lïnear predictive coding 2~Igorithm : l_PC-1 Cl » de -r.Tremain publié dans la revue Speech Technology, vol.1, n°2, pp 40-49. w Cette technique permet de coder l'enveloppe spectrale du signal en 185 bitsls environ pour un système monolocuteur, pour une moyenne 3o d'environ 21 segments par seconde_ Dans la suite de la description les termes ci-aprés ont les significations suivantes le terme K représentant » correspond à l'un des segments de la base d'apprentissage qui a été jugé représentatif d'une des classes d'unités 35 acoustique, Fax émis par : THOMSOH CSF TPI 15/10/01 12:17 Pq: 5/21 . ~- l'expression « segment reconnu » correspond à un segment de la .parole qui a été identifié comme appartenant à l'une des classes acoustiques, par le codeur, l'expression « meilleur représentant » désigne le représentant déterminé
au niveau du codage qui représente 1e mieux le segment reconnu.
L'objet de la présente invention concerne un procédé de codage, décodage de la prosodie pour un codeur de parole à trés bas débit utilisant notamment les meilleurs représentants.
II concerne aussi la compression de données.
L'invention concerne un procédé de codage-décodage de la parole utilisant un codeur à trés bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter (e signal de parole et déterminer le « meilleur ~ s représentant » associé é chaque segment reconnu. li est caractérisé en ce qu'il comporte au moïns une étape de codage-décodage d'un des paramètres au moins de fa prosodie des segments reconnus, tel que l'énergie etlou le pitch etlou le voisement etlou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2o L'information de prosodie des représentants utilisée est par exemple le contour d'énergie ou le voisement ou la langueur des segments ou le pitch_ .
L'ëtape de codage de la longueur des segments reconnus consiste par exemple à coder la différence de longueur entre la longueur 25 d'un segment reconnu et la longueur du u meilleur représentant » multiplié
par un facteur donné.
Selon un mode de réalisation, il compori;e une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
30 L'étape de Godage de ('énergie peut comporter une étape de détermination pour chaque début de « segment reconnu » de la différence ~E(j) entre la valeur d'énergie E~d(j) du « meilleur représentant » et la valeur Fax émis taar : THOMSON CSF TPI 15/18/81 12:17 Pq: 6/21 d'ënergie E~,{j) du début du « segment reconnu » et l'étàpe de décodage comporter pour chaque segment reconnu, une première étape consistant à
transtater le contour d'énergie du meilleur reprssentant d'une quantité ~E(j) pour faire coïncider la première énergie E~d{j) du « meilleur reprÉSentant »
avec (a première énergie Es~tj+1 ) du segment reconnu d'indice j+1.
L'étape de codage de voisement comporte par exemple une étape de détermination des différences existantes eTk pour chaque extrémitë d'une zone de voisement d'indice 1c entre la courbe du voisement des Segments reconnus et celle des meilleurs représentants et l'étape de décodage vo comporte par exemple pour chaque extrémité â'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'uns valeur OTk correspondante etlou une étape de suppression ou d'insertion d'une iransitian, Le procédé concerne aussi un système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des « meilleurs représentants » et pour mettre en aeuvre les étapes du procédé selon l'une des caractéristiques précitées.
20 Le dictionnaire des représentants est par exemple commun au codeur et au décodeur du système codage-décodage.
Le procédé et le système Selon l'invention peuvent étre utilisés pour 1e codage-décodage de la parole pour des débits inférieurs à 800 bitsls $t de préférence inférieurs à 40Q bitsls_

2~
Le procédé et le système de codage-décodage selon l'invention offrent notamment l'avantage de coder à très bas débit la prosodie et de fournir ainsi un codeur complet dans ce domaine d'application.
3o D'autres caractéristiques et avantages apparaïtront à la lecture de la description dëtaillée d'un mode de réalisation pris à titre d'exemple non limitatif et illustré par les dessins annexés où
~ la figure 1 représente un schéma d'apprentissage, de codage et de décodage de la parole selon l'art antérieur, Fax émis par : THOMSON CSF TPI 15/18/01 12:1'7 Pqr: 7/21 ~ les figures 2 ~t 3 décrivent des exemples de codage de ts longueur des segments reconnus, ~ la figure 4 scf~ématise un modèle d'alignement temporel des u meilleurs représentants ~, ~ les figures 5 et 6 montrent des courbes des énergies du signal à coder et des représentants alignés, ainsi que les contours des énergies initia! et décodé obtenus en mettant en aeuvre le procédé selon l'invention, ~ la figure 7 schématise le codage du voisement du signal de parole, et la figure 8 est un exemple de codage du pitch.
he principe de codage selon l'inventior~ repose sur l'utilisation des ~ meilleurs représentants ~, notamment leur information de prosodie, pour Coder etlou décoder au moins un des paramètres de prosodie d'un signal de parole, par exemple le pitcY~, l'énergie du signal, le voisement, la langueur ~ 5 des segments reconnus.
Pour compresser la prosodie é très bas débit, le principe mis en oeuvre utilise la segmentation du codeur ainsi que les informations prosodiques des « meilleurs représer~tants ~.
t~a description qui suit donnée à titre illustratif et nullement limitatif 2o décrit un procédé de codage de la prosodie dans un dispositif de codage décodage de la parole à faible débit qui comporte un dictionnaire obtenu de façon automatique, par exemple, lors de l'apprentissage tel que décrit à la figure 1 _ Le dictionnaire comprend les informations suivantes z5 ~ plusieurs classes d'unités acoustiques UA, chaque classe étant déterminée à partir d'un modèle statistique, pour chaque classe d'unités acoustiques, un ensemble .de représentants.
Ce dictionnaire est connu du codeur et du décodeur. II
3o correspond par exemple â une ou plusieurs langues et à un Qu plusieurs locuteurs.
La systéme de codage-décodage comporte par exemple une mémoire pour stocker le dictionnaire, un microprocesseur adapté pour déterminer les segments reconnus, pour la mise en oeuvre des différentes Fax émis ~aar : THOMSOM CSF TPI 15/10/01 12:17 Pq: 8/21 étapes du procédé selon l'invention et pour reconstruire la parole à partir des meilleurs représentants.
Le procédé selon l'invention met ceuvre au moins une des étapes suivantes : le codage de la longueur des segments, le codage de l'alignement temporel des « meilleurs représentants b, le codage etlou le décodage de l'énergie, le codage etlou ie décodage de l'information de voisement etlou le codage etlou le décodage du pitch etlou le décodage de la longueur des segments et de l'alignement temporel.
Codage de la t~ngueur des segments t0 Le système de Godage détermine en moyenne un nombre Ns de segments par seconde, par exemple 21 segments. La taille de ces segments varie en fonction de la classe d'unités acoustiques UA. II apparait que pour la majorité des UA, le nombre de segments décroït selon une relation 1d x2~s, où
x est la langueur du segment.
t 5 Une variante de réalisation du procédé selon l'invention consiste à
coder la différence de longueur variable entre le « segment reconnu ~ et la longueur du « meilleur représentant ü selon un schéma décrit à la figure 2.
Sur ce schéma dans la colonne de gauche figure la longueur du mot de code à utiliser et dans la colonne de droite la différence de longueur 2o entre la longueur du segment reconnu par le codeur pour le signal de parole et celle du meilleur représentant.
Selon un autre mode de réalisation donnée à la figure 3, le codage de la longueur absolue d'un segment reconnu est effectué à l'aide d'un code à longueur variable semblable à celui de Huffman connu de l'Homme du 25 métier, Ce qui permet d'obtenir un débit de l'ordre de 55 bitsls.
Le fait d'utiliser les longs mots de code pour coder les longueurs de grands segments reconnus, permet notamment de conserver la valeur de débit dans une plage de variation limitée. En effet, ces longs segments réduisent le nombre de segment reconnu par seconde et le nombre de 30 longueurs à coder.
En résumé, on code par exemple avec un code à longueur variable la différence entre ia longueur du segment reconnu et la longueur du meilleur représentant multiplié par un certain facteur, ce facteur pouvant être compris entre 0 (codage absolu) et 1 (codage de fa différence).

Fax émis par : THOMSON CSF TPI 15/10/01 12:1? Pq: 9/21 Codage de l'alignement temporel des rneilieurs représentants L'alignement temporel est par exemple réalisé en suivant le chemin de la DTW tabréviation anglo-saxonne de Dynamic Time Warping) qui a été déterminé lors de la recherche du « meilleur représentant r pour coder le a segment reconnu ».
La figure 4 représente le chemin ( ç} de la DTW correspondant au contour temporel qui minimise la distorsion entre le paramètre é coder (axe des abscisses}, par exemple le vecteur des coefficients a oepstraux u, et le « meilleur représentant ~ (axe des ordonnées). Cette approche est décrite dans le livre ayant pour titre « Traitement de la parole », pour auteur René
Boite et Murat Kunt publié aux Presses Polytechnique Romandes éditions 1987.
Le codage de l'alignement des « meilleurs représentants ~ est effectué par recherche du plus proche voisin dans une table contenant des ~ 5 formes type. Le choix de ces formes type se fait par exemple par une approche statistique, telle que l'apprentissage sur une base de données de parole ou par une approche algébrique par exemple la description par des équations mathématiques paramétrables, ces diffërentes méthodes étant connues de l'Homme du métier.
zo Selon une autre approche, valable dans le cas où les segments de petite taille sont en proportion importante, le procédé effectue un alignement des segments suivant la diagonale piutc~t que le chemin exact de 1a DTW. Le débit est dors nul.
Codage-décodage de l'énergie zs Lorsque l'on classe et analyse les segments de la base de données de parole appartenant à chacune des classes d'unités acoustiques, on constate qu'il se dëgage une certaine cohérence dans la forme des contours des énergies. De plus, il existe des ressemblances entre les contours d'énergie des meilleurs représentants alignés par DTW et les 3o contours de l'énergie du signai à coder.
Le codage de l'énergie est décrit ci-après en relation aux figures 5 et 6, où l'axe des ordonnées correspond à l'énergie du signal de la parole a coder exprimée en dB et l'axe des abscisses au temps exprimé en trames.

Fax émis par : THOMSON CSF TPI 15/18/81 12:17 Pq: 18/21 La figûre 5 représente la courbe (III) regroupant des contours d'Gnergie des meilleurs représentants alignés et fa courbe (1V) des contours d'énergie des segments reconnus séparés par des * sur la figure. Un segment reconnu d'indice j est délimité par deux points de coordonnées respectives (Esa(~) ; Taa(~}] et (Es,(j) ; TS~(j}] où Esa(j) est l'énergie de début de segment et Es~(j) l'énergie de fin de segment, pour les instants Taf et T5~
correspondant. Les références E~d(j) et Erf(j) sont utilisées pour les valeurs d'énergies du début et de la fin d'un « meilleur représentant » et la référence ~1E(j) correspond à la translation déterminée pour un segment reconnu d'indice j.
Codage de l'éners~ie Le procédë comporte une première étape de détermination de la translation à réaliser-Pour cela on détermine pour chaque début de « segment t 5 reconnu », la différence DE(j) existant entre la valeur d'énergie E,a(j}
du meilleur représentant (courbe III} et la valeur d'énergie Egd du début du segment reconnu {courbe IV). On obtient un ensemble de valeurs oE(j) que l'on quantifie par exemple uniformément de menière à connaïtre la translation à appliquer lors du décodage. La quantification est réalisée par 2o exemple en utilisant des méthodes connues de 1°Homme du rnëtier, Décoda e de l'éner ie du si nal de arole Le procédé consiste notamment à utiliser les contours d'énergie des meilleurs représentants (courbe III) pour reconstruire fes contours d'énergie du signal à coder (courbe iV).
2~ Pour chaque segment reconnu, une première étape consiste à
translater le contour d'énergie du meilleur représentant poser la faire Coïncider avec fa premiére énergie E~d(j} en lui appliquant la translation ~E{j}, définie à
l'étape de codage par exemple, pour dëterminer la valeur Esa(j). Après cette première étape de translation, le procédé comporte une étape de modification de la pente du contour d'énergie du meilleur représentant afin de relier la dernière valeur d'énergie Erd(j} du ~ meilleur représentant ü à
la première énergie Esd(j+1 ) du segment suivant d'indics j+1.
La figure 6 représente les courbes (Vi) et (VII) correspondant respectivement au contour d'énergie original du signal de parole à coder et Fax émis par : THOMSON CSF TPI 15/10/81 12:17 Pq: il/Zl du -contour d'énergie décodé après mise en oeuvre des étapes décrites précédemment.
Par exemple, le codage des énergies de début de chaque segment sur ~ bits permet d'obtenir pour ie codage segmenta( de l'énergie un débit de l'ordre de 80 bitsls.
Codage de l'information de voisement La f:pure 7 représente l'ëvolution temporelle d'une information de voisement binaire de quatre segments successifs 35, 36, 37 pour le signal â
coder courbe (Vllj et pour les meilleurs représentants (courbe VIII) après alignement temporel par I~TW, Codage de !'information de voisement Lors du codage, le procédé exécute une étape de codage de ('information de voisement, par exemple en parcourant l'évolution temporelle de l'information de voisement des segments reconnus et celle des meilleurs ~ 5 représentants alignés (courbe VIII) et en codant les différences existantes dTk entre ces deux courbes. Ces différences aTK peuvent ètre : une avance a de la trame, un retard b de trame, l'absence etlou la présence d'une transition référence c (k correspond à l'indice d'une extrémité d'une zone de voisement). .
2o Pour cela, ü est possible d'utiliser un code de longueur variable dont un exemple est donné dans !a table I ci-dessous, pour coder la correction à apporter à chacune des transitions de voisement pour chacun des segments reconnus_ Tous les segments ne comportant pas de transition de voisement, il est possible de réduire le dëbit associé au voisement en ne 25 codant que les transitions de voisement existantes dans le voisement à
coder et dans les meilleurs représentants, Selon cette méthode, l'information de voisement est codée sur environ 22 bits par seconde.

Fax émis par : THOMSOH CSF TPI 15/10/91 12:17 Pq: 12/21 Table ~ : Exemple de fable de codage pour les i~rans~tians de voisement Code Interprtation _ OC?0 Transitio_ n__ _supprimer Q01 Dcala e 1trame ~ Droite 010 Dcala e 1 trame fauche 011 Dcala e 2 trames Droite 1 Ug Dcela e 2 trames Gauche 101 Insrer une transition (un code prcisant l'em lacement de la transition suit celui-ci 11 Pas de dcala e 117 Dplacement suprieur 3 trames (un autre code suit celui-ci s Pour une information de voisement mixte telle que ~ le taux de voisement en sous-bande, l'analyse de cette information fait appel à une méthode décrite par exemple dans le document suivant "Multiband Excitation Vocoders", ayant pQUr auteurs D.W. Griffin and J.S.
Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 3fi, no. 8, pp. 9 223-1235, 198$ ;
~ la fréquence de transition entre une bande basse voisée et une bande haute non-voisée, le codage utilise une méthode telle que décrite dans le document ayant pour auteurs C. Laflamme, R. Salami, R. Matmti, and J-P_ Adoul, intitulé "Harmonie Stochastic Excitation (HSX~ speech coding below 4 kbitsls", lE~~ International Conference on Acoustics, Speech, and Signal Processing, Atlanta, May 1996, pp. 204-207.
Dans ces deux cas, le codage de l'information de voisement comporte également le codage de la variation de la proportion de voisement.
Décodage de l'information de voisement 20 Le décodeur dispose de l'information de voisement des cc meilleurs représentants alignés » obtenu au niveau du codeur.
La correction s'effectue par exemple de la maniére suivante A chaque détection de l'extrémité d'une none de voisement sur les meilleurs représentants choisis pour la synthèse, le procédé apporte une 25 information complémentaire au décodeur c~ui est la correction à effectuer à
cette extrémité. La correction peut étre une avance a ou un retard b à
apporter à cette extrémité. Ce décalage temporel est par exemple exprimé

Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Pq: 13/21 en -nombre de trames afin d'obtenir la position exacte de l'extrémité de voisement du signal de parole original. La correction peut aussi prendre la forme d'une suppression ou d'une insertion d'une transition.
Coôage du pitch L'expérience montre que, sur des enregistrements de parole, le nombre de zones voisées obtenues par seconde est en moyenne de l'ordre de 3 ou 4. Pour rendre compte fidèlement des variations du pitch, une manière de procéder consiste à transmettre plusieurs valeurs de pitch par zone voisés. Afin de limiter le débit, au lieu de transmettre toute la t o succession des valeurs de pitch sur une zone voisée, le contour du pitch est approximé par une succession de segments linéaires.
Codage du pitçh Pour chaque zone voisée du signal de parole, le procédé
comporte une étape de recherche des valeurs du pitch à transmettre. Les ~ 5 valeurs de pitch au début et à la fin de la zone voisée sont systématiquement transmises. Les autres valeurs à transmettre sont déterminées de la manière suivante ~ le procédé considère uniquement les valeurs du pitch au début des segments reconnus. Partant de la droite Di joignant les valeurs du pitch zo aux deux extrémités de la zone voisée, le procédé recherche le début de segment dont la valeur de pïtch est la plus éloignée de cette droite, ce qui correspond à une distance d,~ax. II compare cette valeur dmex à une valeur seuil d~";,. Si la distance dmax est supérieure à dse~n, le procédé
décompose la droite initiale Di en deux droites D;~ et D;2, en prenant le 25 début du segment trouvé nomme nouvelle valeur de pitch à transmettre.
Cette opération est réitérée sur ces deux nouvelles zones voisée délimitées par les droites C7;1 et D;z jusqu'à ce que la distance dmax trouvée soit inférieure à la distance dge"~,, Pour coder les valeurs du pitch ainsi déterminées, le procëdé
utilise par exemple un quantificateur scalaire prédictif sur par exemple 5 bits appliqué au logarithme du pitch.
t.a prédiction est par exemple 1a première valeur de pitch du meilleur représentant correspondant à la position du pitch à décoder, multipliée par un facteur de prédiction compris par exemple entre 0 et '1.

Fax émis par : THOMSOM CSF TPI 15/18/81 12:17 Pq: 14/21 Selon une autre façon de procéder, fa prédiction peut étre la valeur minimale de l'enregistrement de parole à coder- Dans ce cas, cette valeur peut âtre transmise au décodeur par quantification scalaire sur par exemple 8 bits.
Les valeurs des pitchs à transmettre ayant été déterminées et codées, le procëdé comporte une étape où l'espacement temporel est précisé, par exemple en nombre de trames, entre chacune de ces valeurs de pitch_ Un code à longueur variable permet par exemple de coder ces espacements sur 2 bits en moyenne.
dette façon de procéder permet d'obtenir un débit d°anviron 651bits par seconde pour une distance maximale sur la période pitch de 7 échantillons.
Décodage du pitch L'étape de décodage comporte tout d'abord une étape de i 5 décodage de l'espacement temporel entre les différentes valeurs de pitch transmises afin de récupérer les instants de mise à~ jour du pitch, ainsi que la valeur du pitch pour chacun de ces instants. La valeur du pitch pour chacune des trames de la zone voisée est reconstituée par exemple par interpolation linéaire entre les valeurs transmises,

Claims

REVENDICATIONS

1 - Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant »
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».

2 - Procédé selon la revendication 1 caractérisé en ce que l'information de prosodie des représentants utilisée est le contour d'énergie ou le voisement ou la longueur des segments ou le pitch.

3 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte une étape de codage de la longueur des segments reconnus consistant à coder la différence de longueur entre la longueur d'un segment reconnu et la longueur du « meilleur représentant » multiplié par un facteur donné.

4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporté une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.

- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».

6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.