CA2359411C - Procede de codage de la prosodie pour un codeur de parole a tres bas debit - Google Patents

Procede de codage de la prosodie pour un codeur de parole a tres bas debit Download PDF

Info

Publication number
CA2359411C
CA2359411C CA2359411A CA2359411A CA2359411C CA 2359411 C CA2359411 C CA 2359411C CA 2359411 A CA2359411 A CA 2359411A CA 2359411 A CA2359411 A CA 2359411A CA 2359411 C CA2359411 C CA 2359411C
Authority
CA
Canada
Prior art keywords
coding
energy
representatives
recognized
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CA2359411A
Other languages
English (en)
Other versions
CA2359411A1 (fr
Inventor
Philippe Gournay
Yves-Paul Nakache
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Publication of CA2359411A1 publication Critical patent/CA2359411A1/fr
Application granted granted Critical
Publication of CA2359411C publication Critical patent/CA2359411C/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Abstract

Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant » associé à chaque segment reconnu. Le procédé comporte au moins une étape de codage-décodage d'un des paramètres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ». Application pour des débits inférieurs à 400 bits par seconde.

Description

Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Prx: 2/21 e a ' 1 La présente invention concerne un procédé de codage de la parple à très bas débit et le système associé_ Elle s'applique notamment pour des systèmes de codage-décodage de la parole par indexation d'unités de taille variable_ Le procédé de codage de la parole mis en oeuvre à bas débit, par exemple de l'ordre de 2400 bitsls, est généralement celui du vocodeur utilisant un modèle totalement paramétrique du signal de parole. Les vo paramètres utilisés concernent le voisement qui décrit 1e caractère périodique ou aléatoire du signal, la fréquence fondamentale des sons voisés encore connue sous le vocable anglo-saxon n PITCH '>, l'évolution temporelle de l'énergie, ainsi que l'enveioppe spectrale du signal généralement modélisée par un filtre LPC {abréviation anglo-saxonne de ~ 5 Linear Predictive Coding).
Ces différents paramètres sont estimés périodiquement sur le signal de parole, typiquement toutes les 10 à 30 ms. Ils sont élaborés au niveau d'un dispositif d'analyse et sont généralement transmis à distance en direction d'un dispositif de synthèse reproduisant 1e signal de parole à
partir 20 de la valeur quantifiée des paramètres du modèle_ Jusqu'à présent, ie plus bas débit normalisé pour un codeur de parole utilisant cette technique est de 800 bitsls. Ce codeur, normalisé en 1994 est décrit par le standard QTAN STRNAG 4479 et dans l'article intitulé
K NA~O STANAG 44¿9 : A standard for an 800 bps vocoder and channel coding in HF-ECCM system ", IEi=E Int_ Conf. on ASSP, Detroit, pp 480-483, May 1995 ayant pour auteurs Mouy, B_, De La Noue, P., et .Goudezeune,G. II
repose sur une technique d'analyse trame par trame (22.5 ms) de type LPC 10 et exploite au maximum la redondance temporelle du signal de parole en regroupant les trames 3 par 3 avant encodage des paramètres_ 3o Bien qu'intelligible, la parole reproduite par ces techniques de codage est d'assez mauvaise qualité et n'est plus acceptable à partir du moment où le débit est inférieur à 800 bitsls.

Fax émis par : THOMSOH cSF TPI 15/18/81 12:17 Pq: 3/Z1 s Une manière de réduire le débit est d'utilisér les vpcodeurs segmentaux de type phonétiques avec dis segments de durée variable qui combinent des principes de reconnaissance et de synthèse de la parole.
La procédure d'encodage utilise essentiellement un systéme de reconnaissance automatique de la parole en flot continu, qui segmente et « étiquète » le signal de parole selon un nombre d'unités de parole de taille variable, Ces unités phonétiques sont codées par indexation dans ur~ petit dictionnaire. Le décodage repose sur le principe de la synthèse de la parole par concaténation à partir de l'index des unités phonétiques et de la prosodie. Le terme « prosodie » regroupe principalement les paramètres suivants v l'énergie du signal, !e pitch, une information de voisement et éventuellement le rythme temporel.
Toutefois, le développement des codeurs phonétiques nécessite des connaissances importances en phonétique et en liguistique, ainsi qu'une ~ 5 phase de transcription phonétique d'une base de données d'apprentissage qui est coüteuse et qui peut ètre ia source d'erreurs. De plus, les codeurs phonétiques s'adaptent difficilement à une nouvelle langue ou à un nouveau locuteur.
Une autre technique, décrite par exemple dans la thèse de 20 J.Gernocky, intitulée « Speech Processing Using Automatically Derived Segmentai Units v Applications to very Low Rate Goding and Speaker Verification » de l'Université Paris Xl Qrsay, décembre 199$ permet de contourner (ss problèmes liès à la transcription phonétique de la base de données d'apprentissage en déterminant les unités de parole de -féçvn 25 automatique et indépendamment de la tangue.
Le fonctionnement de ce type de codeur se décompose principalement ers deux étapes = une étape d'apprentissage et une étape de codage-décodage décrites à la figure 1 _ Lors de l'étape d'apprentissage (fïgure 1 ), une procédure ~0 automatique détermine par exemple après une analyse paramétrique 1 et une étape de segmentation 2, un ensemble de 64 classes d'unités acoustiques désignées « UA ». A chacune de ces classes d'unités acoustiques est associé un modèle statistique 3, de type modéle de Mar'kov (WMM ai~réviation anglo-saxonne de Hidden Markov Model), ainsi qu'un petit Fax émis tsar : TNOMSON CSF TPI 15/10/81 12:17 Pqr: 4/21 x ' nombre d'unités représentantes d'une Classe, dlésignées sous lé terme u représentants » 4. Dans le système actuel, les représentants sont simplement les S unités les plus longues appartenant à une mème classe acoustique. Ils peuvent également étre déterminés comme étant les N unités s plus représentatives de l'unité acoustique. Lors du codage d'un signal de parole après une étape d'analyse paramétrique 5 permettant d'obtenir notamment les paramètres spectraux, les énergies, le pitch, une procédure de reconnaïssance (6, 7), à l'aide d'un algorithme de Vïterbi, détermine la succession d'unités acoustiques du signa! de parole et identifie le « meilleur ~ o représentant » à utiliser pour la synthèse de parole_ Ce choix sa fait par exemple en utilisant un critère de distance spectrale, tel que l'algorithme de DTW (abréviation anglo-saxonne de Dynamic Time Warping).
Le numéro de la classe acoustique, l'indice de cette unité représentante , la longueur du segment, le contenu de DiIN et les informations prosodiques i 5 issues de l'analyse paramétrique sont transmises au décodeur. La synthèse de la parole se fait par concaténation des meilleurs représentants, éventuellement en utilisant un synthëtiseur paramétrique de type LPC_ Pour concaténer les représentants lors du décodage de la parole, on fait appel, par exemple, à un procédé d'analyselsynthèse paramétrique de 20 la parole_ Ce procédé paramétrique permet notamrnent des modificatïons de prosodie telles que l'ëvolution temporelle, la fréquence fondamentale ou pitch, par rapport à une sïrnple concaténation de formes d'onde.
Le modèle paramétrique de parole utilisé par le procédé
d'analyselsynthèse peut ètre à excitation binaire voisé! non voïsé de type 25 LPC 10 tel que décrit dans le document intitulé u The government standard lïnear predictive coding 2~Igorithm : l_PC-1 Cl » de -r.Tremain publié dans la revue Speech Technology, vol.1, n°2, pp 40-49. w Cette technique permet de coder l'enveloppe spectrale du signal en 185 bitsls environ pour un système monolocuteur, pour une moyenne 3o d'environ 21 segments par seconde_ Dans la suite de la description les termes ci-aprés ont les significations suivantes le terme K représentant » correspond à l'un des segments de la base d'apprentissage qui a été jugé représentatif d'une des classes d'unités 35 acoustique, Fax émis par : THOMSOH CSF TPI 15/10/01 12:17 Pq: 5/21 . ~- l'expression « segment reconnu » correspond à un segment de la .parole qui a été identifié comme appartenant à l'une des classes acoustiques, par le codeur, l'expression « meilleur représentant » désigne le représentant déterminé
au niveau du codage qui représente 1e mieux le segment reconnu.
L'objet de la présente invention concerne un procédé de codage, décodage de la prosodie pour un codeur de parole à trés bas débit utilisant notamment les meilleurs représentants.
II concerne aussi la compression de données.
L'invention concerne un procédé de codage-décodage de la parole utilisant un codeur à trés bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter (e signal de parole et déterminer le « meilleur ~ s représentant » associé é chaque segment reconnu. li est caractérisé en ce qu'il comporte au moïns une étape de codage-décodage d'un des paramètres au moins de fa prosodie des segments reconnus, tel que l'énergie etlou le pitch etlou le voisement etlou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2o L'information de prosodie des représentants utilisée est par exemple le contour d'énergie ou le voisement ou la langueur des segments ou le pitch_ .
L'ëtape de codage de la longueur des segments reconnus consiste par exemple à coder la différence de longueur entre la longueur 25 d'un segment reconnu et la longueur du u meilleur représentant » multiplié
par un facteur donné.
Selon un mode de réalisation, il compori;e une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
30 L'étape de Godage de ('énergie peut comporter une étape de détermination pour chaque début de « segment reconnu » de la différence ~E(j) entre la valeur d'énergie E~d(j) du « meilleur représentant » et la valeur Fax émis taar : THOMSON CSF TPI 15/18/81 12:17 Pq: 6/21 d'ënergie E~,{j) du début du « segment reconnu » et l'étàpe de décodage comporter pour chaque segment reconnu, une première étape consistant à
transtater le contour d'énergie du meilleur reprssentant d'une quantité ~E(j) pour faire coïncider la première énergie E~d{j) du « meilleur reprÉSentant »
avec (a première énergie Es~tj+1 ) du segment reconnu d'indice j+1.
L'étape de codage de voisement comporte par exemple une étape de détermination des différences existantes eTk pour chaque extrémitë d'une zone de voisement d'indice 1c entre la courbe du voisement des Segments reconnus et celle des meilleurs représentants et l'étape de décodage vo comporte par exemple pour chaque extrémité â'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'uns valeur OTk correspondante etlou une étape de suppression ou d'insertion d'une iransitian, Le procédé concerne aussi un système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des « meilleurs représentants » et pour mettre en aeuvre les étapes du procédé selon l'une des caractéristiques précitées.
20 Le dictionnaire des représentants est par exemple commun au codeur et au décodeur du système codage-décodage.
Le procédé et le système Selon l'invention peuvent étre utilisés pour 1e codage-décodage de la parole pour des débits inférieurs à 800 bitsls $t de préférence inférieurs à 40Q bitsls_
2~
Le procédé et le système de codage-décodage selon l'invention offrent notamment l'avantage de coder à très bas débit la prosodie et de fournir ainsi un codeur complet dans ce domaine d'application.
3o D'autres caractéristiques et avantages apparaïtront à la lecture de la description dëtaillée d'un mode de réalisation pris à titre d'exemple non limitatif et illustré par les dessins annexés où
~ la figure 1 représente un schéma d'apprentissage, de codage et de décodage de la parole selon l'art antérieur, Fax émis par : THOMSON CSF TPI 15/18/01 12:1'7 Pqr: 7/21 ~ les figures 2 ~t 3 décrivent des exemples de codage de ts longueur des segments reconnus, ~ la figure 4 scf~ématise un modèle d'alignement temporel des u meilleurs représentants ~, ~ les figures 5 et 6 montrent des courbes des énergies du signal à coder et des représentants alignés, ainsi que les contours des énergies initia! et décodé obtenus en mettant en aeuvre le procédé selon l'invention, ~ la figure 7 schématise le codage du voisement du signal de parole, et la figure 8 est un exemple de codage du pitch.
he principe de codage selon l'inventior~ repose sur l'utilisation des ~ meilleurs représentants ~, notamment leur information de prosodie, pour Coder etlou décoder au moins un des paramètres de prosodie d'un signal de parole, par exemple le pitcY~, l'énergie du signal, le voisement, la langueur ~ 5 des segments reconnus.
Pour compresser la prosodie é très bas débit, le principe mis en oeuvre utilise la segmentation du codeur ainsi que les informations prosodiques des « meilleurs représer~tants ~.
t~a description qui suit donnée à titre illustratif et nullement limitatif 2o décrit un procédé de codage de la prosodie dans un dispositif de codage décodage de la parole à faible débit qui comporte un dictionnaire obtenu de façon automatique, par exemple, lors de l'apprentissage tel que décrit à la figure 1 _ Le dictionnaire comprend les informations suivantes z5 ~ plusieurs classes d'unités acoustiques UA, chaque classe étant déterminée à partir d'un modèle statistique, pour chaque classe d'unités acoustiques, un ensemble .de représentants.
Ce dictionnaire est connu du codeur et du décodeur. II
3o correspond par exemple â une ou plusieurs langues et à un Qu plusieurs locuteurs.
La systéme de codage-décodage comporte par exemple une mémoire pour stocker le dictionnaire, un microprocesseur adapté pour déterminer les segments reconnus, pour la mise en oeuvre des différentes Fax émis ~aar : THOMSOM CSF TPI 15/10/01 12:17 Pq: 8/21 étapes du procédé selon l'invention et pour reconstruire la parole à partir des meilleurs représentants.
Le procédé selon l'invention met ceuvre au moins une des étapes suivantes : le codage de la longueur des segments, le codage de l'alignement temporel des « meilleurs représentants b, le codage etlou le décodage de l'énergie, le codage etlou ie décodage de l'information de voisement etlou le codage etlou le décodage du pitch etlou le décodage de la longueur des segments et de l'alignement temporel.
Codage de la t~ngueur des segments t0 Le système de Godage détermine en moyenne un nombre Ns de segments par seconde, par exemple 21 segments. La taille de ces segments varie en fonction de la classe d'unités acoustiques UA. II apparait que pour la majorité des UA, le nombre de segments décroït selon une relation 1d x2~s, où
x est la langueur du segment.
t 5 Une variante de réalisation du procédé selon l'invention consiste à
coder la différence de longueur variable entre le « segment reconnu ~ et la longueur du « meilleur représentant ü selon un schéma décrit à la figure 2.
Sur ce schéma dans la colonne de gauche figure la longueur du mot de code à utiliser et dans la colonne de droite la différence de longueur 2o entre la longueur du segment reconnu par le codeur pour le signal de parole et celle du meilleur représentant.
Selon un autre mode de réalisation donnée à la figure 3, le codage de la longueur absolue d'un segment reconnu est effectué à l'aide d'un code à longueur variable semblable à celui de Huffman connu de l'Homme du 25 métier, Ce qui permet d'obtenir un débit de l'ordre de 55 bitsls.
Le fait d'utiliser les longs mots de code pour coder les longueurs de grands segments reconnus, permet notamment de conserver la valeur de débit dans une plage de variation limitée. En effet, ces longs segments réduisent le nombre de segment reconnu par seconde et le nombre de 30 longueurs à coder.
En résumé, on code par exemple avec un code à longueur variable la différence entre ia longueur du segment reconnu et la longueur du meilleur représentant multiplié par un certain facteur, ce facteur pouvant être compris entre 0 (codage absolu) et 1 (codage de fa différence).

Fax émis par : THOMSON CSF TPI 15/10/01 12:1? Pq: 9/21 Codage de l'alignement temporel des rneilieurs représentants L'alignement temporel est par exemple réalisé en suivant le chemin de la DTW tabréviation anglo-saxonne de Dynamic Time Warping) qui a été déterminé lors de la recherche du « meilleur représentant r pour coder le a segment reconnu ».
La figure 4 représente le chemin ( ç} de la DTW correspondant au contour temporel qui minimise la distorsion entre le paramètre é coder (axe des abscisses}, par exemple le vecteur des coefficients a oepstraux u, et le « meilleur représentant ~ (axe des ordonnées). Cette approche est décrite dans le livre ayant pour titre « Traitement de la parole », pour auteur René
Boite et Murat Kunt publié aux Presses Polytechnique Romandes éditions 1987.
Le codage de l'alignement des « meilleurs représentants ~ est effectué par recherche du plus proche voisin dans une table contenant des ~ 5 formes type. Le choix de ces formes type se fait par exemple par une approche statistique, telle que l'apprentissage sur une base de données de parole ou par une approche algébrique par exemple la description par des équations mathématiques paramétrables, ces diffërentes méthodes étant connues de l'Homme du métier.
zo Selon une autre approche, valable dans le cas où les segments de petite taille sont en proportion importante, le procédé effectue un alignement des segments suivant la diagonale piutc~t que le chemin exact de 1a DTW. Le débit est dors nul.
Codage-décodage de l'énergie zs Lorsque l'on classe et analyse les segments de la base de données de parole appartenant à chacune des classes d'unités acoustiques, on constate qu'il se dëgage une certaine cohérence dans la forme des contours des énergies. De plus, il existe des ressemblances entre les contours d'énergie des meilleurs représentants alignés par DTW et les 3o contours de l'énergie du signai à coder.
Le codage de l'énergie est décrit ci-après en relation aux figures 5 et 6, où l'axe des ordonnées correspond à l'énergie du signal de la parole a coder exprimée en dB et l'axe des abscisses au temps exprimé en trames.

Fax émis par : THOMSON CSF TPI 15/18/81 12:17 Pq: 18/21 La figûre 5 représente la courbe (III) regroupant des contours d'Gnergie des meilleurs représentants alignés et fa courbe (1V) des contours d'énergie des segments reconnus séparés par des * sur la figure. Un segment reconnu d'indice j est délimité par deux points de coordonnées respectives (Esa(~) ; Taa(~}] et (Es,(j) ; TS~(j}] où Esa(j) est l'énergie de début de segment et Es~(j) l'énergie de fin de segment, pour les instants Taf et T5~
correspondant. Les références E~d(j) et Erf(j) sont utilisées pour les valeurs d'énergies du début et de la fin d'un « meilleur représentant » et la référence ~1E(j) correspond à la translation déterminée pour un segment reconnu d'indice j.
Codage de l'éners~ie Le procédë comporte une première étape de détermination de la translation à réaliser-Pour cela on détermine pour chaque début de « segment t 5 reconnu », la différence DE(j) existant entre la valeur d'énergie E,a(j}
du meilleur représentant (courbe III} et la valeur d'énergie Egd du début du segment reconnu {courbe IV). On obtient un ensemble de valeurs oE(j) que l'on quantifie par exemple uniformément de menière à connaïtre la translation à appliquer lors du décodage. La quantification est réalisée par 2o exemple en utilisant des méthodes connues de 1°Homme du rnëtier, Décoda e de l'éner ie du si nal de arole Le procédé consiste notamment à utiliser les contours d'énergie des meilleurs représentants (courbe III) pour reconstruire fes contours d'énergie du signal à coder (courbe iV).
2~ Pour chaque segment reconnu, une première étape consiste à
translater le contour d'énergie du meilleur représentant poser la faire Coïncider avec fa premiére énergie E~d(j} en lui appliquant la translation ~E{j}, définie à
l'étape de codage par exemple, pour dëterminer la valeur Esa(j). Après cette première étape de translation, le procédé comporte une étape de modification de la pente du contour d'énergie du meilleur représentant afin de relier la dernière valeur d'énergie Erd(j} du ~ meilleur représentant ü à
la première énergie Esd(j+1 ) du segment suivant d'indics j+1.
La figure 6 représente les courbes (Vi) et (VII) correspondant respectivement au contour d'énergie original du signal de parole à coder et Fax émis par : THOMSON CSF TPI 15/10/81 12:17 Pq: il/Zl du -contour d'énergie décodé après mise en oeuvre des étapes décrites précédemment.
Par exemple, le codage des énergies de début de chaque segment sur ~ bits permet d'obtenir pour ie codage segmenta( de l'énergie un débit de l'ordre de 80 bitsls.
Codage de l'information de voisement La f:pure 7 représente l'ëvolution temporelle d'une information de voisement binaire de quatre segments successifs 35, 36, 37 pour le signal â
coder courbe (Vllj et pour les meilleurs représentants (courbe VIII) après alignement temporel par I~TW, Codage de !'information de voisement Lors du codage, le procédé exécute une étape de codage de ('information de voisement, par exemple en parcourant l'évolution temporelle de l'information de voisement des segments reconnus et celle des meilleurs ~ 5 représentants alignés (courbe VIII) et en codant les différences existantes dTk entre ces deux courbes. Ces différences aTK peuvent ètre : une avance a de la trame, un retard b de trame, l'absence etlou la présence d'une transition référence c (k correspond à l'indice d'une extrémité d'une zone de voisement). .
2o Pour cela, ü est possible d'utiliser un code de longueur variable dont un exemple est donné dans !a table I ci-dessous, pour coder la correction à apporter à chacune des transitions de voisement pour chacun des segments reconnus_ Tous les segments ne comportant pas de transition de voisement, il est possible de réduire le dëbit associé au voisement en ne 25 codant que les transitions de voisement existantes dans le voisement à
coder et dans les meilleurs représentants, Selon cette méthode, l'information de voisement est codée sur environ 22 bits par seconde.

Fax émis par : THOMSOH CSF TPI 15/10/91 12:17 Pq: 12/21 Table ~ : Exemple de fable de codage pour les i~rans~tians de voisement Code Interprtation _ OC?0 Transitio_ n__ _supprimer Q01 Dcala e 1trame ~ Droite 010 Dcala e 1 trame fauche 011 Dcala e 2 trames Droite 1 Ug Dcela e 2 trames Gauche 101 Insrer une transition (un code prcisant l'em lacement de la transition suit celui-ci 11 Pas de dcala e 117 Dplacement suprieur 3 trames (un autre code suit celui-ci s Pour une information de voisement mixte telle que ~ le taux de voisement en sous-bande, l'analyse de cette information fait appel à une méthode décrite par exemple dans le document suivant "Multiband Excitation Vocoders", ayant pQUr auteurs D.W. Griffin and J.S.
Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 3fi, no. 8, pp. 9 223-1235, 198$ ;
~ la fréquence de transition entre une bande basse voisée et une bande haute non-voisée, le codage utilise une méthode telle que décrite dans le document ayant pour auteurs C. Laflamme, R. Salami, R. Matmti, and J-P_ Adoul, intitulé "Harmonie Stochastic Excitation (HSX~ speech coding below 4 kbitsls", lE~~ International Conference on Acoustics, Speech, and Signal Processing, Atlanta, May 1996, pp. 204-207.
Dans ces deux cas, le codage de l'information de voisement comporte également le codage de la variation de la proportion de voisement.
Décodage de l'information de voisement 20 Le décodeur dispose de l'information de voisement des cc meilleurs représentants alignés » obtenu au niveau du codeur.
La correction s'effectue par exemple de la maniére suivante A chaque détection de l'extrémité d'une none de voisement sur les meilleurs représentants choisis pour la synthèse, le procédé apporte une 25 information complémentaire au décodeur c~ui est la correction à effectuer à
cette extrémité. La correction peut étre une avance a ou un retard b à
apporter à cette extrémité. Ce décalage temporel est par exemple exprimé

Fax émis ~aar : THOMSOH CSF TPI 15/18/81 12:17 Pq: 13/21 en -nombre de trames afin d'obtenir la position exacte de l'extrémité de voisement du signal de parole original. La correction peut aussi prendre la forme d'une suppression ou d'une insertion d'une transition.
Coôage du pitch L'expérience montre que, sur des enregistrements de parole, le nombre de zones voisées obtenues par seconde est en moyenne de l'ordre de 3 ou 4. Pour rendre compte fidèlement des variations du pitch, une manière de procéder consiste à transmettre plusieurs valeurs de pitch par zone voisés. Afin de limiter le débit, au lieu de transmettre toute la t o succession des valeurs de pitch sur une zone voisée, le contour du pitch est approximé par une succession de segments linéaires.
Codage du pitçh Pour chaque zone voisée du signal de parole, le procédé
comporte une étape de recherche des valeurs du pitch à transmettre. Les ~ 5 valeurs de pitch au début et à la fin de la zone voisée sont systématiquement transmises. Les autres valeurs à transmettre sont déterminées de la manière suivante ~ le procédé considère uniquement les valeurs du pitch au début des segments reconnus. Partant de la droite Di joignant les valeurs du pitch zo aux deux extrémités de la zone voisée, le procédé recherche le début de segment dont la valeur de pïtch est la plus éloignée de cette droite, ce qui correspond à une distance d,~ax. II compare cette valeur dmex à une valeur seuil d~";,. Si la distance dmax est supérieure à dse~n, le procédé
décompose la droite initiale Di en deux droites D;~ et D;2, en prenant le 25 début du segment trouvé nomme nouvelle valeur de pitch à transmettre.
Cette opération est réitérée sur ces deux nouvelles zones voisée délimitées par les droites C7;1 et D;z jusqu'à ce que la distance dmax trouvée soit inférieure à la distance dge"~,, Pour coder les valeurs du pitch ainsi déterminées, le procëdé
utilise par exemple un quantificateur scalaire prédictif sur par exemple 5 bits appliqué au logarithme du pitch.
t.a prédiction est par exemple 1a première valeur de pitch du meilleur représentant correspondant à la position du pitch à décoder, multipliée par un facteur de prédiction compris par exemple entre 0 et '1.

Fax émis par : THOMSOM CSF TPI 15/18/81 12:17 Pq: 14/21 Selon une autre façon de procéder, fa prédiction peut étre la valeur minimale de l'enregistrement de parole à coder- Dans ce cas, cette valeur peut âtre transmise au décodeur par quantification scalaire sur par exemple 8 bits.
Les valeurs des pitchs à transmettre ayant été déterminées et codées, le procëdé comporte une étape où l'espacement temporel est précisé, par exemple en nombre de trames, entre chacune de ces valeurs de pitch_ Un code à longueur variable permet par exemple de coder ces espacements sur 2 bits en moyenne.
dette façon de procéder permet d'obtenir un débit d°anviron 651bits par seconde pour une distance maximale sur la période pitch de 7 échantillons.
Décodage du pitch L'étape de décodage comporte tout d'abord une étape de i 5 décodage de l'espacement temporel entre les différentes valeurs de pitch transmises afin de récupérer les instants de mise à~ jour du pitch, ainsi que la valeur du pitch pour chacun de ces instants. La valeur du pitch pour chacune des trames de la zone voisée est reconstituée par exemple par interpolation linéaire entre les valeurs transmises,

Claims

REVENDICATIONS

1 - Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant »
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».

2 - Procédé selon la revendication 1 caractérisé en ce que l'information de prosodie des représentants utilisée est le contour d'énergie ou le voisement ou la longueur des segments ou le pitch.

3 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte une étape de codage de la longueur des segments reconnus consistant à coder la différence de longueur entre la longueur d'un segment reconnu et la longueur du « meilleur représentant » multiplié par un facteur donné.

4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporté une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.

- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».

6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.
CA2359411A 2000-10-18 2001-10-17 Procede de codage de la prosodie pour un codeur de parole a tres bas debit Expired - Fee Related CA2359411C (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0013628 2000-10-18
FR0013628A FR2815457B1 (fr) 2000-10-18 2000-10-18 Procede de codage de la prosodie pour un codeur de parole a tres bas debit

Publications (2)

Publication Number Publication Date
CA2359411A1 CA2359411A1 (fr) 2002-04-18
CA2359411C true CA2359411C (fr) 2010-07-06

Family

ID=8855687

Family Applications (1)

Application Number Title Priority Date Filing Date
CA2359411A Expired - Fee Related CA2359411C (fr) 2000-10-18 2001-10-17 Procede de codage de la prosodie pour un codeur de parole a tres bas debit

Country Status (10)

Country Link
US (1) US7039584B2 (fr)
EP (1) EP1197952B1 (fr)
JP (1) JP2002207499A (fr)
KR (1) KR20020031305A (fr)
AT (1) ATE450856T1 (fr)
CA (1) CA2359411C (fr)
DE (1) DE60140651D1 (fr)
ES (1) ES2337020T3 (fr)
FR (1) FR2815457B1 (fr)
IL (1) IL145992A0 (fr)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2388439A1 (fr) * 2002-05-31 2003-11-30 Voiceage Corporation Methode et dispositif de dissimulation d'effacement de cadres dans des codecs de la parole a prevision lineaire
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
CN107256710A (zh) * 2017-08-01 2017-10-17 中国农业大学 一种基于动态时间伸缩算法的哼唱旋律识别方法
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统
US11830473B2 (en) * 2020-01-21 2023-11-28 Samsung Electronics Co., Ltd. Expressive text-to-speech system and method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
US5305421A (en) * 1991-08-28 1994-04-19 Itt Corporation Low bit rate speech coding system and compression
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
EP0706172A1 (fr) * 1994-10-04 1996-04-10 Hughes Aircraft Company Codeur et décodeur de parole à faible débit binaire
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants
US7069216B2 (en) * 2000-09-29 2006-06-27 Nuance Communications, Inc. Corpus-based prosody translation system

Also Published As

Publication number Publication date
ATE450856T1 (de) 2009-12-15
FR2815457B1 (fr) 2003-02-14
ES2337020T3 (es) 2010-04-20
EP1197952A1 (fr) 2002-04-17
DE60140651D1 (de) 2010-01-14
IL145992A0 (en) 2002-07-25
US7039584B2 (en) 2006-05-02
US20020065655A1 (en) 2002-05-30
FR2815457A1 (fr) 2002-04-19
EP1197952B1 (fr) 2009-12-02
KR20020031305A (ko) 2002-05-01
CA2359411A1 (fr) 2002-04-18
JP2002207499A (ja) 2002-07-26

Similar Documents

Publication Publication Date Title
EP2277172B1 (fr) Dissimulation d&#39;erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique
Kankanahalli End-to-end optimized speech coding with deep neural networks
EP1372289B1 (fr) Création d&#39;une trame de description de silence pour engendrer un bruit de confort
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
EP1692689B1 (fr) Procede de codage multiple optimise
US5067158A (en) Linear predictive residual representation via non-iterative spectral reconstruction
EP2080195B1 (fr) Synthèse de blocs perdus d&#39;un signal audionumérique
JP5265853B2 (ja) 処理装置、処理方法、記録媒体、符号化方法及び復号化方法
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
CA2359411C (fr) Procede de codage de la prosodie pour un codeur de parole a tres bas debit
EP2312851A2 (fr) Procédé et appareil pour un codage et un décodage multiplexe
EP0428445B1 (fr) Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit
US20040176961A1 (en) Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
WO2005066936A1 (fr) Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
EP2795618B1 (fr) Procédé de détection d&#39;une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d&#39;ordinateur correspondant
EP1526508B1 (fr) Procédé de sélection d&#39;unités de synthèse
EP2080194B1 (fr) Attenuation du survoisement, notamment pour la generation d&#39;une excitation aupres d&#39;un decodeur, en absence d&#39;information
EP3138095B1 (fr) Correction de perte de trame perfectionnée avec information de voisement
EP2203915B1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique avec repartition de la complexite
EP1756806B1 (fr) Procede de quantification d&#39;un codeur de parole a tres bas debit
Chu A scalable MELP coder based on embedded quantization of line spectral frequencies
Deshpande et al. Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency Reconstruction of Long, Lossy Audio Sequences
Cheng et al. Improvement of Packet Loss Concealment for EVS Codec Based on Deep Learning
FR3133265A1 (fr) Codage et décodage optimisé d’un signal audio utilisant un auto-encodeur à base de réseau de neurones

Legal Events

Date Code Title Description
EEER Examination request
MKLA Lapsed

Effective date: 20181017