CA2359411A1 - Procede de codage de la prosodie pour un codeur de parole a tres bas debit - Google Patents

Procede de codage de la prosodie pour un codeur de parole a tres bas debit Download PDF

Info

Publication number
CA2359411A1
CA2359411A1 CA002359411A CA2359411A CA2359411A1 CA 2359411 A1 CA2359411 A1 CA 2359411A1 CA 002359411 A CA002359411 A CA 002359411A CA 2359411 A CA2359411 A CA 2359411A CA 2359411 A1 CA2359411 A1 CA 2359411A1
Authority
CA
Canada
Prior art keywords
coding
energy
recognized
representatives
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CA002359411A
Other languages
English (en)
Other versions
CA2359411C (fr
Inventor
Philippe Gournay
Yves-Paul Nakache
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Publication of CA2359411A1 publication Critical patent/CA2359411A1/fr
Application granted granted Critical
Publication of CA2359411C publication Critical patent/CA2359411C/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Abstract

Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant » associé à chaque segment reconnu. Le procédé comporte au moins une étape de codage-décodage d'un des paramètres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ». Application pour des débits inférieurs à 400 bits par seconde.

Claims (4)

1 - Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant »
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2 - Procédé selon la revendication 1 caractérisé en ce que l'information de prosodie des représentants utilisée est le contour d'énergie ou le voisement ou la longueur des segments ou le pitch.
3 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte une étape de codage de la longueur des segments reconnus consistant à coder la différence de longueur entre la longueur d'un segment reconnu et la longueur du « meilleur représentant » multiplié par un facteur donné.
4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporté une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.

- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».

6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.
CA2359411A 2000-10-18 2001-10-17 Procede de codage de la prosodie pour un codeur de parole a tres bas debit Expired - Fee Related CA2359411C (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0013628 2000-10-18
FR0013628A FR2815457B1 (fr) 2000-10-18 2000-10-18 Procede de codage de la prosodie pour un codeur de parole a tres bas debit

Publications (2)

Publication Number Publication Date
CA2359411A1 true CA2359411A1 (fr) 2002-04-18
CA2359411C CA2359411C (fr) 2010-07-06

Family

ID=8855687

Family Applications (1)

Application Number Title Priority Date Filing Date
CA2359411A Expired - Fee Related CA2359411C (fr) 2000-10-18 2001-10-17 Procede de codage de la prosodie pour un codeur de parole a tres bas debit

Country Status (10)

Country Link
US (1) US7039584B2 (fr)
EP (1) EP1197952B1 (fr)
JP (1) JP2002207499A (fr)
KR (1) KR20020031305A (fr)
AT (1) ATE450856T1 (fr)
CA (1) CA2359411C (fr)
DE (1) DE60140651D1 (fr)
ES (1) ES2337020T3 (fr)
FR (1) FR2815457B1 (fr)
IL (1) IL145992A0 (fr)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2388439A1 (fr) * 2002-05-31 2003-11-30 Voiceage Corporation Methode et dispositif de dissimulation d'effacement de cadres dans des codecs de la parole a prevision lineaire
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
CN107256710A (zh) * 2017-08-01 2017-10-17 中国农业大学 一种基于动态时间伸缩算法的哼唱旋律识别方法
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统
US11830473B2 (en) * 2020-01-21 2023-11-28 Samsung Electronics Co., Ltd. Expressive text-to-speech system and method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
US5305421A (en) * 1991-08-28 1994-04-19 Itt Corporation Low bit rate speech coding system and compression
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
EP0706172A1 (fr) * 1994-10-04 1996-04-10 Hughes Aircraft Company Codeur et décodeur de parole à faible débit binaire
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants
AU2002212992A1 (en) * 2000-09-29 2002-04-08 Lernout And Hauspie Speech Products N.V. Corpus-based prosody translation system

Also Published As

Publication number Publication date
FR2815457B1 (fr) 2003-02-14
EP1197952B1 (fr) 2009-12-02
ATE450856T1 (de) 2009-12-15
JP2002207499A (ja) 2002-07-26
EP1197952A1 (fr) 2002-04-17
KR20020031305A (ko) 2002-05-01
FR2815457A1 (fr) 2002-04-19
US7039584B2 (en) 2006-05-02
IL145992A0 (en) 2002-07-25
ES2337020T3 (es) 2010-04-20
US20020065655A1 (en) 2002-05-30
CA2359411C (fr) 2010-07-06
DE60140651D1 (de) 2010-01-14

Similar Documents

Publication Publication Date Title
CA2359411A1 (fr) Procede de codage de la prosodie pour un codeur de parole a tres bas debit
RU2326449C2 (ru) Способ и устройство, предназначенные для эффективной передачи сигналов размерности и пачки в полосе частот и работы с максимальной половинной скоростью при широкополосном кодировании речи с переменной скоростью передачи битов для беспроводных систем мдкр
KR100711280B1 (ko) 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
CN103548081B (zh) 噪声稳健语音译码模式分类
KR100895589B1 (ko) 로버스트한 음성 분류를 위한 방법 및 장치
BR9805989B1 (pt) método e aparelho para decodificar um sinal codificado.
EP1315150A2 (fr) Méthodes de post-filtrage adaptif et systèmes de décodage de parole
ATE368279T1 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
ATE393448T1 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
JP3564144B2 (ja) “前方”および“後方”lpc分析による音声周波数信号を符号化するための方法および装置
WO2002073601A8 (fr) Procede et dispositif de determination de la qualite d&#39;un signal vocal
US20010007974A1 (en) Method and apparatus for eighth-rate random number generation for speech coders
DE69941947D1 (de) Celp sprachkodierer
US20040267525A1 (en) Apparatus for and method of determining transmission rate in speech transcoding
JPH08305388A (ja) 音声区間検出装置
KR20000026288A (ko) 약전계에서 코드 분할 다중 접속 시스템의 코덱 잡음 제거 방법
Laaksonen et al. Exploiting time warping in AMR-NB and AMR-WB speech coders.
KR101798084B1 (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
JP3001584B2 (ja) 音声信号送信方法
Jang et al. A novel rate selection algorithm for transcoding CELP-type codec and SMV.
정우성 Design of a variable rate speech codec for the W-CDMA system
KR101770301B1 (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
JPH10301593A (ja) 音声区間検出方法およびその装置
KR20050062749A (ko) 상호 부호화 장치 및 그 방법
Ramadas et al. A phonetically switched ADPCM speech coder

Legal Events

Date Code Title Description
EEER Examination request
MKLA Lapsed

Effective date: 20181017