CA2359411A1 - Procede de codage de la prosodie pour un codeur de parole a tres bas debit - Google Patents
Procede de codage de la prosodie pour un codeur de parole a tres bas debit Download PDFInfo
- Publication number
- CA2359411A1 CA2359411A1 CA002359411A CA2359411A CA2359411A1 CA 2359411 A1 CA2359411 A1 CA 2359411A1 CA 002359411 A CA002359411 A CA 002359411A CA 2359411 A CA2359411 A CA 2359411A CA 2359411 A1 CA2359411 A1 CA 2359411A1
- Authority
- CA
- Canada
- Prior art keywords
- coding
- energy
- recognized
- representatives
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Abstract
Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant » associé à chaque segment reconnu. Le procédé comporte au moins une étape de codage-décodage d'un des paramètres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ». Application pour des débits inférieurs à 400 bits par seconde.
Claims (4)
1 - Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant »
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2 - Procédé selon la revendication 1 caractérisé en ce que l'information de prosodie des représentants utilisée est le contour d'énergie ou le voisement ou la longueur des segments ou le pitch.
3 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte une étape de codage de la longueur des segments reconnus consistant à coder la différence de longueur entre la longueur d'un segment reconnu et la longueur du « meilleur représentant » multiplié par un facteur donné.
4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporté une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».
6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.
- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».
6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0013628 | 2000-10-18 | ||
FR0013628A FR2815457B1 (fr) | 2000-10-18 | 2000-10-18 | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
Publications (2)
Publication Number | Publication Date |
---|---|
CA2359411A1 true CA2359411A1 (fr) | 2002-04-18 |
CA2359411C CA2359411C (fr) | 2010-07-06 |
Family
ID=8855687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CA2359411A Expired - Fee Related CA2359411C (fr) | 2000-10-18 | 2001-10-17 | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
Country Status (10)
Country | Link |
---|---|
US (1) | US7039584B2 (fr) |
EP (1) | EP1197952B1 (fr) |
JP (1) | JP2002207499A (fr) |
KR (1) | KR20020031305A (fr) |
AT (1) | ATE450856T1 (fr) |
CA (1) | CA2359411C (fr) |
DE (1) | DE60140651D1 (fr) |
ES (1) | ES2337020T3 (fr) |
FR (1) | FR2815457B1 (fr) |
IL (1) | IL145992A0 (fr) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2388439A1 (fr) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | Methode et dispositif de dissimulation d'effacement de cadres dans des codecs de la parole a prevision lineaire |
US20040166481A1 (en) * | 2003-02-26 | 2004-08-26 | Sayling Wen | Linear listening and followed-reading language learning system & method |
JP4256189B2 (ja) * | 2003-03-28 | 2009-04-22 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
FR2861491B1 (fr) * | 2003-10-24 | 2006-01-06 | Thales Sa | Procede de selection d'unites de synthese |
KR101410230B1 (ko) * | 2007-08-17 | 2014-06-20 | 삼성전자주식회사 | 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치 |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
CN107256710A (zh) * | 2017-08-01 | 2017-10-17 | 中国农业大学 | 一种基于动态时间伸缩算法的哼唱旋律识别方法 |
CN110265049A (zh) * | 2019-05-27 | 2019-09-20 | 重庆高开清芯科技产业发展有限公司 | 一种语音识别方法及语音识别系统 |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802223A (en) * | 1983-11-03 | 1989-01-31 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable pitch patterns |
US5305421A (en) * | 1991-08-28 | 1994-04-19 | Itt Corporation | Low bit rate speech coding system and compression |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5682464A (en) * | 1992-06-29 | 1997-10-28 | Kurzweil Applied Intelligence, Inc. | Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values |
EP0706172A1 (fr) * | 1994-10-04 | 1996-04-10 | Hughes Aircraft Company | Codeur et décodeur de parole à faible débit binaire |
US6393391B1 (en) * | 1998-04-15 | 2002-05-21 | Nec Corporation | Speech coder for high quality at low bit rates |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US6456965B1 (en) * | 1997-05-20 | 2002-09-24 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
FR2784218B1 (fr) * | 1998-10-06 | 2000-12-08 | Thomson Csf | Procede de codage de la parole a bas debit |
FR2786908B1 (fr) * | 1998-12-04 | 2001-06-08 | Thomson Csf | Procede et dispositif pour le traitement des sons pour correction auditive des malentendants |
AU2002212992A1 (en) * | 2000-09-29 | 2002-04-08 | Lernout And Hauspie Speech Products N.V. | Corpus-based prosody translation system |
-
2000
- 2000-10-18 FR FR0013628A patent/FR2815457B1/fr not_active Expired - Fee Related
-
2001
- 2001-10-17 IL IL14599201A patent/IL145992A0/xx unknown
- 2001-10-17 AT AT01402684T patent/ATE450856T1/de not_active IP Right Cessation
- 2001-10-17 EP EP01402684A patent/EP1197952B1/fr not_active Expired - Lifetime
- 2001-10-17 JP JP2001319231A patent/JP2002207499A/ja not_active Withdrawn
- 2001-10-17 CA CA2359411A patent/CA2359411C/fr not_active Expired - Fee Related
- 2001-10-17 ES ES01402684T patent/ES2337020T3/es not_active Expired - Lifetime
- 2001-10-17 DE DE60140651T patent/DE60140651D1/de not_active Expired - Lifetime
- 2001-10-18 KR KR1020010064436A patent/KR20020031305A/ko not_active Application Discontinuation
- 2001-10-18 US US09/978,680 patent/US7039584B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
FR2815457B1 (fr) | 2003-02-14 |
EP1197952B1 (fr) | 2009-12-02 |
ATE450856T1 (de) | 2009-12-15 |
JP2002207499A (ja) | 2002-07-26 |
EP1197952A1 (fr) | 2002-04-17 |
KR20020031305A (ko) | 2002-05-01 |
FR2815457A1 (fr) | 2002-04-19 |
US7039584B2 (en) | 2006-05-02 |
IL145992A0 (en) | 2002-07-25 |
ES2337020T3 (es) | 2010-04-20 |
US20020065655A1 (en) | 2002-05-30 |
CA2359411C (fr) | 2010-07-06 |
DE60140651D1 (de) | 2010-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2359411A1 (fr) | Procede de codage de la prosodie pour un codeur de parole a tres bas debit | |
RU2326449C2 (ru) | Способ и устройство, предназначенные для эффективной передачи сигналов размерности и пачки в полосе частот и работы с максимальной половинной скоростью при широкополосном кодировании речи с переменной скоростью передачи битов для беспроводных систем мдкр | |
KR100711280B1 (ko) | 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치 | |
CN103548081B (zh) | 噪声稳健语音译码模式分类 | |
KR100895589B1 (ko) | 로버스트한 음성 분류를 위한 방법 및 장치 | |
BR9805989B1 (pt) | método e aparelho para decodificar um sinal codificado. | |
EP1315150A2 (fr) | Méthodes de post-filtrage adaptif et systèmes de décodage de parole | |
ATE368279T1 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
ATE393448T1 (de) | Verfahren und vorrichtung zur kodierung von stimmloser sprache | |
JP3564144B2 (ja) | “前方”および“後方”lpc分析による音声周波数信号を符号化するための方法および装置 | |
WO2002073601A8 (fr) | Procede et dispositif de determination de la qualite d'un signal vocal | |
US20010007974A1 (en) | Method and apparatus for eighth-rate random number generation for speech coders | |
DE69941947D1 (de) | Celp sprachkodierer | |
US20040267525A1 (en) | Apparatus for and method of determining transmission rate in speech transcoding | |
JPH08305388A (ja) | 音声区間検出装置 | |
KR20000026288A (ko) | 약전계에서 코드 분할 다중 접속 시스템의 코덱 잡음 제거 방법 | |
Laaksonen et al. | Exploiting time warping in AMR-NB and AMR-WB speech coders. | |
KR101798084B1 (ko) | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 | |
JP3001584B2 (ja) | 音声信号送信方法 | |
Jang et al. | A novel rate selection algorithm for transcoding CELP-type codec and SMV. | |
정우성 | Design of a variable rate speech codec for the W-CDMA system | |
KR101770301B1 (ko) | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 | |
JPH10301593A (ja) | 音声区間検出方法およびその装置 | |
KR20050062749A (ko) | 상호 부호화 장치 및 그 방법 | |
Ramadas et al. | A phonetically switched ADPCM speech coder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EEER | Examination request | ||
MKLA | Lapsed |
Effective date: 20181017 |