WO2012080651A1 - Enrichment of the audio content of an audiovisual program by means of speech synthesis - Google Patents

Enrichment of the audio content of an audiovisual program by means of speech synthesis Download PDF

Info

Publication number
WO2012080651A1
WO2012080651A1 PCT/FR2011/052967 FR2011052967W WO2012080651A1 WO 2012080651 A1 WO2012080651 A1 WO 2012080651A1 FR 2011052967 W FR2011052967 W FR 2011052967W WO 2012080651 A1 WO2012080651 A1 WO 2012080651A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
audio
enrichment
stream
elementary
Prior art date
Application number
PCT/FR2011/052967
Other languages
French (fr)
Inventor
Roberto Agro
Halim Bendiabdallah
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2012080651A1 publication Critical patent/WO2012080651A1/en

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Definitions

  • Such audio description methods consist in transmitting an audio track containing both the sound of the associated film (voice and sound effects) and the voice over of the description of this film.
  • These processes use a pre-mix of the original audio track with the voice-over, before the actual broadcast of the film, which is performed in an editing studio with the participation of an actor who brings his voice to the description of the film.
  • the decoding unit comprises a voice synthesis unit configured to vocally synthesize the enrichment audio data from the enriched textual data extracted from the first elementary data stream and a synchronization unit configured to synchronize the enrichment audio data with the original audio data extracted from the second elementary data stream before providing them to the audio mixing unit, to prevent accidental time overlap of the original audio and enrichment channels during their mix.
  • the signal according to the invention comprises descriptive data specifically associated with audio content enrichment, said descriptive data being inserted into a specific data field of at least one elementary stream packet belonging to the first stream.
  • descriptive data being inserted into a specific data field of at least one elementary stream packet belonging to the first stream.
  • the invention also relates to a data carrier readable by a computer or data processor, and comprising a signal according to the invention.
  • the information medium can be a carrier that can be transmitted in the form of a carrier wave, such as an electromagnetic signal (electrical, radio or optical signal), which can be conveyed via an appropriate transmission means, wired or not.
  • a carrier wave such as an electromagnetic signal (electrical, radio or optical signal)
  • electrical, radio or optical signal which can be conveyed via an appropriate transmission means, wired or not.
  • wired electrical or optical cable, radio or infrared link, or by other means.
  • Such elementary streams are for example pre-multiplexed with a video elementary stream F V i of o comprising video video data, during the preparation (step 102) of the audiovisual stream F at the level of the digital television program broadcaster, before the broadcasting (step 103) of the audiovisual stream F prepared.
  • this obtaining step 105 may include the separation of the audiovisual stream F received by the digital reception device into:
  • time stamps are also advantageously inserted in the textual data packets ⁇ ⁇ (1), ..., ⁇ ⁇ ( ⁇ ) where the textual data d ⁇ are inserted.
  • These timestamps may be used in particular during a possible synchronization of the text enrichment data with the audio data to be enriched, as described later in the description.
  • the first elementary stream is multiplexed with other elementary streams audio F audio including audio of original audio data to enrich and video F video at a step 102 of multiplexing to obtain the audiovisual stream F described above.
  • a step 111 of synchronization of the Up enhancement audio data with the original audio audio data is performed prior to mixing the enhancement audio data of sup with the initial audio data of aud i 0 .
  • Such configuration parameters, added to the textual enrichment data d M may relate to the setting of the following elements at the level of the enrichment device:
  • This decoding unit 20 comprises, on the other hand, a video decoding unit 27 which receives the different packets P V ideo (k) of the third elementary stream F video carrying video data d V i deo and extracts the video data d V i deo in a video image format for outputting such video data to a broadcast screen, such as a television, for outputting the enhancement device 1.
  • a video decoding unit 27 which receives the different packets P V ideo (k) of the third elementary stream F video carrying video data d V i deo and extracts the video data d V i deo in a video image format for outputting such video data to a broadcast screen, such as a television, for outputting the enhancement device 1.
  • the decoding unit 20 comprises an extraction unit 21 arranged to extract the textual data. of enriching dtxt of these packets ⁇ ⁇ ( ⁇ ).
  • the decoding unit 20 further comprises a speech synthesis unit 22 which receives these textual enrichment data. and converted to sup enrichment audio data, typically by means of a speech synthesis process.
  • This speech synthesis unit 22 can thus convert an ASCII character string representing the textual enrichment data. in sup enrichment audio data in a PCM format.

Abstract

The invention relates to a method for enriching the audio content of an audiovisual stream (F), including: obtaining (105) at least one first basic data stream (Ftxt), including text enrichment data (dtxt), and a second basic data stream (Faudio), including initial audio data (daudio), from the audiovisual stream (F); converting (109) the text enrichment data (dtxt), extracted from the first basic data stream (Ftxt), into supplementary audio data (dsup); and mixing (113) the supplementary audio data (dsup) with the initial audio data (daudio) extracted from the second basic data stream (Faudio) so as to obtain enriched audio data (d'audio). The invention also relates to a device (1) intended for enriching the audio content of an audiovisual stream and suitable for implementing said enrichment method.

Description

Enrichissement du contenu audio d'un programme audiovisuel par synthèse vocale  Enrichment of the audio content of an audiovisual program by speech synthesis
L'invention concerne le domaine de l'enrichissement audio de programmes audiovisuels, et en particulier celui de audio description appliquée à des programmes audiovisuels transmis sous la forme de flux numériques de données. The invention relates to the field of audio enrichment of audiovisual programs, and in particular that of audio description applied to audiovisual programs transmitted in the form of digital data streams.
Dans le domaine de la diffusion télévisée numérique, les programmes télévisés sont habituellement diffusés sous forme de flux audiovisuels rassemblant un certain nombre de flux élémentaires vidéo et audio associés et synchronisés entre eux. Les normes MPEG2-TS et DVB sont couramment employées pour permettre le transport et la diffusion de tels flux audiovisuels.  In the field of digital television broadcasting, television programs are usually broadcast in the form of audiovisual streams bringing together a certain number of elementary video and audio streams associated and synchronized with each other. MPEG2-TS and DVB standards are commonly used to allow the transport and broadcasting of such audiovisual streams.
La structure d'un flux audiovisuel de type MPEG2-TS est simple et générique. Elle se compose de flux élémentaires audio, de flux élémentaires vidéo et de flux élémentaires de données, ainsi que de tables de signalisation, basées sur les normes MPEG2-TS et DVB. En particulier, un même flux audiovisuel peut comporter un seul flux élémentaire vidéo associé à plusieurs flux élémentaires audio, correspondant respectivement à des langues différentes, ce qui permet de basculer entre ces langues lors de la visualisation du programme diffusé grâce un tel flux audiovisuel.  The structure of an MPEG2-TS audiovisual stream is simple and generic. It consists of audio elementary streams, video elementary streams and elementary data streams, as well as signaling tables based on MPEG2-TS and DVB standards. In particular, the same audiovisual stream may comprise a single elementary video stream associated with several audio elementary streams, respectively corresponding to different languages, which makes it possible to switch between these languages during the viewing of the program broadcast by such an audiovisual stream.
Afin de permettre une meilleure accessibilité au monde audiovisuel, notamment pour les aveugles ou les malvoyants, une solution consiste à recourir à des procédés d'enrichissement de la bande son des programmes diffusés. Le recours à de tels procédés d'enrichissement peut être même obligatoire, ou le devenir bientôt, dans certains pays dans lesquels des organismes publics veillent à garantir qu'un quota de programmes audiovisuels soient accessibles aux aveugles et malvoyants.  In order to allow a better accessibility to the audio-visual world, in particular for the blind or the visually impaired, one solution consists in resorting to processes of enrichment of the soundtrack of the diffused programs. The use of such enrichment processes may even be required, or soon to be, in some countries where public bodies ensure that a quota of audiovisual programs is accessible to the blind and visually impaired.
Ces procédés d'enrichissement sont couramment désignés sous le terme d' « audio description », ou encore d'« audio vision », et consistent à décrire les scènes d'un film ou d'un programme par une voix off, intercalée entre les dialogues originaux du film ou du programme, afin de fournir des éléments d'informations supplémentaires permettant aux malvoyants de mieux comprendre le contexte de ce film ou de ce programme.  These enrichment methods are commonly referred to as "audio description", or "audio vision", and consist of describing the scenes of a film or program by a voice-over interposed between Original dialogues of the film or program, to provide additional pieces of information allowing the visually impaired to better understand the context of this film or program.
A l'heure actuelle, de tels procédés d' audio description consistent à transmettre une piste audio contenant à la fois le son du film associé (la voix et les bruitages) et la voix off de la description de ce film. Ces procédés ont recours à un mixage préalable de la piste audio d'origine avec la voix off, avant la diffusion proprement dite du film, ce qui est réalisé dans un studio de montage avec la participation d'un acteur qui apporte sa voix à la description du film.  At present, such audio description methods consist in transmitting an audio track containing both the sound of the associated film (voice and sound effects) and the voice over of the description of this film. These processes use a pre-mix of the original audio track with the voice-over, before the actual broadcast of the film, which is performed in an editing studio with the participation of an actor who brings his voice to the description of the film.
Les procédés d' audio description actuellement employés souffrent cependant d'un certain nombre d'inconvénients :  The currently used audio description methods, however, suffer from a number of disadvantages:
En premier lieu, la création de la piste audio enrichie fait appel à une chaîne complexe pour sa mise en œuvre.  First, the creation of the enriched audio track uses a complex chain for its implementation.
De plus, dans la mesure où différentes personnes et différents équipements sont utilisés pour réaliser ce type de doublage descriptif, ces procédés engendrent des coûts supplémentaires non négligeables. In addition, as different people and different equipment are used to perform this type of descriptive dubbing, these methods generate significant additional costs.
Enfin, la piste audio enrichie obtenue présente un débit équivalent à n'importe quelle autre composante audio, c'est-à-dire compris entre 128 et 256 kb/s. Cette piste audio enrichie est donc consommatrice en bande passante et oblige les sociétés de diffusion à supprimer d'autres pistes audio, par exemple des pistes audio « multi-langues », afin de pouvoir insérer une telle piste audio descriptive pour répondre aux normes en matière d' accessibilité.  Finally, the enriched audio track obtained has a bit rate equivalent to any other audio component, that is to say between 128 and 256 kb / s. This enriched audio track is therefore bandwidth-consuming and obliges the broadcasting companies to delete other audio tracks, for example "multi-language" audio tracks, in order to be able to insert such a descriptive audio track to meet the standards in terms of audio. accessibility.
La présente invention a pour objet de remédier aux inconvénients précités et a pour objet de proposer un procédé d'enrichissement qui soit moins long en production, limite les coûts supplémentaires et soit moins consommateur en bande passante. The present invention aims to overcome the aforementioned drawbacks and is intended to provide an enrichment process that is less productive, limits additional costs and is less consumer bandwidth.
Elle propose à cet effet un procédé d'enrichissement du contenu audio d'un flux audiovisuel comprenant l'obtention d'un premier flux élémentaire de données comprenant des données d'enrichissement textuelles et d'un deuxième flux élémentaire de données comprenant des données audio initiales à partir du flux audiovisuel, la conversion des données textuelles d'enrichissement extraites du premier flux élémentaire de données en données audio d'enrichissement et le mixage des données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données afin d'obtenir des données audio enrichies. It proposes for this purpose a method of enriching the audio content of an audiovisual stream comprising obtaining a first elementary data stream comprising textual enrichment data and a second elementary data stream comprising audio data. initials from the audiovisual stream, converting the enrichment text data extracted from the first elementary data stream to enrichment audio data and mixing the enrichment audio data with the original audio data extracted from the second elementary data stream to to obtain enriched audio data.
Avantageusement, le procédé d'enrichissement comprend en outre la synchronisation des données audio d'enrichissement avec les données audio initiales avant leur mixage, afin de prévenir un chevauchement temporel accidentel des voies audio d'origine et d'enrichissement lors de leur mixage, ce qui rendrait inaudible la piste audio enrichie associée au programme transmis par le flux audiovisuel.  Advantageously, the enrichment method furthermore comprises the synchronization of the enrichment audio data with the initial audio data before their mixing, in order to prevent an accidental temporal overlap of the original audio and enrichment channels during their mixing. which would render inaudible the enriched audio track associated with the program transmitted by the audiovisual stream.
En particulier, cette synchronisation des données audio d'enrichissement avec les données audio initiales est effectuée au moyen d'au moins une étiquette insérée dans l'entête d'au moins un paquet de données textuelles appartenant au premier flux élémentaire de données.  In particular, this synchronization of the enrichment audio data with the initial audio data is performed by means of at least one tag inserted in the header of at least one textual data packet belonging to the first elementary data stream.
Selon un mode de réalisation dans lequel le deuxième flux élémentaire de données comprend au moins un paquet de données audio comprenant des données audio initiales et une estampille temporelle, la synchronisation des données audio d'enrichissement avec les données audio initiales est effectuée en synchronisant l'estampille temporelle insérée dans le paquet de données textuelles avec l'estampille temporelle du paquet de données audio.  According to an embodiment in which the second elementary data stream comprises at least one audio data packet comprising initial audio data and a time stamp, the synchronization of the audio enrichment data with the initial audio data is performed by synchronizing the audio data stream. time stamp inserted in the text data packet with the time stamp of the audio data packet.
Dans un mode de réalisation particulièrement avantageux où le flux audiovisuel est transmis selon la norme MPEG2-TS, l'étape d'obtention comprend l'obtention des premier et des deuxième flux élémentaires de données par démultiplexage du flux audiovisuel au moyen d'identifiants respectivement associés à ces premier et deuxième flux élémentaires de données dans une table PMT, ce qui permet une séparation simple des différents flux élémentaires. In a particularly advantageous embodiment where the audiovisual stream is transmitted according to the MPEG2-TS standard, the obtaining step comprises obtaining the first and second elementary data streams by demultiplexing the audiovisual stream by means of identifiers respectively. associated with these first and second elementary streams of data in a PMT table, which allows a simple separation of the different elementary flows.
Dans ce mode de réalisation, de façon particulièrement avantageuse, les données textuelles d'enrichissement sont insérées préalablement dans le premier flux élémentaire conformément à la fonctionnalité télétexte définie dans la norme DVB, ce qui permet de réutiliser une fonctionnalité déjà existante pour transmettre les données d'enrichissement sans avoir à ajouter une nouvelle fonctionnalité spécifique à ce type d'application.  In this embodiment, particularly advantageously, the textual enrichment data are inserted beforehand into the first elementary stream in accordance with the teletext functionality defined in the DVB standard, which makes it possible to reuse an already existing functionality for transmitting the data of the data. enrichment without having to add a new feature specific to this type of application.
Avantageusement, des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont insérés dans un champ de données spécifique d'au moins un paquet de flux élémentaire appartenant au premier flux élémentaire afin d'indiquer que les données textuelles d'enrichissement sont utilisées seulement dans le cadre de l'enrichissement de contenu audio, ce qui permet de distinguer l'utilisation de la fonctionnalité télétexte à des fins d'enrichissement de contenu audio d'un flux audiovisuel d'une utilisation classique.  Advantageously, descriptive data specifically associated with the enrichment of audio content is inserted into a data field specific to at least one elementary stream packet belonging to the first elementary stream to indicate that the textual enrichment data is used only. as part of the enrichment of audio content, which distinguishes the use of teletext functionality for the purpose of enriching audio content of an audiovisual stream of a conventional use.
L'enrichissement de contenu audio est par exemple demandé par un utilisateur de l'équipement de restitution sur lequel ce flux audiovisuel est destiné à être restitué ou en cours de restitution. Cette demande de l'utilisateur déclenche la recherche par une unité de décodage de données télétexte jointes à des données descriptives spécifiquement associées à l'enrichissement de contenu audio : si ces données descriptives sont présentes, alors les données télétexte jointes seront utilisées pour la génération de données audio d'enrichissement. En l'absence de telles données descriptives, les données télétexte seront donc décodées et exploitées classiquement, comme défini actuellement par la fonctionnalité télétexte.  The enrichment of audio content is for example requested by a user of the playback equipment on which this audiovisual stream is intended to be returned or being restored. This user request triggers the search by a teletext data decoding unit joined to descriptive data specifically associated with the enrichment of audio content: if these descriptive data are present, then the attached teletext data will be used for the generation of data. audio enrichment data. In the absence of such descriptive data, teletext data will therefore be decoded and exploited conventionally, as currently defined by the teletext feature.
En particulier, lorsque ce champ de données spécifique est le champ PES_data_field d'un paquet de flux élémentaire, défini selon la norme DVB et comprenant un premier champ élémentaire data_identifier et un deuxième champ élémentaire data_unit_id, les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de 0x80 à OxFF et insérée dans le champ élémentaire data_identifier et dans le champ élémentaire data_unit_id.  In particular, when this specific data field is the field PES_data_field of an elementary stream packet, defined according to the DVB standard and comprising a first data_identifier first field and a second data_unit_id elementary field, the descriptive data specifically associated with the enrichment of audio content consists of at least one value selected in a range of values from 0x80 to 0xFF and inserted in the data_identifier elementary field and in the data_unit_id elementary field.
Lorsque le champ de données spécifique est un champ de données descriptives appartenant à la table PMT et défini selon la norme MPEG2-TS, les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent alors avantageusement en au moins une valeur choisie dans une plage de valeur allant de 0x06à 0x1F et insérée dans ledit champ de données spécifiques de la table PMT.  When the specific data field is a descriptive data field belonging to the PMT table and defined according to the MPEG2-TS standard, the descriptive data specifically associated with the enrichment of audio content then advantageously consist of at least one value chosen in a range. value ranging from 0x06 to 0x1F and inserted into said specific data field of the PMT.
De manière particulièrement avantageuse, les données textuelles d'enrichissement sont formulées dans le format XML et comprennent au moins un paramètre de configuration de la conversion desdites données textuelles d'enrichissement en données audio d'enrichissement parmi la vitesse de lecture, le type de voix, l'intonation du phrasé, l'accentuation et la langue, ce qui permet de configurer la conversion vocale des données textuelles d'enrichissement depuis l'émetteur du programme télévisé. Dans un mode de réalisation du procédé d'enrichissement, le flux audiovisuel comprend, dans le premier flux élémentaire de données, les données textuelles d'enrichissement et au moins une estampille temporelle conformément à laquelle les données audio d'enrichissement sont à synchroniser avec les données audio initiales, le premier flux élémentaire de données étant multiplexé avec le deuxième flux élémentaire de données. Particularly advantageously, the textual enrichment data are formulated in the XML format and comprise at least one configuration parameter for the conversion of said text enrichment data into enrichment audio data among the reading speed, the type of voice , the intonation of the phrasing, the accentuation and the language, which makes it possible to configure the vocal conversion of the text enrichment data from the transmitter of the television program. In one embodiment of the enrichment method, the audiovisual stream includes, in the first elementary data stream, the textual enrichment data and at least one time stamp according to which the audio enrichment data is to be synchronized with the data elements. initial audio data, the first elementary data stream being multiplexed with the second elementary data stream.
La présente invention propose également un procédé de génération d'un flux audiovisuel adapté pour l'enrichissement de contenu audio, comprenant une étape d'insertion de données textuelles d'enrichissement et d'au moins une estampille temporelle dans un premier flux élémentaire de données et une étape de multiplexage du premier flux élémentaire de données avec au moins un deuxième flux élémentaire de données comprenant des données audio initiales afin d'obtenir le flux audiovisuel.  The present invention also proposes a method for generating an audio-visual stream suitable for enriching audio content, comprising a step of inserting enrichment textual data and at least one time stamp into a first elementary data stream. and a step of multiplexing the first elementary data stream with at least a second elementary data stream comprising initial audio data to obtain the audiovisual stream.
La présente invention propose en outre un dispositif d'enrichissement du contenu audio d'un flux audiovisuel, comprenant une unité de démultiplexage adaptée pour obtenir au moins un premier flux élémentaire de données comprenant des données d'enrichissement textuelles et un deuxième flux élémentaire de données comprenant des données audio initiales à partir du flux audiovisuel, une unité de décodage configurée pour convertir les données textuelles d'enrichissement extraites du premier flux élémentaire de données en données audio d'enrichissement et une unité de mixage audio configurée pour mixer les données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données afin d'obtenir des données audio enrichies.  The present invention furthermore proposes a device for enriching the audio content of an audiovisual stream, comprising a demultiplexing unit adapted to obtain at least a first elementary stream of data comprising textual enrichment data and a second elementary data stream. comprising initial audio data from the audiovisual stream, a decoding unit configured to convert the enrichment text data extracted from the first elementary data stream into enriching audio data, and an audio mixing unit configured to mix the audio data of enrichment with the original audio data extracted from the second elementary data stream to obtain enriched audio data.
Dans un mode de réalisation avantageux, l'unité de décodage comprend une unité de synthèse vocale configurée pour synthétiser vocalement les données audio d'enrichissement à partir des données textuelles d'enrichissement extraites du premier flux élémentaire de données et une unité de synchronisation configurée pour synchroniser les données audio d'enrichissement avec les données audio initiales extraites du deuxième flux élémentaire de données avant de les fournir à l'unité de mixage audio, afin de prévenir un chevauchement temporel accidentel des voies audio d'origine et d'enrichissement lors de leur mixage.  In an advantageous embodiment, the decoding unit comprises a voice synthesis unit configured to vocally synthesize the enrichment audio data from the enriched textual data extracted from the first elementary data stream and a synchronization unit configured to synchronize the enrichment audio data with the original audio data extracted from the second elementary data stream before providing them to the audio mixing unit, to prevent accidental time overlap of the original audio and enrichment channels during their mix.
En particulier, l'unité de démultiplexage est adaptée en outre pour obtenir un troisième flux élémentaire de données comprenant des données vidéo à partir du flux audiovisuel, l'unité de décodage comprenant une unité de décodage audio, configurée pour extraire les données audio initiales du deuxième flux élémentaire de données afin de les fournir à l'unité de mixage audio, et une unité de décodage vidéo configurée pour extraire les données vidéo du troisième flux élémentaire de données, afin de les fournir en sortie du dispositif d'enrichissement.  In particular, the demultiplexing unit is further adapted to obtain a third elementary data stream comprising video data from the audiovisual stream, the decoding unit comprising an audio decoding unit configured to extract the original audio data from the audio stream. second elementary data stream for providing them to the audio mixing unit; and a video decoding unit configured to extract the video data from the third elementary data stream to output them from the enrichment device.
De manière avantageuse, lorsque le flux audiovisuel est transmis selon la norme MPEG2- TS, le dispositif d'enrichissement est apte à mettre en œuvre les étapes du procédé d'enrichissement de contenu audio ci-avant. L'invention a également pour objet un signal véhiculant un flux audiovisuel, destiné à être transmis à une unité de décodage de flux audiovisuel, ce signal comprenant : Advantageously, when the audiovisual stream is transmitted according to the MPEG2-TS standard, the enrichment device is able to implement the steps of the audio content enrichment method above. The subject of the invention is also a signal conveying an audiovisual stream intended to be transmitted to an audiovisual stream decoding unit, this signal comprising:
- un premier flux élémentaire de données comprenant des données textuelles d'enrichissement;  a first elementary data stream comprising textual enrichment data;
- un deuxième flux élémentaire de données comprenant des données audio initiales du flux audiovisuel,  a second elementary data stream comprising initial audio data of the audiovisual stream,
les données textuelles d'enrichissement étant destinées à être converties par l'unité de décodage en données audio d'enrichissement adaptées à être mixées avec les données audio initiales.  the textual enrichment data being intended to be converted by the decoding unit into audio enrichment data adapted to be mixed with the initial audio data.
Dans un mode de réalisation du signal selon l'invention, le premier flux élémentaire de données comprend au moins une estampille temporelle conformément à laquelle les données audio d'enrichissement sont à synchroniser avec les données audio initiales lors du mixage des données audio d'enrichissement avec les données audio initiales.  In one embodiment of the signal according to the invention, the first elementary data stream comprises at least one time stamp according to which the audio enrichment data is to be synchronized with the initial audio data during the mixing of the enrichment audio data. with the initial audio data.
Dans un mode de réalisation du signal selon l'invention, les données textuelles d'enrichissement sont insérées dans le premier flux élémentaire conformément à une fonctionnalité télétexte définie dans une norme de codage et/ou de transport de flux audiovisuel.  In one embodiment of the signal according to the invention, the textual enrichment data are inserted in the first elementary stream in accordance with a teletext feature defined in a standard for coding and / or audiovisual stream transport.
Dans un mode de réalisation, le signal selon l'invention comprend des données descriptives spécifiquement associées à l'enrichissement de contenu audio, ces données descriptives étant insérées dans un champ de données spécifique d'au moins un paquet de flux élémentaire appartenant au premier flux élémentaire afin d'indiquer que les données textuelles d'enrichissement sont utilisées seulement dans le cadre de l'enrichissement de contenu audio.  In one embodiment, the signal according to the invention comprises descriptive data specifically associated with audio content enrichment, said descriptive data being inserted into a specific data field of at least one elementary stream packet belonging to the first stream. elementary to indicate that textual enrichment data is used only for the purpose of enriching audio content.
L'invention concerne aussi un support d'informations lisible par un ordinateur ou processeur de données, et comportant un signal selon l'invention. The invention also relates to a data carrier readable by a computer or data processor, and comprising a signal according to the invention.
Le support d'informations peut être n'importe quel moyen matériel, entité ou dispositif, capable de stocker un signal. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire ROM ou RAM, par exemple un disque CD ROM ou encore un moyen d'enregistrement magnétique, par exemple une disquette ("floppy dise" selon la terminologie anglo- saxonne) ou un disque dur d'ordinateur.  The information medium may be any hardware, entity or device capable of storing a signal. For example, the medium may comprise storage means, such as a ROM or RAM memory, for example a CD ROM disk or a magnetic recording means, for example a floppy disk ("floppy disk") according to the English terminology. Saxon) or a computer hard drive.
D'autre part, le support d'informations peut être un support transmissible sous forme d'onde porteuse tel qu'un signal électromagnétique (signal électrique, radio ou optique), qui peut être acheminé via un moyen de transmission approprié, filaire ou non filaire: câble électrique ou optique, liaison radio ou infrarouge, ou par d'autres moyens.  On the other hand, the information medium can be a carrier that can be transmitted in the form of a carrier wave, such as an electromagnetic signal (electrical, radio or optical signal), which can be conveyed via an appropriate transmission means, wired or not. wired: electrical or optical cable, radio or infrared link, or by other means.
L'invention concerne également un procédé comprenant une étape de génération et/ou une étape d'envoi d'un signal selon l'invention.  The invention also relates to a method comprising a step of generating and / or a step of sending a signal according to the invention.
Le procédé et le dispositif d'enrichissement du contenu audio d'un flux audiovisuel, objet de l'invention, seront mieux compris à la lecture de la description et à l'observation des dessins ci- après dans lesquels : The method and the device for enriching the audio content of an audiovisual stream, an object of the invention will be better understood on reading the description and on the observation of the following drawings in which:
- la figure 1 illustre les étapes d'un procédé d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention ; et  FIG. 1 illustrates the steps of a method of enriching the audio content of an audiovisual stream according to the present invention; and
- la figure 2 représente schématiquement un dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention. - Figure 2 schematically shows a device for enriching the audio content of an audiovisual stream according to the present invention.
On se réfère tout d'abord à la figure 1 sur laquelle sont illustrées les étapes d'un procédé 100 d'enrichissement du contenu audio d'un flux audiovisuel selon la présente invention. Reference is first made to FIG. 1, in which the steps of a method 100 for enriching the audio content of an audiovisual stream according to the present invention are illustrated.
Ce procédé d'enrichissement se déroule plus particulièrement dans un dispositif d'enrichissement du contenu audio d'un flux audiovisuel, décrit plus en détail en relation avec la figure 2, lequel est apte à recevoir un flux audiovisuel numérique F utilisant par exemple la norme MPEG2-TS pour le transport de flux audiovisuels.  This enrichment process takes place more particularly in a device for enriching the audio content of an audiovisual stream, described in more detail in relation to FIG. 2, which is capable of receiving a digital audiovisual stream F using for example the standard MPEG2-TS for the transport of audiovisual streams.
Ce procédé d'enrichissement comprend notamment l'obtention (étape 105) au moins d'un premier flux élémentaire de données F^ comprenant des données d'enrichissement textuelles d^ et d'un deuxième flux élémentaire de données Faudio comprenant des données audio initiales daudio à partir du flux audiovisuel F. This enrichment method notably comprises obtaining (step 105) at least a first elementary data stream F 1 comprising textual enrichment data d 1 and a second elementary stream of audio data F comprising audio data. initials of audio from the audiovisual stream F.
De tels flux élémentaires sont par exemple multiplexés au préalable avec un flux élémentaire vidéo FVideo comprenant des données vidéo dvideo, lors de la préparation (étape 102) du flux audiovisuel F au niveau du diffuseur de programmes télévisés numériques, avant la diffusion (étape 103) du flux audiovisuel F préparé. Such elementary streams are for example pre-multiplexed with a video elementary stream F V i of o comprising video video data, during the preparation (step 102) of the audiovisual stream F at the level of the digital television program broadcaster, before the broadcasting (step 103) of the audiovisual stream F prepared.
En particulier, cette étape 105 d'obtention peut comprendre notamment la séparation du flux audiovisuel F reçu par le dispositif de réception numérique en :  In particular, this obtaining step 105 may include the separation of the audiovisual stream F received by the digital reception device into:
- un premier flux élémentaire F^ constitué de paquets de données textuelles ΡΜ(1),...,ΡΜ(ί) comprenant les données d'enrichissement textuelles d^ ; a first elementary stream F ^ consisting of textual data packets Ρ Μ (1), ..., Ρ Μ (ί) comprising the textual enrichment data d ^;
- un deuxième flux élémentaire Faudio constitué de paquets de données audio Paudio(l),- · - ,PaudioG) comprenant les données audio initiales daudio ; et a second elementary audio stream F consisting of audio data packets Paudio (l), - · -, PaudioG) comprising the initial audio audio data; and
- un troisième flux élémentaire Fvideo constitué de paquets de données vidéo PVideo(l)>- · - >Pvideo(k) comprenant des données video dvideo. a third elementary video stream F consisting of video data packets P V ideo (I) > - > - > Pvideo (k) comprising video video data.
Lors de cette génération préalable du flux audiovisuel F, les données d'enrichissement textuelles d^ sont insérées dans un premier flux élémentaire de données F^ (étape 101), par exemple sous la forme de chaînes de caractères ASCII insérées dans un certain nombre de paquets de données textuelles ΡΜ(1),...,ΡΜ(ί) de ce premier flux élémentaire F^. During this prior generation of the audiovisual stream F, the textual enrichment data d1 is inserted in a first elementary data stream F ^ (step 101), for example in the form of ASCII character strings inserted into a number of characters. textual data packets Ρ Μ (1), ..., Ρ Μ (ί) of this first elementary stream F ^.
Cette insertion peut être réalisée simplement par un opérateur, par exemple au moyen d'outils de type traitement de texte, en amont de l'émetteur de flux audiovisuels et permet d'éviter d'avoir recours aux services d'un acteur pour lire une voix-off à mixer directement avec la piste audio d'origine, ce qui engendre des coûts supplémentaires, et permet de raccourcir également le temps de production. This insertion can be carried out simply by an operator, for example by means of word processing tools, upstream of the audiovisual stream transmitter and avoids having to use the services of an actor to read a document. voice-over to mix directly with the original audio track, which generates additional costs, and can also shorten the production time.
Lors de cette étape d'insertion, des estampilles temporelles sont également insérées avantageusement dans les paquets de données textuelles ΡΜ(1),...,ΡΜ(ί) où sont insérées les données textuelles d^. Ces estampilles temporelles peuvent être utilisées notamment lors d'une éventuelle synchronisation des données textuelles d'enrichissement avec les données audio à enrichir, comme cela est décrit plus loin dans la description. During this insertion step, time stamps are also advantageously inserted in the textual data packets Ρ Μ (1), ..., Ρ Μ (ί) where the textual data d ^ are inserted. These timestamps may be used in particular during a possible synchronization of the text enrichment data with the audio data to be enriched, as described later in the description.
Une fois les données textuelles insérées dans le premier flux élémentaire de données F^, ce premier flux élémentaire est multiplexé avec les autres flux élémentaires audio Faudio, comprenant des données audio initiales daudio à enrichir, et vidéo Fvideo, lors d'une étape 102 de multiplexage permettant d'obtenir le flux audiovisuel F décrit ci-avant. Once the text data included in the first elementary data stream F ^, the first elementary stream is multiplexed with other elementary streams audio F audio including audio of original audio data to enrich and video F video at a step 102 of multiplexing to obtain the audiovisual stream F described above.
Une fois le flux audiovisuel F généré, ce flux audiovisuel F est diffusé (étape 103) afin d'être reçu par un certain nombre de dispositifs de réception numérique.  Once the audiovisual stream F has been generated, this audiovisual stream F is broadcast (step 103) in order to be received by a certain number of digital reception devices.
Pour en revenir à l'étape 105 de séparation évoquée ci-dessus, celle-ci peut être réalisée par démultiplexage de ces différents flux élémentaires à partir du flux audiovisuel F dans lequel ils ont été multiplexés au préalable.  To come back to the separation step 105 mentioned above, this can be done by demultiplexing these different elementary streams from the audiovisual stream F in which they were previously multiplexed.
A l'issue de cette étape 105, le premier flux élémentaire F^, constitué d'un certain nombre de paquets de données textuelles {ΡΜ(ί) } ι<ί<Ν comprenant les données d'enrichissement textuelles d^ d'une part, et le deuxième flux élémentaire Faudi0, constitué d'un certain nombre de paquets de données audio {Paudio(j) } i<j<J comprenant des données audio initiales daudi0, sont disponibles séparément. At the end of this step 105, the first elementary stream F ^, consisting of a certain number of textual data packets {Ρ Μ (ί)} ι <ί <Ν including the textual enrichment data d d d on the one hand, and the second elementary stream F aud i 0 , consisting of a number of audio data packets {P on the dio (j)} i <j <J comprising initial audio data d aud i 0 , are available separately .
Les données textuelles d'enrichissement dM sont alors extraites (étape 107) du premier flux élémentaire F^, et plus particulièrement d'un ou plusieurs paquet(s) de donnée(s) textuelle(s) { Ptxt(i) } i≤i<N les contenant dans ce flux, et converties (étape 109) en données audio d'enrichissement dsup au moyen d'un processus de synthèse vocale. The textual enrichment data d M are then extracted (step 107) from the first elementary stream F ^, and more particularly from one or more data packet (s) text (s) {Ptxt (i)} i ≤i <N containing in this feed and converted (step 109) in greater enrichment of audio data through a speech synthesis process.
Une fois ces données audio d'enrichissement dsup obtenues, celles-ci sont mélangées (étapeOnce these enrichment sup audio data obtained, they are mixed (step
113) avec les données audio initiales daudio, elles-mêmes extraites du deuxième flux élémentaire Faudio, et plus particulièrement d'un ou plusieurs paquet(s) audio {PaudioG) } i≤j<J les contenant dans ce flux, afin d'obtenir des données audio enrichies d'audio. 113) with the initial audio of audio data, themselves extracted from the second elementary stream F aud io, more particularly one or several package (s) to the audio {P Diog) i≤j} <J l es containing in this stream, in order to obtain audio data enriched with audio .
Ces données audio enrichies d'audio peuvent alors être utilisées en combinaison avec les données vidéo extraites, par décodage vidéo, du flux élémentaire vidéo Fvideo pour fournir un programme télévisé dont la bande son est enrichie au moyen des données textuelles d'enrichissement d^. These audio enriched audio data can then be used in combination with the extracted video data, video decoding, the video elementary stream F video to provide a television program whose soundtrack is enriched by textual data enrichment d ^ .
Ainsi, dans la mesure où les données d'enrichissement sont transmises sous forme textuelle (par exemple sous la forme de caractères ASCII) plutôt que sous la forme de données audio déjà mélangées avec la piste audio d'origine comme c'est le cas de l'art antérieur, un gain substantiel en bande passante est obtenu dans la mesure où les données textuelles sont significativement moins consommatrices en bande passante que les données audio. Dans un mode de réalisation avantageux, une étape 111 de synchronisation des données audio d'enrichissement dsUp avec les données audio initiales daudio est effectuée avant de mixer les données audio d'enrichissement dsup avec les données audio initiales daudi0. Thus, to the extent that the enrichment data is transmitted in textual form (eg in the form of ASCII characters) rather than in the form of audio data already mixed with the original audio track as is the case with In the prior art, a substantial gain in bandwidth is obtained since the text data is significantly less bandwidth consuming than the audio data. In an advantageous embodiment, a step 111 of synchronization of the Up enhancement audio data with the original audio audio data is performed prior to mixing the enhancement audio data of sup with the initial audio data of aud i 0 .
Ceci permet de garantir la bonne synchronisation de la voie audio d'enrichissement avec la piste audio d'origine et de prévenir un chevauchement temporel accidentel de ces deux types de données audio lors de leur mixage, ce qui rendrait inaudible la piste audio enrichie associée au programme transmis par le flux audiovisuel F.  This ensures that the audio enrichment channel is synchronized with the original audio track and prevents accidental overlap of both types of audio data when they are being mixed, thus rendering inaudible the enhanced audio track associated with the audio track. program transmitted by the audiovisual stream F.
Une telle synchronisation des données audio d'enrichissement dsup avec les données audio initiales daudio peut être réalisée au moyen d'une ou plusieurs estampille(s) temporelle(s) insérée(s) dans l'entête d' au moins un paquet de données ΡΜ(ί) appartenant au premier flux élémentaire de données F^ et contenant des données textuelles d'enrichissement d^. Such synchronization of the audio enhancement data of sup with the initial audio audio data can be achieved by means of one or more timestamp (s) inserted in the header of at least one packet of data Ρ Μ (ί) belonging to the first elementary data stream F ^ and containing textual enrichment data d ^.
Dans un mode de réalisation particulièrement avantageux, le flux audiovisuel F est composé selon la norme MPEG-2 TS et transmis selon cette même norme, c'est-à-dire au moyen de paquets de transports décrits dans cette norme. In a particularly advantageous embodiment, the audiovisual stream F is composed according to the MPEG-2 TS standard and transmitted according to the same standard, that is to say by means of transport packets described in this standard.
Dans un tel mode de réalisation, le démultiplexage décrit précédemment en relation avec l'étape 105 de séparation des flux élémentaires peut être avantageusement effectué en fonction d'identifiants PID distincts associés respectivement à ces différents flux élémentaires, lesquels sont listés alors dans une table PMT (Program Map Table en anglais), utilisée habituellement dans cette norme MPEG-2 TS et transmise avec le flux audiovisuel F.  In such an embodiment, the demultiplexing previously described in relation with the step 105 for separating the elementary streams can advantageously be performed as a function of distinct PID identifiers associated respectively with these different elementary streams, which are then listed in a PMT table. (Program Map Table in English), usually used in this standard MPEG-2 TS and transmitted with the audiovisual stream F.
En lisant cette table PMT afin d'y retrouver les identifiants PID associés aux différents flux élémentaires, il est alors possible de distinguer les différents flux élémentaires Faudio, Fvideo et Ftxt entre eux, ce qui permet de les séparer simplement par lecture de cette table PMT lorsque le flux audiovisuel F est reçu. By reading this PMT table in order to find the PID identifiers associated with the different elementary streams, it is then possible to distinguish the different elementary streams F audio , F video and F txt between them, which allows to separate them simply by reading this PMT table when the audiovisual stream F is received.
Toujours dans ce même mode de réalisation avantageux où la norme MPEG-2 TS est employée pour formuler et transmettre le flux audiovisuel F, la synchronisation évoquée précédemment peut être effectuée au moyen d'estampilles temporelles de type « PTS » Still in this same advantageous embodiment where the MPEG-2 TS standard is used to formulate and transmit the audiovisual stream F, the synchronization mentioned above can be performed using time stamps of the "PTS" type.
(Présentation Time Stamp en anglais). (Time Stamp presentation in English).
Il est en effet habituel de placer une unique estampille temporelle PTS dans l'entête de chaque paquet de données audio Paudi0(j) du flux audiovisuel. Cette estampille temporelle permet de synchroniser la sortie audio même lorsque l'estampille temporelle précédente n'a pas été capturée, par exemple lors de la perte d'un paquet audio. It is indeed usual to place a unique time stamp PTS in the header of each audio data packet P aud i 0 (j) of the audiovisual stream. This timestamp synchronizes the audio output even when the previous timestamp has not been captured, for example when losing an audio packet.
Dans ce mode de réalisation, une estampille temporelle PTS est placée en outre dans l'entête des paquets de données textuelles ΡΜ(ί) comprenant des données textuelles d'enrichissement correspondant à une phrase unitaire. Comme l'audio description textuelle peut être avantageusement entièrement contenue dans un seul paquet de données textuelles ΡΜ(ί), une seule estampille temporelle PTS peut suffire ici. La synchronisation des données audio d'enrichissement dsup avec les données audio initiales daudio est alors gérée avec le top du départ du décodage audio, grâce aux estampilles temporelles insérées dans les paquets de données audio Paudio(j) et les paquets de données textuelles Toujours dans le mode de réalisation avantageux où la norme MPEG-2 TS est employée pour transmettre le flux audiovisuel F, les données d'enrichissement textuelles d^ sont insérées au préalable (étape 101), avant la diffusion du flux audiovisuel F (étape 103), dans un certain nombre de paquets de données textuelles ΡΜ(1 ),..., ΡΜ(ί) appartenant au premier flux élémentaire F^, lesquels sont définis comme étant des paquets de flux élémentaires (autrement désignés par « PES » pour Packet Elementary Stream en anglais) au sens de la norme MPEG2-TS. In this embodiment, a time stamp PTS is further placed in the header of the textual data packets Ρ Μ (ί) comprising textual enrichment data corresponding to a unit sentence. Since the textual audio description can be advantageously entirely contained in a single textual data packet Ρ Μ (ί), a single time stamp PTS may suffice here. Synchronization of sup enrichment audio data with the audio data of original audio is then handled with the top of the starting audio decoding, through timestamps P inserted into the audio data packets in gs (j) and es packets Always in the advantageous embodiment where the MPEG-2 TS standard is used to transmit the audiovisual stream F, the textual enrichment data d1 is inserted beforehand (step 101), before the broadcasting of the audiovisual stream F (step 103), in a number of textual data packets Ρ Μ (1), ..., Ρ Μ (ί) belonging to the first elementary stream F ^, which are defined as elementary stream packets (otherwise designated by "PES" for Packet Elementary Stream in the meaning of the MPEG2-TS standard.
Dans ce mode de réalisation, ces données d'enrichissement textuelles d^ peuvent être alors avantageusement insérées sous la forme de télétexte dans ces paquets élémentaires du premier flux élémentaire F^, conformément à la partie de la norme DVB décrivant le mode d'insertion de télétexte dans un flux DVB (ETSI EN 300 472). Ceci permet de réutiliser une fonctionnalité de transmission de télétexte déjà existante dans le cadre de la norme MPEG2-TS pour transmettre simplement ces données d'enrichissement textuelles dM, sans avoir besoin d'implémenter de nouvelles fonctionnalités spécifiques à l'application d' audio vision. In this embodiment, these text enrichment data d 1 can then be advantageously inserted as teletext in these elementary packets of the first elementary stream F 1, in accordance with the part of the DVB standard describing the mode of insertion of Teletext in a DVB stream (ETSI EN 300 472). This makes it possible to reuse existing teletext transmission functionality within the framework of the MPEG2-TS standard to simply transmit these text enrichment data d M , without the need to implement new features specific to the audio application. vision.
Avantageusement, des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont définies au préalable, afin de pouvoir indiquer aux dispositifs récepteurs du flux audiovisuel F qu'ils reçoivent un flux audiovisuel dont le contenu audio peut être enrichi. Ces données descriptives sont alors insérées dans un champ de données spécifique d'un ou plusieurs paquet(s) de flux élémentaire (ΡΜ(ί)) appartenant au premier flux élémentaire (F^), afin de pouvoir être lues et/ou extraites par les dispositifs récepteurs lors de la réception du flux audiovisuel F. Advantageously, descriptive data specifically associated with the enrichment of audio content are defined in advance, in order to be able to indicate to the receiving devices of the audiovisual stream F that they receive an audiovisual stream whose audio content can be enriched. These descriptive data are then inserted into a specific data field of one or more elementary stream packet (s) (Ρ Μ (ί)) belonging to the first elementary stream (F ^), in order to be read and / or extracted. by the receiving devices upon reception of the audiovisual stream F.
Ainsi, à titre d'exemple propre à la norme MPEG2-TS, les données d'enrichissement textuelles d^ peuvent être insérées dans un champ spécifique de type « PES_data_field » de paquets de flux élémentaires « PES », lequel est structuré sous la forme suivante par la norme DVB: PES_data_field()  Thus, as an example specific to the MPEG2-TS standard, the textual enrichment data d1 can be inserted into a specific field of the type "PES_data_field" of elementary stream packets "PES", which is structured in the form following by the DVB standard: PES_data_field ()
{ {
data_identifier  data_identifier
for(i=0;i<N;i++)  for (i = 0; i <N; i ++)
{  {
data_unit_id  data_unit_id
data_unit_length  data_unit_length
data_field() Le champ « PES_data_field » se décompose ainsi en un certain nombre de champs élémentaires : data_field () The field "PES_data_field" breaks down into a number of elementary fields:
• Le champ élémentaire "data_identifier" indiqué ci-dessus sert à définir le type de donnés stockées dans le paquet de flux élémentaire en question. Les données descriptives spécifiquement associées à l'enrichissement de contenu audio peuvent donc être insérées dans un tel champ élémentaire. • The "data_identifier" elementary field indicated above is used to define the type of data stored in the elementary stream packet in question. The descriptive data specifically associated with the enrichment of audio content can therefore be inserted into such an elementary field.
Des valeurs comprises entre 0x10 et 0x1 F sont déjà définies pour pouvoir être insérées dans ce champ élémentaire "data_identifier" afin de désigner des données EBU (pour European Broadcasting Union). Il convient donc de ne pas utiliser de telles valeurs pour désigner des données textuelles d'enrichissement.  Values between 0x10 and 0x1 F are already defined so that they can be inserted into this "data_identifier" elementary field to designate EBU (European Broadcasting Union) data. Therefore, such values should not be used to designate textual enrichment data.
La norme DVB offre une plage de valeurs comprises entre 0x80 et OxFF réservée pour des besoins spécifiquement définis par un utilisateur. Une ou plusieurs valeur(s) choisie(s) dans cette plage de valeurs peuvent donc être avantageusement utilisées en tant que données descriptives spécifiquement associées à l'enrichissement de contenu audio, pour indiquer l'insertion de données textuelles d'enrichissement dans le flux élémentaire PES concerné, ce qui permet de ne pas activer inutilement la fonction télétexte standard.  The DVB standard offers a range of values from 0x80 to reserved OxFF for user-defined needs. One or more value (s) chosen in this range of values can therefore be advantageously used as descriptive data specifically associated with the enrichment of audio content, to indicate the insertion of textual enrichment data into the stream. elementary PES, which makes it possible not to activate the standard teletext function unnecessarily.
Alternativement, dans la mesure où la norme DVB réserve les plages de valeurs [0x00,0x0F] et [0x20, 0x7F] à des utilisations ultérieures, des valeurs choisies dans ces plages spécifiques peuvent être employées, dans le champ "data_identifier" , afin de désigner facilement l'insertion de données textuelles d'enrichissement destinées à enrichir le contenu audio du flux audiovisuel F et de ne pas activer inutilement la fonction télétexte standard.  Alternatively, since the DVB standard reserves ranges of values [0x00,0x0F] and [0x20, 0x7F] for subsequent uses, values chosen in these specific ranges can be used, in the "data_identifier" field, in order to easily designate the insertion of enrichment textual data for enriching the audio content of the audiovisual stream F and not unnecessarily activating the standard teletext function.
• Par ailleurs, le champ élémentaire « data_unit_id » ci-dessus sert à définir le type et la nature des données transmises. La norme DVB offre une plage de valeurs libres comprises entre 0x80 et OxFF, pouvant être utilisées pour désigner des données textuelles d'enrichissement. Des données descriptives spécifiquement associées à l'enrichissement de contenu audio peuvent donc être aussi insérées dans un tel champ élémentaire, afin par exemple de désigner un sous-type d'information concernant les données textuelles d'enrichissement transmises comme la langue utilisée lors de la synthèse vocale pour l'enrichissement audio ou la nature des paquets de données d'enrichissement audio. • In addition, the "data_unit_id" elementary field above is used to define the type and nature of the transmitted data. The DVB standard offers a range of free values between 0x80 and OxFF, which can be used to designate textual enrichment data. Descriptive data specifically associated with the enrichment of audio content can thus also be inserted into such an elementary field, for example to designate a subtype of information concerning the transmitted textual enrichment data such as the language used during the processing. speech synthesis for audio enrichment or the nature of audio enrichment data packets.
Ici aussi, de manière alternative dans la mesure où la norme DVB réserve les plages de valeurs [0x00, 0x01] et [0x04, 0x7F] à des utilisations ultérieures, des valeurs choisies dans ces plages spécifiques peuvent être employées, dans le champ « data_unit_id », afin de désigner facilement l'insertion de données textuelles d'enrichissement destinées à enrichir le contenu audio du flux audiovisuel F et de ne pas activer inutilement la fonction télétexte standard. Here again, alternatively, since the DVB standard reserves the ranges of values [0x00, 0x01] and [0x04, 0x7F] for subsequent uses, values selected in these specific ranges can be used, in the field "data_unit_id" To designate it is easy to insert textual enrichment data intended to enrich the audio content of the audiovisual stream F and not to unnecessarily activate the standard teletext function.
• Le champ élémentaire « data_unit_length », quant à lui, sert à indiquer la taille en octets du champ « data_field() », qui ne peut excéder 44 octets. • The "data_unit_length" elementary field is used to indicate the size in bytes of the "data_field ()" field, which can not exceed 44 bytes.
• Enfin, le champ « data_field() » fournit un espace où insérer les données textuelles d'enrichissement dedans le paquet de flux élémentaire ΡΜ(ί) en question. Toujours dans le mode de réalisation où la fonctionnalité télétexte offerte par la norme• Finally, the "data_field ()" field provides a space to insert the textual enrichment data into the elementary stream packet Ρ Μ (ί) in question. Still in the embodiment where the teletext functionality offered by the standard
DVB est utilisée pour transmettre les données textuelles d'enrichissement dM, il peut être aussi avantageux d'insérer des données descriptives spécifiquement associées à l'enrichissement de contenu audio dans le descripteur télétexte présent dans la table PMT définie précédemment, sous la forme d'un identifiant spécifique, afin de bien différencier cet usage spécifique du télétexte à des fins d'enrichissement de contenu audio de l'usage classique qui en est fait habituellement. DVB is used to transmit the textual enrichment data d M , it can also be advantageous to insert descriptive data specifically associated with the enrichment of audio content in the teletext descriptor present in the PMT table defined above, in the form of a specific identifier, in order to differentiate this specific use of teletext for the purpose of enriching audio content from the usual use that is usually made of it.
Un champ de données descriptives est prévu, selon les normes MPEG2-TS et DVB, dans la table PMT pour indiquer le type de composante télétexte présente dans un flux élémentaire particulier, et préciser entre autre si ce flux élémentaire correspond à un sous titre, la langue utilisée, etc.  A descriptive data field is provided, according to the MPEG2-TS and DVB standards, in the PMT table to indicate the type of teletext component present in a particular elementary stream, and specify, among other things, whether this elementary stream corresponds to a subtitle, the language used, etc.
II est ainsi possible, grâce à ce champ de données descriptives prévu dans la table PMT, d'indiquer que les données textuelles d'enrichissement d^ ajoutées sous forme de télétexte correspondent à une application spécifique de type audiovision.  It is thus possible, by means of this descriptive data field provided for in the PMT table, to indicate that the textual enrichment data added in the form of teletext correspond to a specific audio-video type application.
Ceci permet au dispositif d'enrichissement de reconnaître l'utilisation d'un procédé d' audio vision lorsqu'il reçoit le flux audiovisuel F, ce qui permet l'implémentation d'un menu, grâce à cette table PMT, au niveau du dispositif d'enrichissement afin d'indiquer à l'utilisateur du dispositif qu'un enrichissement de contenu audio par audio vision est disponible.  This allows the enrichment device to recognize the use of an audio vision method when it receives the audiovisual stream F, which allows the implementation of a menu, thanks to this table PMT, at the device level. enrichment to indicate to the user of the device that enrichment of audio content by audio vision is available.
De façon avantageuse, et afin de pouvoir effectuer une gestion fine de ce procédé d'enrichissement au niveau du dispositif d'enrichissement lui-même, les données d'enrichissement textuelles d^ insérées sous forme de télétexte peuvent être formulées dans le format xml et comprendre un ou plusieurs paramètre de configuration de l'étape 109 de conversion des données textuelles d'enrichissement dM en données audio d'enrichissement dsup. Advantageously, and in order to be able to carry out a fine management of this enrichment method at the level of the enrichment device itself, the textual enrichment data d1 inserted in the form of teletext can be formulated in the format xml and include one or more parameter configuration step 109 of converting textual data enrichment million to sup enrichment of audio.
De tels paramètres de configuration, ajoutés aux données d'enrichissement textuelles dM, peuvent être relatifs au paramétrage des éléments suivants au niveau du dispositif d'enrichissement : Such configuration parameters, added to the textual enrichment data d M , may relate to the setting of the following elements at the level of the enrichment device:
- la vitesse de lecture à utiliser lors de la synthèse vocale (i.e. le débit de parole), the reading speed to be used during speech synthesis (i.e. the speech rate),
- le type de voix à employer lors de la synthèse vocale (i.e. une voix masculine ou une voix féminine, une voix d'enfant...), - l'intonation ou l'accentuation des phrases prononcées. - the type of voice to use during the speech synthesis (ie a male voice or a female voice, a child's voice ...), - the intonation or accentuation of pronounced sentences.
Ces paramètres de configuration peuvent aussi servir à :  These configuration settings can also be used to:
- embarquer plusieurs langues dans un même flux audiovisuel,  - embed multiple languages in the same audiovisual stream,
- embarquer des textes afin de se repérer dans la vidéo lors de l'utilisation de modes « tricks » dans le cas d'un enregistrement. De tels modes « tricks » peuvent correspondre à des modes d'avance rapide, de retour rapide, de pause, d'arrêt ou de lecture, entre autres.  - embed texts in order to find your way around the video when using tricks modes in the case of a recording. Such "tricks" modes can correspond to fast forward, fast rewind, pause, stop or play modes, among others.
A titre illustratif, un exemple de données textuelles d'enrichissement, en mode télétexte et en format XML, est fourni ci-dessous : <AUDIO_VISION>  By way of illustration, an example of textual enrichment data, in teletext mode and in XML format, is provided below: <AUDIO_VISION>
<VERSI0N>1.0</VERSION>  <VERSI0N> 1.0 </ VERSION>
<TEXT TYPE="NORMAL" SPEED ="1" >Bonjour Monde je m'appelle E.T</TEXT> <TEXT TYPE = "NORMAL" SPEED = "1"> Hello World my name is E.T </ TEXT>
<TEXT TYPE="TRICK MODE" SPEED =" 1.5">Scène de la rencontre avec l'alien</TEXT> <TEXT TYPE = "TRICK MODE" SPEED = "1.5"> Scene of the meeting with the alien </ TEXT>
</AUDIO_VISION> </ AUDIO_VISION>
Dans cet exemple, des paramètres de configuration sont insérés pour définir la vitesse de lecture par la synthèse vocale. En particulier, une première phrase « Bonjour Monde je m'appelle E.T » est censée être prononcée à vitesse normale, tandis qu'une deuxième phrase « Scène de la rencontre avec l'alien » est prononcée dans une vitesse supérieure de 50 % à la vitesse normale. In this example, configuration parameters are inserted to set the playback speed by speech synthesis. In particular, a first sentence "Hello World my name is ET" is supposed to be pronounced at normal speed, while a second sentence "scene of the encounter with the alien" is pronounced in a speed of 50% higher than the normal speed.
Une balise utilisable en mode « trick » est également insérée ici au moyen de métadonnées complémentaires aux données textuelles d'enrichissement.  A tag that can be used in trick mode is also inserted here by means of complementary metadata to the textual enrichment data.
Ce mode « trick » permet à l'utilisateur de parcourir rapidement une émission enregistrée, en lui offrant la possibilité de passer directement d'une balise à l'autre. Un texte identifié par le type « TRICK MODE » est également inséré après cette balise. En fonction des capacités du récepteur numérique utilisé, lorsque celui-ci détecte une telle balise, il peut émettre un bip sonore dans un mode limité ou bien émettre une voix prononçant « Scène de la rencontre avec l'alien », ce qui indique la position où l'on se trouve dans l'émission enregistrée, dans un mode plus élaboré.  This "trick" mode allows the user to quickly browse a recorded show, giving him the ability to jump directly from one tag to another. A text identified by the type "TRICK MODE" is also inserted after this tag. Depending on the capabilities of the digital receiver used, when it detects such a beacon, it can emit a beep in a limited mode or emit a voice saying "Scene of the meeting with the alien", which indicates the position where one is in the recorded program, in a more elaborate mode.
On se réfère maintenant à la figure 2, laquelle illustre schématiquement un dispositif 1 d'enrichissement du contenu audio d'un flux audiovisuel F selon la présente invention. Referring now to Figure 2, which schematically illustrates a device 1 for enriching the audio content of an audiovisual stream F according to the present invention.
Un tel dispositif peut en particulier prendre la forme d'un dispositif de réception numérique de type « Set Top Box », d'un dispositif de réception numérique intégré au sein d'un téléviseur numérique ou de tout autre terminal numérique compatible avec la norme DVB.  Such a device can in particular take the form of a "Set Top Box" digital reception device, a digital reception device integrated into a digital television set or any other digital terminal compatible with the DVB standard. .
Outre des moyens de réception Rx capables de recevoir un flux audiovisuel F émis par une antenne de diffusion numérique ou provenant d'une antenne satellite par le biais d'un câble, le dispositif 1 d'enrichissement comprend une unité de démultiplexage 10, arrangée pour démultiplexer le flux audiovisuel F reçu en au moins un premier flux élémentaire composé d'un certain nombre de paquets de données ΡΜ(ί) comprenant des données textuelles d'enrichissement dtxt, un deuxième flux élémentaire audio Faudi0 composé d'un certain nombre de paquets Paudio(j) transportant des données audio daudio et un troisième flux élémentaire vidéo Fvideo composé d'un certain nombre de paquets Pvideo(k) transportant des données vidéo dvideo. In addition to reception means Rx capable of receiving an audiovisual stream F transmitted by a digital broadcasting antenna or coming from a satellite antenna by means of a cable, the enhancement device 1 comprises a demultiplexing unit 10, arranged to demultiplex the audiovisual stream F received in at least a first elementary stream composed of a number of data packets Ρ Μ (ί) comprising textual enrichment data dtxt a second elementary audio stream F aud i 0 composed of a number of packets P on the dio (j) carrying audio audio data and a third elementary video stream Fvideo composed of a number of video packets P (k) carrying video video data.
Dans le mode de réalisation avantageux où le flux audiovisuel F est composé et transmis selon la norme MPEG2-TS, cette unité de démultiplexage 10 peut comprendre un module de filtrage PID capable de lire la table PMT transmise avec le flux audiovisuel F et d'y retrouver les identifiants PID associés spécifiquement aux différents flux élémentaires afin de pouvoir distinguer ceux-ci et de le séparer par démultiplexage.  In the advantageous embodiment where the audiovisual stream F is composed and transmitted according to the MPEG2-TS standard, this demultiplexing unit 10 may comprise a PID filtering module capable of reading the table PMT transmitted with the audiovisual stream F and of find the PID identifiers associated specifically with the different elementary streams in order to distinguish them and to separate it by demultiplexing.
Le dispositif 1 d'enrichissement comprend par ailleurs une unité de décodage 20 qui reçoit les différents flux élémentaires Faudio, Fvideo et Ftxt démultiplexés par l'unité de démultiplexage 10. The enrichment device 1 further comprises a decoding unit 20 which receives the different elementary streams F audio , F video and F txt demultiplexed by the demultiplexing unit 10.
Cette unité de décodage 20 comprend, d'une part, une unité de décodage audio 25 qui reçoit les différents paquets Paudi0(j) du deuxième flux élémentaire Faudio transportant des données audio initiales daudio et en extrait les données audio initiales daudio sous un format permettant la sortie de ces données audio vers un haut-parleur, par exemple dans un format PCM, afin de fournir ces données audio initiales daudio à l'unité 30 de mixage audio décrite par la suite. This decoding unit 20 comprises, firstly, an audio decoding unit 25 which receives the individual packets P aud i 0 (j) of the second audio elementary stream F carrying the initial audio of audio data and extracts the original audio data d audio in a format allowing the output of this audio data to a speaker, for example in a PCM format, to provide this audio initial audio data to the audio mixing unit 30 described later.
Le format PCM est indiqué ici à titre illustratif comme format de sortie des données audio initiales daudio, mais il est bien évident que tout autre format de sortie Audio, tel que le AC3, peut être également employé, en fonction du format d'entrée utilisé par l'unité 30 de mixage. The PCM format is shown here for illustrative purposes as the output format of the original audio audio data, but it is obvious that any other Audio output format, such as the AC3, can also be used, depending on the input format. used by the mixing unit 30.
Cette unité de décodage 20 comprend, d'autre part, une unité de décodage vidéo 27 qui reçoit les différents paquets PVideo(k) du troisième flux élémentaire Fvideo transportant des données vidéo dVideo et en extrait les données vidéo dVidéo dans un format d'image vidéo permettant la sortie de ces données vidéo vers un écran de diffusion, comme une télévision, afin de les fournir en sortie du dispositif 1 d'enrichissement. This decoding unit 20 comprises, on the other hand, a video decoding unit 27 which receives the different packets P V ideo (k) of the third elementary stream F video carrying video data d V i deo and extracts the video data d V i deo in a video image format for outputting such video data to a broadcast screen, such as a television, for outputting the enhancement device 1.
En ce qui concerne le traitement des paquets ΡΜ(ί) comprenant des données textuelles d'enrichissement dM et appartenant au premier flux élémentaire F^, l'unité de décodage 20 comprend une unité d'extraction 21 arrangée pour extraire les données textuelles d'enrichissement dtxt de ces paquets ΡΜ(ί). With regard to the processing of packets Ρ Μ (ί) comprising textual enrichment data d M and belonging to the first elementary stream F ^, the decoding unit 20 comprises an extraction unit 21 arranged to extract the textual data. of enriching dtxt of these packets Ρ Μ (ί).
L'unité de décodage 20 comprend en outre une unité de synthèse vocale 22 qui reçoit ces données textuelles d'enrichissement
Figure imgf000015_0001
et les converties en des données audio d'enrichissement dsup, typiquement au moyen d'un processus de synthèse vocale. Cette unité de synthèse vocale 22 peut ainsi convertir une chaîne de caractères ASCII représentant les données textuelles d'enrichissement
Figure imgf000015_0002
en des données audio d'enrichissement dsup dans un format PCM.
The decoding unit 20 further comprises a speech synthesis unit 22 which receives these textual enrichment data.
Figure imgf000015_0001
and converted to sup enrichment audio data, typically by means of a speech synthesis process. This speech synthesis unit 22 can thus convert an ASCII character string representing the textual enrichment data.
Figure imgf000015_0002
in sup enrichment audio data in a PCM format.
Ici aussi, le format PCM est ici indiqué à titre illustratif comme format de sortie des données audio d'enrichissement dsup, mais il est bien évident que tout autre format de sortie Audio, tel que le AC3, peur être également employé, en fonction du format d'entrée utilisé par l'unité 30 de mixage. Here again, the PCM format is here indicated for illustrative purposes as the output format of the audio enrichment data of sup , but it is obvious that any other output format Audio, such as AC3, can also be used, depending on the input format used by the mixing unit 30.
Le dispositif 1 d'enrichissement comprend également une unité de mixage audio 30 recevant, d'une part, les données audio d'enrichissement dsup converties par l'unité de synthèse vocale 22 et, d'autre part, les données audio initiales daudio décodées par l'unité de décodage audio 25. Cette unité de mixage audio 30 effectue le mixage des données audio d'enrichissement dsup et des données audio initiales daudi0, afin d'enrichir ces dernières avec l'information additionnelle contenue dans les données audio d'enrichissement dsup> ce qui aboutit à des données audio enrichies H υ' audio - Ces données audio enrichies d' audi0 peuvent alors être fournies par l'unité de mixage audio sur une sortie « Audio out » du dispositif 1 d'enrichissement, conjointement avec les données vidéo dvideo issues de l'unité de décodage vidéo 27 qui sont fournies sur une sortie « Video out ». The device 1 also comprises concentrating an audio mixing unit 30 receiving, on the one hand, the enrichment audio data sup converted by the voice synthesis unit 22 and, on the other hand, the original audio data The audio mixing unit 30 performs the mixing of the audio enrichment data of sup and the initial audio data of aud i 0 , in order to enrich the latter with the additional information contained in the audio decoding unit 25. in enrichment audio data sup> which results in enriched audio H υ audio - These enhanced audio of aud i 0 can then be provided by the audio mixing unit on an output "audio out" of the enrichment device 1, together with the video data dvideo from the video decoding unit 27 which are provided on a "video out" output.
Lorsque le dispositif 1 d'enrichissement se présente sous la forme d'un décodeur de télévision numérique, autrement désigné par le terme de Set Top Box (STB), ces sorties « Audio out » et « Video out » peuvent alors être connectées par un câble externe à un écran de télévision pour diffuser le programme contenu dans le flux audiovisuel, dont la piste audio est enrichie par des informations supplémentaires. Lorsque le dispositif 1 d'enrichissement se présente sous la forme d'un module interne à un téléviseur numérique, ces sorties « Audio out » et « Video out » peuvent alors être connectées par des connexions internes aux hauts parleurs et à l'écran de ce téléviseur numérique pour diffuser ce programme enrichi.  When the enrichment device 1 is in the form of a digital television decoder, otherwise referred to as Set Top Box (STB), these outputs "Audio out" and "Video out" can then be connected by a cable external to a television screen for broadcasting the program contained in the audiovisual stream, whose audio track is enriched by additional information. When the enrichment device 1 is in the form of an internal module to a digital television, these outputs "Audio out" and "Video out" can then be connected by internal connections to the speakers and the screen of this digital TV to broadcast this enriched program.
Dans un mode de réalisation avantageux, l'unité de décodage 20 du dispositif 1 d'enrichissement comprend en outre une unité de synchronisation 23, connectée entre l'unité de synthèse vocale 22 et l'unité de mixage audio 30.  In an advantageous embodiment, the decoding unit 20 of the enrichment device 1 further comprises a synchronization unit 23, connected between the speech synthesis unit 22 and the audio mixing unit 30.
Cette unité de synchronisation 23 reçoit les données audio d'enrichissement dsup provenant de l'unité de conversion audio 22 et les synchronise avec les données audio initiales daudi0 afin de garantir que celles-ci ne chevauchent pas lors du mixage effectué par l'unité de mixage audio 30. The synchronization unit 23 receives the audio data enrichment sup from the audio conversion unit 22 and synchronizes with the original audio data aud i 0 in order to ensure that they do not overlap when mixing performed by the audio mixing unit 30.
Lorsque le fichier audiovisuel F est composé et transmis selon la norme MPEG2-TS et que des estampilles temporelles de type « PTS » ont été insérées dans les paquets ΡΜ(ί) du flux élémentaire F^, l'unité de synchronisation 23 utilise ces estampilles temporelles PTS pour caler les données audio d'enrichissement dsup par rapport au top du départ du décodage audio effectué par l'unité 25 de décodage audio, en utilisant au besoin l'horloge de cette unité 25 de décodage audio. When the audiovisual file F is composed and transmitted according to the MPEG2-TS standard and time stamps of "PTS" type have been inserted into the packets Ρ Μ (ί) of the elementary stream F ^, the synchronization unit 23 uses these time stamps PTS to calibrate the audio enhancement data of sup relative to the top of the audio decoding start made by the audio decoding unit, using the clock of this audio decoding unit 25 as necessary.
Bien entendu, l'invention n'est pas limitée aux exemples de réalisation ci-dessus décrits et représentés, à partir desquels on pourra prévoir d'autres modes et d'autres formes de réalisation, sans pour autant sortir du cadre de l'invention. Of course, the invention is not limited to the embodiments described above and shown, from which we can provide other modes and other embodiments, without departing from the scope of the invention. .
Ainsi, l'exemple d'un enrichissement audio destinée à améliorer l'accessibilité d'un programme télévisé par des mal-voyants a été décrit précédemment. Cependant, la présente invention peut également être utilisée dans le cadre plus général d'un enrichissement audio de contenus à la fois audio et vidéo, comme par exemple des services vidéo proposés sur internet. Thus, the example of an audio enrichment to improve the accessibility of a television program by visually impaired has been described above. However, the present invention can also be used in the more general context of audio enrichment of both audio and video content, such as video services offered on the Internet.
Par ailleurs, le format XML a été indiqué précédemment comme pouvant être utilisé pour insérer des données textuelles d'enrichissement accompagnées de métadonnées. L'invention ne se limite pas cependant à ce type de format, mais peut être mise en pratique avec tout autre type de format dans lesquelles des données textuelles peuvent être accompagnées de métadonnées, comme par exemple.  In addition, the XML format has been previously indicated as being able to be used to insert textual enrichment data along with metadata. However, the invention is not limited to this type of format, but can be put into practice with any other type of format in which text data may be accompanied by metadata, such as for example.

Claims

Revendications claims
1. Procédé d'enrichissement d'un contenu audio d'un flux audiovisuel (F), comprenant: A method of enriching an audio content of an audiovisual stream (F), comprising:
une étape d'obtention (105) au moins d'un premier flux élémentaire de données (F^) comprenant des données textuelles d'enrichissement (dM) et d'un deuxième flux élémentaire de données (Faudio) comprenant des données audio initiales (daudio) à partir du flux audiovisuel (F); une étape de conversion (109) des données textuelles d'enrichissement (d^) en données audio d'enrichissement (dsup); a step of obtaining (105) at least a first elementary data stream (F ^) comprising textual enrichment data (d M ) and a second elementary data stream (F audio ) comprising audio data initials (d audio ) from the audiovisual stream (F); a step of converting (109) textual enrichment data (d ^) into enriching audio data (d sup );
une étape de mixage (113) des données audio d'enrichissement (<¾ϋρ) avec les données audio initiales (daudi0) afin d'obtenir des données audio enrichies (d'audi0). a step of mixing (113) the enrichment audio data (<¾ ϋρ ) with the initial audio data (d aud i 0 ) in order to obtain enriched audio data (of aud i 0 ).
2. Procédé d'enrichissement selon la revendication 1, comprenant en outre une étape de synchronisation (111) des données audio d'enrichissement (dsup) avec les données audio initiales (daudio) avant leur mixage. An enhancement method according to claim 1, further comprising a step of synchronizing (111) the enrichment audio data (d sup ) with the initial audio data (d audio ) prior to mixing.
3. Procédé d'enrichissement selon la revendication 2, dans lequel la synchronisation des données audio d'enrichissement (dsup) avec les données audio initiales (daudio) est effectuée conformément à au moins une estampille temporelle insérée dans au moins un paquet de données textuelles (ΡΜ(ί)) appartenant au premier flux élémentaire de données (F^). An enrichment method according to claim 2, wherein the synchronization of the enrichment audio data (d sup ) with the initial audio data (d audio ) is performed in accordance with at least one time stamp inserted into at least one packet of text data (Ρ Μ (ί)) belonging to the first elementary data stream (F ^).
4. Procédé d'enrichissement selon la revendication 3, dans lequel le deuxième flux élémentaire de données (Faudio) comprend au moins un paquet de données audio (Paudio(j)) comprenant des données audio initiales (daudio) et une estampille temporelle, la synchronisation des données audio d'enrichissement (dsup) avec les données audio initiales (daudio) étant effectuée en synchronisant l'estampille temporelle insérée dans le paquet de données textuelles (ΡΜ(ί)) avec l'estampille temporelle du paquet de données audio (Paudi0(j))- An enrichment method according to claim 3, wherein the second elementary data stream (F audio ) comprises at least one audio data packet (P audio (j)) comprising initial audio data (d audio ) and a stamp time, the synchronization of the enrichment audio data (d sup ) with the initial audio data (d audio ) being performed by synchronizing the time stamp inserted in the textual data packet (Ρ Μ (ί)) with the time stamp of the audio data packet (P aud i 0 (j)) -
5. Procédé d'enrichissement selon l'une des revendications 1 à 4, dans lequel le flux audiovisuel (F) est transmis selon la norme MPEG2-TS, dans lequel l'étape d'obtention comprend l'obtention des premier et des deuxième flux élémentaires de données (F^F^o) par démultiplexage du flux audiovisuel (F) au moyen d'identifiants respectivement associés auxdits premier et deuxième flux élémentaires de données dans une table PMT. 5. Enrichment method according to one of claims 1 to 4, wherein the audiovisual stream (F) is transmitted according to the MPEG2-TS standard, wherein the obtaining step comprises obtaining the first and second elementary data streams (F ^ F ^ o ) by demultiplexing the audiovisual stream (F) by means of identifiers respectively associated with said first and second elementary data streams in a PMT table.
6. Procédé d'enrichissement selon l'une des revendications 1 à 5, dans lequel les données textuelles d'enrichissement (dM) sont insérées préalablement (101) dans le premier flux élémentaire6. enrichment method according to one of claims 1 to 5, wherein the textual enrichment data (d M ) are inserted before (101) in the first elementary flow
Μ) conformément à une fonctionnalité télétexte définie dans une norme de codage et/ou de transport de flux audiovisuel. Μ ) according to a teletext feature defined in an encoding standard and / or audiovisual stream transport.
7. Procédé d'enrichissement selon la revendication lou 6, dans lequel des données descriptives spécifiquement associées à l'enrichissement de contenu audio sont insérées dans un champ de données spécifique d'au moins un paquet de flux élémentaire (ΡΜ(ί)) appartenant au premier flux élémentaire (F^) afin d'indiquer que les données textuelles d'enrichissement sont utilisées seulement dans le cadre de l'enrichissement de contenu audio. An enrichment method according to claim 16, wherein descriptive data specifically associated with audio content enrichment is inserted into a specific data field of at least one elementary stream packet (Ρ Μ (ί)). belonging to the first elementary stream (F ^) to indicate that the textual enrichment data is used only as part of the enrichment of audio content.
8. Procédé d'enrichissement selon la revendication 7, dans lequel le champ de données spécifique est le champ PES_data_field d'un paquet de flux élémentaire, défini selon la norme DVB et comprenant un premier champ élémentaire data_identifier et un deuxième champ élémentaire data_unit_id, dans lequel les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de 0x80 à OxFF et insérée dans le champ élémentaire data_identifier et/ou dans le champ élémentaire data_unit_id. The enrichment method according to claim 7, wherein the specific data field is the field PES_data_field of a basic stream packet, defined according to the DVB standard and comprising a first elementary field data_identifier and a second elementary field data_unit_id, in wherein the descriptive data specifically associated with the audio content enrichment consists of at least one value selected in a range of values from 0x80 to 0xFF and inserted in the data_identifier elementary field and / or in the data_unit_id elementary field.
9. Procédé d'enrichissement selon la revendication 7, dans lequel le champ de données spécifique est un champ de données descriptives appartenant à la table PMT et défini selon la norme MPEG2-TS, dans lequel les données descriptives spécifiquement associées à l'enrichissement de contenu audio consistent en au moins une valeur choisie dans une plage de valeur allant de 0x06à 0x1F et insérée dans ledit champ de données spécifiques de la table PMT. An enrichment method according to claim 7, wherein the specific data field is a descriptive data field belonging to the PMT table and defined according to the MPEG2-TS standard, wherein the descriptive data specifically associated with the enrichment of audio content consists of at least one value selected in a range of values from 0x06 to 0x1F and inserted into said specific data field of the PMT.
10. Procédé d'enrichissement selon l'une des revendications 6 à 9, dans lequel les données textuelles d'enrichissement (d^) comprennent au moins un paramètre de configuration de la conversion desdites données textuelles d'enrichissement (d^) en données audio d'enrichissement (dsup) parmi la vitesse de lecture, le type de voix, l'intonation du phrasé, l'accentuation et la langue. The enrichment method according to one of claims 6 to 9, wherein the textual enrichment data (d ^) comprises at least one configuration parameter of the conversion of said textual enrichment data (d ^) into data. Enrichment audio (d sup ) among the reading speed, the voice type, the intonation of the phrasing, the accentuation and the language.
11. Procédé d'enrichissement selon l'une quelconque des revendications 1 à 10, dans lequel le flux audiovisuel comprend, dans le premier flux élémentaire de données, des données textuelles d'enrichissement et au moins une estampille temporelle conformément à laquelle les données audio d'enrichissement sont à synchroniser avec les données audio initiales, 11. An enrichment method according to any one of claims 1 to 10, wherein the audiovisual stream comprises, in the first elementary stream of data, textual enrichment data and at least one time stamp according to which the audio data of enrichment are to be synchronized with the initial audio data,
le premier flux élémentaire de données étant multiplexé avec le deuxième flux élémentaire de données. the first elementary data stream being multiplexed with the second elementary data stream.
12. Dispositif d'enrichissement (1) du contenu audio d'un flux audiovisuel (F), comprenant : une unité de démultiplexage (10) adaptée pour obtenir au moins un premier flux élémentaire de données (F^) comprenant des données d'enrichissement textuelles (d^) et un deuxième flux élémentaire de données (Faudio) comprenant des données audio initiales (daudio) à partir du flux audiovisuel (F) ; 12. Device for enriching (1) the audio content of an audiovisual stream (F), comprising: a demultiplexing unit (10) adapted to obtain at least a first elementary data stream (F ^) comprising data of textual enrichment (d ^) and a second elementary data stream (F audio ) comprising initial audio data (d audio ) to from the audiovisual stream (F);
une unité de décodage (20) configurée pour convertir les données textuelles d'enrichissement (d^) extraites du premier flux élémentaire de données (F^) en données audio d'enrichissement (dsup); et a decoding unit (20) configured to convert the enrichment textual data (d ^) extracted from the first elementary data stream (F ^) to enrichment audio data (d sup ); and
une unité de mixage audio (30) configurée pour mixer les données audio d'enrichissement an audio mixing unit (30) configured to mix the enrichment audio data
(dsup) avec les données audio initiales (daudio) extraites du deuxième flux élémentaire de données (Faudio) afin d'obtenir des données audio enrichies (d'audi0). (d sup ) with the initial audio data (d audio ) extracted from the second elementary data stream (F a u d i o ) to obtain enriched audio data (of aud i 0 ).
13. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la revendication 12, dans lequel l'unité de décodage (20) comprend une unité de synthèse vocale (22) configurée pour synthétiser vocalement les données audio d'enrichissement (dsup) à partir des données textuelles d'enrichissement (d^) extraites du premier flux élémentaire de données (F^) et une unité de synchronisation (23) configurée pour synchroniser les données audio d'enrichissement (dsup) avec les données audio initiales (daudio) ) extraites du deuxième flux élémentaire de données (Faudio) avant de les fournir à l'unité de mixage audio (30). An audio stream enhancement device of an audiovisual stream according to claim 12, wherein the decoding unit (20) comprises a speech synthesis unit (22) configured to vocally synthesize the audio enrichment data (d). sup ) from the enrichment textual data (d ^) extracted from the first elementary data stream (F ^) and a synchronization unit (23) configured to synchronize the enrichment audio data (d sup ) with the audio data initials (d audio )) extracted from the second elementary data stream (F audio ) before supplying them to the audio mixing unit (30).
14. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon la revendication 12 ou 13, dans lequel l'unité de démultiplexage (10) est adaptée en outre pour obtenir un troisième flux élémentaire de données (Fvideo) comprenant des données vidéo (dvideo) à partir du flux audiovisuel (F), dans lequel l'unité de décodage (20) comprend une unité de décodage audio (25), configurée pour extraire les données audio initiales (daudio) du deuxième flux élémentaire de données (Faudio) afin de les fournir à l'unité de mixage audio (30), et une unité de décodage video (27) configurée pour extraire les données vidéo (dvideo) du troisième flux élémentaire de données (Fvideo) afin de les fournir en sortie du dispositif d'enrichissement. 14. A device for enriching the audio content of an audiovisual stream according to claim 12 or 13, wherein the demultiplexing unit (10) is further adapted to obtain a third elementary data stream (F video ) comprising data video (d video ) from the audiovisual stream (F), wherein the decoding unit (20) comprises an audio decoding unit (25), configured to extract the initial audio data (d audio ) from the second elementary stream of data (F audio ) for supplying them to the audio mixing unit (30), and a video decoding unit (27) configured to extract the video data (d video ) from the third elementary data stream (F v i deo ) to provide them at the output of the enrichment device.
15. Dispositif d'enrichissement du contenu audio d'un flux audiovisuel selon l'une des revendications 12 à 14, dans lequel le flux audiovisuel (F) est transmis selon la norme MPEG2-TS, dans lequel le dispositif d'enrichissement comprend des moyens de mise en œuvre des étapes du procédé d'enrichissement de contenu audio selon l'une des revendications 4 à 10. 15. Device for enriching the audio content of an audiovisual stream according to one of claims 12 to 14, wherein the audiovisual stream (F) is transmitted according to the MPEG2-TS standard, in which the enrichment device comprises means for implementing the steps of the audio content enrichment method according to one of claims 4 to 10.
16. Signal, véhiculant un flux audiovisuel, destiné à être transmis à une unité de décodage de flux audiovisuel, ledit signal comprenant 16. Signal, conveying an audiovisual stream, intended to be transmitted to an audiovisual stream decoding unit, said signal comprising
- un premier flux élémentaire de données (F^) comprenant des données textuelles d'enrichissement (d^);  a first elementary data stream (F 1) comprising textual enrichment data (d 1);
- un deuxième flux élémentaire de données (Faudio) comprenant des données audio initialesa second elementary data stream ( audio F) comprising initial audio data
(daudio) du flux audiovisuel, (d audio ) of the audiovisual stream,
les données textuelles d'enrichissement (dM) étant destinées à être converties par l'unité de décodage en données audio d'enrichissement (dsup) adaptées à être mixées avec les données audio initiales (daudio). the textual enrichment data (d M ) being intended to be converted by the unit of decoding of audio enrichment data (d sup ) adapted to be mixed with the initial audio data (d audio ).
17. Signal selon la revendication 16, le premier flux élémentaire de données (F^) comprend au moins une estampille temporelle conformément à laquelle les données audio d'enrichissement sont à synchroniser avec les données audio initiales lors du mixage des données audio d'enrichissement avec les données audio initiales. The signal of claim 16, the first elementary data stream (F 1) comprises at least one time stamp according to which the audio enrichment data is to be synchronized with the initial audio data during the mixing of the audio enrichment data. with the initial audio data.
18. Signal selon la revendication 16 ou 17, les données textuelles d'enrichissement (d^) sont insérées (101) dans le premier flux élémentaire (F^) conformément à une fonctionnalité télétexte définie dans une norme de codage et/ou de transport de flux audiovisuel. Signal according to claim 16 or 17, the textual enrichment data (d ^) is inserted (101) in the first elementary stream (F ^) according to a teletext feature defined in a coding and / or transport standard. audiovisual stream.
19. Signal selon la revendication 16 ou 18, comprenant des données descriptives spécifiquement associées à l'enrichissement de contenu audio, ces données descriptives étant insérées dans un champ de données spécifique d'au moins un paquet de flux élémentaire (ΡΜ(ί)) appartenant au premier flux élémentaire (F^) afin d'indiquer que les données textuelles d'enrichissement sont utilisées seulement dans le cadre de l'enrichissement de contenu audio. The signal according to claim 16 or 18, comprising descriptive data specifically associated with the enhancement of audio content, said descriptive data being inserted into a specific data field of at least one elementary stream packet (Ρ Μ (ί) ) belonging to the first elementary stream (F ^) to indicate that the textual enrichment data are used only in the context of the enrichment of audio content.
PCT/FR2011/052967 2010-12-16 2011-12-13 Enrichment of the audio content of an audiovisual program by means of speech synthesis WO2012080651A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1060657A FR2969361A1 (en) 2010-12-16 2010-12-16 ENRICHMENT OF THE AUDIO CONTENT OF AN AUDIOVISUAL PROGRAM BY VOICE SYNTHESIS
FR1060657 2010-12-16

Publications (1)

Publication Number Publication Date
WO2012080651A1 true WO2012080651A1 (en) 2012-06-21

Family

ID=44168803

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2011/052967 WO2012080651A1 (en) 2010-12-16 2011-12-13 Enrichment of the audio content of an audiovisual program by means of speech synthesis

Country Status (2)

Country Link
FR (1) FR2969361A1 (en)
WO (1) WO2012080651A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5900908A (en) * 1995-03-02 1999-05-04 National Captioning Insitute, Inc. System and method for providing described television services
US5970459A (en) * 1996-12-13 1999-10-19 Electronics And Telecommunications Research Institute System for synchronization between moving picture and a text-to-speech converter
US20100141834A1 (en) * 2008-12-08 2010-06-10 Cuttner Craig Davis Method and process for text-based assistive program descriptions for television

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5900908A (en) * 1995-03-02 1999-05-04 National Captioning Insitute, Inc. System and method for providing described television services
US5970459A (en) * 1996-12-13 1999-10-19 Electronics And Telecommunications Research Institute System for synchronization between moving picture and a text-to-speech converter
US20100141834A1 (en) * 2008-12-08 2010-06-10 Cuttner Craig Davis Method and process for text-based assistive program descriptions for television

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALESSANDRO CALIA: "La synthèse de la voix", 16 July 2002 (2002-07-16), XP055002538, Retrieved from the Internet <URL:http://www.iict.ch/Tcom/Presentations/Parole/Synthese.pdf> [retrieved on 20110711] *
ANONYMOUS: "Making sure television is accessible to older people and people with disabilities", 21 April 2009 (2009-04-21), XP055002532, Retrieved from the Internet <URL:http://www.tvaccess.ie> [retrieved on 20110711] *
PETER OLAF LOOMS ED - CONSTANTINE STEPHANIDIS: "E-Inclusiveness and Digital Television in Europe â A Holistic Model", 19 July 2009, UNIVERSAL ACCESS IN HUMAN-COMPUTER INTERACTION. ADDRESSING DIVERSITY, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 550 - 558, ISBN: 978-3-642-02706-2, XP019122719 *

Also Published As

Publication number Publication date
FR2969361A1 (en) 2012-06-22

Similar Documents

Publication Publication Date Title
JP6681986B2 (en) Coded next generation audio data selection for transport
WO2019205872A1 (en) Video stream processing method and apparatus, computer device and storage medium
US20130219444A1 (en) Receiving apparatus and subtitle processing method
EP3381196B1 (en) Method for synchronising an alternative audio stream
EP2811749A1 (en) Synchronisation of multimedia content on a second screen
CN108111872B (en) Audio live broadcasting system
KR20020013664A (en) An Implementation of the Internet Caption Broadcasting Server and Client for the Hearing Impairment
FR2832580A1 (en) BROADCAST PROGRAM SIGNAL WITH ORDER, ORDER RECORDING AND READING SYSTEMS, RELATED PRODUCTION AND BROADCAST CHAIN
EP2232881B1 (en) Video data decoder and method for decoding video data
FR3025925A1 (en) METHOD FOR CONTROLLING PRESENTATION MODES OF SUBTITLES
US8490131B2 (en) Automatic capture of data for acquisition of metadata
EP1537747B1 (en) Audiovisual program synchronization system and method
FR2817696A1 (en) METHOD FOR REUSING CONTENT DATA FOR DIGITAL BROADCASTING AND ITS SYSTEM
FR2850821A1 (en) Audio signal e.g. television signal, sub-titling system for e.g. deaf and dumb people, has combining unit combining delayed audio signal and subtitling signal into subtitled audio signal applied to receiver equipment
WO2012080651A1 (en) Enrichment of the audio content of an audiovisual program by means of speech synthesis
FR3025926A1 (en) METHOD FOR CONTROLLING THE DISPLAY SPEED OF SUBTITLES
KR20090032702A (en) User apparatus and method and producing apparatus and method for providing customized contents based on network
Galvez Closed captioning and subtitling for social media
de Oliveira et al. Digital TV based sign language avatar
JP2008294722A (en) Motion picture reproducing apparatus and motion picture reproducing method
WO2023187082A1 (en) Method for managing the synchronisation of a soundtrack with a video
WO2019011837A2 (en) Method for the combined broadcasting of a television programme and an additional multimedia content
US11665392B2 (en) Methods and systems for selective playback and attenuation of audio based on user preference
FR3004052A1 (en) METHOD AND DEVICE FOR TRANSMITTING VIDEO CONTENT, METHOD AND DEVICE FOR RESTITUTING VIDEO CONTENT, VIDEO FLOW AND CORRESPONDING COMPUTER PROGRAM.
FR3137520A1 (en) Method for dynamically generating a textual transcription of a continuously broadcast audio stream.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11811103

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11811103

Country of ref document: EP

Kind code of ref document: A1