WO2004079719A1 - Device for indexing a continuous audio signal of undetermined length - Google Patents

Device for indexing a continuous audio signal of undetermined length Download PDF

Info

Publication number
WO2004079719A1
WO2004079719A1 PCT/FR2004/000152 FR2004000152W WO2004079719A1 WO 2004079719 A1 WO2004079719 A1 WO 2004079719A1 FR 2004000152 W FR2004000152 W FR 2004000152W WO 2004079719 A1 WO2004079719 A1 WO 2004079719A1
Authority
WO
WIPO (PCT)
Prior art keywords
context
segment
signal
text
voice
Prior art date
Application number
PCT/FR2004/000152
Other languages
French (fr)
Inventor
Ghislain Moncomble
Thierry Milin
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2004079719A1 publication Critical patent/WO2004079719A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Definitions

  • the present invention relates to a device for indexing a continuous audio signal of indefinite duration.
  • the context of a multimedia document is to define, by analyzing the multimedia document, the subject and the meaning of the multimedia document in order to improve transcriptions of the multimedia document into a text or audio document.
  • a general context of the multimedia document is also considered in order to minimize the risks of misinterpretation of the suite of phonemes. For example if the general context of the multimedia document is "the days of the week", the sequence of phonemes "[s] [a] [m] [d] [i]" will be interpreted by a speech recognition engine with context like the word “Saturday” and not the expression “ça me dire” ..
  • a context is made up of a list of key words or expressions and their equivalents. Each key word or expression characterizes a context that can be addressed in any multimedia document. Certain contexts are combinations of contexts, or in the case of current or regional contexts, combinations of contexts specified by a proper name, such as for example: Brittany Weather, Afghanistan War, etc.
  • US Patent 6,434,520 discloses a system for indexing segments of a multimedia document, particularly audio, in a database according to information characterizing the document, such as the identity of the speaker and the sound environment of the document, but also based on the context of the speaker's words.
  • US Patent 6,212,494 describes a process based on linguistic analyzes of an online technical document in order to extract and catalog the essential information of the document to constitute for example a glossary, an index or an aid to understanding the document. This process is also based on a morphological, lexical and syntactic analysis of the document but also on the context analysis at the level of each sentence.
  • the American patent application relates to a method for automatic translation of text sentences which is also based on identifying the context of the sentences by analyzing and browsing the text step by step, and taking into account the analyzes to continuously improve the quality of the translation.
  • the context determination technique as defined above in multimedia document transcriptions is not adaptable as it is to a continuous audio signal of indefinite duration. Indeed, in the prior techniques cited above, a context is determined on a known syntactic element, for example a sentence. However, when a context is determined for a continuous audio signal of indefinite duration, it is impossible to predict the end of the sentence when it does not yet exist. Unlike the processing of audio signals of fixed duration constituting audio documents of limited duration, a strong time scrolling constraint exists in the case of the processing of continuous signals of indefinite duration. The technique for determining context for term audio signal is therefore not applicable to audio indeterminate signals.
  • the objective of the present invention is to determine the contexts of a continuous audio signal of indefinite duration and thus to remedy the time scrolling constraint in order to implement processing techniques specific to audio signals of determined duration on signals.
  • audio indefinite More specifically, the invention relates to a device for indexing a continuous audio signal of indefinite duration, comprising means for filtering the continuous audio signal into a voice signal and a noisy signal, means for analyzing the voice signal in order to produce voice parameters , and a voice recognition means converting the voice signal into a text signal.
  • the means set out above of the indexing device according to the invention constitute a cascade of known individual modules used for the voice processing of an audio signal.
  • the indexing device of the invention comprises a means for segmenting the continuous text signal into periodic temporal text segments, a first means for determining a context of the current text segment as a function of the averages of the voice parameters over the duration of the current segment and of the respective text segment, and a second means for determining a general context which is deduced from similar contexts of consecutive preceding segments and of which an upper time bound is confused with a time bound upper of the current text segment when the contexts of the current text segment and the text segment preceding the current text segment are similar, and is kept confused with an upper time bound of the text segment preceding the current text segment when the context of the current text segment does not is not similar to the context of the segme nt previous text.
  • the voice recognition means can produce a text signal as a function of the contexts determined by the first and second means.
  • FIG. 1 is a schematic block diagram of an indexing device according to a first embodiment of the invention
  • - Figure 2 is a schematic block diagram of an indexing device according to a second embodiment of the invention
  • FIG. 3 is an algorithm of steps executed by the indexing device according to the first embodiment for determining a context from a current segment and a previous segment in a continuous audio signal of indefinite duration.
  • An audio signal is extracted from a multi-component signal such as audio / video or multimedia signals, or directly from an audio-only signal.
  • Some sources capable of providing audio signals with or without filtering are, for example, television receivers, radio receivers or personal terminals of the computer or digital assistant type or mobile telephone or radiotelephone terminal.
  • the invention can be implemented both in a terminal and / or in a server depending on the characteristics of the application which implements the invention.
  • an indexing device comprises a filter 1, a voice analyzer 2, a voice recognition module 3, a segmentation unit 4, a segment context determination unit 5 and a general context determination unit 6.
  • the filter 1 receives as input a continuous audio signal SA of duration indefinite. It will be assumed that the audio signal SA is digital; if o; the audio signal received is analog and converted by an analog-digital converter included in filter 1.
  • the filter 1 filters by spectral subtraction or adaptive filtering the audio signal SA in order to dissociate it into a signal comprising only voice and called signal SV and a signal comprising background noises and called "noisy signal” or residual signal SB.
  • the filter 1 is for example based on a linear predictive analysis LPC (Linear Predictive Coding) and isolates different acoustic components in an audio signal such as voice, the voice noise and pure music.
  • LPC Linear Predictive Coding
  • the noisy signal SB which is likely to disturb the vocal analysis and. the following voice recognition is not processed in the indexing device according to the first embodiment shown in FIG. 1.
  • the voice signal SV is then processed in parallel by the voice analyzer 2 and the voice recognition module 3.
  • the vocal analyzer 2 analyzes the vocal signal SV in order to continuously determine a list of PVS parameters characterizing the vocal signal SV, called "list of vocal parameters".
  • the list of voice parameters is not fixed but includes, among other things, acoustic and particularly prosodic parameters such as the vibration frequency, intensity, flow, timbre and also other parameters such as the relative age of the speaker.
  • the voice signal SV is submitted to the voice recognition module 3.
  • the language of the audio signal is considered to be known.
  • the voice recognition module 3 transforms the voice signal SV into a text signal ST.
  • module 3 considers the results of a context study carried out beforehand in order to refine the recognition and transcription of the voice signal.
  • the context is translated into syntactic elements, that is to say key words and expressions, with high probabilities of being included in a portion of the voice signal.
  • key words and expressions For example, the context of a relatively periodic or frequent advertising or news spot in an audio signal emitted by a sound broadcasting station is predicted by knowing the detailed program of this station, or by deducing it from advertising spots or previous news.
  • Various contexts in the form of key words and expressions, as defined above constitute pre-memorized contexts, or deduced from text segments preceding the current segment and / or from a context study, and managed in a database.
  • contextual data 45 linked to module 3 and to units 5 and 6.
  • the contexts in base 45 are gradually improved during the processing of the audio signal SA to facilitate voice recognition in the voice recognition module 3 and the determination of segment context textual current in unit 5.
  • the contexts in the base 45 are also completed and refined by automatic consultation of external databases in function recently detected contexts.
  • Module 3 can be based on Natural Language Understanding NLU software.
  • the segmentation unit 4 segments the text signal ST into temporal and periodic text segments ..., S n , ... as the audio signal SA is received in a buffer memory.
  • the segmentation unit 4 further comprises a buffer memory continuously storing the audio signal SA for a duration greater than a predetermined duration DS of audio signal segments.
  • the capacity of the buffer memory is such that it records a maximum of a portion of the audio signal SA having a duration at least ten times approximately greater than that DS of the segments.
  • the predetermined duration DS of the text signal segments depends on the ratio between the indexing quality of the device, that is to say the relevance of the indexing as a function of the meaning of the words contained in the text signal, and the time indexing of the device. For example, a segment duration DS of 20 seconds compared to a segment duration of 1 minute increases the frequency of indexing of the device to the detriment of the quality of indexing. A minimum duration of 15 seconds is typically sufficient for the device to ensure a minimum quality.
  • the segmentation is not based on a temporal characteristic but depends on a syntactic element such as a word, or a group of words or a sentence.
  • the unit 5 determines one or more contexts CS n of the current text segment S n as a function of the average PVS n of each voice parameter PVS on the current text segment and the content of the current text segment S n .
  • contexts established and stored previously also serve for determining the context in unit 5 and contribute to increasing the relevance of new segment contexts which will in turn participate in the determination of contexts for next segments.
  • an initial general context is determined initially before any indexing of the audio signal SA from parameters external to the indexing device and linked inter alia to the source of the audio signal such as radio receiver, television receiver, telephone terminal or radiotelephone, or telephone conversation recorder.
  • the audio signal SA to be processed is that received by a radio or television receiver, program grids or information thereon as well as any information capable of informing the context of the first text segments enrich the contextual database 45.
  • This general context is based by the unit 5 on the textual context of a determined number of textual segment preceding the current textual segment S n when the context of the immediately preceding segment is not determined.
  • the general context determination unit 6 compares the context CS n of the current text segment S n to the context CS n _ ⁇ of the previous text segment S n - ⁇ in order to determine time limits of a current general context CG m .
  • the general context CG m compared to a segment context remains unchanged during one or more consecutive text segments whose contexts are similar and jointly define the general context.
  • the set of consecutive text segments defining the general context CG m is limited by time limits respectively confused with the lower bound, also called the anterior bound, of the first processed text segment of the set and the upper bound BS m , also called the bound posterior, of the last textual segment treated of the whole.
  • periodic portions of the voice signal SV having a duration greater than and proportional to the duration DS of the periodic text segments S n are processed K times by the voice analyzer 2, the voice recognition module 3, the segment context determination unit 5 and the general context determination unit 6 in order to refine the relevance of the contexts of the portions. For example, passing a portion of the voice signal SV two to K times through means 2 to 6 refines the relevance of the contexts of this portion.
  • the number K of processing cycles of a portion of audio signal depends on the time constraints, on the quality of each processing in means 2 to 6 and on the memory capacity. buffer in the segmentation unit 4.
  • the unit 5 determines some contexts of the current text segment S n in order to further segment the text signal ST into different general contexts in the unit 6, in order to juxtapose several general contexts on at minus one segment textual. Thus intervals of different general contexts that do not have a priori lower and upper time limits combined are juxtaposed by the unit 6 over at least one interval of a text segment, which increases the accuracy of the general information relating to the audio signal. .
  • the indexing device also comprises an audio comparator 7.
  • the audio comparator 7 is in relation to an audio database 71 in which pieces of audio data such as music are stored. , songs, advertising jingles, news flashes and sound effects. More generally, the database 71 has previously recorded any piece of audio data preferably qualified by audio parameters PASp and contexts CAp whose time limits are staggered with respect to a fixed mark of audio data, such as the beginning of a song or a jingle.
  • the database 71 thus contains pieces of typed audio data which are used to interrupt the continuous audio signal SA with respect to a general context, as will be seen below with regard to "context jump".
  • the audio comparator 7 comprises a buffer memory and a segmentation unit.
  • the comparator compares a sample of the audio signal SA with samples of audio pieces contained in the audio database 71.
  • the substantially identical samples allow the comparator to determine portions of the audio signal SA corresponding to complete pieces or parts of audio tracks contained in the database 71.
  • the parameters PASp and the context CA p of the identified portion of the audio signal SA are applied to unit 5 over the entire duration of the determined portion, replacing the averages PVS n of the voice parameters on the current segment and of the content of the segment textual S n .
  • the textual segments S n of the textual signal ST are thus qualified respectively by vocal parameters PASp and audio contexts CAp read in the base 71, which inhibits a processing of these segments S n by the vocal analyzer 2 and the unit of voice recognition 3, as indicated by link 72.
  • the audio comparator 7 also participates in improving the quality of context determination since the parameters PASp and the contexts CAp associated with the audio data and contained in the audio database 71 are determined both manually and therefore very precisely, as well as automatically .
  • the noisy signal SB comprising the residual non-vocal part of the audio signal SA produced by the filter 1 is applied by the filter 1 to the audio comparator 7.
  • the comparator compares portions of the signal noise produced in order to try to qualify the noise signal SB by parameters PASp and contexts CAp coming from the audio database 71 and thus to improve the determination of context in the unit and to inform the contextual base 45 for new contexts.
  • the machines hosting the management means managing the audio database 71 can be used.
  • the management means is associated with the audio comparator 7 in the indexing device.
  • a known language determination unit 8 is inserted between the filter 1 and the voice recognition module 3 in order to determine the language of the voice signal SV if this is not previously known. For multi-language information, for example, the language is recognized continuously.
  • FIG. 3 we now refer to FIG. 3 to describe the main steps E1 to E82 executed by the indexing device to determine the contexts of an indeterminate continuous audio signal SA in the case of the first embodiment shown in FIG. 1.
  • the segment S n is filtered by the filter 1 in step El in order to constitute a voice signal SV composed solely of the voice part of the signal SA without any background noise.
  • the voice signal SV is then simultaneously analyzed in the analyzer 2 in step E2 and processed by the voice recognition module 3 in step E3.
  • the analyzer 2 produces voice parameters PVS continuously of the audio signal SA, and following the processing by voice recognition in step E3, the module 3 produces a text signal ST deduced from the voice signal SV.
  • the unit stores the text signal ST in the buffer memory, possibly after digital transformation.
  • the time that digital samples of the ST text signal remain in the buffer depends on the duration predetermined DS of segments S n , and is at least equal to the duration of segment DS.
  • the temporal and periodic segmentation of the text signal ST occurs in the fifth step E5.
  • the text signal ST is segmented by the unit 4 into consecutive text segments S n of duration DS.
  • the processing of a n th current segment S n is considered, although each segment of the text signal ST is subjected to the same following steps as and when the audio signal SA is received by the indexing device.
  • the unit 5 determines a context of segment CS n of the voice segment S n in step E6.
  • the time limits of the context CS n of the segment S n are known since they are confused with the terminals BS n of the time segment S n -
  • the context CS n and the voice parameters PVS n are stored in step E7 in the contextual base 45.
  • this storage is temporary, the time for saving in memory depending on the duration of the text segments S ⁇ and on the time of processing of a segment by the context determination units 5 and 6.
  • step E6 The expressions and keywords characterizing a context are determined in step E6 by different methods of analysis, such as recovering the subjects of a sentence after deleting the propositions, adjectives or other elements. Alternatively, all existing methods of determining context alone or in combination are used in the present invention.
  • step E81 deduces that the upper bound BS n - ⁇ of the previous segment S n - ⁇ is equal to the upper bound BCGm of the general current context CG m + ⁇ whose last textual segment is the segment S n - ⁇ .
  • the lower limit of the current segment S n then defines the lower limit of the general current context according to BCG m- ⁇ -i relating to the segment S n and possibly to the segments according to the segment S n .
  • the contexts CS n and CS n - ⁇ are similar, that is to say have a number of identical or synonymous key words and expressions greater than a predetermined threshold, for example equal to 2 or 3, the upper bound BCG m of the general current context CG m is momentarily merged with the upper bound BS n of the current segment S n in step E82.
  • the segment S n can be the last textual segment relating to the general context CGm . if later the contexts of the textual segments S n and S n + i are not similar.
  • the continuous audio signal SA is indexed by successive general contexts ..., BCG m , ... which each relate to one or more consecutive textual segments indexed.
  • the signal SA is indexed subject A to the 8 minute l ⁇ me from a reference start time segmentation in the unit 4, and a subject B to 6 -th to the 12 th minute , then subject C for 1 minute, then subject B again, etc. for a DS segment duration of 30 seconds for example.
  • Topics A, B and C are for example news, a section on cinema and a set of advertising inserts.
  • the context determination units 5 and 6 control the writing of the context of the last temporal text segment S n of the subject B preceding the subject C as well as the general context of the subject B when the comparator 7 detects all of the consecutive samples in the audio signal SA relating to the subject C, by comparison with the samples of audio data in the audio database 71. At least the unit 6 recovers the general context of the segment preceding said detected set of the subject C following the last segment of subject C thus still having the same general context as the set detected from the beginning of subject C. This retrieval prevents the indexing device again determining at least one general context relative to the first segments of subject B according to the subject C, which general context is in this case the general context preceding subject C.
  • the time bounds deduced for the general context CG m are stored in the contextual base 45.
  • Second contexts and their parameters contained in the contextual database 45 are linked to the general context when the general context has common parameters with the parameters of the second contexts.
  • the context CG m defined by a few key words is refined by its reconciliation with other contexts contained in the database contextual 45.
  • the contextual database is established beforehand and contains a list of referenced subjects and associated keywords, as well as other parameters qualifying a context.
  • the second contexts are stored in a second contextual database shared between indexing devices according to the invention.

Abstract

The invention relates to a device which determines the contexts of an audio signal (SA). The inventive device comprises a filter (1) which filters the audio signal into a voice signal (SV) and a noisy signal, an analyser (2) which analyses the voice signal in order to produce voice parameters, and a voice-recognition module (3) which converts the voice signal into a text signal (ST). The aforementioned text signal is divided into periodic time text segments (Sn). According to the invention, one unit (5) determines a context (CSn) of the current segment according to the voice parameters and the text segment. Another unit (6) determines an upper general-context time boundary which merges with an upper time boundary of the current segment when the contexts of the current segment and the preceding segment are similar and which remains merged with an upper time boundary of the preceding segment when the contexts are not similar.

Description

Dispositif pour indexer un signal audio continu de durée indéterminée Device for indexing an indefinite continuous audio signal
La présente invention concerne un dispositif pour indexer un signal audio continu de durée indéterminée .The present invention relates to a device for indexing a continuous audio signal of indefinite duration.
Le développement des télécommunications a conduit à l'explosion de la quantité d'informations à traiter et en parallèle, au besoin de classification automatique de l'information. Alors que des techniques existent depuis longtemps pour traiter de l'information textuelle, les techniques de traitement de l'information audio sont actuellement en plein développement. La reconnaissance vocale ou encore la traduction automatique s'appuie sur des techniques résultant en partie d'études linguistiques. Celles-ci recourent notamment à des dictionnaires de vocabulaire, à l'application de règles grammaticales et de la conjugaison des verbes, et plus récemment à la définition de contextes.The development of telecommunications has led to the explosion of the quantity of information to be processed and in parallel, the need for automatic classification of information. While techniques have existed for a long time for processing textual information, techniques for processing audio information are currently in full development. Speech recognition or automatic translation is based on techniques resulting in part from linguistic studies. These notably use vocabulary dictionaries, the application of grammatical rules and the conjugation of verbs, and more recently the definition of contexts.
Le contexte d'un document multimédia est de définir, en analysant le document multimédia, le sujet et le sens du document multimédia afin d'améliorer des transcriptions du document multimédia en document textuel ou audio. Au lieu de se contenter d'appliquer des correspondances simples par exemple entre une suite de phonèmes et sa représentation textuelle, un contexte général du document multimédia est également considéré afin de minimiser les risques de mauvaise interprétation de la suite de phonèmes. Par exemple si le contexte général du document multimédia est "les jours de la semaine", la suite de phonèmes "[s] [a] [m] [d] [i]" sera interprété par un moteur de reconnaissance vocale à contexte comme le mot "samedi" et non pas l'expression "ça me dis"..The context of a multimedia document is to define, by analyzing the multimedia document, the subject and the meaning of the multimedia document in order to improve transcriptions of the multimedia document into a text or audio document. Instead of simply applying simple correspondences for example between a suite of phonemes and its textual representation, a general context of the multimedia document is also considered in order to minimize the risks of misinterpretation of the suite of phonemes. For example if the general context of the multimedia document is "the days of the week", the sequence of phonemes "[s] [a] [m] [d] [i]" will be interpreted by a speech recognition engine with context like the word "Saturday" and not the expression "ça me dire" ..
Un contexte est constitué par une liste de mots ou expressions clés et de leurs équivalents. Chaque mot ou expression clé caractérise un contexte susceptible d'être abordé dans n'importe quel document multimédia. Certains contextes sont des combinaisons de contextes, ou dans le cas de contextes d'actualités ou régionaux, des combinaisons de contextes précisés par un nom propre, telles que par exemple: Météo Bretagne, Guerre Afghanistan, etc.A context is made up of a list of key words or expressions and their equivalents. Each key word or expression characterizes a context that can be addressed in any multimedia document. Certain contexts are combinations of contexts, or in the case of current or regional contexts, combinations of contexts specified by a proper name, such as for example: Brittany Weather, Afghanistan War, etc.
Le brevet US 6.434.520 divulgue un système pour indexer des segments d'un document multimédia, particulièrement audio, dans une base de données selon des informations caractérisant le document, comme l'identité du speaker et l'environnement sonore du document, mais également en se basant sur le contexte des paroles du speaker. Le brevet US 6.212.494 décrit un procédé s 'appuyant sur des analyses linguistiques d'un document technique en ligne afin d'extraire et de cataloguer l'essentiel des informations du document pour constituer par exemple un glossaire, un index ou une aide à la compréhension du document. Ce procédé repose en outre sur une analyse morphologique, lexicale et syntaxique du document mais aussi sur l'analyse du contexte au niveau de chaque phrase.US Patent 6,434,520 discloses a system for indexing segments of a multimedia document, particularly audio, in a database according to information characterizing the document, such as the identity of the speaker and the sound environment of the document, but also based on the context of the speaker's words. US Patent 6,212,494 describes a process based on linguistic analyzes of an online technical document in order to extract and catalog the essential information of the document to constitute for example a glossary, an index or an aid to understanding the document. This process is also based on a morphological, lexical and syntactic analysis of the document but also on the context analysis at the level of each sentence.
La demande de brevet américain, dont le numéro de publication est US 2002/0091509 Al, concerne un procédé de traduction automatique de phrases de texte reposant en outre sur l'identification du contexte des phrases en analysant et en parcourant pas à pas le texte, et en tenant compte des analyses précédentes afin d'améliorer continuellement la qualité de la traduction.The American patent application, the publication number of which is US 2002/0091509 A1, relates to a method for automatic translation of text sentences which is also based on identifying the context of the sentences by analyzing and browsing the text step by step, and taking into account the analyzes to continuously improve the quality of the translation.
Dans la suite de la description, on se réfère à des signaux audio extraits de documents multimédias.In the following description, reference is made to audio signals extracted from multimedia documents.
La technique de détermination de contexte telle que défini ci-dessus dans des transcriptions de document multimédia n'est pas adaptable en l'état à un signal audio continu de durée indéterminée. En effet, dans les techniques antérieures citées ci- dessus, un contexte est déterminé sur un élément syntaxique connu, par exemple une phrase. Or lorsqu'un contexte est déterminé pour un signal audio continu de durée indéterminée, il est impossible de prédire la fin de la phrase lorsque celle-ci n'existe pas encore. Contrairement au traitement de signaux audio de durée déterminée constituant des documents audio de durées limitées, une contrainte de défilement temporelle forte existe dans le cas du traitement des signaux continus de durée indéterminée. La technique de détermination de contexte pour signal audio de durée déterminée' ne s'applique donc pas aux signaux audio de durée indéterminée.The context determination technique as defined above in multimedia document transcriptions is not adaptable as it is to a continuous audio signal of indefinite duration. Indeed, in the prior techniques cited above, a context is determined on a known syntactic element, for example a sentence. However, when a context is determined for a continuous audio signal of indefinite duration, it is impossible to predict the end of the sentence when it does not yet exist. Unlike the processing of audio signals of fixed duration constituting audio documents of limited duration, a strong time scrolling constraint exists in the case of the processing of continuous signals of indefinite duration. The technique for determining context for term audio signal is therefore not applicable to audio indeterminate signals.
L'objectif de la présente invention est de déterminer les contextes d'un signal audio continu de durée indéterminée et ainsi de remédier à la contrainte de défilement temporelle afin de mettre en oeuvre des techniques de traitement spécifique aux signaux audio à durée déterminé sur des signaux audio à durée indéterminée. Plus précisément, l'invention concerne un dispositif pour indexer un signal audio continu de durée indéterminée, comprenant un moyen pour filtrer le signal audio continu en un signal vocal et un signal bruité, un moyen pour analyser le signal vocal afin de produire des paramètres vocaux, et un moyen de reconnaissance vocale convertissant le signal vocal en un signal textuel.The objective of the present invention is to determine the contexts of a continuous audio signal of indefinite duration and thus to remedy the time scrolling constraint in order to implement processing techniques specific to audio signals of determined duration on signals. audio indefinite. More specifically, the invention relates to a device for indexing a continuous audio signal of indefinite duration, comprising means for filtering the continuous audio signal into a voice signal and a noisy signal, means for analyzing the voice signal in order to produce voice parameters , and a voice recognition means converting the voice signal into a text signal.
Les moyens énoncés ci-dessus du dispositif d'indexation selon l'invention constituent une cascade de modules individuels connus servant au traitement vocal d'un signal audio.The means set out above of the indexing device according to the invention constitute a cascade of known individual modules used for the voice processing of an audio signal.
Pour atteindre l'objectif précité, le dispositif d'indexation de l'invention est caractérisé en ce qu'il comprend un moyen pour segmenter le signal textuel continu en des segments textuels temporels périodiques, un premier moyen pour déterminer un contexte du segment textuel courant en fonction des moyennes des paramètres vocaux sur la durée du segment courant et du segment textuel respectif, et un deuxième moyen pour déterminer un contexte général qui est déduit de contextes similaires de segments précédents consécutifs et dont une borne temporelle supérieure est confondue avec une borne temporelle supérieure du segment textuel courant lorsque les contextes du segment textuel courant et du segment textuel précédant le segment textuel courant sont similaires, et est maintenue confondue avec une borne temporelle supérieure du segment textuel précédant le segment textuel courant lorsque le contexte du segment textuel courant n'est pas similaire au contexte du segment textuel précédent.To achieve the above-mentioned objective, the indexing device of the invention is characterized in that it comprises a means for segmenting the continuous text signal into periodic temporal text segments, a first means for determining a context of the current text segment as a function of the averages of the voice parameters over the duration of the current segment and of the respective text segment, and a second means for determining a general context which is deduced from similar contexts of consecutive preceding segments and of which an upper time bound is confused with a time bound upper of the current text segment when the contexts of the current text segment and the text segment preceding the current text segment are similar, and is kept confused with an upper time bound of the text segment preceding the current text segment when the context of the current text segment does not is not similar to the context of the segme nt previous text.
Le moyen de reconnaissance vocale peut produire un signal textuel en fonction des contextes déterminés par les premier et deuxième moyens. D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention en référence aux dessins annexés correspondants dans lesquels :The voice recognition means can produce a text signal as a function of the contexts determined by the first and second means. Other characteristics and advantages of the present invention will appear more clearly on reading the following description of several preferred embodiments of the invention with reference to the corresponding appended drawings in which:
- la figure 1 est un bloc-diagramme schématique d'un dispositif d'indexation selon une première réalisation de l'invention ; - la figure 2 est un bloc-diagramme schématique d'un dispositif d'indexation selon une deuxième réalisation de l'invention ; et la figure 3 est un algorithme d'étapes exécutées par le dispositif d'indexation selon la première réalisation pour déterminer un contexte à partir d'un segment courant et d'un segment précédent dans un signal audio continu de durée indéterminée.- Figure 1 is a schematic block diagram of an indexing device according to a first embodiment of the invention; - Figure 2 is a schematic block diagram of an indexing device according to a second embodiment of the invention; and FIG. 3 is an algorithm of steps executed by the indexing device according to the first embodiment for determining a context from a current segment and a previous segment in a continuous audio signal of indefinite duration.
L'invention sera décrite ci-après dans le cadre de signaux audio, quelle que soit la provenance de ces signaux audio. Un signal audio est extrait d'un signal à plusieurs composantes comme les signaux audio/vidéo ou multimédia, ou directement d'un signal uniquement audio. Quelques sources susceptibles de fournir des signaux audio avec ou sans filtrage sont par exemple des récepteurs de télévision, récepteurs radiophoniques ou terminaux personnels du type ordinateur ou assistant numérique ou terminal téléphonique ou radiotelephonique mobile. L'invention peut être i plémentée aussi bien dans un terminal et/ou un serveur en fonction des caractéristiques de l'application qui met en oeuvre l'invention.The invention will be described below in the context of audio signals, regardless of the origin of these audio signals. An audio signal is extracted from a multi-component signal such as audio / video or multimedia signals, or directly from an audio-only signal. Some sources capable of providing audio signals with or without filtering are, for example, television receivers, radio receivers or personal terminals of the computer or digital assistant type or mobile telephone or radiotelephone terminal. The invention can be implemented both in a terminal and / or in a server depending on the characteristics of the application which implements the invention.
En référence à la figure 1, un dispositif d'indexation selon l'invention comprend un filtre 1, un analyseur vocal 2, un module de reconnaissance vocale 3, une unité de segmentation 4, une unité de détermination de contexte de segment 5 et une unité de détermination de contexte général 6. Le filtre 1 reçoit en entrée un signal audio continu SA de durée indéterminée. Il sera supposé que le signal audio SA est numérique ; si o ; le signal audio reçu est analogique et converti par un convertisseur analogique-numérique inclus dans le filtre 1.With reference to FIG. 1, an indexing device according to the invention comprises a filter 1, a voice analyzer 2, a voice recognition module 3, a segmentation unit 4, a segment context determination unit 5 and a general context determination unit 6. The filter 1 receives as input a continuous audio signal SA of duration indefinite. It will be assumed that the audio signal SA is digital; if o; the audio signal received is analog and converted by an analog-digital converter included in filter 1.
Le filtre 1 filtre par soustraction spectrale ou filtrage adaptatif le signal audio SA afin de le dissocier en un signal comprenant uniquement de la voix et appelée signal SV et un signal comprenant des bruits de fond et appelé "signal bruité" ou signal résiduel SB. Le filtre 1 est par exemple basé sur 'une analyse prédictive linéaire LPC (Linear Prédictive Coding) et isole différentes composantes acoustiques dans un signal audio comme la voix, le bruit vocal et la musique pure. Le signal bruité SB qui est susceptible de perturber l'analyse vocale et . la reconnaissance vocale suivante n'est pas traité dans le dispositif d'indexation selon la première réalisation montrée à la figure 1. Le signal vocal SV est ensuite traité en parallèle par l'analyseur vocal 2 et le module de reconnaissance vocale 3.The filter 1 filters by spectral subtraction or adaptive filtering the audio signal SA in order to dissociate it into a signal comprising only voice and called signal SV and a signal comprising background noises and called "noisy signal" or residual signal SB. The filter 1 is for example based on a linear predictive analysis LPC (Linear Predictive Coding) and isolates different acoustic components in an audio signal such as voice, the voice noise and pure music. The noisy signal SB which is likely to disturb the vocal analysis and. the following voice recognition is not processed in the indexing device according to the first embodiment shown in FIG. 1. The voice signal SV is then processed in parallel by the voice analyzer 2 and the voice recognition module 3.
L'analyseur vocal 2 analyse le signal vocal SV afin de déterminer en continu une liste de paramètres PVS caractérisant le signal vocal SV, appelée "liste de paramètres vocaux" . La liste de paramètres vocaux n'est pas fixe mais comporte entre autre des paramètres acoustiques et particulièrement prosodiques comme la fréquence de vibration, l'intensité, le débit, le timbre et également d'autres paramètres comme l'âge relatif du locuteur.The vocal analyzer 2 analyzes the vocal signal SV in order to continuously determine a list of PVS parameters characterizing the vocal signal SV, called "list of vocal parameters". The list of voice parameters is not fixed but includes, among other things, acoustic and particularly prosodic parameters such as the vibration frequency, intensity, flow, timbre and also other parameters such as the relative age of the speaker.
En parallèle à l'analyse vocale, le signal vocal SV est soumis au module de reconnaissance vocale 3. Dans la réalisation montrée à la figure 1, la langue du signal audio est considérée comme connue. Le module de reconnaissance vocale 3 transforme le signal vocal SV en un signal textuel ST.In parallel with the voice analysis, the voice signal SV is submitted to the voice recognition module 3. In the embodiment shown in FIG. 1, the language of the audio signal is considered to be known. The voice recognition module 3 transforms the voice signal SV into a text signal ST.
Dans une variante, le module 3 considère les résultats d'une étude de contexte effectuée préalablement afin d'affiner la reconnaissance et la transcription du signal vocal. Le contexte se traduit en des éléments syntaxiques, c'est-à-dire des mots et expressions clés, présentant des probabilités élevées pour être inclus dans une portion du signal vocal . Par exemple, le contexte d'un spot publicitaire ou d'actualités relativement périodique ou fréquent dans un signal audio émis par une station de radiodiffusion sonore est prédit en connaissant le programme détaillé de cette station, ou en le déduisant de spots publicitaires ou d'actualités précédents. Divers contextes sous la forme de mots et expressions clés, comme définis ci-dessus, constituent des contextes pré-mé orisés, ou déduits de segments textuels précédant le segment courant et/ou d'une étude de contexte, et gérés dans une base de données contextuelle 45 liée au module 3 et aux unités 5 et 6. Les contextes dans la base 45 sont améliorés progressivement au cours du traitement du signal audio SA pour faciliter la reconnaissance vocale dans le module de reconnaissance vocale 3 et la détermination de contexte de segment textuel courant dans l'unité 5. Les contextes dans la base 45 sont également complétés et affinés par consultation automatique de base de données externes en fonction des contextes récemment détectés. Le module 3 peut s'appuyer sur un logiciel de compréhension en langage naturel (Natural Language Understanding NLU) .In a variant, module 3 considers the results of a context study carried out beforehand in order to refine the recognition and transcription of the voice signal. The context is translated into syntactic elements, that is to say key words and expressions, with high probabilities of being included in a portion of the voice signal. For example, the context of a relatively periodic or frequent advertising or news spot in an audio signal emitted by a sound broadcasting station is predicted by knowing the detailed program of this station, or by deducing it from advertising spots or previous news. Various contexts in the form of key words and expressions, as defined above, constitute pre-memorized contexts, or deduced from text segments preceding the current segment and / or from a context study, and managed in a database. contextual data 45 linked to module 3 and to units 5 and 6. The contexts in base 45 are gradually improved during the processing of the audio signal SA to facilitate voice recognition in the voice recognition module 3 and the determination of segment context textual current in unit 5. The contexts in the base 45 are also completed and refined by automatic consultation of external databases in function recently detected contexts. Module 3 can be based on Natural Language Understanding NLU software.
L'unité de segmentation 4 segmente le signal textuel ST en segments textuels temporels et périodiques ... , Sn, ... au fur et à mesure de la réception du signal audio SA dans une mémoire tampon. En effet l'unité de segmentation 4 comporte en outre une mémoire tampon mémorisant en continu le signal audio SA pendant une durée supérieure à une durée prédéterminée DS de segments de signal audio. En pratique, la capacité de la mémoire tampon est telle qu'elle enregistre au maximum une portion du signal audio SA ayant une durée au moins dix fois environ supérieure à celle DS des segments. La durée prédéterminée DS des segments de signal textuel dépend du rapport entre la qualité d'indexation du dispositif, c'est-à-dire la pertinence de l'indexation en fonction de la signification des mots contenus dans le signal textuel, et le temps d'indexation du dispositif. Par exemple une durée de segment DS de 20 secondes comparativement à une durée de segment de 1 minute augmente la fréquence d'indexation du dispositif au détriment de la qualité d'indexation. Une durée minimale de 15 secondes est typiquement suffisante au dispositif pour assurer -une qualité minimale.The segmentation unit 4 segments the text signal ST into temporal and periodic text segments ..., S n , ... as the audio signal SA is received in a buffer memory. Indeed, the segmentation unit 4 further comprises a buffer memory continuously storing the audio signal SA for a duration greater than a predetermined duration DS of audio signal segments. In practice, the capacity of the buffer memory is such that it records a maximum of a portion of the audio signal SA having a duration at least ten times approximately greater than that DS of the segments. The predetermined duration DS of the text signal segments depends on the ratio between the indexing quality of the device, that is to say the relevance of the indexing as a function of the meaning of the words contained in the text signal, and the time indexing of the device. For example, a segment duration DS of 20 seconds compared to a segment duration of 1 minute increases the frequency of indexing of the device to the detriment of the quality of indexing. A minimum duration of 15 seconds is typically sufficient for the device to ensure a minimum quality.
Dans une autre réalisation préférée de l'invention la segmentation n'est pas fondée sur une caractéristique temporelle mais dépend d'un élément syntaxique comme un mot, ou un groupe de mots ou une phrase.In another preferred embodiment of the invention, the segmentation is not based on a temporal characteristic but depends on a syntactic element such as a word, or a group of words or a sentence.
L'unité 5 détermine un ou plusieurs contextes CSn du segment textuel courant Sn en fonction de la moyenne PVSn de chaque paramètre vocal PVS sur le segment textuel courant et du contenu du segment textuel courant Sn. Dans une variante préférée, des contextes établis et mémorisés précédemment servent également à la détermination du contexte dans l'unité 5 et contribuent à augmenter la pertinence de nouveaux contextes de segment qui participeront à leur tour à la détermination de contextes de prochains segments .The unit 5 determines one or more contexts CS n of the current text segment S n as a function of the average PVS n of each voice parameter PVS on the current text segment and the content of the current text segment S n . In a preferred variant, contexts established and stored previously also serve for determining the context in unit 5 and contribute to increasing the relevance of new segment contexts which will in turn participate in the determination of contexts for next segments.
Dans une autre variante, un contexte général initial est déterminé initialement avant toute indexation du signal audio SA à partir de paramètres externes au dispositif d'indexation et liés entre autre à la source du signal audio telle que récepteur radiophonique, récepteur de télévision, terminal téléphonique ou radiotelephonique, ou enregistreur de conversations téléphoniques. Lorsque le signal audio SA à traiter est celui reçu par un récepteur radiophonique ou de télévision, des grilles de programme ou des informations sur celles-ci ainsi que toutes informations susceptibles de renseigner le contexte de premiers segments textuels enrichissent la base de données contextuelle 45. Ce contexte général est basé par l'unité 5 sur le contexte textuel d'un nombre déterminé de segment textuel précédant le segment textuel courant Sn lorsque le contexte du segment immédiatement précédent n'est pas déterminé.In another variant, an initial general context is determined initially before any indexing of the audio signal SA from parameters external to the indexing device and linked inter alia to the source of the audio signal such as radio receiver, television receiver, telephone terminal or radiotelephone, or telephone conversation recorder. When the audio signal SA to be processed is that received by a radio or television receiver, program grids or information thereon as well as any information capable of informing the context of the first text segments enrich the contextual database 45. This general context is based by the unit 5 on the textual context of a determined number of textual segment preceding the current textual segment S n when the context of the immediately preceding segment is not determined.
L'unité de détermination de contexte général 6 compare le contexte CSn du segment textuel courant Sn au contexte CSn_ι du segment textuel précédent Sn-ι afin de déterminer des bornes temporelles d'un contexte général courant CGm. Le contexte général CGm comparativement à un contexte de segment demeure inchangé au cours d'un ou plusieurs segments textuels consécutifs dont les contextes sont similaires et définissent en commun le contexte général. L'ensemble des segments textuels consécutifs définissant le contexte général CGm est limité par des bornes temporelles respectivement confondues avec la borne inférieure, dite également borne antérieure, du premier segment textuel traité de l'ensemble et la borne supérieure BSm, dite également borne postérieure, du dernier segment textuel traité de 1 ' ensemble. A des fins d'optimisation de l'indexation du signal audio SA, des portions périodiques du signal vocal SV ayant une durée supérieure et proportionnelle à la durée DS des segments textuels Sn périodiques sont traitées K fois par l'analyseur vocal 2, le module de reconnaissance vocale 3, l'unité de détermination de contexte de segment 5 et l'unité de détermination de contexte général 6 afin d'affiner la pertinence des contextes des portions. Par exemple, un passage d'une portion du signal vocal SV deux à K fois à travers les moyens 2 à 6 affine la pertinence des contextes de cette portion. Le nombre K de cycles de traitement d'une portion de signal audio, comme indiqué schématiquement en 26 dans la figure 1, dépend des contraintes de temps, de la qualité de chaque traitement dans les moyens 2 à 6 et de la capacité de la mémoire tampon dans l'unité de segmentation 4. Plus le dispositif d'indexation doit traiter rapidement le signal audio, plus le nombre K est petit. Egalement à des fins d'optimisation de l'indexation, l'unité 5 détermine quelques contextes du segment textuel courant Sn pour segmenter davantage le signal textuel ST en différents contextes généraux dans l'unité 6, afin de juxtaposer plusieurs contextes généraux sur au moins un segment textuel. Ainsi des intervalles de différents contextes généraux n'ayant pas a priori des bornes temporelles inférieures et supérieures confondues sont juxtaposés par l'unité 6 sur au moins un intervalle d'un segment textuel, ce qui augmente la précision des informations générales relatives au signal audio.The general context determination unit 6 compares the context CS n of the current text segment S n to the context CS n _ι of the previous text segment S n -ι in order to determine time limits of a current general context CG m . The general context CG m compared to a segment context remains unchanged during one or more consecutive text segments whose contexts are similar and jointly define the general context. The set of consecutive text segments defining the general context CG m is limited by time limits respectively confused with the lower bound, also called the anterior bound, of the first processed text segment of the set and the upper bound BS m , also called the bound posterior, of the last textual segment treated of the whole. For the purpose of optimizing the indexing of the audio signal SA, periodic portions of the voice signal SV having a duration greater than and proportional to the duration DS of the periodic text segments S n are processed K times by the voice analyzer 2, the voice recognition module 3, the segment context determination unit 5 and the general context determination unit 6 in order to refine the relevance of the contexts of the portions. For example, passing a portion of the voice signal SV two to K times through means 2 to 6 refines the relevance of the contexts of this portion. The number K of processing cycles of a portion of audio signal, as shown diagrammatically at 26 in FIG. 1, depends on the time constraints, on the quality of each processing in means 2 to 6 and on the memory capacity. buffer in the segmentation unit 4. The faster the indexing device has to process the audio signal, the smaller the number K. Also for indexing optimization purposes, the unit 5 determines some contexts of the current text segment S n in order to further segment the text signal ST into different general contexts in the unit 6, in order to juxtapose several general contexts on at minus one segment textual. Thus intervals of different general contexts that do not have a priori lower and upper time limits combined are juxtaposed by the unit 6 over at least one interval of a text segment, which increases the accuracy of the general information relating to the audio signal. .
Selon une deuxième réalisation préférée montrée à la figure 2, le dispositif d'indexation comprend également un comparateur audio 7. Le comparateur audio 7 est en relation avec une base de données audio 71 dans laquelle sont mémorisées des morceaux de données audio telles que des musiques, des chansons, des jingles publicitaires, des flashs d'information et des bruitages. Plus généralement, la base de données 71 a enregistré préalablement tout morceau de donnée audio de préférence qualifié .par des paramètres audio PASp et des contextes CAp dont les bornes temporelles sont échelonnées par rapport à un repère fixe d'une donnée audio, telle que le début d'une chanson ou d'un jingle. La base de données 71 contient ainsi des morceaux de données audio typés qui sont utilisés pour interrompre le signal audio continu SA relativement à un contexte général, comme on le verra plus loin à propos de "saut de contexte".According to a second preferred embodiment shown in FIG. 2, the indexing device also comprises an audio comparator 7. The audio comparator 7 is in relation to an audio database 71 in which pieces of audio data such as music are stored. , songs, advertising jingles, news flashes and sound effects. More generally, the database 71 has previously recorded any piece of audio data preferably qualified by audio parameters PASp and contexts CAp whose time limits are staggered with respect to a fixed mark of audio data, such as the beginning of a song or a jingle. The database 71 thus contains pieces of typed audio data which are used to interrupt the continuous audio signal SA with respect to a general context, as will be seen below with regard to "context jump".
Le comparateur audio 7 comprend une mémoire tampon et une unité de segmentation. Le comparateur compare un échantillon du signal audio SA à .des échantillons de morceaux audio contenu dans la base de données audio 71. Les échantillons sensiblement identiques permettent au comparateur de déterminer des portions de signal audio SA correspondant à des morceaux complets ou à des parties de morceaux audio contenus dans la base de données 71. Les paramètres PASp et le contexte CAp de la portion identifiée du signal audio SA sont appliqués à l'unité 5 sur toute la durée de la portion déterminée, en remplacement des moyennes PVSn des paramètres vocaux sur le segment courant et du contenu du segment textuel Sn. Les segments textuels Sn du signal textuel ST sont ainsi qualifiés respectivement par des paramètres vocaux PASp et des contextes audio CAp lus dans la base 71, ce qui inhibe un traitement de ces segments Sn par l'analyseur vocal 2 et l'unité de reconnaissance vocale 3, comme indiqué par la liaison 72.The audio comparator 7 comprises a buffer memory and a segmentation unit. The comparator compares a sample of the audio signal SA with samples of audio pieces contained in the audio database 71. The substantially identical samples allow the comparator to determine portions of the audio signal SA corresponding to complete pieces or parts of audio tracks contained in the database 71. The parameters PASp and the context CA p of the identified portion of the audio signal SA are applied to unit 5 over the entire duration of the determined portion, replacing the averages PVS n of the voice parameters on the current segment and of the content of the segment textual S n . The textual segments S n of the textual signal ST are thus qualified respectively by vocal parameters PASp and audio contexts CAp read in the base 71, which inhibits a processing of these segments S n by the vocal analyzer 2 and the unit of voice recognition 3, as indicated by link 72.
Le comparateur audio 7 participe également à l'amélioration de la qualité de détermination des contextes puisque les paramètres PASp et les contextes CAp associés aux données audio et contenus dans la base de données audio 71 sont déterminés aussi bien manuellement et donc très précisément, qu ' automatiquement . Dans un souci d'amélioration de la détermination des contextes, le signal bruité SB comportant la partie non vocale résiduelle du signal audio SA produit par le filtre 1 est appliqué par le filtre 1 au comparateur audio 7. Le comparateur compare alors des portions du signal bruité produites afin de tenter de qualifier le signal bruité SB par des paramètres PASp et des contextes CAp provenant de la base de données audio 71 et ainsi d'améliorer la détermination de contexte dans l'unité et de renseigner la base contextuelle 45 pour de nouveaux contextes. Afin de constituer rapidement des données audio dans la base 71, les machines hébergeant le moyen de gestion gérant la base de données audio 71 peuvent être utualisées. Dans une autre variante, le moyen de gestion est associé au comparateur audio 7 dans le dispositif d'indexation.The audio comparator 7 also participates in improving the quality of context determination since the parameters PASp and the contexts CAp associated with the audio data and contained in the audio database 71 are determined both manually and therefore very precisely, as well as automatically . In order to improve the determination of contexts, the noisy signal SB comprising the residual non-vocal part of the audio signal SA produced by the filter 1 is applied by the filter 1 to the audio comparator 7. The comparator then compares portions of the signal noise produced in order to try to qualify the noise signal SB by parameters PASp and contexts CAp coming from the audio database 71 and thus to improve the determination of context in the unit and to inform the contextual base 45 for new contexts. In order to quickly constitute audio data in the base 71, the machines hosting the management means managing the audio database 71 can be used. In another variant, the management means is associated with the audio comparator 7 in the indexing device.
Une unité de détermination de langue connue 8 est insérée entre le filtre 1 et le module de reconnaissance vocale 3 afin de déterminer la langue du signal vocal SV si celle-ci n'est pas préalablement connue. Pour des informations multi- langues par exemple, la langue est reconnue ainsi en continue .A known language determination unit 8 is inserted between the filter 1 and the voice recognition module 3 in order to determine the language of the voice signal SV if this is not previously known. For multi-language information, for example, the language is recognized continuously.
On se réfère maintenant à la figure 3 pour décrire des étapes principales El à E82 exécutées par le dispositif d'indexation pour déterminer des contextes d'un signal audio continu indéterminé SA dans le cas de la première réalisation montrée à la figure 1.We now refer to FIG. 3 to describe the main steps E1 to E82 executed by the indexing device to determine the contexts of an indeterminate continuous audio signal SA in the case of the first embodiment shown in FIG. 1.
Le segment Sn est filtré par le filtre 1 à l'étape El afin de constituer un signal vocal SV composé uniquement de la partie vocale du signal SA sans un quelconque bruit de fond. Le signal vocal SV est ensuite simultanément analysé dans l'analyseur 2 à l'étape E2 et traité par le module de reconnaissance vocale 3 à l'étape E3. Suite à l'analyse du signal SV à l'étape E2, l'analyseur 2 produit des paramètres vocaux PVS en continu du signal audio SA, et suite au traitement par reconnaissance vocale à l'étape E3, le module 3 produit un signal textuel ST déduit du signal vocal SV. A la quatrième étape E4, l'unité mémorise le signal textuel ST en mémoire tampon, éventuellement après transformation numérique. Le temps pendant lequel des échantillons numériques du signal textuel ST reste en mémoire tampon dépend de la durée prédéterminée DS des segments Sn, et est au minimum égal à la durée de segment DS .The segment S n is filtered by the filter 1 in step El in order to constitute a voice signal SV composed solely of the voice part of the signal SA without any background noise. The voice signal SV is then simultaneously analyzed in the analyzer 2 in step E2 and processed by the voice recognition module 3 in step E3. Following the analysis of the signal SV in step E2, the analyzer 2 produces voice parameters PVS continuously of the audio signal SA, and following the processing by voice recognition in step E3, the module 3 produces a text signal ST deduced from the voice signal SV. In the fourth step E4, the unit stores the text signal ST in the buffer memory, possibly after digital transformation. The time that digital samples of the ST text signal remain in the buffer depends on the duration predetermined DS of segments S n , and is at least equal to the duration of segment DS.
La segmentation temporelle et périodique du signal textuel ST se produit à la cinquième étape E5. Le signal textuel ST est segmenté par l'unité 4 en segments textuels consécutifs Sn de durée DS . Dans la figure 3 est considéré le traitement d'un n ieme segment courant Sn bien que chaque segment du signal textuel ST soit soumis aux même étapes suivantes au fur et à mesure de la réception du signal audio SA par le dispositif d'indexation.The temporal and periodic segmentation of the text signal ST occurs in the fifth step E5. The text signal ST is segmented by the unit 4 into consecutive text segments S n of duration DS. In FIG. 3, the processing of a n th current segment S n is considered, although each segment of the text signal ST is subjected to the same following steps as and when the audio signal SA is received by the indexing device.
En fonction des moyennes des paramètres vocaux sur le segment courant PVSn et du segment textuel Sn, l'unité 5 détermine un contexte de segment CSn du segment vocal Sn à l'étape E6. Les bornes temporelles du contexte CSn du segment Sn sont connues puisqu'elles sont confondues avec les bornes BSn du segment temporel Sn- Le contexte CSn et les paramètres vocaux PVSn sont mémorisés à l'étape E7 dans la base contextuelle 45. En variante cette mémorisation est temporaire, le temps de sauvegarde en mémoire dépendant de la durée des segments textuels Sπ et du temps de traitement d'un segment par les unités de détermination de contexte 5 et 6. Les expressions et mots clés caractérisant un contexte sont déterminés à l'étape E6 par différents procédés d'analyse, comme la récupération des sujets d'une phrase après suppression des propositions, adjectifs ou autres éléments. En variante tous les procédés existants de détermination de contexte seul ou combiné sont utilisés dans la présente invention.As a function of the averages of the voice parameters on the current segment PVS n and of the text segment S n , the unit 5 determines a context of segment CS n of the voice segment S n in step E6. The time limits of the context CS n of the segment S n are known since they are confused with the terminals BS n of the time segment S n - The context CS n and the voice parameters PVS n are stored in step E7 in the contextual base 45. As a variant, this storage is temporary, the time for saving in memory depending on the duration of the text segments S π and on the time of processing of a segment by the context determination units 5 and 6. The expressions and keywords characterizing a context are determined in step E6 by different methods of analysis, such as recovering the subjects of a sentence after deleting the propositions, adjectives or other elements. Alternatively, all existing methods of determining context alone or in combination are used in the present invention.
L'unité 6 compare ensuite le contexte CSn au contexte CSn_]_ du segment précédent Sn-ι à l'étape E8. Lorsque les deux contextes CSn et CSn-ι ne sont pas similaires, c'est-à-dire n'ont quasiment aucun ou peu de mots et expressions clés en commun, l'étape E81 déduit que la borne supérieure BSn-ι du segment précédent Sn-ι est égale à la borne supérieure BCGm du contexte général courant CGm+ι dont le dernier segment textuel est le segment Sn-ι. La borne inférieure du segment courant Sn définit alors la borne inférieure du contexte général courant suivant BCGm-ι-i relatif au segment Sn et éventuellement aux segments suivant le segment Sn.The unit 6 then compares the context CS n to the context CS n _] _ of the previous segment S n -ι in step E8. When the two contexts CS n and CS n -ι are not similar, that is to say have almost no or few key words and expressions in common, step E81 deduces that the upper bound BS n - ι of the previous segment S n -ι is equal to the upper bound BCGm of the general current context CG m + ι whose last textual segment is the segment S n -ι. The lower limit of the current segment S n then defines the lower limit of the general current context according to BCG m- ι-i relating to the segment S n and possibly to the segments according to the segment S n .
Lorsqu'à l'étape E8, les contextes CSn et CSn-ι sont similaires, c'est-à-dire ont un nombre de mots et expressions clés identiques ou synonymes supérieur à un seuil prédéterminé, par exemple égal à 2 ou 3, la borne supérieure BCGm du contexte général courant CGm est momentanément confondue avec la borne supérieure BSn du segment courant Sn à l'étape E82. Le segment Sn peut être le dernier segment textuel relatif au contexte général CGm. si ultérieurement les contextes des segments textuels Sn et Sn+i ne sont pas similaires.When in step E8, the contexts CS n and CS n -ι are similar, that is to say have a number of identical or synonymous key words and expressions greater than a predetermined threshold, for example equal to 2 or 3, the upper bound BCG m of the general current context CG m is momentarily merged with the upper bound BS n of the current segment S n in step E82. The segment S n can be the last textual segment relating to the general context CGm . if later the contexts of the textual segments S n and S n + i are not similar.
Au fur et à mesure de l'indexation individuelle des segments textuels ..., Sn_ι, Sn, Sn+ι, ... par les contextes respectifs ..., CSn-i, CSn, CSn+ι, ... à l'étape E7, le signal audio continu SA est indexé par des contextes généraux successifs ..., BCGm, ... qui sont relatifs chacun à un ou plusieurs segments textuels consécutifs indexés. Par exemple, le signal SA est indexé d'un sujet A jusqu'à la 8lβme minute depuis un instant de référence de début de segmentation dans l'unité 4, puis d'un sujet B de la 6lème à la 12ieme minute, puis d'un sujet C pendant 1 minute, puis à nouveau du sujet B, etc. pour une durée de segment DS de 30 secondes par exemple. Le sujet B est présent dans le signal SA à deux reprises après avoir été interrompu pendant 1 minute par le sujet C qui a été reconnu par le comparateur audio 7 dans la base de données audio 71. Ce phénomène est appelé saut de contexte. Les sujets A, B et C sont par exemple des actualités, une rubrique sur le cinéma et un ensemble d'encarts publicitaires.As the individual text segments are indexed ..., S n _ι, S n , S n + ι, ... by the respective contexts ..., CS n -i, CS n , CS n + ι, ... in step E7, the continuous audio signal SA is indexed by successive general contexts ..., BCG m , ... which each relate to one or more consecutive textual segments indexed. For example, the signal SA is indexed subject A to the 8 minute lβme from a reference start time segmentation in the unit 4, and a subject B to 6 -th to the 12 th minute , then subject C for 1 minute, then subject B again, etc. for a DS segment duration of 30 seconds for example. The subject B is present in the signal SA twice after being interrupted for 1 minute by subject C which has been recognized by the audio comparator 7 in the audio database 71. This phenomenon is called context jump. Topics A, B and C are for example news, a section on cinema and a set of advertising inserts.
Dans cet exemple, les unités de détermination de contexte 5 et 6 commandent 1 ' écriture du contexte du dernier segment textuel Sn temporel du sujet B précédant le sujet C ainsi que le contexte général du sujet B lorsque le comparateur 7 détecte l'ensemble des échantillons consécutifs dans le signal audio SA relatifs au sujet C, par comparaison aux échantillons de données audio dans la base de données audio 71. Au moins l'unité 6 récupère le contexte général du segment précédant ledit ensemble détecté du sujet C à la suite du dernier segment du sujet C ayant ainsi encore le même contexte général que l'ensemble détecté du début du sujet C. Cette récupération évite que le dispositif d'indexation détermine à nouveau au moins un contexte général relativement aux premiers segments du sujet B suivant le sujet C, lequel contexte général est en l'occurrence le contexte général précédant le sujet C.In this example, the context determination units 5 and 6 control the writing of the context of the last temporal text segment S n of the subject B preceding the subject C as well as the general context of the subject B when the comparator 7 detects all of the consecutive samples in the audio signal SA relating to the subject C, by comparison with the samples of audio data in the audio database 71. At least the unit 6 recovers the general context of the segment preceding said detected set of the subject C following the last segment of subject C thus still having the same general context as the set detected from the beginning of subject C. This retrieval prevents the indexing device again determining at least one general context relative to the first segments of subject B according to the subject C, which general context is in this case the general context preceding subject C.
Dans une autre réalisation, les bornes temporelles déduites pour le contexte général CGm sont mémorisées dans la base contextuelle 45. Des deuxièmes contextes et leurs paramètres contenus dans la base de données contextuelle 45 sont liés au contexte général lorsque le contexte général a des paramètres communs avec les paramètres des deuxièmes contextes. Ainsi le contexte CGm défini par quelques mots clés est affiné par son rapprochement avec d'autres contextes contenus dans la base de données contextuelle 45. La base de données contextuelle est établie préalablement et contient une liste de sujets référencés et de mots clés associés, ainsi que d'autres paramètres qualifiant un contexte. En variante, les deuxièmes contextes sont mémorisés dans une deuxième base de données contextuelle mutualisee entre des dispositifs d'indexation selon l'invention. In another embodiment, the time bounds deduced for the general context CG m are stored in the contextual base 45. Second contexts and their parameters contained in the contextual database 45 are linked to the general context when the general context has common parameters with the parameters of the second contexts. Thus the context CG m defined by a few key words is refined by its reconciliation with other contexts contained in the database contextual 45. The contextual database is established beforehand and contains a list of referenced subjects and associated keywords, as well as other parameters qualifying a context. As a variant, the second contexts are stored in a second contextual database shared between indexing devices according to the invention.

Claims

REVENDICATIONS
1 - Dispositif pour indexer un signal audio continu (SA) de durée indéterminée, comprenant un moyen (1) pour filtrer le signal audio continu en un signal vocal (SV) et un signal bruité (SB) , un moyen (2) pour analyser le signal vocal (SV) afin de produire des paramètres vocaux (PVS) , et un moyen de reconnaissance vocale (3) convertissant le signal vocal (SV) en un signal textuel (ST), caractérisé en ce qu'il comprend un moyen (4) pour segmenter le signal textuel continu (ST) en des segments textuels temporels périodiques (Sn) , un premier moyen (5) pour déterminer un contexte1 - Device for indexing a continuous audio signal (SA) of indefinite duration, comprising means (1) for filtering the continuous audio signal into a voice signal (SV) and a noisy signal (SB), means (2) for analyzing the voice signal (SV) in order to produce voice parameters (PVS), and a voice recognition means (3) converting the voice signal (SV) into a text signal (ST), characterized in that it comprises means ( 4) to segment the continuous text signal (ST) into periodic time text segments (S n ), a first means (5) for determining a context
(CSn) du segment textuel courant (Sn) en fonction des moyennes (PVSn) des paramètres vocaux sur la durée du segment courant et du segment textuel respectif (Sn) , et un deuxième moyen (6) pour déterminer un contexte général (BCGm) qui est déduit de contextes similaires de segments précédents consécutifs et dont une borne temporelle supérieure est confondue (E82) avec une borne temporelle supérieure (BSn) du segment textuel courant (Sn) lorsque les contextes (CSn, CSn-i) du segment textuel courant et du segment textuel précédant le segment textuel courant sont similaires, et est maintenue confondue (E81) avec une borne temporelle supérieure (BSn-]_) du segment textuel (Sn-ι) précédant le segment textuel courant lorsque le contexte (CSn) du segment textuel courant n'est pas similaire au contexte (CSn-ι) du segment textuel précédent. 2 - Dispositif conforme à la revendication 1, dans lequel le moyen de reconnaissance vocale (3) produit un signal textuel (ST) en fonction des contextes déterminés par les premier et deuxième moyens .(CS n ) of the current text segment (S n ) as a function of the means (PVS n ) of the voice parameters over the duration of the current segment and of the respective text segment (S n ), and a second means (6) for determining a context general (BCG m ) which is deduced from similar contexts of consecutive preceding segments and of which an upper time bound is confused (E82) with an upper time bound (BS n ) of the current text segment (S n ) when the contexts (CS n , CS n -i) of the current text segment and of the text segment preceding the current text segment are similar, and is kept confused (E81) with an upper time bound (BS n -] _) of the text segment (S n -ι) preceding the current text segment when the context (CS n ) of the current text segment is not similar to the context (CS n -ι) of the previous text segment. 2 - Device according to claim 1, wherein the voice recognition means (3) produces a text signal (ST) according to the contexts determined by the first and second means.
3 - Dispositif conforme à la revendication 1 ou 2, dans lequel un contexte général initial est déterminé initialement à partir de paramètres externes au dispositif et est basé par le premier moyen pour déterminer (5) sur le contexte textuel de segments textuels précédant le segment textuel courant lorsque le contexte du segment textuel immédiatement précédant n'est pas déterminé.3 - Device according to claim 1 or 2, wherein an initial general context is determined initially from parameters external to the device and is based by the first means for determining (5) on the textual context of textual segments preceding the textual segment current when the context of the text segment immediately preceding is not determined.
4 - Dispositif conforme à l'une quelconque des revendications 1 à 3, dans lequel des portions périodiques de durée supérieure et proportionnelle à la durée des segments textuels (Sn) sont traitées K fois par le moyen pour analyser (2), le moyen de reconnaissance vocale (3) et les premier et deuxième moyens pour déterminer (5, 6) afin d'affiner la pertinence des contextes de ladite portion.4 - Device according to any one of claims 1 to 3, in which periodic portions of duration greater than and proportional to the duration of the text segments (S n ) are processed K times by the means for analyzing (2), the means voice recognition (3) and the first and second means for determining (5, 6) in order to refine the relevance of the contexts of said portion.
5 - Dispositif conforme à l'une quelconque des revendications 1 à 4, dans lequel le deuxième moyen pour déterminer (6) juxtapose plusieurs contextes généraux sur au moins un segment textuel.5 - Device according to any one of claims 1 to 4, wherein the second means for determining (6) juxtaposes several general contexts on at least one text segment.
6 - Dispositif conforme à l'une quelconque des revendications 1 à 5, comportant en outre un moyen (71) pour mémoriser préalablement des morceaux de données audio consécutifs avec des paramètres (PAS) et des contextes (CA) respectifs, et un moyen (7) pour comparer un échantillon du signal audio (SA) à des échantillons de morceaux de données audio, afin de qualifier une portion courante du signal audio6 - Device according to any one of claims 1 to 5, further comprising means (71) for previously storing consecutive pieces of audio data with respective parameters (PAS) and contexts (CA), and means ( 7) to compare a sample of the audio signal (SA) to samples of pieces of audio data, to qualify a current portion of the audio signal
(SA) par des paramètres vocaux (PASp) et un contexte(SA) by voice parameters (PASp) and context
(CAp) de morceaux de données audio lorsque l'échantillon du signal audio et un échantillon d'un morceaux de données audio sont sensiblement identiques.(CAp) of pieces of audio data when the sample of the audio signal and a sample of the pieces of audio data are substantially identical.
7 - Dispositif conforme à la revendication 6, dans lequel le moyen pour comparer (7) détecte un ensemble d'échantillons consécutifs dans le signal audio (SA) par comparaison aux échantillons de données audio dans le moyen pour mémoriser (71) ,• et le deuxième moyen pour déterminer (6) récupère le contexte général du segment précédant ledit ensemble détecté à la suite du dernier segment ayant encore le contexte général dudit ensemble.7 - Device according to claim 6, wherein the means for comparing (7) detects a set of consecutive samples in the audio signal (SA) by comparison with the samples of audio data in the means for storing (71), • and the second means for determining (6) retrieves the general context of the segment preceding said set detected following the last segment still having the general context of said set.
8 - Dispositif conforme à la revendication 6 ou 7, dans lequel le moyen pour comparer (7) compare des portions du signal bruité (SB) produites par le moyen pour filtrer (1) afin d'améliorer la détermination de contexte dans le premier moyen pour déterminer.8 - Device according to claim 6 or 7, wherein the means for comparing (7) compares portions of the noisy signal (SB) produced by the means for filtering (1) in order to improve the determination of context in the first means to determine.
9 - Dispositif conforme à l'une quelconque des revendications 1 à 8, comprenant un moyen (8) entre le moyen pour filtrer (1) et le moyen de reconnaissance vocale (3) pour déterminer une langue du signal vocal (SV) .9 - Device according to any one of claims 1 to 8, comprising means (8) between the means for filtering (1) and the voice recognition means (3) for determining a language of the voice signal (SV).
10 - Dispositif conforme à l'une quelconque des revendications 1 à 9, comprenant un moyen (45) pour mémoriser et gérer des contextes déduits de segments textuels précédant le segment textuel courant (Sn) et/ou d'une étude de contexte afin de faciliter' la reconnaissance vocale dans le moyen de reconnaissance vocale (3) et la détermination de contexte de segment textuel courant dans le premier moyen pour déterminer (5) . 10 - Device according to any one of claims 1 to 9, comprising means (45) for storing and managing contexts deduced from text segments preceding the current text segment (S n ) and / or from a context study in order to facilitate ' the voice recognition in the voice recognition means (3) and determining the context of the current text segment in the first means for determining (5).
PCT/FR2004/000152 2003-01-30 2004-01-23 Device for indexing a continuous audio signal of undetermined length WO2004079719A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0301218A FR2850783A1 (en) 2003-01-30 2003-01-30 Continuous audio signal e.g. signal from television set, indexing device, has segment context determining unit to determine context of current textual segment according to vocal parameter unit and textual segment
FR0301218 2003-01-30

Publications (1)

Publication Number Publication Date
WO2004079719A1 true WO2004079719A1 (en) 2004-09-16

Family

ID=32696311

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2004/000152 WO2004079719A1 (en) 2003-01-30 2004-01-23 Device for indexing a continuous audio signal of undetermined length

Country Status (2)

Country Link
FR (1) FR2850783A1 (en)
WO (1) WO2004079719A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
EP1171871A1 (en) * 1999-03-26 2002-01-16 Koninklijke Philips Electronics N.V. Recognition engines with complementary language models
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
EP1171871A1 (en) * 1999-03-26 2002-01-16 Koninklijke Philips Electronics N.V. Recognition engines with complementary language models
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PONTE J M ET AL: "Text segmentation by topic", RESEARCH AND ADVANCED TECHNOLOGY FOR DIGITAL LIBRARIES. FIRST EUROPEAN CONFERENCE, ECDL '97 PROCEEDINGS,, 1 September 1997 (1997-09-01) - 3 September 1997 (1997-09-03), Pisa, Italy, Berlin, Germany, Springer-Verlag, Germany, pages 113 - 125, XP002257176, ISBN: 3-540-63554-8 *
SHRIBERG E ET AL: "Prosody-based automatic segmentation of speech into sentences and topics", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 32, no. 1-2, September 2000 (2000-09-01), pages 127 - 154, XP004216250, ISSN: 0167-6393 *
WERNER S ET AL: "Automatic topic identification in multimedia broadcast data", PROCEEDINGS 2002 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (CAT. NO.02TH8604), vol. 1, 26 August 2002 (2002-08-26) - 29 August 2002 (2002-08-29), Lausanne, Switzerland, pages 41 - 44, XP010604301 *

Also Published As

Publication number Publication date
FR2850783A1 (en) 2004-08-06

Similar Documents

Publication Publication Date Title
US9369660B2 (en) Embedding content-based searchable indexes in multimedia files
EP1585110B1 (en) System for speech controlled applications
FR2820872A1 (en) VOICE RECOGNITION METHOD, MODULE, DEVICE AND SERVER
EP1234303B1 (en) Method and device for speech recognition with disjoint language models
EP2585947A1 (en) A method for indexing multimedia information
FR2911201A1 (en) Written text editing method for correcting spelling error, involves calculating difference between apparition frequency of one n-gram in text and in language using n-gram by n-gram technique
EP1391830A1 (en) System for extracting informations from a natural language text
FR2933793A1 (en) METHODS OF ENCODING AND DECODING, BY REFERENCING, VALUES IN A STRUCTURED DOCUMENT, AND ASSOCIATED SYSTEMS.
CN111489765A (en) Telephone traffic service quality inspection method based on intelligent voice technology
Dumont et al. Automatic story segmentation for tv news video using multiple modalities
Draghici et al. A study on spoken language identification using deep neural networks
FR2825496A1 (en) METHOD AND SYSTEM FOR BROAD SYNTAXIC ANALYSIS OF CORPUSES, ESPECIALLY SPECIALIZED CORPUSES
EP1236198B1 (en) Speech recognition with a complementary language model for typical mistakes in spoken dialogue
EP1647897A1 (en) Automatic generation of correction rules for concept sequences
EP1285435B1 (en) Syntactic and semantic analysis of voice commands
WO2004079719A1 (en) Device for indexing a continuous audio signal of undetermined length
CN115952461A (en) Pre-training corpus cleaning method, system and storage medium
WO2005069166A1 (en) Automatic system for retrieving and processing information carried by short messages
JohnsonÝ et al. Audio indexing and retrieval of complete broadcast news shows
Camelin et al. Opinion mining in a telephone survey corpus.
Lavie et al. Dialogue processing in a conversational speech translation system
US20240087572A1 (en) Systems and methods for semantic segmentation for speech
WO2023115363A1 (en) Smart audio segmentation using look-ahead based acousto-linguistic features
EP1713243A1 (en) Method and system of automatic generation of software components for the design of voice services
FR3138225A1 (en) Annotation method, electronic device and corresponding computer program product

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase