WO2004010327A2 - Vorrichtung und verfahren zum charakterisieren eines informationssignals - Google Patents

Vorrichtung und verfahren zum charakterisieren eines informationssignals Download PDF

Info

Publication number
WO2004010327A2
WO2004010327A2 PCT/EP2003/001916 EP0301916W WO2004010327A2 WO 2004010327 A2 WO2004010327 A2 WO 2004010327A2 EP 0301916 W EP0301916 W EP 0301916W WO 2004010327 A2 WO2004010327 A2 WO 2004010327A2
Authority
WO
WIPO (PCT)
Prior art keywords
information
information signal
area
signal
area information
Prior art date
Application number
PCT/EP2003/001916
Other languages
English (en)
French (fr)
Other versions
WO2004010327A3 (de
Inventor
Frank Klefenz
Karlheinz Brandenburg
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority to EP03764912A priority Critical patent/EP1523719B1/de
Publication of WO2004010327A2 publication Critical patent/WO2004010327A2/de
Publication of WO2004010327A3 publication Critical patent/WO2004010327A3/de
Priority to US10/950,309 priority patent/US7035742B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • the present invention relates to the processing of information signals and in particular to the feature extraction of information signals, for example for characterizing the information signals or for identification and database search.
  • time signals with a harmonic component such as For example, audio data that can be identified and referenced are useful for many users. Especially in a situation where there is an audio signal whose title and author are unknown, it is often desirable to find out who wrote the song. There is a need for this, for example, if the wish is present, e.g. B. to acquire a CD of the artist in question. If the present audio signal only includes the time signal content, but no name about the artist, the music publisher, etc., then it is not possible to identify the origin of the audio signal or who wrote the song. The only hope was then to hear the audio piece together with reference data regarding the author or the source, where the audio signal can be obtained, in order to be able to obtain the desired title.
  • Audio signals or more generally, time signals that have a harmonic component cannot be processed by such search engines if they do not include any textual search information.
  • a realistic inventory of audio files includes several thousand stored audio files up to hundreds of thousands of audio files.
  • Music database information can be stored on a central Internet server, and potential search queries could be made over the Internet.
  • the central music databases on local hard disk systems of users are also conceivable. It is desirable to be able to search through such music databases in order to find reference data about an audio file, of which only the file itself, but no reference data, is known.
  • Similar pieces are, for example, the pieces with a similar melody, a similar set of instruments, or simply with similar sounds, such as B. sound of the sea, twittering of birds, male voices, female voices, etc.
  • US Patent No. 5,918,223 discloses a method and an apparatus for content-based analysis, storage, retrieval and segmentation of audio information. This method is based on extracting several acoustic features from one audio signal. Volume, bass, pitch, brightness and melody-frequency-based cepstral coefficients are measured in a time window of a certain length at periodic intervals. Each measurement data record consists of a sequence of measured feature vectors. Each audio file is specified by the complete set of feature sequences calculated for each feature. Furthermore, the first derivatives are calculated for each sequence of feature vectors. Then statistical values such as mean and standard deviation are calculated. This set of values is stored in an N vector, ie a vector with n elements.
  • This procedure is applied to a large number of audio files in order to derived from an N-vector.
  • This gradually builds up a database of a large number of N vectors.
  • a search N vector is then extracted from an unknown audio file using the same procedure.
  • a distance calculation of the predefined N vector and the N vectors stored in the database is then determined.
  • the N-vector is output, which is the minimum distance from the search N-vector.
  • the output of the N vector is associated with data on the author, the title, the source of procurement, etc., so that an audio file can be identified with regard to its origin.
  • This method has the disadvantage that several features are calculated and arbitrary heuristics are introduced to calculate the parameters.
  • the information given by the course of the feature vectors over time is reduced to a few feature sizes. This leads to a high loss of information.
  • all so-called features that are used to identify information signals have to meet two opposite requirements.
  • One requirement is to provide the best possible characterization of an information signal.
  • the other requirement is that the feature should not take up too much storage space, so it must have as little information as possible.
  • smaller features immediately result in smaller information signal databases and also result in a faster database search in order to be able to make a qualitative statement about an information signal to be tested or even a quantitative statement about such an information signal.
  • Another important requirement for the feature to be extracted from the information signal is that the feature should be robust to changes. Such changes consist of a system-inherent noise, a distortion z. B. due to a lossy coding method.
  • Other signal changes are, for example, changes in volume using the example of an audio signal and distortions due to playing an audio signal over a loudspeaker and re-recording the audio signal over a microphone etc.
  • the object of the present invention is to create a flexible and robust concept for characterizing an information signal.
  • a device for characterizing an information signal according to claim 1 a method for characterizing an information signal according to claim 19, a device for setting up an information signal database according to claim 20, a method for setting up an information signal database according to claim 21, a device for identifying an information signal according to claim 22, a method for identifying an information signal according to claim 23 or a computer program according to claim 24.
  • the present invention is based on the knowledge that, on the one hand, a characteristic representation of an information signal and, on the other hand, a representation of the information signal with a limited amount of memory can be achieved by processing the amplitude-time profile of the information signal in such a way that local extreme values are determined, and that area information in the case of an information signal with one-dimensional amplitude or volume information in the case of an audio signal with two-dimensional amplitude of valleys or peaks of the information signal are determined, A local extreme value and a time segment are assigned to the valley or mountain of the information signal, the time segment of the information signal for a mountain or for a valley extending from the time of the local extreme value to a temporally adjacent value of the information signal, which has the same amplitude as the local extreme value. As a result, area information or volume information is obtained in chronological succession, which are characteristic of the information signal.
  • the present invention is advantageous in that the characteristic properties of an amplitude-time profile in the form of area information or volume information are integral quantities which, in contrast to, for example, amplitude-time tuples or others, approximate the acoustic properties of an audio signal Features, are relatively invariant quantities, which have a high robustness in their actual quantitative size or at least in their relative size with regard to a temporal sequence with respect to distortions, noise etc.
  • the concept according to the invention of the representation of an information signal by means of integral quantities, which are derived from the amplitude-time profile of the information signal enables a highly compressed representation which, on the one hand, leads to small databases and, on the other hand, to short databases Search times for searching a database using such a characteristic of a signal under test.
  • Another advantage of the concept according to the invention is that the representation of an information signal with an amplitude-time profile on the basis of integral area or volume information in a chronological order is particularly well suited for information signals that are have repetitive basic structures such.
  • B. audio signals For example, instruments deliver a signal which is characteristic of each instrument and which in particular has a sequence of surface information which is characteristic of each instrument. Repeating patterns occur when an instrument plays consecutive tones. This pattern can be found immediately in the successive area information.
  • a pattern recognition of the sequence of area information can therefore be used to segment the audio signal in order to be able to carry out various post-processing operations, such as B. a polyphonic sound recognition, a musical instrument recognition or a melody recognition.
  • spoken sounds are characterized by repetitive signal patterns.
  • the concept according to the invention is therefore also suitable for the postprocessing of speech signals, for example in order to carry out speech recognition.
  • Quasi-stationary audio signals as an example of information signals which are particularly well suited to the concept according to the invention, the audio signals being represented, for example, by speech sounds or musical instrument sounds, are distinguished by the fact that replicas of the same or a slowly changing soil profile or the same or a slowly changing audio signal form n-times, depending on how long the speech is held or how long the sound is stopped. Replicas of the same signal shape are determined locally by comparing the same or only slightly different area information from the sequence of area information, preferably the original and the complementary signal.
  • the same wave trains are identified by associating the same areas.
  • the absolute content ie a surface integral, can also indicate whether it is a vowel, consonant, a specific musical instrument, a high-frequency tone, etc.
  • FIG. 1 shows a block diagram of a device according to the invention for characterizing an information signal
  • FIG. 2 shows a block diagram of a device according to the invention for setting up an information signal database
  • FIG. 3 shows a block diagram of a device according to the invention for identifying a test information signal using an information signal database
  • FIG. 4 shows an amplitude-time profile of an exemplary information signal with drawn-in area information for local maxima and local minima;
  • FIG. 6 shows an amplitude-time curve for representing the normalization of an area or a volume to an overall area or an overall volume.
  • audio watershed This concept is a concept with which audio signals can be divided into intervals.
  • the concept can be described very clearly in geodesy. Mountain and valley floor formations are filled with rainwater. The water collects in valley valleys and flows around mountain tops. The maximum level of an isolated region is given by the two-dimensional soil profile and the height of the lowest passage point. The amount of water absorbed can be easily determined by measuring the amount of water that has been drawn from the continuously flowing rainwater source up to the overflow.
  • the raining amounts of water are distributed over the entire course of the audio wave trains.
  • the water remains between two neighboring local wave maxima and is enclosed. Further sub-areas can be successively flooded until the amplitude maximum of the entire signal representation is also flooded.
  • the edges at the beginning and at the end of the signal are high, at least higher than the global maximum of the signal.
  • this concept works without the assumption of such high margins. Then the maximum is not flooded, but the water only rises to the level of the second highest maximum.
  • the signal it is preferred to mirror the signal curve along the t-axis in order to obtain a complementary information signal in order to measure the inverted profile accordingly by determining the area of the valleys.
  • the same wave trains are repeated periodically in a quasi-stationary manner, particularly in the case of the information signals described, they also always have the same "water content", so that segmentation due to the water content of a wave train, which consists of several water contents of the valleys that are present in the wave train, composed, can take place.
  • the same wave trains are identified by associating the same areas.
  • the information signal characterization can be carried out not only on the basis of valleys which are defined by local maxima, but also on the basis of mountains whose base line is defined by a local minimum and their Peaks are limited by the waveform. This representation is equivalent to inverting the original information signal and viewing the valleys in the inverted information signal.
  • the concept according to the invention can be used for all information signals that have an amplitude-time profile that has local extreme values.
  • Such information signals can be audio signals, video signals, voltage signals or current signals, which identify measurement variables of some kind, etc.
  • the time course that is to say the information signal, does not necessarily have to indicate a voltage amplitude or a current amplitude, but that the information signal can also have a power or a sound pressure as the amplitude.
  • the information signal can have a one-dimensional amplitude, such as. B. with an audio signal that the information signal can also have a two-dimensional amplitude, so that the amplitude-time profile of the information signal actually comprises three-dimensional peaks and valleys, while these peaks and valleys in the case of an information signal with one-dimensional amplitude only one have a two-dimensional course, i.e. can be represented by area information.
  • the information signal does not of course have to be a continuous signal, but that it can also be a time-discrete signal in which an imaginary continuous rather, for the sake of clarity, the course can be assumed, which results from a straight connection of successive time-discrete signal values or through interpolation.
  • FIG. 4 shows an information signal 40 with an amplitude-time profile.
  • the information signal shown in FIG. 4 is an information signal with a one-dimensional amplitude.
  • the information signal shown is a typical audio signal that has repetitive wave trains, a wave train being shown in the first segment A, while the repetitive wave train is shown in the second segment B. It should be pointed out that the information signal in the second segment B of course differs from the information signal in the first segment A, but not in its basic topology but only in the embodiment shown in FIG. 4 in terms of the amplitude at certain times.
  • the information signal has local maxima 41a, 41b, 41c, 41d, 41e and 41f.
  • Each local maximum is assigned its own valley.
  • the valley designated A0 is assigned to the maximum 41a.
  • the valley AI is correspondingly assigned to the maximum 41b.
  • the ABI is assigned to the maximum 41d. Since a part of the entire valley has already been assigned to maximum 41d by ABI, the maximum 41c is only assigned to the rest of the valley above it, which is designated by AB2.
  • the valley B1 is assigned to the maximum 41e. No local valley is assigned to the local maximum 41f in FIG. 4. However, this is only because the further course of the information signal is no longer shown.
  • each valley is defined by a time segment, which in FIG. 4 takes the example of the valley AI, to which the local maximum 41b is assigned is designated by 42.
  • the temporal section extends in particular from the time 43 of the occurrence of the local maximum 41b to a temporally adjacent value of the information signal, which has the same amplitude as the local extreme value. This time value is denoted by 44 in FIG. 4.
  • the other valleys A0, AB2, BO, B1 are treated accordingly.
  • the sequence of the valleys AO, AI, ABI, B0, Bl already characterizes the information signal, which can be used for identification.
  • Fig. 4 is not "flipped"
  • the "peaks" associated with each local minimum result as follows.
  • An examination of the information signal provides local minima 45a, 45b, 45c, 45e, 45f.
  • the first mountain A0 ' is determined by the local minimum 45a and by the temporally adjacent value of the information signal, which has the same value as the local minimum, ie defines a value 46.
  • the time segment 47 is the time segment 47, which identifies the mountain A0 '.
  • the area of the mountain AO ' is now calculated as area information in accordance with the illustration shown in FIG. 4. The same procedure is followed with the mountain AI ', A2' etc.
  • FIG. 4 also shows a case in which the mountain A210 ', to which the local minimum 45c is assigned, is located above a mountain A21 1 to which the local minimum 45a is assigned and in particular is located above the mountains AI 'and A2' to which the local minimum 45b is assigned. It can thus be seen from the example shown in FIG. 4 that two area information can also be assigned to a local minimum, such that both the area information of the mountain AI 'and the area information of the mountain A2' are assigned to the local minimum 45b. The same applies to the local minimum 45a, to which both the area information AO 'and the area information A21' are assigned.
  • the device for characterizing an information signal which has an amplitude-time profile with local extreme values, comprises a device 10 for determining local extreme values of the information signal, a local extreme value comprising a point in time and an amplitude value.
  • the device 10 for determining local extreme values is followed by a device 11 for determining area or volume information for peaks and valleys of the information signal.
  • the device for determining area information or volume Formations is effective to calculate the area of a valley or mountain, a valley or mountain being defined by a temporal section of the information signal, the section of the information signal varying from the time of the local extreme value to a temporally adjacent value of the information signal, the has the same amplitude as the local extreme value.
  • the area information of several mountains or valleys is characteristic of the information signal.
  • the device 11 will generate a sequence of area information-time values and feed it to a device 12 for post-processing which is designed to output a post-processed feature vector or a speech recognition, a musical instrument recognition, a melody recognition, a polyphonic sound recognition or any other recognition of information to be carried out, which are contained in the information signal which is fed into the device 10.
  • a device 12 for post-processing which is designed to output a post-processed feature vector or a speech recognition, a musical instrument recognition, a melody recognition, a polyphonic sound recognition or any other recognition of information to be carried out, which are contained in the information signal which is fed into the device 10.
  • any known concepts can be used for this purpose to determine local extreme values by the device 10, such as e.g. B. a conventional minimum-maximum search algorithm which compares a sample of the information signal with the previous sample of the information signal and then detects a local maximum if the later sample is smaller than the earlier sample and if a local minimum previously was. The algorithm also recognizes a local minimum if the earlier sample is greater than the later sample and if there was a local maximum previously. Alternatively, the maxima / minima finder can also be designed to evaluate several successive samples accordingly.
  • a conventional minimum-maximum search algorithm which compares a sample of the information signal with the previous sample of the information signal and then detects a local maximum if the later sample is smaller than the earlier sample and if a local minimum previously was. The algorithm also recognizes a local minimum if the earlier sample is greater than the later sample and if there was a local maximum previously.
  • the maxima / minima finder can also be designed to evaluate several successive samples accordingly.
  • the device 10 can also be designed to carry out a low-pass filtering of the information signal before the maxima / minima search in order to produce a smoother information signal to obtain.
  • a low-pass filtering of the information signal before the maxima / minima search in order to produce a smoother information signal to obtain.
  • any other possibilities are conceivable, such as. For example, performing a polynomial fit on the information signal and analytically determining extreme values using the polynomial functions.
  • the directly present unfiltered information signal could also be used to determine all maxima and minima, and then to subsequently filter out the mountains or valleys with a smaller area than a predetermined threshold value or to no longer use them in the further information signal characterization.
  • the device 11 for determining area or volume information for mountains and valleys will typically be designed as a numerical integrator in order to calculate the area between the information signal and the upper valley boundary or the lower mountain boundary. In the case of mountains or valleys lying one above the other, the device 11 is designed to determine area or volume information in order to take into account that another “valley” is already located below the “valley”.
  • the upper boundary line of the valley below, for example line 48 of FIG. 4 is then used as the baseline for integration.
  • the area AB2 is thus calculated using the lateral boundary of the area AB2, which is given by the information signal, and using the base line 48 and the upper boundary of the area AB2, which is represented in FIG. 4 by 49 and to a certain extent the " Water level "defined by the local maximum 41c.
  • the concept according to the invention is particularly suitable for segmenting information signals on the basis of the calculated volume information.
  • 4 shows two replicas A and B of the sig- nalform shown. Combination pairs of the same or slightly different volumes result. In the non-inverted signal, these are the combination pairs (AO, BO), (AI, Bl).
  • the percentage fluctuation ⁇ F / F is smaller for large enclosed areas, so that especially in the case of noise, the area information comparisons of large areas are a more reliable estimate of identity.
  • An example of this is the combination pair (A210 ', B210').
  • the repetitive volumes / area sequences (A210'_n, AB2_n, B210'_n) indicate the presence of a certain signal form.
  • the entire information signal curve is thus divided on the basis of the sequence of area information into m sequences of area or volume intervals, whereupon area or volume sequences are combined into sections of the same information signal form.
  • a surface or Volume envelope is determined by slowly building up the waveform shape, with the areas or volumes of the same repetitive sequences increasing in an increase phase, then remaining approximately the same in a sustain phase and then slowly decreasing in a decay phase.
  • typical tones of musical instruments have a rise phase, a sustain phase and a decay phase.
  • the rise phase would be relatively short.
  • the sustain phase would also be relatively short, while the decay phase would be relatively long.
  • An interval limit arises when areas or volumes change abruptly.
  • a frequency determination can be performed.
  • the frequency of the repetition pattern is determined by forming the distances between the local maxima or local minima of successively identical or only slightly different areas or volumes in the form, for example ((AO, BO), AI, Bl)), and if inverted Signal the distances ((AO ', BO'), (AI ', Bl'), (A2 ', B2'), (A21 ', B21'), (A210 ', B210') are formed.
  • the relief of successive mountain tops and valley bottoms, as it were, is determined by determining the repetition pattern of the shape (A210 ', AB2, B210').
  • the fine profile of a mountain ridge or a valley floor is determined by specifying the structuring elements A0, AI and A0 ', AI', A2 ', A21'.
  • the device 12 for further processing is further configured to assign a vector to each area information or volume information, which preferably includes the numerical value of the area or volume content and the time value of the occurrence. Any time value of the time segment can be taken as the time value of the occurrence. It is preferred to assign the point in time of the occurrence of the local extreme value that is assigned to the area to an area. Conditional on a local extreme value, e.g. For example, if the local extreme value 45b of FIG. 4 shows two "mountains" AI ', A2' shown in FIG. 4, the area information AI ', A2' is assigned the same time value, namely the time value of the occurrence of the local minimum 45b.
  • Such sequences of vectors can be compared using DNA sequencing methods with existing volume vectors, which are stored in a music database, to identify the individual vectors in the Music database are assigned, for example to carry out an information signal identification.
  • a frequency determination can be used to relate areas or volumes that have the same audio signal shape but nevertheless have different areas or volumes due to the frequency-dependent time expansion.
  • further area-describing parameters such as, for. B. the longitudinal extent can be determined by the device 12 for postprocessing of FIG. 1.
  • Such further parameters allow a statement to be made as to whether it is, for example, speech sounds or signals evoked by musical instruments.
  • only relative areas or volumes can preferably be used by the device 12 for postprocessing, in that the ratio of successive areas or volumes is formed by the device 12 for postprocessing.
  • speech sounds, polyphonic sounds or monophonic sounds evoked by musical instruments have different audio signal forms and can therefore be distinguished on the basis of the area or volume sequences.
  • the frequency-dependent portion of the same audio signal form is also determined by a change in the areas or volumes. If an entire surface can be uniquely assigned to a speech sound (vowel), vowel sections can be read from the information signal.
  • consonants and transition sections can be determined by specifying the area or volume sequences using the device 12 for post-processing. The same applies to polyphonic sounds as well as melody sequences.
  • 2 shows a device according to a further aspect of the present invention, which is used to set up an information signal database.
  • a characterization device 20 which can in principle be constructed as shown in FIG.
  • An information signal database 22 can thus be set up, the core of which is a memory 23, in which the feature vectors (MM1, MM2, MM3) of the information signals fed into the device 20 are each stored in association with specific identifiers (ID1, ID2, ID3).
  • the identifiers ID1, ID2, ID2 allow identification of the information signals, the feature vectors MM1, MM2, MM3 of which are stored in the information signal database and in particular in the memory 23 of the information signal database.
  • An information signal database is all the more universal the more individual information signals have been processed by the characterization device 20 and are present in the memory in a corresponding form, that is to say by means of a feature vector characterizing the same.
  • FIG. 3 shows a device according to the invention for identifying a test information signal on the basis of an information signal database 22, which in principle can be constructed in exactly the same way as the information signal database described with reference to FIG. 2.
  • a test information signal is fed into the device 20 for characterization, which is to be identified or from which an identification with regard to certain characteristics of the same is to be obtained in qualitative and / or quantitative terms.
  • the device 20 for characterizing determines a test feature vector from the test information signal, which characterizes the test information signal. With this test feature vector, a search is then carried out in the information signal database among the feature vectors MM1, MM2, MM3 stored in the memory 23, in order to obtain information about the test information signal at the output of the information signal database.
  • the statement about the test information signal which is provided by the device shown in FIG. 3 for identifying the test information signal, can for example be an actual determination of the author or author of the information signal.
  • a statement can also be a quantitative statement, in that the test information signal contains, for example, a certain number of vowels or consonants.
  • the feature vectors MM1, MM2, MM3, which are stored in the information signal database would be feature vectors of individual vowels or consonants. Since the feature vector that can be generated by the characterizing device 20 is a quantitative feature vector, and after in this case the feature vectors stored in the information signal database are also quantitative features, quantitative statements about the test information signal can also be made. namely in that it has a certain degree of similarity to an information signal that is present in the information signal database on the basis of its feature vector.
  • FIG. 5 shows an exemplary waveform diagram that results when the vowel "o" is spoken by the inventor at a frequency of approximately 100 Hz. 5, the amplitude is plotted normalized to values between ⁇ 1.0 and 1.0 along the coordinate. The time in seconds is plotted along the abscissa in FIG. 5. It can be seen that the vowel "o” has a strongly repetitive signal pattern which has very similar area or volume information sequences. It can be seen in detail that the sequence of area information VI, V2 is repeated periodically. By determining this sequence VI, V2 in the chronological sequence of volume information, segmentation is carried out according to the invention, for example at the local maximum, which determines the area information designated V2 and is designated 50 in FIG. 5.
  • segmentation could also be carried out at a local minimum, such as e.g. B. the maximum 50 locally adjacent minimum or the local maximum again adjacent to the left, which identifies the valley, which is denoted by VI.
  • a local minimum such as e.g. B. the maximum 50 locally adjacent minimum or the local maximum again adjacent to the left, which identifies the valley, which is denoted by VI.
  • the area information VI encompasses the entire left valley of the signal shape.
  • the valley identified by VI thus comprises the area information of the two valleys below the dashed line 51 and the area information between the line 51 and the upper boundary line, which is defined by a local maximum 52. 5 that either sequences of individual area information from valleys or mountains can be used, or that "combined" valleys / mountains can also be used for segmentation on the basis of occurring area information sequences, such as. B. the valley identified by VI.
  • the height information is also taken into account in addition to the area / volume information.
  • This concept has its analogue in geodesy, when not only the amount of water in a valley is taken into account, but the potential energy of this amount of water in the valley.
  • a hyperfine structure of the signal can thus be specified by additionally specifying the energy term of the potential energy.
  • the potential energy is equal to the product of density, volume, acceleration and height.
  • a fluid that is, to a certain extent, without compression can be assumed.
  • the density and the acceleration are assumed to be constant and adjusted so that the positional energy of a "water reservoir" is calculated from the integral product of the enclosed volume and height.
  • the energy of the valley marked VI in FIG. 5 can be calculated by breaking down the valley into small rectangles, the area of each rectangle being multiplied by the height of this rectangle, that is to say the amplitude associated with this rectangle, before the summation ,
  • a signal with a stronger amplitude thus carries more information than a signal with a weaker amplitude.
  • This aspect is satisfied by weighting the sequence of area information with corresponding height information in order to obtain the potential energy of a water located in a valley.
  • the area AI is preferably calculated in such a way that at least the area of the rectangle is calculated which results from the upper boundary line 42, a lower boundary line which passes through the local minimum 45b, and the two dashed side lines drawn in FIG. 4.
  • a normal integration of the signal from local maximum 41b to point 44 is then carried out, the line which runs through local minimum 45b being taken as the zero line of the function.
  • the area thus obtained is then subtracted from the originally calculated rectangular area finally to get the area AI of the valley defined by the local maximum 41b.
  • the vowel "o" in FIG. 5 was spoken at about 100 Hz. If the vowel were spoken at a higher frequency, a similar time diagram would result, but is compressed with respect to the time axis. If, on the other hand, the vowel were spoken at a lower frequency from 100 Hz, a time diagram which would be similar to that of FIG. 5 would result, but which would be expanded by a corresponding factor which depends on the frequency difference.
  • a standard frequency such as. B. 100 Hz
  • spoken vowel stored in the information signal database 22 of FIG. 3 based on its feature vector and its identification.
  • a test signal of which it is not known at which frequency it was spoken, is then subjected to a sweep over the frequency with respect to its test feature vector (FIG. 3) within the information signal database.
  • FOG. 3 test feature vector
  • the waveform of the test signal, the waveform of the signal stored in the information signal database or both signals or feature vectors are compressed or expanded accordingly in order for each compression factor z.
  • B. Using the method of least squares to determine a match. This makes it possible to determine whether a sufficiently good match has taken place at any time during the frequency sweep.
  • test information signal does not include a spoken vowel "o", for example.
  • it is used for a specific If a sufficiently good match is found in the frequency sweep, it can be assumed that there is a spoken vowel "o" in the test information signal and that this spoken vowel has been spoken at a specific frequency.
  • the expansion / compression of the feature vector or, if the expansion / compression is carried out before the extraction of the feature vector changes the absolute area information.
  • the relations of the area / volume information to one another remain the same, so that an expansion / compression on the time axis has no effect on sequences of area information in such a way that they can no longer be identified.
  • an analogous procedure is used according to the invention with regard to amplitude normalization. If the spoken vowel "o" from FIG. 5 is stored with a certain mean volume in the information signal database 22 from FIG. 3, an expansion / compression (amplification / damping) along the amplitude axis can be carried out with the following square error method, first, to determine whether the vowel is actually present in a test information signal and, second, to determine the volume at which the vowel appeared in the test information signal. Certain search strategies for individual or combined changes, i.e.
  • Elongation / compression along the time axis and the amplitude axis is referred to the state of the art with regard to DNA sequencing concepts or to methods of least squares, for example to determine the minimum metric or the nearest neighbor ("next neighbor"). to determine.
  • an information signal database 22 can be created, in which the individual feature vectors have been recorded with specific volume / frequency settings of a measuring system. If there is access to it, you can same settings z. B. in terms of volume, of the test information signal. A characteristic curve can then be derived in order to convert area / volume information of a vowel "o" spoken, for example, at 140 Hz into area / volume information in the predetermined recording setting, such as, for. B. a frequency of 100 Hz to convert or map.
  • the mountain which in total identifies the first segment A, results from the area information A210 ', A0', A21 ', AI', A2 '.
  • segmentation according to the invention can be carried out with reliable results, since such large area information for mountains or valleys for the rough structure, i.e. are characteristic of the repetitive structure of the information signal.
  • the area / volume information of a single sequence VI, V2 of FIG. 5 in order to obtain a total area of the sequence with which a search can be undertaken in a database in the total areas of known sequences are stored.
  • the feature of the total area is less characteristic for a signal, but is more ker compressed so that a smaller music database and a faster search are possible. This feature is sufficient if it is still sufficiently characteristic.
  • This example shows the easily achievable scalability between the characteristics of the characterization and the storage space characteristic of the inventive concept.
  • the total energy of a sequence VI, V2 from FIG. 5 could also be used.
  • the above statements also apply to the energy feature.
  • the devices and methods according to the invention can advantageously be supplemented by standardization.
  • the normalization is particularly favorable if a signal is subjected to a feature extraction procedure in accordance with the present invention in order to use as a feature e.g. B. to obtain a sequence of volume information or area information, which sequence, if it is a recurring sequence in a signal, as can be obtained by the segmentation algorithms described above, is referred to as the primary vector. If e.g. For example, if it is assumed that an original vector of a signal is stored in a database for comparison purposes, a certain level or a certain volume of the music signal was used to obtain this original vector in order to generate the original vector.
  • a comparison of an original vector which has been derived from a test signal with the original vector stored in the database is readily possible if the test signal is present with the same amplitude ratios as the comparison signal from which the original vector stored in the database is derived has been. In other words, this means that an original vector comparison is readily possible if the two signals have identical signal profiles A (t).
  • the test signal its original vector with an original vector stored in the database should be compared, played louder or played more quietly.
  • the signal A (t) which is the basis of the original vector in the database, is not the same as the test signal, but that the test signal is a c-fold of the signal, i.e. can be described with cA (t), where c is greater or less than 1. If c is greater than 1, the test signal is louder than the database signal, of which the original vector is stored in the database. If the factor c is less than 1 and of course not equal to zero, the test signal is quieter than the database signal.
  • test signal and preferably also the database signal are normalized with respect to the original vector.
  • a non-normalized original vector would include the volume sequences V12, V23, ..., VI-1, I.
  • the original vector would then be a vector which comprises a volume sequence, preferably a segment, but which could also be part of a segment.
  • a normalization of all components of the original vector is therefore carried out, namely a normalization with a normalization value that corresponds to the total volume of all individual volumes of a sequence of volumes.
  • Vges C-V12 + C-V23 + ... + c-Vn-l, n.
  • each individual component Vi-1, i in a sequence of volumes or areas is normalized by the total volume or the total area of the sequence.
  • this normalization shortens the extension factor c, so that a normalized original vector is an invariant variable with regard to the volume of the signal.
  • both original vectors are invariant to any amplitude differences that can be described by multiplicative stretching with a factor c, so that differences in volume between a test signal and a database signal are insignificant and do not impair music recognition.
  • an original vector does not necessarily have to comprise every successive volume in a sequence that has been segmented.
  • the informative value also suffers, so that a compromise can be found here becomes.
  • the methods according to the invention for characterizing, for building up an information signal database or for identifying a test information signal on the basis of an information signal database can be implemented in hardware or in software, depending on the requirements at hand.
  • the implementation can take place on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which can cooperate with a programmable computer system in such a way that the corresponding method is carried out.
  • the invention thus also consists in a computer program product with program code stored on a machine-readable carrier for carrying out one or more of the methods according to the invention when the computer program product runs on a computer.
  • the invention is a computer program with a program code for performing the method when the computer program runs on a computer.

Abstract

Zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, werden zunächst die lokalen Extremwerte des Informationssignals bestimmt (10), wobei ein lokaler Extremwert durch einen Zeitpunkt und eine Amplitude definiert ist. Ferner werden Flächeninformationen von Tälern oder Bergen des Informationssignals im Falle einer eindimensionalen Amplitude des Infor-mationssignals oder Volumeninformationen im Falle einer zweidimensionalen Amplitude des Informationssignals von Bergen oder Tälern ermittelt (11). Ein Tal oder Berg ist durch einen zeitlichen Abschnitt des Informationssignals definiert, wobei sich der Abschnitt des Informationssignals von dem Zeitpunkt eines lokalen Extremwerts bis zu einem zeitlich benachbarten Wert des Informationssignals erstreckt, der die gleiche Amplitude wie der lokale Extremwert aufweist. Flächen- oder Volumeninformationen von mehreren Bergen oder Tälern sind für das Informationssignal charakteristisch und erlauben eine weitergehende Charakterisierung des Informationssignals, einen Aufbau einer Informationssignal-Datenbank oder eine Identifikation eines Informationssignals anhand einer bestehenden Informationssignal-Datenbank. Flächen- bzw. Volumeninformationen sind einerseits charakteristisch für das Informationssignal und andererseits aufgrund ihrer integralen Natur robust gegenüber Informationssignalveränderungen in Form von Überlagerungen oder Verzerrungen.

Description

Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
Beschreibung
Die vorliegende Erfindung bezieht sich auf die Verarbeitung von Informationssignalen und insbesondere auf die Merkmalsextraktion von Informationssignalen beispielsweise zur Charakterisierung der Informationssignale oder zur Identifikation und Datenbanksuche.
Konzepte, durch die Zeitsignale mit einem harmonischen Anteil, wie z. B. Audiodaten, identifizierbar und referen- zierbar sind, sind für viele Anwender nützlich. Insbesondere in einer Situation, in der ein Audiosignal vorliegt, dessen Titel und Autor unbekannt sind, ist es oftmals wünschenswert, herauszufinden, von wem das entsprechende Lied stammt. Ein Bedarf hierzu besteht beispielsweise, wenn der Wunsch vorhanden ist, z. B. eine CD des betreffenden Interpreten zu erwerben. Wenn das vorliegende Audiosignal lediglich den Zeitsignalinhalt umfaßt, jedoch keinen Namen über den Interpreten, den Musikverlag etc., so ist eine Identifizierung des Ursprungs des Audiosignals bzw. von wem ein Lied stammt, nicht möglich. Die einzige Hoffnung bestand dann darin, das Audiostück samt Referenzdaten bezüglich des Autors oder der Quelle, wo das Audiosignal zu erwerben ist, noch einmal zu hören, um dann den gewünschten Titel beschaffen zu können.
Im Internet ist es nicht möglich, Audiodaten unter Verwendung herkömmlicher Suchmaschinen zu suchen, da die Suchmaschinen lediglich mit textuellen Daten umgehen können. Audiosignale bzw. allgemeiner gesagt, Zeitsignale, die einen harmonischen Anteil haben, können durch solche Suchmaschinen nicht verarbeitet werden, wenn sie keine textuellen Suchangaben umfassen. Ein realistischer Bestand an Audiodateien liegt bei mehreren tausend gespeicherten Audiodateien bis zu hunderttau- senden von Audiodateien. Musikdatenbankinformationen können auf einem zentralen Internet-Server abgelegt sein, und po- tentielle Suchanfragen könnten über das Internet erfolgen. Alternativ sind bei heutigen Festplattenkapazitäten auch die zentrale Musikdatenbanken auf lokalen Festplattensystemen von Benutzern denkbar. Es ist wünschenswert, solche Musikdatenbanken durchsuchen zu können, um Referenzdaten über eine Audiodatei zu erfahren, von der lediglich die Datei selbst, jedoch keine Referenzdaten bekannt sind.
Darüber hinaus ist es gleichermaßen wünschenswert, Musikdatenbanken unter Verwendung vorgegebener Kriterien durchsu- chen zu können, die beispielsweise dahingehend lauten, ähnliche Stücke herausfinden zu können. Ähnliche Stücke sind beispielsweise die Stücke mit einer ähnlichen Melodie, einem ähnlichen Instrumentensatz, oder einfach mit ähnlichen Geräuschen, wie z. B. Meeresrauschen, Vogelgezwitscher, männliche Stimmen, weibliche Stimmen, etc.
Das U.S. -Patent Nr. 5,918,223 offenbart ein Verfahren und eine Vorrichtung für eine Inhalts-basierte Analyse, Speicherung, Wiedergewinnung und Segmentierung von Audioinfor- mationen. Dieses Verfahren beruht darauf, mehrere akustische Merkmale aus einem Audiosignal zu extrahieren. Gemessen werden Lautstärke, Baß, Tonhöhe, Brightness und Melfre- quenz-basierte Cepstral-Koffizienten in einem Zeitfenster bestimmter Länge in periodischen Intervallabständen. Jeder Meßdatensatz besteht aus einer Folge von gemessenen Merkmalsvektoren. Jede Audiodatei ist durch den kompletten Satz der pro Merkmal berechneten Merkmalsfolgen spezifiziert. Ferner werden die ersten Ableitungen für jede Folge von Merkmalsvektoren berechnet. Dann werden statistische Werte wie Mittelwert und Standardabweichung berechnet. Dieser Satz von Werten wird in einem N-Vektor, d. h. einem Vektor mit n Elementen, gespeichert. Diese Vorgehensweise wird auf eine Vielzahl von Audiodateien angewendet, um für jede Au- diodatei einen N-Vektor abzuleiten. Damit wird nach und nach eine Datenbank aus einer Vielzahl von N-Vektoren aufgebaut. Aus einer unbekannten Audiodatei wird dann unter Verwendung derselben Vorgehensweise ein Such-N-Vektor ext- rahiert. Bei einer Suchanfrage wird dann eine Abstandsberechnung des vorgegebenen N-Vektors und der in der Datenbank gespeicherten N-Vektoren ermittelt. Schließlich wird der N-Vektor ausgegeben, der den minimalen Abstand zu dem Such-N-Vektor hat. Dem ausgegebenen N-Vektor sind Daten ü- ber den Autor, den Titel, die Beschaffungsquelle etc. zugeordnet, so daß eine Audiodatei hinsichtlich ihres Ursprungs identifiziert werden kann.
Dieses Verfahren hat den Nachteil, daß mehrere Merkmale be- rechnet werden und willkürliche Heuristiken zur Berechnung der Kenngrößen eingeführt werden. Durch Mittelwert- und Standardabweichungsberechnungen über alle Merkmalsvektoren für eine gesamte Audiodatei wird die Information, die durch den zeitlichen Verlauf der Merkmalsvektoren gegeben ist, auf wenige Merkmalsgrößen reduziert. Dies führt zu einem hohen Informationsverlust.
Grundsätzlich haben alle sogenannten Features bzw. Merkmale, die zur Identifikation von Informationssignalen einge- setzt werden, zwei gegenläufige Anforderungen zu erfüllen. Die eine Anforderung besteht darin, eine möglichst gute Charakterisierung eines Informationssignals zu liefern. Die andere Anforderung besteht darin, daß das Merkmal oder Feature nicht besonders viel Speicherplatz in Anspruch nehmen darf, also so wenig Informationen als möglich haben darf. Im Hinblick auf den Speicherplatz kleinere Features haben unmittelbar kleinere Informationssignaldatenbanken zur Folge und resultieren auch in einer schnelleren Datenbanksuche, um eine qualitative Aussage über ein zu testendes In- formationssignal oder sogar eine quantitative Aussage über ein solches Informationssignal treffen zu können. Eine weitere ebenfalls wichtige Anforderung an das aus dem Informationssignal zu extrahierende Merkmal besteht darin, daß das Merkmal robust gegenüber Veränderungen sein sollte. Solche Veränderungen bestehen in einem systemimmanenten Rauschen, einer Verzerrung z. B. aufgrund eines verlustbehafteten Codierverfahrens. Andere Signalveränderungen sind beispielsweise Änderungen der Lautstärke am Beispiel eines Audiosignals sowie Verzerrungen aufgrund eines Abspielens eines Audiosignals über einen Lautsprecher und Wiederauf- zeichnen des Audiosignals über ein Mikrophon etc.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein flexibles und robustes Konzept zum Charakterisieren eines Informationssignals zu schaffen.
Diese Aufgabe wird durch eine Vorrichtung zum Charakterisieren eines Informationssignals gemäß Anspruch 1, ein Verfahren zum Charakterisieren eines Informationssignals nach Patentanspruch 19, eine Vorrichtung zum Aufbauen einer In- formationssignaldatenbank nach Patentanspruch 20, ein Verfahren zum Aufbauen einer Informationssignaldatenbank nach Patentanspruch 21, eine Vorrichtung zum Identifizieren eines Informationssignals nach Patentanspruch 22, ein Verfahren zum Identifizieren eines Informationssignals nach Pa- tentanspruch 23 oder ein Computer-Programm nach Patentanspruch 24 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß eine einerseits charakteristische Darstellung eines ln- formationssignals und andererseits eine Darstellung des Informationssignals mit begrenztem Speicheraufwand dadurch erreicht werden kann, daß der Amplituden-Zeit-Verlauf des Informationssignals dahingehend verarbeitet wird, daß lokale Extremwerte bestimmt werden, und daß Flächeninformatio- nen im Falle eines Informationssignals mit eindimensionaler Amplitude oder Volumeninformationen im Falle eines Audiosignals mit zweidimensionaler Amplitude von Tälern oder Bergen des Informationssignals ermittelt werden, wobei je- dem Tal oder Berg des Informationssignals ein lokaler Extremwert sowie ein zeitlicher Abschnitt zugeordnet ist, wobei sich der zeitliche Abschnitt des Informationssignals für einen Berg oder für ein Tal von dem Zeitpunkt des loka- len Extremwerts bis zu einem zeitlich benachbarten Wert des Informationssignals erstreckt, der die gleiche Amplitude wie der lokale Extremwert aufweist. Dadurch werden Flächeninformationen bzw. Volumeninformationen in zeitlich aufeinanderfolgender Darstellung erhalten, die für das Informati- onssignal charakteristisch sind.
Die vorliegende Erfindung ist dahingehend vorteilhaft, daß die charakteristischen Eigenschaften eines Amplituden-Zeit- Verlaufs in Form von Flächeninformationen oder Volumenin- formationen integrale Größen sind, die im Gegensatz beispielsweise zu Amplituden-Zeit-Tupel oder zu sonstigen eher an den akustischen Eigenschaften eines Audiosignals angenäherten Merkmalen, relativ invariante Größen sind, die in ihrer tatsächlichen quantitativen Größe oder zumindest in ihrer relative Größe in Hinblick auf eine zeitliche Folge gegenüber Verzerrungen, Rauschen etc. eine hohe Robustheit aufweisen.
Darüber hinaus ermöglicht das erfindungsgemäße Konzept der Darstellung eines Informationssignals durch integrale Größen, die vom Amplituden-Zeit-Verlauf des Informationssignals abgeleitet sind, eine stark komprimierte Darstellung, die im Hinblick auf eine Informationssignal-Identifikation zum einen zu kleinen Datenbanken führt und zum anderen zu kurzen Suchdauern zum Durchsuchen einer Datenbank unter Verwendung einer solchen Charakteristik eines zu testenden Signals .
Ein weiterer Vorteil des erfindungsgemäßen Konzepts besteht darin, daß die Darstellung eines Informationssignals mit einem Amplituden-Zeit-Verlauf anhand von integralen Flächen- oder Volumeninformationen in zeitlicher Folge besonders gut für Informationssignale geeignet sind, die sich wiederholende Grundstrukturen haben, wie z. B. Audiosignale. So liefern Instrumente beispielsweise ein Signal, das für jedes Instrument charakteristisch ist, und das insbesondere eine für jedes Instrument charakteristische Folge von Flächeninformationen aufweist. Sich wiederholende Muster treten auf, wenn ein Instrument aufeinanderfolgende Töne spielt. Dieses Muster findet sich unmittelbar in den aufeinanderfolgenden Flächeninformationen wieder. Eine Mustererkennung der Folge von Flächeninformationen kann daher dazu verwendet werden, das Audiosignal zu segmentieren, um diverse Nachverarbeitungen vornehmen zu können, wie z. B. eine Polyphonklangerkennung, eine Musikinstrumentenerkennung oder eine Melodieerkennung. Darüber hinaus zeichnen sich gesprochene Laute durch sich wiederholende Signalmus- ter aus. Daher ist das erfindungsgemäße Konzept auch zur Nachverarbeitung von Sprachsignalen geeignet, um beispielsweise eine Spracherkennung durchzuführen.
Quasi-stationäre Audiosignale als Beispiel für Informati- onssignale, die sich besonders gut für das erfindungsgemäße Konzept eignen, wobei die Audiosignale beispielsweise durch Sprachlaute oder Musikinstrumenten-Laute dargestellt sind, zeichnen sich dadurch aus, daß Replika des gleichen bzw. eines nur langsam veränderlichen Bodenprofils bzw. der gleichen oder einer nur langsam veränderlichen Audiosignalform n-fach aneinander gereiht werden, abhängig davon, wie lange der Sprachlaut gehalten bzw. wie lange der Ton angehalten wird. Replika der gleichen Signalform werden lokal festgestellt, indem gleiche oder nur geringfügig abweichen- de Flächeninformationen der Folge von Flächeninformationen vorzugsweise des Original- und des Komplementärsignals miteinander verglichen werden.
Gleiche Wellenzüge werden also dadurch identifiziert, daß gleiche Flächeninhalte assoziiert werden. Der absolute Inhalt, d. h. ein Flächenintegral, kann aber auch angeben, ob es sich um einen Vokal, Konsonant, ein bestimmtes Musikinstrument, einen hochfrequenten Ton etc. handelt. Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Charakterisieren eines Informationssignals;
Fig. 2 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Aufbauen einer Informationssignal- Datenbank;
Fig. 3 ein Blockschaltbild einer erfindungsgemäßen Vor- richtung zum Identifizieren eines Test-Informationssignals unter Verwendung einer Informationssignal-Datenbank;
Fig. 4 einen Amplituden-Zeit-Verlauf eines beispielhaf- ten Informationssignals mit eingezeichneten Flächeninformationen für lokale Maxima und lokale Minima;
Fig. 5 ein beispielhaftes Signalformdiagramm für einen gesprochenen Vokal "o"; und
Fig. 6 ein Amplituden-Zeit-Verlauf zur Darstellung der Normierung einer Fläche bzw. eines Volumens auf eine Gesamtfläche bzw. ein Gesamtvolumen.
Bevor detaillierter auf die nachfolgenden Figuren eingegangen wird, wird zunächst zur besseren Anschaulichkeit der Erfindung das allgemeine Prinzip erläutert. In Anlehnung an die nachfolgende Erörterung wird das erfindungsgemäße Kon- zept für Audiosignale als Informationssignale auch als "Au- dio-Watershed" bezeichnet. Dieses Konzept ist ein Konzept, mit dem Audiosignale in Intervalle unterteilbar sind. In der Geodäsie ist das Konzept sehr anschaulich beschreibbar. Berg- und Talbodenformationen werden von Regenwasser angefüllt. Das Wasser sammelt sich in Talsenken und umströmt Bergkuppen. Der maximale Füllstand einer isolierten Region ist durch das zweidimensionale Bodenprofil und die Höhe der geringsten Durchlaßstelle gegeben. Die aufgenommene Wassermenge kann einfach bestimmt werden, indem gemessen wird, welche Wassermenge der kontinuierlich strömenden Regenwasserquelle bis zum Überlauf entnommen wurde.
Für eindimensionale Informationssignale, beispielsweise Audiosignale, verteilen sich die herabregnenden Wassermengen über den gesamten Verlauf der Audiowellenzüge. Zwischen zwei benachbarten lokalen Wellenmaximas bleibt das Wasser stehen und wird eingeschlossen. Sukzessive können weitere Teilbereiche geflutet werden, bis zum Schluß auch das Amplitudenmaximum der gesamten Signaldarstellung geflutet ist. Zu diesem Zweck müßte angenommen werden, daß die Ränder am Anfang und am Ende des Signals hoch sind, und zwar mindestens höher als das globale Maximum des Signals. Dieses Kon- zept funktioniert jedoch auch ohne die Annahme solcher hoher Ränder. Dann wird das Maximum nicht geflutet, sondern das Wasser steigt nur bis zur Höhe des zweithöchsten Maximums an .
Zur detaillierteren Darstellung des Signals wird es bevorzugt, den Signalverlauf längs der t-Achse zu spiegeln, um ein komplementäres Informationssignal zu erhalten, um das invertierte Profil entsprechend durch Flächenbestimmung der Täler zu vermessen.
Nachdem sich insbesondere bei den beschriebenen Informationssignalen gleiche Wellenzüge periodisch quasi-stationär wiederholen, haben sie auch immer den gleichen "Wasserinhalt", so daß eine Segmentierung aufgrund des Wasserinhalts eines Wellenzugs, der sich aus mehreren Wasserinhalten der Täler, die in dem Wellenzug vorhanden sind, zusammensetzt, erfolgen kann. Gleiche Wellenzüge werden also dadurch identifiziert, daß gleiche Flächeninhalte assoziiert werden. Wie es noch anhand von Fig. 4 erläutert werden wird, kann die Informationssignalcharakterisierung nicht nur anhand von Tälern, die durch lokale Maxima definiert sind, durch- geführt werden, sondern auch anhand von Bergen, deren Basislinie durch ein lokales Minimum definiert ist, und deren Gipfel durch den Signalverlauf begrenzt sind. Diese Darstellung ist gleichwertig zur Invertierung des ursprünglichen Informationssignals und zur Betrachtung der Täler im invertierten Informationssignal.
Das erfindungsgemäße Konzept ist für sämtliche Informationssignale, die einen Amplituden-Zeit-Verlauf aufweisen, der lokale Extremwerte hat, anwendbar. Solche Informations- signal können Audiosignale, Videosignale, Spannungssignale oder Stromsignale, die irgendwie geartete Meßgrößen identifizieren, etc. sein. Am Beispiel von Audiosignalen oder Videosignalen sei darauf hingewiesen, daß der zeitliche Verlauf, also das Informationssignal nicht unbedingt eine Spannungsamplitude oder eine Stromamplitude angeben muß, sondern daß das Informationssignal auch eine Leistung oder einen Schalldruck als Amplitude haben kann.
Darüber hinaus sei darauf hingewiesen, daß das Informati- onssignal eine eindimensionale Amplitude haben kann, wie z. B. bei einem Audiosignal, daß das Informationssignal jedoch auch eine zweidimensionale Amplitude haben kann, so daß der Amplituden-Zeit-Verlauf des Informationssignals tatsächlich dreidimensionale Berge und Täler umfaßt, während diese Ber- ge und Täler im Falle eines Informationssignals mit eindimensionaler Amplitude lediglich einen zweidimensionalen Verlauf haben, also durch Flächeninformationen dargestellt werden können.
Darüber hinaus sei darauf hingewiesen, daß das Informationssignal selbstverständlich nicht ein kontinuierliches Signal sein muß, sondern daß dasselbe auch ein zeitdiskretes Signal sein kann, bei dem ein gedachter kontinuierli- eher Verlauf aus Anschaulichkeitsgründen angenommen werden kann, der sich durch eine gerade Verbindung aufeinanderfolgender zeitdiskreter Signalwerte oder durch Interpolation ergibt.
Nachfolgend wird anhand von Fig. 4 die vorliegende Erfindung dargestellt. Fig. 4 zeigt ein Informationssignal 40 mit einem Amplituden-Zeit-Verlauf. Bei dem in Fig. 4 gezeigten Informationssignal handelt es sich um ein Informa- tionssignal mit eindimensionaler Amplitude. Das dargestellte Informationssignal ist ein typisches Audiosignal, das sich wiederholende Wellenzüge hat, wobei ein Wellenzug im ersten Segment A dargestellt ist, während der sich wiederholende Wellenzug im zweiten Segment B dargestellt ist. Es sei darauf hingewiesen, daß sich das Informationssignal im zweiten Segment B selbstverständlich von dem Informationssignal im ersten Segment A unterscheidet, jedoch nicht in seiner grundsätzlichen Topologie sondern lediglich bei dem in Fig. 4 gezeigten Ausführungsbeispiel in der Amplitude zu bestimmten Zeitpunkten.
Das Informationssignal weist lokale Maxima 41a, 41b, 41c, 41d, 41e und 41f auf. Jedem lokalen Maximum ist ein eigenes Tal zugeordnet. Dem Maximum 41a ist das mit A0 bezeichnete Tal zugeordnet. Entsprechend ist dem Maximum 41b das Tal AI zugeordnet. Darüber hinaus ist dem Maximum 41d das ABI zugeordnet. Dem Maximum 41c ist nun, da ein Teil des gesamten Tals bereits durch ABI dem Maximum 41d zugeordnet ist, lediglich der darüberliegende Rest des Tals, der mit AB2 be- zeichnet ist, zugeordnet. Schließlich ist dem Maximum 41e das Tal Bl zugeordnet. Dem lokalen Maximum 41f in Fig. 4 ist kein eigenes Tal zugeordnet. Dies liegt jedoch lediglich daran, daß der weitere Verlauf des Informationssignals nicht mehr dargestellt ist.
Wie es aus Fig. 4 ersichtlich ist, ist jedes Tal durch einen zeitlichen Abschnitt definiert, der in Fig. 4 am Beispiel des Tals AI, dem das lokale Maximum 41b zugeordnet ist, mit 42 bezeichnet ist. Der zeitliche Abschnitt erstreckt sich insbesondere von dem Zeitpunkt 43 des Auftretens des lokalen Maximums 41b bis zu einem zeitlich benachbarten Wert des Informationssignals, der die gleiche Ampli- tude wie der lokale Extremwert aufweist. Dieser zeitliche Wert ist in Fig. 4 mit 44 bezeichnet. Damit ergibt sich die Fläche AI, die das dem lokalen Maximum 41b zugeordnete Tal repräsentiert. Entsprechend werden die anderen Täler A0, AB2, BO, Bl behandelt. Aus der Folge der Täler AO, AI, ABI, B0, Bl ergibt sich bereits eine Charakterisierung des Informationssignals, die zur Identifikation verwendet werden kann.
Erfindungsgemäß wird es jedoch bevorzugt, nicht nur die Flächeninformationen von Tälern des Informationssignals sondern auch die Flächeninformationen von Tälern des invertierten Informationssignals zu berechnen. Eine Inversion des Informationssignals kann erreicht werden, wenn Fig. 4 einfach umgedreht wird. Dies ist durch die umgekehrt ge- schriebenen Flächenidentifikatoren A0 ' , AI', A2 ' , A21', A210', B0', Bl', B2', B21', B210' dargestellt.
Alternativ, wenn Fig. 4 nicht "umgedreht wird", so ergeben sich die "Berge", die jedem lokalen Minimum zugeordnet sind, folgendermaßen. Eine Untersuchung des Informationssignals liefert lokale Minima 45a, 45b, 45c, 45e, 45f. Der erste Berg A0 ' ist durch das lokale Minimum 45a sowie durch den zeitlich benachbarten Wert des Informationssignals bestimmt, der denselben Wert wie das lokale Minimum hat, also einen Wert 46 definiert. Zwischen dem Wert 46 und dem lokalen Minimum 45a ergibt sich der zeitliche Abschnitt 47, der den Berg A0 ' identifiziert. Zur Charakterisierung des Informationssignals wird nun die Fläche des Berges AO ' gemäß der in Fig. 4 gezeigten Darstellung als Flächeninformatio- nen berechnet. Analog hierzu wird mit dem Berg AI', A2 ' etc. vorgegangen. Aus Fig. 4 ist ferner ein Fall ersichtlich, bei dem sich der Berg A210', dem das lokale Minimum 45c zugeordnet ist, über einem Berg A211 befindet, dem das lokale Minimum 45a zugeordnet ist und insbesondere über den Bergen AI' und A2 ' befindet, denen das lokale Minimum 45b zugeordnet ist. Aus dem in Fig. 4 gezeigten Beispiel ist somit ersichtlich, daß einem lokalen Minimum auch zwei Flä- cheninformationen zugeordnet sein können, derart, daß dem lokalen Minimum 45b sowohl die Flächeninformation des Bergs AI' als auch die Flächeninformation des Bergs A2 ' zugeordnet ist. Entsprechendes gilt für das lokale Minimum 45a, dem sowohl die Flächeninformationen AO ' als auch die Flä- cheninformationen A21' zugeordnet sind.
Bei der Betrachtung der Flächeninformationen A210', A21', A2 ' und AI' wird ersichtlich, daß hier dieselbe Vorgehensweise verwendet worden ist, wie sie anhand der übereinander liegenden Täler ABI und AB2 erläutert worden ist.
Nach einer Bearbeitung des Informationssignals dahingehend, daß die Flächeninformationen sämtlicher Berge und Täler in Zuordnung zu den entsprechenden lokalen Maxima und Mini a bzw. in Zuordnungen zu einem bestimmten Zeitpunkt sind, der ein ausgewählter Zeitpunkt aus dem zeitlichen Abschnitt ist, wird eine Folge von Flächeninformationen bzw. Volumeninformationen erhalten, wobei diese Folge von Zeit- Flächenwerten bzw. Zeit-Volumenwerten für das Informations- signal charakteristisch ist.
Nachfolgend wird Bezug nehmend auf Fig. 1 eine bevorzugte Vorrichtung zum Charakterisieren eines Informationssignals dargestellt. Die Vorrichtung zum Charakterisieren eines In- formationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, umfaßt eine Einrichtung 10 zum Bestimmen von lokalen Extremwerten des Informationssignals, wobei ein lokaler Extremwert einen Zeitpunkt und einen Amplitudenwert umfaßt. Der Einrichtung 10 zum Bestimmen von lokalen Extremwerten ist eine Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformationen für Berge und Täler des Informationssignals nachgeschaltet. Die Einrichtung zum Ermitteln von Flächeninformationen oder Volumenin- formationen ist wirksam, um die Fläche eines Tals oder Bergs zu berechnen, wobei ein Tal oder Berg durch einen zeitlichen Abschnitt des Informationssignals definiert ist, wobei sich der Abschnitt des Informationssignals von dem Zeitpunkt des lokalen Extremwerts bis zu einem zeitlich benachbarten Wert des Informationssignals, der die gleiche Amplitude wie der lokale Extremwert aufweist, erstreckt. Die Flächeninformationen von mehreren Bergen oder Tälern sind für das Informationssignal charakteristisch.
Vorzugsweise wird die Einrichtung 11 eine Folge von Flächeninformationen-Zeit-Werten erzeugen und einer Einrichtung 12 zum Nachverarbeiten zuführen, die ausgebildet ist, um einen nachverarbeiteten Merkmalsvektor auszugeben oder eine Spracherkennung, eine Musikinstrumentenerkennung, eine Melodieerkennung, eine Polyphonklangerkennung oder irgend eine sonstige Erkennung von Informationen durchzuführen, die in dem Informationssignal, das in die Einrichtung 10 eingespeist wird, enthalten sind.
Zur Bestimmung von lokalen Extremwerten durch die Einrichtung 10 können beliebige bekannte Konzepte hierfür verwendet werden, wie z. B. ein üblicher Minima-Maxima- Suchalgorithmus, der einen Abtastwert des Informationssig- nals mit dem vorherigen Abtastwert des Informationssignals vergleicht und dann ein lokales Maximum erkennt, wenn der zeitlich spätere Abtastwert kleiner als der zeitlich frühere Abtastwert ist, und wenn vorher ein lokales Minimum war. Der Algorithmus erkennt ferner ein lokales Minimum, wenn der zeitlich frühere Abtastwert größer als der zeitlich spätere Abtastwert ist, und wenn vorher ein lokales Maximum war. Alternativ kann der Maxima/Minima-Sucher auch ausgebildet sein, um mehrere aufeinanderfolgende Abtastwerte entsprechend auszuwerten. Um nicht durch ein dem Informati- onssignal überlagertes Rauschen beeinträchtigt zu werden, kann die Einrichtung 10 ferner ausgebildet sein, um vor der Maxima/Minima-Suche eine Tiefpaßfilterung des Informationssignals durchzuführen, um ein glatteres Informationssignal zu erhalten. Selbstverständlich sind beliebige andere Möglichkeiten denkbar, wie z. B. das Durchführen eines Poly- nomfits an das Informationssignal und das analytische Bestimmen von Extremwerten unter Verwendung der Polynomfit- funktionen. Alternativ könnte auch das direkt vorliegende ungefilterte Informationssignal verwendet werden, um sämtliche Maxima und Minima zu bestimmen, und um dann nachträglich die Berge oder Täler mit einem kleineren Flächeinhalt als einem vorgegebenen Schwellwert herauszufiltern bzw. in der weiteren Informationssignal-Charakterisierung nicht mehr zu verwenden.
Die Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformationen für Berge und Täler wird typischerweise als numerischer Integrator ausgebildet sein, um die Fläche zwischen dem Informationssignal und der oberen Talbegrenzung bzw. der unteren Bergbegrenzung zu berechnen. Im Falle von übereinanderliegenden Bergen oder Tälern ist die Einrichtung 11 zum Ermitteln von Flächen- bzw. Volumeninformatio- nen ausgebildet, um zu berücksichtigen, daß unter dem "Tal" bereits ein anderes "Tal" liegt. Als Basislinie zur Integration wird dann die obere Begrenzungslinie des darunterliegenden Tals, also beispielsweise die Linie 48 von Fig. 4 verwendet. Die Fläche AB2 berechnet sich also unter Verwen- düng der seitlichen Begrenzung der Fläche AB2, die durch das Informationssignal gegeben ist und unter Verwendung der Basislinie 48 und der oberen Begrenzung der Fläche AB2, die in Fig. 4 mit 49 dargestellt ist und gewissermaßen den "Wasserstand" definiert, der durch das lokale Maximum 41c festgelegt ist.
Im nachfolgenden wird auf unterschiedliche Ausgestaltungen der Einrichtung 12 zum Nachverarbeiten der Folge von Flächeninformationen bzw. Volumeninformationen eingegangen. Wie es bereits ausgeführt worden ist, eignet sich das erfindungsgemäße Konzept insbesondere zur Segmentierung von Informationssignalen auf der Basis der berechneten Volumeninformationen. In Fig. 4 sind zwei Replika A und B der Sig- nalform dargestellt. Es ergeben sich Kombinationspaare gleicher oder geringfügig abweichender Volumina. Im nichtinvertierten Signal sind dies die Kombinationspaare (AO, BO) , (AI, Bl) .
Im invertierten Signal, also hinsichtlich der Berge, ergeben sich folgende Kombinationspaare (AO ' , BO'), (AI', Bl ' ) , (A2\ B2'), (B21', A21'), (A210', B210').
Die prozentuale Schwankung ΔF/F ist für große eingeschlossene Flächen geringer, so daß besonders bei Rauschen die Flächeninformationsvergleiche großer Flächen eine verläßlichere Schätzung auf Identität sind. Ein Beispiel hierfür ist das Kombinationspaar (A210', B210'). Die repetitiven Volumina/Flächensequenzen (A210'_n, AB2_n, B210'_n) weisen auf das Vorliegen einer bestimmten Signalform hin. Der gesamte Informationssignalverlauf wird somit auf der Basis der Folge von Flächeninformationen in m Sequenzen von Flächen- bzw. Voluminaintervallen unterteilt, woraufhin Flä- chen- bzw. Voluminasequenzen zu Abschnitten der gleichen Informationssignalform zusammengefaßt werden. Eine Flächenbzw. Voluminahüllkurve wird bestimmt, indem der Aufbau der Wellensignalform sich langsam vollzieht, wobei die Flächen bzw. Volumina gleicher repetitiver Sequenzen in einer An- stiegsphase ansteigen, dann in einer Sustainphase annähernd gleich bleiben und dann in einer Abklingphase langsam abnehmen. An dieser Stelle sei darauf hingewiesen, daß typische Töne von Musikinstrumenten eine Anstiegsphase, eine Sustainphase und eine Abklingphase haben. So wäre bei- spielsweise bei einem Klavier, bei dem eine Saite durch den Aufschlag eines Hämmerchens angeregt wird, die Anstiegsphase relativ kurz. Die Sustainphase wäre ebenfalls relativ kurz, während die Abklingphase relativ lang dauern würde.
Eine Intervallgrenze ergibt sich dann, wenn sich Flächen bzw. Volumina abrupt ändern. Erfindungsgemäß kann auf der Basis der Folge von Flächenbzw. Voluminainformationen auch eine Frequenzbestimmung durchgeführt werden. Die Frequenz des Wiederholungsmusters wird bestimmt, indem die Abstände der lokalen Maxima bzw. lokalen Minima aufeinanderfolgender gleicher oder nur geringfügig unterschiedlicher Flächen bzw. Volumina in der Form beispielsweise ( (AO, BO) , AI, Bl) ) gebildet werden, und wenn im invertierten Signal die Abstände ( (AO ' , BO ' ) , (AI', Bl'), (A2', B2'), (A21', B21 ' ) , (A210', B210') gebil- det werden.
Das gewissermaßen entstehende Relief aufeinanderfolgender Bergkuppen und Talsohlen wird durch die Bestimmung des Re- pititionsmusters der Form (A210', AB2, B210') ermittelt. Das Feinprofil eines Bergkamms oder einer Talsohle wird durch die Angabe der strukturierenden Elemente A0, AI und A0', AI', A2', A21' bestimmt.
Erfindungsgemäß ist die Einrichtung 12 zum Nachverarbeiten ferner ausgebildet, um jeder Flächeninformation oder Volumeninformation einen Vektor zuzuweisen, der vorzugsweise den Zahlenwert des Flächeninhalts bzw. Volumeninhalts und den Zeitwert des Auftretens umfaßt. Als Zeitwert des Auftretens kann irgend ein Zeitwert des zeitlichen Abschnitts genommen werden. Es wird bevorzugt, einem Flächeninhalt den Zeitpunkt des Auftretens des lokalen Extremwerts zuzuordnen, der dem Flächeninhalt zugeordnet ist. Bedingt ein lokaler Extremwert, wie z. B. der lokale Extremwert 45b von Fig. 4 zwei in Fig. 4 gezeigte "Berge" AI', A2 ' , so wird den Flächeninformationen AI', A2 ' derselbe Zeitwert zugeordnet, nämlich der Zeitwert des Auftretens des lokalen Minimums 45b.
Damit entsteht ein Zahlenfeld von n Vektoren längs der Zeitachse. Solche Sequenzen von Vektoren können mit DNA- Sequencing-Methoden mit bestehenden Volumenvektoren, die in einer Musikdatenbank gespeichert sind, verglichen werden, um über Identifikationen, die den einzelnen Vektoren in der Musikdatenbank zugeordnet sind, beispielsweise eine Infor- mationssignal-Identifikation durchzuführen.
Werden die Informationssignale, wie z. B. Audiosignale un- terschiedlicher Aufnahmen, normiert, so können Flächenbzw. Voluminasequenzen direkt miteinander verglichen werden. Mit einer Frequenzbestimmung können Flächen bzw. Volumina, die die gleiche Audiosignalform haben, aber durch die frequenzabhängige Zeitdehnung dennoch unterschiedliche Flä- chen bzw. Volumina aufweisen, miteinander in Bezug gesetzt werden .
Aus den Volumina bzw. Flächen und der Lage der Maxima bzw. Minima können erfindungsgemäß weitere Flächenform- beschreibende Parameter, wie z. B. die longitudinale Ausdehnung, durch die Einrichtung 12 zum Nachverarbeiten von Fig. 1 bestimmt werden. Solche weiteren Parameter erlauben eine Aussage, ob es sich beispielsweise um Sprachlaute oder von Musikinstrumenten evozierte Signale handelt. In dem In- formationssignal selbst können vorzugsweise durch die Einrichtung 12 zum Nachverarbeiten lediglich relative Flächen bzw. Volumina verwendet werden, indem durch die Einrichtung 12 zum Nachverarbeiten das Verhältnis aufeinanderfolgender Flächen bzw. Volumina gebildet wird.
Allgemein gesagt haben Sprachlaute, Polyphonklänge oder von Musikinstrumenten evozierte Monophonklänge voneinander abweichende Audiosignalformen und sind daher anhand der Flächen- bzw. Voluminasequenzen unterscheidbar. Der frequenz- abhängige Anteil einer gleichen Audiosignalform wird ebenfalls durch eine Änderung der Flächen bzw. Volumina bestimmt. Ist einem Sprachlaut (Vokal) eine insgesamte Fläche eindeutig zuordenbar, so können Vokalabschnitte aus dem Informationssignal herausgelesen werden. Ebenfalls können Konsonanten und Übergangsabschnitte durch Angabe der Flächen- bzw. Voluminasequenzen unter Verwendung der Einrichtung 12 zum Nachverarbeiten bestimmt werden. Dasselbe trifft für Polyphonklänge wie auch für Melodiefolgen zu. Fig. 2 zeigt eine Vorrichtung gemäß einem weiteren Aspekt der vorliegenden Erfindung, die zum Aufbau einer Informationssignal-Datenbank dient. In eine Vorrichtung 20 zum Cha- rakterisieren, die prinzipiell so aufgebaut sein kann, wie es in Fig. 1 dargestellt ist, werden aufeinanderfolgend mehrere Informationssignale unter der Steuerung einer Steuereinrichtung 21 eingespeist, um für jedes der mehreren Informationssignale einen Merkmalsvektor zu bestimmen, der von den Flächen- bzw. Voluminainformationen abgeleitet ist. Damit kann eine Informationssignaldatenbank 22 aufgebaut werden, deren Kernstück ein Speicher 23 ist, in dem die Merkmalsvektoren (MM1, MM2, MM3) der in die Einrichtung 20 eingespeisten Informationssignale jeweils in Zuordnung zu bestimmten Identifikatoren (ID1, ID2, ID3) gespeichert sind. Die Identifikatoren IDl, ID2, ID2 erlauben eine Identifikation der Informationssignale, deren Merkmalsvektoren MM1, MM2, MM3 in der Informationssignaldatenbank und insbesondere in dem Speicher 23 der Informationssignaldatenbank abgelegt sind. Eine Informationssignaldatenbank ist um so universeller, je mehr einzelne Informationssignale durch die Vorrichtung 20 zum Charakterisieren verarbeitet worden sind und in entsprechender Form, also mittels eines dieselben jeweils charakterisierenden Merkmalsvektors, im Spei- eher vorhanden sind.
Fig. 3 zeigt eine erfindungsgemäße Vorrichtung zum Identifizieren eines Test-Informationssignals anhand einer Informationssignaldatenbank 22, die prinzipiell genauso aufge- baut sein kann, wie die anhand von Fig. 2 beschriebene Informationssignaldatenbank. Hierzu wird in die Vorrichtung 20 zum Charakterisieren ein Test-Informationssignal eingespeist, das zu identifizieren ist, bzw. von dem eine Identifikation in Hinblick auf bestimmte Merkmale desselben in qualitativer und/oder quantitativer Hinsicht erlangt werden soll. Durch die Einrichtung 20 zum Charakterisieren wird aus dem Test-Informationssignal ein Test-Merkmalsvektor ermittelt, der das Test-Informationssignal charakterisiert. Mit diesem Test-Merkmalsvektor wird dann eine Suche in der Informationssignal-Datenbank unter den im Speicher 23 gespeicherten Merkmalsvektoren MMl, MM2, MM3 durchgeführt, um am Ausgang der Informationssignal-Datenbank eine Aussage über das Test-Informationssignal zu erhalten.
Die Aussage über das Test-Informationssignal, die durch die in Fig. 3 gezeigte Vorrichtung zum Identifizieren des Test- Informationssignals geliefert wird, kann beispielsweise ei- ne tatsächliche Bestimmung des Autors oder Urhebers des Informationssignals sein. Eine Aussage kann jedoch auch eine quantitative Aussage sein, dahingehend, daß das Test- Informationssignal beispielsweise eine bestimmte Anzahl von Vokalen oder Konsonanten enthält. In diesem Fall wären die Merkmalsvektoren MMl, MM2, MM3, die in der Informationssignal-Datenbank gespeichert sind, Merkmalsvektoren einzelner Vokale oder Konsonanten. Nachdem der Merkmalsvektor, der durch die Vorrichtung zum Charakterisieren 20 erzeugt werden kann, ein quantitativer Merkmalsvektor ist, und nachdem in diesem Fall die in der Informationssignal-Datenbank abgespeicherten Merkmalsvektoren ebenfalls quantitative Merkmale sind, können auch quantitative Aussagen über das Test- Informationssignal getroffen werden, nämlich dahingehend, daß es einen bestimmten Ähnlichkeitsgrad zu einem Informa- tionssignal hat, das anhand seines Merkmalsvektors in der Informationssignal-Datenbank vorliegt .
Fig. 5 zeigt ein beispielhaftes Signalformdiagramm, das sich ergibt, wenn der Vokal "o" bei einer Frequenz von etwa 100 Hz durch den Erfinder gesprochen wird. Entlang der Koordinate ist in Fig. 5 die Amplitude normiert auf Werte zwischen - 1,0 und 1,0 aufgetragen. Entlang der Abszisse ist in Fig. 5 die Zeit in Sekunden aufgetragen. Es zeigt sich, daß der Vokal "o" ein stark repetitives Signalmuster hat, das sehr ähnliche Flächen- bzw. Volumeninformationen- Sequenzen aufweist. Im einzelnen ist zu sehen, daß sich die Sequenz von Flächeninformationen VI, V2 periodisch wiederholt. Durch Feststellen dieser Sequenz VI, V2 in der zeitlichen Folge von Volumeninformationen wird erfindungsgemäß eine Segmentierung durchgeführt, beispielsweise bei dem lokalen Maximum, das die mit V2 bezeichneten Flächeninformationen bestimmt und in Fig. 5 mit 50 bezeichnet ist.
Alternativ könnte eine Segmentierung auch bei einem lokalen Minimum, wie z. B. dem Maximum 50 lokalbenachbarten Minimum oder dem wieder nach links benachbarten lokalen Maximum vorgenommen werden, das das Tal identifiziert, das mit VI bezeichnet ist.
Anhand der Fig. 5 ist ferner zu sehen, daß die Flächenin- formationen VI das gesamte linke Tal der Signalform umfassen. Das durch VI identifizierte Tal umfaßt somit die Flächeninformationen der beiden Täler unterhalb der gestrichelten Linie 51 sowie die Flächeninformationen zwischen der Linie 51 und der oberen Begrenzungslinie, die durch ein lokales Maximum 52 definiert ist. Aus Fig. 5 ist ersichtlich, daß entweder Sequenzen von einzelnen Flächeninformationen von Tälern oder Bergen verwendet werden können, oder daß zur Segmentierung auf der Basis von auftretenden Flä- cheninformationssequenzen auch "kombinierte" Täler/Berge genommen werden können, wie z. B. das durch VI identifizierte Tal .
Bei einem weiteren bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird neben den Flächen/Volumeninforma- tionen auch die Höheninformation berücksichtigt. Dieses Konzept hat wiederum sein Analogon in der Geodäsie, wenn nämlich nicht nur die Wassermenge in einem Tal berücksichtigt wird, sondern die potentielle Energie dieser Wassermengen in dem Tal. Damit ist eine Hyperfeinstruktur des Signals angebbar, indem zusätzlich der Energieterm der potentiellen Energie angegeben wird. Die potentielle Energie ist gleich dem Produkt aus Dichte, Volumen, Beschleunigung und Höhe. Ferner kann eine gewissermaßen kompressionslose Flüssigkeit angenommen werden. Darüber hinaus werden die Dichte und die Beschleunigung konstant angenommen und so eingestellt, daß sich die Lageenergie eines "Wasserspeichers" aus dem integralen Produkt aus eingeschlossenen Volumen und Höhe errechnet. Die Energie des in dem mit VI bezeichneten Tal in Fig. 5 kann durch Zerlegen des Tals in kleine Rechtecke berechnet werden, wobei die Fläche jedes Rechtecks vor der Aufsummation mit der Höhe dieses Rechtecks, also der Amplitude, die diesem Rechteck zugeordnet ist, multipliziert wird.
Damit werden höher gelegene Volumina stärker gewichtet, während Rauschen um die Nullinie weniger stark gewichtet wird. Die Gewichtung höher gelegenen Flächeninformationen durch Miteinbeziehung der entsprechenden Höhe entspricht dem üblichen Wesen von Musiksignalen, bei denen laute Signalanteile die Tendenz besitzen, höher informationstragend zu sein als leise Signalanteile.
Ein Signal mit stärkerer Amplitude trägt somit mehr Infor- mationen als ein Signal mit schwächerer Amplitude. Diesem Aspekt wird durch die Gewichtung der Folge von Flächeninformationen mit entsprechenden Höheninformationen, um gewissermaßen die potentielle Energie eines in einem Tal befindlichen Wassers zu erhalten, Genüge getan.
Im nachfolgenden wird ferner auf ein bevorzugtes Ausfüh- rungsbeispiel beispielsweise zum Berechnen der Fläche AI von Fig. 4 eingegangen. Vorzugsweise wird die Fläche AI derart berechnet, daß zumindest die Fläche des Rechtecks berechnet wird, das sich durch die obere Begrenzungslinie 42, eine untere Begrenzungslinie, die durch das lokale Minimum 45b geht, sowie die beiden in Fig. 4 eingezeichneten gestrichelten Seitenlinien ergibt . Daraufhin wird eine normale Integration des Signals vom lokalen Maximum 41b bis zum Punkt 44 durchgeführt, wobei als Nullinie der Funktion die Linie genommen wird, die durch das lokale Minimum 45b verläuft. Die dadurch erhaltene Fläche wird dann von der ursprünglich berechneten Rechtecksfläche subtrahiert, um schließlich die Fläche AI des Tals zu erhalten, das durch das lokale Maximum 41b definiert ist.
Es sei darauf hingewiesen, daß zur Berechnung der Flächen der Berge nicht eine erneute Integration über das Informationssignal durchgeführt werden muß, sondern daß eine einmalige Integration ausreichend ist, um dann anhand des Kurvenintegrals und verschiedener Rechtecke sämtliche Flächeninformationen der Täler bzw. Berge zusammenzustellen.
Wie es bereits ausgeführt worden ist, ist der Vokal "o" in Fig. 5 etwa bei 100 Hz gesprochen worden. Würde der Vokal bei einer höheren Frequenz gesprochen werden, so würde sich ein zwar ähnliches Zeitdiagramm ergeben, das jedoch hin- sichtlich der Zeitachse gestaucht ist. Würde der Vokal dagegen mit einer niedrigeren Frequenz aus 100 Hz gesprochen werden, so würde sich ein prinzipiell zu Figur 5 ähnliches Zeitdiagramm ergeben, das jedoch um einen entsprechenden Faktor, der von der Frequenzdifferenz abhängt, gedehnt ist.
Zur Frequenz-Amplitudennormierung wird daher erfindungsgemäß ein bei einer Normfrequenz, wie z. B. 100 Hz, gesprochener Vokal in der Informationssignaldatenbank 22 von Fig. 3 anhand seines Merkmalsvektors und seiner Identifikation abgelegt. Ein Testsignal, von dem nicht bekannt ist, bei welcher Frequenz es gesprochen worden ist, wird dann innerhalb der Informationssignaldatenbank hinsichtlich seines Test-Merkmalsvektors (Fig. 3) einem Sweep über der Frequenz unterzogen. Dies bedeutet, daß der Signalverlauf des Test- Signals, der Signalverlauf des in der Informationssignaldatenbank abgespeicherten Signals oder beide Signale oder Merkmalsvektoren entsprechend gestaucht bzw. gedehnt werden, um bei jedem Stauchungsfaktor z. B. anhand der Methode der kleinsten Fehlerquadrate eine Übereinstimmung festzu- stellen. Damit kann ermittelt werden, ob überhaupt zu irgendeinem Zeitpunkt des Frequenz-Sweeps eine ausreichend gute Übereinstimmung stattgefunden hat. Wird dies verneint, so umfaßt das Test-Informationssignal beispielsweise keinen gesprochenen Vokal "o" . Wird dagegen bei einer bestimmten Einstellung im Frequenz-Sweep eine ausreichend gute Übereinstimmung festgestellt, so kann davon ausgegangen werden, daß im Test-Informationssignal ein gesprochener Vokal "o" vorliegt, und daß dieser gesprochene Vokal bei einer be- stimmten Frequenz gesprochen worden ist.
Es sei darauf hingewiesen, daß sich durch die Dehnung/Stauchung des Merkmalsvektors oder, wenn die Dehnung/Stauchung vor der Extraktion des Merkmalsvektors durchgeführt wird, zwar die absoluten Flächeninformationen verändern. Gleich bleiben jedoch die Relationen der Flächen/Volumeninformationen zueinander, so daß eine Dehnung/Stauchung an der Zeitachse keine Auswirkung auf Sequenzen von Flächeninformationen dahingehend hat, daß diese nicht mehr identifiziert werden könnten.
Eine analoge Vorgehensweise wird im Hinblick auf eine Amplitudennormierung erfindungsgemäß eingesetzt. Wird der gesprochene Vokal "o" von Fig. 5 mit einer bestimmten mittle- ren Lautstärke in der Informationssignaldatenbank 22 von Fig. 3 abgespeichert, so kann eine Dehnung/Stauchung (Verstärkung/Dämpfung) entlang der Amplituden-Achse mit darauffolgender Fehlerquadratmethode durchgeführt werden, um erstens festzustellen, ob der Vokal überhaupt in einem Test- Informationssignal vorhanden ist, und um zweitens festzustellen, mit welcher Lautstärke der Vokal im Test- Informationssignal aufgetreten ist . Bestimmte Suchstrategien zur einzelnen oder kombinierten Veränderung, d.h. Dehnung/Stauchung entlang der Zeitachse und der Amplitudenach- se, wird auf den Stand der Technik im Hinblick auf DNA- Sequencing-Konzepte oder auf Methoden der kleinsten Fehlerquadrate verwiesen, um beispielsweise die minimale Metrik bzw. den nächsten Nachbar ( "Next Neighbor") zu bestimmen.
Alternativ kann zur Frequenz/Amplituden-Kalibrierung eine Informationssignaldatenbank 22 geschaffen werden, bei der die einzelnen Merkmalsvektoren mit bestimmten Lautstärke/Frequenz-Einstellungen eines Meßsystems aufgezeichnet worden sind. Sofern ein Zugriff hierauf besteht, können dieselben Einstellungen z. B. hinsichtlich der Lautstärke, von dem Test-Informationssignal gefordert werden. Hierauf kann eine Kennlinie abgeleitet werden, um Flächen/Volumeninformationen eines beispielsweise bei 140 Hz gesprochenen Vokals "o" in Flächen/ olumeninformationen bei der vorbestimmten Aufnahmeeinstellung, wie z. B. einer Frequenz von 100 Hz, umzurechnen bzw. abzubilden.
Schließlich wird darauf hingewiesen, daß stark signifikante Merkmale eines Audiosignals als Beispiel für ein Informationssignal in großen Volumen/Flächeninformationen liegen. Solche großen Volumen/Flächeninformationen ergeben sich durch Summation der Flächeninformationen ABI, AB2, B0 von Fig. 4. Das gesamte Tal, das durch AB2, ABI, B0 definiert ist, erhält seine Höhenbegrenzung 49 aufgrund des lokalen Maximums 41c. Durch Aufaddition der Täler, die durch lokale Maxima mit kleinerer Amplitude definiert sind, wie z. B. des lokalen Maximums 41d, wird die gesamte Fläche des durch die Begrenzungslinie 49 nach oben begrenzten Tals erhalten. Entsprechend wird für die Täler des invertierten Signals, d.h. die Berge des nicht-invertierten Signals vorgegangen. Der Berg, der insgesamt das erste Segment A identifiziert, ergibt sich aus den Flächeninformationen A210', A0 ' , A21', AI ' , A2 ' . Durch Ermitteln der Flächeninformationen eines gesamten Bergs oder eines gesamten Tals kann erfindungsgemäß eine Segmentierung mit verläßlichen Ergebnissen durchgeführt werden, da solche großen Flächeninformationen für Berge oder Täler für die Grobstruktur, d.h. für die repeti- tive Struktur des InformationsSignals, charakteristisch sind.
Als weiteres Merkmal oder Feature wird es bevorzugt, die Flächen/Volumeninformationen einer einzelnen Sequenz VI, V2 von Fig. 5 zu addieren, um eine Gesamtfläche der Sequenz zu erhalten, mit der eine Suche in einer Datenbank unternommen werden kann, in der Gesamt lächen von bekannten Sequenzen gespeichert sind. Das Feature der Gesamtfläche ist zwar für ein Signal weniger charakteristisch, ist dafür jedoch stär- ker komprimiert, so daß eine kleinere Musikdatenbank und eine schnellere Suche möglich sind. Dieses Feature ist dann ausreichend, wenn es noch ausreichend charakteristisch ist. An diesem Beispiel zeigt sich die einfach erreichbare Ska- lierbarkeit zwischen dem Merkmale der Charakterisierung und dem Speicherplatzmerkmal des erfindungsgemäßen Konzepts.
Alternativ oder zusätzlich zu der Gesamtfläche könnte auch die Gesamtenergie einer Sequenz VI, V2 von Fig. 5 einge- setzt werden. Für das Energiefeature gelten die vorstehenden Ausführungen ebenso.
Die erfindungsgemäßen Vorrichtungen und Verfahren können vorteilhafterweise um eine Normierung ergänzt werden. Die Normierung ist insbesondere günstig, wenn ein Signal einer Merkmals-Extraktionsprozedur gemäß der vorliegenden Erfindung unterzogen wird, um als Merkmal z. B. eine Folge von Volumeninformationen bzw. Flächeninformationen zu erhalten, wobei diese Folge, wenn sie eine wiederkehrende Sequenz in einem Signal ist, wie sie durch vorstehend beschriebene Segmentierungsalgorithmen erhalten werden kann, als Urvek- tor bezeichnet wird. Wenn z. B. ausgegangen wird, daß ein Urvektor eines Signals in einer Datenbank zu Vergleichszwecken abgespeichert ist, so wurde zur Gewinnung dieses Ur- vektors ein bestimmter Pegel bzw. eine bestimmte Lautstärke des Musiksignals verwendet, um den Urvektor zu generieren. Ein Vergleich eines Urvektor, der aus einem Testsignal abgeleitet worden ist, mit dem in der Datenbank gespeicherten Urvektor ist dann ohne weiteres möglich, wenn das Testsig- nal mit den selben Amplitudenverhältnissen vorliegt, wie das Vergleichssignal, von dem der in der Datenbank gespeicherte Urvektor abgeleitet worden ist. In anderen Worten ausgedrückt bedeutet dies, daß ein Urvektor-Vergleich ohne weiteres möglich ist, wenn die beiden Signale identische Signalverläufe A(t) haben.
Problematisch wird dies jedoch, wenn das Testsignal, dessen Urvektor mit einem in der Datenbank gespeicherten Urvektor verglichen werden soll, lauter abgespielt wird oder leiser abgespielt wird. Mathematisch ausgedrückt bedeutet dies, daß das Signal A(t), das dem Urvektor in der Datenbank zugrunde liegt, nicht gleich dem Testsignal ist, sondern daß das Testsignal ein c-faches des Signals ist, also mit c-A(t) beschrieben werden kann, wobei c größer oder kleiner 1 ist. Ist c größer als 1, so ist das Testsignal lauter als das Datenbanksignal, von dem der Urvektor in der Datenbank gespeichert ist. Ist der Faktor c kleiner als 1 und selbst- verständlich ungleich Null, so ist das Testsignal leiser als das Datenbanksignal.
Erfindungsgemäß wird daher, um einen Datenbank-Vergleich nicht an Lautstärkeunterschieden scheitern zu lassen bzw. zu erschweren, eine Normierung des Testsignals und vorzugsweise auch des Datenbanksignals hinsichtlich des Urvektors vorgenommen.
In Figur 6 ist ein beispielhafter Signalverlauf A(t) ge- zeigt. Ein nicht-normierter Urvektor würde die Voluminafolgen bzw. Flächenfolgen V12, V23, ..., VI-1, I umfassen. Der Urvektor wäre dann ein Vektor, der eine Voluminafolge umfaßt sie vorzugsweise ein Segment ist, die jedoch auch ein Teil eines Segments sein könnte.
Wie es ausgeführt worden ist, ist bei einer Streckung des Testsignals um einen Faktor c ein Vergleich mit einem entsprechenden Urvektor, der von einem Datenbanksignal abgeleitet worden ist, problematisch.
Es wird daher eine Normierung aller Komponenten des Urvektors vorgenommen, und zwar eine Normierung mit einem Normierungswert, der gleich dem Gesamtvolumen aller Einzelvolumina einer Folge von Volumina entspricht. Das Gesamtvolu- men einer Folge bzw. eines Urvektors berechnet sich durch Addition aller Einzelvolumen in dem Urvektor. Für das nicht-gestreckte Signal erhält man Vges = V12 + V23 + V34 +...+ Vn-l,n.
Das Gesamtvolumen eines mit dem Streckungsfaktor c beaufschlagten gestreckten Signals A'(t)=c-A(t) berechnet sich folgendermaßen:
Vges = C-V12 + C-V23 + ... + c-Vn-l,n.
Aus dem Vergleich des Gesamtvolumens für das gestreckte Signal Vges mit dem Gesamtvolumen des nicht-gestreckten Signal Vges ist zu sehen, daß diese über den Streckungsfaktor c multiplikativ zusammenhängen. Erfindungsgemäß wird daher eine Normierung jeder einzelnen Komponente Vi-1, i einer Folge von Volumina bzw. Flächen durch das Gesamtvolu- men bzw. die Gesamtfläche der Folge vorgenommen.
Aus dem gleichungsmäßigen Zusammenhang unterhalb des Diagramms in Figur 6 ist zu sehen, daß sich durch diese Normierung der Streckungsfaktor c herauskürzt, so daß ein nor- mierter Urvektor eine hinsichtlich der Lautstärke des Signals invariante Größe ist. In dieser Hinsicht wird es bevorzugt, sowohl den Urvektor, der in der Datenbank gespeichert ist, zu normieren als auch den Urvektor des Testsignals zu normieren. In diesem Fall sind beide Urvektoren ge- genüber jeglichen Amplitudenunterschieden, die durch eine multiplikative Streckung mit einem Faktor c beschrieben werden kann, invariant, so daß Lautstärkeunterschiede zwischen einem Testsignal und einem Datenbanksignal unerheblich sind und eine Musikerkennung nicht beeinträchtigen.
An dieser Stelle sei darauf hingewiesen, daß ein Urvektor nicht unbedingt jedes aufeinanderfolgende Volumen in einer Sequenz, die segmentiert worden ist , umfassen muss. Je nach Anwendung genügt es auch, z. B. nur jedes zweite bzw. jedes dritte Volumen einer Sequenz abzuspeichern, um den Speicherbedarf für die Urvektoren bzw. normierten Urvektoren zu verringern. In diesem Fall leidet jedoch auch die Aussagefähigkeit, so daß hier ein Kompromiß zu finden sein wird. Sollte eine solcher "lückenhafter" Urvektor verwendet werden, so wird dieser genauso normiert durch das Gesamtvolumen des lückenhaften Urvektors bzw. die Gesamtfläche des lückenhaften Urvektors. Es ist jedoch lediglich wichtig, daß der in der Datenbank gespeicherte Urvektor, mit dem ein Test-Urvektor verglichen werden soll, die selbe „Lückenhaftigkeit" hat.
Die erfindungsgemäßen Verfahren zum Charakterisieren, zum Aufbauen einer Informationssignal-Datenbank oder zum Identifizieren eines Test-Informationssignal anhand einer Informationssignal-Datenbank können je nach vorliegendem Bedarf in Hardware oder in Software implementiert werden. Die Implementation kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, daß das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung eines oder mehrerer der erfindungsgemäßen Verfahren, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt ist die Erfindung somit ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm auf einem Computer abläuft .

Claims

Patentansprüche
1. Vorrichtung zum Charakterisieren eines Informations- Signals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, mit folgenden Merkmalen:
einer Einrichtung (10) zum Bestimmen der lokalen Extremwerte des Informationssignals, wobei ein lokaler Extremwert durch einen Zeitpunkt und eine Amplitude definiert ist; und
einer Einrichtung (11) zum Ermitteln von Flächeninformationen von Tälern oder Bergen des Informationssig- nals im Falle einer eindimensionalen Amplitude des Informationssignals oder von Volumeninformationen von Tälern oder Bergen des Informationssignals im Falle einer zweidimensionalen Amplitude des Informationssignals, wobei ein Tal oder Berg durch einen zeitlichen Abschnitt (42, 47) des Informationssignals definiert ist, wobei sich der Abschnitt des Informationssignals von dem Zeitpunkt eines lokalen Extremwerts (43) bis zu einem zeitlich benachbarten Wert (44) des Informationssignals, der die gleiche Amplitude wie der lokale Extremwert aufweist, erstreckt, wobei die Flächeninformationen oder Volumeninformationen von mehreren Bergen oder Tälern für das Informationssignal charakteristisch sind.
2. Vorrichtung nach Anspruch 1,
bei der die Einrichtung (10) zum Bestimmen ausgebildet ist, um lokale Maxima des Informationssignals zu bestimmen, und
bei der die Einrichtung (11) zum Ermitteln von Flächeninformationen ausgebildet ist, um Flächeninformationen von Tälern des Informationssignals zu ermit- teln, wobei ein Tal durch einen zeitlichen Abschnitt des Informationssignals definiert ist, der sich von dem Zeitpunkt des lokalen Maximums bis zu einem zeitlich benachbarten Wert des Informationssignals er- streckt, der die gleiche Amplitude wie das lokale Maximum hat .
3. Vorrichtung nach Anspruch 2,
bei der die Einrichtung (11) zum Ermitteln von Flächeninformationen ausgebildet ist, um Flächeninformationen über ein Tal (AB2) des Informationssignals, das einem lokalen Maximum (41c) zugeordnet ist, das über einem Tal (ABI) des Informationssignals vorhanden ist, dem ein weiteres lokales Maximum (41d) mit kleinerer Amplitude als das eine lokale Maximum zugeordnet ist, so zu bestimmen, daß die Flächeninformationen des einen Tals (AB2) zusammen mit den Flächeninformationen des anderen Tals (ABI) auf eine geometrische Fläche zwischen dem Informationssignal und einer oberen Begrenzungslinie des einen Tals (AB2) hinweisen.
4. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (10) zum Bestimmen ausgebildet ist, um lokale Minima des Informationssignals zu bestimmen, und
bei der die Einrichtung (11) zum Ermitteln von Flä- cheninformationen ausgebildet ist, um Flächeninformationen von Bergen des Informationssignals zu ermitteln, wobei ein Berg durch einen zeitlichen Abschnitt des Informationssignals definiert ist, der sich von dem Zeitpunkt des lokalen Minimums bis zu einem zeit- lieh benachbarten Wert des Informationssignals erstreckt, der die gleiche Amplitude wie das lokale Minimum hat.
5. Vorrichtung nach Anspruch 4,
bei der die Einrichtung (11) zum Ermitteln von Flächeninformationen ausgebildet ist, um Flächeninforma- tionen über einen Berg (AI1) des Informationssignals, der einem ersten Minimum (45b) zugeordnet ist, der ü- ber einem Berg (A21') des Informationssignals vorhanden ist, dem ein zweites Minimum (45a) mit kleinerer Amplitude als das erste Minimum (45b) zugeordnet ist, so zu bestimmen, daß die Flächeninformationen des ersten Bergs zusammen mit den Flächeninformationen des zweiten Bergs auf eine geometrische Fläche zwischen dem Informationssignal und einer unteren Begrenzungslinie des ersten Bergs (A21') hinweisen.
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung zum Ermitteln ausgebildet ist, um als Flächeninformationen die geometrische Fläche eines Tals oder Bergs, das bzw. der einem lokalen Extremwert zugeordnet ist, zu berechnen.
7. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (11) zum Ermitteln ausgebildet ist, um den Flächeninformationen für ein Tal oder einen Berg einen Zeitwert zuzuweisen, der dem zeitlichen Abschnitt, wodurch den das Tal oder der Berg definiert ist, entnommen ist, durch eine Folge von Flächeninfor- mationen-Zeitwert-Tupeln entsteht.
8. Vorrichtung nach Anspruch 7,
bei der der Zeitwert der Zeitpunkt des lokalen Ex- tremswerts ist, der dem Tal oder dem Berg zugeordnet ist .
9. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (11) zum Ermitteln ausgebildet ist, um als Flächeninformationen quantitative Werte zu ermitteln.
10. Vorrichtung nach Anspruch 9,
die ferner folgendes Merkmal aufweist:
eine Einrichtung (12) zum Nachverarbeiten der Flächeninformationen von mehreren Bergen oder Tälern.
11. Vorrichtung nach Anspruch 10,
bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um Berge oder Täler, deren Flächeninformationen kleiner als ein vorbestimmter Schwellenwert sind, bei einer weiteren Verarbeitung zu unterdrücken.
12. Vorrichtung nach Anspruch 10 oder 11,
bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um eine Folge von Flächeninformations- Veränderungen durch Bestimmen eines Verhältnisses von jeweils zeitlich aufeinanderfolgenden Flächeninformationen oder durch Bilden einer Differenz zwischen zwei jeweils aufeinanderfolgenden Flächeninformationen zu ermitteln.
13. Vorrichtung nach Anspruch 10, 11 oder 12,
bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um die Folge von Flächeninformationen nach sich wiederholenden Sequenzen von Flächeninformationen zu untersuchen.
14. Vorrichtung nach Anspruch 13,
bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um das Informationssignal gemäß sich wiederholenden Sequenzen zu segmentieren.
15. Vorrichtung nach einem der Ansprüche 10 bis 14,
bei der die Einrichtung (12) zum Nachverarbeiten aus- gebildet ist, um Kombinationspaare von identischen Flächeninformationen oder von Flächeninformationen die sich weniger als eine vorbestimmte Toleranz unterscheiden, zu bestimmen, und um anhand einer Zeitdifferenz zwischen Zeitpunkten der Flächeninformationen ei- nes Kombinationspaars eine Frequenzinformation über das Informationssignal zu berechnen.
16. Vorrichtung nach einem der Ansprüche 10 bis, 12,
bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um abrupte Flächeninformationsänderungen in der Folge von Flächeninformationen zu bestimmen, und um bei abrupten Flächeninformationsänderungen das Informationssignal zu segmentieren.
17. Vorrichtung nach einem der Ansprüche 10 bis 16,
bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um Flächeninformationen zu normieren, um eine Folge von normierten Flächeninformationen zu erhalten.
18. Vorrichtung nach einem der Ansprüche 10 bis 17,
bei der die Einrichtung (12) zum Nachverarbeiten ausgebildet ist, um unter Verwendung der Flächeninformationen und von zugeordneten Zeitpunkten eine longitu- dinale Ausdehnung von Bergen oder Tälern zu erhalten, um bestimmen zu können, ob es sich bei dem Informationssignal um ein Audiosignal mit einer Sprache oder einer Instrumentenmusik handelt.
19. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der Einrichtung (11) zum Ermitteln ausgebildet ist, um eine Folge von Flächeninformationen oder Volumeninformationen zu ermitteln,
wobei die Vorrichtung ferner eine Normierungseinrichtung aufweist, die ausgebildet ist, um durch Addition von zumindest zwei Elementen der Folge von Flächeninformationen oder Volumeninformationen eine Gesamtflä- ehe oder ein Gesamtvolumen zu berechnen, und die ferner ausgebildet ist, um die Elemente der Folge durch die Gesamtfläche oder das Gesamtvolumen zu dividieren, um eine normierte Folge zu erhalten.
20. Vorrichtung nach Anspruch 19,
bei der die Normierungseinrichtung ausgebildet ist, um alle Elemente eines Segments der Folge aufzusummieren, wobei ein Segment ein Ur uster darstellt, das sich in einer unsegmentierten Folge wiederholt.
21. Verfahren zum Aufbauen einer Informationssignal- Datenbank (22) , mit folgenden Schritten:
Charakterisieren (20) eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, um Flächeninformationen für ein Informationssignal zu erhalten, gemäß einem der Patentansprüche 1 bis 18;
Zuführen (21) mehrerer Informationssignale zu der Vorrichtung (20) zum Charakterisieren, um für jedes Informationssignal einen Merkmalsvektor (MMl, MM2, MM3) zu erhalten, der von den Flächeninformationen für das Informationssignal abgeleitet ist; und
Speichern (23) von Merkmalsvektoren (MMl, MM2, MM3) für die Informationssignale, wobei jedem Merkmalsvektor ein Identifikator (ID1, ID2, ID3) des Informationssignals zugeordnet ist, aus dem der jeweilige Merkmalsvektor ermittelt worden ist.
22. Vorrichtung zum Identifizieren eines Informationssignals unter Verwendung einer Informationssignal- Datenbank (22), die Merkmalsvektoren (MMl, MM2, MM3) in Zuordnung zu jeweiligen Informationssignalidentifi- katoren (ID1, ID2, ID3) speichert, mit folgenden Merk- malen:
einer Vorrichtung zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, gemäß einem der Ansprü- ehe 1 bis 18, um Flächeninformationen von mehreren Bergen oder Tälern zu erhalten, die für das Informationssignal charakteristisch sind; und
einer Einrichtung zum Vergleichen eines Merkmalsvek- tors, der von den Flächeninformationen oder Volumeninformationen abgeleitet ist, die für ein Test- Informationssignal charakteristisch sind, mit in der Informationssignal-Datenbank (22) gespeicherten Merkmalsvektoren, um eine Aussage über das Informations- signal zu treffen.
23. Verfahren zum Identifizieren eines Informationssignals unter Verwendung einer Informationssignal-Datenbank
(22), die Merkmalsvektoren (MMl, MM2, MM3) in Zuord- nung zu jeweiligen Informationssignalidentifikatoren
(ID1, ID2, ID3) speichert, mit folgenden Schritten: Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten aufweist, gemäß einem der Ansprüche 1 bis 18, um Flächeninformationen von mehreren Bergen oder Tälern zu er- halten, die für das Informationssignal charakteristisch sind; und
Vergleichen eines Merkmalsvektors, der von den Flächeninformationen oder Volumeninformationen abgeleitet ist, die für ein Test-Informationssignal charakteristisch sind, mit in der Informationssignal-Datenbank (22) gespeicherten Merkmalsvektoren, um eine Aussage über das Informationssignal zu treffen.
24. Computer-Programm mit einem Programmcode zum Durchführen eines Verfahrens nach einem der Ansprüche 19, 21 oder 23, wenn das Programm auf einem Computer abläuft.
PCT/EP2003/001916 2002-07-19 2003-02-25 Vorrichtung und verfahren zum charakterisieren eines informationssignals WO2004010327A2 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP03764912A EP1523719B1 (de) 2002-07-19 2003-02-25 Vorrichtung und verfahren zum charakterisieren eines informationssignals
US10/950,309 US7035742B2 (en) 2002-07-19 2004-09-23 Apparatus and method for characterizing an information signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10232916.8 2002-07-19
DE10232916A DE10232916B4 (de) 2002-07-19 2002-07-19 Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US10/950,309 Continuation US7035742B2 (en) 2002-07-19 2004-09-23 Apparatus and method for characterizing an information signal

Publications (2)

Publication Number Publication Date
WO2004010327A2 true WO2004010327A2 (de) 2004-01-29
WO2004010327A3 WO2004010327A3 (de) 2004-04-22

Family

ID=30010238

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2003/001916 WO2004010327A2 (de) 2002-07-19 2003-02-25 Vorrichtung und verfahren zum charakterisieren eines informationssignals

Country Status (4)

Country Link
US (1) US7035742B2 (de)
EP (1) EP1523719B1 (de)
DE (1) DE10232916B4 (de)
WO (1) WO2004010327A2 (de)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7696163B2 (en) 2001-10-10 2010-04-13 Novo Nordisk A/S Erythropoietin: remodeling and glycoconjugation of erythropoietin
US7795210B2 (en) 2001-10-10 2010-09-14 Novo Nordisk A/S Protein remodeling methods and proteins/peptides produced by the methods
US7803777B2 (en) 2003-03-14 2010-09-28 Biogenerix Ag Branched water-soluble polymers and their conjugates
US7842661B2 (en) 2003-11-24 2010-11-30 Novo Nordisk A/S Glycopegylated erythropoietin formulations
US7932364B2 (en) 2003-05-09 2011-04-26 Novo Nordisk A/S Compositions and methods for the preparation of human growth hormone glycosylation mutants
US7956032B2 (en) 2003-12-03 2011-06-07 Novo Nordisk A/S Glycopegylated granulocyte colony stimulating factor
US8063015B2 (en) 2003-04-09 2011-11-22 Novo Nordisk A/S Glycopegylation methods and proteins/peptides produced by the methods
US8076292B2 (en) 2001-10-10 2011-12-13 Novo Nordisk A/S Factor VIII: remodeling and glycoconjugation of factor VIII
US8207112B2 (en) 2007-08-29 2012-06-26 Biogenerix Ag Liquid formulation of G-CSF conjugate
US8268967B2 (en) 2004-09-10 2012-09-18 Novo Nordisk A/S Glycopegylated interferon α
US8361961B2 (en) 2004-01-08 2013-01-29 Biogenerix Ag O-linked glycosylation of peptides
US8404809B2 (en) 2005-05-25 2013-03-26 Novo Nordisk A/S Glycopegylated factor IX
US8632770B2 (en) 2003-12-03 2014-01-21 Novo Nordisk A/S Glycopegylated factor IX
US8633157B2 (en) 2003-11-24 2014-01-21 Novo Nordisk A/S Glycopegylated erythropoietin
US8716240B2 (en) 2001-10-10 2014-05-06 Novo Nordisk A/S Erythropoietin: remodeling and glycoconjugation of erythropoietin
US8716239B2 (en) 2001-10-10 2014-05-06 Novo Nordisk A/S Granulocyte colony stimulating factor: remodeling and glycoconjugation G-CSF
US8791070B2 (en) 2003-04-09 2014-07-29 Novo Nordisk A/S Glycopegylated factor IX
US8791066B2 (en) 2004-07-13 2014-07-29 Novo Nordisk A/S Branched PEG remodeling and glycosylation of glucagon-like peptide-1 [GLP-1]
US8841439B2 (en) 2005-11-03 2014-09-23 Novo Nordisk A/S Nucleotide sugar purification using membranes
US8911967B2 (en) 2005-08-19 2014-12-16 Novo Nordisk A/S One pot desialylation and glycopegylation of therapeutic peptides
US8916360B2 (en) 2003-11-24 2014-12-23 Novo Nordisk A/S Glycopegylated erythropoietin
US8969532B2 (en) 2006-10-03 2015-03-03 Novo Nordisk A/S Methods for the purification of polypeptide conjugates comprising polyalkylene oxide using hydrophobic interaction chromatography
US9005625B2 (en) 2003-07-25 2015-04-14 Novo Nordisk A/S Antibody toxin conjugates
US9029331B2 (en) 2005-01-10 2015-05-12 Novo Nordisk A/S Glycopegylated granulocyte colony stimulating factor
US9050304B2 (en) 2007-04-03 2015-06-09 Ratiopharm Gmbh Methods of treatment using glycopegylated G-CSF
US9150848B2 (en) 2008-02-27 2015-10-06 Novo Nordisk A/S Conjugated factor VIII molecules
US9187546B2 (en) 2005-04-08 2015-11-17 Novo Nordisk A/S Compositions and methods for the preparation of protease resistant human growth hormone glycosylation mutants
US9187532B2 (en) 2006-07-21 2015-11-17 Novo Nordisk A/S Glycosylation of peptides via O-linked glycosylation sequences
US9200049B2 (en) 2004-10-29 2015-12-01 Novo Nordisk A/S Remodeling and glycopegylation of fibroblast growth factor (FGF)
US9493499B2 (en) 2007-06-12 2016-11-15 Novo Nordisk A/S Process for the production of purified cytidinemonophosphate-sialic acid-polyalkylene oxide (CMP-SA-PEG) as modified nucleotide sugars via anion exchange chromatography
CN114136249A (zh) * 2021-11-30 2022-03-04 国网上海市电力公司 一种变压器绕组变形超声检测信号新型去噪方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10157454B4 (de) * 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
WO2003062960A2 (en) 2002-01-22 2003-07-31 Digimarc Corporation Digital watermarking and fingerprinting including symchronization, layering, version control, and compressed embedding
US20050215239A1 (en) * 2004-03-26 2005-09-29 Nokia Corporation Feature extraction in a networked portable device
WO2006017659A2 (en) * 2004-08-06 2006-02-16 Digimarc Corporation Fast signal detection and distributed computing in portable computing devices
DE602004024318D1 (de) * 2004-12-06 2010-01-07 Sony Deutschland Gmbh Verfahren zur Erstellung einer Audiosignatur
JP4948118B2 (ja) * 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4465626B2 (ja) 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8321209B2 (en) 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
US8326625B2 (en) * 2009-11-10 2012-12-04 Research In Motion Limited System and method for low overhead time domain voice authentication
US20110276882A1 (en) 2010-05-04 2011-11-10 Kai Buehler Automatic grouping for users experiencing a specific broadcast media
US9355110B1 (en) 2011-07-14 2016-05-31 Google Inc. Dynamic presentation of data items based on prioritized associations
CN102902693B (zh) * 2011-07-29 2018-01-12 慧与发展有限责任合伙企业 检测在网页上的重复模式
US9405750B2 (en) * 2011-10-31 2016-08-02 Hewlett-Packard Development Company, L.P. Discrete wavelet transform method for document structure similarity
US20130178966A1 (en) * 2012-01-09 2013-07-11 Function(x), Inc. Method and System for Identifying a Media Program From an Audio Signal Associated With the Media Program
JP7075064B2 (ja) * 2018-03-09 2022-05-25 日本電気株式会社 信号源識別装置、信号源識別方法、プログラム
US10847177B2 (en) 2018-10-11 2020-11-24 Cordio Medical Ltd. Estimating lung volume by speech analysis
US11011188B2 (en) 2019-03-12 2021-05-18 Cordio Medical Ltd. Diagnostic techniques based on speech-sample alignment
US11024327B2 (en) * 2019-03-12 2021-06-01 Cordio Medical Ltd. Diagnostic techniques based on speech models
US11484211B2 (en) 2020-03-03 2022-11-01 Cordio Medical Ltd. Diagnosis of medical conditions using voice recordings and auscultation
SE544738C2 (en) * 2020-12-22 2022-11-01 Algoriffix Ab Method and system for recognising patterns in sound

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
DE3733659A1 (de) * 1986-10-03 1988-04-21 Ricoh Kk Verfahren zum vergleichen von mustern
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
US5903892A (en) * 1996-05-24 1999-05-11 Magnifi, Inc. Indexing of media content on a network
US5983176A (en) * 1996-05-24 1999-11-09 Magnifi, Inc. Evaluation of media content in media files
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
DE19750835C2 (de) * 1997-11-17 2002-06-27 Frank Klefenz Verfahren und Einrichtung zur Laufzeitdifferenzenbestimmung von akustischen Signalen
GR1003625B (el) * 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
GB9918611D0 (en) * 1999-08-07 1999-10-13 Sibelius Software Ltd Music database searching
DE19948974A1 (de) * 1999-10-11 2001-04-12 Nokia Mobile Phones Ltd Verfahren zum Erkennen und Auswählen einer Tonfolge, insbesondere eines Musikstücks
US6188010B1 (en) * 1999-10-29 2001-02-13 Sony Corporation Music search by melody input
US6678680B1 (en) * 2000-01-06 2004-01-13 Mark Woo Music search engine
US6307139B1 (en) * 2000-05-08 2001-10-23 Sony Corporation Search index for a music file
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
US7075000B2 (en) * 2000-06-29 2006-07-11 Musicgenome.Com Inc. System and method for prediction of musical preferences
US6545209B1 (en) * 2000-07-05 2003-04-08 Microsoft Corporation Music content characteristic identification and matching
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
US7532943B2 (en) * 2001-08-21 2009-05-12 Microsoft Corporation System and methods for providing automatic classification of media entities according to sonic properties
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US6913466B2 (en) * 2001-08-21 2005-07-05 Microsoft Corporation System and methods for training a trainee to classify fundamental properties of media entities
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
JP3555869B2 (ja) * 2000-09-28 2004-08-18 Necソフト株式会社 暗号化ファイル検索方法及びその装置並びにコンピュータ可読記録媒体
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10117871C1 (de) * 2001-04-10 2002-07-04 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Extrahieren einer Signalkennung, Verfahren und Vorrichtung zum Erzeugen einer Datenbank aus Signalkennungen und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
DE10117870B4 (de) * 2001-04-10 2005-06-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank
DE10123281C1 (de) * 2001-05-14 2002-10-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
US6747201B2 (en) * 2001-09-26 2004-06-08 The Regents Of The University Of Michigan Method and system for extracting melodic patterns in a musical piece and computer-readable storage medium having a program for executing the method
US20030061490A1 (en) * 2001-09-26 2003-03-27 Abajian Aram Christian Method for identifying copyright infringement violations by fingerprint detection
US6528715B1 (en) * 2001-10-31 2003-03-04 Hewlett-Packard Company Music search by interactive graphical specification with audio feedback
DE10157454B4 (de) * 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
US20030135377A1 (en) * 2002-01-11 2003-07-17 Shai Kurianski Method for detecting frequency in an audio signal
EP1378912A3 (de) * 2002-07-02 2005-10-05 Matsushita Electric Industrial Co., Ltd. Musiksuchsystem
US7081579B2 (en) * 2002-10-03 2006-07-25 Polyphonic Human Media Interface, S.L. Method and system for music recommendation
US20040194612A1 (en) * 2003-04-04 2004-10-07 International Business Machines Corporation Method, system and program product for automatically categorizing computer audio files
US7231389B2 (en) * 2003-05-26 2007-06-12 Matsushita Electric Industrial Co., Ltd. Music search device
EP1531478A1 (de) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Vorrichtung und Verfahren zur Klassifizierung eines Audiosignals
JP4199097B2 (ja) * 2003-11-21 2008-12-17 パイオニア株式会社 楽曲自動分類装置及び方法
US20050147256A1 (en) * 2003-12-30 2005-07-07 Peters Geoffrey W. Automated presentation of entertainment content in response to received ambient audio

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8716240B2 (en) 2001-10-10 2014-05-06 Novo Nordisk A/S Erythropoietin: remodeling and glycoconjugation of erythropoietin
US7795210B2 (en) 2001-10-10 2010-09-14 Novo Nordisk A/S Protein remodeling methods and proteins/peptides produced by the methods
US7696163B2 (en) 2001-10-10 2010-04-13 Novo Nordisk A/S Erythropoietin: remodeling and glycoconjugation of erythropoietin
US8076292B2 (en) 2001-10-10 2011-12-13 Novo Nordisk A/S Factor VIII: remodeling and glycoconjugation of factor VIII
US8716239B2 (en) 2001-10-10 2014-05-06 Novo Nordisk A/S Granulocyte colony stimulating factor: remodeling and glycoconjugation G-CSF
US7803777B2 (en) 2003-03-14 2010-09-28 Biogenerix Ag Branched water-soluble polymers and their conjugates
US8247381B2 (en) 2003-03-14 2012-08-21 Biogenerix Ag Branched water-soluble polymers and their conjugates
US8853161B2 (en) 2003-04-09 2014-10-07 Novo Nordisk A/S Glycopegylation methods and proteins/peptides produced by the methods
US8063015B2 (en) 2003-04-09 2011-11-22 Novo Nordisk A/S Glycopegylation methods and proteins/peptides produced by the methods
US8791070B2 (en) 2003-04-09 2014-07-29 Novo Nordisk A/S Glycopegylated factor IX
US7932364B2 (en) 2003-05-09 2011-04-26 Novo Nordisk A/S Compositions and methods for the preparation of human growth hormone glycosylation mutants
US9005625B2 (en) 2003-07-25 2015-04-14 Novo Nordisk A/S Antibody toxin conjugates
US8916360B2 (en) 2003-11-24 2014-12-23 Novo Nordisk A/S Glycopegylated erythropoietin
US7842661B2 (en) 2003-11-24 2010-11-30 Novo Nordisk A/S Glycopegylated erythropoietin formulations
US8633157B2 (en) 2003-11-24 2014-01-21 Novo Nordisk A/S Glycopegylated erythropoietin
US7956032B2 (en) 2003-12-03 2011-06-07 Novo Nordisk A/S Glycopegylated granulocyte colony stimulating factor
US8632770B2 (en) 2003-12-03 2014-01-21 Novo Nordisk A/S Glycopegylated factor IX
US8361961B2 (en) 2004-01-08 2013-01-29 Biogenerix Ag O-linked glycosylation of peptides
US8791066B2 (en) 2004-07-13 2014-07-29 Novo Nordisk A/S Branched PEG remodeling and glycosylation of glucagon-like peptide-1 [GLP-1]
US8268967B2 (en) 2004-09-10 2012-09-18 Novo Nordisk A/S Glycopegylated interferon α
US9200049B2 (en) 2004-10-29 2015-12-01 Novo Nordisk A/S Remodeling and glycopegylation of fibroblast growth factor (FGF)
US10874714B2 (en) 2004-10-29 2020-12-29 89Bio Ltd. Method of treating fibroblast growth factor 21 (FGF-21) deficiency
US9029331B2 (en) 2005-01-10 2015-05-12 Novo Nordisk A/S Glycopegylated granulocyte colony stimulating factor
US9187546B2 (en) 2005-04-08 2015-11-17 Novo Nordisk A/S Compositions and methods for the preparation of protease resistant human growth hormone glycosylation mutants
US8404809B2 (en) 2005-05-25 2013-03-26 Novo Nordisk A/S Glycopegylated factor IX
US8911967B2 (en) 2005-08-19 2014-12-16 Novo Nordisk A/S One pot desialylation and glycopegylation of therapeutic peptides
US8841439B2 (en) 2005-11-03 2014-09-23 Novo Nordisk A/S Nucleotide sugar purification using membranes
US9187532B2 (en) 2006-07-21 2015-11-17 Novo Nordisk A/S Glycosylation of peptides via O-linked glycosylation sequences
US8969532B2 (en) 2006-10-03 2015-03-03 Novo Nordisk A/S Methods for the purification of polypeptide conjugates comprising polyalkylene oxide using hydrophobic interaction chromatography
US9050304B2 (en) 2007-04-03 2015-06-09 Ratiopharm Gmbh Methods of treatment using glycopegylated G-CSF
US9493499B2 (en) 2007-06-12 2016-11-15 Novo Nordisk A/S Process for the production of purified cytidinemonophosphate-sialic acid-polyalkylene oxide (CMP-SA-PEG) as modified nucleotide sugars via anion exchange chromatography
US8207112B2 (en) 2007-08-29 2012-06-26 Biogenerix Ag Liquid formulation of G-CSF conjugate
US9150848B2 (en) 2008-02-27 2015-10-06 Novo Nordisk A/S Conjugated factor VIII molecules
CN114136249A (zh) * 2021-11-30 2022-03-04 国网上海市电力公司 一种变压器绕组变形超声检测信号新型去噪方法
CN114136249B (zh) * 2021-11-30 2023-08-22 国网上海市电力公司 一种变压器绕组变形超声检测信号去噪方法

Also Published As

Publication number Publication date
WO2004010327A3 (de) 2004-04-22
DE10232916A1 (de) 2004-02-05
US7035742B2 (en) 2006-04-25
DE10232916B4 (de) 2008-08-07
EP1523719B1 (de) 2012-06-27
US20050038635A1 (en) 2005-02-17
EP1523719A2 (de) 2005-04-20

Similar Documents

Publication Publication Date Title
EP1523719B1 (de) Vorrichtung und verfahren zum charakterisieren eines informationssignals
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
EP2099024B1 (de) Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
EP2351017B1 (de) Verfahren zur erkennung von notenmustern in musikstücken
DE10117870A1 (de) Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank
EP1388145B1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
WO2005122136A1 (de) Vorrichtung und verfahren zum bestimmen eines akkordtyps, der einem testsignal zugrunde liegt
DE10157454B4 (de) Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
DE10117871C1 (de) Verfahren und Vorrichtung zum Extrahieren einer Signalkennung, Verfahren und Vorrichtung zum Erzeugen einer Datenbank aus Signalkennungen und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
WO2005114650A1 (de) Vorrichtung und verfahren zum charakterisieren eines tonsignals
EP1381024B1 (de) Verfahren zum Auffinden einer Tonfolge
DE10253868B3 (de) Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT SE SI SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003764912

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10950309

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2003764912

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP