EP1758096A1 - Method and Apparatus for Pattern Recognition in Acoustic Recordings - Google Patents

Method and Apparatus for Pattern Recognition in Acoustic Recordings Download PDF

Info

Publication number
EP1758096A1
EP1758096A1 EP05107730A EP05107730A EP1758096A1 EP 1758096 A1 EP1758096 A1 EP 1758096A1 EP 05107730 A EP05107730 A EP 05107730A EP 05107730 A EP05107730 A EP 05107730A EP 1758096 A1 EP1758096 A1 EP 1758096A1
Authority
EP
European Patent Office
Prior art keywords
transformation
frequency
frequency ranges
signal
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP05107730A
Other languages
German (de)
French (fr)
Inventor
Rainer Schierle
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to EP05107730A priority Critical patent/EP1758096A1/en
Priority to US11/466,379 priority patent/US20070044642A1/en
Publication of EP1758096A1 publication Critical patent/EP1758096A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/086Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/121Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of a musical score, staff or tablature
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/221Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
    • G10H2250/225MDCT [Modified discrete cosine transform], i.e. based on a DCT of overlapping data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Definitions

  • the invention relates to a method and a device for pattern recognition in acoustic recordings according to the preamble of claim 1 or 13, as well as a computer program product and a data structure product.
  • acoustic recordings or audio signals these are usually digitized today.
  • a recording by suitable sensors wherein the recorded signal is sampled and stored digitized.
  • a widespread approach is the conversion and storage in WAVE format.
  • a sampling 44.1 kHz and 16-bit resolution In order to allow for the human ear lossless conversion and storage, usually a sampling 44.1 kHz and 16-bit resolution, so that maximum for the human ear perceptible frequencies the Nyquist theorem is satisfied.
  • this format requires a large memory space, e.g. is disadvantageous in a transmission on the Internet, as long transmission times are the result.
  • this format requires a large memory space, e.g. is disadvantageous in a transmission on the Internet, as long transmission times are the result.
  • MIDI Musical Instrument Digital Interface
  • This format developed for the exchange of data between synthesizers, transmits control signals instead of audio data, which can be reproduced by a synthesizer or displayed graphically or visually.
  • the widely used GM standard encodes and later plays 128 sound colors. Due to the comparatively small file size, this format is well suited for transmission on the Internet. However, this low bandwidth of timbres can not reproduce the natural sound.
  • the MIDI format has a dependency on the playback of the hardware.
  • US 6,140,568 a system and method for automatically detecting and identifying a plurality of frequencies simultaneously contained in an audio signal, such as the duration, amplitude and phase of those frequencies. From these frequencies harmonic components are filtered out to determine the fundamental frequencies.
  • the system includes a computer readable medium having executable code for decomposing the signal into its sinusoidal components by computation and comparison between the input signal and sinusoidal waves having various combinations of phase and amplitude.
  • the system also uses various optimization and error correction routines.
  • the object of the present invention is therefore to provide an improved method or an improved device, which also enables the resolution of components with a wide range of spectral contributions.
  • Another object of the invention is also to enable identification of percussion shares in recordings of music.
  • Another object of the invention is to enable improved interactive variability of acoustic recordings.
  • a further object of the invention is the provision of a data structure product which, with the storage of control signals, allows reproduction as true to the original as possible, so that, for example, the advantages of wave and MIDI format are combined without having to accept their disadvantages.
  • the inventive method or the device according to the invention for pattern recognition in acoustic recordings analyze acoustic signals, as are detected, for example, by microphones. These signals may represent musical pieces, speech, machine vibrations, seismic vibrations or other forms of mechanical vibration.
  • the signal is preferably digitized after or during recording to allow signal processing on computers, where data storage is e.g. in wave format.
  • data storage is e.g. in wave format.
  • an implementation of the method is also possible in analog technology, e.g. through an appropriate circuit.
  • the detected and stored signal is subsequently divided into individual frequency ranges, e.g. Octaves, decomposed, for which known methods can be used.
  • individual frequency ranges e.g. Octaves
  • An example of this is the Pyramidendekomposition, in which the input signal is decomposed into different subband signals with different frequency ranges.
  • the first subband includes only the highest frequencies.
  • the subsequent subbands then contain the respective next lower signal components.
  • the frequency ranges are subsequently spectrally decomposed, from which follows a set of coefficients. According to the invention, this spectral decomposition takes place in two independent transformation processes.
  • Transformation algorithms suitable for this purpose are, for example, the Fourier transformation, fast Fourier transformation, wavelet transformation, sine transformation or cosine transformation, the discrete variants in particular being suitable.
  • One of the two independent transformation processes is optimized in terms of temporal resolution.
  • the temporal window is chosen comparatively short, so that the time course is well resolved.
  • the time limitation reduces the frequency resolution, so that the other transformation process analyzes the same frequency range with a comparatively large temporal window, so that a higher resolution of the frequencies takes place for this purpose.
  • Both transforms each provide a set of coefficients for the contributing frequency components.
  • the resulting TF output image (TF for frequency-time image) is now in turn subdivided into subbands over time and / or time and frequency, which in turn corresponds to a transformation with longer time constants.
  • Various frequency-time (TF) images are used to detect signals or signal characteristics and to reconstruct original signals (input signals).
  • the signal stored after the transformation in the layers of the output quantity is a mixture of the transformation output signals and a pyramid decomposition of the next higher level of the pyramid
  • TF n ⁇ t ⁇ f A s t ⁇ f ⁇ A c t ⁇ f
  • atan A s t ⁇ f A c t ⁇ f
  • the individual layers of the pyramid can be generated from a combination of high and low pass filters and subsampling. This TF pyramid can also be generated multiple times to accommodate different purposes such as signal analysis and signal reconstruction.
  • Information from one or more of the layers is combined in a filter, for example a two-dimensional filter with an average core, into a one-dimensional vector from which note events can then be derived, for example, with detection of local maxima.
  • a filter for example a two-dimensional filter with an average core
  • the spectral decomposition is completed by generating at least one coefficient file.
  • coefficients are taken from the coefficient sets of the two transformations, wherein the coefficients can be selected from one of the two sets or else can be generated as a mixture of coefficients.
  • the two sets of coefficients of the different transforms are transformed into a coefficient file in an overall transformation under selection or blending, this file then containing portions of both transformations.
  • the generation of the coefficient file uses heuristics, given information, e.g. from previous analyzes, or statistical evaluations of the current signal. Basically, all frequency bands are routed through both transformation processes. However, also, e.g. due to given information, only one of the two transformation processes are used for individual frequency bands, so that only the result of this step is used further.
  • the selection or mixture of coefficients for generation can be done by various methods.
  • a first Fourier transform with a long time window and a second Fourier transform with a short time window and subsequent low-pass filter are performed.
  • the real part is calculated and their ratio educated. Based on this ratio, it is decided from which transformation the coefficient is selected.
  • Another approach relies on analyzing the slope in a plot of phase vs. frequency, i. the frequency-dependent slope of the phase signal. By setting thresholds or calculating a weighting parameter, a determination is made as to which coefficient is used or whether and how a mixture of coefficients takes place.
  • the use of given information is done by comparing the sets of coefficients obtained by the transformations with a set of stored coefficients. This comparison serves as a selection criterion for the coefficients or their mixture.
  • the complete transformation process eventually creates a file containing the selected or mixed coefficients.
  • statistical information regarding the signal may still be stored in this file.
  • the harmonic decomposition takes place, which finally leads to an assignment of spectral components to patterns, such as special musical instruments.
  • the detected patterns or events can be displayed graphically after conversion, eg as notes, or reproduced by synthesizers. Patterns or events are to be understood here as the characteristic components in an acoustic signal whose identification represents the aim of the analysis. These can be, for example, individual musical instruments, words or seismic parameters.
  • Basis of the decomposition according to the invention not only the coefficients themselves, but also their aggregates, e.g. the temporal integral of an amplitude for a given frequency, or statistical information.
  • a comparison can be made with a database in which examples of patterns are stored.
  • databases are available, for example, for musical instruments.
  • Another possibility is the construction of a model for the patterns to be identified, this model being e.g. can be built from the current signal with statistical methods.
  • the model is iteratively compared to the signal and gradually optimized. If the remaining residual falls below a predefined threshold value, the method is aborted and the pattern recognition is considered to be sufficiently good.
  • characteristic features of the individual musical instruments are determined by suitable one- or two-dimensional filters in the individual layers of the TF pyramid. These features can then be assigned directly to the individual musical instruments and their representation in notation format (eg Midi or internal format). Alternatively, the features are supplied to a neural network as input variables.
  • the regions of the TF pyramids determined by the features are more closely examined, for example, by pixel-to-pixel comparison in a delimited environment of the feature.
  • the determined results of these comparisons can, coupled with the feature recognition, bring about an improvement of the feature recognition.
  • feature centers, feature thresholds and frequency-time extent of feature recognition are adjusted.
  • characteristics for percussive and / or harmonic sounds can be determined. In particular, this will produce individual sounds of an instrument, e.g. Guitar, bass, drums and cymbals of a drum kit, but also piano and guitar chords recognized.
  • seismic events or linguistic features e.g. be blanked background noise in an acoustic communication link, to be analyzed.
  • features and patterns that have been identified can be used to search the entire information content (TF) for such iterations.
  • the determined patterns are classified according to predetermined criteria or after the analysis by assignment, wherein this assignment can be performed by the computer program fully automatically, semi-automatically or interactively by the program user.
  • this assignment can be performed by the computer program fully automatically, semi-automatically or interactively by the program user.
  • the result set (TF) can be examined for comparable patterns. This method is time-saving, since the transformation can often be a comparatively long-lasting process.
  • the clock division can be added or changed manually as a temporal classification. Notation requires a classification in a temporal sense in such a way that the note values determined can be assigned note lengths.
  • a function in the user program makes it possible to mark the beginning of the cycle and an automatic function of the program then determines the missing cycles between these markings. This process can be repeated until the clock division is satisfactory.
  • functions which automatically recognize the clock division can be used.
  • An improvement in harmony recognition by temporal classification is possible due to a division of the information content into measures that can be used to improve the harmony recognition by making use of the fact that in real music played the harmonies often change at the clock change.
  • threshold values for the note recognition can also be subsequently changed, so that the recognized notes can be made available to the user in an optimal representation.
  • criteria for example features, are provided with a threshold value so that signals below the threshold value are not displayed as musical notes and also do not sound.
  • the user can interact with the system feedback also affect the result.
  • this may be derived from its - e.g. obtained by listening to the recorded piece of music - knowledge of the occupation of a music group preselection of the existing musical instruments manually specify.
  • This predetermined information then facilitates and accelerates the harmonic decomposition or the pattern recognition.
  • the basis of this modifiability thus represents the method according to the invention, which includes modeling with variable coefficients which is or can not be achieved in the prior art.
  • an adapted presentation of the results with different elements takes place.
  • an event image is generated, for example as an image with notation-like groups of lines, which correspond to pitches, arranged in the Y-direction.
  • the time is plotted or a currently proportional size.
  • Events are going through Noteheads or patterns or images generally available through symbols of a font or bitmap or other graphic formats.
  • the Y position in the picture is assigned to the properties of the event by the assignment table or a mathematical function, eg the note height D6 (Midi 74) as the second line from above).
  • the events can also be displayed in standard music notation.
  • a representation may also be in the form of lead-sheets as a one-to-one-page summaries of a piece of music.
  • Leadsheets in the traditional sense are created by hand.
  • an automatic generation of leadsheets can now also be carried out.
  • marks are set in the piece of music which describe definable areas of the piece of music, e.g. Introduction, 1st verse, 1st chorus, intermediate part, etc.
  • the method then generates from the determined notes, bars, and chords a summarized representation of all or part of the piece of music. This presentation can then be added to the lyrics, which then also in the score is also insertable.
  • a pitch threshold control allows note values to be activated, displayed and sounded. It can be determined whether events are hidden or whether the pitch should be shifted by a certain amount, for example an octave, whereby the notes are then played one octave lower and recorded. As a result, the result can be improved to such an extent that, if notes by their harmonic Shares are detected, they can be transposed to the fundamental frequency.
  • note events can be selected with the methods mentioned and copied or moved to other soundtracks.
  • f ⁇ R t ⁇ f 2 can be formulated.
  • P denotes a signal pattern
  • R denotes a reference pattern.
  • the reference pattern may be a pattern at another location of the TF matrix, or a prestored pattern, or a pattern formed from a combination of existing patterns, such as averaging. In the dynamic case, both patterns are shifted in time relative to each other, so that a time-dependent match can be derived. For small values of S there is a great similarity of the patterns to be compared.
  • AS (i, j) S (i, j).
  • groups are formed and assigned to a graph. Here, there is a connection of each pattern to the pattern that is most similar. Due to preprogrammed features, the patterns are then classified and assigned note values.
  • chords in pieces of music is done in the same way as described above for pattern recognition drum notes.
  • a threshold value determines whether a frequency of a TF layer is active or not.
  • each active frequency is converted to a note, with position, note height, and length, i. the entry above the threshold to the exit at the transition from active to below the threshold, be determined.
  • This method is used, for example, for the recognition of instruments which produce only a few overtones, e.g. a sine organ.
  • collections can be created, which are typically divided into instruments in soundtracks. These collections can be stored in files on a computer system. Such files may also be transmitted via the Internet, by wire or by electromagnetic transmission.
  • transmission protocols Http, Tcp, Https, SOAP, etc. are listed, but other formats are possible.
  • the detected events or notes are displayed in one or more ways.
  • one embodiment illustrates the events as a combination of symbols (note heads), where the vertical axis corresponds to a common note image and the horizontal axis of time. Since with a standard five-line note each line can stand for three notes (eg g, ges and gis), these states can be represented by different symbols, eg a regular notehead for g, a triangle with a top for ges and a triangle with top up for gis.
  • the event length can be indicated by a rectangle.
  • Another possible Presentation of the results is the usual notation.
  • threshold values have to be set before the time-consuming analysis. Inadequate settings require the entire analysis process to be repeated, which is cumbersome, unfriendly, prone to error, and time consuming.
  • the method according to the invention has the advantage that threshold values for the note recognition can also be set after the analysis. This allows the results to be adjusted in real time to the wishes of the user. This method combines the possibilities of note recognition with the notation representation in a way that allows the results to be individually adapted by interaction of the program user with the analysis software.
  • positions in the event image can be marked, which musically mark the first beat of a bar.
  • at least one clock is set by two markers and thus given a temporal information.
  • the program then automatically calculates the missing bars for the whole song, eg with the help of extrapolation. Due to the inaccuracy of the set bar and tempo variations in the song deviations from the ideal result often arise, ie the assumption that all bars are set correctly. Additional first beats of a bar can be set by the user, in which case the new bar layout is recalculated.
  • the threshold controller shown above can also be used as a pitch filter, i. as an instrument to set cutoff frequencies, in which case note events with pitches above (or below or centered around) a threshold are not displayed or just displayed and played.
  • notes that are outside the threshold can be returned to the range of displayed events by pitch transposition (octave shift).
  • pitch transposition octave shift
  • This method is used to reduce erroneously recognized octave jumps in tunes in which the harmonic signals were recognized instead of the fundamental tones.
  • the coefficients of adjacent frequencies can be obtained by interpolation or by statistical methods.
  • coefficients may be supplemented or replaced by using synthetically generated coefficients as well as those from previous recordings, an earlier analysis of the same signal or mixtures thereof.
  • coefficients may be supplemented or replaced by using synthetically generated coefficients as well as those from previous recordings, an earlier analysis of the same signal or mixtures thereof.
  • the generated coefficient files may be in their own format or, if appropriate, after conversion, in a common data format, e.g. MIDI or Wave format. Equally, such files can also be imported and their contents used or modified in the method according to the invention.
  • the original or original-sounding signals can be generated by an inverse transformation, for example in wave format, which can then be reproduced, for example, via the computer music system and loudspeaker.
  • sounds represented by music notes or images of any kind on the screen can be reconstructed and played back from the TF coefficients.
  • the acoustic signal is detected by a recording component or imported from a data carrier and provided in the form of an input signal ES for further processing.
  • This input signal ES is decomposed in a subband coder SC into individual frequency bands, which are subsequently each supplied to a frequency-optimized first transformation TF1 and a time-optimized second transformation TF2.
  • These transformation processes can also extract information from the original input signal ES in parallel and use it for the transformation process.
  • the results of the two transformations are combined in a transformation processor TP-possibly in feedback with the first transformation TF1 and the second transformation TF2-to form a coefficient file.
  • the harmonic decomposition HD is performed to detect patterns inherent in the input signal ES. It can be used for harmonic decomposition HD predetermined coefficients that are stored for example in a memory or supplied via external media.
  • the identified patterns are made exportable via a graphical conversion for a graphical interface.
  • An example of this is the conversion into notes and, for example, the printout of a score. If a representation is made on a graphical user interface, parameters can be interactively changed or be given as well as further selections or modifications.
  • the acoustic representation of the patterns may be transmitted via an audio output, e.g. connected to a synthesizer done.
  • FIG. 2 shows a schematic representation of provision alternatives for the input signal ES.
  • the input signal can be provided by various sources. These include timely or real-time recording as well as the use of stored data.
  • signals in Wave format and files from Audio CDs can be used directly.
  • Files in the formats MPx (MP3, MP4) or WMA or any other format are first converted to wave files by decoders. These are commercially available function libraries, e.g. for MP3 from the Fraunhofer Institute, available on the Internet.
  • the coefficients of MP3 or comparable formats may be arranged directly or via a pre-treatment (e.g., scaling) into one or more layers of the pyramid decomposition of the signal.
  • Decoders for other formats e.g. Ogg or WMA, are provided on the Internet, e.g. on www.microsoft.com.
  • a recording buffer AP is part of a Sigalfact Kunststoffe on the computer, such as Microsoft DirectX. This allows, for example, recordings of signals via a microphone connected to the computer.
  • the high pass filters may also be omitted, thereby producing a series of low pass filtered subbands.
  • the individual subbands SBB are subjected to the two differently optimized transformations TF1 and TF2 and subsequently stored in different layers TFL0, TFL1, ... TFLN.
  • the signal stored in the layers TFL0, TFL1, ... TFLN of the output quantity is for example a mixture of the transformation output signals and a pyramid decomposition of the next higher level of the pyramid.
  • a different type of decomposition or a multiple pyramid decomposition can also be carried out.
  • FIG. 5 shows a schematic representation of the steps for note recognition by harmonic decomposition HD.
  • the information contained in the various layers TFL0, TFL1, ... TFLN are combined in a filter FI and then subjected to harmonic decomposition event extraction, where pattern recognition and modeling takes place.
  • a multiplicity of approaches described above can be used according to the invention.
  • the results of the harmonic decomposition HD are represented graphically in the form of notes, for example, so that a selection or specification of information can be made by a user or other methods, which in turn find their way into the step of harmonic decomposition HD.
  • FIG. 1 An example of a graphical user interface for interactively providing additional information is shown in FIG.
  • the surface provides, inter alia, a gain control 1 and a manually changeable clock marker 2 for setting clocks.
  • the application of the clock marker 2 is explained in FIG. 7 in a first step of a first example for the interactive provision of additional information by setting clock markings.
  • This approach allows a determination of all measures in the entire song.
  • a clock in the song is identified and displayed graphically by a diamond 3 in the top line.
  • the actuation of a function element then leads to the conversion of the events into standard music notes, wherein the automatically set clocks are marked by triangles 4 in the top line. Improvements to this method can still do so be achieved that the soundtracks, especially the drum track, can be used to fine-tune the clocks. Nevertheless, due to variations in the music being played, variations in recording speed or drift effects, calculated clocks and actual patterns in the recording may fall apart, as indicated by arrows in the example within the dashed area.
  • the threshold controller is selected with a threshold greater than 0 so that only note events greater than the threshold are displayed. Some relevant areas are marked by ellipses.

Abstract

A signal is divided into frequency ranges which are transformed for spectral distribution into at least one coefficient file. Harmonic decomposition of the coefficient file is then performed followed by sample allocation. When transforming each of the frequency ranges, first transformation is performed based on frequency division and second transformation is performed based on time division. Independent claims are also included for the following: (1) a computer program product; (2) a pattern recognition device; and (3) the coefficient data.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Mustererkennung in akustischen Aufnahmen nach dem Oberbegriff des Anspruchs 1 bzw. 13, sowie ein ComputerProgrammprodukt und ein Datenstrukturprodukt.The invention relates to a method and a device for pattern recognition in acoustic recordings according to the preamble of claim 1 or 13, as well as a computer program product and a data structure product.

In vielen Anwendungsbereichen besteht das Erfordernis, in Aufnahmen akustischer Signale Muster zu erkennen und zur Nutzung zu konvertieren. Beispiele hierfür stellen seismische Messungen, Schwingungsanalysen im Maschinenbau, die Selektion von Audiosignalen im Hörgerätebereich, die Sprachanalyse oder die Konversion von Musik in abspiel- bzw. veränderbare Formate dar. Die Grundproblematik in allen diesen Bereichen ist stets dieselbe, im folgenden wird rein exemplarisch die Mustererkennung in Aufnahmen von Musikstücken erläutert, ohne hierbei eine Einschränkung auf diesen Anwendungszweck zu begründen. Das erfindungsgemässe Verfahren bzw. die erfindungsgemässe Vorrichtung können auch zur Lösung anderer Problemstellungen, insbesondere aus den oben explizit dargestellten Gebieten, angewendet werden.In many applications there is a need to recognize patterns in recordings of acoustic signals and to convert them for use. Examples of this are seismic measurements, vibration analysis in mechanical engineering, the selection of audio signals in the hearing aid sector, speech analysis or the conversion of music into playable or changeable formats. The basic problem in all these areas is always the same, in the following example is the pattern recognition in recordings of pieces of music, without justifying a restriction to this purpose. The method according to the invention or the device according to the invention can also be used to solve other problems, in particular from the areas explicitly described above.

Zur Verarbeitung von akustischen Aufnahmen bzw. Audiosignalen werden diese heute in aller Regel digitalisiert. Beispielsweise erfolgt eine Aufnahme durch geeignete Sensoren, wobei das aufgenommene Signal abgetastet und digitalisiert gespeichert wird. Ein weit verbreiteter Ansatz ist die Konversion und Abspeicherung im WAVE-Format. Um eine für das menschliche Ohr verlustfreie Konversion und Speicherung zu ermöglichen, erfolgt zumeist ein Sampling 44,1 kHz und 16 Bit Auflösung, so dass für die vom menschlichen Ohr maximalen wahrnehmbaren Frequenzen das Nyquist-Theorem erfüllt ist.For the processing of acoustic recordings or audio signals, these are usually digitized today. For example, a recording by suitable sensors, wherein the recorded signal is sampled and stored digitized. A widespread approach is the conversion and storage in WAVE format. In order to allow for the human ear lossless conversion and storage, usually a sampling 44.1 kHz and 16-bit resolution, so that maximum for the human ear perceptible frequencies the Nyquist theorem is satisfied.

In diesem Format sind somit zwar alle akustisch relevanten Anteile erfasst, so dass für das menschliche Ohr eine Wiedergabe ohne erkennbaren Verlust möglich ist. Jedoch erfordert dieses Format einen grossen Speicherplatz, was z.B. bei einer Übertragung im Internet nachteilig ist, da lange Übertragungszeiten die Folge sind. Zudem erfolgt keine Speicherung von aufgelösten Mustern, d.h. eine Trennung von z.B. verschiedenen Musikinstrumenten erfolgt nicht, so dass beispielsweise keine einfache Veränderung der Aufnahme möglich ist, z.B. durch Streichen eines Instrumentes.Although all acoustically relevant components are thus recorded in this format, it is possible for the human ear to reproduce without recognizable loss. However, this format requires a large memory space, e.g. is disadvantageous in a transmission on the Internet, as long transmission times are the result. In addition, there is no storage of resolved patterns, i. a separation of e.g. different musical instruments are not, so that, for example, no simple change of the recording is possible, e.g. by swiping an instrument.

Ein weiteres Datenformat, welches quasi den entgegengesetzten Informationsgehalt verkörpert, ist das MIDI-Format, wobei MIDI für Musical Instrument Digital Interface steht. Dieses für den Datenaustausch zwischen Synthesizern entwikkelte Format überträgt statt Audiodaten Kontrollsignale, welche durch einen Synthesizer wiedergegeben oder auch graphisch oder visuell dargestellt werden können. Im weit verbreiteten GM-Standard erfolgt dabei eine Kodierung bzw. spätere Wiedergabe in 128 Klangfarben. Aufgrund des somit vergleichsweise geringen Dateiumfangs eignet sich dieses Format gut zur Übertragung im Internet. Allerdings kann diese geringe Bandbreite an Klangfarben den natürlichen Klang nicht wiedergeben. Zudem besteht beim MIDI-Format eine Abhängigkeit der Wiedergabe von der Hardware.Another data format that embodies virtually the opposite information content is the MIDI format, where MIDI stands for Musical Instrument Digital Interface. This format, developed for the exchange of data between synthesizers, transmits control signals instead of audio data, which can be reproduced by a synthesizer or displayed graphically or visually. The widely used GM standard encodes and later plays 128 sound colors. Due to the comparatively small file size, this format is well suited for transmission on the Internet. However, this low bandwidth of timbres can not reproduce the natural sound. In addition, the MIDI format has a dependency on the playback of the hardware.

Im Stand der Technik werden verschiedene Ansätze verfolgt, die eine Mustererkennung in Audiosignalen erlauben, wobei häufig eine Konversion von Wave- in MIDI-Dateien erfolgt.In the prior art, various approaches are pursued that allow pattern recognition in audio signals, often converting from wave to MIDI files.

Beispielsweise offenbart US 6,140,568 ein System und ein Verfahren zur automatischen Erkennung und Identifikation einer Vielzahl von Frequenzen, die gleichzeitig in einem Audiosignal enthalten sind, wie z.B. Zeitdauer, Amplitude und Phase dieser Frequenzen. Aus diesen Frequenzen werden zur Bestimmung der fundamentalen Frequenzen harmonische Komponenten herausgefiltert. Das System beinhaltet ein computerlesbares Medium mit ausführbarem Code zur Dekomposition des Signals in seine sinusförmigen Komponenten durch Berechnung und Vergleich zwischen dem Eingangssignal und sinusförmigen Wellen mit verschiedenen Kombinationen von Phase und Amplitude. Das System verwendet ebenfalls verschiedene Optimierungs- und Fehlerkorrekturroutinen.For example disclosed US 6,140,568 a system and method for automatically detecting and identifying a plurality of frequencies simultaneously contained in an audio signal, such as the duration, amplitude and phase of those frequencies. From these frequencies harmonic components are filtered out to determine the fundamental frequencies. The system includes a computer readable medium having executable code for decomposing the signal into its sinusoidal components by computation and comparison between the input signal and sinusoidal waves having various combinations of phase and amplitude. The system also uses various optimization and error correction routines.

In der Schrift US 6,355,869 B1 werden ein Verfahren und ein System zur Erzeugung von Noten aus einer Aufzeichnung von Musik sowie die Erzeugung eines editierbaren Musikformats beschrieben. Das Verfahren beruht auf dem Speichern der Musikaufnahme als Wave-Datei aus der für jeden relevanten Abschnitt in der Aufzeichnung eine Pseudo-Wave-Datei erzeugt wird. Für jede Pseudo-Wave-Datei wird eine Sequenz-Datei erzeugt, aus der wiederum eine Liste von Ereignissen generiert wird. Diese Liste wird in eine MIDI-Datei oder eine andere notenlesbare Datei konvertiert und zum Ausdruck der Noten in ein Noten-Programm importiert.In Scripture US 6,355,869 B1 For example, a method and system for generating notes from a recording of music and the generation of an editable music format are described. The method is based on saving the music recording as a wave file from which a pseudo-wave file is generated for each relevant section in the recording. For each pseudo-wave file, a sequence file is generated, from which in turn a list of events is generated. This list is converted into a MIDI file or other note-readable file and imported to print the notes in a note program.

Während die Mustererkennung für verschiedene Typen von Mustern bzw. die Identifikation von vielen Musikinstrumenten mit den Ansätzen des Stands der Technik geleistet werden kann, bereiten einige Mustertypen nach wie vor Probleme. So können mit bisherigen Verfahren gerade die Schlagzeuganteile in Audiosignalen nur schlecht aufgelöst und in Noten dargestellt werden. Das Problem besteht beim Schlagzeug darin, dass dieses einen breiten Bereich an spektralen Beiträgen liefert, der mit den bisherigen Verfahren nicht eindeutig separiert und analysiert werden kann.While pattern recognition for various types of patterns and identification of many musical instruments can be accomplished with the prior art approaches, some pattern types still present problems. Thus, with previous methods just the drum parts in audio signals can be resolved only poorly and displayed in notes. The problem is with the drums in that it provides a wide range of spectral contributions, which can not be clearly separated and analyzed with the previous methods.

Ausserdem erlaubt datenhaltungsseitig das weitverbreitete MIDI-Format nur eine Speicherung bzw. Wiedergabe, welche starke Abstriche in Hinblick auf die originale Klangqualität mit sich bringt.Furthermore, on the data-storage side, the widespread MIDI format only allows for storage or playback, which brings heavy losses with regard to the original sound quality.

Die Aufgabe der vorliegenden Erfindung besteht daher in der Bereitstellung eines verbesserten Verfahren bzw. einer verbesserten Vorrichtung, welche auch die Auflösung von Komponenten mit einem breiten Bereich an spektralen Beiträgen ermöglicht.The object of the present invention is therefore to provide an improved method or an improved device, which also enables the resolution of components with a wide range of spectral contributions.

Eine weitere Aufgabe der Erfindung besteht darin, auch eine Identifikation von Schlagzeuganteilen in Aufnahmen von Musik zu ermöglichen.Another object of the invention is also to enable identification of percussion shares in recordings of music.

Eine weitere Aufgabe der Erfindung besteht darin, eine verbesserte interaktive Veränderbarkeit von akustischen Aufnahmen zu ermöglichen.Another object of the invention is to enable improved interactive variability of acoustic recordings.

Eine weitere Aufgabe der Erfindung besteht in der Bereitstellung eines Datenstrukturproduktes, welches unter Abspeicherung von Kontrollsignalen eine möglichst originalgetreue Wiedergabe erlaubt, so dass beispielsweise die Vorteile von Wave- und MIDI-Format kombiniert werden, ohne deren Nachteile in Kauf nehmen zu müssen.A further object of the invention is the provision of a data structure product which, with the storage of control signals, allows reproduction as true to the original as possible, so that, for example, the advantages of wave and MIDI format are combined without having to accept their disadvantages.

Diese Aufgaben werden erfindungsgemäss durch die Merkmale der Ansprüche 1 und 13 bzw. durch die kennzeichnenden Merkmale der abhängigen Ansprüche gelöst oder die Lösungen fortgebildet.These objects are achieved according to the invention by the features of claims 1 and 13 or by the characterizing features the dependent claims solved or the solutions trained.

Das erfindungsgemässe Verfahren bzw. die erfindungsgemässe Vorrichtung zur Mustererkennung in akustischen Aufnahmen analysieren akustische Signale, wie sie beispielsweise durch Mikrophone erfasst werden. Diese Signale können Musikstücke, Sprache, Maschinenvibrationen, seismische Schwingungen oder andere Formen von mechanischen Schwingungen darstellen.The inventive method or the device according to the invention for pattern recognition in acoustic recordings analyze acoustic signals, as are detected, for example, by microphones. These signals may represent musical pieces, speech, machine vibrations, seismic vibrations or other forms of mechanical vibration.

Das Signal wird nach oder während der Aufnahme vorzugsweise digitalisiert, um eine Signalverarbeitung auf Rechnern zu erlauben, wobei die Datenspeicherung z.B. im Wave-Format erfolgen kann. Alternativ oder ergänzend ist eine Realisierung des Verfahrens auch in Analogtechnik möglich, z.B. durch eine entsprechende Schaltung.The signal is preferably digitized after or during recording to allow signal processing on computers, where data storage is e.g. in wave format. Alternatively or additionally, an implementation of the method is also possible in analog technology, e.g. through an appropriate circuit.

Das erfasste und gespeicherte Signal wird nachfolgend in einzelne Frequenzbereiche, z.B. Oktaven, zerlegt, wofür an sich bekannte Verfahren zur Anwendung kommen können. Ein Beispiel hierfür ist die Pyramidendekomposition, bei der das Eingangssignal in verschiedene Subband-Signale mit unterschiedlichen Frequenzbereichen zerlegt wird. Typischerweise umfasst das erste Subband nur die höchsten Frequenzen. Die nachfolgenden Subbänder beinhalten dann die jeweils nächsten niedrigeren Signalanteile.The detected and stored signal is subsequently divided into individual frequency ranges, e.g. Octaves, decomposed, for which known methods can be used. An example of this is the Pyramidendekomposition, in which the input signal is decomposed into different subband signals with different frequency ranges. Typically, the first subband includes only the highest frequencies. The subsequent subbands then contain the respective next lower signal components.

Die Frequenzbereiche werden nachfolgend spektral zerlegt, woraus jeweils ein Satz von Koeffizienten folgt. Erfindungsgemäss erfolgt diese spektrale Zerlegung in zwei voneinander unabhängigen Transformationsprozessen.The frequency ranges are subsequently spectrally decomposed, from which follows a set of coefficients. According to the invention, this spectral decomposition takes place in two independent transformation processes.

Hierfür geeignete Transformationsalgorithmen stellen beispielsweise die Fourier-Transformation, Fast-Fourier-Transformation, Wavelet-Transformation, SinusTransformation oder Kosinus-Transformation dar, wobei insbesondere die diskreten Varianten geeignet sind.Transformation algorithms suitable for this purpose are, for example, the Fourier transformation, fast Fourier transformation, wavelet transformation, sine transformation or cosine transformation, the discrete variants in particular being suitable.

Einer der beiden voneinander unabhängigen Transformationsprozesse ist hinsichtlich der zeitlichen Auflösung optimiert. Hierfür wird das zeitliche Fenster vergleichsweise kurz gewählt, so dass der zeitliche Verlauf gut aufgelöst wird. Die zeitliche Beschränkung vermindert jedoch die Frequenzauflösung, so dass der andere Transformationsprozess den gleichen Frequenzbereich mit einem vergleichsweise grossen zeitlichen Fenster analysiert, so dass hierfür eine höhere Auflösung der Frequenzen erfolgt. Beide Transformationen liefern jeweils einen Koeffizientensatz für die beitragenden Frequenzanteile. Das entstandene TF-Ausgangsbild (TF für Frequency-Time-Image) wird nun seinerseits in Subbänder über Zeit und/oder Zeit und Frequenz zerlegt, was wiederum einer Transformation mit längeren Zeitkonstanten entspricht. Verschiedene Frequenz-Zeit-Bilder (TF) werden dazu verwendet, um Signale oder Signaleigenschaften zu detektieren und um Originalsignale (Eingangssignale) zu rekonstruieren.One of the two independent transformation processes is optimized in terms of temporal resolution. For this purpose, the temporal window is chosen comparatively short, so that the time course is well resolved. However, the time limitation reduces the frequency resolution, so that the other transformation process analyzes the same frequency range with a comparatively large temporal window, so that a higher resolution of the frequencies takes place for this purpose. Both transforms each provide a set of coefficients for the contributing frequency components. The resulting TF output image (TF for frequency-time image) is now in turn subdivided into subbands over time and / or time and frequency, which in turn corresponds to a transformation with longer time constants. Various frequency-time (TF) images are used to detect signals or signal characteristics and to reconstruct original signals (input signals).

Diese Transformationen sind somit für verschiedene Aufgabenbereiche optimiert, wie z.B. die Unterteilung in perkussive und harmonische Signalkomponenten. Als mögliche Transformation sei rein exemplarisch die Fourier-Transformation beschrieben: A s t f = I t sin ωt t

Figure imgb0001
A c t f = I t cos ωt t
Figure imgb0002

wobei

As (t, f)
den Sinusanteil des Ausgangssignals,
Ac (t,f)
den Cosinusanteil des Ausgangssignals,
ω
die Kreisfrequenz der zu untersuchenden Frequenzkomponente und
t
die Zeit bezeichnen.
These transformations are thus optimized for different tasks, such as the subdivision into percussive and harmonic signal components. As a possible transformation, the Fourier transformation is described purely by way of example: A s t f = I t sin .omega.t t
Figure imgb0001
A c t f = I t cos .omega.t t
Figure imgb0002

in which
A s ( t, f )
the sine component of the output signal,
A c ( t, f )
the cosine component of the output signal,
ω
the angular frequency of the frequency component to be examined and
t
to designate the time.

Das nach der Transformation in den Schichten der Ausgangsmenge gespeicherte Signal ist eine Mischung aus den Transformationsausgangssignalen und einer Pyramidenzerlegung der jeweils nächsthöheren Stufe der Pyramide TF n t f = A s t f A c t f

Figure imgb0003

wobei ⊗ eine allgemeine Verknüpfung bezeichnet, die im einfachsten Falle einer Addition entspricht. Werden auch Beiträge nächsthöherer bzw. darüberliegender Schichten berücksichtigt so ergibt sich TF n t f = A s t f A c t f TF n - 1 , t , f
Figure imgb0004

wobei TF(n-1,t,f) den Beitrag der nächsthöheren Schicht n -1 bezeichnet. Auch können As(t, f) und Ac(t,f) im üblichen Fall die Amplituden und Phasenwerte der Fouriertransformation darstellen Amp t f = A s t f 2 + A c t f 2
Figure imgb0005

bzw. φ = atan A s t f A c t f
Figure imgb0006
The signal stored after the transformation in the layers of the output quantity is a mixture of the transformation output signals and a pyramid decomposition of the next higher level of the pyramid TF n t f = A s t f A c t f
Figure imgb0003

where ⊗ denotes a general link, which in the simplest case corresponds to an addition. If contributions of higher or higher layers are also taken into account, this results TF n t f = A s t f A c t f TF n - 1 . t . f
Figure imgb0004

where TF (n- 1 , t, f) denotes the contribution of the next higher layer n- 1. Also, A s (t, f) and A c (t, f) may represent the amplitudes and phase values of the Fourier transform in the usual case Amp t f = A s t f 2 + A c t f 2
Figure imgb0005

respectively. φ = atan A s t f A c t f
Figure imgb0006

Die einzelnen Schichten der Pyramide können aus einer Kombination von Hoch-, Tiefpassfiltern und Subsampling erzeugt werden. Diese TF-Pyramide kann auch mehrfach vorhanden generiert werden, um verschiedenen Zwecken, wie Signalanalyse und Signalrekonstruktion Rechnung zu tragen.The individual layers of the pyramid can be generated from a combination of high and low pass filters and subsampling. This TF pyramid can also be generated multiple times to accommodate different purposes such as signal analysis and signal reconstruction.

Informationen aus einer oder mehrerer der Schichten werden in einem Filter, beispielsweise einem zweidimensionalen Filter mit Mittelwertskern, zu einem eindimensionalen Vektor zusammengefasst, aus welchem dann beispielsweise mit Detektion lokaler Maxima Notenereignisse ableitbar sind.Information from one or more of the layers is combined in a filter, for example a two-dimensional filter with an average core, into a one-dimensional vector from which note events can then be derived, for example, with detection of local maxima.

Zusätzlich zur Anordnung mit zwei Transformationen, welche beispielsweise für harmonische und perkussive Signale optimiert sind, kann auch ein Schema eingesetzt werden, bei dem eine oder mehrere Transformationen einen mehrschichtigen Ausgangsbereich füllen. Dies bedeutet, dass für jede Oktave des Subband-Eingangssignals eine Transformation für eine (1) bis mehrere (12 für eine Oktave mit Halbtönen, 14 oder 16, um mit Filtern in Frequenzrichtung filtern zu können) Frequenzen durchgeführt wird, was ein Frequenz/Zeit-Bild erzeugt. Dieses Bild kann aus dem Signal einer oder mehreren Transformationen erstellt werden. So können beispielsweise Anteile aus der frequenzoptimierten Transformation mit Anteilen der perkussiven Transformation so gemischt werden, dass eine klare Abgrenzung zwischen harmonischen und perkussiven Signalen möglich wird.In addition to the arrangement with two transformations, which are optimized for harmonic and percussive signals, for example, it is also possible to use a scheme in which one or more transformations fill a multilayer output region. This means that for each octave of the subband input signal, a transformation is performed for one (1) to several (12 for one octave with semitones, 14 or 16 to filter in the frequency direction with filters), which is a frequency / time Image generated. This image can be created from the signal of one or more transformations. For example, parts of the frequency-optimized transformation can be mixed with parts of the percussive transformation in such a way that a clear demarcation between harmonic and percussive signals becomes possible.

Nach dem Transformieren der Frequenzbereiche wird die spektrale Zerlegung durch Erzeugung wenigstens einer Koeffizientendatei abgeschlossen. In diese Koeffizientendatei werden Koeffizienten aus den Koeffizientensätzen der beiden Transformationen übernommen, wobei die Koeffizienten aus einer der beiden Sätze ausgewählt oder aber auch als Mischung von Koeffizienten erzeugt werden können. Somit werden die beiden Koeffizientensätze der unterschiedlichen Transformationen in einer Gesamttransformation unter Selektion oder Mischung in eine Koeffizientendatei überführt, wobei diese Datei dann Anteile aus beiden Transformationen enthält.After transforming the frequency ranges, the spectral decomposition is completed by generating at least one coefficient file. In this coefficient file, coefficients are taken from the coefficient sets of the two transformations, wherein the coefficients can be selected from one of the two sets or else can be generated as a mixture of coefficients. Thus, the two sets of coefficients of the different transforms are transformed into a coefficient file in an overall transformation under selection or blending, this file then containing portions of both transformations.

Die Erzeugung der Koeffizientendatei nutzt dabei Heuristiken, vorgegebene Informationen, z.B. aus früheren Analysen, oder auch statistische Auswertungen des aktuellen Signals. Grundsätzlich werden alle Frequenzbänder durch beide Transformationsprozesse geführt. Jedoch kann auch, z.B. aufgrund von vorgegebenen Informationen, für einzelne Frequenzbänder nur einer der beiden Transformationsprozesse zur Anwendung kommen, so dass nur das nur das Ergebnis dieses Schrittes weiterverwendet wird.The generation of the coefficient file uses heuristics, given information, e.g. from previous analyzes, or statistical evaluations of the current signal. Basically, all frequency bands are routed through both transformation processes. However, also, e.g. due to given information, only one of the two transformation processes are used for individual frequency bands, so that only the result of this step is used further.

Die Auswahl bzw. Mischung von Koeffizienten zur Erzeugung kann mittels verschiedener Verfahren erfolgen.The selection or mixture of coefficients for generation can be done by various methods.

In einem Ansatz erfolgen eine erste Fouriertransformation mit langem zeitlichem Fenster und eine zweite Fouriertransformation mit kurzem zeitlichen Fenster und nachfolgendem Tiefpassfilter. Für die Ergebnisse beider Transformationen wird jeweils der Realteil berechnet und deren Verhältnis gebildet. Anhand dieses Verhältnisses wird entschieden, aus welcher Transformation der Koeffizient gewählt wird.In one approach, a first Fourier transform with a long time window and a second Fourier transform with a short time window and subsequent low-pass filter are performed. For the results of both transformations, the real part is calculated and their ratio educated. Based on this ratio, it is decided from which transformation the coefficient is selected.

Ein anderer Ansatz beruht auf der Analyse der Steigung in einer Darstellung von Phase gegenüber Frequenz, d.h. der frequenzabhängigen Steigung des Phasensignals. Durch das Setzen von Schwellen oder das Berechnen eines Gewichtungsparameters erfolgt eine Bestimmung, welcher Koeffizient verwendet wird, bzw. ob und wie eine Mischung von Koeffizienten erfolgt.Another approach relies on analyzing the slope in a plot of phase vs. frequency, i. the frequency-dependent slope of the phase signal. By setting thresholds or calculating a weighting parameter, a determination is made as to which coefficient is used or whether and how a mixture of coefficients takes place.

Die Nutzung von vorgegebenen Informationen erfolgt durch einen Vergleich der durch die Transformationen erhaltenen Koeffizientensätze mit einem Satz gespeicherter Koeffizienten. Dieser Vergleich dient als Auswahlkriterium für die Koeffizienten bzw. deren Mischung.The use of given information is done by comparing the sets of coefficients obtained by the transformations with a set of stored coefficients. This comparison serves as a selection criterion for the coefficients or their mixture.

Durch den vollständigen Transformationsprozess wird schliesslich eine Datei erzeugt, welche die ausgewählten bzw. gemischten Koeffizienten enthält. Darüber hinaus kann in dieser Datei noch statistische Information bezüglich des Signals abgelegt sein.The complete transformation process eventually creates a file containing the selected or mixed coefficients. In addition, statistical information regarding the signal may still be stored in this file.

Auf der Basis dieser Koeffizientendatei erfolgt die harmonische Dekomposition, die schliesslich zu einer Zuordnung von spektralen Anteilen zu Mustern, wie z.B. speziellen Musikinstrumenten, führt. Die detektierten Muster oder Ereignisse können nach einer Konversion graphisch dargestellt, z.B. als Noten, oder durch Synthesizer wiedergegeben werden. Unter Mustern oder Ereignissen sollen hier die charakteristischen Anteile in einem akustischen Signal verstanden werden, deren Identifikation das Ziel der Analyse darstellt. Dies können beispielsweise einzelne Musikinstrumente, Worte oder seismische Kenngrössen sein.On the basis of this coefficient file, the harmonic decomposition takes place, which finally leads to an assignment of spectral components to patterns, such as special musical instruments. The detected patterns or events can be displayed graphically after conversion, eg as notes, or reproduced by synthesizers. Patterns or events are to be understood here as the characteristic components in an acoustic signal whose identification represents the aim of the analysis. These can be, for example, individual musical instruments, words or seismic parameters.

Grundlage der Dekomposition bilden erfindungsgemäss nicht nur die Koeffizienten selbst, sondern auch deren Aggregate, z.B. das zeitliche Integral einer Amplitude für eine bestimmte Frequenz, oder statistische Informationen.Basis of the decomposition according to the invention not only the coefficients themselves, but also their aggregates, e.g. the temporal integral of an amplitude for a given frequency, or statistical information.

Zur Dekomposition kann im einfachsten Fall ein Vergleich mit einer Datenbank erfolgen, in der Beispiele für Muster abgelegt sind. Solche Datenbanken stehen beispielsweise für Musikinstrumente zur Verfügung.For the decomposition, in the simplest case, a comparison can be made with a database in which examples of patterns are stored. Such databases are available, for example, for musical instruments.

Eine weitere Möglichkeit stellt der Aufbau eines Modells für die zu identifizierenden Muster dar, wobei dieses Modell z.B. aus dem aktuellen Signal mit statistischen Verfahren aufgebaut werden kann. Das Modell wird iterativ mit dem Signal verglichen und schrittweise optimiert. Unterschreitet das verbleibende Residuum einen vorgegebenen Schwellwert, wird das Verfahren abgebrochen und die Mustererkennung wird als hinreichend gut betrachtet.Another possibility is the construction of a model for the patterns to be identified, this model being e.g. can be built from the current signal with statistical methods. The model is iteratively compared to the signal and gradually optimized. If the remaining residual falls below a predefined threshold value, the method is aborted and the pattern recognition is considered to be sufficiently good.

Zur Merkmals- bzw. Notenerkennung können verschiedene Ansätze alternativ oder kumulativ Verwendung finden.For feature or note recognition, different approaches can be used alternatively or cumulatively.

So werden beispielsweise durch geeignete ein- oder zweidimensionale Filter in den einzelnen Schichten der TF-Pyramide charakteristische Merkmale der einzelnen Musikinstrumente ermittelt. Diese Merkmale können dann direkt den einzelnen Musikinstrumenten und deren Repräsentation im Notationsformat (z.B. Midi, oder internes Format) zugewiesen werden. Alternativ werden die Merkmale einen neuronalen Netzwerk als Eingangsvariablen zugeführt.Thus, for example, characteristic features of the individual musical instruments are determined by suitable one- or two-dimensional filters in the individual layers of the TF pyramid. These features can then be assigned directly to the individual musical instruments and their representation in notation format (eg Midi or internal format). Alternatively, the features are supplied to a neural network as input variables.

In diesem neuronalen Netzwerk werden die durch die Merkmale bestimmten Regionen der TF-Pyramiden genauer untersucht, beispielsweise durch Pixel-zu-Pixel-Vergleich in einer abgegrenzten Umgebung des Merkmals. Die ermittelten Resultate dieser Vergleiche können rückgekoppelt auf die Merkmalserkennung eine Verbesserung der Merkmalserkennung bewirken. Beispielweise werden Merkmalszentren, Merkmalsschwellwerte und Frequenz-Zeit-Ausdehnung der Merkmalserkennung angepasst. Mit diesen Methoden lassen sich Merkmale für perkussive und/oder harmonische Klänge bestimmen. Im speziellen werden dadurch einzelne Töne eines Instruments, z.B. Gitarre, Bass, Trommeln und Becken eines Schlagzeugs, aber auch Piano- und Gitarrenakkorde erkannt. In grundsätzlich gleicher Weise können auch seismische Ereignisse oder sprachliche Merkmale, z.B. auszublendende Hintergrundgeräusche bei einer akustischen Kommunikationsverbindung, analysiert werden.In this neural network, the regions of the TF pyramids determined by the features are more closely examined, for example, by pixel-to-pixel comparison in a delimited environment of the feature. The determined results of these comparisons can, coupled with the feature recognition, bring about an improvement of the feature recognition. For example, feature centers, feature thresholds and frequency-time extent of feature recognition are adjusted. With these methods, characteristics for percussive and / or harmonic sounds can be determined. In particular, this will produce individual sounds of an instrument, e.g. Guitar, bass, drums and cymbals of a drum kit, but also piano and guitar chords recognized. In basically the same way, seismic events or linguistic features, e.g. be blanked background noise in an acoustic communication link, to be analyzed.

Da sich in den Eingangssignalen Merkmale oft wiederholen, können ermittelte Merkmale und Muster dazu verwendet werden, den gesamten Informationsgehalt (TF) auf solche Wiederholungen zu durchsuchen.Because features often repeat in the input signals, features and patterns that have been identified can be used to search the entire information content (TF) for such iterations.

Die ermittelten Muster werden nach vorgegebenen Kriterien oder nach der Analyse durch Zuordnung klassifiziert, wobei diese Zuordnung vom Computerprogramm vollautomatisch, halbautomatisch bzw. interaktiv durch den Programmanwender durchgeführt werden kann. Zur Verbesserung der Klassifizierung der Muster kann die Ergebnismenge (TF) nachmals auf vergleichbare Muster untersucht werden. Diese Methode ist zeitsparend, da die Transformation oftmals ein vergleichsweise langer andauernder Prozess sein kann.The determined patterns are classified according to predetermined criteria or after the analysis by assignment, wherein this assignment can be performed by the computer program fully automatically, semi-automatically or interactively by the program user. To improve the classification of the patterns, the result set (TF) can be examined for comparable patterns. This method is time-saving, since the transformation can often be a comparatively long-lasting process.

Alle Verfahren des Stands der Technik zur Musikerkennung führen bislang zu einem statischen, nicht interaktiv korrigierbaren Notenbild, welches fehlerbehaftet oder nicht korrekt im Sinne der gewünschten Darstellung ist. Zur Verbesserung stehen erfindungsgemäss Methoden zur Verfügung, welche durch interaktive Vorgabe von Parametern zwischen dem Computerprogramm und dem Anwender die generierte Notdarstellung modifizierbar gestalten. Beispielsweise können durch Informationen mit zeitlichem Charakter identifizierte Harmonien (z.B. Gitarren- und Pianoakkorde) verbessert oder geändert werden.All methods of the prior art for music recognition have so far lead to a static, not interactively correctable score image, which is faulty or incorrect in the sense of the desired representation. For improvement, according to the invention, methods are available which make the generated emergency presentation modifiable by interactive specification of parameters between the computer program and the user. For example, harmonics identified by temporal information (e.g., guitar and piano chords) can be improved or changed.

So kann beispielsweise die Takteinteilung als zeitliche Klassifizierung manuell ergänzt oder geändert werden. Notenschrift bedarf einer Klassifizierung in zeitlichem Sinne in einer solchen Weise, dass ermittelten Notenwerten Notenlängen zugeordnet werden können. Eine Funktion im Anwenderprogramm ermöglicht hierbei die Markierung von Taktbeginn und eine automatische Funktion des Programms ermittelt dann zwischen diesen Markierungen die fehlenden Takte. Dieser Prozess kann wiederholt werden, bis die Takteinteilung zufriedenstellend ist. Es können aber auch Funktionen verwendet werden, welche die Takteinteilung automatisch erkennen.Thus, for example, the clock division can be added or changed manually as a temporal classification. Notation requires a classification in a temporal sense in such a way that the note values determined can be assigned note lengths. A function in the user program makes it possible to mark the beginning of the cycle and an automatic function of the program then determines the missing cycles between these markings. This process can be repeated until the clock division is satisfactory. However, it is also possible to use functions which automatically recognize the clock division.

Eine Verbesserung der Harmonieerkennung durch zeitliche Klassifizierung ist aufgrund einer Einteilung des Informationsgehalts in Takte möglich, die zur Verbesserung der Harmonieerkennung herangezogen werden kann, indem von der Tatsache Gebrauch gemacht wird, dass sich in real gespielter Musik die Harmonien oft beim Taktwechsel ändern.An improvement in harmony recognition by temporal classification is possible due to a division of the information content into measures that can be used to improve the harmony recognition by making use of the fact that in real music played the harmonies often change at the clock change.

Eine unzureichende Einstellung von automatischen oder manuellen Schwellwerten bei der Notenerkennung des Stands der Technik führt dazu, dass der zeitlich aufwendige Prozess der Notenerkennung neu gestartet werden muss. Erfindungsgemäss können Schwellwerte für die Notenerkennung auch nachträglich verändert werden, damit die erkannten Noten dem Anwender in optimaler Darstellung zur Verfügung gestellt werden können. Dazu werden Kriterien, beispielsweise Merkmale, mit einem Schwellwert so versehen, dass Signale unter den Schwellwert nicht als Musiknoten dargestellt werden und auch nicht erklingen.Insufficient setting of automatic or manual thresholds in prior art note recognition means that the time-consuming process of note recognition must be restarted. According to the invention, threshold values for the note recognition can also be subsequently changed, so that the recognized notes can be made available to the user in an optimal representation. For this purpose, criteria, for example features, are provided with a threshold value so that signals below the threshold value are not displayed as musical notes and also do not sound.

Dabei kann der Nutzer durch Interaktion mit dem System auch rückgekoppelt auf das Ergebnis einwirken. Beispielsweise kann dieser aus seiner - z.B. durch das Anhören des aufgenommenen Musikstückes erhaltenen - Kenntnis der Besetzung einer Musikgruppe eine Vorauswahl der vorhandenen Musikinstrumente manuell vorgeben. Durch diese vorgegebenen Informationen wird dann die harmonische Dekomposition bzw. die Mustererkennung erleichtert und beschleunigt. Die Basis dieser Modifizierbarkeit stellt somit das erfindungsgemässe Verfahren dar, dass eine Modellbildung mit veränderbaren Koeffizienten beinhaltet, welche im Stand der Technik nicht geleistet wird bzw. werden kann.In this case, the user can interact with the system feedback also affect the result. For example, this may be derived from its - e.g. obtained by listening to the recorded piece of music - knowledge of the occupation of a music group preselection of the existing musical instruments manually specify. This predetermined information then facilitates and accelerates the harmonic decomposition or the pattern recognition. The basis of this modifiability thus represents the method according to the invention, which includes modeling with variable coefficients which is or can not be achieved in the prior art.

Um eine optimale Nutzung und interaktive Veränderbarkeit zu gewährleisten erfolgt eine angepasste Darstellung der Ergebnisse mit verschiedenen Elementen. Zur Auswahl und Veränderung von Ereignissen wird ein Ereignisbild, beispielsweise als Bild mit notationsüblichen, in Y-Richtung angeordneten Gruppen von Linien, welche Tonhöhen entsprechen, generiert. In X-Richtung wird die Zeit aufgetragen oder eine zur Zeit proportionale Grösse. Ereignisse werden durch Notenköpfe oder aber ganz allgemein durch Symbole eines Fonts oder aber Bitmap oder anderen graphischen Formaten erhältliche Muster oder Bilder angezeigt. Dabei wird die Y-Position im Bild durch die Zuordnungstabelle oder einer mathematischen Funktion der Eigenschaften des Ereignisses zugeordnet, z.B. die Notenhöhe D6 (Midi 74) als zweite Linie von oben).In order to ensure optimal use and interactive variability, an adapted presentation of the results with different elements takes place. For the selection and modification of events, an event image is generated, for example as an image with notation-like groups of lines, which correspond to pitches, arranged in the Y-direction. In the X direction, the time is plotted or a currently proportional size. Events are going through Noteheads or patterns or images generally available through symbols of a font or bitmap or other graphic formats. The Y position in the picture is assigned to the properties of the event by the assignment table or a mathematical function, eg the note height D6 (Midi 74) as the second line from above).

Sobald die Takte festgelegt sind, können die Ereignisse auch in üblicher Musiknotenschrift dargestellt werden.Once the bars are fixed, the events can also be displayed in standard music notation.

Eine Darstellung kann auch in Form von Leadsheets als einbis mehrseitigen Zusammenfassungen eines Musikstücks erfolgen. Leadsheets in traditionellem Sinne werden von Hand erzeugt. Mit dem erfindungsgemässen Verfahren kann nun auch ein automatisches Erzeugen von Leadsheets durchgeführt werden. Dazu werden im Musikstück Markierungen gesetzt, welche abgrenzbare Bereiche des Musikstücks beschreiben, z.B. Einleitung, 1.Strophe, 1. Refrain, Zwischenteil, etc. Das Verfahren erzeugt dann aus den ermittelten Noten, Takten, und Akkorden eine zusammengefasste Darstellung des gesamten oder eines Teils des Musikstücks. Dieser Darstellung kann dann noch der Liedtext angefügt werden, wobei dieser dann auch im Notenbild zusätzlich einfügbar ist.A representation may also be in the form of lead-sheets as a one-to-one-page summaries of a piece of music. Leadsheets in the traditional sense are created by hand. With the method according to the invention, an automatic generation of leadsheets can now also be carried out. For this purpose, marks are set in the piece of music which describe definable areas of the piece of music, e.g. Introduction, 1st verse, 1st chorus, intermediate part, etc. The method then generates from the determined notes, bars, and chords a summarized representation of all or part of the piece of music. This presentation can then be added to the lyrics, which then also in the score is also insertable.

Durch einen Schwellwertregler für Tonhöhe können Notenwerte aktiviert, zur Darstellung und zum Erklingen gebracht werden. Dabei kann festgelegt werden, ob Ereignisse ausgeblendet werden oder aber auch die Tonhöhe um einen bestimmten Betrag, beispielsweise eine Oktave, verschoben werden sollen, wodurch die Noten dann eine Oktave tiefer abgespielt und notiert werden. Hierdurch kann das Ergebnis in soweit verbessert werden, dass, wenn Noten durch ihre harmonischen Anteile erkannt werden, diese auf die Grundfrequenz transponiert werden können.A pitch threshold control allows note values to be activated, displayed and sounded. It can be determined whether events are hidden or whether the pitch should be shifted by a certain amount, for example an octave, whereby the notes are then played one octave lower and recorded. As a result, the result can be improved to such an extent that, if notes by their harmonic Shares are detected, they can be transposed to the fundamental frequency.

Mit geeigneten Auswahlinstrumenten, wie z.B. einer Maus, einem Keyboard oder einem anderen Tool, können einzelne oder Gruppen von Noten selektiert und ggf. nachfolgend, z.B. per Midi, abgespielt werden. Erfindungsgemäss besteht die Möglichkeit, die Originalklänge, welche zur Erstehung des Ereignisses geführt haben, zu rekonstruieren und über das Musiksystem des Computers wieder abzuspielen. Diese Rekonstruktionen können nun auch separat in Musikdateien abgelegt werden.With suitable selection instruments, e.g. a mouse, keyboard or other tool, individual or groups of notes may be selected and optionally subsequently, e.g. via Midi, to be played. According to the invention, it is possible to reconstruct the original sounds, which led to the emergence of the event, and to play them back via the music system of the computer. These reconstructions can now also be stored separately in music files.

Zum weitern Trennen in verschiedene Musikinstrumente können mit den genannten Methoden Notenereignisse selektiert und auf andere Tonspuren kopiert oder verschoben werden.For further separation into different musical instruments, note events can be selected with the methods mentioned and copied or moved to other soundtracks.

Zur Verbesserung des Schlagzeugergebnisses als sich wiederholende Abfolge mit Akzentuierung stehen Verfahren zur Verfügung, welche eine Korrelation sich wiederholender Muster feststellen können, wobei die Korrelationslänge automatisch durch die Algorithmen des Programms oder durch den Anwender oder durch die Festlegung der Takte ermittelbar ist. Durch diese Korrelation können auch verschiedene Teile eines Musikstücks identifiziert werden. Die so ermittelten Schlagzeugmuster werden zusammengefasst auch auf den Leadsheets notiert.To improve the drum result as a repetitive sequence with accentuation, methods are available which can detect a correlation of repetitive patterns, wherein the correlation length can be determined automatically by the algorithms of the program or by the user or by setting the clocks. Through this correlation, also different parts of a piece of music can be identified. The drum patterns determined in this way are also listed on the lead sheets.

Mit der zuvor angeführten Methode der Schlagzeugnotenerkennung können Bereiche in TF-Schichten markiert werden, aus deren Umgebung Muster abgeleitet werden können. Ein Teil oder alle diese Muster werden miteinander verglichen, wobei beispielsweise die Methode der Summe der Quadrate der Differenzen übereinander gelegter Pixel als Kriterium herangezogen werden kann, was für den statischen Fall wie folgt formuliert werden kann S = t 1 t 2 f = 0 f max P t f R t f 2

Figure imgb0007

wobei der korrespondierende dynamische Fall gemäss S t 0 = t 1 - t 0 t 2 - t 0 f = 0 f max P t - t 0 , f R t f 2
Figure imgb0008

formuliert werden kann. Hierbei bezeichnen P ein Signalmuster und R ein Referenzmuster. Als Verknüpfungen ⊗ können beispielsweise Subtraktion oder Multiplikation verwendet werden. Das Referenzmuster kann ein Muster an einer anderen Stelle der TF-Matrix sein oder ein vorabgespeichertes Muster oder aber ein Muster, welches aus einer Kombination bestehender Muster, beispielsweise durch Mittelwertbildung, entstanden ist. Im dynamischen Fall werden beide Muster gegeneinander zeitlich verschoben, so dass eine zeitabhängige Übereinstimmung ableitbar ist. Bei kleinen Werten von S besteht eine grosse Ähnlichkeit der zu vergleichenden Muster. In einer aus Vergleichen aller Muster miteinander erstellten Matrix AS sind die Elemente AS(i,j) = S(i,j). With the previously mentioned method of recognizing percussion notes, it is possible to mark areas in TF layers from whose surroundings patterns can be derived. A part or all of these patterns are compared with each other, for example, the method of the sum of the squares of the differences superimposed pixels can be used as a criterion, which can be formulated as follows for the static case S = Σ t 1 t 2 Σ f = 0 f Max P t f R t f 2
Figure imgb0007

the corresponding dynamic case according to S t 0 = Σ t 1 - t 0 t 2 - t 0 Σ f = 0 f Max P t - t 0 . f R t f 2
Figure imgb0008

can be formulated. Here, P denotes a signal pattern and R denotes a reference pattern. As links ⊗, for example, subtraction or multiplication can be used. The reference pattern may be a pattern at another location of the TF matrix, or a prestored pattern, or a pattern formed from a combination of existing patterns, such as averaging. In the dynamic case, both patterns are shifted in time relative to each other, so that a time-dependent match can be derived. For small values of S there is a great similarity of the patterns to be compared. In a matrix AS created from comparing all the patterns with one another, the elements AS (i, j) = S (i, j).

Zur Klassifizierung werden Gruppen gebildet und einem Graphen zugeordnet. Hierbei besteht eine Verbindung von jedem Muster zu dem Muster, welches am ähnlichsten ist. Auf Grund von vorprogrammierten Merkmalen werden die Muster dann klassifiziert und Notenwerte zugeordnet.For classification, groups are formed and assigned to a graph. Here, there is a connection of each pattern to the pattern that is most similar. Due to preprogrammed features, the patterns are then classified and assigned note values.

Die Erkennung von Akkorden in Musikstücken erfolgt auf die gleiche Art wie oben beschrieben für Schlagzeugnoten mit Mustererkennung.The recognition of chords in pieces of music is done in the same way as described above for pattern recognition drum notes.

Die Erkennung von harmonischen Klängen, wie z.B. Gitarre, Bass, Piano, Melodie oder Gesang, nutzt Schwellwerte. Ein Schwellwert bestimmt dabei, ob eine Frequenz einer TF-Schicht aktiv ist oder nicht. Im einfachsten Fall wird jede aktive Frequenz in eine Note umgewandelt, wobei Position, Notenhöhe und Länge, d.h. der Eintritt über die Schwelle bis zum Austritt beim Übergang von aktiv zu unterhalb der Schwelle, bestimmt werden. Diese Methode wird beispielsweise zur Erkennung von Instrument herangezogen, welche nur wenige Obertöne erzeugen, wie z.B. eine Sinusorgel.The detection of harmonic sounds, such as Guitar, bass, piano, melody or vocals, uses thresholds. A threshold value determines whether a frequency of a TF layer is active or not. In the simplest case, each active frequency is converted to a note, with position, note height, and length, i. the entry above the threshold to the exit at the transition from active to below the threshold, be determined. This method is used, for example, for the recognition of instruments which produce only a few overtones, e.g. a sine organ.

Für harmonische Signale mit hohem Obertonanteilen, d.h. die Töne liegen bei Frequenzanteilen, die ein Vielfaches der Grundfrequenz betragen werden für eine oder mehrere Schichten der TF-Pyramide die Produkte F 0 F 0 H 1 + H 2 + H 3 + H n

Figure imgb0009

mit F 0 als Grundfrequenz und H 1 ,H 2 ,H 3 ,...Hn als Höherharmonischen, d.h. H 1 = 2 · F 0 , H 2 = 3 · F 0 etc., gebildet, wobei als Verknüpfung ⊗ beispielsweise eine Multiplikation gewählt werden kann. Danach werden die Bereiche aktiviert, die einen zuvor ermittelten oder festgelegten Schwellwert überschreiten, als Ereignisse ermittelt und in Noten umgewandelt.For harmonic signals with high harmonic components, ie the frequencies are at frequencies that will be a multiple of the fundamental frequency for one or more layers of the TF pyramid, the products F 0 F 0 H 1 + H 2 + H 3 + ... H n
Figure imgb0009

with F 0 as the fundamental frequency, and H 1, H 2, H 3, ... H n as a higher harmonic, that is, H 1 = 2 * F 0, H 2 = 3 · F 0 etc. formed, wherein ⊗ as a link, for example a Multiplication can be chosen. Thereafter, those areas are activated which exceed a previously determined or fixed threshold value, determined as events and converted into grades.

Zudem können Notenobjekte gesammelt werden. Jeder Note stehen typischerweise folgende Eigenschaften zu:

  • o Position im Lied
  • o Länge des Ereignisses
  • o Text
  • o Frequenz
  • o Notenhöhe
  • o Detektionsvolumen
  • o Musikinstrument
  • o Amplitude
  • o Koeffizienten.
In addition, note objects can be collected. Each grade typically has the following characteristics:
  • o position in the song
  • o Length of the event
  • o text
  • o frequency
  • o Grade
  • o detection volume
  • o musical instrument
  • o amplitude
  • o coefficients.

Hierfür können Sammlungen (Collections) von Noten angelegt werden, welche typischerweise nach Instrumenten in Tonspuren aufgeteilt werden. Diese Sammlungen können in Dateien auf einem Computersystem abgespeichert werden. Solche Dateien können auch über das Internet, drahtgebunden oder durch elektromagnetische Übertragung weitergereicht werden. Als Beispiele für Übertragungsprotokolle seien Http, Tcp, Https, SOAP, etc. angeführt, wobei aber auch andere Formate möglich sind.For this purpose, collections (collections) of notes can be created, which are typically divided into instruments in soundtracks. These collections can be stored in files on a computer system. Such files may also be transmitted via the Internet, by wire or by electromagnetic transmission. As examples of transmission protocols Http, Tcp, Https, SOAP, etc. are listed, but other formats are possible.

Die ermittelten Ereignisse bzw. Noten werden auf eine oder mehrere Arten angezeigt. Beispielsweise stellt ein Ausführungsbeispiel die Ereignisse als eine Kombination von Symbolen (Notenköpfen) dar, wobei die vertikale Achse einen üblichen Notenbild und die horizontale Achse der Zeit entspricht. Da bei einem standardgemässen Notenbild mit 5 Zeilen jede Zeile für 3 Noten stehen kann (z.B. g, ges und gis) können diese Zustände durch verschiedene Symbole dargestellt werden, z.B. ein regulärer Notenkopf für g, ein Dreieck mit Spitze nach unten für ges und ein Dreieck mit Spitze nach oben für gis. Zusätzlich kann die Ereignislänge durch ein Rechteck angezeigt werden. Eine weitere mögliche Darstellung der Ergebnisse ist die gebräuchliche Notenschrift.The detected events or notes are displayed in one or more ways. For example, one embodiment illustrates the events as a combination of symbols (note heads), where the vertical axis corresponds to a common note image and the horizontal axis of time. Since with a standard five-line note each line can stand for three notes (eg g, ges and gis), these states can be represented by different symbols, eg a regular notehead for g, a triangle with a top for ges and a triangle with top up for gis. In addition, the event length can be indicated by a rectangle. Another possible Presentation of the results is the usual notation.

Im Gegensatz zum erfindungsgemässen Verfahren, das eine Anpassung der Ergebnisse erlaubt, haben Verfahren des Stands der Technik den Nachteil, dass Schwellwerte vor der zeitaufwendigen Analyse gesetzt werden müssen. Bei unzureichender Einstellung muss der gesamte Analysevorgang wiederholt werden, was aufwendig, wenig benutzerfreundlich, fehleranfällig und zeitraubend ist. Das erfindungsgemässe Verfahren hat den Vorteil, dass Schwellwerte für die Notenerkennung auch nach der Analyse gesetzt werden können. Dadurch können die Ergebnisse in Echtzeit an die Wünsche des Benutzers angepasst werden. Dieses Verfahren kombiniert die Möglichkeiten der Notenerkennung mit der Notendarstellung in einer Weise, die es erlaubt, die Ergebnisse durch Interaktion des Programmbenutzers mit der Analysesoftware individuell anzupassen.In contrast to the method according to the invention, which allows an adaptation of the results, methods of the prior art have the disadvantage that threshold values have to be set before the time-consuming analysis. Inadequate settings require the entire analysis process to be repeated, which is cumbersome, unfriendly, prone to error, and time consuming. The method according to the invention has the advantage that threshold values for the note recognition can also be set after the analysis. This allows the results to be adjusted in real time to the wishes of the user. This method combines the possibilities of note recognition with the notation representation in a way that allows the results to be individually adapted by interaction of the program user with the analysis software.

Mit der speziellen Anwendermethode des halbautomatischen Setzens der Taktstriche können Positionen im Ereignisbild markiert werden, die musikalisch den ersten Schlag eines Taktes markieren. Bei diesem Ansatz wird mindestens ein Takt durch zwei Markierungen gesetzt und so eine zeitliche Information vorgegeben. Das Programm errechnet dann automatisch, z.B. mit Hilfe von Extrapolation, die fehlenden Takte für das ganze Lied. Dabei entstehen durch die Ungenauigkeit des gesetzten Taktes und durch Tempovariationen im Lied oft Abweichungen vom Idealergebnis, d.h. der Annahme, dass alle Takte richtig gesetzt sind. Zusätzliche erste Schläge eines Taktes können vom Anwender gesetzt werden, wobei dann das neue Taktlayout jeweils neu berechnet wird.With the special application method of semi-automatic setting of bar lines, positions in the event image can be marked, which musically mark the first beat of a bar. In this approach, at least one clock is set by two markers and thus given a temporal information. The program then automatically calculates the missing bars for the whole song, eg with the help of extrapolation. Due to the inaccuracy of the set bar and tempo variations in the song deviations from the ideal result often arise, ie the assumption that all bars are set correctly. Additional first beats of a bar can be set by the user, in which case the new bar layout is recalculated.

Der oben dargestellte Schwellwertregler kann auch als Tonhöhenfilter eingesetzt werden, d.h. als Instrument, um Grenzfrequenzen festzulegen, wobei dann Notenereignisse mit Tonhöhen über (bzw. unter oder zentriert um) einem Schwellwert nicht angezeigt oder eben angezeigt und gespielt werden. Wahlweise können Noten, die ausserhalb der Schwelle liegen, durch Tonhöhentransposition (Oktaveverschiebung) wieder in den Bereich der angezeigten Ereignisse gebracht werden. Als Beispiel gelte ein Tiefpass, bei dem Noten über dem Wert 60 (mittleres C (C5) gemäss Midi Standard, 61 = cis5) nicht angezeigt werden. Im einen Fall wird eine Note der Tonhöhe 70 nicht mehr angezeigt und/oder gespielt, im anderen Fall wird die Note um eine Oktave nach unten transponiert (70-12 Halbtonschritte = 58), somit wird die Note mit Tonhöhe 58 gezeigt und gespielt. Dieses Verfahren dient zur Verminderung von fälschlich erkannten Oktavesprüngen in Melodien, in denen die harmonischen Signale anstatt der Grundtöne erkannt wurden.The threshold controller shown above can also be used as a pitch filter, i. as an instrument to set cutoff frequencies, in which case note events with pitches above (or below or centered around) a threshold are not displayed or just displayed and played. Optionally, notes that are outside the threshold can be returned to the range of displayed events by pitch transposition (octave shift). As an example, consider a low pass that does not display scores above 60 (middle C (C5) according to Midi Standard, 61 = cis5). In one case, a note of pitch 70 is no longer displayed and / or played, otherwise the note is transposed down one octave (70-12 semitone steps = 58), thus the note with pitch 58 is shown and played. This method is used to reduce erroneously recognized octave jumps in tunes in which the harmonic signals were recognized instead of the fundamental tones.

Im Rahmen der Transformation oder der harmonischen Dekomposition können darüber hinaus noch weitere Verfahren zum Einsatz kommen. So können beispielsweise die Koeffizienten benachbarter Frequenzen durch Interpolation oder durch statistische Verfahren erhalten werden.In the context of the transformation or the harmonic decomposition further methods can be used in addition. For example, the coefficients of adjacent frequencies can be obtained by interpolation or by statistical methods.

Gleichfalls können Koeffizienten ergänzt oder ersetzt werden, indem synthetisch erzeugte Koeffizienten sowie solche aus früheren Aufnahmen, einer früheren Analyse des gleichen Signals oder Mischungen derselben verwendet werden. So können z.B. für eine Trommel obere Frequenzanteile künstlich aus einer Datenbank ergänzt werden.Likewise, coefficients may be supplemented or replaced by using synthetically generated coefficients as well as those from previous recordings, an earlier analysis of the same signal or mixtures thereof. For example, for a drum upper frequency components can be artificially supplemented from a database.

Die erzeugten Koeffizientendateien können in einem eigenen Format oder aber - gegebenenfalls nach einer Konversion - auch in einem verbreiteten Datenformat, wie z.B. MIDI- oder Wave-Format exportiert werden. Gleichermassen können auch solche Dateien importiert und deren Inhalt im erfindungsgemässen Verfahren verwendet oder modifiziert werden.The generated coefficient files may be in their own format or, if appropriate, after conversion, in a common data format, e.g. MIDI or Wave format. Equally, such files can also be imported and their contents used or modified in the method according to the invention.

Aus den Koeffizienten können schliesslich durch eine Rücktransformation wieder das Original oder originalgetreu klingende Signale erzeugt werden, beispielsweise im Wave Format, welche dann beispielsweise über das Computermusiksystem und Lautsprecher wiedergegeben werden können. Im speziellen Fall können Klänge, welche durch Musiknoten oder Bilder irgendwelcher Art am Bildschirm dargestellt werden, aus den TF-Koeffizienten rekonstruiert und abgespielt werden.From the coefficients, finally, the original or original-sounding signals can be generated by an inverse transformation, for example in wave format, which can then be reproduced, for example, via the computer music system and loudspeaker. In the special case, sounds represented by music notes or images of any kind on the screen can be reconstructed and played back from the TF coefficients.

Das erfindungsgemässe Verfahren bzw. die logische oder physische Verschaltung der Vorrichtung werden nachfolgend anhand der Ablauf- und Anordnungsbeziehungen der einzelnen Komponenten sowie der graphischen Darstellung auf einem Bildschirm beispielhaft und rein schematisch näher erläutert.The method according to the invention or the logical or physical interconnection of the device will be explained in more detail below on the basis of the sequence and arrangement relationships of the individual components and the graphical representation on a screen by way of example and purely schematically.

Im einzelnen zeigen

Fig.1
eine schematische Darstellung der einzelnen Schritte des erfindungsgemässen Verfahrens;
Fig.2
eine schematische Darstellung von Bereitstellungsalternativen für ein Eingangssignal;
Fig.3
eine schematische Darstellung der Zerlegung des Eingangssignals in Frequenzbereiche;
Fig.4
eine schematische Darstellung eines Transformierens der Frequenzbereiche;
Fig.5
eine schematische Darstellung der Schritte zur Notenerkennung durch harmonischen Dekomposition;
Fig.6
eine Darstellung einer graphischen Benutzeroberfläche zur interaktiven Bereitstellung von Zusatzinformationen;
Fig.7
eine Darstellung eines ersten Schrittes in einem ersten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Setzen von Taktmarkierungen;
Fig.8
eine Darstellung eines zweiten Schrittes in einem ersten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Setzen von Taktmarkierungen;
Fig.9
eine Darstellung eines ersten Schrittes in einem zweiten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Anpassung des Verstärkungsfaktors und
Fig.10
eine Darstellung eines zweiten Schrittes in einem zweiten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Anpassung des Verstärkungsfaktors.
Show in detail
Fig.1
a schematic representation of the individual steps of the inventive method;
Fig.2
a schematic representation of deployment alternatives for an input signal;
Figure 3
a schematic representation of the decomposition of the input signal in frequency ranges;
Figure 4
a schematic representation of transforming the frequency ranges;
Figure 5
a schematic representation of the steps for note recognition by harmonic decomposition;
Figure 6
a representation of a graphical user interface for the interactive provision of additional information;
Figure 7
a representation of a first step in a first example for the interactive provision of additional information by setting clock marks;
Figure 8
a representation of a second step in a first example for the interactive provision of additional information by setting clock marks;
Figure 9
a representation of a first step in a second example for the interactive provision of additional information by adjusting the gain and
Figure 10
a representation of a second step in a second example for the interactive provision of additional information by adjusting the gain.

Fig.1 zeigt eine schematische Darstellung der einzelnen Schritte des erfindungsgemässen Verfahrens.1 shows a schematic representation of the individual steps of the inventive method.

Das akustische Signal wird durch eine Aufnahmekomponente erfasst oder von einem Datenträger importiert und in Form eines Eingangssignals ES zur Weiterverarbeitung bereitgestellt. Dieses Eingangssignal ES wird in einem Subband Coder SC in einzelne Frequenzbänder zerlegt, die nachfolgend jeweils einer frequenzoptimierten ersten Transformation TF1 und einer zeitoptimierten zweiten Transformation TF2 zugeführt werden. Diese Transformationsprozesse können parallel auch Informationen aus dem originalen Eingangssignal ES gewinnen und für den Transformationsprozess nutzen.The acoustic signal is detected by a recording component or imported from a data carrier and provided in the form of an input signal ES for further processing. This input signal ES is decomposed in a subband coder SC into individual frequency bands, which are subsequently each supplied to a frequency-optimized first transformation TF1 and a time-optimized second transformation TF2. These transformation processes can also extract information from the original input signal ES in parallel and use it for the transformation process.

Die Ergebnisse der beiden Transformationen werden in einem Transformations-Prozessor TP - gegebenenfalls unter Rückkopplung mit der ersten Transformation TF1 und der zweiten Transformation TF2 - zu einer Koeffizientendatei zusammengeführt.The results of the two transformations are combined in a transformation processor TP-possibly in feedback with the first transformation TF1 and the second transformation TF2-to form a coefficient file.

Auf der Basis dieser Koeffizientendatei erfolgt die harmonische Dekomposition HD zur Erkennung von dem Eingangssignal ES inhärenten Mustern. Dabei können zur harmonischen Dekomposition HD vorgegebene Koeffizienten genutzt werde, die beispielsweise in einem Speicher abgelegt sind oder über externe Datenträger zugeführt werden.On the basis of this coefficient file, the harmonic decomposition HD is performed to detect patterns inherent in the input signal ES. It can be used for harmonic decomposition HD predetermined coefficients that are stored for example in a memory or supplied via external media.

Die identifizierten Muster werden über eine graphische Konversion für eine graphische Schnittstelle exportierbar bzw. darstellbar gemacht. Ein Beispiel hierfür stellen die Umsetzung in Noten und beispielsweise der Ausdruck einer Partitur dar. Erfolgt eine Darstellung auf einer graphischen Benutzeroberfläche, so können interaktiv Parameter verändert oder vorgegeben werden sowie weitere Auswählen oder Modifikationen erfolgen.The identified patterns are made exportable via a graphical conversion for a graphical interface. An example of this is the conversion into notes and, for example, the printout of a score. If a representation is made on a graphical user interface, parameters can be interactively changed or be given as well as further selections or modifications.

Zum Transfer von Dateien wird eine Schnittstelle EX/IM verwendet. Darüber hinaus kann nach einer Formatkonversion die akustische Darstellung der Muster über einen Audioausgang, der z.B. mit einem Synthesizer verbunden ist, erfolgen.For the transfer of files an interface EX / IM is used. Moreover, after a format conversion, the acoustic representation of the patterns may be transmitted via an audio output, e.g. connected to a synthesizer done.

In Fig.2 erfolgt die schematische Darstellung von Bereitstellungsalternativen für das Eingangssignal ES. Das Eingangssignal kann durch verschiedenartige Quellen bereitgestellt werden. Hierzu gehören zeitnah oder in Echtzeit erfolgende Aufnahme wie auch die Verwendung gespeicherter Daten. Dabei können beispielsweise Signale im Wave-Format und Dateien von Audio-CDs direkt verwendet werden. Dateien in den Formaten MPx (MP3, MP4) oder WMA oder einem anderen Format werden zuerst durch Decoder in Wave-Dateien umgewandelt. Dazu stehen handelsübliche Funktionsbibliotheken, z.B. für MP3 vom Fraunhofer Institut, im Internet zur Verfügung. Alternativ können die Koeffizienten von MP3 oder vergleichbaren Formaten direkt oder über eine Vorbehandlung (z.B. Skalierung) in eine oder mehrere Schichten der Pyramidenzerlegung des Signals eingeordnet werden. Decoder für andere Formate, wie z.B. Ogg oder WMA, werden im Internet bereitgestellt, z.B. auf www.microsoft.com.FIG. 2 shows a schematic representation of provision alternatives for the input signal ES. The input signal can be provided by various sources. These include timely or real-time recording as well as the use of stored data. For example, signals in Wave format and files from Audio CDs can be used directly. Files in the formats MPx (MP3, MP4) or WMA or any other format are first converted to wave files by decoders. These are commercially available function libraries, e.g. for MP3 from the Fraunhofer Institute, available on the Internet. Alternatively, the coefficients of MP3 or comparable formats may be arranged directly or via a pre-treatment (e.g., scaling) into one or more layers of the pyramid decomposition of the signal. Decoders for other formats, e.g. Ogg or WMA, are provided on the Internet, e.g. on www.microsoft.com.

Ein Aufnahmepuffer AP ist Bestandteil eines Sigalaufnahmeverfahrens auf dem Computer, beispielsweise DirectX der Firma Microsoft. Hierdurch können z.B. Aufnahmen von Signalen über ein an den Computer angeschlossenes Mikrofon erfolgen.A recording buffer AP is part of a Sigalaufnahmeverfahren on the computer, such as Microsoft DirectX. This allows, for example, recordings of signals via a microphone connected to the computer.

Die Zerlegung des Eingangssignals ES in Frequenzbereiche im Subband Coder SC wird in Fig.3 schematisch dargestellt.The decomposition of the input signal ES into frequency ranges in the subband Coder SC is shown schematically in FIG.

Das als Wave-Datei bereitgestellte Eingangssignal ES wird durch geeignete Hochpassfilter HP und Tiefpassfilter TP und durch Verminderung der Samplingrate, z.B. durch eine Halbierung der Datenrate HDR, in Unterbereiche oder Subbänder SBB zerteilt. Typischerweise enthält jedes Subband SBB eine bandpass-gefilterte Version des Eingangssignals ES. Beispiele für Filterkerne sind

  • o für Tiefpass {0.25, 0.5, 0.25} oder {0.05, 0.2, 0.4, 0.2, 0.05} und
  • o für Hochpässe Filterkerne deren Mittelwert der Koeffizienten Null (0.0) ergibt, z.B. {-1, 2, -1}.
The input signal ES provided as a wave file is divided into subregions or subbands SBB by means of suitable high-pass filters HP and low-pass filters TP and by reducing the sampling rate, for example by halving the data rate HDR. Typically, each sub-band SBB contains a band-pass filtered version of the input signal ES. Examples of filter cores are
  • o for lowpass {0.25, 0.5, 0.25} or {0.05, 0.2, 0.4, 0.2, 0.05} and
  • o For high pass filter kernels whose mean value of the coefficients is zero (0.0), eg {-1, 2, -1}.

Wahlweise können die Hochpassfilter auch weggelassen werden, wodurch sich eine Serie von tiefpassgefilterten Subbändern erzeugen lässt.Optionally, the high pass filters may also be omitted, thereby producing a series of low pass filtered subbands.

Fig.4 veranschaulicht das Transformieren der Frequenzbereiche in einer schematischen Darstellung. Die einzelnen Subbänder SBB werden den beiden unterschiedlich optimierten Transformationen TF1 und TF2 unterworfen und nachfolgend in verschiedenen Schichten TFL0, TFL1,...TFLN gespeichert. Das in den Schichten TFL0, TFL1,...TFLN der Ausgangsmenge gespeicherte Signal ist beispielsweise eine Mischung aus den Transformationsausgangssignalen und einer Pyramidenzerlegung der jeweils nächsthöheren Stufe der Pyramide. Je nach konkreten Anwendungszweck und zu verarbeitenden Typen von akustischen Eingangssignalen ES kann auch eine andere Zerlegungsart oder auch eine mehrfache Pyramidenzerlegung erfolgen.4 illustrates the transformation of the frequency ranges in a schematic representation. The individual subbands SBB are subjected to the two differently optimized transformations TF1 and TF2 and subsequently stored in different layers TFL0, TFL1, ... TFLN. The signal stored in the layers TFL0, TFL1, ... TFLN of the output quantity is for example a mixture of the transformation output signals and a pyramid decomposition of the next higher level of the pyramid. Depending on the specific application and types of acoustic input signals ES to be processed, a different type of decomposition or a multiple pyramid decomposition can also be carried out.

Fig.5 zeigt eine schematische Darstellung der Schritte zur Notenerkennung durch harmonischen Dekomposition HD. Die in den verschiedenen Schichten TFL0, TFL1,...TFLN enthaltenen Informationen werden in einem Filter FI zusammengefasst und danach zur Ereignisextraktion der harmonischen Dekomposition unterworfen, in denen die Mustererkennung und Modellbildung stattfindet. Hierzu können erfindungsgemäss eine Vielzahl von vorstehend beschriebenen Ansätzen verwendet werden. Die Ergebnisse der harmonischen Dekomposition HD werden beispielsweise graphisch in Form von Noten dargestellt, so dass durch einen Benutzer oder auch andere Verfahren eine Auswahl oder Vorgabe von Informationen erfolgen kann, die wiederum Eingang in den Schritt der harmonischen Dekomposition HD finden.5 shows a schematic representation of the steps for note recognition by harmonic decomposition HD. The information contained in the various layers TFL0, TFL1, ... TFLN are combined in a filter FI and then subjected to harmonic decomposition event extraction, where pattern recognition and modeling takes place. For this purpose, a multiplicity of approaches described above can be used according to the invention. The results of the harmonic decomposition HD are represented graphically in the form of notes, for example, so that a selection or specification of information can be made by a user or other methods, which in turn find their way into the step of harmonic decomposition HD.

Ein Beispiel für eine graphische Benutzeroberfläche zur interaktiven Bereitstellung von Zusatzinformationen wird in Fig.6 dargestellt. Die Oberfläche stellt unter anderem einen Verstärkungsregler 1 und einen manuell veränderbaren Taktmarkierer 2 zur Festsetzung von Takten bereit.An example of a graphical user interface for interactively providing additional information is shown in FIG. The surface provides, inter alia, a gain control 1 and a manually changeable clock marker 2 for setting clocks.

Die Anwendung des Taktmarkierers 2 wird in Fig. 7 in einem ersten Schritt eines ersten Beispiels zur interaktiven Bereitstellung von Zusatzinformationen durch Setzen von Taktmarkierungen erläutert. Dieser Ansatz erlaubt eine Bestimmung aller Takte im gesamten Lied. Durch den Taktmarkierer 2 wird ein Takt im Lied identifiziert und graphisch durch eine Raute 3 in der obersten Zeile angezeigt. Das Betätigen eines Funktionselementes führt dann zum Umrechnen der Ereignisse in standardgemässe Musiknoten, wobei die automatisch gesetzten Takte durch Dreiecke 4 in der obersten Zeile markiert werden. Verbesserungen dieser Methode können noch dadurch erreicht werden, dass die Tonspuren, speziell dabei die Schlagzeugspur, zur Feinabstimmung der Takte herangezogen werden können. Trotzdem kann es aufgrund von Variationen in der gespielten Musik, durch Schwankungen der Aufnahmegeschwindigkeit oder Drifteffekte zu einem Auseinanderfallen von errechneten Takten und tatsächlichen Mustern in der Aufnahme kommen, wie im Beispiel innerhalb des gestrichelten Bereichs durch Pfeile angezeigt.The application of the clock marker 2 is explained in FIG. 7 in a first step of a first example for the interactive provision of additional information by setting clock markings. This approach allows a determination of all measures in the entire song. By the clock marker 2, a clock in the song is identified and displayed graphically by a diamond 3 in the top line. The actuation of a function element then leads to the conversion of the events into standard music notes, wherein the automatically set clocks are marked by triangles 4 in the top line. Improvements to this method can still do so be achieved that the soundtracks, especially the drum track, can be used to fine-tune the clocks. Nevertheless, due to variations in the music being played, variations in recording speed or drift effects, calculated clocks and actual patterns in the recording may fall apart, as indicated by arrows in the example within the dashed area.

Durch das manuelle Anpassen der Taktmarkierung kann dieses Auseinanderfallen wieder korrigiert werden, wie in Fig.8 gezeigt.By manually adjusting the timing mark this falling apart can be corrected again, as shown in Fig.8.

In Fig.9 erfolgt eine Darstellung eines ersten Schrittes in einem zweiten Beispiel zur interaktiven Bereitstellung von Zusatzinformationen durch Anpassung des Verstärkungsfaktors. In diesem Beispiel wird der Schwellwertregler mit einem Schwellwert grösser 0 gewählt, so dass nur Notenereignisse angezeigt werden, welche grösser als der Schwellwert sind. Einige relevante Bereiche werden durch Ellipsen markiert.9 shows a representation of a first step in a second example for the interactive provision of additional information by adjusting the amplification factor. In this example, the threshold controller is selected with a threshold greater than 0 so that only note events greater than the threshold are displayed. Some relevant areas are marked by ellipses.

In diesen Bereichen werden nach Veränderung der Einstellung des Schwellwertreglers weitere Informationen sichtbar, wie in Fig.10 gezeigt. Wird der Schwellwertregler auf Null gesetzt, so werden alle Notenereignisse sichtbar und es werden alle ermittelten Ereignisse angezeigt. Durch die Variation des Schwellwertreglers können somit Anpassungen des Ergebnisses erfolgen, ohne dass das gesamte Verfahren von Anfang an neu durchgeführt werden muss.In these areas, after changing the setting of the threshold controller, further information becomes visible, as shown in FIG. If the Threshold slider is set to zero, all note events become visible and all detected events are displayed. By varying the threshold controller, it is thus possible to make adjustments to the result without the entire method having to be carried out again from the beginning.

Claims (14)

Verfahren zur Musterzuordnung für akustischen Aufnahmen mit den Schritten - Bereitstellen eines Signals welches eine akustische Aufnahme repräsentiert; - Zerlegen des Signals in Frequenzbereiche; - Transformieren der Frequenzbereiche zur spektralen Zerlegung in wenigstens eine Koeffizientendatei; - Durchführen einer harmonischen Dekomposition der Koeffizientendatei; und - Musterzuordnung; dadurch gekennzeichnet, dass
beim Transformieren der Frequenzbereiche, insbesondere jeweils für alle Frequenzbereiche, wenigstens - eine hinsichtlich der Frequenzauflösung optimierte erste Transformation und - eine hinsichtlich der Zeitauflösung optimierte zweite Transformation erfolgt.
Method for pattern assignment for acoustic recordings with the steps Providing a signal representing an acoustic recording; - decomposing the signal into frequency ranges; Transforming the frequency ranges for spectral decomposition into at least one coefficient file; - performing a harmonic decomposition of the coefficient file; and - pattern assignment; characterized in that
when transforming the frequency ranges, in particular in each case for all frequency ranges, at least a first transformation optimized with respect to the frequency resolution and - An optimized with respect to the time resolution second transformation takes place.
Verfahren nach Anspruch 1,
dadurch gekennzeichnet, dass
beim Transformieren der Frequenzbereiche eine optimierte Selektion der Koeffizienten aus den Ergebnissen der ersten Transformation und der zweiten Transformation und/oder eine Mischung der Koeffizienten aus den Ergebnissen der ersten Transformation und der zweiten Transformation erfolgt.
Method according to claim 1,
characterized in that
When transforming the frequency ranges, an optimized selection of the coefficients from the results of the first transformation and the second transformation and / or a mixture of the coefficients from the results of the first transformation and the second transformation takes place.
Verfahren nach Anspruch 2,
dadurch gekennzeichnet, dass
beim Transformieren der Frequenzbereiche - die erste Transformation mit einem längeren Zeitfenster und - die zweite Transformation mit einem kürzeren Zeitfenster erfolgt, insbesondere wobei die Selektion anhand des Verhältnisses der Realteile von erster und zweiter Transformation getroffen wird.
Method according to claim 2,
characterized in that
when transforming the frequency ranges - the first transformation with a longer time window and the second transformation takes place with a shorter time window, in particular wherein the selection is made on the basis of the ratio of the real parts of the first and second transformations.
Verfahren nach Anspruch 2,
dadurch gekennzeichnet, dass
beim Transformieren der Frequenzbereiche die Selektion oder Mischung anhand der frequenzabhängigen Steigung des Phasensignals jeweils für die Ergebnisse der ersten Transformation und der zweiten Transformation erfolgt.
Method according to claim 2,
characterized in that
when transforming the frequency ranges the selection or mixture based on the frequency-dependent slope of the phase signal in each case for the results of the first transformation and the second transformation takes place.
Verfahren nach Anspruch 2,
dadurch gekennzeichnet, dass
beim Transformieren der Frequenzbereiche die Selektion oder Mischung anhand eines Vergleichs der Ergebnisse der ersten Transformation und der zweiten Transformation mit einem Satz von vorgegebenen Koeffizienten erfolgt.
Method according to claim 2,
characterized in that
in transforming the frequency ranges, the selection or blending is done by comparing the results of the first transform and the second transform with a set of predetermined coefficients.
Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass
die erste Transformation und/oder zweite Transformation nach einem der folgenden Prinzipien erfolgt - Diskrete Fourier-Transformation, - Fast-Fourier-Transformation, - Wavelet-Transformation, - Sinus Transformation, - Kosinus Transformation.
Method according to one of the preceding claims,
characterized in that
the first transformation and / or second transformation takes place according to one of the following principles Discrete Fourier transform, Fast Fourier Transformation, Wavelet transformation, - sinus transformation, - cosine transformation.
Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass
beim Transformieren der Frequenzbereiche für jede Transformation ein Aggregat der Ergebnisse, insbesondere das zeitliche Integral für eine Frequenz, berücksichtigt werden.
Method according to one of the preceding claims,
characterized in that
When transforming the frequency ranges for each transformation, an aggregate of the results, in particular the temporal integral for a frequency, are taken into account.
Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass
das Zerlegen des Signals nach dem Prinzip der Teilung in Oktaven und/oder der Pyramidenzerlegung erfolgt.
Method according to one of the preceding claims,
characterized in that
the decomposition of the signal takes place according to the principle of division into octaves and / or pyramid decomposition.
Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass
beim Durchführen der harmonischen Dekomposition - ein Vergleich mit vorgegebenen Koeffizienten, insbesondere unter Minimierung des Residuums, oder - ein Vergleich mit Koeffizienten aus einer vorangegangenen Analyse des Signals, insbesondere durch Ableiten von Koeffizienten unter Verwendung eines charakteristischen Grundprofils, erfolgt.
Method according to one of the preceding claims,
characterized in that
while performing the harmonic decomposition a comparison with predetermined coefficients, in particular with minimization of the residual, or a comparison with coefficients from a previous analysis of the signal, in particular by deriving coefficients using a characteristic basic profile, he follows.
Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass
beim Durchführen der harmonischen Dekomposition eine Interaktion mit einem Benutzer erfolgt, insbesondere durch Eingabe von Zusatzinformationen.
Method according to one of the preceding claims,
characterized in that
when performing the harmonic decomposition, an interaction with a user occurs, in particular by entering additional information.
Verfahren nach einem der vorangehenden Ansprüche,
dadurch gekennzeichnet, dass
beim Durchführen der harmonischen Dekomposition originale und/oder synthetische Frequenzanteile, insbesondere obere Frequenzanteile, verwendet werden.
Method according to one of the preceding claims,
characterized in that
when performing the harmonic decomposition original and / or synthetic frequency components, in particular upper frequency components are used.
Computerprogrammprodukt mit Programmcode, der auf einem maschinenlesbaren Träger gespeichert oder durch eine elektromagnetische Welle verkörpert ist, zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 11.Computer program product with program code stored on a machine-readable carrier or embodied by an electromagnetic wave for carrying out the method according to one of claims 1 to 11. Vorrichtung zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 11
mit wenigstens - einer Aufnahmekomponente zur Aufnahmen eines akustischen Signals, - einem Subband-Coder zum Zerlegen des Signals in einzelne Frequenzbereiche, - einem Transformations-Prozessor zur spektralen Zerlegung der Frequenzbereiche in wenigstens eine Koeffizientendatei, - einer Exportschnittstelle zum Export der Koeffizientendatei, dadurch gekennzeichnet, dass
dem Transformations-Prozessor eine erste Transformationsstufe und eine zweite Transformationsstufe zugeordnet sind, wobei die erste Transformationsstufe eine optimierte Frequenzauflösung und die zweite Transformationsstufe eine optimierte Zeitauflösung bewirkt.
Apparatus for carrying out a method according to one of claims 1 to 11
with at least a recording component for recording an acoustic signal, a subband coder for dividing the signal into individual frequency ranges, a transformation processor for the spectral decomposition of the frequency ranges into at least one coefficient file, - an export interface for exporting the coefficient file, characterized in that
the transformation processor is associated with a first transformation stage and a second transformation stage, wherein the first transformation stage causes an optimized frequency resolution and the second transformation stage effects an optimized time resolution.
Koeffizientendatei zur Verwendung in einem Verfahrens nach einem der Ansprüche 1 bis 11
gekennzeichnet durch
die Koeffizienten der spektralen Zerlegung des akustischen Signals und zugeordneter Informationen zur Signalstatistik.
A coefficient file for use in a method according to any one of claims 1 to 11
marked by
the coefficients of the spectral decomposition of the acoustic signal and associated information to the signal statistics.
EP05107730A 2005-08-23 2005-08-23 Method and Apparatus for Pattern Recognition in Acoustic Recordings Withdrawn EP1758096A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP05107730A EP1758096A1 (en) 2005-08-23 2005-08-23 Method and Apparatus for Pattern Recognition in Acoustic Recordings
US11/466,379 US20070044642A1 (en) 2005-08-23 2006-08-22 Method and device for pattern recognition in acoustic recordings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP05107730A EP1758096A1 (en) 2005-08-23 2005-08-23 Method and Apparatus for Pattern Recognition in Acoustic Recordings

Publications (1)

Publication Number Publication Date
EP1758096A1 true EP1758096A1 (en) 2007-02-28

Family

ID=35520688

Family Applications (1)

Application Number Title Priority Date Filing Date
EP05107730A Withdrawn EP1758096A1 (en) 2005-08-23 2005-08-23 Method and Apparatus for Pattern Recognition in Acoustic Recordings

Country Status (2)

Country Link
US (1) US20070044642A1 (en)
EP (1) EP1758096A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2008229637A1 (en) * 2007-03-18 2008-09-25 Igruuv Pty Ltd File creation process, file format and file playback apparatus enabling advanced audio interaction and collaboration capabilities
US8283546B2 (en) * 2007-03-28 2012-10-09 Van Os Jan L Melody encoding and searching system
WO2017136854A1 (en) * 2016-02-05 2017-08-10 New Resonance, Llc Mapping characteristics of music into a visual display
US10325580B2 (en) * 2016-08-10 2019-06-18 Red Pill Vr, Inc Virtual music experiences
US10008188B1 (en) * 2017-01-31 2018-06-26 Kyocera Document Solutions Inc. Musical score generator

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5752224A (en) * 1994-04-01 1998-05-12 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus information transmission method and information recording medium
US6140568A (en) 1997-11-06 2000-10-31 Innovative Music Systems, Inc. System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
US6355869B1 (en) 1999-08-19 2002-03-12 Duane Mitton Method and system for creating musical scores from musical recordings

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003085644A1 (en) * 2002-04-11 2003-10-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5752224A (en) * 1994-04-01 1998-05-12 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus information transmission method and information recording medium
US6140568A (en) 1997-11-06 2000-10-31 Innovative Music Systems, Inc. System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
US6355869B1 (en) 1999-08-19 2002-03-12 Duane Mitton Method and system for creating musical scores from musical recordings

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BOSI M ET AL: "ISO/IEC MPEG-2 ADVANCED AUDIO CODING", JOURNAL OF THE AUDIO ENGINEERING SOCIETY, AUDIO ENGINEERING SOCIETY, NEW YORK, NY, US, vol. 45, no. 10, October 1997 (1997-10-01), pages 789 - 812, XP000730161, ISSN: 1549-4950 *
EDLER B: "CODIERUNG VON AUDIOSIGNALEN MIT UEBERLAPPENDER TRANSFORMATION UND ADAPTIVEN FENSTERFUNKTIONEN CODING OF AUDIO SIGNALS WITH OVERLAPPING BLOCK TRANSFORM AND ADAPTIVE WINDOW FUNCTIONS", FREQUENZ, SCHIELE UND SCHON, BERLIN, DE, vol. 43, no. 9, 1 September 1989 (1989-09-01), pages 252 - 256, XP000052987, ISSN: 0016-1136 *
MELIH K ET AL: "Audio retrieval using perceptually based structures", MULTIMEDIA COMPUTING AND SYSTEMS, 1998. PROCEEDINGS. IEEE INTERNATIONAL CONFERENCE ON AUSTIN, TX, USA 28 JUNE-1 JULY 1998, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 28 June 1998 (1998-06-28), pages 338 - 347, XP010291569, ISBN: 0-8186-8557-3 *
YASUI NAGOSHI, YUSUKE HIOKA, NOZOMU HAMADA: "Transcription of Music Composed of Melody and Chord Using Tree-structured Filter Bank", PROCEEDINGS OF THE IASTED INTERNATIONAL CONFERENCE, 16 August 2001 (2001-08-16), Honolulu, Hawaii, USA, pages 415 - 419, XP009059920 *

Also Published As

Publication number Publication date
US20070044642A1 (en) 2007-03-01

Similar Documents

Publication Publication Date Title
DE69629486T2 (en) CONTROL STRUCTURE FOR SOUND SYNTHESIS
EP2099024B1 (en) Method for acoustic object-oriented analysis and note object-oriented processing of polyphonic sound recordings
DE60103086T2 (en) IMPROVEMENT OF SOURCE DELIVERY SYSTEMS BY ADAPTIVE TRANSPOSITION
DE60018626T2 (en) Device and method for entering control files for music lectures
WO2005122135A1 (en) Device and method for converting an information signal into a spectral representation with variable resolution
WO2006039994A2 (en) Method and device for the extraction of a melody on which an audio signal is based
DE102007034774A1 (en) Apparatus for the determination of chord names and program for the determination of chord names
DE2926090A1 (en) TONER PRODUCTION METHOD
DE60026189T2 (en) Method and apparatus for waveform compression and generation
DE69629934T2 (en) REVERSED TRANSFORM NARROW / BROADBAND TONSYNTHESIS
DE60024157T2 (en) Device and method for entering a style of a presentation
WO2006039995A1 (en) Method and device for harmonic processing of a melodic line
DE112013005807T5 (en) Apparatus and method for generating real-time music accompaniment
DE2711511C2 (en) Polyphonic electronic musical instrument
EP1280138A1 (en) Method for audio signals analysis
EP1758096A1 (en) Method and Apparatus for Pattern Recognition in Acoustic Recordings
WO2006039992A1 (en) Extraction of a melody on which an audio signal is based
DE60202161T2 (en) Method, apparatus and program for analyzing and synthesizing speech
DE102004028693B4 (en) Apparatus and method for determining a chord type underlying a test signal
DE60318282T2 (en) Methods and apparatus for processing execution data and synthesizing audio signals
DE60033098T2 (en) Method and device for recording / reproducing or generating waveforms by means of timing information
DE60032844T2 (en) A method and apparatus for generating a waveform based on a design style data stream
DE60032085T2 (en) A method and apparatus for generating a waveform with improved transition between successive file modules
EP1377924B1 (en) Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal
EP2420998B1 (en) Playing analysis device for an instrument with keys

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR MK YU

17P Request for examination filed

Effective date: 20070822

AKX Designation fees paid

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20110118

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20110729