DE102004022660B4

DE102004022660B4 - Apparatus and method for analyzing an information signal

Info

Publication number: DE102004022660B4
Application number: DE102004022660A
Authority: DE
Inventors: Christian Dittmar; Christian Uhle; Jürgen Dr. Herre
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-05-07
Filing date: 2004-05-07
Publication date: 2006-03-23
Anticipated expiration: 2024-05-08
Also published as: DE502005001838D1; WO2005114651A1; DE102004022660A1; EP1743324B1; EP1743324A1; ATE377240T1; JP2007536587A

Abstract

In order to analyse an information signal, a significant short-time spectrum is extracted from the information signal. The extraction device (16) is embodied in such a way as to extract the short-time spectra which come closer to a specific characteristic than other short-time spectra of the information signal. The extracted short-time spectra are then decomposed (18) into component signals, by ICA analysis, a component signal spectrum representing a profile spectrum of a sound source which generates a sound corresponding to the required characteristic. An amplitude envelope is calculated (20) for each profile spectrum from a series of short-time spectra of the information signal and from the determined profile spectra, said envelope indicating how the profile spectrum of a sound source generally varies over time. The profile spectra and associated amplitude envelopes describe the information signal that can be further evaluated, e.g. for the purposes of a transcription in the case of a music signal.

Description

Die vorliegende Erfindung bezieht sich auf die Analyse von Informationssignalen, wie beispielsweise Audiosignalen und insbesondere auf die Analyse von Informationssignalen, die aus einer Überlagerung von Teilsignalen bestehen, wobei ein Teilsignal von einer Einzelquelle oder einer Gruppe von Einzelquellen stammen kann.The The present invention relates to the analysis of information signals, such as audio signals and in particular the analysis of information signals resulting from a superposition of sub-signals consist of a partial signal from a single source or a Group of individual sources.

Die fortschreitende Entwicklung digitaler Distributionsmedien für multimediale Inhalte führt zu einer großen Vielfalt angebotener Daten. Für den menschlichen Nutzer ist die Grenze des Überschaubaren dabei längst überschritten. So gewinnt die inhaltliche Beschreibung der Daten durch Metadaten zunehmend an Bedeutung. Grundsätzlich besteht das Ziel, nicht nur Text-Dateien sondern auch z. B. Musikdateien, Videodateien oder sonstige Informationssignaldateien durchsuchbar zu machen, wobei derselbe Komfort wie bei gängigen Textdatenbanken angestrebt wird. Ein Ansatz hierfür ist der bekannte MPEG 7-Standard.The progressive development of digital distribution media for multimedia Contents leads to a big one Diversity of offered data. For the human user is the limit of the manageable long exceeded. Thus, the content description of the data by metadata increasingly gains in importance. in principle the goal is not only text files but also z. Music files, Video files or other information signal files searchable with the same comfort as usual text databases becomes. An approach for this is the well-known MPEG 7 standard.

Insbesondere bei der Analyse von Audiosignalen, also Signalen, die Musik und/oder Sprache umfassen, ist die Extraktion von Fingerabdrücken von großer Bedeutung.Especially in the analysis of audio signals, ie signals, the music and / or Language is the extraction of fingerprints from greater Importance.

Angestrebt wird ferner, Audiodaten mit Metadaten „anzureichern", um für z. B. ein Musikstück auf der Basis eines Fingerabdrucks Metadaten wiederzugewinnen. Der „Fingerabdruck" soll einerseits aussagekräftig sein, und andererseits möglichst kurz und prägnant sein. „Fingerabdruck" bezeichnet somit ein aus einem Musik-Signal generiertes komp rimiertes Informationssignal, welches nicht die Metadaten enthält, sondern zur Referenzierung auf die Metadaten z.B. durch Suche in einer Datenbank dient, z.B. in einem System zur Identifikation von Audiomaterial („AudioID").The aim is further "enriching" audio data with metadata in order, for example, to a piece of music to recover metadata based on a fingerprint. The "fingerprint" should on the one hand meaningful be, and on the other hand as possible short and concise be. "Fingerprint" means thus a compressed information signal generated from a music signal, which does not contain the metadata but for referencing to the metadata e.g. by searching in a database, e.g. in a system for the identification of Audio material ("AudioID").

Normalerweise bestehen Musikdaten aus der Überlagerung von Teilsignalen von Einzelquellen. Während es bei einer Popmusik typischerweise relativ wenige Einzelquellen gibt, nämlich den Sänger, die Gitarre, die Bassgitarre, das Schlagzeug und ein Keyboard, so kann die Anzahl von Quellen für ein Orchesterstück sehr groß werden. Ein Orchesterstück und ein Popmusikstück beispielsweise bestehen aus einer Überlagerung der von den einzelnen Instrumenten abgegebenen Töne. Ein Orchesterstück bzw. irgendein Musikstück stellt somit eine Überlagerung von Teilsignalen von einzelnen Quellen dar, wobei die Teilsignale die von den einzelnen Instrumenten des Orchesters bzw. Popmusikensembles erzeugten Töne sind, und wobei die einzelnen Instrumente Einzelquellen sind.Usually consist of music data from the overlay of sub-signals from single sources. While listening to a pop music typically there are relatively few individual sources, namely the Singers who Guitar, bass guitar, drums and a keyboard, so can the number of sources for an orchestral piece get very tall. An orchestral piece and a pop piece of music For example, consist of a superposition of the individual Instruments emitted tones. An orchestral piece or any piece of music thus provides a superposition of Partial signals from individual sources, the sub-signals the from the individual instruments of the orchestra or pop music ensemble generated sounds and the individual instruments are single sources.

Alternativ können auch Gruppen von ursprünglichen Quellen als Einzelquellen aufgefasst werden, so dass einem Signal wenigstens zwei Einzelquellen zugewiesen werden können.alternative can also groups of original ones Sources are understood as single sources, giving a signal at least two individual sources can be assigned.

Eine Analyse eines allgemeinen Informationssignals wird nachfolgend lediglich beispielhaft anhand eines Orchestersignals dargestellt. Die Analyse eines Orchestersignals kann auf vielerlei Arten und Weisen durchgeführt werden. So kann der Wunsch bestehen, die einzelnen Instrumente zu erkennen und aus dem Gesamtsignal die Einzelsignale der Instrumente zu extrahieren und gegebenenfalls in eine Notenschrift umzusetzen, wobei die Notenschrift als „Metadaten" fungieren würde. Weitere Möglichkeiten der Analyse bestehen darin, einen dominanten Rhythmus zu extrahieren, wobei eine Rhythmusextraktion auf der Basis der Schlaginstrumente bes ser vonstatten geht als auf der Basis der eher Ton-gebenden Instrumente, die auch als harmonisch-ausgehaltene oder „harmonic sustained" Instrumente bezeichnet werden. Während Schlaginstrumente typischerweise Pauken, Schlagzeuge, Rasseln oder sonstige Percussion-Instrumente umfassen, gehören zu den harmonisch ausgehaltenen Instrumenten alle sonstigen Instrumente, wie beispielsweise Geigen, Blasinstrumente, etc.A Analysis of a general information signal will be hereinafter merely exemplified by an orchestral signal. The analysis of a Orchestra signal can be performed in many ways. So there may be a desire to recognize the individual instruments and to extract the individual signals of the instruments from the total signal and if necessary to convert it into a musical notation, the musical notation would act as "metadata" Possibilities of Analysis is to extract a dominant rhythm being a rhythm extraction based on the percussion instruments better than on the basis of the more sound-giving instruments, which are also referred to as harmonic-sustained or "harmonic sustained" instruments become. While Percussion instruments typically timpani, drums, rattles or otherwise Including percussion instruments are among the most harmoniously endured All other instruments, such as violins, wind instruments, Etc.

Weiterhin werden zu den Schlaginstrumenten alle jene akustischen oder synthetischen Klangerzeuger gezählt, die aufgrund ihrer Klangeigenschaften zur Rhythmussektion beitragen (z.B. Rhythmusgitarre).Farther Become the percussion instruments all those acoustic or synthetic sound generators counted which contribute to the rhythm section due to their sound characteristics (e.g., rhythm guitar).

So wäre es beispielsweise zur Rhythmusextraktion eines Musikstücks wünschenswert, aus dem gesamten Musikstück lediglich perkussive Anteile zu extrahieren und eine Rhythmuserkennung dann auf der Basis dieser percussiven Anteile durchzuführen, ohne dass die Rhythmuserkennung durch Signale von den harmonisch ausgehaltenen Instrumenten „gestört" wird.So would it be for example, for rhythm extraction of a piece of music desirable from the entire piece of music only to extract percussive parts and a rhythm detection then to carry out on the basis of these percussive shares, without that the rhythm recognition by signals of the harmoniously endured Instruments "disturbed" is.

Andererseits wird jegliche Analyse mit dem Ziel der Extraktion von Metadaten, die ausschließlich Informationen der harmonisch ausgehaltenen Instrumente benötigt (z.B. eine harmonische oder melodische Analyse), profitieren von einer vorgeschalteten Separation und einer Weiterverarbeitung der harmonisch ausgehaltenen Anteile.on the other hand any analysis for the purpose of extracting metadata, the only information of harmonic sustained instruments (e.g., a harmonic or melodic analysis) benefit from an upstream separation and a further processing of the harmoniously held shares.

In jüngster Vergangenheit wurde in diesem Zusammenhang über die Verwendung der Technik der Blind Source Separation (BSS) und der Independent Component Analysis (ICA) zur Signalverarbeitung und Signalanalyse berichtet. Einsatzgebiete finden sich insbesondere in der biomedizinischen Technik, der Kommunikationstechnik, der künstlichen Intelligenz und der Bildverarbeitung.In recently, Past has been related to the use of the technique in this regard Blind Source Separation (BSS) and Independent Component Analysis (ICA) for signal processing and signal analysis. applications can be found in particular in biomedical technology, communication technology, the artificial one Intelligence and image processing.

Allgemein umfasst der Begriff BSS Techniken zur Separation von Signalen aus einem Mix von Signalen mit einem Minimum an Vorkenntnissen über die Natur der Signale und des Mischungsprozesses. Die ICA ist ein Verfahren, welches sich der Annahme bedient, dass die einem Mix zugrundeliegenden Quellen zumindest bis zu einem gewissen Grad statistisch unabhängig voneinander sind. Weiterhin wird der Mischungsprozess als zeitlich unveränderlich und die Anzahl der beobachteten Mischsignale nicht kleiner als die Anzahl der der Mischung zugrundeliegenden Quellsignale angenommen.Generally The term BSS includes techniques for separating signals a mix of signals with a minimum of prior knowledge of the Nature of the signals and the mixing process. The ICA is a procedure which makes use of the assumption that the sources underlying a mix at least to some extent statistically independent of each other are. Furthermore, the mixing process is considered to be fixed in time and the number of observed mixed signals not smaller than the number assumed the mixture underlying the source signals.

Eine Erweiterung der ICA stellt die Independent Subspace Analysis (ISA) dar. Hier werden die Komponenten unterteilt in unabhängige Unterräume oder Subspaces, deren Komponenten nicht statistisch unabhängig sein müssen. Durch eine Transformation des Musiksignals wird eine mehrdimensionale Darstellung des Mischsignals ermittelt und der letzten Annahme für die ICA entsprochen. Verschiedene Verfahren zur Berechnung der unabhängigen Komponenten wurden in den letzten Jahren entwickelt. Einschlägige Literaturstellen, die sich zum Teil auch mit der Analyse von Audiosignalen beschäftigen, sind folgende:

[1] M.A. Casey and A. Westner, "Separation of Mixed Audio Sources by Independent Subspace Analysis", in Proc. of the International Computer Music Conference, Berlin, 2000
[2] I.F.O. Orife, "Riddim: A rhythm analysis and decomposition tool based on independent subspace analysis", Master thesis, Darthmouth College, Hanover, New Hampshire, 2001
[3] C. Uhle, C. Dittmar and T. Sporer, "Extraction of Drum Tracks from polyphonic Music using Independent Subspace Analysis", in Proc. of the Fourth International Symposium on Independent Component Analysis, Nara, Japan, 2003
[4] D. Fitzgerald, B. Lawlor and E. Coyle, "Prior Subspace Analysis for Drum Transcription", in Proc. Of the 114th AES Convention, Amsterdam, 2003
[5] D. Fitzgerald, B. Lawlor and E. Coyle, "Drum Transcription in the presence of pitched instruments using Prior Subspace Analysis", in Proc. of the ISSC, Limerick, Ireland, 2003
[6] M. Plumbley, "Algorithms for Non-Negative Independent Component Analysis", in IEEE Transactions on Neural Networks, 14 (3), pp 534–543, May 2003

An extension of the ICA is the Independent Subspace Analysis (ISA). Here, the components are subdivided into independent subspaces or subspaces whose components need not be statistically independent. By transforming the music signal, a multi-dimensional representation of the mixed signal is determined and the last assumption for the ICA is met. Various methods for calculating the independent components have been developed in recent years. Relevant references, some of which also deal with the analysis of audio signals, are the following:

[1] MA Casey and A. Westner, "Separation of Mixed Audio Sources by Independent Subspace Analysis," in Proc. of the International Computer Music Conference, Berlin, 2000
[2] IFO Orife, "Riddim: A rhythm analysis and decomposition tool based on independent subspace analysis", Master thesis, Dartmouth College, Hanover, New Hampshire, 2001
[3] C. Uhle, C. Dittmar and T. Sporer, "Extraction of Drum Tracks from Polyphonic Music Using Independent Subspace Analysis", in Proc. of the Fourth International Symposium on Independent Component Analysis, Nara, Japan, 2003
[4] D. Fitzgerald, B. Lawlor and E. Coyle, Prior Subspace Analysis for Drum Transcription, in Proc. Of the 114th AES Convention, Amsterdam, 2003
[5] D. Fitzgerald, B. Lawlor and E. Coyle, "Drum Transcription in the Presence of Pitched Instruments Using Prior Subspace Analysis", in Proc. of the ISSC, Limerick, Ireland, 2003
[6] M. Plumbley, "Algorithms for Non-Negative Independent Component Analysis," in IEEE Transactions on Neural Networks, 14 (3), pp 534-543, May 2003

In [1] wird ein Verfahren zur Separation von Einzelquellen aus Mono-Audiosignalen dargestellt. In [2] wird eine Anwendung für eine Auftrennung in Einzelspuren und anschließend die Rhythmusanalyse gegeben. In [3] wird eine Komponentenanalyse durchgeführt, um eine Auftrennung in perkussive und nicht-perkussive Klänge eines polyphonen Stücks zu erreichen. In [4] wird die Independent Component Analysis (ICA) auf Amplitudenbasen angewendet, die mittels allgemein berechneter Frequenzbasen aus einer Spektrogrammdarstellung einer Schlagzeugspur gewonnen werden. Dies wird zum Zwecke der Transkription durchgeführt. In [5] wird dieses Verfahren auf polyphone Musikstücke erweitert.In [1] is a method of separating single sources from mono audio signals shown. In [2] is an application for separation into single tracks and subsequently given the rhythm analysis. In [3], a component analysis is performed to a separation into percussive and non-percussive sounds of a polyphonic piece to reach. In [4] the Independent Component Analysis (ICA) applied to amplitude bases, by means of generally calculated Frequency bases from a spectrogram representation of a drum track be won. This is done for the purpose of transcription. In [5] this method is extended to polyphonic music pieces.

Die erste vorstehend genannte Veröffentlichung von Casey sei nachfolgend beispielhaft für den Stand der Technik dargestellt. Diese Veröffentlichung beschreibt ein Verfahren zum Trennen von gemischten Audioquellen durch die Technik der unabhängigen Unterraumanalyse. Hierzu wird unter Verwendung von BSS-Techniken ein Audiosignal in einzelne Komponentensignale aufgesplittet. Zum Feststellen, welche der einzelnen Komponentensignale zu einem Multikomponenten-Unterraum gehören, wird eine Gruppierung dahingehend durchgeführt, dass die Ähnlichkeit der Komponenten untereinander durch ein sogenanntes Ixegramm dargestellt wird. Das Ixegramm wird als Kreuzentropie-Matrix der unabhängigen Komponenten untereinander bezeichnet. Es wird dadurch berechnet, dass alle einzelnen Komponentensignale paarweise in einer Korrelationsberechnung untersucht werden, um ein Maß dafür zu finden, wie ähnlich zwei Komponenten sind. Über allen Komponentensignalen wird daher eine erschöpfende paarweise Ähnlichkeitsberechnung durchgeführt, so dass sich eine Ähnlichkeitsmatrix ergibt, bei der entlang einer y-Achse alle Komponentensignale aufgetragen werden, und bei der ferner entlang der x-Achse ebenfalls alle Komponentensignale aufgetragen werden. Dieses zweidimensionale Array liefert für jedes Komponentensignal ein Ähnlichkeitsmaß mit jeweils einem anderen Komponentensignal. Das Ixegramm, also die zweidimensionale Matrix, wird nun dazu verwendet, ein Clustering durchzuführen, wobei hierzu eine Gruppierung unter Verwendung eines Cluster-Algorithmus auf der Basis von diadischen Daten durchgeführt wird. Um eine optimale Partitionierung des Ixegramms in k Klassen durchzuführen, wird eine Kostenfunktion definiert, die die Kompaktheit innerhalb eines Clusters misst und die Homogenität zwischen Clustern bestimmt. Die Kostenfunktion wird minimiert, so dass sich letztendlich eine Zuordnung von einzelnen Komponenten zu einzelnen Unterräumen ergibt. Angewendet auf ein Signal, das einen Sprecher im Kontext eines durchgehenden Wasserfallrauschens darstellt, ergibt sich als Unterraum der Sprecher, wobei das rekonstruierte Informationssignal des Sprecher-Unterraums eine signifikante Dämpfung des Wasserfallrauschens zeigt.The first aforementioned publication by Casey is illustrated below by way of example for the prior art. This publication describes a method for separating mixed audio sources by the Technique of the independent Subspace analysis. This is done using BSS techniques an audio signal split into individual component signals. To the Determining which of the individual component signals belong to a multicomponent subspace is a grouping done to that the similarity of the components are represented by a so-called Ixegramm becomes. The Ixegram is called a cross-entropy matrix of independent components referred to each other. It is calculated by all individual Component signals examined in pairs in a correlation calculation to find a measure of how similar two Components are. about All component signals therefore become an exhaustive pairwise similarity calculation carried out, so that there is a similarity matrix yields, when along a y-axis all component signals are applied, and further along the x-axis also all component signals are plotted. This two-dimensional array provides a similarity measure for each component signal another component signal. The Ixegram, so the two-dimensional Matrix, is now used to perform a clustering, with this grouping using a clustering algorithm the basis of diadic data. To be optimal Partitioning of the Ixegram in k classes is performed defines a cost function that reduces the compactness within a Clusters measures and homogeneity between clusters. The cost function is minimized, so that ultimately has an association of individual components to individual subspaces results. Applied to a signal that is a speaker in context represents a continuous waterfall noise, arises as Subspace of the speaker, wherein the reconstructed information signal of the speaker subspace a significant attenuation of the waterfall noise shows.

Nachteilig an den beschriebenen Konzepten ist die Tatsache, dass sehr wahrscheinlich der Fall auftritt, dass die Signalanteile einer Quelle auf verschiedenen Komponentensignalen zu liegen kommen. Dies ist der Grund dafür, dass, wie es vorstehend ausgeführt worden ist, eine komplexe und rechenzeitintensive Ähnlichkeitsberechnung unter allen Komponentensignalen durchgeführt wird, um die zweidimensionale Ähnlichkeitsmatrix zu erhalten, auf der Basis derer dann mittels einer zu minimierenden Kostenfunktion letztendlich eine Einteilung von Komponentensignalen in Unterräume durchgeführt wird.A disadvantage of the concepts described is the fact that the case occurs very likely that the signal components of a source come to lie on different component signals. This is the reason that, as stated above, a complex and computation-intensive similarity calculation among all the component signals is performed to obtain the two-dimensional similarity matrix the basis of which is then carried out by means of a cost function to be minimized, a division of component signals into subspaces.

Des weiteren nachteilhaft ist, dass in dem Fall, in dem mehrere einzelne Quellen vorliegen, also wo das Ausgangssignal nicht a priori bekannt ist, zwar nach längerer Rechnung eine Ähnlichkeitsverteilung vorliegt, dass jedoch die Ähnlichkeitsverteilung selbst noch keinen tatsächlichen Einblick in die tatsächliche Audioszene liefert. So weiß der Betrachter lediglich, dass bestimmte Komponentensignale zueinander im Hinblick auf die minimierte Kostenfunktion ähnlich sind. Er weiß jedoch nicht, welche Informationen diese letztendlich erhaltenen Unterräume tragen bzw. welche ursprüngliche Einzelquelle oder welche Gruppe von Einzelquellen durch einen Unterraum dargestellt werden.Of Another disadvantage is that in the case where several individual Sources exist, so where the output signal is not known a priori is, after a long time Invoice a similarity distribution but that the similarity distribution exists even no actual Insight into the actual Audio scene delivers. So knows the Viewers merely that certain component signals to each other are similar in terms of minimized cost function. He knows, however not what information these ultimately obtained subspaces carry or which original one Single source or which group of single sources through a subspace being represented.

Die Independent Subspace Analysis (ISA) kann somit dazu genutzt werden, um eine Zeit-Frequenz-Repräsentation, z.B. ein Spektrogramm, eines Audiosignals in unabhängige Komponenten-Spektren zu zerlegen. Die vorher beschriebenen bisherigen Verfahren setzen dabei entweder auf eine berechnungsintensive Ermittlung von Frequenz- und Amplitudenbasen aus dem gesamten Spektrogramm oder auf a priori definierte Frequenzbasen. Solche a priori definierte Frequenzbasen bzw. Profilspektren bestehen beispielsweise darin, dass man sagt, dass in einem Stück sehr wahrscheinlich eine Trompete vorkommt, und dass dann zur Signalanalyse ein Beispiel-Spektrum einer Trompete verwendet wird.The Independent Subspace Analysis (ISA) can thus be used to a time-frequency representation, e.g. a spectrogram, an audio signal into independent component spectra disassemble. Set the previously described previous methods either to a calculation-intensive determination of frequency and amplitude bases from the entire spectrogram or a priori defined frequency bases. Such a priori defined frequency bases or profile spectra consist, for example, in saying that that in one piece very likely a trumpet occurs, and then to signal analysis an example spectrum a trumpet is used.

Dieses Prozedere hat den Nachteil, dass man von vornherein alle auftretenden Instrumente wissen muss, was der automatisierten Verarbeitung bereits prinzipiell zuwiderläuft. Ein weiterer Nachteil besteht darin, dass es, wenn genau gearbeitet werden soll, nicht nur zum Beispiel Trompeten gibt, sondern viele verschiedene Arten von Trompeten, die sich alle in ihrer Klangfarbe und damit in ihrem Spektrum unterscheiden. Würde man derart vorgehen, dass man nun alle Arten von Beispielspektren zur Komponentenanalyse einsetzt, so wird das Verfahren wiederum sehr aufwändig und bekommt eine sehr hohe Redundanz, da typischerweise nicht alle denkbaren verschiedenen Trompeten in einem Stück vorkommen, sondern nur Trompeten einer einzigen Art, also mit einem einzigen Profilspektrum, oder vielleicht mit einigen wenigen unterschiedlichen Klangfarben, also wenigen Profilspektren. Noch problematischer wird es bei verschiedenen Noten einer Trompete, zumal jeder Ton je nach Tonhöhe ein aufgespreiztes/gestauchtes Profilspektrum aufweist. Um dies zu berücksichtigen ist der Rechenaufwand ebenfalls immens.This Procedure has the disadvantage that you from the outset all occurring Instruments must know what the automated processing already runs counter to this principle. Another disadvantage is that it works exactly when not just trumpets, for example, but many different types of trumpets, all in their timbre and thus differentiate in their spectrum. Would you proceed in such a way that Now you use all kinds of sample spectra for component analysis, so the process is again very complex and gets a lot high redundancy, because typically not all conceivable different Trumpets occur in one piece, but only trumpets of a single species, so with a single Profile spectrum, or maybe with a few different ones Tones, so few profile spectra. Becomes even more problematic it with different notes of a trumpet, especially every tone depending on pitch has a spread / compressed profile spectrum. To this to take into account the computational effort is also immense.

Andererseits ist die Zerlegung aufgrund von ISA-Konzepten dann außerordentlich rechenaufwändig und störungsanfällig, wenn das gesamte Spektrogramm verwendet wird. Es sei darauf hingewiesen, dass ein Spektrogramm typischerweise aus einer Folge von Einzelspektren besteht, wobei zwischen den Einzelspektren eine Hopping-Zeitdauer definiert ist, und wobei ein Spektrum eine bestimmte Anzahl von Abtastwerten repräsentiert, so dass einem Spektrum eine bestimmte zeitliche Länge, also ein Block von Abtastwerten des Signals zugeordnet ist. Typischerweise wird die Dauer, die durch den Block von Abtastwerten, aus dem ein Spektrum berechnet wird, rep räsentiert wird, wesentlich größer als die Hopping-Zeit sein, um im Hinblick auf die erforderliche Frequenzauflösung und im Hinblick auf die erforderliche Zeitauflösung ein zufriedenstellendes Spektrogramm zu erhalten. Anderseits ist jedoch zu sehen, dass diese Spektrogrammdarstellung außerordentlich redundant ist. Wird beispielsweise der Fall betrachtet, dass eine Hopping-Zeitdauer 10 ms beträgt, und dass einem Spektrum ein Block von Abtastwerten mit einer zeitlichen Länge von zum Beispiel 100 ms zugrunde liegt, so tritt jeder Abtastwert in 10 aufeinander folgenden Spektren auf. Die dadurch erzeugte Redundanz kann insbesondere dann, wenn eine größere Anzahl von Instrumenten gesucht wird, die Rechenzeitanforderungen in astronomische Höhen treiben.on the other hand then the decomposition is extraordinary due to ISA concepts computationally expensive and prone to failure, though the entire spectrogram is used. It should be noted that a spectrogram typically from a sequence of single spectra exists, wherein between the individual spectra a hopping period is defined, and where a spectrum is a certain number of Represents samples, so that a spectrum has a certain length of time, ie a block of samples of the signal is assigned. typically, is the duration that passes through the block of samples from the Spectrum is calculated, rep presented becomes, much larger than the hopping time to be in order for the required frequency resolution and in view of the required time resolution a satisfactory To get spectrogram. On the other hand, however, it can be seen that these Spectrogram representation extraordinary is redundant. For example, consider the case that a Hopping time is 10 ms, and that a spectrum is a block of samples with a temporal length of For example, based on 100 ms, each sample enters 10 consecutive spectra. The resulting redundancy especially if a larger number of instruments which drives computing time requirements to astronomical heights.

Des weiteren ist der Ansatz, auf der Basis des gesamten Spektrogramms zu arbeiten, für solche Fälle nachteilhaft, bei denen von einem Signal nicht alle enthaltenen Quellen extrahiert werden sollen, sondern nur zum Beispiel Quellen eines bestimmten Typs, also Quellen, die eine bestimmte Charakteristik haben. Eine solche Charakteristik kann perkussive Quellen, also Schlaginstrumente, betreffen, oder sogenannte gepitchte Instrumente, die auch als Harmonic-Sustained-Instrumente bezeichnet werden, welche typische Melodie-Instrumente, wie Trompete, Geige, etc. sind. Ein Verfahren, das auf der Basis aller dieser Quellen arbeitet, ist dann zu aufwändig und letztendlich auch zu wenig robust, wenn zum Beispiel nur einige Quellen, nämlich die Quellen, die eine bestimmte Charakteristik erfüllen sollen, extrahiert werden sollen. In diesem Fall werden nämlich Einzelspektren des Spektrogramms, in denen solche Quellen nicht oder nur sehr gering auftreten, das Gesamtergebnis verfälschen bzw. "verwaschen", da diese Spektren des Spektrogramms selbstverständlich ebenfalls in die letztend liche Komponentenanalyseberechnung eingehen wie die signifikanten Spektren.Of another is the approach, based on the entire spectrogram to work for such cases disadvantageous in which not all of a signal contained Sources are to be extracted, but only for example sources of a certain type, that is, sources that have a certain characteristic to have. Such a characteristic can be percussive sources, ie Percussion instruments, or so-called pitched instruments, which also as harmonic-sustained instruments which typical melody instruments, such as trumpet, Violin, etc. are. A procedure based on all this Working sources is too time-consuming and ultimately too too little robust, if for example only some sources, namely the Sources that are to fulfill a specific characteristic are extracted should. In this case, namely Single spectra of the spectrogram in which such sources are not or only very slightly, falsify the overall result or "washed out", since these spectra of course, the spectrogram also go into the final component analysis like the significant spectra.

Die WO 01/88900 A2 offenbart ein Konzept zum Identifizieren eines Audioinhalts. Ein Satz von Frequenz-Subbändern des Audiosignals wird ausgewählt. Dann wird für jedes Subband die Subbandenergie berechnet. Hierauf wird ein Energieflusssignal für jedes Subband erzeugt. Auf der Basis dieser Informationen wird dann ein Fingerabdruck gebildet, der mit Fingerabdrücken in einer Datenbank verglichen wird, um eine Audiodatei zu identifizieren.WO 01/88900 A2 discloses a concept for identifying an audio content. A set of frequency subbands of the audio signal is selected. Then the subband energy is calculated for each subband. An energy flow signal is then generated for each subband. On the basis of this information, a fingerprint is then formed, which is compared to fingerprints in a database to identify an audio file.

Die GB 2363227 A offenbart ein Konzept zum Analysieren von Musik, um einen charakteristischen Abschnitt zu bestimmen. Hierzu werden Daten in Segmente gemäß einer erfassten Struktur aufgeteilt. Die Toninformationen werden dann analysiert, um eine Hüllkurve zu erfassen, um dann in Segmente aufgeteilt zu werden, und zwar basierend auf einer Tendenz von steigenden und fallenden Variationen in der Hüllkurve. Durch Vergleichen der Segmente kann ein charakteristischer Bereich, wie beispielsweise ein Bridge-Abschnitt des Musikstücks, identifiziert und extrahiert werden.The GB 2363227 A discloses a concept for analyzing music to determine a characteristic section. For this purpose, data is divided into segments according to a recorded structure. The sound information is then analyzed to detect an envelope, and then divided into segments based on a tendency of increasing and decreasing variations in the envelope. By comparing the segments, a characteristic area such as a bridge portion of the music piece can be identified and extracted.

Das US-Patent US 6,140,568 A offenbart ein System und Verfahren zum automatischen Erfassen und Identifizieren einer Mehrzahl von Frequenzen, die gleichzeitig in einem Audiosignal vorhanden sind, sowie der Dauern, Amplituden und Phasen dieser Frequenzen. Hierauf werden harmonische Komponenten gefiltert, um zu bestimmen, welche Frequenzen Grundfrequenzen sind.The US patent US 6,140,568 A discloses a system and method for automatically detecting and identifying a plurality of frequencies simultaneously present in an audio signal as well as the durations, amplitudes and phases of those frequencies. Then, harmonic components are filtered to determine which frequencies are fundamental frequencies.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein robustes und rechenzeiteffizientes Konzept zum Analysieren eines Informationssignals zu schaffen.The Object of the present invention is to provide a robust and computationally efficient concept for analyzing an information signal create.

Diese Aufgabe wird durch eine Vorrichtung zum Analysieren eines Informationssignals nach Patentanspruch 1, ein Verfahren zum Analysieren eines Informationssignals nach Patentanspruch 24 oder ein Computerprogramm nach Patentanspruch 25 gelöst.These The object is achieved by a device for analyzing an information signal according to claim 1, a method for analyzing an information signal according to claim 24 or a computer program according to claim 25 solved.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass eine robuste und effiziente Informationssignalanalyse dadurch erreicht wird, dass zunächst signifikante Kurzzeitspektren oder von signifikanten Kurzzeitspektren abgeleitete Kurzzeitspektren, wie beispielsweise Differenzspektren etc. aus dem gesamten Informationssignal bzw. aus dem Spektrogramm des Informationssignals extrahiert werden, wobei solche Kurzzeitspektren extrahiert werden, die einer spezifischen Charakteristik näher kommen als andere Kurzzeitspektren des Informationssignals.Of the The present invention is based on the finding that a This achieves robust and efficient information signal analysis will that first significant short-term spectra or significant short-term spectra derived short-term spectra, such as difference spectra etc. from the entire information signal or from the spectrogram of the information signal, such short-term spectra which come closer to a specific characteristic as other short-term spectra of the information signal.

Vorzugsweise werden Kurzzeitspektren extrahiert, die perkussive Anteile haben, und werden somit Kurzzeitspektren nicht extrahiert, die harmonische Anteile haben. In diesem Fall ist die spezifische Charakteristik eine perkussive bzw. Schlagzeug-Charakteristik.Preferably extract short-term spectra that have percussive components, and thus short-term spectra are not extracted, the harmonic Shares have. In this case, the specific characteristic is a percussive or percussion characteristic.

Die extrahierten Kurzzeitspektren oder von den extrahierten Kurzzeitspektren abgeleitete Kurzzeitspektren werden dann eine Einrichtung zum Zerlegen der Kurzzeitspektren in Komponentensignalspektren zugeführt, wobei ein Komponentensignalspektrum ein Profilspektrum einer Tonquelle darstellt, die einen Ton erzeugt, der der gesuchten Charakteristik entspricht, und wobei ein anderes Komponentensignalspektrum ein anderes Profilspektrum einer Tonquelle darstellt, die einen Ton erzeugt, der ebenfalls der gesuchten Charakteristik entspricht.The extracted short-term spectra or from the extracted short-term spectra derived short-term spectra then become a disassembly facility the short-term spectra supplied in component signal spectra, wherein a component signal spectrum is a profile spectrum of a sound source represents, which produces a tone of the desired characteristic corresponds, and wherein another component signal spectrum a another profile spectrum of a sound source that represents a sound generated, which also corresponds to the characteristic sought.

Schließlich wird auf der Basis der Profilspektren der Tonquellen eine Amplitudenhüllkurve über der Zeit berechnet, wobei für die Berechnung der Amplitudenhüllkurve über der Zeit die ermittelten Profilspektren sowie die ursprünglichen Kurzzeitspektren verwendet werden, so dass für jeden Zeitpunkt, zu dem ein Kurzzeitspektrum abgenommen wurde, auch ein Amplitudenwert erhalten wird.Finally will on the basis of the profile spectra of the sound sources an amplitude envelope over the Time is calculated for the calculation of the amplitude envelope over the Time the determined profile spectra as well as the original ones Short-term spectra can be used, so that for each time, to the one Short-term spectrum was decreased, also obtained an amplitude value becomes.

Die derart erhaltene Information, nämlich verschiedene Profil-Spektren sowie Amplitudenhüllkurven für die Profilspektren, liefert eine vollständige Beschreibung des Musik- bzw. Informationssignals im Hinblick auf die spezifizierte Charakteristik, nach der extrahiert worden ist, so dass diese Informationen bereits ausreichend sein können, um eine Transkription zu machen, also um mit Konzepten der Merkmalsextraktion und Segmentierung zunächst festzustellen, welches Instrument zu dem Profilspektrum "gehört", und welche Rhythmik vorliegt, also welche Anstiege und Abfallereignisse vorliegen, die auf zu bestimmten Zeitpunkten gespielte Noten dieses Instruments hinweisen.The information thus obtained, namely different Profile spectra and amplitude envelopes for the profile spectra a full description the music or information signal with respect to the specified Characteristic, after which has been extracted, so this information already sufficient, to make a transcription, so with concepts of feature extraction and segmentation first, which instrument "belongs" to the profile spectrum, and what rhythm exists, so what increases and waste events are present on indicate played notes of this instrument at certain times.

Die vorliegende Erfindung ist dahingehend vorteilhaft, dass zur Berechnung der Komponentenanalyse, also zum Zerlegen, nicht das gesamte Spektrogramm verwendet wird, sondern nur extrahierte Kurzzeitspektren, dass also die Berechnung der Independent Subspace Analysis (ISA) nur anhand einer Teilmenge aller Spektren stattfindet, so dass die Rechenanforderungen gesenkt werden. Ferner wird auch die Robustheit hinsichtlich des Auffindens bestimmter Quellen erhöht, zu mal andere Kurzzeitspektren, die die spezifizierte Charakteristik nicht erfüllen, bei der Komponentenanalyse nicht vorhanden sind und damit auch keine Störung bzw. keine "Verwaschung" der tatsächlichen Spektren darstellen.The The present invention is advantageous in that for the calculation the component analysis, ie the decomposition, not the entire spectrogram is used, but only extracted short-term spectra, that is the calculation of Independent Subspace Analysis (ISA) based only a subset of all spectra takes place, so the computational requirements be lowered. Furthermore, the robustness in terms of the Detecting certain sources, sometimes other short-term spectra, that do not meet the specified characteristic in component analysis are not present and thus no disturbance or "blurring" of the actual Represent spectra.

Darüber hinaus ist das erfindungsgemäße Konzept dahingehend vorteilhaft, dass die Profilspektren direkt aus dem Signal ermittelt werden, ohne dass sich die Problematik der vorgefertigten Profilspektren ergibt, welche wiederum zu entweder ungenauen Ergebnissen oder zu einem erhöhten Rechenaufwand führen würde.Furthermore is the inventive concept to the effect that the profile spectra directly from the Signal can be determined without the problem of prefabricated profile spectra which in turn results in either inaccurate results or too an increased Calculation work lead would.

Vorzugsweise wird zur Detektion und Klassifikation von perkussiven, nicht-harmonischen Instrumenten in polyphonen Audiosignalen das erfindungsgemäße Konzept eingesetzt, um sowohl Profilspektren als auch Amplitudenhüllkurven für die einzelnen Profilspektren zu erhalten.Preferably, for the detection and classification of percussive, non-harmonic Instru The concept according to the invention is used in polyphonic audio signals in order to obtain profile spectra as well as amplitude envelopes for the individual profile spectra.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:preferred embodiments The present invention will be described below with reference to FIGS attached drawings explained in detail. Show it:

1 ein Blockschaltbild der erfindungsgemäßen Vorrichtung zum Analysieren eines Informationssignals; 1 a block diagram of the inventive apparatus for analyzing an information signal;

2 ein Blockschaltbild einer bevorzugten Ausführungsform der erfindungsgemäßen Vorrichtung zum Analysieren eines Informationssignals; 2 a block diagram of a preferred embodiment of the inventive apparatus for analyzing an information signal;

3a ein Beispiel für eine Amplitudenhüllkurve für eine perkussive Quelle; 3a an example of an amplitude envelope for a percussive source;

3b ein Beispiel für ein Profilspektrum für eine perkussive Quelle; 3b an example of a profile spectrum for a percussive source;

4a ein Beispiel für eine Amplitudenhüllkurve für ein harmonisch ausgehaltenes Instrument; und 4a an example of an amplitude envelope for a harmonically sustained instrument; and

4b ein Beispiel für ein Profilspektrum für ein harmonisch ausgehaltenes Instrument. 4b an example of a profile spectrum for a harmoniously sustained instrument.

1 zeigt ein bevorzugtes Ausführungsbeispiel für eine erfindungsgemäße Vorrichtung zum Analysieren eines Informationssignals, das über eine Eingangsleitung 10 einer Einrichtung 12 zum Bereitstellen einer Folge von Kurzzeitspektren, die das Informationssignal darstellen, zugeführt wird. Wie es durch eine Umwegleitung 14 in 1 dargestellt ist, die gestrichelt gezeichnet ist, kann das Informationssignal auch zum Beispiel in zeitlicher Form einer Einrichtung 16 zum Extrahieren von signifikanten Kurzzeitspektren oder von den Kurzzeitspektren abgeleiteten Kurzzeitspektren aus dem Informationssignal zugeführt werden, wobei die Einrichtung zum Extrahieren ausgebildet ist, um solche Kurzzeitspektren zu extrahieren, die einer spezifischen Charakteristik näher kommen als andere Kurzzeitspektren des Informationssignals. 1 shows a preferred embodiment of a device according to the invention for analyzing an information signal via an input line 10 a facility 12 for providing a sequence of short-term spectra representing the information signal. As it is by a detour line 14 in 1 is shown, which is drawn by dashed lines, the information signal can also be, for example, in temporal form a device 16 for extracting significant short-term spectra or short-term spectra-derived short-term spectra from the information signal, wherein the means for extracting is adapted to extract such short-term spectra which are closer to a specific characteristic than other short-term spectra of the information signal.

Die extrahierten Spektren, also die ursprünglichen Kurzzeitspektren oder die von den ursprünglichen Kurzzeitspektren zum Beispiel durch Differenzieren, Differenzieren und Gleichrichten oder durch andere Operationen abgeleiteten Kurzzeitspektren werden einer Einrichtung 18 zum Zerlegen der extrahierten Kurzzeitspektren in Komponenten-Signalspektren zugeführt, wobei ein Komponenten-Signalspektrum ein Profilspektrum einer Tonquelle darstellt, die einen Ton erzeugt, der der gesuchten Charakteristik entspricht, und wobei ein anderes Profilspektrum eine andere Tonquelle darstellt, die einen Ton erzeugt, der der gesuchten Charakteristik ebenfalls entspricht.The extracted spectra, ie the original short-term spectra or the short-term spectra derived from the original short-term spectra, for example by differentiating, differentiating and rectifying or by other operations, become a device 18 for decomposing the extracted short-term spectra into component signal spectra, wherein a component signal spectrum represents a profile spectrum of a sound source producing a sound corresponding to the sought characteristic, and wherein another profile spectrum represents another sound source producing a sound which is the same sought characteristic also corresponds.

Die Profilspektren werden schließlich einer Einrichtung 20 zum Berechnen einer Amplitudenhüllkurve für die eine Tonquelle zugeführt, wobei die Amplitudenhüllkurve angibt, wie sich die Profilspektren einer Tonquelle über der Zeit ändern, und insbesondere wie sich die Intensität oder Gewichtung eines Profilspektrums mit der Zeit ändert. Die Einrichtung 20 ist ausgebildet, um auf der Basis der Folge von Kurzzeitspektren einerseits sowie auf der Basis der Profilspektren andererseits zu arbeiten, wie es aus 1 hervorgeht. Ausgangsseitig liefert die Einrichtung 20 zum Berechnen Amplitudenhüllkurven für die Quellen, während die Einrichtung 18 Profilspektren für die Tonquellen liefert. Die Profilspektren sowie die zugehörigen Amplitudenhüllkurven liefern eine vollständige Beschreibung des Anteils des Informationssignals, der der spezifischen Charakteristik entspricht. Vorzugsweise ist dieser Anteil der perkussive Anteil eines Musikstücks. Alternativ könnte dieser Anteil jedoch auch der harmonische Anteil sein. In diesem Fall würde die Einrichtung zum Extrahieren von signifikanten Kurzzeitspektren anders ausgestaltet sein wie in dem Fall, in dem die spezifische Charakteristik eine perkussive Charakteristik ist.The profile spectra eventually become a device 20 for calculating an amplitude envelope for the one audio source, the amplitude envelope indicating how the profile spectra of a sound source change over time, and in particular how the intensity or weighting of a profile spectrum changes over time. The device 20 is designed to work on the basis of the sequence of short - term spectra on the one hand, and on the other hand, based on the profile spectra, on the other hand 1 evident. On the output side, the device delivers 20 to calculate amplitude envelopes for the sources while setting up 18 Provides profile spectra for the sound sources. The profile spectra and the associated amplitude envelopes provide a complete description of the portion of the information signal that corresponds to the specific characteristic. Preferably, this portion is the percussive portion of a piece of music. Alternatively, however, this share could also be the harmonic component. In this case, the means for extracting significant short-term spectra would be designed differently, as in the case where the specific characteristic is a percussive characteristic.

Nachfolgend wird bezugnehmend auf 2 ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung dargestellt. Vorzugsweise wird mit den Profilspektren F und den Amplitudenhüllkurven E eine Detektion und Klassifikation perkussiver, nicht-harmonischer Instrumente durchgeführt, wie es auch durch einen Block 22 in 2 dargestellt ist. Hierauf wird jedoch noch später eingegangen.Hereinafter, referring to 2 a preferred embodiment of the present invention is shown. Preferably, with the profile spectra F and the amplitude envelopes E, a detection and classification percussive, non-harmonic instruments is performed, as well as by a block 22 in 2 is shown. This will be discussed later.

Wie es aus 2 ersichtlich ist, ist die Einrichtung 12 zum Bereitstellen einer Folge von Kurzzeitspektren ausgebildet, um mittels einer geeigneten Zeit-Frequenz- Transformation ein Amplitudenspektrogramm X zu erzeugen. Die Zeit/Frequenz-Einrichtung 12 ist vorzugsweise eine Einrichtung zum Durchführen einer Kurzzeit-Fourier-Transformation mit einer bestimmten Hopping-Periode, oder umfasst Filterbanken. Optional wird auch ein Phasenspektrogramm als zusätzliche Informationsquelle gewonnen, wie es in 2 durch einen Phasenpfeil 13 dargestellt ist. Hierauf wird durch Differenzierung entlang der zeitlichen Ausdehnung jeder einzelnen Spektrogrammzeile, also jedes einzelnen Frequenz-Bins, ein Differenzspektrogramm X . gewonnen, wie es durch den Differenzierer 16a dargestellt ist. Die durch Differenzierung entstandenen negativen Anteile werden auf Null gesetzt oder – alternativ – positiv gemacht. Damit ergibt sich ein nicht-negatives Differenzspektrogramm X ^. Dieses nicht-negative Differenzenspektrogramm wird einem Maximumsucher 16c zugeführt, der ausgebildet ist, um nach den Zeitpunkten t, also nach den Indizes der entsprechenden Spektrogrammspalten, des Auftretens lokaler Maxima in einer Detektionsfunktion e, die vor dem Maximumsucher 16c berechnet wird, zu suchen. Wie es später noch ausgeführt wird, kann die Detektionsfunktion beispielsweise durch Aufsummierung über alle Zeilen von X ^ und anschließende Glättung gewonnen werden.Like it out 2 is apparent, is the device 12 for providing a sequence of short-term spectra to generate an amplitude spectrogram X by means of an appropriate time-frequency transformation. The time / frequency setup 12 is preferably a means for performing a short-time Fourier transform with a certain hopping period, or comprises filter banks. Optionally, a phase spectrogram is also obtained as an additional source of information, as in 2 through a phase arrow 13 is shown. Then, by differentiating along the time extent of each individual spectrogram line, ie each individual frequency bin, a difference spectrogram X is obtained. won, as by the differentiator 16a is shown. The negative components resulting from differentiation are set to zero or - alternatively - made positive. This results in a non-negative difference spectrogram X ^. This non-negative difference spectrogram is a maximum searcher 16c , which is designed to be after the times t, that is, after the indices of the corresponding spectrogram columns, the occurrence of local maxima in a detection function e, before the maximum seeker 16c is calculated to search. As will be explained later, the detection function can be obtained, for example, by summing over all rows of X 1 and then smoothing.

Optional wird es bevorzugt, die Phaseninformationen, die über die Phasenleitung 13 vom Block 12 zum Block 16c geliefert werden, als Indikator für die Verlässlichkeit der gefundenen Maxima zu verwenden. Die Spektren, für die der Maximumsucher ein Maximum in der Detektionsfunktion erfasst, werden als X ^_t verwendet und stellen die extrahierten Kurzzeitspektren dar.Optionally, it is preferred to include the phase information transmitted via the phase line 13 from the block 12 to the block 16c be used as an indicator of the reliability of the found maxima. The spectra for which the maximum seeker detects a maximum in the detection function are used as X ^ _t and represent the extracted short-term spectra.

In Block 18a wird eine Principle Component Analysis (PCA) durchgeführt. Hierbei wird zunächst eine gesuchte Anzahl von Komponenten d festgelegt. Dann wird die PCA nach einem geeigneten Verfahren wie beispielsweise Singular Value Decomposition oder Eigenvalue Decomposition über die Spalten der Matrix X ^_t durchgeführt. X ~ = X ^t·T In block 18a a Principle Component Analysis (PCA) is performed. Here, a sought number of components d is first set. Then, the PCA is performed by a suitable method such as Singular Value Decomposition or Eigenvalue Decomposition over the columns of the matrix X _t . X ~ = X ^ t * T

Die Transformationsmatrix T bewirkt eine Dimensionsreduktion auf X ~, was sich in einer Verringerung der Anzahl von Spalten dieser Matrix auswirkt. Ferner wird eine Dekorrelation und Varianznormierung erreicht. In Block 18b wird dann eine nicht-negative Independent Component Analysis ausgeführt. Hierbei wird das in [6] gezeigte Verfahren der nicht-negativen Independent Component Analysis auf X ~ zur Berechnung einer Separationsmatrix A ausgeführt. Gemäß der nachfolgenden Gleichung wird X ~ in unabhängige Komponenten zerlegt. F = A·X ~ The transformation matrix T effects a dimensional reduction on X ~, which results in a reduction in the number of columns of this matrix. Furthermore, a decorrelation and variance normalization is achieved. In block 18b then a non-negative Independent Component Analysis is executed. Here, the method of non-negative Independent Component Analysis shown in [6] is performed on X ~ to calculate a separation matrix A. According to the following equation, X ~ is decomposed into independent components. F = A × X ~

Unabhängige Komponenten F werden als statische spektrale Profile bzw. Profilspektren der auftretenden Klangquellen interpretiert. In einem Block 20 wird dann die Amplitudenbasis bzw. die Amplitudenhüllkurve E gemäß folgender Gleichung für die einzelnen Tonquellen extrahiert. E = F·X Independent components F are interpreted as static spectral profiles or profile spectra of the occurring sound sources. In a block 20 Then the amplitude base or the amplitude envelope E is extracted according to the following equation for the individual sound sources. E = F × X

Die Amplitudenbasis wird als Satz von zeitveränderlichen Amplitudenhüllkurven der korrespondierenden spektralen Profile interpretiert.The Amplitude base is called a set of time-varying amplitude envelopes interpreted the corresponding spectral profiles.

Erfindungsgemäß wird das spektrale Profil aus dem Musiksignal selbst gewonnen. Hierdurch wird die Rechenkomplexität gegenüber den bisherigen Verfahren reduziert, und es wird eine höhere Robustheit gegenüber stationären Signalanteilen, also Signalanteilen aufgrund von Harmonic Sustained Instrumenten erreicht.According to the invention spectral profile obtained from the music signal itself. This will the computational complexity across from the previous method is reduced, and it is a higher robustness across from stationary Signal components, ie signal components due to Harmonic Sustained Reached instruments.

In einem Block 22 wird dann eine Merkmalsextraktion und eine Klassifizierungsoperation durchgeführt. Insbesondere werden die Komponenten in zwei Teilmengen unterschieden, nämlich zunächst in eine Teilmenge mit den Eigenschaften nicht perkussiv, also quasi harmonisch, und in eine andere perkussive Teilmenge.. Darüber hinaus werden die Komponenten mit der Eigenschaft perkussiv/dissonant weiter in verschiedenen Instrumentenklassen klassifiziert.In a block 22 Then, a feature extraction and a classification operation are performed. In particular, the components are divided into two subsets, namely first in a subset with the properties not percussive, so quasi-harmonic, and in another percussive subset .. In addition, the components with the property percussive / dissonant further classified in various instrument classes.

Zur Einteilung in die zwei Teilmengen werden die Merkmale der Perkussivität bzw. spektralen Dissonanz verwendet.to Classification into the two subsets will be the characteristics of percussivity or spectral Dissonance used.

Zur Instrumentenklassifikation werden folgende Merkmale eingesetzt:
geglättete Version der spektralen Profile als Suchmuster in einer Trainingsdatenbank mit Profilen einzelner Instrumente, spektraler Zentroid, spektrale Ausbreitung, spektrale Schiefheit, Mittenfrequenzen, Intensitäten, Ausdehnung, Schiefheit der deutlichsten Partiallinien, ...The following characteristics are used for instrument classification:
smoothed version of the spectral profiles as a search pattern in a training database with profiles of individual instruments, spectral centroid, spectral propagation, spectral skew, center frequencies, intensities, extent, skewness of the clearest partial lines, ...

In folgende Instrumentenklassen kann beispielsweise klassifiziert werden:
Kick Drum, Snare Drum, Hi-Hat, Cymbal, Tom, Bongo, Conga, Woodblock, Cowbell, Timbales, Shaker, Tabla, Tambourine, Triangle, Daburka, Castagnets, Handclaps.For example, the following instrument classes can be classified:
Kick Drum, Snare Drum, Hi-Hat, Cymbal, Tom, Bongo, Conga, Woodblock, Cowbell, Timbale, Shaker, Tabla, Tambourine, Triangle, Daburka, Castagnets, Handclaps.

In einem Block 24 kann dann zur weiteren Erhöhung des Robustheit des erfindungsgemäßen Konzepts ein Entscheidung für Schlagzeugeinsätze bzw. eine Annahme oder Akzeptanz von perkussiven Maxima durchgeführt werden. So werden Maxima mit einem transienten Anstieg in der Amplitudenhüllkurve über einem variablen Schwellwert als perkussives Ereignis angenommen, während Maxima mit einem transienten Anstieg unterhalb des variablen Schwellwerts verworfen werden bzw. als Artefakt erkannt und ignoriert werden. Der variable Schwellwert variiert vorzugsweise mit der Gesamtamplitude in einem größeren Bereich um das Maximum herum. Die Ausgabe erfolgt in einer geeigneten Form, die dem Zeitpunkt perkussiver Ereignisse eine Instrumentenklasse, eine Intensität und eventuell weitere Informationen zuordnet, wie beispielsweise Noten- bzw. Rhythmusinformationen im MIDI-Format.In a block 24 can then be carried out to further increase the robustness of the inventive concept, a decision for drum inserts or an acceptance or acceptance of percussive maxima. Thus, maxima with a transient rise in the amplitude envelope above a variable threshold are assumed to be a percussive event, while maxima having a transient rise below the variable threshold are discarded or recognized as an artifact and ignored. The variable threshold preferably varies with the total amplitude over a larger range around the maximum. The output is in an appropriate form that associates with the time of percussive events an instrument class, an intensity, and possibly other information, such as note or rhythm information in MIDI format.

An dieser Stelle sei darauf hingewiesen, dass die Einrichtung 16 zum Extrahieren von signifikanten Kurzzeitspektren ausgebildet sein kann, um diese Extraktion anhand tatsächlicher Kurzzeitspektren durchzuführen, wie sie zum Beispiel bei einer Kurzzeit-Fourier-Transformation erhalten werden. Insbesondere bei dem Anwendungsbeispiel der vorliegenden Erfindung, bei dem die spezifische Charakteristik die Schlagzeug-Charakteristik bzw. die perkussive Charakteristik ist, wird es bevorzugt, nicht tatsächliche Kurzzeitspektren zu extrahieren, sondern Kurzzeitspektren aus einem differenzierten Spektrogramm, also aus Differenzspektren. Die Differenzierung, wie sie in Block 16a in 2 gezeigt ist, führt die Folge von Kurzzeitspektren zu einer Folge von abgeleiteten bzw. differenzierten Spektren, wobei jedes (differenzierte) Kurzzeitspektrum nunmehr die Änderungen zwischen einem ursprünglichen Spektrum und dem nächsten Spektrum enthält. Damit werden stationäre Anteile in einem Signal, also zum Beispiel Signalanteile aufgrund von Harmonic Sustained Instrumenten robust und zuverlässig eliminiert. Dies liegt daran, dass die Differenzierung Änderungen in dem Signal hervorhebt und gleiche Anteile unterdrückt. So zeichnen sich jedoch perkussive Instrumente gerade dadurch aus, dass die durch diese Instrumente erzeugten Töne im Hinblick auf ihren Zeitverlauf stark transient sind.At this point it should be noted that the device 16 for extracting significant short-term spectra in order to perform this extraction on the basis of actual short-term spectra, as for example in a Short-term Fourier transform can be obtained. Particularly, in the example of application of the present invention in which the specific characteristic is the percussion characteristic, it is preferable to extract not actual short-term spectra but short-term spectra from a differentiated spectrogram, that is, differential spectra. The differentiation, as in block 16a in 2 is shown, the sequence of short-term spectra results in a sequence of derived or differentiated spectra, each (differentiated) short-term spectrum now containing the changes between an original spectrum and the next spectrum. This stationary and stable components in a signal, so for example signal components due to Harmonic Sustained instruments are robustly and reliably eliminated. This is because the differentiation emphasizes changes in the signal and suppresses equal proportions. Percussive instruments, however, are characterized by the fact that the sounds produced by these instruments are highly transient in terms of their time course.

Darüber hinaus wird es bevorzugt, die PCA 18a und die nicht-negative ICA 18b, also allgemeiner gesagt, die Zerlegungsoperation zum Zerlegen der extrahierten Kurzzeitspektren im Block 18 von 1 nicht mit den ursprünglichen Kurzzeitspektren sondern mit den abgeleiteten Kurzzeitspektren durchzuführen. Dabei wird der Effekt ausgenutzt, dass für stark transiente Signale das differenzierte Signal zum ursprünglichen Signal vor der Differenzierung sehr ähnlich ist, was insbesondere dann der Fall ist, wenn sehr schnelle Änderungen in einem Signal vorliegen. Dies gilt für perkussive Instrumente.In addition, it is preferred the PCA 18a and the non-negative ICA 18b , more generally, the decomposition operation for decomposing the extracted short-term spectra in the block 18 from 1 not with the original short-term spectra but with the derived short-term spectra. In this case, the effect is exploited that for strongly transient signals the differentiated signal is very similar to the original signal before differentiation, which is the case in particular when there are very rapid changes in a signal. This applies to percussive instruments.

Des weiteren sei darauf hingewiesen, dass die Einrichtung 18 zum Zerlegen, die eine PCA 18a mit nachfolgender nicht-negativer ICA (18b) durchführt, ohnehin zur Ermittlung eines Profilspektrums eine gewichtete Linearkompensation der extrahierten Spektren, die von der Einrichtung geliefert werden, durchführt. Dies bedeutet, dass die extrahierten Spektren insgesamt mit bestimmten nach den einzelnen Verfahren berechneten Gewichtungsfaktoren beaufschlagt werden und linear kombiniert werden, also durch Subtraktion oder Addition. Daher wird zumindest teilweise der Effekt beobachtet, dass die Einrichtung 18 zum Hinterlegen der extrahierten Kurzzeitspektren eine der Differenzierung entgegenwirkende Funktionalität haben kann, so dass die Profilspektren, die für die Tonquellen ermittelt werden, nicht differenzierte Profilspektren sondern die eigentlichen Profilspektren sind. Auf jeden Fall hat sich herausgestellt, dass die Verwendung von differenzierten Spektren, also von Differenzen-Spektren aus einem Differenzen-Spektrogramm in Verbindung mit einem Zerlegungsalgorithmus in der Einrichtung 18, der auf einer gewichteten Linearkombination der einzelnen extrahierten Spektren basiert, zu Profilspektren für die einzelnen Tonquellen hoher Qualität und hoher Selektivität führen.It should also be noted that the device 18 for disassembling a PCA 18a with subsequent non-negative ICA ( 18b ), in any case to determine a profile spectrum performs a weighted linear compensation of the extracted spectra, which are supplied by the device performs. This means that the extracted spectra as a whole are subjected to specific weighting factors calculated by the individual methods and are combined linearly, that is to say by subtraction or addition. Therefore, at least in part, the effect is observed that the device 18 for storing the extracted short-term spectra can have a functionality counteracting the differentiation, so that the profile spectra, which are determined for the sound sources, are not differentiated profile spectra but the actual profile spectra. In any case, it has been found that the use of differentiated spectra, ie difference spectra from a difference spectrogram in conjunction with a decomposition algorithm in the device 18 based on a weighted linear combination of the individual extracted spectra, leading to profile spectra for the individual high quality and high selectivity sound sources.

Würden dagegen lediglich stationäre Anteile weiter verarbeitet, also ist das spezifische Charakteristikum nicht ein perkussives sondern ein harmonisches Charakteristikum, so wird es bevorzugt, eine Vorverarbeitung des Spektrogramms durch Integration, also durch Aufsummation zu erreichen, um die stationären Anteile gegenüber den transienten Anteilen zu verstärken. Auch in diesem Fall wird es bevorzugt, unter Verwendung der Summenspektren, also des integrierten Spektrogramms die Profilspektren für die einzelnen – dann harmonischen – Tonquellen zu berechnen.Would against it only stationary Shares processed further, so is the specific characteristic not a percussive but a harmonious characteristic, thus it is preferred to preprocess the spectrogram Integration, that is to say by summation, to reach the stationary parts across from increase the transient shares. Also in this case will it prefers, using the sum spectra, so the integrated Spectrograms the profile spectra for the individual - then harmonic - sound sources to calculate.

Nachfolgend werden einzelne Funktionalitäten des erfindungsgemäßen Konzepts detaillierter dargestellt. Typische digitale Audiosignale werden jedoch bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung zunächst noch durch eine Vorverarbeitung der Einrichtung 8 vorverarbeitet. Ferner wird es bevorzugt, als PCM-Audiosignal, das in die Vorverarbeitungseinrichtung 8 eingegeben wird, Mono-Dateien mit einer Breite von 16 Bits pro Abtastwert bei einer Abtastfrequenz von 44,1 Hz zuzuführen. Diese Audiosignale, also dieser Strom von Audioabtastwerten, welcher auch ein Strom von Videoabtastwerten und allgemein ein Strom von Informations-Abtastwerten sein kann, wird der Vorverarbeitungseinrichtung 8 zugeführt, um eine Vorverarbeitung im Zeitbereich unter Verwendung einer Software-basierten Emu lation eines Akustikeffektgeräts, das oft als „Exciter" bezeichnet wird, durchzuführen. Bei diesem Konzept verstärkt die Vorverarbeitungsstufe 8 den hochfrequenten Anteil des Audiosignals. Dies wird erreicht, in dem eine nicht-lineare Verzerrung mit einer hochpassgefilterten Version des Signals durchgeführt wird, und indem das Ergebnis der Verzerrung zu dem ursprünglichen Signal hinzuaddiert wird. Es stellt sich heraus dass diese Vorverarbeitung besonders günstig ist, wenn Hi-Hats zu beurteilen sind, oder ähnlich hoch klingende Idiophone mit niedriger Intensität. Ihr energetisches Gewicht bezüglich des Gesamtmusiksignals wird durch diesen Schritt erhöht, während die meisten harmonisch-ausgehaltenen Instrumente und Schlaginstrumente mit niedrigerem Ton nicht beeinträchtigt werden.Below, individual functionalities of the inventive concept are shown in more detail. However, in a preferred embodiment of the present invention, typical digital audio signals are still first pre-processed by the device 8th preprocessed. Furthermore, it is preferred, as a PCM audio signal, in the preprocessing device 8th is input, mono-files with a width of 16 bits per sample at a sampling frequency of 44.1 Hz. These audio signals, that is, this stream of audio samples, which may also be a stream of video samples and generally a stream of information samples, become the pre-processor 8th to perform time-domain preprocessing using software-based emulation of an acoustic effects device, often referred to as an "exciter." In this concept, the pre-processing stage amplifies 8th the high-frequency part of the audio signal. This is accomplished by performing a non-linear distortion on a high-pass-filtered version of the signal and adding the result of the distortion to the original signal. It turns out that this preprocessing is particularly favorable when hi-hats are to be judged, or similarly high-sounding low-intensity idiophones. Their energetic weight relative to the overall music signal is increased by this step, while most harmonically-endured and lower-pitched percussion instruments are not affected.

Ein weiterer positiver Seiteneffekt besteht in der Tatsache, dass MP3-kodierte und wieder dekodierte Dateien, die durch diesen Prozess inhärent tiefpassgefiltert wurden, wieder Hochfrequenzinformationen erhalten.One Another positive side effect is the fact that MP3 encoded and again decoded files inherently low-pass filtered by this process were again received high frequency information.

Eine Spektraldarstellung des vorverarbeiteten Zeitsignals wird dann unter Verwendung der Zeit/Frequenz-Einrichtung 12 erhalten, die vorzugsweise eine Kurzzeit-Fourier-Transformation (STFT; STFT = Short Time Fourier Transform) durchführt.A spectral representation of the preprocessed time signal is then made using the time / frequency means 12 receive, the preferential Example, a short-time Fourier transform (STFT) performs STFT = Short Time Fourier Transform).

Zur Implementierung der Zeit/Frequenz-Einrichtung werden eine relativ große Blockgröße von vorzugsweise 4096 Werten und eine hohe Überlappung bevorzugt. Zunächst wird eine gute spektrale Auflösung für den niedrigeren Frequenzbereich, also für den niedrigeren Spektralkoeffizienten benötigt. Ferner wird die zeitliche Auflösung auf eine gewünschte Genauigkeit erhöht, indem eine kleine Hop-Größe, also ein kleines Hop-Intervall zwischen benachbarten Blöcken erhalten wird. Im bevorzugten Ausführungsbeispiel werden, wie es ausgeführt worden ist, 4096 Samples pro Block einer Kurzzeit-Fourier-Transformation unterworfen, was einer zeitlichen Blocklänge von 92 ms entspricht. Als Hop-Größe wird ein Wert von 10 ms verwendet. Dies bedeutet, dass jeder Abtastwert über 9 mal hintereinander in einem Kurzzeitspektren auftritt.to Implementation of the time / frequency facility will be a relative one size Block size of preferably 4096 values and a high overlap prefers. First will have a good spectral resolution for the lower frequency range, ie for the lower spectral coefficient needed. Further becomes the temporal resolution to a desired Increased accuracy, by a small hop size, so get a small hop interval between adjacent blocks becomes. In the preferred embodiment be how it's done 4096 samples per block of a short-term Fourier transform subjected, which corresponds to a time block length of 92 ms. When Hop size will be one Value of 10 ms used. This means that each sample is over 9 times occurs consecutively in a short-term spectra.

Die Einrichtung 12 ist ausgebildet, um ein Amplitudenspektrum X zu erhalten. Die Phaseninformationen können ebenfalls berechnet werden und, wie später noch ausgeführt wird, im Extremwert- bzw. Maximum-Sucher 16c verwendet werden.The device 12 is designed to obtain an amplitude spectrum X. The phase information can also be calculated and, as will be explained later, in the extreme value or maximum searcher 16c be used.

Das Betragsspektrum X besitzt nunmehr n Frequenz-Bins oder Frequenz-Koeffizienten und m Spalten bzw. Rahmen (Frames), also einzelne Kurzzeitspektren. Die zeitvarianten Änderungen jedes Spektralkoeffizienten werden über allen Rahmen bzw. Einzelspektren differenziert, und zwar durch den Differenzierer 16a, um den Einfluss von harmonisch-ausgehaltenen Tonquellen zu dezimieren, und um die nachfolgende Erfassung von Transienten zu vereinfachen. Die Differenzierung, die vorzugsweise eine Differenzbildung zwischen zwei Kurzzeitspektren der Folge aufweist, kann ferner noch gewisse Normierungen aufweisen.The magnitude spectrum X now has n frequency bins or frequency coefficients and m columns or frames, ie individual short-time spectra. The time-variant changes of each spectral coefficient are differentiated over all frames or individual spectra, by the differentiator 16a to decimate the influence of harmonic-sustaining sound sources, and to facilitate the subsequent detection of transients. The differentiation, which preferably has a difference between two short-term spectra of the sequence, may also have certain normalizations.

Es sei darauf hingewiesen, dass die Differenzierung zu negativen Werten führen kann, so dass in einem Block 16b eine Halbwellengleichrichtung durchgeführt wird, um diesen Effekt zu entfernen. Alternativ könnten jedoch auch die negativen Vorzeichen einfach umgedreht werden, was jedoch im Hinblick auf die spätere Komponentenzerlegung nicht bevorzugt wird.It should be noted that the differentiation can lead to negative values, so that in a block 16b a half-wave rectification is performed to remove this effect. Alternatively, however, the negative signs could simply be reversed, which is not preferred in view of the later component decomposition.

Aufgrund des Gleichrichters 16b wird somit ein nicht-negatives Differenz-Spektrogramm erhalten, das dem Maximum-Sucher 16c zugeführt wird.Due to the rectifier 16b Thus, a non-negative difference spectrogram is obtained, which is the maximum finder 16c is supplied.

Der Maximum-Sucher 16c führt eine Ereignis-Detektion durch, auf die nachfolgend eingegangen wird. Die Erfassung von mehreren lokalen Extremwerten und vorzugsweise von lokalen Maxima, die transienten Einsatz-Ereignissen in dem Musiksignal zugeordnet sind, wird durchgeführt, indem zunächst eine Zeittoleranz definiert wird, die zwei aufeinanderfolgende Schlagzeug-Einsätze trennt. Bei dem bevorzugten Ausführungsbeispiel wird eine Zeit von 68 ms als konstanter Wert verwendet, der von der Zeitauflösung und von Kenntnissen über das Musiksignal abgeleitet ist. Insbesondere bestimmt dieser Wert die Anzahl von Rahmen bzw. Einzelspektren bzw. differenzierten Einzelspektren, die zumindest zwischen zwei aufeinanderfolgenden Einsätzen auftreten muss. Die Verwendung dieses Minimalabstands wird auch durch die Betrachtung unterstützt, das eine Sechzehntelnote 60 ms bei einer oberen Tempogrenze von einem sehr hohen Tempo von 250 bpm dauert.The maximum viewfinder 16c performs an event detection, which will be discussed below. The detection of multiple local extremes and preferably local maxima associated with transient deployment events in the music signal is performed by first defining a time tolerance that separates two consecutive percussion inserts. In the preferred embodiment, a time of 68 ms is used as a constant value derived from the time resolution and knowledge about the music signal. In particular, this value determines the number of individual spectra or differentiated individual spectra which must occur at least between two consecutive inserts. The use of this minimum distance is also supported by the observation that a sixteenth note takes 60 ms at an upper tempo limit of a very high tempo of 250 bpm.

Um eine automatisierte Maximumsuche durchführen zu können, wird von dem differenzierten und gleichgerichteten Spektrum, also von der Folge von gleichgerichteten (differenten) Kurzzeitspektren eine Detektions-Funktion abgeleitet, auf Basis derer die Maximumsuche durchgeführt werden kann. Um für jeden Zeitpunkt einen Wert dieser Funktion zu bekommen, wird einfach eine Summe über alle Frequenzkoeffizienten bzw. alle Spektral-Bins ermittelt. Zur Glättung dieser sich dann ergebenden eindimensionalen Funktion über der Zeit wird eine Faltung der erhaltenen Funktion mit einem geeigneten Hann-Fenster durchgeführt, so dass eine relativ glatte Funktion e erhalten wird. Um die Positionen t der Maxima zu erhalten, wird ein Gleitfenster der Toleranzlänge über den gesamten Weg e "geschoben", um die Fähigkeit zu erreichen, ein Maximum pro Schritt zu erhalten.Around to be able to perform an automated maximum search, is differentiated from the rectified spectrum, ie of the sequence of rectified (different) short-term spectra derived a detection function, based on which the maximum search can be performed. To everyone Time to get a value of this function is simply a Sum over all frequency coefficients or all spectral bins determined. to smoothing this then resulting one - dimensional function over the Time will be a convolution of the obtained function with a suitable Hann window carried out, so that a relatively smooth function e is obtained. To the positions t of the maxima, a sliding window of the tolerance length over the entire way e "pushed" to the ability to reach a maximum per step.

Die Verlässlichkeit der Maximasuche wird dadurch verbessert, dass vorzugsweise nur die Maxima beibehalten werden, die in einem Fenster für mehr als einen Zeitpunkt erscheinen, da sie sehr wahrscheinlich die interessierenden Peaks sind. So wird es bevorzugt, die Maxima zu verwenden, die über eine vorbestimmte Schwelle von Zeitpunkten, also zum Beispiel drei Zeitpunkte, ein Maximum darstellen, wobei die Schwelle letztendlich vom Verhältnis der Blocklänge zur Hop-Größe abhängen wird. Daraus ist ersichtlich, dass ein Maximum, wenn es wirklich ein signifikantes Maximum ist, eine bestimmte Anzahl von Zeitpunkten, also letztendlich eine bestimmte Anzahl von überlappenden Spektren tatsächlich ein Maximum sein muss, wenn daran gedacht wird, dass bei den vorher dargestellten Zahlenwerten jeder Abtastwert in wenigstens 9 aufeinanderfolgenden Kurzzeitspektren "mitmischt".The reliability The Maximasuche is improved by the fact that preferably only the Maxima are kept in a window for more than a date, since they are most likely the ones interested Peaks are. So it is preferable to use the maxima that have one predetermined threshold of times, for example three times, represent a maximum, the threshold ultimately being determined by the ratio of block length will depend on hop size. from that It can be seen that a maximum, if it really is a significant Maximum is, a certain number of times, so ultimately a certain number of overlapping ones Spectra actually must be a maximum when it is thought that in the before numerical values shown each sample in at least 9 consecutive Short-term spectra "mixed in".

Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung werden, wie es durch den Phasenpfeil dargestellt ist, die aufgewickelten ("unwrapped") Phaseninformationen des ursprünglichen Spektrogramms als Zuverlässigkeitsfunktion verwendet. Es hat sich herausgestellt, dass in den Phaseninformationen ein signifikanter positiv gerichteter Phasensprung neben einer geschätzten Einsatz-Zeit t auftreten muss, wodurch vermieden wird, dass kleine Rippel fälschlicherweise als Einsätze bzw. „Onsets" betrachtet werden.In the preferred embodiment of the present invention, as represented by the phase arrow, the unwrapped phase information of the original spectrogram is used as the reliability function. It has been found that in the phase information a significantly positive-directed Phase jump must occur in addition to an estimated insertion time t, thereby avoiding that small ripples are mistaken for "onsets".

Erfindungsgemäß wird nunmehr ein kleiner Ausschnitt des Differenzspektrogramms, nämlich ein durch Differenzierung entstandenes Kurzzeitspektrum extrahiert und der nachfolgenden Zerlegungseinrichtung zugeführt.According to the invention will now a small section of the difference spectrogram, namely a through Differentiation emerged short-term spectrum extracted and the fed to subsequent decomposition device.

Nachfolgend wird auf die Funktionalität der Einrichtung 18a zum Durchführen einer Principal-Component-Analysis einge gangen. Aus den in dem vorhergehenden Abschnitt beschriebenen Schritten werden also die Informationen über die Zeit des Auftretens t und die Spektralzusammensetzungen der Einsätze, also die extrahierten Kurzzeitspektren X_t, abgeleitet. Bei reellen Musiksignalen findet man typischerweise eine große Anzahl von transienten Ereignissen innerhalb der Dauer des Musikstücks. Selbst bei einem einfachen Beispiel eines Stücks mit einer Geschwindigkeit von 120 Schlägen pro Minute (bpm) zeigt sich, dass in einem Vier-Minuten-Ausschnitt 480 Ereignisse sein können, gesetzt den Fall, dass nur Viertelnoten auftreten. Bezüglich des Ziels des Findens von nur ein paar wenigen signifikanten Unterräumen bzw. Profilspektren wird die Prinzipal-Komponenten-Analyse (PCA) auf X ~_t also auf die extrahierten Kurzzeitspektren oder auf von den extrahierten Kurzzeitspektren abgeleitete Kurzzeitspektren angewendet.Below is on the functionality of the device 18a to perform a principal component analysis. From the steps described in the previous section, the information about the time of occurrence t and the spectral compositions of the inserts, ie the extracted short-term spectra X _t , are derived. For real music signals, one typically finds a large number of transient events within the duration of the piece of music. Even with a simple example of a piece at a speed of 120 beats per minute (bpm), it turns out that in a four-minute segment, 480 events can be set, assuming that only quarter notes occur. With regard to the goal of finding only a few significant subspaces or profile spectra, the principal component analysis (PCA) on X ~ _t is thus applied to the extracted short-term spectra or to short-term spectra derived from the extracted short-term spectra.

Unter Verwendung dieser bekannten Technik ist es möglich, der gesamte Satz von gesammelten Kurzzeitspektren auf eine begrenzte Anzahl von dekorrelierten Prinzipalkomponenten zu reduzieren, was in einer guten Darstellung der ursprünglichen Daten mit kleinem Rekonstruktionsfehler resultiert. Zu diesem Zweck wird eine Eigenwert-Zerlegung (EVD) der Kovarianz-Matrix des Datensatzes berechnet. Aus dem Satz von Eigenvektoren werden die Eigenvektoren mit den d größten Eigenwerten ausgewählt, um die Koeffizienten für die Linearkombination der ursprünglichen Vektoren gemäß der nachfolgenden Gleichung zu liefern X ~ = X ^t·T Using this known technique, it is possible to reduce the entire set of collected short-term spectra to a limited number of decorrelated principal components, resulting in a good representation of the original data with little reconstruction error. For this purpose, an eigenvalue decomposition (EVD) of the covariance matrix of the data set is calculated. From the set of eigenvectors, the eigenvectors having the d largest eigenvalues are selected to provide the coefficients for the linear combination of the original vectors according to the following equation X ~ = X ^ t * T

Daher beschreibt T eine Transformationsmatrix, die tatsächlich ein Teilsatz der Manigfaltigkeit der Eigenvektoren ist. Zusätzlich werden die reziproken Werte der Eigenwerte als Skalierungsfaktoren verwendet, was nicht nur zu einer Dekorrelation führt, sondern was auch eine Varianznormierung liefert, die wiederum zu einer Weißmachung bzw. einem Whitening-Effekt führt. Alternativ kann auch eine Singularwertzerlegung (SVD) von X ~_t verwendet werden. Es hat sich herausgestellt, dass die SVD äquivalent zur PCA mit EVD ist. Die weiß gemachten Komponenten X ~ werden nachfolgend in die ICA-Stufe 18b eingespeist, auf die nachfolgend eingegangen wird.Therefore, T describes a transformation matrix that is actually a subset of the manifold of eigenvectors. In addition, the reciprocal values of the eigenvalues are used as scaling factors, which not only results in a decorrelation, but also provides a variance normalization, which in turn results in a whitening effect. Alternatively, a singular value decomposition (SVD) of X ~ _t may be used. It has been found that the SVD is equivalent to the PCA with EVD. The whitened components X ~ are subsequently placed in the ICA stage 18b fed into, which will be discussed below.

Allgemein gesagt ist die Independent-Component-Analysis (ICA) eine Technik, die verwendet wird, um einen Satz von linearen Mischsignalen in ihre ursprünglichen Quellen oder Komponentensignale zu zerlegen. Eine Anforderung für ein optimales Verhalten des Algorithmus ist die statistische Unabhängigkeit der Quellen. Vorzugsweise wird eine nicht-negative ICA verwendet, die auf dem intuitiven Konzept des Optimierens einer Kostenfunktion aufbaut, die die Nicht-Negativität der Komponenten beschreibt. Diese Kostenfunktion ist auf einen Rekonstruktionsfehler bezogen, der durch Achsenpaarrotationen von zwei oder mehr Variablen in dem positiven Quadranten der gemeinsamen Wahrscheinlichkeitsdichtefunktion (PDF) eingeführt wird. Die Annahmen für dieses Modell implizieren, dass die ursprünglichen Quellensignale positiv sind und bei Null eine PDF ungleich Null haben, und dass sie bis zu einem gewissen Grad linear unabhängig sind. Das erste Konzept wird immer erfüllt, da die Vektoren, die der ICA unterzogen werden, aus der differenzierten und halbwellen-gleichgewichteten Version X ^ des ursprünglichen Spektrogramms X resultieren, welche somit niemals Werte kleiner als Null umfasst, jedoch sicherlich Werte gleich Null. Die zweite Begrenzung wird berücksichtigt, wenn die zu Einsatzzeiten gesammelten Spektren als die Linearkombinationen eines kleinen Satzes von ursprünglichen Quellenspektren betrachtet werden, die die betrachteten In strumente charakterisieren. Dies bedeutet natürlich eine ziemlich grobe Annäherung, sie stellt sich jedoch in der Vielzahl der Fälle als ausreichend gut heraus.Generally said Independent Component Analysis (ICA) is a technique which is used to make a set of linear mixed signals in theirs original To decompose sources or component signals. A requirement for optimal behavior of the algorithm is the statistical independence of the sources. Preferably becomes a non-negative ICA uses the intuitive concept of optimizing a Builds cost function that describes the non-negativity of the components. This cost function is related to a reconstruction error, by axis pair rotations of two or more variables in the positive quadrant of the common probability density function (PDF) introduced becomes. The assumptions for This model implies that the original source signals are positive are at zero and have a nonzero PDF, and that they're up to a certain extent are linearly independent. The first concept is always fulfilled, since the vectors subjected to the ICA are differentiated and halfwave-balanced version X ^ of the original Spectrogram X results, which thus never values smaller as zero, but certainly values equal to zero. The second Limitation is taken into account if the spectra collected at operating times are the linear combinations a small set of original ones Source spectra are considered, the instruments considered characterize. This of course means a pretty rough approximation, However, in the large number of cases it turns out to be sufficiently good.

Ferner wird vorzugsweise davon Gebrauch gemacht, dass die Spektren, die Einsätze haben, und zwar insbesondere die Spektren von tatsächlichen Schlagzeuginstrumenten keine Invarianten Strukturen haben, sondern im Hinblick auf ihre spektrale Zusammensetzung hier keinen Änderungen unterzogen werden. Nichtsdestoweniger kann jedoch angenommen werden, dass es charakteristische Eigenschaften gibt, die für Spektralprofile von Schlagzeugtönen charakteristisch sind, die es somit ermöglichen, dass die weiß gemachten Komponenten X ~ in ihre potentielle Quellen- bzw. Profilspektren F gemäß der nachfolgenden Gleichung aufgetrennt werden. F = A·X ~ Furthermore, it is preferably used that the spectra having inserts, and in particular the spectra of actual percussion instruments, have no invariant structures, but are not subject to any changes in their spectral composition here. Nevertheless, it can be assumed that there are characteristic properties characteristic of spectral profiles of percussion sounds, thus allowing the whitened components X - to be separated into their potential source or profile spectra F according to the following equation. F = A × X ~

A bezeichnet eine d × d Entmisch-Matrix, die durch den ICA-Prozess bestimmt wird, der tatsächlich die einzelnen Komponenten X ~ trennt. Die Quellen F werden in diesem Dokument auch als Profilspektren bezeichnet. Jedes Profilspektrum hat genauso wie ein Spektrum des ursprünglichen Spektrogramms n Frequenzbins, ist jedoch für alle Zeiten – abgesehen von der Amplitudennormierung – also die Amplitudenhüllkurve – identisch. Dies bedeutet, dass ein solches Profilspektrum nur die Spektralinformationen enthält, die auf ein Onset-Spektrum eines Instruments bezogen sind. Um eine beliebige Skalierung der Komponenten, die durch PCA und ICA eingeführt werden, vorzugsweise zu umgehen, wird eine Transformationsmatrix R gemäß folgender Gleichung verwendet: R = T·AT A denotes a d × d demixing matrix which is determined by the ICA process which actually separates the individual components X ~. The sources F are also called profile spectra in this document. Each profile spectrum has n frequency bins in the same way as a spectrum of the original spectrogram, but for all times except the amplitude normalization, it is the Amplitude envelope - identical. This means that such a profile spectrum contains only the spectral information related to an onset spectrum of an instrument. In order to preferably circumvent any scaling of the components introduced by PCA and ICA, a transformation matrix R is used according to the following equation: R = T · A T

Die Normierung von R mit seinem absoluten Maximalwert führt zu Gewichtungskoeffizienten in einem Bereich von –1 bis +1, so dass Spektralprofile, die unter Verwendung der nachfolgenden Gleichung extrahiert werden F = X ~t·R The normalization of R with its absolute maximum value results in weighting coefficients in a range of -1 to +1, so that spectral profiles extracted using the equation below F = X ~ t · R

Werte in dem Bereich des ursprünglichen Spektrogramms haben. Eine weitere Normierung wird durch Teilen jedes Spektralprofils durch seine L2-Norm erreicht.values in the range of the original spectrogram to have. Another standardization is made by dividing each spectral profile achieved through its L2 standard.

Wie es bereits vorher ausgeführt worden ist, ist die Annahme der Unabhängigkeit und die Annahme der Invarianz für gegebene Kurzzeitspektren nicht immer hundertprozentig erfüllt. So ist es keine Überraschung, dass die nach der Entmischung erhaltenen Spektralprofile immer noch bestimmte Abhängigkeiten haben können. Dies sollte jedoch nicht als fehlerhaftes Verhalten betrachtet werden. Tests mit Spektralprofilen von einzelnen Schlagzeugtönen haben gezeigt, dass die Spektralprofile ebenfalls eine starke Abhängigkeit zwischen den Einsatz-Spektren unterschiedlicher perkussiver Instrumente haben. Eine Art und Weise zum Messen des Grads an gegenseitiger Überlappung und Ähnlichkeit entlang der Frequenzachse besteht in der Durchführung von Crosstalk-Messungen. Aus Anschauungsgründen können die Spektralprofile, die von dem ICA-Prozess erhalten werden, als Übertragungsfunktion von stark frequenzselektiven Teilen in einer Filterbank betrachtet werden, wobei überlappenden Durchgangsbänder zu Crosstalk in dem Ausgang der Filterbankkanäle führen kann. Das Crosstalkmaß zwischen zwei Spektralprofilen wird gemäß folgender Gleichung berechnet.As it already executed before has been the adoption of independence and acceptance of the Invariance for given short-term spectra is not always 100% fulfilled. So it is no surprise that the spectral profiles obtained after demixing are still certain dependencies can have. However, this should not be considered a faulty behavior. Have tests with spectral profiles of individual drum sounds demonstrated that the spectral profiles also have a strong dependence between the use spectra of different percussive instruments to have. A way to measure the degree of overlap and similarity Along the frequency axis is to perform crosstalk measurements. For illustrative purposes, the Spectral profiles obtained from the ICA process as a transfer function considered by highly frequency selective parts in a filter bank being overlapping Passbands can lead to crosstalk in the output of the filter bank channels. The crosstalk measure between two spectral profiles is calculated according to the following Equation calculated.

In der vorstehenden Gleichung reicht i von 1 bis d, reicht j von 1 bis d und gilt, dass j ungleich i ist. In der Tat ist dieser Wert auf den bekannten Kreuzkorrelationskoeffizienten bezogen, derselbe verwendet jedoch eine andere Normierung.In From the above equation, i ranges from 1 to d, j ranges from 1 to d and holds that j is not equal to i. In fact, this value is based on the known cross-correlation coefficients, the same however, uses a different standardization.

Basierend auf den bestimmten Profilspektren wird nunmehr im Block 20 von 2 eine Amplitudenhüllkurvenbestimmung durchgeführt. Hierzu wird das ursprüngliche Spektrogramm, also die Folge von z.B. durch die Einrichtung 12 von 1 oder in Zeit/Frequenz/Umsetzer 12 von 2 erhaltenen Kurzzeitspektren verwendet. Folgende Gleichung gilt: E = F·X Based on the particular profile spectra is now in the block 20 from 2 an amplitude envelope determination performed. This is the original spectrogram, ie the result of eg by the device 12 from 1 or in time / frequency / converter 12 from 2 obtained short-term spectra used. The following equation applies: E = F × X

Als zweite Informationsquelle kann auch die differenzierte Version der Amplitudenhüllkurven aus dem Differenzspektrogramm gemäß folgender Gleichung ermittelt werden: E ^ =F·X ^ As a second information source, the differentiated version of the amplitude envelopes can also be determined from the difference spectrogram according to the following equation: E ^ = F · X ^

Wesentlich an diesem Konzept ist, dass keine weitere ICA-Berechnung mit den Amplitudenhüllkurven durchgeführt wird. Stattdessen werden durch das erfindungsgemäße Konzept hoch spezialisierte Spektralprofile erhalten, die sehr nahe an den Spektren der Instrumente liegen, die tatsächlich in dem Signal erscheinen. Dennoch sind die extrahierten Amplitudenhüllkurven nur in bestimmten Fällen schöne Erfassungsfunktionen mit scharfen Spitzen, beispielsweise für tanzorientierte Musik mit sehr dominierenden perkussiven Rhythmusanteilen. Oft enthalten die Amplitudenhüllkurven kleinere Spitzen und Plateaus, die von den oben erwähnten Crosstalk-Effekten herrühren können.Essential At this concept is that no further ICA calculation with the amplitude envelopes carried out becomes. Instead, the concept according to the invention makes highly specialized spectral profiles that are very close to the spectra of the instruments, actually appear in the signal. Nevertheless, the extracted amplitude envelopes are only in certain cases nice detection functions with sharp points, for example, for dance-oriented music with very dominant percussive rhythm parts. Often they contain amplitude envelopes smaller peaks and plateaus, from the crosstalk effects mentioned above resulting can.

Nachfolgend wird auf eine nähere Implementierung der Einrichtung 22 zur Merkmalsextraktion und Klassifikation hingewiesen. Es ist bekannt, dass die tatsächliche Anzahl von Komponenten für reelle Musiksignale zunächst einmal unbekannt ist. „Komponenten" bedeuten in diesem Kontext sowohl die Spektralprofile als auch die korrespondierenden Amplitudenhüllkurven. Wenn die Anzahl d von extrahierten Komponenten zu niedrig ist, werden Artefakte der nicht berücksichtigten Komponenten sehr wahrscheinlich in anderen Komponenten auftreten. Wenn dagegen zu viele Komponenten extrahiert werden, sind die prominentesten Komponenten in mehre Komponenten aufgeteilt. Ungünstigerweise kann diese Aufteilung selbst mit der richtigen Anzahl von Komponenten auftreten und gelegentlich eine Erfassung der reellen Komponenten erschweren.Below is a closer implementation of the device 22 for feature extraction and classification. It is known that the actual number of components for real music signals is initially unknown. "Components" in this context mean both the spectral profiles and the corresponding amplitude envelopes.If the number d of components extracted is too low, artefacts of the disregarded components will most likely occur in other components, whereas if too many components are extracted, the Unfortunately, this split can occur even with the right number of components and sometimes make capturing the real components harder.

Zur Überwindung dieser Problematik wird eine maximale Anzahl d von Komponenten in dem PCA- oder ICA-Prozess vorgegeben. Anschließend werden die extrahierten Komponenten unter Verwendung eines Satzes von spektralbasierten und zeitbasierten Merkmalen klassifiziert. Die Klassifizierung soll zwei Informationen liefern. Zunächst sollen die Komponenten aus dem weiteren Verfahren eliminiert werden, die mit hoher Sicherheit als nicht-perkussiv erkannt werden. Ferner sollen die verbleibenden Komponenten vordefinierten Instrumentenklassen zugeordnet werden.To overcome this problem, a maximum number d of components in the PCA or ICA process is specified. Subsequently, the extracted components are classified using a set of spectral-based and time-based features. The classification should provide two pieces of information. First, the components are to be eliminated from the further process, which with high certainty as non-percussive be recognized. Furthermore, the remaining components are to be assigned to predefined instrument classes.

Ein geeignetes Maß für die Unterscheidung der Amplitudenhüllkurven wird durch die Perkussivität gegeben, die in der dritten Fachveröffentlichung genannt ist. Hier wird eine modifizierte Version verwendet, bei der der Korrelationskoeffizient zwischen entsprechenden Amplitudenhüllkurven in E ^ und E verwendet wird. Der Grad an Korrelation zwischen beiden Vektoren tendiert dazu, klein zu sein, wenn die charakteristischen Plateaus, die auf harmonisch ausgehaltene Töne bezogen sind, in den nicht-differenzierten Amplitudenhüllkurven E auftauchen. Diese verschwinden sehr wahrscheinlich in der differenzierten Version E ^. Beide Vektoren sind sich im Falle von transienten Amplitudenhüllkurven, die von perkussiven Tönen stammen, wesentlich ähnlicher. Zu diesem Zweck wird auf 3a und 4a verwiesen. In 3a ist eine sehr schnell und sehr hoch ansteigende Amplitudenhüllkurve für eine perkussive Quelle gezeigt, während in 4a eine Amplitudenhüllkurve für ein harmonisch ausgehaltenes Instrument gezeigt ist. 3a ist eine Amplitudenhüllkurve für eine Kick Drum, während 4a eine Amplitudenhüllkurve für eine Trompete ist. Aus der Amplitudenhüllkurve für die Trompete ist ein relativ zügiger Anstieg, und dann aber ein relativ langsames Ausklingen dargestellt, wie es für harmonisch ausgehaltene Instrumente typisch ist. Dagegen steigt die Amplitudenhüllkurve für ein perkussives Element, wie es in 3a gezeigt ist, sehr schnell und sehr stark an und fällt jedoch ebenfalls wieder genauso schnell und steil ab, da ein Schlagzeugton typischerweise aufgrund des Wesens der Erzeugung dieses Tons nicht besonders lang nachklingt bzw. abklingt.A suitable measure of the discrimination of the amplitude envelopes is given by the percussivity, which is mentioned in the third technical publication. Here, a modified version is used, using the correlation coefficient between corresponding amplitude envelopes in E ^ and E. The degree of correlation between both vectors tends to be small when the characteristic plateaus, which are related to harmonically sustained tones, appear in the non-differentiated amplitude envelopes E. These probably disappear in the differentiated version E ^. Both vectors are much more similar in the case of transient amplitude envelopes derived from percussive tones. For this purpose is on 3a and 4a directed. In 3a is shown a very fast and very high amplitude envelope for a percussive source, while in 4a an amplitude envelope for a harmonically sustained instrument is shown. 3a is an amplitude envelope for a kick drum while 4a is an amplitude envelope for a trumpet. The amplitude envelope for the trumpet shows a relatively rapid rise, and then a relatively slow decay, as is typical of harmonic sustained instruments. In contrast, the amplitude envelope for a percussive element increases, as in 3a is shown to be very fast and very strong, but also drops again just as fast and steeply, as a drum sound typically does not fade away very long due to the nature of the generation of that sound.

Die Amplitudenhüllkurven können somit zur Klassifikation bzw. Merkmalsextraktion genauso gut verwendet werden, wie die nachfolgend erläuterten Profilspektren, die sich im Falle einer perkussiven Quelle (3b; Hi-Hat) und 4b im Falle eines harmonisch ausgehaltenen Instruments (Gitarre) deutlich unterscheiden. So ist beim harmonisch ausgehaltenen Instrument eine deutliche Ausprägung der Oberwellen zu sehen, während die perkussive Quelle ein eher rauschartiges Spektrum hat, das keine deutlich ausgeprägten Oberwellen hat, das jedoch insgesamt einen Bereich hat, in dem Energie konzentriert ist, wobei dieser Bereich, in dem Energie konzentriert ist, sehr breitbandig ist.The amplitude envelopes can thus be used for classification or feature extraction just as well as the profile spectra explained below, which in the case of a percussive source ( 3b ; Hi-hat) and 4b clearly distinguish in the case of a harmonically sustained instrument (guitar). For example, the harmonically sustained instrument shows a clear manifestation of the harmonics, whereas the percussive source has a rather noisy spectrum, which does not have pronounced harmonics, but overall has an area in which energy is concentrated Energy is concentrated, is very broadband.

Es wird also vorzugsweise ein spektral-basiertes Maß, also ein Maß, das von den Profilspektren (z.B. 3b und 4b) abgeleitet wird, verwendet, um Spektren von harmonisch ausgehaltenen Tönen von Spektren, die auf perkussive Töne bezogen sind, zu trennen. Wieder wird bei dem bevorzugten Ausführungsbeispiel eine modifizierte Version der Berechnung dieses Maßes verwendet, die eine Toleranz gegenüber spektralen Lag-Erscheinungen, eine Dissonanz mit allen Harmonischen und einer geeigneten Normierung zeigt. Ein höherer Grad an rechenmäßiger Effizienz wird erreicht, indem eine ursprüngliche Dissonanzfunktion mit einer Gewichtungsmatrix für Frequenzpaare ersetzt wird.It is therefore preferably a spectrally-based measure, ie a measure of the profile spectra (eg 3b and 4b ) is used to separate spectra of harmonic sustained tones from spectra related to percussive sounds. Again, in the preferred embodiment, a modified version of the calculation of this measure is used, showing tolerance to spectral lag phenomena, all harmonics dissonance and proper normalization. A higher degree of computational efficiency is achieved by replacing an original dissonance function with a frequency pair weighting matrix.

Die Zuordnung von spektralen Profilen zu a-prioridefinierten Klassen von perkussiven Instrumenten wird durch einen einfachen Klassifizierer zum Klassifizieren der k nächsten Nachbarn mit Spektralprofilen von einzelnen Instrumenten als Trainingsdatenbank geschaffen. Die Distanzfunktion wird aus wenigstens einem Korrelationskoeffizient zwischen einem Abfrageprofil und einem Datenbankprofil berechnet. Um die Klassifikation in Fällen niedriger Zuverlässigkeit, also bei niedrigen Korrelationskoeffizienten, zu verifizieren, oder um ein mehrmaliges Auftreten derselben Instrumente zu verifizieren, werden zusätzliche Merkmale, die eine detaillierte Information über die Form des Spektralprofils liefern, extrahiert. Diese umfassen die bereits vorher genannten einzelnen Merkmale.The Assignment of spectral profiles to a-prioridefined classes of percussive instruments is replaced by a simple classifier Classify the k next Neighbors with spectral profiles of individual instruments as a training database created. The distance function becomes at least one correlation coefficient calculated between a query profile and a database profile. To the classification in cases low reliability, so at low correlation coefficients, verify, or to verify a multiple occurrence of the same instruments, will be additional Features that provide detailed information about the shape of the spectral profile deliver, extracted. These include those already mentioned above individual characteristics.

Nachfolgend wird weiter auf die Funktionalität des Entscheiders 24 in 2 eingegangen. Schlagzeug-artige Einsätze werden in den Amplitudenhüllkurven, wie beispielsweise in der Amplitudenhüllkurve in 3a, unter Verwendung üblicher Spitzenauswahlverfahren, die auch als Peak-Picking bezeichnet sind, erfasst. Nur Spitzen in einem Toleranzbe reich neben den ursprünglichen Zeiten t, also den Zeiten, in denen der Maximumsucher 16c ein Ergebnis lieferte, werden vordringlich als Kandidaten für Einsätze betrachtet. Restliche aus den Amplitudenhüllkurven extrahierte Spitzen werden für weitere Betrachtungen zunächst gespeichert. Der Wert des Betrags der Amplitudenhüllkurve wird jedem Einsatz-Kandidat an seiner Position zugeordnet. Wenn dieser Wert nicht einen vorbestimmten dynamischen Schwellenwert überschreitet, dann wird der Einsatz nicht akzeptiert. Die Schwelle variiert über der Menge an Energie in einem größeren zeitlichen Bereich, der die Einsätze umgibt. Der größte Teil des Crosstalk-Einflusses von harmonisch ausgehaltenen Instrumenten sowie gleichzeitig spielenden perkussiven Instrumenten kann in diesem Schritt reduziert werden. Ferner wird es bevorzugt, zu unterscheiden, ob gleichzeitige Einsätze von unterschiedlichen perkussiven Instrumenten tatsächlich vorhanden sind oder nur aufgrund von Crosstalk-Effekten existieren. Eine Lösung für dieses Problem besteht vorzugsweise darin, diese weiteren Auftrittsereignisse zu akzeptieren, deren Wert im Vergleich zum Wert des stärksten Instruments zum Einsatzzeitpunkt relativ hoch ist.Below will continue on the functionality of the decider 24 in 2 received. Drum-type inserts are used in the amplitude envelopes, such as in the amplitude envelope in 3a , using conventional peak selection techniques, also referred to as peak picking. Only peaks in a tolerance range in addition to the original times t, ie the times in which the maximum seeker 16c a result, are considered as candidates for missions. Remaining peaks extracted from the amplitude envelopes are first stored for further consideration. The value of the amount of the amplitude envelope is assigned to each insert candidate at its position. If this value does not exceed a predetermined dynamic threshold, then the mission is not accepted. The threshold varies over the amount of energy in a larger time range surrounding the inserts. Most of the crosstalk influence of harmonically sustained instruments as well as simultaneously playing percussive instruments can be reduced in this step. Further, it is preferred to distinguish whether concurrent inserts of different percussive instruments actually exist or only exist due to crosstalk effects. A solution to this problem is preferably to accept these further occurrence events whose value is relatively high compared to the value of the strongest instrument at the time of use.

Erfindungsgemäß wird somit eine automatische Erfassung und vorzugsweise auch eine automatische Klassifikation von nicht-gepitchten perkussiven Instrumenten in reellen polyphonen Musiksignalen erreicht, wobei die Ausgangsbasis hierfür die Profilspektren einerseits und die Amplitudenhüllkurve andererseits sind. Aus den perkussiven Instrumenten kann ferner gut die rhythmische Information eines Musikstücks extrahiert werden, was wiederum zu einer günstigen Noten-zu-Noten-Transkription führen dürfte.According to the invention thus an automatic detection and preferably also an automatic classification of non-pitched percussion sive instruments in real polyphonic music signals, the starting point for this being the profile spectra on the one hand and the amplitude envelope on the other hand. From the percussive instruments, the rhythmic information of a piece of music can be well extracted, which in turn should lead to a favorable note-to-note transcription.

Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Analysieren eines Informationssignals in Hardware oder in Software implementiert werden. Die Imple mentierung kann auf einen digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.Depending on the circumstances of the inventive method for analyzing an information signal implemented in hardware or in software become. Implementation can be performed on a digital storage medium, in particular a floppy disk or CD with electronically readable Control signals are made that way with a programmable computer system can work together that the procedure is carried out becomes. Generally, the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for execution of the procedure when the computer program product runs on a computer. In other In words Thus, the invention can be thought of as a computer program with a program code to carry out the process can be realized when the computer program is up a computer expires.

Claims

Device for analyzing an information signal, comprising: a device ( 16 ) for extracting significant short-term spectra or short-term spectra of the information signal derived significant short-term spectra from the information signal, the device ( 16 ) for extracting to extract such short-term spectra which come closer to a specific characteristic than other short-term spectra of the information signal; a facility ( 18 ) for decomposing the extracted short-term spectra into component signal spectra, wherein a component signal spectrum represents a profile spectrum of a sound source producing a sound corresponding to the sought characteristic, and wherein another component signal spectrum represents a profile spectrum of another sound source producing a sound of the sought characteristic corresponds; and a facility ( 20 ) for calculating an amplitude envelope for the sound sources, wherein an amplitude envelope for a sound source indicates how a profile spectrum of the sound source changes over time, using the profile spectra and a sequence of short-term spectra representing the information signal.

Device according to claim 1, in which the device ( 16 ) for extracting to preprocess the information signal ( 8th ) that signal components in the information signal at higher frequencies are emphasized over signal components in the information signal at lower frequencies in the information signal.

Device according to Claim 2, in which the device ( 16 ) is designed to extract in order to 8th ) high-pass filtering the information signal, non-linearly distorting the high-pass-filtered version of the information signal, and adding the non-linearly distorted signal to the original information signal.

Device according to one of the preceding claims, in which the device ( 16 ) for extracting the information signal of a time domain frequency domain conversion ( 12 ) to obtain a sequence of short-term spectra, wherein two temporally adjacent short-term spectra relate to sections of the information signal which overlap except for one hopping interval.

Apparatus according to claim 4, wherein each short-term spectrum has a sequence of spectral coefficients, and in which the device ( 16 ) is designed to extract in order to differentiate the sequence of short-term spectra in terms of time ( 16a ) to obtain a sequence of differentiated short-term spectra, where, in a differentiated short-term spectrum, information about changes in a short-term spectrum to a temporally preceding or subsequent short-term spectrum is detected.

Device according to claim 5, in which the device ( 16 ) for extracting to obtain a differentiated short-term spectrum by forming for each spectral coefficient a difference of the spectral coefficient in a current short-term spectrum and a preceding or succeeding short-term spectrum.

Device according to claim 5 or 6, in which the device ( 16 ) for extracting to rectify the differentiated short-term spectra ( 16b ), so that a rectified differentiated short-term spectrum has no negative values.

Device according to one of Claims 5 to 7, in which the device ( 16 ) for extracting to determine significant short-term spectra based on the differentiated short-term spectra.

Device according to claim 8, wherein the device ( 16 ) is designed to extract for sum each differentiated short-term spectrum spectral coefficients or values derived from spectral coefficients from the differentiated short-term spectrum ( 16c ) in order to obtain a summation value for a short-term spectrum, so that a detection function results over time.

Device according to Claim 9, in which the device ( 16 ) for extracting to smooth the detection function over time.

Device according to claim 9 or 10, in which the device ( 16 ) for extracting to find maxima in the detection function at a time ( 16c ), and to use a differentiated short-term spectrum or a short-time spectrum as a significant spectrum, which is assigned a point in time at which the detection function has a maximum.

Device according to one of Claims 9 to 11, in which the device ( 16 ) is designed to be extractable in order to regard as significant only the maximums of the detection function which are spaced apart from each other by more than a predefined period of time.

Device according to one of Claims 4 to 12, in which the device ( 16 ) is designed for extracting in order to determine magnitude spectra as a consequence of short-time spectra and to use phase information of the short-term spectra in the extraction of the significant short-term spectra.

Device according to one of the preceding claims, in which the device ( 18 ) for decomposing to add the extracted short-term spectra weighted ( 18a ) to obtain a reduced number of extracted short-term spectra.

Device according to one of Claims 1 to 14, in which the device ( 18 ) is designed for disassembly to perform a principal component analysis for dimensional reduction ( 18a ) to obtain processed short-term spectra.

Device according to one of the preceding claims, in which the device ( 18 ) is designed to decompose to provide independent component analysis ( 18b ) to generate a plurality of component signals, wherein a component signal is associated with an information source contributing to the information signal.

Device according to one of the preceding claims, in which the device ( 20 ) for calculating the amplitude envelope is adapted to multiply a matrix comprising the profile spectra and a matrix comprising a sequence of short-term spectra of the information signal to obtain the amplitude envelopes for the sound sources.

Device according to one of the preceding claims, in which the device ( 20 ) m calculating the amplitude envelope is adapted to further determine a differentiated amplitude envelope using the profile spectra for the sound sources and using the difference spectrogram.

Device according to one of the preceding claims, further comprising a device ( 22 ) for classifying the component signals into percussive component signals and non-percussive component signals.

Device according to Claim 19, in which the device ( 22 ) is arranged to classify on the basis of the profile spectra and / or the amplitude envelopes.

Device according to Claim 19 or 20, in which the device ( 20 ) for classifying to extract a feature from the profile spectra or the amplitude envelopes and to compare them with features of known sources in a database.

Device according to one of the preceding claims, further comprising a device ( 24 ) for examining the amplitude envelopes for a sound source to then accept a maximum in the amplitude envelope as a use of a signal from the sound source when the device ( 16 ) had extracted a significant short-term spectrum to extract at a time point similar to a threshold.

Device according to one of the preceding claims, in which the device ( 20 ) for computing the amplitude envelope to calculate the amplitude envelope for a sound source such that the amplitude envelope indicates how an intensity or weighting of a profile spectrum of the sound source changes over time.

A method of analyzing an information signal, comprising the steps of: extracting ( 16 ) from significant short-term spectra or short-term spectra of the information signal derived significant short-term spectra from the information signal, such short-term spectra are extracted, which come closer to a specific characteristic than other short-term spectra of the information signal; Disassemble ( 18 ) of the extracted short-term spectra in component signal spectra, wherein a component signal spectrum represents a profile spectrum of a sound source producing a sound which is the one sought Corresponds to a characteristic, and wherein another component signal spectrum represents a profile spectrum of another sound source producing a sound corresponding to the sought characteristic; and calculating ( 20 ) of an amplitude envelope for the sound sources, wherein an amplitude envelope for a sound source indicates how a profile spectrum of the sound source changes over time, using the profile spectra and a sequence of short-term spectra representing the information signal.

Computer program with a program code to carry out the Method for analyzing an information signal according to claim 24, when the computer program runs on a computer.