DE60214994T2 - Verfahren und system zur verringerung von falschalarmen in netzwerkfehlermanagementsystemen - Google Patents

Verfahren und system zur verringerung von falschalarmen in netzwerkfehlermanagementsystemen Download PDF

Info

Publication number
DE60214994T2
DE60214994T2 DE60214994T DE60214994T DE60214994T2 DE 60214994 T2 DE60214994 T2 DE 60214994T2 DE 60214994 T DE60214994 T DE 60214994T DE 60214994 T DE60214994 T DE 60214994T DE 60214994 T2 DE60214994 T2 DE 60214994T2
Authority
DE
Germany
Prior art keywords
indicators
time slice
time
correlation
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60214994T
Other languages
English (en)
Other versions
DE60214994D1 (de
Inventor
A. Louis New Fairfield STEINBERG
R. Evan Dunwoody WETSTONE
Arkadiy Stamford BELOUSOV
John Ossining DEUEL
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
Micromuse Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Micromuse Inc filed Critical Micromuse Inc
Application granted granted Critical
Publication of DE60214994D1 publication Critical patent/DE60214994D1/de
Publication of DE60214994T2 publication Critical patent/DE60214994T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis

Description

  • Ein Teil der Offenbarung dieser Patentschrift enthält Material, das copyrightgeschützt ist. Der Copyrighteigentümer hat nichts gegen die Faxwiedergabe irgendeines des Patentdokuments oder der Patentoffenbarung, wie sie in den Patent- und Warenzeichenamt-Patendateien oder -aufzeichnungen erscheint, behält sich jedoch ansonsten alle Copyrightrechte vor.
  • ALLGEMEINER STAND DER TECHNIK
  • Die hier offenbarte Erfindung betrifft das Computernetzwerkfehlermanagement. Insbesondere betrifft die vorliegende Erfindung verbesserte Techniken zum Reduzieren von Falschalarmen in solchen Systemen durch eine feinere Korrelation von Variablen.
  • Das Ausmaß an Betriebsausfallszeit, die geringe Zahl an Netzwerkingenieuren und der starke Wettbewerb des heutigen Markts haben Service-Provider dazu gezwungen, sich immer mehr auf Softwaretools zu verlassen, um ihre Netzwerke in spitzeneffizientem Betriebszustand zu halten und vertragliche Dienstniveaus für eine wachsende Kundenbasis bereitzustellen. Es ist daher lebenswichtig geworden, dass diese Softwaretools in der Lage sind, ein Netzwerk so effizient wie möglich zu verwalten, überwachen und in ihm Fehler zu suchen und zu beheben. Ein wichtiger Aspekt einer solchen Fehlersuche und -beseitigung sind das Erfassen und die Analyse von Netzwerkfehlern und ihrer Ursachen.
  • Eine Vielzahl von Softwareprogrammen ist derzeit zum Verbessern des Netzwerkmanagements anhand automatisierter Fehleranalyse verfügbar. Zum Beispiel beurteilt die Netcool®/VisionaryTM-Software, die von Mircomuse Inc. erhältlich ist, den guten Zustand eines Netzwerkes durch Korrelieren von Daten, die aus verschiedenen Netzwerkgeräten in Übereinstimmung mit einem Satz von Expertensystemregeln gesammelt werden. Jede Regel definiert, welche Datenelemente oder Indikatoren, wenn sie gemeinsam erfasst werden, die Gegenwart oder Wahrscheinlichkeit eines Fehlers anzeigen. Zum Beispiel korreliert die Software beim Formulieren einer Diagnose, dass die CPU eines Routers übermäßig benutzt wird, relevante Daten, die das Problem verursacht haben können, wie zum Beispiel Instabilität von einem bestimmten Routing-Partner, mangelhafte Zugangslistenkonfiguration und eine übersehene Fehlersucheinstellung.
  • System- oder Gerätedaten können in verschiedenen Arten korreliert werden. Bei der Software Netcool®/VisionaryTM wird zum Beispiel ein Zeitfenster in Zeitscheiben unterteilt und eine Korrelation, die auf Regeln beruht, wird für jede Zeitscheibe ausgeführt. In jeder Zeitscheibe bestimmt die Software, welche der Indikatoren, die überwacht werden, einen Schwerezustand erreicht haben und berechnet einen Prozentsatz, der die Anzahl solcher schwerwiegenden Indikatorzustände über die Gesamtanzahl der Indikatoren, die von der Regel überwacht werden, wiedergibt. Ist das Ergebnis der Korrelation größer als ein vorbestimmter Schwellenprozentsatz, kennzeichnet die Software die Zeitscheibe als ein positives Ergebnis für den Fehler, eine Aktivität, die hierin manchmal Feuern genannt wird. Wenn die Regel für mehr als einen Schwellenprozentsatz von Zeitscheiben während des Zeitfensters feuert, wird eine Warnung oder ein Alarm zu einer Netzwerkmanagementplattform mit der Meldung gesendet, dass der Fehler wahrscheinlich auftritt. Eine Regel mit einem Schwellenprozentsatz von 50 % und einer Fenstergröße von 60 Sekunden unterteilt in zwölf 5-Sekunden-Zeitscheiben formuliert eine Problemdiagnose, wenn die Regel während des Fensters 6 Mal oder öfter gefeuert hat.
  • Die Fähigkeit von Software, wie zum Beispiel das Netcool®/VisionaryTM-Programms, Probleme vorauszusagen und sie zu verhindern, bevor sie die Betriebszeit beeinträchtigen, beruhen weitgehend auf der Präzision der multivariablen Korrelation. Daher ist man sehr um die Formulierung der Regeln und die Auswahl eines passenden Satzes von Indikatoren in Zusammenhang mit jedem Fehlertyp, der analysiert wird, bemüht. Aber auch die besten auf Regeln beruhenden Erfassungssysteme weisen inhärente Probleme auf, die sich aus der verallgemeinerten Assoziation von Ereignissen und Fehlern und der komplexen Beschaffenheit großer Netzwerke oder anderer Systeme ergeben, in welchen viele miteinander verbundene und nicht miteinander verbundene Ereignisse mit großer Häufigkeit auftreten.
  • Die auf Regeln beruhende Korrelation tendiert daher dazu, Falschalarme zu ergeben. Zum Beispiel können beim Gebrauch der oben besprochenen Korrelationstechniken, während das intermittierende positive Erfassen eines schwerwiegenden Zustands in den drei Indikatoren, die eine Regel berücksichtigt, zum Feuern der Regel und Senden eines Alarms führen kann, die Bedingungen in Wirklichkeit nicht miteinander verbunden und zufällig sein und können in der Tat gar keinen Fehler verursachen oder nicht mit dem Fehler, zu welchem der Alarm gesendet wird, verbunden sein. Falschalarme erfordern die Aufmerksamkeit der Administratoren der Service-Provider und entfremden die Ressourcen, die zur Betreuung tatsächlicher Fehler erforderlich sind.
  • US 6 205 563 offenbart ein Multidomänen-Alarmkorrelationsverfahren und -gerät, in dem Intradomänenalarme korreliert werden, um Intradomänenalarme bereitzustellen und eine effizientere Benutzerverständigung und behebende Aktion zu erleichtern. Viele der oben beschriebenen Bedingungen, die zu Falschalarmen führen, würden gemäß dem beschriebenen Verfahren und Gerät jedoch weiter vorherrschen.
  • Es besteht daher ein Bedarf an verbesserten Techniken zum Einschränken der Anzahl von Falschalarmen, die während der Fehlerdetektionskorrelation auftreten.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Es ist eine Aufgabe der vorliegenden Erfindung, die oben beschriebenen Probleme bei existierenden Fehlerkorrelationssystemen zu lösen.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, die Anzahl von Falschalarmen, die von Fehlerdetektionssystemen erzeugt werden, zu verringern.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, die Präzision von Fehlererfassungssystemen zu verbessern und das Rauschen zu verringern.
  • Gemäß der vorliegenden Erfindung wird daher ein Verfahren zum Verbessern der Diagnose in einem Fehlerkorrelationssystem wie in Anspruch 1 definiert bereitgestellt.
  • Die oben genannten und weitere Aufgaben werden durch verbesserte Techniken zum Koreelieren einer Anzahl von Variablen oder Indikatoren in einem Korrelationssystem auf Regelbasis verwirklicht. Die Techniken umfassen das Korrelieren über Zeit der Kanten oder Übergänge von Indikatoren, so dass Indikatoren, die sich nicht gleichzeitig ändern, weniger wahrscheinlich von einer Regel korreliert werden. Software, die die verbesserten Techniken verwendet, erfasst daher nicht nur, ob multiple Variablen eine gegebene Schwere während jeder Zeitscheibe eines Fensters aufweisen, sondern auch, ob und wie die Variablen die Schwere seit der vorhergehenden Zeitspanne geändert haben. Wenn zum Beispiel zwei oder mehrere Indikatoren, die von einer Regel überwacht werden, während einer Zeitscheibe den Zustand wechseln, aber einer von einem positiven Zustand zu einem negativen Zustand und der andere Indikator von einem negativen zu einem positiven Zustand übergeht, wird ein Kanten- oder Übergangsfaktor erzeugt, der es weniger wahrscheinlich macht, dass die Regel die zwei Indikatoren korreliert.
  • Diese verbesserten Techniken heben die Präzision durch Rauschverringerung an, steigern jedoch nicht notwendigerweise die Fehlererfassungsrate. Mit anderen Worten macht die Gegenwart korrelierter Kanten eine Regel nicht strikter als sie wäre, wenn die Kantenkorrelation nicht betrachtet würde, aber das Fehlen von Kanten mit Korrelation soll bewirken, dass die Regel weniger wahrscheinlich feuert. Ebenso sollte die Kantenkorrelation sie nicht veranlassen zu feuern, wenn die Indikatoren einer Regel die Regel nicht zum Feuern veranlassen würden. In einer Situation, wo die Indikatoren gemeinsam auf einen positiven Schwerezustand gewechselt haben, in dem laufenden Fenster jedoch keine Kanten sind, sollte die Regel nicht weniger wahrscheinlich feuern. Das komplette Fehlen von Kanten in einem Fenster sollte in Bezug auf die Regel nicht zählen.
  • Bei bestimmten Ausführungsformen ist die Kantenkorrelation ein indikatorspezifisches Attribut und wird auf einer Basis pro Indikator spezifiziert. Bestimmte Regeln benutzen zum Beispiel die Gegenwart eines Indikators als einen Teil der Regel, und dieser Indikator geht nicht über. Daher würde der Indikator vom Feuern der Regel abhalten, wenn die Kantenkorrelation an sie angewandt wird, weil andere Indikatoren zum Übergehen in der Lage sind. Bei diesen Ausführungsformen wird Indikatoren eine Kantenrelevanz zugewiesen, um ihren Gebrauch in der Kantenkorrelation einzuschränken oder zu verhindern.
  • Die oben genannten und weitere Aufgaben der vorliegenden Erfindung werden auch anhand eines Verfahrens zum Verbessern der Diagnose eines komplexen Problems verwirklicht, wie zum Beispiel ein Problem, das in einem Computernetzwerk oder einer anderen Umgebung erfasst wird, wobei die Symptome multivariat sind und sich schnell ändern, wobei eine Vielzahl von Indikatoren, von welchen man erwartet, dass sie mit dem Netzwerkproblem verbunden sind, über ein Zeitfenster korreliert werden. Das Zeitfenster besteht aus einer Vielzahl sequenzieller Zeitscheiben, wobei in jeder ein Zustand jedes Indikators zum Beispiel durch Abtasten oder Abfragen bestimmt wird. Das Verfahren umfasst das Bestimmen, welcher Indikator oder welche Indikatoren während einer ersten Zeitscheibe den Zustand geändert haben und welcher Indikator oder welche Indikatoren ihren Zustand während der ersten Zeitscheibe nicht geändert haben. Dieser Vergleich kann für eine Anzahl von Zeitscheiben oder vorzugsweise alle Zeitscheiben in dem Fenster vorgenommen werden. Bei bestimmten Ausführungsformen wird ein Übergang durch häufiges Abrufen des Zustands der Indikatoren bestimmt. Bei anderen Ausführungsformen wird der Übergang durch Vergleichen des Zustands jedes der Indikatoren in der ersten Zeitscheibe in dem Fenster, wie zum Beispiel an dem Ende der Zeitscheibe, mit dem Zustand der jeweiligen Indikatoren in einer zweiten Zeitscheibe, die der ersten Zeitscheibe unmittelbar vorausgeht, gefunden.
  • Das Verfahren umfasst ferner das Berechnen eines Zeitscheibenübergangs- oder Kantenfaktors auf der Grundlage der Anzahl von Indikatoren, deren Zustand sich geändert hat, und einer Anzahl von Indikatoren, deren Zustand sich während der ersten Zeitscheibe nicht geändert hat. Der Übergangsfaktor wird dann verwendet, um die Korrelation der Indikatoren über das Zeitfenster einzustellen. Bei bestimmten Ausführungsformen, bei welchen Indikatoren auf der Grundlage ihrer Zustände in jeder Zeitscheibe korreliert werden, wird der Zeitscheibenübergangsfaktor verwendet, um die Korrelation einzustellen, indem er an die spezifische Korrelation für die erste Zeitscheibe angewandt wird. Wenn die Übergangsbestimmung für mehrere oder alle Zeitscheiben erfolgt, werden mehrere Übergangsfaktoren erzeugt, einer pro Zeitscheibe, und jeder wird an die Korrelation für die jeweilige Zeitscheibe angewandt.
  • Bei bestimmten Ausführungsformen haben die Indikatoren eine Vielzahl möglicher Zustände, darunter einen niedrigen Zustand und einen hohen Zustand, und das Bestimmen von Änderungen in den Zuständen der Indikatoren umfasst das Bestimmen, welcher Indikator oder welche Indikatoren vom niedrigen zum hohen Zustand übergegangen sind, und welcher Indikator oder welche Indikatoren vom hohen zum niedrigen Zustand übergegangen sind. Dieses Bestimmen kann dann die Grundlage für das Berechnen des Zeitscheibenübergangsfaktors zum Beispiel durch Identifizieren eines Maximums unter der Anzahl von Indikatoren, deren Zustand sich nicht geändert hat, der Anzahl von Indikatoren deren Zustand von niedrig nach hoch übergegangen ist und der Anzahl von Indikatoren, deren Zustand von hoch nach niedrig übergegangen ist, bilden, und Teilen des Maximums durch die Gesamtanzahl der Indikatoren. Das ergibt ein Verhältnis korrelierter Übergänge über sämtliche Indikatoren. Das Verhältnis hat einen Wert, der notwendigerweise nicht größer ist als Eins, und unterstützt daher das oben erklärte Ergebnis, dass der Gebrauch der Kanten- oder Übergangskorrelation die Wahrscheinlichkeit, dass Indikatoren korreliert werden, verringert und nicht erhöht.
  • Der Einsatz willkürlicher Grenzen für die Zeitscheiben und potenzieller Verzögerungen beim Messen der Zustände von Indikatoren kann zu zwei oder mehr Indikatoren führen, die tatsächlich ihren Zustand zeitlich sehr nahe geändert haben, um als Indikatoren betrachtet zu werden, die ihren Zustand in unterschiedlichen Zeitscheiben geändert haben. Bei bestimmten Ausführungsformen wird dieses Problem des Jiggers gelöst, indem die erste Zeitscheibe eingestellt wird, um potenzielle Verzögerungen beim Bestimmen von Zuständen der Indikatoren zu berücksichtigen. Diese Einstellung kann durch Verwenden verschiedener Längen von Zeitscheiben verwirklicht werden, die die Messverzögerungen wiedergeben. Alternativ kann dieses Einstellen durch Bestimmen, welcher Indikator, wenn überhaupt, den Zustand zuletzt in der Zeit während der ersten Zeitscheibe geändert hat, Bestimmen ob irgendwelche andere Indikatoren den Zustand während einer vorbestimmten Zeitspanne vor der Zeit des letzten Indikatorzustandwechsels gewechselt haben und Betrachten solcher anderer Indikatoren, deren Zustand sich während der vordefinierten Zeitspanne geändert hat, als ob er während der ersten Zeitscheibe aufgetreten wäre, erfolgen. Die vordefinierte Zeitspanne kann das gleiche Intervall sein wie das Intervall der Zeitscheiben.
  • Aufgaben der vorliegenden Erfindung werden ferner durch ein Verfahren zum Reduzieren von Falschalarmen in einem System zum Analysieren von Fehlern in Geräten verwirklicht. Das System korreliert eine Vielzahl von Indikatoren über ein Zeitfenster und erzeugt Alarme auf der Grundlage der Korrelation, wobei das Zeitfenster sequenzielle Zeitscheiben hat, in welchen jeweils ein Zustand jedes Indikators abgetastet wird. Das Verfahren umfasst das Erfassen ob und wie Übergänge in den Zuständen der Indikatoren während einer ersten Zeitscheibe aufgetreten sind. Ein Zeitscheibenübergangsfaktor wird berechnet, der die Anzahl der Indikatoren, deren Zustand sich während der ersten Zeitscheibe ähnlich geändert hat oder nicht geändert hat, mit der Gesamtanzahl von Indikatoren verbindet, und dieser Übergangsfaktor wird verwendet, um die Korrelation der Indikatoren über das Zeitfenster einzustellen. Wenn der Faktor einen Mangel an voller Korrelation in den Übergängen während der ersten Zeitscheibe wiedergibt, wird die Korrelation der Indikatoren verringert, so dass die Wahrscheinlichkeit verringert wird, dass ein Falschalarm erzeugt wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Erfindung wird in den Figuren der anliegenden Zeichnungen veranschaulicht, die beispielhaft und nicht einschränkend sind, in welchen gleiche Bezugszeichen gleiche oder ähnliche entsprechende Teile bezeichnen, und in welchen:
  • 1 ein Blockschaltbild ist, das ein Netzwerkmanagementsystem zeigt, das eine Kantenkorrelationskomponente gemäß den Ausführungsformen der vorliegenden Erfindung aufweist,
  • 2 ein Timingdiagramm ist, das Konzepte veranschaulicht, auf welchen die vorliegenden Erfindung beruht,
  • 3 ein Flussdiagramm ist, das einen Prozess des Verwendens von Kantenkorrelation zum Reduzieren von Fehlalarmen gemäß Ausführungsformen der vorliegenden Erfindung zeigt,
  • 4A4B ein Flussdiagramm enthalten, das den Prozess der 3 ausführlicher gemäß den Ausführungsformen der vorliegenden Erfindung zeigt,
  • 5 ein Flussdiagramm ist, das einen Prozess des Korrelierens von Kanten von Gruppen von Indikatoren gemäß Ausführungsformen der vorliegenden Erfindung zeigt, und
  • 611 beispielhafte Datenstrukturen von Indikatorzuständen im Laufe der Zeit sind, die Korrelationsfaktoren entsprechen, die Anwendungen der Ausführungsformen der vorliegenden Erfindung veranschaulichen.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Bevorzugte Ausführungsformen der vorliegenden Erfindung werden unten unter Bezugnahme auf die Zeichnungen 1–11 beschrieben. Unter Bezugnahme auf 1 ist ein System zum Erfassen des Auftretens von Fehlern in einem Netzwerk gemäß der vorliegenden Erfindung gezeigt. Das System umfasst eine Netzwerkmanagementplattform 10, die Ereignisinformationen in Zusammenhang mit einem Netzwerk 12 für Netzwerkadministratoren konsolidiert, verwaltet und präsentiert. Eine beispielhafte Netzwerkmanagementplattform 10 ist die NETCOOL®-Suite von Programmen erhältlich bei Micromuse Inc. Das System weist ferner einen Satz von Zustandsmonitoren 14 auf, die Geräte 16 abrufen, und Softwareanwendungen 18, die über das Netzwerk 12 angeschlossen sind oder über dieses funktionieren. Die Vorrichtungen 16 enthalten viele Arten von Material, wie zum Beispiel CPUs, Router, Drucker, Netzwerkschnittstellenkarten usw., und die Anwendungen enthalten viele Typen von Programmen, wie zum Beispiel Betriebssysteme, Serverprogramme, Browser, Sicherheitssysteme usw.
  • Die Zustandsmonitoren 14 sammeln viele Rohdatenwerte aus Industriestandard-SNMP-Managementinformationsdatenbanken innerhalb jedes verwalteten oder überwachten Netzwerkelements auf einer im Wesentlichen ununterbrochenen Basis, zum Beispiel jede Sekunde oder alle paar Sekunden. Die Zustandsmonitoren 14 normalisieren die Rohdatenwerte wie unten beschrieben und speisen die gesammelten, normalisierten Daten in einen Satz von Ereignisfiltern 20, die manchmal als Broker bezeichnet sind oder Teil von ihnen sind, die den Austausch von Daten, die von den Zustandsmonitoren gesammelt werden, zu anderen Komponenten des Systems verwalten. Jeder Zustandsmonitor verwendet eine Konfigurationsdatei, die angibt, welche SNMP-Objekte er überwachen soll, wie oft er diese Objekte abrufen und wie er die Ergebnisse auslegen soll. Die überwachten Objekte oder Instanzen dieser Objekte werden hier manchmal Indikatoren genannt, obwohl Indikatoren weitere Information enthalten können, wie zum Beispiel Daten oder wie der Wert eines Objekts auszulegen ist. Die Ereignisfilter 20 verringern die Gesamtanzahl der Ereignisse, die von den Zustandsmonitoren 14 erfasst werden, indem sie nur Ereignisse isolieren und senden, die einen Wechsel in dem Schwereniveau in dem überwachten Gerät oder in der überwachten Anwendung anzeigen.
  • Die von den Ereignisfiltern 20 gefilterten und übertragenen Ereignisdaten werden von einer oder mehreren Korrelationsmaschinen 22 empfangen und verarbeitet. Die Korrelationsmaschine 22 empfängt die normalisierten, gefilterten Ereignisdaten entweder von den Ereignisfiltern 20 oder direkt von den Zustandsmonitoren 14 über einen Abonnementmechanismus und für Hochgeschwindigkeitskonsolidation, -korrelation und -analyse der Information aus, um zu identifizieren, ob Probleme auftreten oder eventuell in dem Netzwerk auftreten werden. Diese Analyse erfolgt durch Holen einer oder mehrerer Regeln aus einer Regeldatenbank 24. Die Regeln schreiben vor, welche Indikatoren oder Eigenschaften der Geräte 16 oder Anwendungen 18, die von den Zustandsmonitoren 14 überwacht werden, wenn sie gemeinsam auftretend gefunden werden, auf ein gegebenes definiertes Problem oder einen Fehler hinweisen. Die Regeln werden typisch auf der Grundlage historischer Erfahrung oder anderer substanzieller Fachkenntnisse entwickelt.
  • Die Regeln werden von der Korrelationsmaschine 22 verwendet, um zu bestimmen, ob eine Warnung oder ein Alarm zu einem Netzwerkadministrator gesendet werden soll, um ihn oder sie über das Erfassen des Problems zu informieren. Wenn die Korrelationsmaschine 22 die Konfigurationsdateien von den Ereignisfiltern 20 empfängt und die Regeln, welche die Daten benutzen, findet, bestimmt die Maschine 22, für welche Indikatoren sie Daten braucht, um sich auf die Regeln zu berufen, und ruft die Zustandsmonitoren 14 ab, um die Ereignisdaten für diese Indikatoren zu abonnieren. Die Korrelationsmaschine 22 kann auch bestimmte Ereignisdaten als Teil der Konfigurationsdateien empfangen. Bei bestimmten Ausführungsformen können die Ereignisfilter 20 auch die Regeln einsehen, um zu bestimmen, welche Ereignisdaten, die von den Zustandsmonitoren 14 empfangen werden, zu filtern sind, und welche an die Korrelationsmaschine 22 weiterzugeben sind.
  • Erfindungsgemäß weist die Korrelationsmaschine 22 auch ein Kantenkorrelationshilfsprogramm 26 auf, das die Präzision der Korrelation auf der Basis der Regeln verbessert, das von der Korrelationsmaschine 22 ausgeführt wird, und die Anzahl von Falschalarmen, die die Korrelationsmaschine 22 erzeugt, verringert. Das Kantenkorrelationshilfsprogramm 26, das im Rest dieser Spezifikation ausführlicher beschrieben ist, analysiert Tendenzen oder Übergänge in den Zuständen der Indikatoren, die gemäß der Regel untersucht werden, um zu bestimmen, wie nahe die verschiedenen Indikatoren aufeinander folgen. Während die Korrelationsmaschine 22 daher jede bekannte Technik zum Korrelieren von Ereignisdaten in Zusammenhang mit einer Anzahl von Geräten oder Anwendungen verwenden kann, berechnet das Kantenkorrelationshilfsprogramm 26 einen Kanten- oder Übergangsfaktor, der an die Korrelation angewandt wird, die von der Korrelationsmaschine erzeugt wird.
  • Ein Konfigurationstool 28 wird in dem System bereitgestellt, um es Administratoren zu erlauben, das System zu manipulieren und Verwaltungsfunktionen auszuführen, wie zum Beispiel Hinzufügen oder Löschen von Filtern, Geräten oder Anwendungen und Starten und Stoppen der Korrelationsmaschine. Das Konfigurationstool 28 erlaubt es den Administratoren auch, Ergebnisse anzusehen und Einstellungen zu ändern, die den Betrieb der Systemkomponenten steuern, wie zum Beispiel die Schwereniveaus, die beim Filtern von Daten verwendet werden, oder der Schwellenwerte, die zum Erzeugen von Alarmen verwendet werden. Das Konfigurationstool 28 kann direkt mit der Korrelationsmaschine 22 gekoppelt werden und sie steuern, oder kann Teil eines systemweiten Konfigurationssystems, das mit der Netzwerkmanagementplattform 10 gekoppelt ist, und beim Steuern nicht nur der Korrelationsmaschine, sondern auch anderer Produkte, die Teil der Netzwerkmanagementplattform 10, verwendet wird.
  • Jeder der Bauteile, die in 1 gezeigt sind, kann als Computerhardware, Software oder eine Kombination dieser zwei umgesetzt werden. Für einen Bauteil, der als ein Softwareprogramm implementiert ist, ist das Programm in einer Speichervorrichtung gespeichert, die von einem Computer gelesen werden kann, um den Computer zu veranlassen, die Funktionen und Verfahren auszuführen, die hier beschrieben sind. Zwei oder mehrere der Bauteile können Teil eines einzelnen Gesamtsystems sein oder dezentral liegen und miteinander über ein Telekommunikationsnetzwerk oder -system kommunizieren und jedes beliebige Protokoll verwenden, darunter Kommunikation über das Internet, drahtlose Technologie, Satellit, Kabelsysteme usw.
  • Die grundlegende Methodik des Reduzierens von Falschalarmen durch Kantenkorrelation wird unten unter Bezugnahme auf die Veranschaulichung in 2 und das Flussdiagramm in 3 beschrieben. Wie in 2 gezeigt, enthält eine beispielhafte Regel, die zur Diagnose eines gegebenen Problems verwendet wird, die Analyse von drei Identifikatoren, identifiziert als Indikatoren 1, 2 und 3. Bei dieser vereinfachten Veranschaulichung kann jeder Indikator zwei mögliche Zustände 0 und 1 haben, wobei einer der Zustände einen Schwerezustand und der andere einen normalen Betriebszustand darstellt. Wie in der Veranschaulichung gezeigt, bleibt der Indikator 1 auf dem Zustand 1, während die Indikatoren 2 und 3 den Zustand im Laufe der Zeit ändern. Wenn die Regel besagt, dass die drei Indikatoren während der Hälfte der Zeit gemeinsam auf einem Zustand 1 sein müssen, würde die Korrelationsmaschine ausgehend von dieser Veranschaulichung bestimmen, dass die Regel erfüllt ist und dass daher eine Warnung erzeugt werden sollte.
  • Eine genauere Prüfung der 2 zeigt jedoch auf, dass die Zustände der Indikatoren eigentlich nicht ausreichend verbunden sein können, um zu folgern, dass das von der Regel definierte Problem auftritt. Der Indikator 1 hat zum Beispiel immer den Zustand 1 und geht nicht wie die anderen Indikatoren über. Ferner gehen die Indikatoren 2 und 3, während sie in den Zeiten 1 und 2 gemeinsam übergehen, in anderer Art in den Zeiten 3, 4 und 5 über. Dieser Mangel an Koinzidenz in den Übergängen der drei Indikatoren im Laufe der Zeit zeigt, obwohl allgemein wie von der Regel definiert die Gegenwart dieser drei Indikatoren auf ein Problem hinweist, ihr Auftreten in diesem Fall in der Tat nicht verbunden oder durch getrennte nicht verbundene Bedingungen verursacht werden kann. Die Indikatoren sollten daher nicht notwendigerweise korreliert werden und es sollte kein Alarm gesendet werden.
  • Unter Bezugnahme auf 3 weist ein erfindungsgemäßes Verfahren Überwachungsgeräte auf, um die Indikatorenzustände in Schritt 40 zu bestimmen. Die Korrelationsmaschine berechnet einen Korrelationsfaktor auf der Grundlage der Zustände der Indikatoren und der gespeicherten Regel in Schritt 42. Das Kantenkorrelationshilfsprogramm vergleicht die Übergänge der Indikatorzustände über mehrere getrennte Zeitperioden für die überwachten Indikatoren in Schritt 44. Die Analyse zeigt das Ausmaß an Koinzidenz der Übergänge der Indikatoren während jeder Zeitperiode auf und wird verwendet, um einen Übergangskorrelationsfaktor in Schritt 46 zu berechnen. Wie unten ausführlicher beschrieben, stellt der Übergangskorrelationsfaktor bei bestimmten Ausführungen das Verhältnis zwischen der Anzahl gemeinsamer Übergänge der Indikatoren im Vergleich zu der Gesamtanzahl von Indikatoren dar. Andere mathematische Faktoren können jedoch verwendet werden, die das Ausmaß der Korrelation zwischen den Übergängen in Indikatorzuständen erfassen, wie der Fachmann erkennt.
  • Der Übergangsfaktor wird an den Korrelationsfaktor angelegt, um einen neuen Korrelationsfaktor in Schritt 48 zu erzeugen. Überschreitet der neue Korrelationsfaktor einen Schwellenwert in Schritt 50, was anzeigt, dass die Korrelation immer noch ausreichend nahe ist, um die Gegenwart des Problems gemäß der Regel anzuzeigen, erzeugt die Korrelationsmaschine eine Warnmeldung und sendet sie an die Netzwerkmanagementplattform in Schritt 52, so dass der Administrator über das potenzielle Problem in Kenntnis gesetzt wird. Dieser Schwellenwert kann aus früherer Erfahrung vorbestimmt und in der Regel festgelegt werden, oder er kann ausgehend von einem vordefinierten Wert, der auf Werten beruht, die in dem hier beschriebenen Übergangskorrelationsprozess vorkommen, erzeugt und angepasst werden. Ein vordefinierter Schwellenwert kann zum Beispiel eingestellt werden, um einen etwas niedrigeren erwarteten Wert des Korrelationsfaktors auf der Grundlage der Anzahl von Indikatoren, die für diese Übergangsanalyse relevant sind, die Anzahl der Zeitscheiben in dem Fenster, die Anzahl der Übergänge oder andere Werte zu berücksichtigen. Überschreitet der neue Korrelationsfaktor den Schwellenwert nicht, wird in Schritt 54 keine solche Warnmeldung gesendet.
  • 4A4B enthalten ein Flussdiagramm, das eine Ausführungsform dieses Prozesses gemeinsam mit einer spezifischen Korrelationstechnik verwendet zeigt. Bei dieser Technik wird ein betreffendes Fenster zum Bestimmen, ob ein Problem auftritt, in eine Anzahl getrennter Zeitscheiben geteilt, und ein Korrelationsfaktor für die Indikatoren in der Regel wird für jede Zeitscheibe erzeugt. Die Korrelationsfaktoren werden dann über das ganze Fenster kombiniert, wie zum Beispiel durch Berechnen eines mittleren Korrelationsfaktors oder eines Verhältnisses wie oft ein Korrelationsfaktor einen Schwellenwert erreicht, geteilt durch die Gesamtanzahl der Zeitscheiben. Diese Technik wird zum Beispiel in dem Programm Netcool®/Visionary von Mircromuse Inc. verwendet.
  • Unter Bezugnahme auf 4 rufen die Zustandsmonitoren die überwachten Netzwerkgeräte oder -anwendungen in Schritt 60 ab. Die Filter bestimmen in Schritt 62, ob irgendeines der überwachten Objekte ein vordefiniertes Schwereniveau erreicht hat und erlauben den überwachten Ereignisdaten nur, zu der Korrelationsmaschine weiterzugehen, wenn ein solches Niveau erreicht ist, um ein Überlasten der Maschine mit Daten zu vermeiden. Die Korrelationsmaschine holt die eine oder mehrere Regeln in Zusammenhang mit dem Objekt, für das eine Schwerebedingung erreicht wurde, in Schritt 64 und holt ferner die Zustandsdaten in Zusammenhang mit den anderen in der Regel referenzierten Objekten in Schritt 66.
  • Da die von den Zustandsmonitoren gesammelten Rohdaten in getrennten Einheiten, die für die Vorrichtung oder Anwendung, die überwacht wird, sind, zum Beispiel die Anzahl der Anweisungen pro Sekunde für eine CPU, Meldungen, die für einen Router geroutet werden, Anforderungen oder Treffer für einen Server usw., ist es erforderlich, die Rohdaten zu normalisieren, so dass ein effektiver Vergleich gemäß der Regel erfolgen kann. Das Mapping der Schwere wird daher auf den gesammelten Zustandsdaten in Schritt 68 ausgeführt, indem die Rohdaten auf vordefinierte Zustände gemäß einer Nachschlagtabelle oder einem ähnlichen Mechanismus für das Gerät oder die Anwendung umgewandelt werden. Das Mapping der Schwere kann einfach die Rohdaten auf einen der zwei Zustände umwandeln, zum Beispiel einen hohen/niedrigen Zustand oder einen Zustand funktioniert/funktioniert nicht, oder kann zusätzliche Abstufungen, die Schichen von Schwere wiedergeben, enthalten.
  • Ein Zeitfenster, während welchem die Indikatoren in der Regel korreliert werden, wird definiert, und dieses Fenster wird in sequenzielle Zeitscheiben in Schritt 70 geteilt. Die Länge jedes Zeitfensters und der Zeitscheiben kann als eine festgelegte Menge für alle Indikatoren eingestellt werden, oder kann in einer bestimmten Regel eingestellt werden, zum Beispiel in der Regel, die definiert, wie viele Indikatoren korrelieren müssen, bevor eine Korrelation festgestellt wird. Wie unten erklärt, beruht die Kantenkorrelation auf einem Konzept von Kanten, die in den gleichen Zeitscheiben übergehen. Kanten gehen jedoch angesichts variierender Abrufintervalle, Antwortzeiten von Zielen usw. nicht immer in der gleichen Zeitscheibe über. Die Maschine stellt daher im Schritt 70 das Timing der Zeitscheibe, die verwendet wird, ein, um diese Messfristen zu berücksichtigen.
  • Diese Einstellung kann auf verschiedene Arten ausgeführt werden. Eine mögliche Art besteht darin, die Größe der Zeitscheibe zu vergrößern, zum Beispiel sechs Sekunden, und ein Zeitscheibeninkrement von drei Sekunden beim Durchführen der Zeitscheibenanalyse zu verwenden. Eine andere Einstelllösung besteht darin, dass die Korrelationsmaschine für jede Zeitscheibe alle der Indikatoren prüft, die sich während dieser Zeitscheibe geändert haben. Unter allen, die sich geändert haben, beginnt die Korrelationsmaschine mit dem Indikator, der sich zuletzt geändert hat und sieht sich die Zeit der letzten Änderung der anderen Indikatoren an. Haben sie sich in die gleiche Richtung in den vergangenen 5 Sekunden von dem Zeitstempel des zuletzt geänderten Indikators geändert, werden sie für das Berechnen des Kantenfaktors als korreliert betrachtet. Diese Lösungen befassen sich mit Kanten, die in verschiedene Zeitscheiben fallen.
  • Um diesen Punkt besser zu veranschaulichen, werden die Optionen nacheinander geprüft. Für alle Optionen werden die folgenden Daten verwendet:
    • • Objekt 1: Übergänge HOCH in Zeit 2, NIEDRIG in Zeit 11, HOCH in Zeit 18, NIEDRIG in Zeit 23
    • • Objekt 2: Übergänge HOCH in Zeit 4, NIEDRIG in Zeit 11, HOCH in Zeit 16, NIEDRIG in Zeit 27
  • Wenn kein Timingeinstellmechanismus verwendet wird, wären von den oben genannten Objekten und Zeitscheiben, die bei t = 1 starten, zwei Zeitscheiben betroffen, die Zeitscheibe (20-24), wenn das Objekt 1 auf niedrig übergeht, und die Zeitscheibe 25–29, wenn das Objekt 2 auf niedrig übergeht. Würden die Zeitscheiben bei der Zeitscheibe 2 starten, wären drei Zeitscheiben von einem Mangel an Kantenkorrelation betroffen. Die Daten für den Gebrauch ohne Timingeinstellmechanismus sind in der unten stehenden Tabelle 1 zusammengefasst:
  • TABELLE I
    Figure 00100001
  • Wenn fraktionale Scheibeninkremente verwendet werden, wäre die erste Zeitscheibe 0–5 und würde zwei Kanten haben, die auf hoch übergehen. Die nächste Scheibe wäre 3–8 und hätte das Objekt 2, das auf hoch übergeht, während das Objekt 1 hoch bleibt. Das wäre ein Kantenfaktor von 0,5 gemäß den unten bereitgestellten Formeln. Die nächste Scheibe wäre 6–11 und hätte beide Kanten, die auf niedrig gehen. Die nächste Scheibe 9–14 hätte beide Kanten, die auf niedrig gehen. Die nächste Scheibe 12–17 hätte das Objekt 2, das auf hoch geht und das Objekt 1, das niedrig bleibt. Die nächste Scheibe wäre 15–20 und hätte beide Kanten, die auf hoch gehen. Die nächste Scheibe 18–23 hätte das Objekt 1, das auf niedrig geht, und das Objekt 2, das auf hoch bleibt. Die nächste Scheibe 21–26 hat eine Kante, die auf niedrig geht. Die nächste Scheibe 24–29 hat das Objekt 2 auf niedrig, das Objekt 1 auf gerade.
  • Es ergeben sich 9 Scheiben, von welchen 5 keine Korrelation zeigten. Diese Anzahl scheint zu hoch zu sein, so dass sie ein Ergebnis von 55 % von Scheiben ohne Korrelation zeigt, was anscheinend nicht den tatsächlichen Umständen entspricht. Wenn die Zeitscheiben bei t = 1 starten an Stelle von t = 0, bleiben nur 3 Scheiben von 9, die keine Korrelation zeigen. Startet man bei t = 3, ergeben sich 5 Scheiben ohne Korrelation, was eine zu hohe und weite Varianz von anderen Startpunktkonfigurationen darstellt. Daten zu bestimmten Ergebnissen sind in der folgenden Tabelle 2 zusammengefasst.
  • TABELLE 2
    Figure 00100002
  • Gemäß dem Verfahren „letzte Ereigniszeit" und wenn die Zeitscheiben bei der Zeit = 0 starten und Zeitscheiben haben in T = 5, 10, 15, 20, 25, 30, gibt es nur eine Zeitscheibe (T = 20–24), bei der eine Kante überging und als nicht korreliert betrachtet wurde. In dieser Zeitscheibe geht das Objekt 1 auf niedrig, aber das Objekt 2 ist immer noch auf hoch. In t = 25–29 geht das Objekt 2 auf niedrig, aber das Objekt 1 scheint nur 4 Sekunden früher auf niedrig übergegangen zu sein. Es kann daher als ein Übergang auf niedrig zum Berechnen des Kantenfaktors dieser Zeitscheibe berücksichtigt werden.
  • Wenn die Zeitscheiben bei t = 2 starten, sind die zusätzlichen Zeitscheiben bei t = 7, 12, 17, 22, 27, 32. In der ersten Zeitscheibe (2–6) gingen beide Kanten auf hoch. In der zweiten Zeitscheibe (7–11) gingen beide Kanten nach niedrig. In der dritten Zeitscheibe (12–16), ging das Objekt 2 auf hoch und das Objekt 1 zeigte einen Übergang auf niedrig 5 Sekunden früher. Das würde einen Kantenfaktor von 0,5 für diese Zeitscheibe schaffen. In der vierten Zeitscheibe (17–21) gab es keine Kanten. In der vierten Zeitscheibe (22–26) ging das Objekt 1 auf niedrig über, und das Objekt 2 blieb auf hoch. Ein Kantenfaktor von 0,5 wird für diese Zeitscheibe berechnet. In der nächsten Zeitscheibe (27–31) ging das Objekt 2 auf niedrig und das Objekt 1 war 4 Sekunden früher auf niedrig übergegangen. Beide sind daher in Korrelation, und der Kantenfaktor für diese Zeitscheibe ist 1.
  • Der Einsatz der Timingeinstelltechnik „letzte Ereigniszeit" stellt die in Tabelle III unten gezeigten Ergebnisse bereit.
  • TABELLE 3
    Figure 00110001
  • Die richtige Handhabung der Zeiteinstellung wahrt die Vorteile der Rauschverringerung der Kantenkorrelation und vermeidet gleichzeitig Ungenauigkeiten willkürlicher Zeitscheibengrenzen. Der Einsatz des Mechanismus „letzte Ereigniszeit" scheint am vorteilhaftesten mit der geringsten Varianz aufgrund der Lage der Zeitscheibengrenze.
  • Wieder unter Bezugnahme auf 4A beginnt das Kantenkorrelationshilfsprogramm den Prozess des Korrelierens von Objekten auf der Grundlage ihrer Übergänge. Es wählt die der Objekte in der Regel aus, welchen Kantenrelevanz zugewiesen wurde, Schritt 74. Das heißt, es wird jedem Objekt ein Faktor in der Regel zugewiesen, der einstellt, ob seine Übergänge relevant sind und in einer Kantenkorrelationsanalyse enthalten sein sollten. Es gibt zum Beispiel bestimmte geschriebene Regeln, die die Gegenwart eines Indikators als Teil der Regel verwenden, aber dieser Indikator geht nicht über und würde daher vom Feuern der Regel abhalten, wenn die Kantenkorrelation an ihn angewandt wird. Die Kantenrelevanz für jedes Objekt wird in der Regel gespeichert.
  • Die folgende Analyse wird dann für jede Zeitscheibe in dem Fenster in Schritt 76 ausgeführt. Die Korrelationsmaschine berechnet einen Korrelationsfaktor auf der Grundlage der Zustandswerte relevanter oder ausgewählter Objekte, Schritt 78. Dieser Korrelationsfaktor kann ein Durchschnitt der Zustandswerte, ein gewichtetes Mittel oder jede erwünschenswerte Berechnung, die in der Regel festgelegt ist, sein. Für jedes ausgewählte Objekt wird in Schritt 80 (4B) der Zustand des Gegenstands in der laufenden Zeitscheibe analysiert, um zu bestimmen, ob der Zustand des Objekts gleich geblieben ist, auf hoch überging oder auf niedrig überging, Schritt 84, da diese Zeitscheiben eventuell wie oben beschrieben eingestellt wurden. Die Analyse kann unter Einsatz bekannter Techniken zum Erfassen von Übergängen in dem Zustand eines Objekts ausgeführt werden, wie zum Beispiel die, die auf häufigem Abrufen oder Messen von Gebrauchsdaten beruhen, wie dies in der gemeinsamen Patentanmeldung Serien-Nr. 09/724 025, Attorney Docket Nr. 3882/3 mit dem Titel „METHOD AND SYSTEM FOR PREDICTING CAUSES OF NETWORK SERVICE OUTAGES USING TIME DOMAIN CORRELATION" beschrieben ist.
  • Alternativ kann das Auftreten von Übergängen bestimmt werden, indem der Zustand des Objekts während oder am Ende der laufenden Zeitscheibe mit seinem Zustand am Ende der unmittelbar vorhergehenden Zeitscheibe verglichen wird, und indem ein Übergang erfasst wird, wenn diese zwei Zustände unterschiedlich sind. Wenn die Schwereskala mehr als zwei Zustände erlaubt, erlaubt dieses Bestimmen eine größere Anzahl möglicher Zustandswechsel. Für jeden Typ von Zustandswechselbestimmung wird eine Zählung geführt, Schritt 86, und das nächste ausgewählte Objekt wird betrachtet, Schritt 88, bis alle relevanten Objekte betrachtet wurden.
  • Das Kantenkorrelationshilfsprogramm berechnet dann einen Kantenkorrelationsfaktor, in Schritt 90, anhand der folgenden Formel:
    Kante cf = Max (Zählung Übergang auf hoch, Zählung Übergang auf niedrig, Zählung gleich geblieben)/(Gesamtanzahl der relevanten Objekte)
  • Diese Formel legt fest, dass der Kantenkorrelationsfaktor den Prozentsatz des stärksten Trends an Objektübergängen gegenüber der Gesamtanzahl von Objekten darstellt. Der Kantenkorrelationsfaktor wird dann mit dem Korrelationsfaktor für die Zeitscheibe in Schritt 92 multipliziert, um einen neuen Korrelationsfaktor zu ergeben, der von dem alten Korrelationsfaktor abgezogen wird, um weniger als die volle Korrelation im Übergang von Objekten während der Zeitscheibe zu berücksichtigen. Dieser Prozess wird für alle Zeitscheiben in dem Fenster in Schritt 94 wiederholt, bis alle solchen Zeitscheiben verarbeitet wurden.
  • Das ergibt einen Satz neuer berechneter Korrelationsfaktoren, einen für jede Zeitscheibe. Ein Gesamtkorrelationsfaktor wird dann in Schritt 96 berechnet. Dieser neue Gesamtkorrelationsfaktor kann als der Durchschnitt der einzelnen neuen Korrelationsfaktoren für die Zeitscheiben berechnet werden. Alternativ findet man den Gesamtfaktor, indem man in jeder Zeitscheibe bestimmt, ob der Faktor der Zeitscheibe einen vorbestimmten Schwellenwert überschreitet und die Regel daher gilt oder „feuert" und man dann addiert, wie oft die Regel während des Zeitfensters feuerte. In beiden Fällen wird der Gesamtkorrelationsfaktor mit einem entsprechenden Schwellenwert in Schritt 98 verglichen, um zu bestimmen, ob in Schritt 100 eine Warnung zu senden ist, oder ob keine Warnung zu senden ist, Schritt 102.
  • Erfindungsgemäß kann es logische Gruppierungen von Indikatoren geben, in welchen erwartet wird, dass sich die Komponenten gemeinsam bewegen, aber es wird nicht erwartet, dass sich die Gruppen selbst notwendigerweise gemeinsam bewegen. Das führt zu Ausführungsformen der vorliegenden Erfindung, die Kantenkorrelationsgruppen berücksichtigen. Das Feld in der Regel, das verwendet wird um anzuzeigen, ob ein Indikator kantenkorreliert werden soll, kann auch verwendet werden, um die Kantenkorrelationsgruppe anzugeben, zu der der Indikator gehört. In dem in Tabelle IV gezeigten Beispiel gehören zum Beispiel die Indikatoren 1–3 zu der Gruppe A, die Indikatoren 4–5 zu der Gruppe B und die Indikatoren 6–7 haben keine Kantenrelevanz. Der Kantenkorrelationsfaktor würde getrennt für die Gruppe „A" und die Gruppe „B" berechnet, und für die Indikatoren 6 und 7 wird keine Kantenkorrelation ausgeführt. Wenn daher 2/3 der Gruppe A korrelieren und 1/2 der Gruppe B korrelieren, wäre der Kantenfaktor gleich 2/3·1/2 = 0,333 an Stelle von 3/5 = 0,600, wenn ohne Gruppierungen berechnet wird.
  • TABELLE 4
    Figure 00130001
  • Unter Bezugnahme auf 5 ist ein Verfahren zum Korrelieren von Kanten für Indikatorengruppen gezeigt. Wie oben ausführlicher beschrieben, werden die Indikatorwerte und Schwereniveaus in Schritt 110 empfangen, wie die entsprechende Regel(n) in Schritt 112. Ausgehend von den Regeln werden die Gruppe oder Gruppen von Indikatoren, wenn überhaupt, in Schritt 114 bestimmt. Der Gebrauch von Gruppen unterstützt verschiedene logische Operationen unter Mitgliedern einer Gruppe, berücksichtigt Unterschiede in der Verarbeitung von Indikatoren über die Gruppen während der Kantenkorrelation. Diese logischen Operationen werden in Schritt 116 angewandt, um Übergangskorrelationsfaktoren für jede Gruppe zu berechnen.
  • Die Korrelationsmaschine führt gemeinsam mit dem Kantenkorrelationshilfsprogramm multivariable Korrelation für jede Zeitscheibe aus, darunter Berücksichtigen von Übergängen durch Anlegen von Übergangskorrelationsfaktoren, die auf einer Gruppenbasis in Schritt 118 gefunden wurden. Wenn nur eine Gruppe in einer gegebenen Zeitscheibe in Schritt 120 gegenwärtig ist, wird der neue Korrelationsfaktor, der für diese Gruppe gefunden wurde, der Faktor, der für diese Zeitscheibe verwendet wird. Ist mehr als eine Gruppe gegenwärtig, werden die neuen Korrelationsfaktoren, die für jede Gruppe gefunden wurden, multipliziert, um den Faktor zu ergeben, der für die Zeitscheibe zu verwenden ist, Schritt 122. Das Kombinieren dieser Faktoren geht dann wie oben beschrieben weiter.
  • 611 veranschaulichen verschiedene Beispiele des Einsatzes der Kantenkorrelation zum Reduzieren der Wahrscheinlichkeit von Falschalarmen. Die in diesen Beispielen verwendete Formel ist im Wesentlichen die gleiche wie oben:
    newcf = (max(Indikatorenhoch, Indikatorenniedrig, gleicheIndikatoren)/AnzahlIndikatoren)A·[max(Indikatorenhoch, Indikatorenniedrig, gleiche Indikatoren)/AnzahlIndikatoren)B]·cf wobei
    newcf den neuen Korrelationsfaktor darstellt, zum Beispiel für eine gegebene Zeitscheibe, nach dem Anwenden der hier beschriebenen Kantenkorrelationsmethodik.
  • Indikatorenhoch, Indikatorenniedrig und gleicheIndikatoren die Anzahl von Zustandswechseln des Typs auf hoch auf niedrig oder gleichbleibend (kein Wechsel) für Indikatoren mit Kantenrelevanz in einer Regel darstellen, zum Beispiel in einer gegebenen Zeitscheibe, AnzahlIndikatoren die Gesamtanzahl der Indikatoren mit Kantenrelevanz in einer Regel darstellt, zum Beispiel in einer gegebenen Zeitscheibe, und cf den Basiskorrelationsfaktor darstellt, der anhand multivariabler Korrelationstechniken wie den hier beschriebenen gefunden wurde.
  • Für diese Beispiele überwacht die Regel 3 Indikatoren, wobei jeder Indikator einen Kantenrelevanzfaktor (rf) von 1 hat. Diese Indikatoren haben entweder das Schwereniveau (sev) 1 oder sev 0, und das Sev Skalenmapping markiert einen sev 1 auf einen Wert von 1 und einen sev 0 auf einen Wert von 0. Die Berechnung, die von dem Kantenkorrelationshilfsprogramm ausgeführt wird, beginnt mit der Zeitscheibe 0, um die Übergänge auf die Zeitscheibe zu sehen und den mittleren cf auf den Zeitscheiben 1–10 zu berechnen.
  • 6 veranschaulicht, dass eine Regel, die mit 100 % ohne Kanten feuert, von der Kantenkorrelationsberechnung nicht beeinflusst wird.
  • 7 veranschaulicht, dass eine Regel mit allen Indikatoren aufeinander folgend von der Kantenkorrelation nicht beeinflusst wird.
  • 8 veranschaulicht, dass die Regel aufgrund eines Mangels an kompletter Übergangskorrelation in den Zeitscheiben 3, 7 und 10 geschwächt ist, aber immer noch feuert, wenn die Indikatoren aufeinander folgen und nicht viele Kanten vorhanden sind.
  • 9 zeigt, dass in einer Situation, in der ein Indikator auf hoch bleibt, ein anderer zwischen hoch und niedrig alterniert und der dritte alterniert (meistens OFF), die Regel ohne Kantenkorrelation gefeuert hätte, aber der Einsatz von Kantenkorrelationstechniken wie sie hier beschrieben sind, hat cf unter dem Feuerschwellenwert verringert.
  • 10 zeigt an, dass Kanten erforderlich sind, damit eine Kantenkorrelation die stärkste Auswirkung hat. Die Regel würde bei 66,66 % ohne Kantenkorrelation feuern (da 2/3 der Indikatoren immer auf hoch stehen), aber nur mit 62,22 % mit Kantenkorrelation. Das Beispiel veranschaulicht, dass Kantenkorrelation am effektivsten ist, wenn die Indikatoren häufiger übergehen.
  • 11 veranschaulicht die Effektivität der Kantenkorrelation gut. Bei Simulation einer lauten Umgebung sieht man, dass die Regel anderenfalls mit einem mittlerem cf von 80 gefeuert hätte, aber die Kantenkorrelation verringert den Wert auf einen Newmean cf von 51,11. Wäre das Fenster größer und wären mehr Kanten vorhanden, wäre dieser Newmean cf sogar noch niedriger.

Claims (15)

  1. Verfahren zum Verbessern einer Diagnose in einem Fehlerkorrelationssystem, wobei eine Vielzahl von Indikatoren (#1, #2, #3) über einem Zeitfenster korreliert sind, wobei das Zeitfenster eine Vielzahl von Zeitscheiben umfasst, wobei in jedem davon ein Zustand von jedem Indikator bestimmt wird (40), wobei das Verfahren die folgenden Schritte umfasst: Bestimmen (44), welcher Indikator oder welche Indikatoren einen Zustand während einer ersten Zeitscheibe in dem Fenster geändert hat/haben, und welcher Indikator oder welche Indikatoren einen Zustand während der ersten Zeitscheibe nicht geändert haben; Berechnen (46) eines Zeitscheiben-Übergangsfaktors auf Grundlage einer Anzahl von Indikatoren, deren Zustand sich geändert hat, und einer Anzahl von Indikatoren, deren Zustand sich nicht während der ersten Zeitscheibe geändert hat; und Einstellen (48) der Korrelation der Indikatoren über dem Zeitfenster unter Verwendung des Zeitscheiben-Übergangsfaktors.
  2. Verfahren nach Anspruch 1, wobei eine Bestimmung von Zustandsänderungen in jedem der Indikatoren eine Bestimmung der Zustandsänderungen von jedem Indikator in jeder einer Vielzahl von Zeitscheiben in dem Fenster umfasst.
  3. Verfahren nach Anspruch 2, wobei die Berechnung eines Zeitscheiben-Übergangsfaktors eine Berechnung einer Vielzahl von Zeitscheiben-Übergangsfaktoren umfasst, und wobei eine Einstellung der Korrelation der Indikatoren eine Einstellung der Korrelation unter Verwendung der Vielzahl von Zeitscheiben-Übergangsfaktoren umfasst.
  4. Verfahren nach Anspruch 1, wobei das Bestimmung von Zustandsänderungen ein Vergleichen des Zustands von jedem der Indikatoren in der ersten Zeitscheibe mit dem Zustand des jeweiligen Indikators in einer zweiten Zeitscheibe, die der ersten Zeitscheibe vorausgeht, umfasst.
  5. Verfahren nach Anspruch 4, wobei die zweite Zeitscheibe der ersten Zeitscheibe unmittelbar vorausgeht.
  6. Verfahren nach Anspruch 1, wobei Indikatoren eine Vielzahl von möglichen Zuständen aufweisen, die einen niedrigen Zustand und einen hohen Zustand einschließen, und wobei eine Bestimmung von Zustandsänderungen in den Indikatoren in der ersten Zeitscheibe eine Bestimmung umfasst, welcher Indikator oder welche Indikatoren einen Zustand von niedrig nach hoch geändert hat/haben und welcher Indikator oder welche Indikatoren einen Zustand von hoch nach niedrig geändert hat/haben.
  7. Verfahren nach Anspruch 6, wobei eine Berechnung des Zeitscheiben-Übergangsfaktors eine Berechnung des Übergangsfaktors ferner auf Grundlage einer Anzahl von Indikatoren, deren Zustand sich von niedrig nach hoch geändert hat, und eine Anzahl von Indikatoren, deren Zustand sich von hoch nach niedrig geändert hat, umfasst.
  8. Verfahren nach Anspruch 7, wobei eine Berechnung des Zeitscheiben-Übergangsfaktors eine Identifikation eines Maximums unter der Anzahl von Indikatoren, deren Zustand sich nicht geändert hat, der Anzahl von Indikatoren, deren Zustand sich von niedrig nach hoch geändert hat und der Anzahl von Indikatoren, deren Zustand sich von hoch nach niedrig geändert hat, und ein Teilen des Maximums durch die Anzahl von Indikatoren, umfasst.
  9. Verfahren nach Anspruch 1, wobei Indikatoren auf Grundlage der Zustände der Indikatoren in jeder Zeitscheibe korreliert werden, und wobei eine Einstellung der Korrelation ein Anwenden des Zeitscheiben-Übergangsfaktors auf die Korrelation für den ersten Zeitschlitz umfasst.
  10. Verfahren nach Anspruch 1, wobei die Indikatoren in zwei oder mehreren Gruppen von Indikatoren in Gruppen eingeteilt sind, und wobei eine Berechnung des Zeitscheiben-Übergangsfaktors eine Berechnung eines Zeitscheiben-Übergangsfaktors für jede Gruppe auf Grundlage der Anzahl von Indikatoren in jeder Gruppe, deren Zustand sich während der Zeitscheibe geändert hat oder nicht geändert hat, umfasst.
  11. Verfahren nach Anspruch 1, wobei eine Bestimmung von Indikatorzustandsänderungen ein Einstellen der ersten Zeitscheibe, um mögliche Verzögerungen beim Bestimmen von Zuständen der Indikatoren zu berücksichtigen, umfasst.
  12. Verfahren nach Anspruch 11, wobei eine Einstellung der ersten Zeitscheibe, um mögliche Verzögerungen zu berücksichtigen, die folgenden Schritte umfasst: Bestimmnen welcher Indikator, wenn überhaupt, einen Zustand zuletzt in der Zeit während der ersten Zeitscheibe geändert hat; Bestimmen, ob irgend welche anderen Indikatoren einen Zustand während einer vordefinierten Periode, die der Zeit einer letzten Indikatorzustandsänderung vorausgeht, einen Zustand geändert haben; und Betrachten von derartigen anderen Indikatoren, deren Zustand sich während der vordefinierten Periode geändert hat, so als ob sie während der ersten Zeitscheibe aufgetreten ist.
  13. Verfahren nach Anspruch 12 umfassend ein Speichern eines Übergangsrelevanzfaktors in Assoziation mit jedem Indikator, der darstellt, ob der Indikator relevant ist, und wobei eine Bestimmung von Zustandsänderungen eine Bestimmnung der Änderungen nur für relevante Indikatoren umfasst.
  14. Verfahren nach irgend einem Anspruch zum Verringern von Falschalarmen in einem System zum Analysieren von Fehlern in Einrichtungen durch Korrelieren der Vielzahl von Indikatoren über dem Zeitfenster und Erzeugen von Alarmen auf Grundlage der Korrelation, wobei der Schritt zum Berechnen eines Zeitscheiben-Übergangsfaktors die Anzahl der Indikatoren, deren Zustand sich geändert hat oder nicht geändert hat während der ersten Zeitscheibe, mit der Gesamtanzahl von Indikatoren in Beziehung setzt.
  15. Ein von einem Computer lesbares Medium, welches einen Programmcode speichert, der dann, wenn er ausgeführt wird, einen Computer veranlasst, das Verfahren zum Verringern von Falschalarmen gemäß sämtlicher Schritte des Anspruchs 14 auszuführen.
DE60214994T 2001-03-22 2002-03-21 Verfahren und system zur verringerung von falschalarmen in netzwerkfehlermanagementsystemen Expired - Lifetime DE60214994T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US815557 2001-03-22
US09/815,557 US6966015B2 (en) 2001-03-22 2001-03-22 Method and system for reducing false alarms in network fault management systems
PCT/US2002/008902 WO2002078262A1 (en) 2001-03-22 2002-03-21 Method and system for reducing false alarms in network fault management systems

Publications (2)

Publication Number Publication Date
DE60214994D1 DE60214994D1 (de) 2006-11-09
DE60214994T2 true DE60214994T2 (de) 2007-06-14

Family

ID=25218152

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60214994T Expired - Lifetime DE60214994T2 (de) 2001-03-22 2002-03-21 Verfahren und system zur verringerung von falschalarmen in netzwerkfehlermanagementsystemen

Country Status (5)

Country Link
US (2) US6966015B2 (de)
EP (1) EP1382155B1 (de)
AT (1) ATE341136T1 (de)
DE (1) DE60214994T2 (de)
WO (1) WO2002078262A1 (de)

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002109211A (ja) * 2000-09-28 2002-04-12 Fujitsu Ltd 運用管理方法,運用管理装置,記録媒体,運用管理システム
US7233998B2 (en) 2001-03-22 2007-06-19 Sony Computer Entertainment Inc. Computer architecture and software cells for broadband networks
US6966015B2 (en) * 2001-03-22 2005-11-15 Micromuse, Ltd. Method and system for reducing false alarms in network fault management systems
US6832346B2 (en) 2001-04-13 2004-12-14 Lockheed Martin Corporation System and method for managing and communicating state changes of a complex system
US20030131343A1 (en) * 2001-10-19 2003-07-10 French Ronan J. Framework for system monitoring
US7437450B1 (en) 2001-11-30 2008-10-14 Cisco Technology Inc. End-to-end performance tool and method for monitoring electronic-commerce transactions
US7149917B2 (en) * 2002-07-30 2006-12-12 Cisco Technology, Inc. Method and apparatus for outage measurement
US20040049570A1 (en) * 2002-09-17 2004-03-11 Frank Ed H. Method and system for network management in a hybrid wired/wireless network
US7434109B1 (en) * 2002-09-26 2008-10-07 Computer Associates Think, Inc. Network fault manager for maintaining alarm conditions
US20040153844A1 (en) * 2002-10-28 2004-08-05 Gautam Ghose Failure analysis method and system for storage area networks
US7607169B1 (en) 2002-12-02 2009-10-20 Arcsight, Inc. User interface for network security console
US7650638B1 (en) 2002-12-02 2010-01-19 Arcsight, Inc. Network security monitoring system employing bi-directional communication
US7899901B1 (en) 2002-12-02 2011-03-01 Arcsight, Inc. Method and apparatus for exercising and debugging correlations for network security system
US8176527B1 (en) 2002-12-02 2012-05-08 Hewlett-Packard Development Company, L. P. Correlation engine with support for time-based rules
US7788722B1 (en) 2002-12-02 2010-08-31 Arcsight, Inc. Modular agent for network security intrusion detection system
US7219239B1 (en) 2002-12-02 2007-05-15 Arcsight, Inc. Method for batching events for transmission by software agent
US7376969B1 (en) 2002-12-02 2008-05-20 Arcsight, Inc. Real time monitoring and analysis of events from multiple network security devices
US20040111638A1 (en) * 2002-12-09 2004-06-10 Satyendra Yadav Rule-based network survivability framework
US7131032B2 (en) * 2003-03-13 2006-10-31 Sun Microsystems, Inc. Method, system, and article of manufacture for fault determination
US7257744B2 (en) * 2003-03-17 2007-08-14 Tyco Telecommunications (Us) Inc. System and method for fault diagnosis using distributed alarm correlation
US7260844B1 (en) 2003-09-03 2007-08-21 Arcsight, Inc. Threat detection in a network security system
US7475257B2 (en) 2003-09-25 2009-01-06 International Business Machines Corporation System and method for selecting and using a signal processor in a multiprocessor system to operate as a security for encryption/decryption of data
US7444632B2 (en) 2003-09-25 2008-10-28 International Business Machines Corporation Balancing computational load across a plurality of processors
US7146529B2 (en) * 2003-09-25 2006-12-05 International Business Machines Corporation System and method for processor thread acting as a system service processor
US20050071578A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation System and method for manipulating data with a plurality of processors
US7516456B2 (en) * 2003-09-25 2009-04-07 International Business Machines Corporation Asymmetric heterogeneous multi-threaded operating system
US7389508B2 (en) 2003-09-25 2008-06-17 International Business Machines Corporation System and method for grouping processors and assigning shared memory space to a group in heterogeneous computer environment
US7236998B2 (en) * 2003-09-25 2007-06-26 International Business Machines Corporation System and method for solving a large system of dense linear equations
US7318218B2 (en) * 2003-09-25 2008-01-08 International Business Machines Corporation System and method for processor thread for software debugging
US7496917B2 (en) * 2003-09-25 2009-02-24 International Business Machines Corporation Virtual devices using a pluarlity of processors
US7478390B2 (en) 2003-09-25 2009-01-13 International Business Machines Corporation Task queue management of virtual devices using a plurality of processors
US7415703B2 (en) 2003-09-25 2008-08-19 International Business Machines Corporation Loading software on a plurality of processors
US20050071828A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation System and method for compiling source code for multi-processor environments
US7549145B2 (en) 2003-09-25 2009-06-16 International Business Machines Corporation Processor dedicated code handling in a multi-processor environment
US7523157B2 (en) 2003-09-25 2009-04-21 International Business Machines Corporation Managing a plurality of processors as devices
US9027120B1 (en) 2003-10-10 2015-05-05 Hewlett-Packard Development Company, L.P. Hierarchical architecture in a network security system
US8015604B1 (en) 2003-10-10 2011-09-06 Arcsight Inc Hierarchical architecture in a network security system
US7333999B1 (en) 2003-10-30 2008-02-19 Arcsight, Inc. Expression editor
US7500152B2 (en) 2003-12-05 2009-03-03 Freescale Semiconductor, Inc. Apparatus and method for time ordering events in a system having multiple time domains
US7398511B2 (en) * 2003-12-10 2008-07-08 Microsoft Corporation System and method for providing a health model for software
US7565696B1 (en) 2003-12-10 2009-07-21 Arcsight, Inc. Synchronizing network security devices within a network security system
US7409604B2 (en) * 2003-12-19 2008-08-05 Microsoft Corporation Determination of related failure events in a multi-node system
US8528077B1 (en) 2004-04-09 2013-09-03 Hewlett-Packard Development Company, L.P. Comparing events from multiple network security devices
US7509677B2 (en) 2004-05-04 2009-03-24 Arcsight, Inc. Pattern discovery in a network security system
TWI262758B (en) * 2004-05-07 2006-09-21 Coretronic Corp Ventilation cover structure
US7480828B2 (en) * 2004-06-10 2009-01-20 International Business Machines Corporation Method, apparatus and program storage device for extending dispersion frame technique behavior using dynamic rule sets
US20060168170A1 (en) * 2004-10-25 2006-07-27 Korzeniowski Richard W System and method for analyzing information relating to network devices
US7408440B2 (en) 2004-10-25 2008-08-05 Electronics Data Systems Corporation System and method for analyzing message information from diverse network devices
US7408441B2 (en) * 2004-10-25 2008-08-05 Electronic Data Systems Corporation System and method for analyzing user-generated event information and message information from network devices
US7644438B1 (en) 2004-10-27 2010-01-05 Arcsight, Inc. Security event aggregation at software agent
US7424742B1 (en) 2004-10-27 2008-09-09 Arcsight, Inc. Dynamic security events and event channels in a network security system
US9100422B1 (en) 2004-10-27 2015-08-04 Hewlett-Packard Development Company, L.P. Network zone identification in a network security system
US7809131B1 (en) 2004-12-23 2010-10-05 Arcsight, Inc. Adjusting sensor time in a network security system
US7647632B1 (en) 2005-01-04 2010-01-12 Arcsight, Inc. Object reference in a system
US8850565B2 (en) * 2005-01-10 2014-09-30 Hewlett-Packard Development Company, L.P. System and method for coordinating network incident response activities
US7844999B1 (en) 2005-03-01 2010-11-30 Arcsight, Inc. Message parsing in a network security system
EP1703350B1 (de) * 2005-03-17 2019-05-08 Siemens Aktiengesellschaft Diagnose eines Automatisierungssystems
US7295950B2 (en) * 2005-06-23 2007-11-13 International Business Machines Corporation Monitoring multiple channels of data from real time process to detect recent abnormal behavior
US20070016687A1 (en) * 2005-07-14 2007-01-18 International Business Machines Corporation System and method for detecting imbalances in dynamic workload scheduling in clustered environments
US7484121B2 (en) 2005-08-30 2009-01-27 International Business Machines Corporation Self-aware and self-healing computing system
JP4527642B2 (ja) * 2005-09-29 2010-08-18 富士通株式会社 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
US7774657B1 (en) * 2005-09-29 2010-08-10 Symantec Corporation Automatically estimating correlation between hardware or software changes and problem events
EP1783569B1 (de) * 2005-10-21 2018-08-29 Omron Corporation Datenerfassungssystem
US20070233848A1 (en) * 2006-03-28 2007-10-04 International Business Machines Corporation Monitor management that enables enhanced data collection
US7437359B2 (en) 2006-04-05 2008-10-14 Arcsight, Inc. Merging multiple log entries in accordance with merge properties and mapping properties
US8230051B1 (en) 2006-06-27 2012-07-24 Emc Corporation Method and apparatus for mapping and identifying resources for network-based services
US7779101B1 (en) * 2006-06-27 2010-08-17 Emc Corporation Method and apparatus for mapping and identifying the root causes of performance problems in network-based services
US8195478B2 (en) * 2007-03-07 2012-06-05 Welch Allyn, Inc. Network performance monitor
US7788415B2 (en) * 2007-05-28 2010-08-31 Sandisk Il Ltd. Management of internal operations by a storage device
US8013738B2 (en) 2007-10-04 2011-09-06 Kd Secure, Llc Hierarchical storage manager (HSM) for intelligent storage of large volumes of data
WO2009045218A1 (en) 2007-10-04 2009-04-09 Donovan John J A video surveillance, storage, and alerting system having network management, hierarchical data storage, video tip processing, and vehicle plate analysis
US8769346B2 (en) * 2007-11-21 2014-07-01 Ca, Inc. Method and apparatus for adaptive declarative monitoring
CN102067519A (zh) * 2007-11-21 2011-05-18 阿尔卡特朗讯 基于角色的网络服务管理
US8041996B2 (en) * 2008-01-11 2011-10-18 Alcatel Lucent Method and apparatus for time-based event correlation
US8447719B2 (en) * 2008-01-14 2013-05-21 Hewlett-Packard Development Company, L.P. Compilation of causal rules into continuations
US20090183030A1 (en) * 2008-01-14 2009-07-16 Bethke Bob Episodic cause analysis
US8180718B2 (en) * 2008-01-14 2012-05-15 Hewlett-Packard Development Company, L.P. Engine for performing root cause and effect analysis
US8605601B2 (en) * 2008-03-14 2013-12-10 Telefonaktiebolaget L M Ericsson (Publ) Alarm and event coordination between telecom nodes
US20090254814A1 (en) * 2008-04-08 2009-10-08 Microsoft Corporation Per-edge rules and constraints-based layout mechanism
US8112378B2 (en) 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP5325981B2 (ja) * 2009-05-26 2013-10-23 株式会社日立製作所 管理サーバ及び管理システム
US8375255B2 (en) * 2009-12-23 2013-02-12 At&T Intellectual Property I, Lp Device and method for detecting and diagnosing correlated network anomalies
JP2011155388A (ja) * 2010-01-26 2011-08-11 Hitachi Ltd 障害表示方法、障害設定装置及び監視制御装置
EP2579156B1 (de) * 2010-06-07 2019-08-28 Nec Corporation Vorrichtung zur erkennung von fehlfunktionen, verfahren zur erkennung von hindernissen und programmaufzeichnungsmedium
US8571182B2 (en) * 2010-09-22 2013-10-29 Fujitsu Limited Systems and methods of masking non-service affecting alarms in a communication system
US8464102B2 (en) * 2010-12-23 2013-06-11 GM Global Technology Operations LLC Methods and systems for diagnosing hardware and software faults using time-stamped events
US8380838B2 (en) * 2011-04-08 2013-02-19 International Business Machines Corporation Reduction of alerts in information technology systems
DE112012002532T5 (de) 2011-08-10 2014-04-03 International Business Machines Corp. Netzwerk-Verwaltungssystem
US9251032B2 (en) * 2011-11-03 2016-02-02 Fujitsu Limited Method, computer program, and information processing apparatus for analyzing performance of computer system
US9727736B1 (en) * 2014-10-17 2017-08-08 Amazon Technologies, Inc. Tracking developer behavior with respect to software analysis tools
US10726711B2 (en) 2017-05-01 2020-07-28 Johnson Controls Technology Company Building security system with user presentation for false alarm reduction
US11126528B2 (en) * 2018-06-26 2021-09-21 Jpmorgan Chase Bank, N.A. Methods for generating a branch health index
US10958509B2 (en) * 2018-10-11 2021-03-23 Ca, Inc. Providing a new server alarm configuration based on the correlation of server alarms for varying metrics of monitored servers
US10607476B1 (en) 2019-03-28 2020-03-31 Johnson Controls Technology Company Building security system with site risk reduction
US10607478B1 (en) * 2019-03-28 2020-03-31 Johnson Controls Technology Company Building security system with false alarm reduction using hierarchical relationships
KR20200138565A (ko) * 2019-05-31 2020-12-10 삼성전자주식회사 통신 네트워크에서 복수의 원격 무선 헤드들을 관리하기 위한 방법 및 장치
US11099921B2 (en) 2019-07-09 2021-08-24 Microsoft Technology Licensing, Llc Predictive system resource allocation
US10891849B1 (en) 2019-07-09 2021-01-12 Microsoft Technology Licensing, Llc System for suppressing false service outage alerts
US11088980B1 (en) * 2020-11-10 2021-08-10 Micron Technology, Inc. Single message management platform
WO2023219603A1 (en) * 2022-05-10 2023-11-16 Rakuten Symphony Singapore Pte. Ltd. Apparatus and method for centralized fault monitoring

Family Cites Families (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4135662A (en) * 1977-06-15 1979-01-23 Pitney-Bowes, Inc. Operator prompting system
US4438494A (en) * 1981-08-25 1984-03-20 Intel Corporation Apparatus of fault-handling in a multiprocessing system
US4503535A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for recovery from failures in a multiprocessing system
US4503534A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for redundant operation of modules in a multiprocessing system
US4585975A (en) * 1983-04-21 1986-04-29 Tektronix, Inc. High speed Boolean logic trigger oscilloscope vertical amplifier with edge sensitivity and nested trigger
US4634110A (en) 1983-07-28 1987-01-06 Harris Corporation Fault detection and redundancy management system
US4568909A (en) * 1983-12-19 1986-02-04 United Technologies Corporation Remote elevator monitoring system
US4517468A (en) * 1984-04-30 1985-05-14 Westinghouse Electric Corp. Diagnostic system and method
US4648044A (en) * 1984-06-06 1987-03-03 Teknowledge, Inc. Basic expert system tool
US4591983A (en) * 1984-07-09 1986-05-27 Teknowledge, Inc. Hierarchical knowledge system
US4727545A (en) * 1986-09-02 1988-02-23 Digital Equipment Corporation Method and apparatus for isolating faults in a digital logic circuit
US4932026A (en) * 1986-12-19 1990-06-05 Wang Laboratories, Inc. Apparatus for distributing data processing across a plurality of loci of control
US4805107A (en) * 1987-04-15 1989-02-14 Allied-Signal Inc. Task scheduler for a fault tolerant multiple node processing system
US4823345A (en) * 1987-06-15 1989-04-18 International Business Machines Corp. Method and apparatus for communication network alert record identification
JPH0786833B2 (ja) * 1987-06-26 1995-09-20 株式会社日立製作所 知識ベ−ス管理システム
US4817092A (en) * 1987-10-05 1989-03-28 International Business Machines Threshold alarms for processing errors in a multiplex communications system
US5133075A (en) * 1988-12-19 1992-07-21 Hewlett-Packard Company Method of monitoring changes in attribute values of object in an object-oriented database
US5109486A (en) * 1989-01-06 1992-04-28 Motorola, Inc. Distributed computer system with network and resource status monitoring
US5125091A (en) * 1989-06-08 1992-06-23 Hazox Corporation Object oriented control of real-time processing
US5107497A (en) * 1989-07-28 1992-04-21 At&T Bell Laboratories Technique for producing an expert system for system fault diagnosis
US5123017A (en) * 1989-09-29 1992-06-16 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Remote maintenance monitoring system
JP2810171B2 (ja) * 1989-12-18 1998-10-15 株式会社日立製作所 ネットワークシステム及びこれを適用するネットワーク管理方法
US5727157A (en) * 1990-09-17 1998-03-10 Cabletron Systems, Inc. Apparatus and method for determining a computer network topology
US5751933A (en) * 1990-09-17 1998-05-12 Dev; Roger H. System for determining the status of an entity in a computer network
DE69126666T2 (de) * 1990-09-17 1998-02-12 Cabletron Systems Inc Netzwerkverwaltungssystem mit modellbasierter intelligenz
US5722427A (en) * 1993-05-10 1998-03-03 Eyesys Technologies, Inc. Method of refractive surgery
US5295244A (en) * 1990-09-17 1994-03-15 Cabletron Systems, Inc. Network management system using interconnected hierarchies to represent different network dimensions in multiple display views
US5214653A (en) * 1990-10-22 1993-05-25 Harris Corporation Fault finder expert system
US5293629A (en) * 1990-11-30 1994-03-08 Abraxas Software, Inc. Method of analyzing computer source code
US5325518A (en) 1991-04-02 1994-06-28 Carnegie Mellon University Adaptive distributed system and method for fault tolerance
US5774377A (en) 1991-07-30 1998-06-30 Hewlett-Packard Company Method and apparatus for monitoring a subsystem within a distributed system for providing an archive of events within a certain time of a trap condition
US5179556A (en) * 1991-08-02 1993-01-12 Washington University Bandwidth management and congestion control scheme for multicast ATM networks
US5321837A (en) * 1991-10-11 1994-06-14 International Business Machines Corporation Event handling mechanism having a process and an action association process
US5293323A (en) 1991-10-24 1994-03-08 General Electric Company Method for fault diagnosis by assessment of confidence measure
US5309448A (en) * 1992-01-03 1994-05-03 International Business Machines Corporation Methods and systems for alarm correlation and fault localization in communication networks
US5383178A (en) 1992-03-26 1995-01-17 Hewlett-Packard Company Network commentator
US5495470A (en) * 1992-04-02 1996-02-27 Applied Digital Access, Inc. Alarm correlation system for a telephone network
US5819028A (en) 1992-06-10 1998-10-06 Bay Networks, Inc. Method and apparatus for determining the health of a network
DE69410447T2 (de) 1993-02-23 1998-10-08 British Telecomm Ereigniskorrelation
GB9303640D0 (en) 1993-02-23 1993-04-07 British Telecomm Object-oriented correlation
US6049792A (en) 1993-03-19 2000-04-11 Ricoh Company Limited Automatic invocation of computational resources without user intervention across a network
US5557747A (en) 1993-06-22 1996-09-17 Rogers; Lawrence D. Network policy implementation system for performing network control operations in response to changes in network state
US5432934A (en) * 1993-07-26 1995-07-11 Gensym Corporation Access restrictions as a means of configuring a user interface and making an application secure
US5390188A (en) 1993-08-02 1995-02-14 Synoptics Method and apparatus for measuring and monitoring the performance within a ring communication network
US5485455A (en) * 1994-01-28 1996-01-16 Cabletron Systems, Inc. Network having secure fast packet switching and guaranteed quality of service
US5528516A (en) 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US5483637A (en) * 1994-06-27 1996-01-09 International Business Machines Corporation Expert based system and method for managing error events in a local area network
EP0788690A1 (de) * 1994-10-25 1997-08-13 Cabletron Systems, Inc. Verfahren und vorrichtung zur automatischen besiedelung eines netzwerksimulators
US6006016A (en) 1994-11-10 1999-12-21 Bay Networks, Inc. Network fault correlation
US5748781A (en) * 1995-01-04 1998-05-05 Cabletron Systems, Inc. Method and apparatus for digital data compression
US5627819A (en) * 1995-01-09 1997-05-06 Cabletron Systems, Inc. Use of multipoint connection services to establish call-tapping points in a switched network
US6209033B1 (en) * 1995-02-01 2001-03-27 Cabletron Systems, Inc. Apparatus and method for network capacity evaluation and planning
US5706436A (en) * 1995-02-01 1998-01-06 Cabletron Systems, Inc. Apparatus and method for evaluation network traffic performance
US5872928A (en) * 1995-02-24 1999-02-16 Cabletron Systems, Inc. Method and apparatus for defining and enforcing policies for configuration management in communications networks
US5777549A (en) * 1995-03-29 1998-07-07 Cabletron Systems, Inc. Method and apparatus for policy-based alarm notification in a distributed network management environment
US6255943B1 (en) * 1995-03-29 2001-07-03 Cabletron Systems, Inc. Method and apparatus for distributed object filtering
US6421719B1 (en) * 1995-05-25 2002-07-16 Aprisma Management Technologies, Inc. Method and apparatus for reactive and deliberative configuration management
US6381639B1 (en) * 1995-05-25 2002-04-30 Aprisma Management Technologies, Inc. Policy management and conflict resolution in computer networks
US5889953A (en) * 1995-05-25 1999-03-30 Cabletron Systems, Inc. Policy management and conflict resolution in computer networks
US5649103A (en) * 1995-07-13 1997-07-15 Cabletron Systems, Inc. Method and apparatus for managing multiple server requests and collating reponses
US5764955A (en) * 1995-10-19 1998-06-09 Oasys Group, Inc. Gateway for using legacy telecommunications network element equipment with a common management information protocol
US5793362A (en) * 1995-12-04 1998-08-11 Cabletron Systems, Inc. Configurations tracking system using transition manager to evaluate votes to determine possible connections between ports in a communications network in accordance with transition tables
US5949759A (en) 1995-12-20 1999-09-07 International Business Machines Corporation Fault correlation system and method in packet switching networks
US5734642A (en) * 1995-12-22 1998-03-31 Cabletron Systems, Inc. Method and apparatus for network synchronization
US5872911A (en) 1995-12-29 1999-02-16 Mci Communications Corporations Method and system of service impact analysis in a communications network
US5761502A (en) 1995-12-29 1998-06-02 Mci Corporation System and method for managing a telecommunications network by associating and correlating network events
US6233623B1 (en) * 1996-01-11 2001-05-15 Cabletron Systems, Inc. Replicated resource management system for managing resources in a distributed application and maintaining a relativistic view of state
US6199172B1 (en) * 1996-02-06 2001-03-06 Cabletron Systems, Inc. Method and apparatus for testing the responsiveness of a network device
US5751965A (en) * 1996-03-21 1998-05-12 Cabletron System, Inc. Network connection status monitor and display
US6118936A (en) 1996-04-18 2000-09-12 Mci Communications Corporation Signaling network management system for converting network events into standard form and then correlating the standard form events with topology and maintenance information
US5768501A (en) * 1996-05-28 1998-06-16 Cabletron Systems Method and apparatus for inter-domain alarm correlation
US5946373A (en) * 1996-06-21 1999-08-31 Mci Communications Corporation Topology-based fault analysis in telecommunications networks
US5832196A (en) 1996-06-28 1998-11-03 Mci Communications Corporation Dynamic restoration process for a telecommunications network
US5907696A (en) * 1996-07-03 1999-05-25 Cabletron Systems, Inc. Network device simulator
US6041383A (en) * 1996-07-22 2000-03-21 Cabletron Systems, Inc. Establishing control of lock token for shared objects upon approval messages from all other processes
JP3825845B2 (ja) * 1996-09-27 2006-09-27 ヤマハ発動機株式会社 進化的制御方式
US6012152A (en) 1996-11-27 2000-01-04 Telefonaktiebolaget Lm Ericsson (Publ) Software fault management system
US5984178A (en) 1996-11-29 1999-11-16 Diebold, Incorporated Fault monitoring and notification system for automated banking machines
US6084858A (en) * 1997-01-29 2000-07-04 Cabletron Systems, Inc. Distribution of communication load over multiple paths based upon link utilization
US5791694A (en) * 1997-02-20 1998-08-11 Dover Corporation Lock for coupling cam arms
US6216168B1 (en) * 1997-03-17 2001-04-10 Cabletron Systems, Inc. Perspective-based shared scope address resolution method and apparatus
US6392667B1 (en) * 1997-06-09 2002-05-21 Aprisma Management Technologies, Inc. Method and apparatus for representing objects as visually discernable entities based on spatial definition and perspective
US6141720A (en) * 1997-06-12 2000-10-31 Cabletron Systems, Inc. Method and apparatus for coordination of a shared object in a distributed system
US6085174A (en) * 1997-09-23 2000-07-04 Edelman; Ric Computer assisted and/or implemented process and architecture for administering an investment and/or retirement program
US6047279A (en) 1997-11-17 2000-04-04 Objective Systems Integrators, Inc. System and method for automatic network management support using artificial intelligence
US6026442A (en) * 1997-11-24 2000-02-15 Cabletron Systems, Inc. Method and apparatus for surveillance in communications networks
EP1080563A1 (de) * 1998-05-07 2001-03-07 Cabletron Systems, Inc. Pufferung mit vielfach-priorität in einem rechnernetz
US6336138B1 (en) * 1998-08-25 2002-01-01 Hewlett-Packard Company Template-driven approach for generating models on network services
US6253339B1 (en) * 1998-10-28 2001-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Alarm correlation in a large communications network
US6349306B1 (en) * 1998-10-30 2002-02-19 Aprisma Management Technologies, Inc. Method and apparatus for configuration management in communications networks
US6446136B1 (en) * 1998-12-31 2002-09-03 Computer Associates Think, Inc. System and method for dynamic correlation of events
US6239699B1 (en) * 1999-03-03 2001-05-29 Lucent Technologies Inc. Intelligent alarm filtering in a telecommunications network
AU2001295016A1 (en) * 2000-09-01 2002-03-13 Sri International, Inc. Probabilistic alert correlation
US6966015B2 (en) * 2001-03-22 2005-11-15 Micromuse, Ltd. Method and system for reducing false alarms in network fault management systems
US7603709B2 (en) * 2001-05-03 2009-10-13 Computer Associates Think, Inc. Method and apparatus for predicting and preventing attacks in communications networks

Also Published As

Publication number Publication date
US20020170002A1 (en) 2002-11-14
US7318178B2 (en) 2008-01-08
WO2002078262A1 (en) 2002-10-03
US6966015B2 (en) 2005-11-15
DE60214994D1 (de) 2006-11-09
ATE341136T1 (de) 2006-10-15
EP1382155A4 (de) 2004-09-01
EP1382155A1 (de) 2004-01-21
US20060069956A1 (en) 2006-03-30
EP1382155B1 (de) 2006-09-27

Similar Documents

Publication Publication Date Title
DE60214994T2 (de) Verfahren und system zur verringerung von falschalarmen in netzwerkfehlermanagementsystemen
DE69925557T2 (de) Überwachung des Durchsatzes eines Computersystems und eines Netzwerkes
EP1223709B1 (de) Verfahren und Vorrichtung zum rechnergestützten Überwachen eines Telekommunikationsnetzes
DE69432746T2 (de) Ereignisverarbeitungssystem und Verfahren zur Herstellen eines solchen Systems
DE60214862T2 (de) Methode für die verbesserte verwaltung von einer ereignisdatenbasis und system für ereignismeldung in einem netzwerk
DE69829759T2 (de) Verteilung von nachrichten zu dienststeuereinrichtungen
DE69832548T2 (de) Verfahren zur Erkennung von durch Signalabbau verursachten Fehlerbedingungen in SONET- und SDH-Signalen
DE10338741A1 (de) Verfahren und Vorrichtung zum Anzeigen von Meßdaten von heterogenen Meßquellen
DE102005020893A1 (de) System zur adaptiven Bestimmung von Operationseigenschaften einer ausführbaren Anwendung
DE112010003099T5 (de) Erkennung gering ausgelasteter netzeinheiten
DE10349005C5 (de) Verfahren zur Überwachung eines Netzwerks
DE10327949A1 (de) Verfahren und Vorrichtung zum Ansprechen auf Schwellenereignisse von Heterogenen Meßquellen
DE602005002418T2 (de) Verwaltungsverfahren und -system für Netzverwaltungssysteme
EP1668822B1 (de) Verfahren zur synchronisierung von alarmen in einem managementsystem eines kommunikationsnetzes
DE10318206A1 (de) Verfahren zum Konfigurieren eines Rechners
DE69633448T2 (de) Universeller objekt-übersetzungsagent
DE10338073A1 (de) Verfahren und Vorrichtung zum Vordringen zu Meßdaten von allgemein angezeigten heterogenen Meßquellen
DE60108680T2 (de) Dynamische Regelsätze für erzeugte Logbücher in einem Netz
DE60223779T2 (de) Anpassbare Datenerfassung für Netzwerkverwaltungssystem und Diensten
EP1652340A1 (de) Nachrichtenanalyseeinrichtung und verfahren zum analysieren
EP1286498A1 (de) Verfahren, Dienst-Agent und Netzwerk-Management-System zur Bedienung eines Telekommunikationsnetzes
EP3945423B1 (de) Verfahren zur detektion von anomalen betriebszuständen eines computersystems
DE60130434T2 (de) Verfahren und System zur Netzwerküberwachung
EP1763937B1 (de) Verfahren zur gesicherten datenübertragung in einem managementsystem
EP1298840A1 (de) Netzwerk-Performance-Management

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: INTERNATIONAL BUSINESS MACHINES CORP., ARMONK,, US

8328 Change in the person/name/address of the agent

Representative=s name: DUSCHER, R., DIPL.-PHYS. DR.RER.NAT., PAT.-ANW., 7