DE19531967C2

DE19531967C2 - Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems

Info

Publication number: DE19531967C2
Application number: DE19531967A
Authority: DE
Inventors: Volker Dr Tresp; Reimar Hofmann
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1995-08-30
Filing date: 1995-08-30
Publication date: 1997-09-11
Anticipated expiration: 2015-08-31
Also published as: US5806053A; JPH09128010A; DE19531967A1

Description

Die Erfindung bezieht sich auf ein Lernverfahren zur neurona len Modellierung von dynamischen Prozessen mit dem erreicht werden soll, daß das neuronale Netz in der Lage ist Prozesse mit hohem Anteil an stochastischen Vorgängen zu regeln.

Neuronale Netze finden in die vielfältigsten technischen Ge biete Eingang. Überall dort, wo es gilt, aus komplexen tech nischen Zusammenhängen und aus unzureichenden Informationen Entscheidungen abzuleiten, erweisen sich neuronale Netze als besonders geeignet. Zur Bildung einer oder mehrerer Ausgangs größen werden dem neuronalen Netz beispielsweise eine oder mehrere Eingangsgrößen zugeführt. Hierzu wird ein solches Netz zunächst für den speziellen Einsatzfall trainiert, an schließend generalisiert und danach wird es mit einem anderen Datensatz als den Trainingsdaten validiert. Neuronale Netze erweisen sich für viele Einsatzfälle als besonders geeignet, da sie universell trainierbar sind.

Ein häufig auftretendes Problem im Zusammenhang mit dem Ein satz von neuronalen Netzen besteht allerdings darin, daß häu fig die Eingangsdaten zum Training, oder beim Betrieb des Netzes nicht vollständig sind. Dieser Sachverhalt und auch die Tatsache, daß die Meßwerte für den Aufbau einer Zeitrei he, welche dem neuronalen Netz zugeführt wird, häufig ungenau oder verrauscht sind, bewirken, daß teilweise schlechte Ler nergebnisse der Netze erzielt werden. Es sind verschiedene Möglichkeiten zur Optimierung von Lernvorgängen bei neurona len Netzen bekannt. Aus den IEEE Transactions on Systems, Man and Cybernetics, Vol. 23, No. 3, May/June 1993, Seiten 686 bis 697 ist ein Lernverfahren für ein neuronales Netz be kannt, bei dem dieses Netz in einem Regelkreis eingebaut wird und mit der Regeldifferenz der Regelstrecke trainiert wird.

Ebenfalls wird dort in Form einer Kostenfunktion ein Algo rithmus angegeben, um die einzelnen Gewichte an den Neuronen einzustellen. Aus der deutschen Offenlegungsschrift DE 41 38 053 A1 ist ein hybrides Lernverfahren für künstliche neurona le Netze bekannt. Mit diesem zweistufigen Verfahren soll vor allen Dingen auch eine Optimierung auch nicht differenzierba rer Zielfunktionen in Anwesenheit vieler lokaler Optimalwerte bei vertretbarem Rechenaufwand innerhalb vertretbarer Zeit räume gegeben sein. Hierzu wird in einer ersten Stufe das Netz mit Hilfe eines genetischen Optimierungsverfahrens trai niert und in einer zweiten Stufe kommt ein Gradientenverfah ren, wie z. B. der Back-Propagation-Algorithmus zur Anwen dung. Aus dem US-Patent 5 396 415 ist ein Neuro-PID-Regler bekannt. In dieser Anwendung wird ein neuronales Netz als Er satz für einen PID-Regler in einem Regelkreis eingesetzt. Dem Netz werden hierzu PID-Eingänge zugeführt, worauf es als PID- Regler arbeitet, um damit Trainingsaufwand beim Trainieren des Netzes zu sparen und eine effizientere Regelung zu erzie len. Aus dem US-Patent 5 159 660 ist eine universelle Prozeß regelung bekannt, welche sich künstlicher neuronaler Netze bedient. Den neuronalen Netzen, welche für diese Regelung eingesetzt werden, werden hierzu als Eingänge Zeitreihen von Fehlerwerten zugeführt. Die Neuronenpfade werden dabei als Funktion dieser Fehlerwerte gewichtet und ergeben somit den gewünschten Prozeßausgang. Mit derartigen Reglern können ef fizient Prozesse mit nicht linearem, zeitvariablen, gekoppel ten und variablen Strukturverhalten sowohl mit variablen Pro zeßparametern oder Strukturunsicherheiten geregelt werden. Es gibt jedoch andere Prozesse, welche mit hohem Anteil an sto chastischen Vorgängen behaftet sind, für welche die genannten Lernverfahren nicht optimal geeignet sind.

Bei Prozessen mit hohem Anteil an stochastischen Vorgängen tritt insbesondere das Problem auf, daß die Trainingsdaten Zufallscharakter haben und deshalb bisher keine Methode exi stiert neuronale Netze mit dem Verhalten solcher Systeme zu trainieren. Bislang gibt es keine Ansätze, welche dieser be sonderen Problematik Rechnung tragen.

Die der Erfindung zugrundeliegende Aufgabe besteht deshalb darin, ein Lernverfahren anzugeben, mit dem der Lernvorgang beim Training eines neuronalen Netzes verbessert werden kann, welches das Verhalten eines technischen Systems mit hohem An teil an stochastischen Vorgängen trainieren soll.

Diese Aufgabe wird gemäß den Merkmalen des Patentanspruchs 1 gelöst.

Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Besonders vorteilhaft können mit dem erfindungsgemäßen Ver fahren neuronale Netze mit dem Verhalten von technischen Sy stemen trainiert werden, welche ein nahezu vollständig sto chastisches Verhalten aufweisen, da sich das erfindungsgemäße Verfahren statistischer Methoden zur Auswertung der Eingangs daten beim Training des neuronalen Netzes bedient. Besonders vorteilhaft werden hierzu die Stellgrößendaten, zur Erzeugung einer neuen Regelgröße des technischen Systems, mit Hilfe ei nes Rauschens von bekannter statischer Verteilung variiert. Durch eine häufige Wiederholung dieses Vorgangs und eine Be wertung der Regelgröße des technischen Systems anhand einer Kostenfunktion, wobei solche Gewichte, welche eine Verbesse rung des Verhaltens des technischen Systems in Bezug auf ein gewünschtes Sollverhalten bewirken mit Hilfe der Kostenfunk tion stärker gewichtet werden, kann eine optimale Gewicht seinstellung des neuronalen Netzes erreicht werden. Zur Ein stellung der Gewichte in Bezug auf den Fehlergradienten wer den bekannte Verfahren für das Training neuronaler Netze ver wendet.

Besonders vorteilhaft kann die Anzahl der zum Training des neuronalen Netzes aufzunehmenden Zeitreihen variiert werden, damit ist dem Fachmann die Möglichkeit gegeben, die Genauig keit der Einstellung der Gewichte des neuronalen Netzes in Abhängigkeit der ihm zur Verfügung stehenden Rechenzeit oder Rechenkapazität zu beeinflussen.

Vorzugsweise können durch Modellierung oder durch Einsatz des realen technischen Systems mehrere Zeitreihen gewonnen wer den, und deren Mittelwerte zum Training des neuronalen Netzes verwendet werden, da sich so eine bessere statistische Signi fikanz für die Richtigkeit der Trainingswerte ergibt.

Vorteilhaft wird beim Training des neuronalen Netzes als be kannte Rauschverteilung zur Variation der Stellgröße eine Gaußverteilung verwendet, da sich damit der Fehlergradient zum Training des neuronalen Netzes besonders einfach berech nen läßt.

Vorteilhaft werden mehrere Zeitreihen simuliert und gemessen, da so eine Aussage über das Verhalten der Regelgröße des technischen Systems unter verschiedenen Umständen erhalten werden kann und sich dadurch die Statistik der Zeitreihe ver bessert. Vorteilhaft kann nicht nur die Stellgröße, sondern auch die Regelgröße von einem Rauschen bekannter Verteilung überlagert sein, ohne daß das Lernverhalten des neuronalen Netzes nach dem erfindungsgemäßen Verfahren beeinträchtigt wird.

Im folgenden wird die Erfindung anhand von Figuren weiter er läutert.

Fig. 1 zeigt eine Zeitreihe und ein Systemverhalten,

Fig. 2 gibt ein Beispiel des erfindungsgemäßen Verfahrens an.

Fig. 1 zeigt eine Zeitreihe von Meßwerten, welche beispiels weise einem neuronalen Netz zugeführt werden können. Die Er läuterung dieser Figur dient insbesondere dazu die mathemati schen Grundlagen zur Behandlung des erfindungsgemäßen Verfah rens zu durchleuchten. Gemäß ihrer zeitlichen Abfolge werden diese Meßwerte beispielsweise von einem technischen System erfaßt und gemäß ihrer zeitlichen Abfolge mit y_t bis y_t-6 be zeichnet. Beispielsweise wird in Fig. 1 davon ausgegangen, daß der Wert y_t-2 fehlt. Die im Markov blanket relevanten Wer te, als benachbarte Werte dieses fehlenden Meßwertes, sind y_t-4, y_t-3, y_t-1 und y_t. Ein solch fehlender Meßwert in einer Zeitreihe kann beispielsweise dadurch entstehen, daß zum fraglichen Zeitpunkt das Meßgerät, zur Werteaufnahme nicht funktionierte, oder daß es zwischen einzelnen gemessenen Wer ten günstig erscheint, um das neuronale Netz besser zu trai nieren, diesem einen weiteren Wert zuzuführen, der folglich noch zu bestimmen ist. Beispielsweise wird in Fig. 1 weiter davon ausgegangen, daß der Wert y_t-3 fehlt. Die im Markov blanket relevanten Werte, als benachbarte Werte dieses feh lenden Meßwertes, sind y_t-5, y_t-4, y_t-2 und y_t-1. Die Anwendung des erfindungsgemäßen Verfahrens zum Training hat nach der erfinderischen Idee zur Folge, daß das Netz mit besser zu treffenden Gewichtungsfaktoren ausgestattet wird. Dies ist der Fall, weil sich die Erfindung der Statistik bedient und es so ermöglicht auch aus Zeitreihen, welche Prozessen mit hohem stochastischen Anteil von Vorgängen entnommen werden, die relevanten Trainingsdaten zu extrahieren.

Besonders vorteilhaft werden die Daten für die Stellgröße da bei durch ein Rauschen mit bekannter Rauschverteilung, wie beispielsweise Gauß-, oder Poisson-Verteilung variiert.

Hierdurch wird die Einstellung der Gewichte an den Neuronen des Netzes wesentlich vereinfacht, da sich die mathematischen Terme für die Berechnung der Regeldifferenz wesentlich einfa cher gestalten lassen. Dies in Kombination mit einer Kosten funktion, welche solche Gewichtseinstellungen begünstigt, die einen gewünschten Sollzustand am technischen System herstel len, ergibt ein vorteilhaftes Trainingsverfahren, welche mit vergleichsweise geringem Rechenaufwand zu guten Trainingslei stungen der Netze führt.

Fig. 1 zeigt dabei die Zeitreihe in Verbindung mit einem zu trainierenden neuronalen Netz NNW. Es ist zu erkennen, daß y eine zeitabhängige Variable darstellt, welche das Systemver halten SY eines technischen Systems repräsentiert. Wie er kannt werden kann, entsprechen die Werte y_t bis y_t-6 Meßwer ten, welche dem Systemverlauf SY entnommen werden. Durch die gestrichelten Pfeile zu den jeweiligen Zeitpunkten ist symbo lisiert, daß diese Meßwerte dem neuronalen Netz NN_w beim Training zugeführt werden sollen.

Hier ist der fragliche Meßwert M für den Zeitpunkt y_t-2 nicht vorhanden. Für diesen Meßwert M ist seine Wahrscheinlich keitsdichte ε1 angegeben. Diese Wahrscheinlichkeitsdichte ε kann beispielsweise aus einer vorgegebenen bekannten Fehler verteilungsdichte der übrigen bekannten Meßwerte rückgerech net werden. Insbesondere wird dabei ausgenutzt, daß sich der fehlende Meßwert zwischen zwei bekannten Meßwerten befinden muß und damit auch dessen Fehler durch die Fehler der benach barten und der restlichen Meßwerte der Zeitreihe begrenzt wird. Die zugrundeliegende Zeitreihe läßt sich wie folgt be schreiben:

y_t = f(y_t-1, y_t-2, . . . , y_t-N)+ε_t (1)

Dabei ist f entweder bekannt oder wird hinreichend durch ein neuronales Netz modelliert. ε_t bedeutet dabei einen additiven unkorrelierten Fehler mit zeitlichem Mittelwert 0. Dieser Fehler weist dabei und das ist für das erfindungsgemäße Ver fahren essentiell eine bekannte oder vorgegebene Wahrschein lichkeitsdichte P_ε (ε) auf und versinnbildlicht typischerwei se die unmodellierte Dynamik der Zeitreihe. Beispielsweise soll für eine solche Zeitreihe, ein zukünftiger Wert vorher gesagt werden. Dabei ist zu beachten, daß zukünftige Werte relativ zu der momentanen gewählten Zeitposition zu verstehen sind. Das heißt für einen Zeitpunkt y_t-5 ist der Zeitpunkt y_t-4 ein zukünftiger Wert. Unter diesen Voraussetzungen läßt sich die bedingte Wahrscheinlichkeitsdichte für einen vorherzusa genden Wert der Zeitreihe wie folgt beschreiben.

P(y_t|y_t-1, y_t-2, . . . ,y_t-N) = P_ε(y_t-1, y_t-2, . . . ,y_t-N)) (2)

Wie bereits erwähnt muß die Fehlerverteilungsdichte bekannt sein. Diese Verteilungsdichte kann entweder anhand des Sy stemverhaltens und bekannter anderer äußerer Größen ermittelt oder vorgegeben werden. Eine typische Fehlerverteilung, die in der Praxis auftritt ist die Gaußverteilung. Mit einer sol chen angenommenen Gauß′schen Fehlerverteilung läßt sich die bedingte Wahrscheinlichkeitsdichte wie folgt beschreiben:

P(y_t|y_t-1, y_t-2, . . . , y_t-N) = G(y_t-1; f(y_1-1, y_t-N), σ² (3)

Darin bedeutet G (x; c, σ²) die Notation für eine normale Dichte, die bei x bestimmt wird mit einem Zentrum C und einer Varianz σ². Geht man davon aus, daß das zu beschreibende Sy stem in Form einer Folge von Werten auf einer Zeitachse dar gestellt wird, so kann man die einzelnen Werte von y_t auch als Zufallsvariable in einem probabilistischen Netzwerk auf fassen. Beispielsweise besteht das Problem des Netzes darin, einen Wert der Zeitreihe vorherzusagen, indem die vorhandene Information aus den restlichen Werten möglichst vollständig verwendet wird. Unter Voraussetzung der Annahmen, die zuvor gemacht wurden, läßt sich die gesamte Wahrscheinlichkeits dichte der Zeitreihe wie folgt beschreiben:

Dabei wird davon ausgegangen, daß y_t-k mit k N der fehlende Wert ist. Mit der Bezeichnung y^u={y_t-k} für die Menge der unbekannten Werte und y^m={y_t-1, . . . ,y_t-h-N}/{y_t-k} kann der erwartete Wert der in der Zeitreihe vorherzusagen ist wie folgt be schrieben werden:

E(y_t|M_t-1) = ∫f(y_t-1, . . . , y_t-k, . . . , _t-N)P(y^u|y^m)dy^u (5)

Dabei gelten folgende Voraussetzungen:

M_t-1 steht für alle Messungen bis zum Zeitpunkt t-1. Die vor anstehende Gleichung ist die grundlegende Gleichung für die Vorhersage mit fehlenden Daten. Dabei ist besonders zu beach ten, daß die Unbekannte y_t-k nicht nur von den Werten der Zeitreihe vor dem Zeitpunkt t-k abhängt, sondern auch von den Messungen nach t-k. Der Grund besteht darin, daß die Variablen in y^m∪y_t ein minimales Markov blanket von y_t-k for men. Dieses minimale Markov blanket besteht aus den direkten Vorfahren und den direkten Nachfahren einer Variable und al len direkten Vorfahren von Variablen des direkten Nachfol gers. Im betrachteten Beispiel in Fig. 4 sind die direkten Nachfahren y_t . . . y_t-k+1. Die direkten Vorfahren sind:

y_t-k-1 . . . y_t-k-N

und die direkten Eltern der Nachfolger der Variablen sind:

y_t-1 . . . y_t-k-N+1.

Aus den theoretischen Grundlagen ist bekannt, daß eine Varia ble unabhängig von einer anderen Variablen dieses Netzwerkes ist, wenn die Variablen innerhalb des Markov blankets bekannt sind. Deshalb wird die benötigte bedingte Dichte aus Glei chung (5) wie folgt bestimmt:

P(y^u | y^m) ∝ P(y_t-1 | y_t-2, . . . y_t-k, . . . y_t-1-N)
×P(y_t-2 | y_t-3 , . . . ,y_t-k , . . . , y_t-2-N) . . . P(y_t-k | y_t-k-1 , . . . , y_t-k-N). (5b)

Der hier beschriebene Fall eines fehlenden Meßwertes kann auch o auf mehrere nebeneinander liegende fehlende Meßwerte ausgedehnt werden. Falls dies der Fall ist, kann die bedingte Dichte in Gleichung (5) wie im folgenden beschrieben, be stimmt werden. Für diesen Fall sei

y^u ⊆ {y_t-1, y_t-2 , . . . , y_t-n} (5c)

die Menge aller fehlenden Werte der Zeitreihe zwischen dem Zeitpunkt t-1 und t-N, und weiterhin sei

y^m ⊆ {y_t-1,y_t-2 , . . . ,y₁} (5d)

die Menge aller Meßwerte bis zum Zeitpunkt t-1. Auch gilt

P(y^u | y^m)α P(y_t-1 , . . . ,y₂,y₁) (5e)

wobei die rechte Seite in (5e) aus Gleichung (4) erhalten wird. Im allgemeinen ist das Integral in Gleichung (5), wobei
P(y^u/y^m in Gleichung (5) über die Gleichungen (2), (4) und (5b) bis (5e) bestimmt wird, für die Funktion f(), falls dies eine nichtlineare Funktion ist, nicht analytisch lösbar. De tails für die numerische Lösung mit Hilfe statistischer Me thoden werden im Zusammenhang mit Fig. 2 angegeben. Für den Fall, daß ein weiterer Meßwert, der Zeitreihe nachgebildet werden soll, sieht das Verfahren eine iterative Approximation der Wahrscheinlichkeitsverteilung der fehlenden Werte vor. Beispielsweise sei für das Training des Netzes zusätzlich der Wert L für den Zeitpunkt y_t-3 nachzubilden. Für diesen Meßwert M ist seine Wahrscheinlichkeitsdichte ε2 angegeben. Diese Wahrscheinlichkeitsdichte ε2 kann beispielsweise nach dem erfindungsgemäßen Verfahren aus einer vorgegebenen bekannten Fehlerverteilungsdichte der übrigen bekannten Meßwerte rück gerechnet werden. Für die Approximation der Wahrscheinlich keitsverteilung von zwei solchen fehlenden Werten L und M wird zunächst L beispielsweise als bekannt vorausgesetzt oder geschätzt. Daraus wird die Verteilung von M berechnet und ge mäß dieser Verteilung ein Wert für M zufällig bestimmt. Mit diesem bekannten Wert M wird anschließend in derselben Weise L bestimmt. Dieser Vorgang wird iteriert. Die Folge der so ermittelten Werte approximiert die gemeinsame Wahrscheinlich keitsverteilung von L und M. Dieser Iterationsvorgang läuft vorzugsweise so lange ab, bis eine hinreichende Genauigkeit der Werte gegeben ist, oder bis das Netz genau genug trai niert ist. Für mehr als zwei fehlende Werte verfährt man ana log. Es wird immer jeweils ein Wert gemäß der Verteilung be stimmt, die sich ergibt, wenn alle anderen als bekannt ange nommen werden.

Für den Fall, daß y₁, . . . y₁ mögliche Werte der Zeitreihe dar stellen sollen y^m ⊆ {y₁, . . . ,y_t} alle Meßwerte bezeichnen und y^u = {y₁,. . . ,y_t} alle unbekannten Werte bezeichnen. Das neuro nale Netz NN_w, welches die Funktion f modellieren soll, wer de beispielsweise mit einem Satz von Gewichten w parametri siert. Dann gilt:

f(y_t-1, . . . ,y_t-N) = NN_w(y_t-1, . . . ,y_t-N)

Die logarithmische Wahrscheinlichkeitsfunktion lautet dann:

L = log ∫P_M(y_t,y_t-1,. . . . y₂,y₁)dy^u

wobei dann die gemeinsame Wahrscheinlichkeitsdichte sich zu

approximiert und für das neuronale Netz folgender Zusammen hang für die Berechnung der Fehlerverteilungsdichte gilt:

P^M(y_t | y_t-1, y_t-2 ,. . . , y_t-N) = P_ε (y_t - NN_w(y_t-1, y_t-2, . . . ,y_t-N) (7)

Für das Lernen mit Hilfe von Backpropagation, oder anderer Gradienten basierter Lernalgorithmen wird nun noch der Gra dient der logarithmischen Wahrscheinlichkeitsfunktion benö tigt, welcher sich zu:

ergibt. Es ist anzumerken, daß hierbei von bekannten Aus gangsbedingungen für y₁, . . . ,y_N ausgegangen wird. Für den Fall, daß eine Gaußverteilung für die Fehlerverteilung vorliegt er gibt sich daraus:

wobei

die fehlenden Werte für die Eingänge des Netzwerkes darstellen und (8a) zeigt, daß falls alle y_l . . . y_l-N bekannt sind, das Integral verschwindet.

Falls die Meßwerte von einem zusätzlichen aber bekannten Rau schen überlagert werden ergeben sich die folgenden Zusammen hänge. Beispielsweise gilt wieder:

y_t = f(y_t-1, y_t-2, . . . y_t-N)+ε,

In dieser Variante der Erfindung soll jedoch kein direkter Zugriff auf y_t bestehen. Anstatt dessen wird die Zeitreihe

z_t = y_t + δ,

gemessen. Darin bedeutet δ_t ein unabhängiges Rauschen mit Mittelwert Null. Unter der Voraussetzung, daß z = {z₁ . . . z_t-1} und y = {y₁ . . . y_t} gelten ergibt sich die Gesamtwahrscheinlichkeits dichte zu:

damit läßt sich die Rechenvorschrift für den erwarteten näch sten Wert der Zeitreihe angeben.

E(y₁ | z = ∫ f(y_t-1 n . . . ,y_t-N)P(y_r-1, . . . ,y_t-N | z)dy_t-1 . . . dy_t-N (9)

Ebenso kann der Gradient der Wahrscheinlichkeitsfunktion für das Training berechnet werden. Für den Fall, daß eine Gauß verteilung des Rauschens mit

z = {z₁ . . . z_t}

vorliegt, ergibt sich:

Dem neuronalen Netz werden beispielsweise Werte zugeführt, die verrauscht oder nicht genau bestimmbar sind. Durch die Approximation der Gewichte im neuronalen Netz werden dabei über die Funktion f, welche dabei durch das neuronale Netz nachgebildet wird neue Werte der Zeitreihe bestimmbar. Diese neuen Werte der Zeitreihe werden im Anschluß dem neuronalen Netz NN_w zugeführt, welches daraus wiederum durch Nachbil dung der Funktion f neue Werte der Zeitreihe bestimmt. Die ser iterative Vorgang wird solange fortgesetzt, bis eine hin reichende Genauigkeit der zu bestimmenden Werte erreicht wur de.

Zur genauen Bestimmung fehlender Werte mit Hilfe der Monte Carlo Methode wird von folgenden Grundlagen ausgegangen. Es ist hier zu beachten, daß alle Lösungen die Form

∫h(u, m)P(u|m)du (9b)

aufweisen, wobei u den Satz von unbekannten Variablen und m den Satz von bekannten Variablen bedeutet. Ein Integral die ser Form kann beispielsweise gelöst werden, indem Zufallspro ben der unbekannten Variablen gemäß P(u|m) gezogen werden. Beispielsweise werden diese Proben mit u¹, . . . , u^s bezeichnet. Daraus ergibt sich folgender Zusammenhang für die Annäherung:

Es ist zu beachten, daß in dieser Gleichung u den Wert y_t-k, welcher fehlt, entspricht. Mit dieser erfindungsgemäßen Lö sung reduziert sich das Problem also darauf, aus P(u|m) Proben zu ziehen. Für den Fall, daß lediglich eine Variable fehlt, also beispielsweise lediglich eine Rückführung aufgetrennt wurde, reduziert sich das Problem also auf das Probenziehen aus einer einvariablen Verteilung, welche mit Hilfe des "sampling-importance-resampling" oder anderen sampling- Techniken [1] getan werden kann.

Fig. 2 zeigt ein Blockschaltbild zur Verdeutlichung des er findungsgemäßen Verfahrens. Das neuronale Netz NN_w soll hier das technische System f steuern. Zum einen ist das neuronale Netz NN_w dargestellt und zum anderen das technische System f. Die Indizes t und t-1 sind die zeitlichen Abhängigkeiten der einzelnen Werte voneinander abgegeben. Der Index -1 be deutet dabei, daß der betrachtete Wert sich in der Zeitreihe vor dem Wert befindet, welcher den Index t hat. Vom neurona len Netz wird über die Verbindungsleitung 150 die Stellgröße u_t-1 an das technische System f abgegeben. Unterwegs wird die ser Wert nach dem erfindungsgemäßen Verfahren an einer Ver knüpfungsstelle "+" mit einem Rauschen von bekannter Rauschverteilung ε überlagert. Dem technischen System f wird dieser Wert u_t-1 + ε zusammen mit dem Wert y_t-1 zugeführt. Das technische System f reagiert auf diese Stellgröße, indem es eine Regelgröße y_t erzeugt. Diese Regelgröße wird einem Ver zögerungsglied Z1 zugeführt, welche beispielsweise gleichzei tig eine Additionsfunktion enthält. Dieses Verzögerungsglied verzögert beispielsweise den vom technischen System abgegebe nen Wert y_t um eine Zeiteinheit, um so den Eingangswert über die Leitung 180 für das technische System zur Verfügung stel len zu können. Weiter wird dieser Wert y_t-1 auch über die Lei tung 100 an das neuronale Netz NN_w abgegeben. Zusätzlich ist in Fig. 2 das Rauschen δ dargestellt, welches beispielsweise an der Verknüpfungsstelle und dem Verzögerungsglied Z1 der Regelgröße überlagert werden kann. Diese Art der Überlagerung ist jedoch nicht notwendige Voraussetzung für die Funktions fähigkeit des erfindungsgemäßen Verfahrens.

Beispielsweise stellt das System eine Heizungsanlage dar, das einen Zustand y_-1 zum Zeitpunkt t-1 und eine Kontrollaktion zum Zeitpunkt t-1, welche als u_t-1 bezeichnet ist, wie etwa Einschalten, auf einen neuen Zustand zum Zeitpunkt t, der mit y_t bezeichnet ist, abbildet. Ferner wird beispielsweise ein gewünschtes Sollverhalten durch eine Kostenfunktion C(y) vor gegeben, die etwa C(y)=(y-y_soll)² lautet. Ziel ist es bei spielsweise, das System mit einem neuronalen Netz NN_w so zu steuern, daß die Kosten minimiert werden. Vorzugsweise können die Kosten in ferner Zukunft beispielsweise schwächer gewich tet werden. Hierzu wird beispielsweise ein Abschlagsfaktor γ^t-1 eingeführt, wobei 0γ1 gilt. Hierzu müssen die Parame ter des Netzes NN_w, also dessen Gewichte richtig einge stellt, d. h. trainiert werden. Dies erfolgt vorzugsweise mit tels Gradientenabstieg. Dabei dürfen u_t und y_t, auch Vektoren sein, die Kostenfunktion kann auch zeitabhängig sein, wie beispielsweise C_t (y_t). Die Anfangsbedingungen müssen dabei nicht fest sein, was kein Problem bei der Lösung nach dem er findungsgemäßen Verfahren darstellt. Im erfindungsgemäßen Fall werden das technische System und das neuronale Netz als nicht deterministisch behandelt. Zum Training des Netzes muß vorzugsweise der Gradient der Kosten nach den Gewichten be stimmt werden. Dieser ist in (11#) angegeben.

Vorzugsweise wird beim erfindungsgemäßen Verfahren das System simuliert, oder das reale System benutzt und die Stellgröße mittels Gaußrauschen überlagert. Die Kosten sind nun Zufalls größe und durch die Gleichung (12##) gegeben.

Dabei verschwindet das Produkt der Ableitung, welches sich bei einer deterministischen Lösung, die hier nicht darge stellt ist, ergeben würde. Das neuronale Netz wird nun zu nächst mittels Zufallsdaten initialisiert, d. h. die Gewichte werden irgendwie eingestellt. Anschließend wird das reale Sy stem mit den verrauschten Stellgrößen betrieben, unabhängig davon kann auch ein Modell verwendet werden, und es werden die Stellgrößen beobachtet, welche vom System abgegeben wer den. Vorzugsweise wird von mehreren Durchläufen des Systems eine Zeitreihe aufgenommen. Dabei werden beispielsweise so wohl die Stellgrößen als auch die Regelgrößen protokolliert. Im Anschluß wird diese Zeitreihe dem neuronalen Netz zuge führt, um eine günstige Steuerung des technischen Systems zu erlernen. Durch die vorgegebene Kostenfunktion werden dabei solche Gewichtsveränderungen am neuronalen Netz begünstigt, d. h. verstärkt oder weniger gedämpft, welche geringere Kosten bewirken. Falls dieses Trainingsverfahren mehrfach durchge führt wird, d. h. falls mehrere Zeitreihen aufgenommen werden, und mit diesen das neuronale Netz trainiert wird, so ergibt sich eine sehr zuverlässige Einstellung der Gewichte des neu ronalen Netzes. Unabhängig von der beispielhaft vorgestellten Kostenfunktion können auch andere Kostenfunktionen angedacht werden. Letztendlich ist es wichtig, daß diese Kostenfunktion eine Verstärkung, bzw. Abschwächung der am Netz eingestellten Gewichtsfaktoren bezüglich eines günstigen Systemverhaltens des technischen Systems erreicht.

Durch das erfindungsgemäße Verfahren kann auf diese Weise über einer statistischen Verteilung der Zeitreihen mittels zufällig gestörter Stellgrößen eine Einstellung der Gewichte am neuronalen Netz gefunden werden, welche ein günstiges Sollverhalten des technischen Systems bewirkt.

Fig. 2 erläutert weiter ein Beispiel des erfindungsgemäßen Verfahrens anhand eines Blockschaltbildes. Gemäß diesem Bei spiel sei eine Zeitreihe der Form:

y_t =f(y_t-1, u_t-1)+δ_t (1#)

gegeben mit

u_t=NN_w(y_t)+ε_t (1##)

und T:
Intervallbreite zur Erreichung des Sollzustandes.

Nach dem erfindungsgemäßen Verfahren soll nun das neuronale Netz so trainiert werden, indem die einzustellenden Gewichte an den Neuronen so gewählt werden, daß die gemäß einer Ko stenfunktion zu bewertenden erwarteten Kosten innerhalb des Intervalles T minimiert werden. Diese lassen sich allgemein als

darstellen mit:

γ1 Abschlagsfaktor für zukünftige Werte der Zeit reihe

Wahrscheinlichkeit für das Auftreten bestimm ter Werte innerhalb der Zeitreihe.

Um das Regelverhalten des neuronalen Netzes zu optimieren, wird gemäß dem erfindungsgemäßen Verfahren zunächst der Gra dient der zu erwartenden Kosten nach den Gewichten des neuro nalen Netzes gebildet:

diese Lösung kann durch stochastisches Sampling approximiert werden, indem die Gleichung (9c) analog angewendet wird. Das heißt in diesem Fall, daß das neuronale Netz zusammen mit dem technischen System, oder seinem Modell mehrere Zeitzyklen lang betrieben wird, und daß mehrere Zeitreihen von y und u aufgenommen werden. Die Mittelwertbildung der mit diesen Zeitreihen gebildeten Gradienten, führt dann zu den Werten, welche für das Training Verwendung finden. Fallweise kann es hierzu jedoch günstig sein die Kostenfunktion so zu gestal ten, daß große Gewichte an einzelnen Neuronen bestraft wer den, also hohe Kosten verursachen, oder die Zahl und Stärke der Steueraktionen des Netzes berücksichtigt, um unendlich starke Steueraktionen vermeiden zu können. Mit der obigen Voraussetzung für u_t ergibt sich

als Gradient für die zu erwartenden Kosten. Durch analoge An wendung von (9c) vereinfacht sich dieser zu

mit:
T: Anzahl der Zeiteinheiten je Zeitreihe
S: Anzahl der Zeitreihen
γ1 Abschlagsfaktor für zukünftige Werte der Zeitreihe
NN_w: vom neuronalen Netz erzeugter Wert

Literatur

[1] Bernardo, J.M., Smith, A.F.M. (1994) Bayesian Theory. Wiley & Sons.

[2] Buntine, W.L. and Weigend, A.S. (1991). Bayesian Back- Propagnation. Complex systems, Vol.5, pp 605-643.

[3] Ghahramani, Z. and Jordan, M.I. (1994. Supervised Learning from Incomplete Data via an EM approach. In: Cowan, J.D. et al., eds., Advances in Neural Information Processing Systems 6, Morgan Kaufman.

[4] Tresp, V., Ahmed, S. and Neuneier, R. (1994). Training Neural Networks with Deficient Data. In: Cowan, J.D. et al., eds., Advances in Neural Information Processing Systems 6, Morgan Kaufman.

Claims

1. Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems,

a) bei dem das neuronale Netz mit dem technischen System, oder einem Modell davon so in einen Regelkreis eingebunden wird, daß das neuronale Netz als Ausgangsgröße mindestens ei ne Stellgröße an das technische System, oder sein Modell ab gibt und das technische System oder sein Modell aus der vom neuronalen Netz zugeführten Stellgröße, mindestens eine Regelgröße erzeugt, die dem Neuronalen Netz als Eingangsgröße zugeführt wird,
b) bei dem die Stellgröße mit einem Rauschen von bekannter Rauschverteilung überlagert wird, bevor sie dem technischen System oder seinem Modell zugeführt wird,
c) und bei dem die Gewichte des neuronalen Netzes in Reaktion auf die durch das aufgeprägte Rauschen veränderte Regelgröße wie folgt eingestellt werden:
es wird von einer Kostenfunktion bewertet, ob die Gewichtsän derung am Netz, die nach bekannten Lernverfahren eingestellt wird, eine Verbesserung der Regelgröße in Bezug auf ein Soll verhalten des technischen Systems bewirkt hat und solche Ge wichtseinstellungen werden durch die Kostenfunktion begün stigt.

2. Verfahren nach Anspruch 1, bei dem die Gewichtseinstellungen durch die Kostenfunktion dahingehend bewertet werden, ob die Gewichtsänderung am Netz, die nach bekannten Lernverfahren eingestellt wird, eine Ver schlechterung der Regelgröße in Bezug auf ein Sollverhalten des technischen Systems bewirkt hat und solche Gewichtsein stellungen durch die Kostenfunktion abgeschwächt werden.

3. Verfahren nach Anspruch 1 oder 2, bei dem die Gewichte des neuronalen Netzes in Reaktion auf die durch das aufgeprägte Rauschen veränderte Regelgröße wie folgt eingestellt werden:

i) die Neuronengewichte werden beliebig initialisiert; der Regelkreis wird eine Mehrzahl von Zeitzyklen betrieben und es werden sowohl die Regelgröße, als auch die Stellgröße in Form von je einer Zeitreihe protokolliert,
ii) die Neuronengewichte werden nach bekannten Lernverfahren eingestellt und es wird jeweils für jeden Wert der Zeitreihe der Gradient der Gewichtsänderung an den Neuronen in Abhän gigkeit von der Stellgröße und des bekannten Rauschens bestimmt, wobei dieser Vorgang mehrfach wiederholt wird und dabei von einer Kostenfunktion bewertet wird, wie günstig sich die Re gelgröße in Bezug auf ein Sollverhalten des technischen Sy stems als Reaktion darauf verhält.

4. Verfahren nach Anspruch 2, bei dem eine Vielzahl von Zeit reihen aufgenommen wird und die Neuronengewichte für je weils eine Zeitreihe bestimmt werden, welche als Einzelwerte die arithmetischen Mittelwerte der aufgenommenen Zeitreihen hat.

5. Verfahren nach einem der vorangehenden Ansprüche, bei dem eine Gaußverteilung als bekannte Rauschverteilung verwendet wird.

6. Verfahren nach Anspruch 4, mit einer Zeitreihe der Formel: y_t = f(y_t-1, u_t-1)
u_t = NN_w (y_t)+ε_tmit: NN_w: vom neuronalen Netz erzeugter Wert
bei dem die Gewichte an den Neuronen wie folgt bestimmt wer den: mit:
T: Anzahl der Zeiteinheiten je Zeitreihe
S: Anzahl der Zeitreihen
γ1 Abschlagsfaktor für zukünftige Werte der Zeitreihe.

7. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Regelgröße mit einem Rauschen von bekannter Rauschvertei lung der Form u_t = NN_w(y_t)+δ_tüberlagert wird
mit: